SO SÁNH CÁC MÔ HÌNH HỌC MÁY TRONG ĐỊNH GIÁ ĐẤT HÀNG LOẠT – NGHIÊN CỨU TẠI KHU VỰC CẦU GIẤY, THÀNH PHỐ HÀ NỘI
Bùi Ngọc Tú1, Mẫn Quang Huy1*, Lê Phương Thúy1
[1]Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội*E-mail: mqhuy@hus.edu.vn; ĐT: 098 2608 395
TÓM TẮT
Trong bối cảnh thị trường bất động sản ngày càng phát triển, nhu cầu định giá nhanh chóng và chính xác với lượng dữ liệu lớn trở nên cấp thiết. Học máy đã nổi lên như một phương pháp tiềm năng nhờ khả năng xử lý dữ liệu đa dạng với độ chính xác cao, đồng thời có thể phát hiện các mối quan hệ phi tuyến tính giữa các yếu tố ảnh hưởng đến giá đất. Nghiên cứu này tiến hành so sánh bốn mô hình học máy: Random Forest (RF), Extra Tree Regressor (ETR), Gradient Boosting (GB) và Extreme Gradient Boosting (XGBoost) trong việc định giá đất tại khu vực Cầu Giấy, Hà Nội. Tập dữ liệu gồm 512 điểm giá tại khu vực Cầu Giấy với 14 thuộc tính liên quan đến thửa đất. Kết quả cho thấy mô hình XGBoost có hiệu suất tốt hơn so với ba mô hình còn lại. Bằng việc sử dụng kỹ thuật SHAP (SHapley Additive exPlanations), nghiên cứu đã xác định các yếu tố như vị trí, thời điểm giao dịch và độ rộng đường là ba yếu tố có tác động lớn nhất đến giá đất tại khu vực Cầu Giấy.
Từ khóa: định giá đất hàng loạt, nghiên cứu so sánh, học máy, Cầu Giấy.
SUMMARY
Comparison of machine learning models for mass appraisal of residential land:
A case study in the Cau Giay area, Hanoi
Bui Ngoc Tu1, Man Quang Huy1, Le Phuong Thuy1
1VNU – University of Science
In the context of the rapidly developing real estate market, the need for rapid and accurate property appraisal with large datasets has become increasingly critical. Machine learning has emerged as a promising approach due to its ability to process diverse data with high precision and detect non-linear relationships between the factors influencing land prices. The comparison and evaluation of the machine learning models with the best performance in a given dataset context is a key focus of many studies. This research compares four machine learning models: Random Forest, Extra Tree Regressor, Gradient Boosting, and Extreme Gradient Boosting (XGBoost) in mass appraisal of urban residential land in Cau Giay area, Hanoi. The dataset consists of 512 observations, with 14 features related to land parcels. The results indicate that the XGBoost model outperforms the other three models. By employing the SHAP (SHapley Additive exPlanations) technique, the study identified location, transaction timing, and road width as the three most influential factors affecting land prices in Cầu Giấy area.
Keywords: mass appraisal, comparative study, machine learning, Cau Giay.
Ngày nhận bài: 25/3/2025
Ngày thông qua phản biện: 25/5/2025
Ngày duyệt đăng: 16/6/2025