基于
Adaboost
算法
房地产
特征
价格
评估
模型
研究
晚秋
行业聚焦202023/04REAL ESTATE WORLD基于 Adaboost 算法的房地产特征价格评估模型研究肖晚秋黄宏武王丽房地产业的健康发展对 GDP 的增长和人民生活水平的提高起着至关重要的作用。价格是调节资源配置的看不见的手,对房地产进行正确定价不仅直接影响着房地产业的健康发展,还进一步影响整个国民经济的可持续发展。近年来,我国房地产市场呈下行趋势,部分城市住房价格下滑,市场的观望气氛浓厚。在“房住不炒”的大前提下,政策仍然支持和鼓励合理的住房需求,刚性和改善性住房需求或将成为房地产市场的关键支撑点。为促进刚性和改善性住房需求入市,相关学者有必要对房地产价格进行评估,为消费者、政府部门以及其他市场参与者提供可靠的决策依据。大多数学者主要从宏观角度来研究房价的影响因素,例如 GDP、人口数量、人均收入、人均存款、房地产开发投资额等。这些研究成果可用来评估一个地区的平均房价水平,但无法确定某一套房子的具体价格。鉴于此,部分学者开始采用特征价格法来评估房价。特征价格法从区位特征、邻里特征和建筑特征等相对微观的角度来评估房屋价格,可以做到“一房一价”。特征价格法解决了自变量选取的问题,但没有解决算法问题。学者最初主要采用传统的线性回归算法,后来有少部分学者采用机器算法,如 BP 神经网络、随机森林、XGBoost 等算法。在一般情况下,机器算法的精度尽管高于传统算法,但仍有较大的提升空间。相较于其他学习算法,Adaboost 算法较少出现过拟合现象,其稳定性和泛化能力更强。本研究建立了Adaboost回归模型、随机森林模型和XGBoost回归模型。研究结果表明,Adaboost 回归模型的预测效果优于随机森林模型和 XGBoost 回归模型。1 相关研究大部分学者从宏观角度对房价进行研究,例如,Bojan Grum 和 Darja Kobe Govekar 研究发现,房价与失业率、股票指数、国内生产总值和工业生产总值有着显著的相关性1;李贤增研究了人口、GDP、信贷规模、土地供应、利率等因素对房地产价格的影响2;王绍钢利用城镇人均可支配收入、人均地区生产总值、城镇人口比重、竣工房屋造价、住宅开发投资和常住人口等影响因素对房价进行了预测。3摘要:房地产价格评估在推动房地产业和我国经济的可持续发展方面具有重要意义。为了实现对房地产价格的精准评估,本文建立了基于 Adaboost 算法的房地产特征价格评估模型。本文从某房地产网站获取区位特征、邻里特征和建筑特征数据并建立模型,然后利用 Adaboost 算法对房价进行评估。为了对比模型的效果,本文同时建立了 Adaboost 回归模型、随机森林模型和 XGBoost 回归模型,以均方误差、均方根误差、平均绝对误差、平均绝对百分比误差和拟合优度作为模型评定标准。对比结果表明,Adaboost 回归模型预测精度高、泛化能力好,其多项评估指标优于其他两种模型。模型的特征重要性排序表明,区位特征和邻里特征对房价的影响远高于建筑特征;政府应均衡配置公共资源,以增强偏僻地段房地产的区位优势和邻里优势。本研究旨在提高房地产价格评估精度,促进房地产业的长远健康发展。关键词:Adaboost 算法;特征价格;房地产;评估模型基金课题:广东省哲学社会科学“十三五”规划 2020 年度学科共建项目“基于巩固扶贫成果的消费扶贫和深度贫困地区农业产业扶贫协同发展研究”(项目编号:GD20XYJ02);广州市哲学社会科学发展“十四五”规划 2021 年度共建课题“成本推动、需求拉动:什么推动了广州房价上涨?”(课题编号:2021GZGJ27);广东培正学院 20212022 年校级重点科研项目“泡沫要破裂了吗?深圳市房地产可持续发展研究”(项目编号:22PZXJZD002)。行业聚焦房地产世界2023/0421为了具体评估某套房子的价格,有学者提出了特征价格模型。美国教授 Rosen 于 1974 年对特征价格理论进行了全面系统的阐述。此后,特征价格模型成为研究异质性商品价格的基础模型。特征价格模型可以建立影响房价的微观特征因素与房价之间的函数关系,用于对房地产价格进行预测。大部分学者在应用特征价格法预测房价时,主要采用线性模型。例如,黄明宇、夏典建立了因变量为二手房售价,自变量分别为建筑面积、使用年限、户型等 11个参数的多元线性回归模型,并对房价进行预测。4由于各种因素对房价的影响较为复杂,两两之间不一定是简单的线性关系,因此不少学者转向适合研究非线性关系的机器学习算法。例如,陈世鹏、金升平利用随机森林模型进行房价预测,并将其与 ARMA 模型、经典的多元线性回归模型进行对比。结果显示,随机森林模型取得了较好的预测效果。5丁旸钧天、曹怀虎将融合模拟退火的随机森林算法应用于房价评估,使评估的准确度得到了明显提高。6徐延琳选择区位特征、建筑特征和邻里环境三大类共计 15项特征变量,建立随机森林模型和逻辑回归模型。研究结果显示,随机森林模型预测结果优于逻辑回归模型。7龚洪亮利用 XGBoost 算法建立房价预测模型,并将其与LASSO 回归模型进行比较,发现 XGBoost 算法具有较为明显的预测优势。8张志锋、崔亚东等人利用 XGBoost算法建立房价预测模型、线性回归模型、岭回归模型和LASSO 回归模型,并对各模型的模拟结果进行比较。研究结果显示,XGBoost 回归模型的效果更好。9大部分机器算法的精度较高,但容易出现过拟合现象;而 Adaboost算法较少出现过拟合现象,其泛化能力更强。因此,本研究采用 Adaboost 算法来建立房地产特征价格模型。2 模型设计2.1 特征价格法特征价格法是美国教授 Rosen 结合效用理论和竞价理论建立的一种模型。该模型认为,异质性产品的不同个体之间存在很大的差别,而产品差别是由产品的不同特征所导致的。产品的各种特征可以为消费者带来效用,消费者愿意为之支付的价格即特征价格。特征价格之和便构成了商品的最终价格。特征价格模型适用于研究异质性产品价格的影响因素、形成机制等问题。根据特征价格理论,住房作为一种异质性产品,具有多种特征。住房价格为多个特征价格的总和,是建筑特征、邻里特征、区位特征等特征变量的综合反映和表现。2.2 Adaboost 算法Adaboost 是 Yoav Freund 和 Robert E.Schapire在 1995 年提出的一种机器学习算法,该算法是一种集成算法。10集成算法主要有三种,即 Bagging、Boosting和 Adaboost 算法。Adaboost 算法是在前面两种算法的基础上改进而来的,该算法最大的优势是可以将弱分类器提升为强分类器。弱分类器是指分类效果仅好于随机分类的分类器,强分类器是指分类效果好、准确率高的分类器。Adaboost 算法在训练过程中使用自适应权重的方法,在每轮训练结束后进入新一轮训练时,提高上一轮训练中分类错误的样本权重,降低上一轮训练中分类正确的样本权重,从而迫使下一个分类器聚焦于上一轮训练中分类错误的样本。而在分类器集成时,该算法会提高正确率高的分类器的权重,降低正确率低的分类器的权重。经过多次训练,这些弱分类器最后整合为强分类器。理论上,当训练样本足够多时,Adaboost 算法能够完美地拟合任意训练样本,其拟合优度非常高,甚至接近于 1,而训练误差接近于 0。Adaboost 算法使用的分类器是弱分类器,弱分类器的错误率可能比较高,但它的分类效果较好,能够改善最终的模型。相对于错误率低的强分类器来说,弱分类器更容易获取,数量巨大,而机器算法正是建立在大数据的基础之上的。因此,Adaboost 算法可有效提高模型的精度和泛化能力。2.3 基于 Adaboost 算法的房地产特征价格评估模型首先,笔者根据房地产特征价格法选取影响房地产价格的重要因素并建立模型,这些因素包括区位特征、邻里特征、建筑特征。其次,笔者从某房地网站获取相关数据。最后,笔者将数据输入 Adaboost 回归模型中进行测试,选取合适的参数,优化预测结果。3 实证分析3.1 样本采集在收集房价数据前,笔者分析了国内主流房地产网站的搜索热度及权重,选择某房地产网站上的广州市二手房价格数据作为样本。样本时间为 2022 年 1 月 1 日到2022 年 12 月 13 日。笔者收集的特征变量涵盖了区位特征、邻里特征和建筑特征,具体包括区县、街道、成交周期、调价次数、关注次数、浏览次数、房屋户型、所在楼层、建筑类型、房屋朝向、装修情况、建筑结构、是否配备电梯、房屋用途、房屋年限、房权所属、容积率、小区户数、小区车位数量、2 km 内地铁数量等 20 个特征变量,总共获得 19 410 条记录。笔者用小区车位数量除以小区户数,行业聚焦222023/04REAL ESTATE WORLD得到户均车位数量,把户均车位数量作为特征变量并取代小区户数和小区车位数。户均车位加上区县、房屋户型等其他 18 个特征变量,一共有 19 个特征变量可用于建立模型。在获取数据后,笔者对数据进行清洗。清洗内容主要包括缺失数据处理、异常数据处理、逻辑错误检测等,清洗之后剩余的数据量为 14 275 条。3.2 分析步骤(1)笔者利用训练集数据来建立 Adaboost 回归模型,将上述 19 个特征变量作为自变量,将房屋单价作为因变量,建立房价预测特征模型,并将清洗好的数据经过标准化处理后输入模型中进行训练。为了提高模型的质量,笔者使用交叉验证训练方式,将 70%的样本用来进行样本训练,其余的数据用于交叉验证和预测。(2)笔者利用建立的 Adaboost 回归模型来计算特征重要性。(3)笔者用建立的 Adaboost 回归模型来训练、测试数据,得到模型预测结果。(4)笔者建立随机森林模型,并将其与 Adaboost回归模型进行比较。(5)笔 者 建 立 XGBoost 回 归 模 型,并 将 其 与Adaboost 回归模型进行比较。3.3 Adaboost 回归模型预测结果3.3.1 特征重要性笔者在 Adaboost 回归模型运行结束后,绘制出特征重要性示意图(见图 1)。该图可以衡量各自变量对因变量的影响程度。图 1 显示,街道是影响房价的最重要因素,它的重要性指标为 22.6%,甚至超出了区县指标(区县的重要性指标仅为 8.3%)。在一般情况下,人们认为区县的重要程度更高,例如,广州市天河区的平均房价高于从化区。但是 Adaboost 回归模型表明,街道对房价的影响更大。这种结果具有一定的合理性,因为相较于区县,街道与房子的关系更密切。同一个街道的房子拥有类似的地段优势,例如交通设施、教育水平、医疗条件等,所以同一街道的房价比较接近。区县的范围比较广泛,同一个区县内有多条街道,有些街道处于繁华地段,寸土寸金,房价高企;图 1特征重要性示意图街道2 km内地铁数量户均车位数量区县容积率房屋户型成交周期是否配备电梯浏览次数房屋用途房屋朝向关注次数调价次数所在楼层建筑类型装修情况房屋年限房权所属建筑结构行业聚焦房地产世界2023/0423有些街道较为偏僻,房价便宜。因此,同一区县的不同街道之间的房价差距较大。第二个重要特征是 2 km 内地铁数量。地铁数量一方面直接影响小区的出行条件,另一方面从侧面反映了该小区所处的地段是否繁华。一般来说,繁华地段的地铁数量较多,偏僻地段的地铁数量较少甚至不通地铁。第三个重要特征是户均车位数量。目前大部分研究人员没有考虑这个特征,取而代之的是直接研究小区总户数和车位总数量。然而,对小区的住户来说,户均车位数量是更有意义的指标。这个指标的重要性上升,表明拥有汽车的家庭数量不断增加,导致停车位的需求不断上升。同时,户均车位数量也能体现小区居民购买能力和小区档次,因而其对房价的影响也比较大。排名前五位的重要特征依次为街道、2 km内地铁数量、户均车位数量、区县和小区的容积率,这些指标是小区的区位特征和邻里特征,而不是建筑本身的特征。排名后五位的特征依次为建筑类型、装修情况、房屋年限(是否满两年、满五年)、房权所属