第41卷第1期佳木斯大学学报(自然科学版)Vol.41No.12023年01月JournalofJiamusiUniversity(NaturalScienceEdition)Jan.2023文章编号:1008-1402(2023)01-0171-04基于随机森林算法的人口空间化研究①李红春(滁州城市职业学院,安徽滁州239000)摘要:大幅度人口数量的增加和城市化水平的不断发展,加大了城市管理和资源配置的难度。为更好探究人口空间化变化特征以协调资源配置,研究在基于随机森林算法基础上,选取夜间灯光和信息点等多源数据进行影响机制分析,发现森林算法模型估算的人口数值主要集聚在网格的左下角部分,且其分布呈现出“中心高值聚集-四周低值环绕”的空间格局,该模型可以解释因变量约86.3%的变异,拟合效果较好。同时住宅用地特征数量与其特征贡献值之间呈现上升态势,生活服务点核密度为0.3-0.9时的特征贡献值基本维持在200-400之间,表明两者对人口估算值具有正向作用,有助于探究人口空间精细分布的影响因素,并为后续研究人口空间化分布态势提供了新的思路。关键词:随机森林算法;人口;特征贡献;空间化;模型误差中图分类号:P208文献标识码:A0引言随机森林(RandomForests,RF)算法是利用决策树进行分类的一种集成学习算法,常用于学习分类、回归和聚类问题,该算法可以通过对缺失数据的补充和分类值建模实现较好的运行效果和运行方式[1]。同时随机森林算法在训练过程中,可以通过借助袋外数据(Out-of-bag,OOB)实现数据真实误差的无偏估计,以检测特征点之间的相互影响,且部分学者常借助随机森林算法对行政单元进行建模来探究其空间化,但多局限于算法本身,而较少将其引入网格中进行研究,难以对人口空间分布与其影响因素之间有较为清楚的逻辑关系[2]。鉴于此,研究在基于随机森林算法的基础上,加强模型对信息特征的提取,并以处理后的相关人口空间化支撑数据来进行多维特征模型的构建,以各特征点的重要性来评估其在模型中的影响程度,进而实现人口估算。1随机森林算法下的人口空间化模型构建1.1基于随机森林算法的特征改进与提取随机森林算法将采样集训练成多棵决策树,并对决策树进行预测最终得到预测结果,以选取的特征点作为根节点来计算决策树的分支,其最重要的是对特征点的筛选和分类,即通过判断该特征点是否符...