温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
随机
森林
算法
人口
空间
研究
李红春
第 卷 第期佳 木 斯 大 学 学 报(自 然 科 学 版)年 月 ()文章编号:()基于随机森林算法的人口空间化研究李红春(滁州城市职业学院,安徽 滁州 )摘要:大幅度人口数量的增加和城市化水平的不断发展,加大了城市管理和资源配置的难度。为更好探究人口空间化变化特征以协调资源配置,研究在基于随机森林算法基础上,选取夜间灯光和信息点等多源数据进行影响机制分析,发现森林算法模型估算的人口数值主要集聚在网格的左下角部分,且其分布呈现出“中心高值聚集四周低值环绕”的空间格局,该模型可以解释因变量约 的变异,拟合效果较好。同时住宅用地特征数量与其特征贡献值之间呈现上升态势,生活服务点核密度为时的特征贡献值基本维持在 之间,表明两者对人口估算值具有正向作用,有助于探究人口空间精细分布的影响因素,并为后续研究人口空间化分布态势提供了新的思路。关键词:随机森林算法;人口;特征贡献;空间化;模型误差中图分类号:文献标识码:引言随机森林(,)算法是利用决策树进行分类的一种集成学习算法,常用于学习分类、回归和聚类问题,该算法可以通过对缺失数据的补充和分类值建模实现较好的运行效果和运行方式。同时随机森林算法在训练过程中,可以通过借助袋外数据(,)实现数据真实误差的无偏估计,以检测特征点之间的相互影响,且部分学者常借助随机森林算法对行政单元进行建模来探究其空间化,但多局限于算法本身,而较少将其引入网格中进行研究,难以对人口空间分布与其影响因素之间有较为清楚的逻辑关系。鉴于此,研究在基于随机森林算法的基础上,加强模型对信息特征的提取,并以处理后的相关人口空间化支撑数据来进行多维特征模型的构建,以各特征点的重要性来评估其在模型中的影响程度,进而实现人口估算。随机森林算法下的人口空间化模型构建基于随机森林算法的特征改进与提取随机森林算法将采样集训练成多棵决策树,并对决策树进行预测最终得到预测结果,以选取的特征点作为根节点来计算决策树的分支,其最重要的是对特征点的筛选和分类,即通过判断该特征点是否符合运行标准而进行舍弃或保留,并对包括决策树的深度、子树的数量、最大特征数、划分子树的评价函数等参数进行动态调整以保证模型性能的良好运行。研究通过利用学习器的性能来评价所选择的特征集,并以对特征添加噪声加以提升袋外误差的精度,保证特征点属性的精度和模型和泛化性。图为随机森林模型中特征计算重要性的流程图。通过各轮筛选来判断特征集与指定阈值之间的大小关系,若超过了相关的标准就使其退出迭代过程,并取上一轮筛选出结果来作为该决策树的实际特征集,使其在给定的误差范围内选择最优特征集,可以达到节约时间、筛选结果的效果。对于指定阈值的设置要为了剔除不相关特征和所相关特征,使得每次测试的偏差在可控范围内,又不会对实验数据结果造成影响。特征点和特征选取标收稿日期:基金项目:年安徽省高校人文社会科学研究项目()。作者简介:李红春(),男,安徽全椒人,讲师,研究方向:人文地理。佳 木 斯 大 学 学 报(自 然 科 学 版)年准的计算公式如式()所示。()(,),(),()()()式()中,为特征的重要性,为特征,是决策树在袋外数据上的分类错误,为加入干扰因素后的分类错误数,是随机森林包含的决策树个数,(,)为信息增益,表示的是特征变量,为训练集,为经验熵,表示特征取值的个数。随机森林模型以决策树进行分类器的构建以组成具有数据挖掘研究的强分类器,其中单棵决策树的特征选择标准是信息增益,即某个特征对所得到的信息的不确定减少的程度,与熵有关。图计算特征重要性的流程图基于随机森林模型对人口分布的特征解释及空间误差控制将与人口空间化相关的数据,如兴趣点(,)、夜间灯光和土地利用数据等进行衍生数据提取并与地理配准,建立起模型特征库,随后导入模型,但模型在决策过程中难以对子树创建的时间、判定的特征等有较为详细的了解。故在此基础上,研究引入用以解释随机森林模型的决策树工具,探究其特征因子度与模型之间的关系,即决策树在结点处进行不断估计和分解,以缩小测试范围,使得估计值逐渐趋同于真实值。决策树的规则路径如同是一个规则集合对样本的处理实现统一标准的处理,估计值的计算公式如式()所示。(,)(,)()(,)()式()中,为估计值,是决策路径的深度,为根结点处全样本因变量的平均值,为对应结点估计值的增益值,即该增益值的计算值为上一结点与当前结点的因变量的平均值的差值,为偏置项。决策树路径中的结点使得估值结果产生了相关增益的偏差,即认为估计值的计算公式也可以表示为特征贡献与偏置项的和。为决策树的叶子结点数量,为第个叶子结点对应的特征空间子集,为常数,为 指 示 函 数,为 参 与 估 计 的 特 征 数 量,(,)为第个参与估计的特征贡献值。()为随机森林模型估计值与特征贡献之间的关系,为森林模型中的子树数量。决策树中每个结点所提供的特征贡献是由该决策路径下的特征向量所决定的,不存在固定不变的情况。探究人口空间化分布特征,常引入莫兰指数进行聚集情况分析,全局莫兰指数和局部莫兰指数可以用来判断空间聚类现象的聚集层度和分析聚类现象的空间分布,全局莫兰指数只是对空间分布做一个整体评价,具有一定的局限性,其数值为正则表示数据属性在空 间 上 正 相 关,趋 于 聚 集 态 势。而局部莫兰指数可以对相似变量面积单元的空间形态的高 低 值分布 情况进行描 述,其 计 算 公 式如式()所示。()()()()式()中,为区域,的样本点个数,为空间权重矩阵与之间的取值,由领接标准来确定的。同时在对变量进行空间分析时,常会因数据统计选取的不完整性和传统模型对空间效应的忽视而使得模型与现实之间存在着一定的偏差,使得结果与实际理论之间存在着差距,故还需要引入空间误差模型(,)来判定特征数据在空间中的分布依赖作用是否存在相关误差扰动项的影响。其计算如式()所示。,第期李红春:基于随机森林算法的人口空间化研究 ,()(,)()式()中,为第个地区在年的值,为待估参数,为误差项空间自回归参数,为空间权重矩阵,(,)为误差模型的随机误差项。基于随机森林下的人口空间化应用结果分析人口空间化的估算精度分析通过利用栅格数据获取人口空间化数据需要考虑到数据对人口分布的物理范围特征的表现情况,将相关的自变量和因变量进行回归参数求解,并将该回归关系迁移到网格中,以某街道内、某土地类型上的人口进行预估,最终得到实际格网中的预估人数。但基于随机森林算法的模型在对人口空间上的精细化预估上还存在着一定的偏差,故需要对其进行修正以降低估算误差。将网格数估算的人口空间分布情况进行的回归方程计算,并将其与实际人口数据进行分析,得到图。图人口空间分布的估算值与实际值之间的回归散点图及人口估算格网示意图图为随机森林模型估算得到的人口数据的与实际人口数值之间的回归散点图,图中每一个点代表实际网格中的一个网格单元。从图()中可以看出的是,模型所估算的人口与实际人口数值之间的差别相差不大,其主要聚集网格数值左下角部分,拟合曲线为.,决定系数为 ,表明该模型可以解释因变量约 的变异,拟合效果较好。而误差相差较大的部分主要在散点图的的左上方,原因在其所获得的人口数据存在部分缺失,但总体情况表明,基于随机森林算法模型所估算的是人口空间化具有较好的效果。图()为某市人口空间分布估算格网示意图,经过观察和对比发现,估算格网下的人口数量与实际情况基本一致,总体精度较高,且其人口的分布呈现出“中心高值聚集四周低值环绕”的空间格局,其原因在于多为人口的分布多受到经济发展水平和土地利用类型的影响。人口空间化分布特征的特征贡献空间结果特征贡献作为一种可以衡量模型在估计数值时所起到的影响程度大小的量化指标,可以较好地反映出随机森林模型在对变量和指标计算时的逻辑关系,进而更加清楚地理解各个特征量与人口估算之间的关系。对于某些特定的特征贡献样本来说,其数值的高低表明其相较于总体样本平均值,会使得估计值的变化也相应呈现增加或降低状态,同时也可以反映出人口在某些区域聚集的可能性高低。如大部分的住宅用地或者是餐饮服务聚集较多的地方,其所反映出来的特征贡献值也相应地呈现正值或高数值,进而对人口的估算值产生一定的影响。图为部分特征贡献值与贡献之间的关系。图为特征值与特征贡献值之间的散点关系图和拟合关系的,图()中,随着住宅用地特征数量的增加,相应地其特征贡献值也呈现上升态势,表明住宅用地面积的增加能反映出人口分布数量的增加,其特征贡献值最大可以达到 ;图()中,核密度的大小能够反映出某区域内涵盖特定功能的信息点聚集的数量分布状况,从图中可以看出,特征贡献值在信息点核密度在之前随着生活服务点密集程度的增加而逐渐增加,但在核密度在之间,具有拟合效果的曲线经历了两个峰顶和一个谷底,其特征贡献值的数值变化情况基本维持在 之间的范围内,表明生活服点的聚集程度能够在一定程度上影响到人口数量的变化,具有一定的分化特征;图()中,佳 木 斯 大 学 学 报(自 然 科 学 版)年夜间灯光强度所表示出的特征贡献值在正负区域内分布情况相当,不具有显著的正相关关系,其原因在于夜间灯光来源的复杂性,除了人口聚集的家庭照明灯光外,道路灯光和景色关照灯等也会影响到夜间灯光值的分布,故其与对人口估算的贡献特征值的变化具有复杂变化的态势。图住宅用地、生活服务和夜间灯光特征值与特征贡献值之间的关系结论大数据、地理信息技术和数据融合手段的不断改进和优化,为探究随机森林算法下的人口空间化提供了新的技术手段支撑。基于随机森林算法下的特征提取改进和对人口空间误差的控制,发现模型估算的人口数值与实际数值之间相差不大,其数值多集聚在网格的左下角部分,且其拟合曲线 的决定系数()可以解释因变量约 的变异,人口分布呈现出“中心高值聚集四周低值环绕”的空间格局。同时发现住宅用地特征数量与其特征贡献值之间呈现上升态势,其最大值为 ;生活服务点的特征贡献值在信息点核密度之前是与密集程度成正比,但在核密度为之间时,其数值基本维持在 之间;总体看来,基于随机森林算法建立的模型能较好探究人口空间分布及其影响机制,其将人口空间进行网格化处理的研究思路能较大程度上提高人口估算值算法的精确度,丰富了后续人口化研究标准。参考文献:郭子翰,陈斐,刘晓丽,等 基于土地利用类型提高人口格网数据空间精度的方法测绘通报,():刘正廉,桂志鹏,吴华意,等 融合建筑物与 数据的精细人口空间化研究 测绘地理信息,():王美玲,张和生 基于珞珈一号夜间灯光数据的人口空间化研究 地理空间信息,():成方龙,赵冠伟,杨木壮,等 集成地理探测器与随机森林模型的城市人口分布格网模拟 测绘通报,():郑茹敏,梅林,姜洪强,等基于随机森林模型的中国流动人口社会融合空间差异及影响因素 地理 科 学,():李昊,张和生,王美玲基于 和 夜间灯光数据的人口空间化对比研究 以北京市为例 遥感信息,():,():(上接 页),(,):,(),(),:;