温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
组合
集成
学习
模型
区域
排放
预测
方法
研究
王涵
Vol.25,No.4 July,2023POWER DSM|0引言为应对全球气候变化和能源问题,实现人类社会的可持续发展,低碳经济已经成为世界各国的共同选择。我国将“碳达峰碳中和”作为未来发展重要任务。在此背景下对于区域碳排放的核算与预测模型的研究具有重要意义。在区域碳排放预测研究方面,目前研究主要集中于对碳排放量及其峰值的预测,学者们基于不同的理论基础和不同的研究视角,采用不同类型的模型对碳排放进行了研究1。文献 2 将经济、技术、能源强度、生产结构、消费水平等因素加入到二氧化碳库兹涅茨曲线的实证研究中。文献 3 基于IPAT方程并在其中考虑了GDP的年增长率、人口自然增长率和能源技术进步率等因素分析了区域二氧化碳排放的变化趋势。此外很多学者在STIRPAT模型基础上,结合多种机器学习的方法使用不同的因子对区域碳排放预测模型进行研究。文献45 采用偏最小二乘法构建模型以避免多重共线性问题来进行STIRPAT模型驱动因子分析。文献 68 提出基于时间序列数据预测方法LSTM对基于组合集成学习模型的区域碳排放预测方法研究王涵1,白宏坤1,王世谦1,王圆圆1,李秋燕1,宋大为1,韩丁1,卢旭霆2(1.国网河南省电力公司 经济技术研究院,郑州450000;2.思科思德能源技术(北京)有限公司,北京100000)Regional carbon emission prediction method based on combined ensemblelearning modelWANG Han1,BAI Hongkun1,WANG Shiqian1,WANG Yuanyuan1,LI Qiuyan1,SONG Dawei1,HAN Ding1,LU Xuting2(1.Economic Technology Research Institute,State Grid Henan Electric Power Company,Zhengzhou 450000,China;2.Succeed Energy Technology(Beijing)Co.,Ltd.,Beijing 100000,China)DOI:10.3969/j.issn.1009-1831.2023.04.009摘要:在低碳发展的大背景下,区域碳排放预测模型研究对未来双碳目标任务制定与实施的具有重要指导意义。ElasticNet-XGBRegressor 模型是一种组合集成学习模型,其中ElasticNet模型为特征筛选模型,XGBRegressor模型为区域碳排放预测模型。通过采用STIRPAT模型原理和IPCC排放因子法构建包含25个特征的原始数据集,并验证提出模型的有效性,以实证对照实验的方式进行,ElasticNet-XGBRegressor模型作为实验组,Spearman特征筛选和常见机器学习方法组合作为对照。结果表明,ElasticNet-XGBRegressor 模型在RMSE、MAPE和R2等模型评价指标上全面优于对照组,说明了ElasticNet-XGBRegressor模型在区域碳排放预测中的优越性。通过创新性的将回归模型与决策树集成学习模型相结合,利用ElasticNet模型的特征筛选能力和集成学习的高准确性与鲁棒性提高了预测模型的精度和稳定性。关键词:区域碳排放;集成学习;ElasticNet模型;XGBRegressor模型;特征筛选Abstract:In the context of low-carbon development,the studyof regional carbon emission prediction models is of great significance in guiding the formulation and implementation of future dualcarbon target tasks.The ElasticNet-XGBRegressor model,whichcombines the ElasticNet model as a feature selection model and theXGBRegressor model for regional carbon emission prediction,is atype of ensemble learning model.Based on the principles of theSTIRPAT model and the IPCC emission factor method,an originaldataset containing 25 features is constructed for the study of regionalcarbon emission prediction.To validate the effectiveness of the proposed model,an empirical controlled experiment was conducted,with the ElasticNet-XGBRegressor model as the experimentalgroup,and Spearman feature selection and common machine learning methods as the control group.The results showed that the ElasticNet-XGBRegressor model out performed the control group interms of model evaluation metrics such as RMSE,MAPE,and R2,demonstrating the superiority of the ElasticNet-XGBRegressormodel in regional carbon emission prediction.Regression models areinnovatively combined with decision tree-based ensemble learningmodels,leveraging the feature selection capability of the ElasticNetmodel and the high accuracy and robustness of ensemble learning toimprove the accuracy and stability of the prediction model.Key words:regional carbon emissions;integrated learning;ElasticNet model;XGBRegressor model;feature screening文章编号:1009-1831(2023)04-0055-05中图分类号:TM73;F426文献标志码:A收稿日期:2023-02-09;修回日期:2023-04-06基金项目:国网河南省电力公司科技项目(5217L022000G)55|电力需求侧管理第25卷第4期2023年7月中国的碳排放进行了预测。综上所述,虽然目前区域碳排放预测的研究方法有很多,除了完全基于时间序列数据进行预测的方法,均需要首先对区域碳排放的驱动因子进行研究和筛选。本文在已有的研究文献基础上将ElasticNet模型与XGBRegressor模型相结合进行集成学习模型训练。本文采用河南省20002020年的碳排放计算相关数据,以 STIRPAT 模型为研究基础采用ElasticNet模型进行区域碳排放特征因子的筛选,将筛选后的特征因子作为特征量代入XGBRegressor模型进行训练,另使用基于Spearman相关性分析法进行特征因子筛选,并结合常见的多种机器学习方法形成对照组,根据模型评价指标验证提出的新模型有效性。1研究方法与原理1.1ElasticNet模型ElasticNet是一种线性回归模型,它将L1正则化(Lasso)和L2正则化(Ridge)相结合 9,兼顾了Lasso回归和Ridge回归的优点,能够处理高维数据进行特征的筛选,也可以解决多重共线问题 10,选择到更多对模型效果有正向影响的特征,其目标函数见式(1)所示min 12y-X22+1+(1-)2 22(1)式中:y为输出向量;X为输入特征矩阵;为特征权重向量;、为正则化参数。控制L1和L2正则化的权重比例,=0时相当于L2正则化,=1时相当于L1正则化。优化目标是最小化均方误差和正则化项的和,其中L1正则化项与L2正则化项加权和由控制。1.2XGBRegressor模型XGBRegressor模型是XGBoost模型在解决回归问题的变种,与XGBoost一样是基于决策树的梯度提升算法11,能够处理各种类型的数据,包括数值型和类别型数据。其基本原理是通过组合多个简单的决策树来建立一个更加强大和复杂的模型。梯度提升树通过逐步优化每一棵决策树,使得模型的预测结果越来越准确,从而达到最终的预测目标,其模型结构见图1所示。1.3Spearman相关性分析Spearman相关系数是一种用于衡量两个变量之间相关性的非参数统计量12。其值介于-11之间,值为1表示两个变量之间存在完全正相关,值为-1表示两个变量之间存在完全负相关,值为0表示两个变量之间不存在相关关系。Spearman相关系数计算方法如下:(1)对于每个变量,将其按照大小排序并赋予相应的排名(从1开始,排名越高表示变量值越大)。(2)对于每个数据点,计算其在两个变量中的排名差di(即一个变量中的排名减去另一个变量中的排名)。(3)计算所有数据点的排名差di的平方和SSd。(4)计算Spearman相关系数方法见式(2)rs=1-6SSdn(n2-1)(2)式中:n为数据点的数量。Spearman相关系数的计算不依赖于数据的分布,因此在数据的分布不满足正态分布假设的情况下仍然可以使用。同时,Spearman相关系数对于异常值的影响比Pearson相关系数要小,因为排名差di的计算相对稳定,不容易受到极端值的影响。2模型构建2.1影响因素分析本文从人口、生活水平、能源产量、工业、经济等方面选取25个可能影响区域碳排放因素,具体因子见表1。2.2基于ElasticNet-XGBRegressor模型的区域碳排放预测模型构建使用ElasticNet与XGBRegressor组合模型对区域碳排放预测方法框架流程如图2所示。本文的模型评估指标使用均方根误差(root meansquare error,RMSE)、平均绝对百分比误差(mean absolote percentage error,MAPE)和R2,RMSE为用于衡量实际值和预测值之间的差异程度,值越小说明实际值与预测值之间的差异越小,其计算方法如式(3)所示Rmse=1mim(yi-y?i)2(3)式中:m为样本数量;yi为第i项的实际值;y?i为第i项的预测值。MAPE是用于评估预测准确度的指标,王 涵,等 基于组合集成学习模型的区域碳排放预测方法研究决策树1预测:y输出:y1决策树2预测:y-y1输出:y2y=y1+y2+yn决策树N预测:y-y1-yn输出:yn数据集图1XGBRegressor模型结构Fig.1XGBRegressor model structure56Vol.25,No.4 July,2023POWER DSM|该指标越小代表误差越小,其计算方法如式(4)所示Mape=1mim|yi-y?iyi(4)式中:m为样本数量;yi为第i项的实际值;y?i为第i项的预测值。R2是一种用于评估回归模型拟合优度的指标。其取值在0和1之间,越接近1模型拟合效果越好,反之效果越差,其计算方法如式(5)所示R2=