分享
基于自步集成学习的非道路移动机械排气烟度预测模型_许小伟.pdf
下载文档

ID:2258234

大小:772.74KB

页数:10页

格式:PDF

时间:2023-05-04

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 集成 学习 道路 移动 机械 排气 预测 模型 许小伟
第 卷第期 年月山东科技大学学报(自然科学版)():文章编号:()基于自步集成学习的非道路移动机械排气烟度预测模型许小伟,肖喆,王明达,祝能,钱枫,肖宁强(武汉科技大学 汽车与交通工程学院,湖北 武汉 ;中国环境科学研究院,北京 ;微宏动力系统(湖州)有限公司,浙江 湖州 )摘要:非道路移动机械逐步成为减排潜力挖掘的重点。本研究对山东省 个地级市共计 台非道路移动机械开展排气烟度实测工作,通过分析机械排气烟度值和烟度检测合格率随机械类型、使用年限、功率的分布情况及所属经济圈的变化规律,绘制山东省排气烟度污染空间分布图;在分析单变量影响因素的基础上,选取类易获取的机械属性作为特征参数,基于自步集成学习算法构建叉车烟度检测结果预判断模型。结果表明:非道路移动机械标准从国提升至国、国提升至国,排气烟度分别减小了 和;推土机、沥青摊铺机、工业钻探设备以及叉车的整体排放状况较差;山东省三大经济圈的机械保有量从大到小依次为胶东省会鲁西南,机械整体排放状况从好到差依次为省会胶东鲁西南;自步集成学习算法在决策树和近邻两个分类器下获得了所有模型评价指标的最高值,其在不平衡数据上具有更好的分类性能。关键词:非道路移动机械;排气烟度;不平衡学习;自步集成学习;预测模型中图分类号:文献标志码:收稿日期:基金项目:国家自然科学基金项目();武汉市科技计划项目()作者简介:许小伟(),男,湖北武汉人,副教授,博士生导师,主要从事汽车电子控制与故障诊断、汽车排放控制技术、汽车智能网联技术等方面的研究 :王明达(),男,北京人,工程师,硕士,主要从事机动车污染物排放检测研究,本文通信作者 :,(,;,;(),):,许小伟等:基于自步集成学习的非道路移动机械排气烟度预测模型 ,:;大气污染是我国主要的环境问题之一。虽然近年来我国机动车大气污染物减排工作取得了重要进展,但非道路移动机械排放污染管控相对滞后。非道路移动源逐步成为“打赢蓝天保卫战”减排潜力挖掘的重点。目前关于非道路移动机械实测烟度的研究测试样本容量小(台左右),统计分析时重点关注各类机械排气烟度值的大小,没有研究合格率,忽略了检测标准对不同机械排气烟度限值的差异,并且选用的统计分析方法仍基于单变量条件,没有进一步探讨各类机械属性之间的相互作用对最终排气烟度检测结果的影响。秦之湄等 基于决策树算法建立了综合性机动车环检结果预测模型。在搭建模型过程中,发现数据集为不平衡数据集,这符合现实工业数据集的特点,即某一类样本数量显著多于另一类。传统机器学习模型为追求总体分类精度最大化,对多数类产生“偏好”,忽略了实际携带信息更多的少数类。针对该问题,有研究者提出采用 、等重采样策略来重新平衡样本分布,但该方法只解决了类间数量不平衡问题,未注意到不平衡学习的难点在于类间重叠和内部噪声。为此,一些研究者将集成学习技术引入不平衡数据的分类问题中。自步集成学习(,)算法 作为一种欠采样加集成的学习策略,不仅能够在不平衡学习中得到更好的分类性能,还能提高模型对噪声的鲁棒性。非道路移动机械具有保有量大、流动性强、难以集中监管的特点。国内各地针对非道路移动机械的管控办法多为监督性尾气抽测或直接对尾气黑烟现象拍照执法。然而,机械出现排黑烟现象时,其排放已急剧恶化,而随机抽检也存在机械漏检的问题。山东省作为我国经济和社会建设较为活跃的省份之一,机动车和非道路移动机械保有量均居于国内前列。已有研究建立了山东省机动车排放清单,但有关非道路移动机械的研究却少有报道。本研究在 条大样本数据集上,进一步挖掘单因素条件下,不同使用年限、不同机械类型以及不同发动机功率的机械之间排气烟度值和检测合格率的差异;结合山东省经济圈的划分,在空间维度上分析不同经济圈机械类型的分布情况与烟度检测合格率的分布规律;引入自步集成学习算法构建叉车排气烟度检测结果预判断模型,以期为非道路移动源需重点管控的区域和机械提供依据和参考。数据与方法数据来源本研究使用的数据为山东省非道路移动机械监督性尾气抽检数据,在全省范围内共计抽检 台机械,检测时间为 年,所有机械均处于正常作业工况。我国对非道路移动机械执行 非道路移动柴油机械排气烟度限值及测量方法(),不同排放标准以及不同功率的机械对应不同的排气烟度限值,机械的排气烟度若超过该限值,检测结果将被判定为不合格。本研究抽检的 台机械中,合格机械 台,不合格机械 台,合格机械数量远大于不合格机械,属于不平衡数据。被检测机械的排放等级分布如图()所示,机械类型分布如图()所示。其中,由于推土机、沥青摊铺机、工业钻探设备、发电机组、空气压缩机和机场地勤设备数量较少,统归为其他分类,总占比。模型构建方法与评价指标自步集成学习原理自步集成学习由 等 提出,该算法旨在设计一种不依赖于距离度量的、基于模型的自步优化机制,从而达到提高模型效率、泛化能力和鲁棒性的目的。该算法创新性地引入了“分类硬度分布”的概念,样本(,)的分类硬度不仅与样本本身的特性相关,还受所选训练模型的影响。(,)的分类硬度函数可表示为(,),其中表示当前模型。这样算得的分类硬度函数既包含了数据噪声信息,还考虑了模型容量,在训练时能够更真实地反映模型在当前数据集上的拟合情况。模型训练过程中,结合分类硬度山东科技大学学报(自然科学版)年第期函数返回的信息,引入自步因子来指导模型更多地关注对当前集成贡献较大的样本。图测试机械属性分布情况 整个训练过程可以看作是欠采样加集成的串行训练模式。首先根据样本硬度值将多数类样本分为个分桶,在第一次迭代过程中,假设每个分桶对分类硬度的贡献近似平衡,给予每个分桶相同的分类硬度值。与传统的集成算法(如 )相比,该方法能有效避免训练后期样本噪声的严重影响,同时保留了边界样本的有效信息。之后的迭代过程中,每个分桶的硬度值是动态更新的,第个分桶的分类硬度值可表示为:(,)(,),。随着训练过程的推进,能被模型正确分类的“简单”样本数量快速增长,此时对每个分桶执行均衡化采样策略已不是最优选择。为提高训练后期基分类器的泛化能力并使模型关注更加难以识别的样本,引入自步因子来降低包含较多“简单”样本分桶的采样权重,根据重新分配的采样权重对每个分桶的样本进行采样,用得到的新数据集训练下一个分类器。算法步骤可描述如下。算法自步集成学习输入:训练集,分类硬度函数,基分类器,基分类器数目,分桶数目。初始化:为训练集中的少数类,为训练集中的多数类。对多数类进行随机欠采样得到,用和训练基分类器,其中。:集成分类器:()()。将多数类样本的分类硬度分布(,)分为个分桶:,。给予每个分桶相等的分类硬度值:(,),。更新自步因子:()。对每个分桶重新分配取样权重:,。对第个分桶进行下采样:。将下采样后得到的新数据集用来训练。输出:()()。许小伟等:基于自步集成学习的非道路移动机械排气烟度预测模型模型性能评价指标混淆矩阵(如表)将样本实际值和模型预测值关联起来,是衡量模型分类准确度最基本、最直观的方法。混淆矩阵的行代表真实类别,列代表预测值,主对角线表示预测正确的样本。表混淆矩阵示例 真实值预测值 与标准机器学习不同,不平衡学习更注重对少数类的识别,这意味着模型可能会将一部分多类样本误划分为少类,牺牲了模型整体的准确率。通用的评价指标如准确率、召回率、曲线等都是基于模型整体性能的,会对多数类产生“偏 好”。为 避 免 此 问 题,研 究 引 入 、三类综合指标来评价不平衡学习的表现,各指标含义以及公式如表所示。表模型评价参数 评价指标含义公式准确率()所有分类正确的样本点与总样本点个数的比值精确率()被预测为正的样本中实际为正的比值召回率()正样本中被预测为正的比值,衡量的是模型的查全率特异度()实际为负的样本中被预测为负的比值,衡量的是模型对负样本的识别能力 ()正例准确率与负例准确率的综合指标 ()精确率和召回率的加权调和平均 ()描述实际分类与预测分类之间的相关系数()()()()单变量条件下排气烟度及检测合格率分布影响工程机械排放状况的因素包括机械出厂年份、机械功率、油品差异及发动机构造等。本研究重点分析机械出厂年份、机械功率、机械类型等易获取的机械属性与机械排气烟度以及检测合格率的关系。按照国家标准 ,各地市针对非道路移动机械的管控问题出台了不同的地方政策,导致山东省工程机械排放状况在空间分布上存在差异性。结合山东省三大经济圈的划分,对不同经济圈的机械类型分布以及机械整体排放状况进行分析。不同使用年限机械排气烟度及检测合格率分布机械使用年限常被当作衡量机械排放水平最直观的因素,分析不同使用年限机械的排气烟度特征及烟度检测合格率。如图所示,随着机械使用年限的减小,平均烟度整体呈下降趋势,检测合格率呈上升趋势。其中,年和 年分别是国、国标准正式实施年份。可知,非道路移动机械标准从国提升至国,排气烟度整体减小;从国提升至国,排气烟度整体减小约。由此可见,非道路移动机械排放标准收严,对降低排气烟度有直接作用。不同机械类型排气烟度及检测合格率分布不同机械类型排气烟度及检测合格率如图所示。首先,挖掘机、港口码头地勤设备、机场地勤设备三类机械检测合格率较高,检测时发现这三类机械尾气后处理装置加装改造占比高。其次,占比最多的叉车排气烟度偏高,合格率偏低,误差棒较窄,表明叉车类机械整体排放较差。再次,推土机、沥青摊铺机、工业钻探设备三类机械排气烟度高,合格率最低,仅在 左右。经分析得知,该三类机械工作环境恶劣,且缺乏日山东科技大学学报(自然科学版)年第期常的维护保养,导致机械排放状况差。图不同出厂年份机械的排气烟度和合格率分布 图不同类型机械的排气烟度和合格率分布 不同功率机械排气烟度及检测合格率分布根据国家标准 对发动机功率的划分类型,将被检测机械发动机功率划分为个功率区间,如表所示,各功率区间机械的平均烟度和检测合格率如图()所示。整体来看,功率区间()内,烟度检测合格率随发动机功率增加呈下降趋势;功率区间机械排气烟度值最低,合格率最高。局部来看,功率区间排气烟度值大,合格率反而高,分析原因在于小功率机械排放限值高于大功率机械。在排放阶段相同的前提下,功率区间限值相同,其中国及以前机械排气烟度限值为 ,国机械限值为 。功率区间排气烟度值高,同时合格率也高。进一步分析发现,功率区间国及以前机械占比达,较功率区间()和功率区间()高。因此,从平均值来看,功率区间限值高于、两功率区间,机械检测合格率高。表发动机功率分类 序号 功率区间,),),),),),)图()中功率区间误差棒较大,将功率区间样本排气烟度分布绘制图()。由图()可见,功率区间样本点分布较为集中,约 机械的排气烟度在 以内,机械的排气烟度在 以内。误差棒较大的原因是台不合格机械中,仅有台机械排气烟度为 ,其余台机械排气烟度许小伟等:基于自步集成学习的非道路移动机械排气烟度预测模型均大于,台机械排气烟度达到烟度计的最大测量值。由此可见,功率区间限值高,机械排放一旦超过限值,将成为高污染机械。图不同功率机械的排气烟度和合格率分布 等对两类功率区间(大于 的大功率起重机和小于 的小功率叉车)的研究发现,大功率机械排气烟度高于小功率机械。然而,在本研究 台机械实测排气烟度的样本集上,大于 的大功率机械(功率区间)排气烟度最低,合格率最高。进一步分析发现,功率区间装载机占比较多,合格率低的叉车占比较功率区间少,导致该区间平均烟度低。机械排气烟度空间分布特征根据 年月山东省人民政府印发的 贯彻落实 中共中央、国务院关于建立更加有效的区域协调发展新机制的意见 的实施方案 中提出的“三圈”,将 个地级市划分为省会、胶东和鲁南三大经济圈。其中:省会经济圈包括济南市、淄博市、泰安市、德州市、滨州市、东营市、聊城市共市,胶东经济圈包括青岛市、潍坊市、日照市、烟台市、威海市共市,鲁南经济圈包括临沂市、枣庄市、济宁市、菏泽市共市。为平衡各经济圈内的城市数,本研究将省会经济圈西南部的聊城市归类到鲁南经济圈,称作鲁西南经济圈。图三大经济圈机械属性分布 三大经济圈抽检的机械数量分别为:省会 台、胶东 台、鲁西南 台,各经济圈

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开