温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
改进
LightGBM
车辆
碰撞
检测
模型
研究
基金项目教育部产学合作协同育人教学内容和课程体系改革项目“入门机器学习”(项目编号:);成都市交通和旅游大数据应用技术研究项目“新发展理念下的共享汽车调度策略研究”(项目编号:)。作者简介任小强(),男,西南交通大学希望学院信息工程系讲师,硕士,主要从事机器学习和云计算研究。基于改进 的车辆碰撞检测模型研究任小强,王东灿,王浩宇,林慧琼(西南交通大学希望学院 信息工程系,四川成都 )摘要针对传统车辆碰撞检测方法中存在的周期长、成本高、准确率低,以及易陷入局部最优等问题,本文提出基于改进 算法的车辆碰撞检测模型,进行数据清洗、构建特征工程,使用贝叶斯算法优化 超参数,将 与 、及 模型进行对比。模型仿真结果显示,预测模型表现最优,精确度、召回率与 分别为 、和 ,可以有效引导企业开展用户关怀和事故救援。关键词车辆;碰撞检测;特征工程;轻量级梯度提升机 中图分类号 文献标志码 文章编号 ()收稿日期 一、引言随着人们生活水平的提高,汽车数量越来越多,车辆碰撞情况时有发生,并经常会造成财产损失和人员死亡,如何精准检测车辆是否发生碰撞具有重要研究意义,但是车辆信息数据庞杂,而且用户路况信息和用户使用偏好不同,很难找到一种准确识别碰撞的方法。传统的车辆碰撞识别方法需要大量的人力物力,周期长,成本高。蒋红亮采用图像检测和分割算法对车辆碰撞进行检测识别 ,马小龙等通过 建立制动减速度分布模型,得到车辆的碰撞概率 ,高利等建立环境复杂度量化模型,使得碰撞预警的准确率达 ,宋鑫利用智慧灯杆物联网数据采集平台,解决极端复杂环境下的车辆碰撞检测这一难题 。近年来,现代学者利用新方法进行研究,并取得一定成果,特别是机器学习的快速发展促进了相关算法在智能交通领域中应用研究。国内外学者提出了集成学习模型,作为一种低廉高效的车辆碰撞检测方法,如 、和 等。虽然这些模型在车辆碰撞检测中取得了不错的效果,但是相对而言,增加了算法复杂度,预测精度也还有较大的改进空间。轻量化梯度促进机(,)是一种新的 算法,支持并行学习,可以高效处理大数据,解决了计算效率低、实时性差等问题,目前已广泛应用在各个领域 。研究表明,相较传统算法具有较高的精度,还兼顾提升了模型的训练效率。但是,算法的分类模型也存在一些问题,如 算法模型中的关键参数需要调整以获得理想的准确率,传统优化算法容易达到局部最优解,甚至导致早熟收敛。为了解决上述问题,本文提出利用贝叶斯优化超参数的改进 算法来检测车辆碰撞问题。二、特征工程在数据挖掘领域,特征往往起着至关重要的作用,不同特征集决定了机器学习预测模型的质量,好的特征集可以挖掘更多的关联信息,从而得到更加精准的机器学习预测模型。车辆碰撞是一个连续瞬间过程,瞬间速度变化很快,其它时刻速度变化较小,因此本文通过移位()、差分()、滑动窗口()运算和原始特征构建车辆碰撞的统计特征,如碰撞时间、主负继电器状态和速度特征,并以速度特征构造车辆瞬时加速度、局部加速度、统计加速度、统计速度等特征描述碰撞过程。三种运算的定义如下,通过这三种运算,利用初始特征,可以构建几个用于检测车辆碰撞的特征。():数据平移,表示移动的幅度,可正可负,默认值是 ,表示数据向前移动一次,移动之后索引位置没有值的,值为 。():一阶差分,是指数据与平移后数据进行比较得出的差异数据,根据计算差值的方向不同分为向前差分和向后差分。():为样本点数目,窗口从上到下依次滑动时,会将每个窗口里面的元素按照相应运算进行计算。(一)碰撞时间对于碰撞时间特征构造两个特征 和 ,定义如式()、式()所示,表示碰撞瞬时时间纵向一阶差分和纵向五阶差分,用于描述样本数据之间的时间差。()()第 卷第 期 兰州职业技术学院学报 年 月 ()()(二)主继电器状态电池包主负继电器状态只有连接和断开两个状态,因为信号传输存在时延,加上电子器件结构原理,继电器状态变化是逐渐进行的,严格来说是一个时间序列问题。特征编码后取值也是数值类型,但是相加相减没有实际意义,笔者采用离散化技术,将数值型特征也变为离散特征。将电池包主负继电器状态编码后的一阶向后差分、二阶向后差分、三阶向后差分、四阶向后差分、五阶向后差分之和定义为特征属性 ;一阶向前差分、二阶向前差分、三阶向前差分、四阶向前差分、五阶向前差分,他们之和定义为特征属性 ,分别用于车辆碰撞瞬间电池包主负继电器状态由连接 断开变为断开 连接的过程,如式()和式()所示。继电器状态 继电器状态 (())()继电器状态 继电器状态 (())()当继电器由连接变为断开时,逐步由 变为 ,当继电器由断开变为连接时,逐步由 变为 ,继电器状态与 、变化关系如图 。图 特征 和 变化关系(三)车速在车辆运动信息中,以速度特征为主,并以速度特征构造了速度差特征 ,车辆瞬时加速度 、局部加速度 、最小加速度 、最大加速度 、平均加速度 ,如式()()所示。考虑到车辆碰撞瞬间速度变化很快,其他时刻速度变化较小,为了模型更加稳定,降低模型过拟合风险,这里对速度特征、加速度特征采用聚类分桶离散化,加速度聚类分桶区间为 ,分桶操作后的内容使用 表示,速度聚类分桶区间为 ,分桶操作后的内容使用 表示,用于修改特征值,防止过拟合问题。车速 车速 (())()车速 ()()()车速 车速 ()()()()()()()()()()()()()(四)特征选择为了降低预测模型的复杂度,选择 相关系数从原始连续型特征集中提取特征子集,去除冗余特征和无关特征,相关系数计算公式如式()所示,和 为一对连续变量,和 为 和 的标准差;(,)为 与 的协方差。(,)()()分析发现整车当前总电流、整车当前总电压与原始特征车速、构造特征 的相关性很高,为了避免训练模型过拟合,删除该特征,数据特征选择后有效特征由原来 个变为 个。为了寻找模型的最优输入特征集,本文利用森林算法(,)对特征进行重要性排序,其中 ,等特征的重要性较高,对车辆碰撞识别结果贡献较大。因此本文模型选用这 个特征作为识别车辆碰撞模型输入,特征删选后可以大大降低计算成本,且对模型的精度不会有太大的影响,后续超参数的优化都是基于删选后的特征。三、车辆碰撞检测算法模型对碰撞样本使用特征向量表示并标记,得到带标签的碰撞样本,在此基础上进行二分类的有监督学习,这样就将碰撞检测特殊问题,转换为机器学习中的通用问题。该模型如图 所示。首先,进行数据清洗及特征提取;其次是特征选择,选择了合理特征参数,提高模型训练精度,然后使用贝叶斯优化 超参数,通过输入最优的 超参数得到最终模型;最后,应用测试数据集计算性能评估指标。图 碰撞识别模型兰州职业技术学院学报 第 卷梯度提升决策树()是一种流行的、有竞争力的、高度稳健且可解释的机器学习算法。它被广泛用于许多机器学习任务,并且优于其他传统模型,但在处理海量样本数据时,运算会消耗大量的时间,效率较低。为了克服这些限制,微软提出 算法,它是一种新颖的 (梯度提升决策树)算法,基于 对特征的分裂进行优化,如图 所示。被认为是一种高效的模型,可以处理大规模数据并以更快的训练速度和最小的内存使用量获得更好的准确性,它还支持并行和分布式学习。图 直方图优化 算法包含两种新技术,分别是基于梯度的单侧采样和专有特征捆绑。给定一个训练数据集,(),其中 代表样本数据,代表类别标签,()代表估计函数,损失函数定义如式()所示:(),(())()模型集成了多个决策 ()来逼近最终模型,即式():()()()决策树可以表示为(),其中 表示叶子的数量,代表树的决策规则,是一个向量,表示叶子节点的样本权重。因此,将在第 次迭代时以加法形式进行训练,如式()所示:,()()()()在 中,目标函数用牛顿法快速逼近,为简单起见,去掉式()中的常数项后,公式简化为式():()()()()其中 和 表示损失函数的一阶和二阶梯度统计量。表示叶子的样本集,并且式()可以转换为式():()()()()对于一定的树结构(),每个叶子节点的最优叶子权重 得分和 的极值如式(),式()所示:()()()可以看作是衡量树结构 质量的评分函数。最后,加入分割后的目标函数如式():()()()()其中 和 分别是左右分支的样本集,与传统基于 的技术不同,利用带深度限制的 叶子生长策略替代传统的层生长决策树策略,最大程度避免了过拟合,和 的对比如图 所示。()叶子生长策略()叶子生长策略图 和 对比从本文构造的特征来看,发生强烈碰撞的分类标签是好区分的,考虑到模型的泛化能力,分隔阈值设置很大,取非碰撞车辆瞬时加速度 、局部加速度 和瞬时速度差 中最小值的 倍为分割阈值,目的是为了避免过拟合。为了增强树模型的预测能力和增加特征之间的非线性性,我们对特征进行交叉修正,如式()所示,使得主要特征与分类特征的相关性更为明显,具有实际意义。()()()()不同超参数组合会导致模型在预测性能上存在很大的差别,因此必须对模型进行调参,搜索出能使模型性能更佳的超参数,常用方法包括人工搜索、网格搜索和随机搜索等,网格搜索支持并行计算但很消耗内存,随机搜索则不能确保得到全局最优解。贝叶斯优化(,)第 期任小强等:基于改进 的车辆碰撞检测模型研究是一种自适应的超参数搜索方法,利用目标函数的过去评估结果建立概率模型,寻找最小化目标函数的参数,在效率和精度上都获得更好的效果。本文使用 代理模型和期望改善(,)采集函数构造贝叶斯算法优化 参数,算法的概率分布定义如式()所示,其中 ()为观测值 ()形成的密度,()为除 ()外剩余观测值形成的密度。()()()()算法选择 作为当前观测值 的某个分位数 ,满足(),通过 算法的 ()和(),将超参数集合划分为两部分。根据贝叶斯定理,(),以 及()()()()()(),最大期望提升 的定义近似为式():()()()()()()()()()()()从式()可看出,为了能获得最大期望提升,超参数 在 ()的概率要尽可能大,而在 ()的概率要尽可能小。通过 ()()评估每一个超参数 ,在每次迭代中,算法将返回具有最大 的超参数值。四、仿真结果分析本文使用杨文忠等构建的基准数据集 对提出的方法进行评估,该数据集通过分析传感器采集的车联网大数据来预测车辆是否发生碰撞。该训练数据集有 个属性特征,条数据,其中第 位 列为标签属性,代表是否碰撞,表示碰撞,代表无碰撞,测试数据集有 个属性,共 ,条数据。数据清洗对提高模型性能非常重要,包括缺失值处理、异常值处理、删除重复值、类型转化和特征编码等。车辆碰撞时速度会发生明显变化,电池主负继电器状态由连接变为断开,缺失值和异常值使用均值填充。数据集中的数据通常以字符串类型存储,特征编码将字符串类型数据转化为数值类型。对于只有两种取值的特征使用标签编码(),例如电池包主负继电器状态、制动踏板状态等,用 、表示两种状态,整车钥匙状态含有三种取值,可以使用独热编码(),它会增加数据特征的数量,经过数据清洗和特征提取后,样本数为 ,条。为了平衡样本数据,对样本数据进行欠采样和重采样,数据欠采样满足以下三个条件:一是汽车碰撞后电池包主负继电器处于断开状态,即电池包主负继电器状态恒等于 ;二是训练集的所有标签均分布在继电器断开瞬间附近,处于 到 的区间,考虑到停车时被追尾,增加车速大于零这个条件;三是删除启动阶段低于正常车速的数据,这里要求车速在 以上。通过这三个删选条件,测试样本数由 ,条变为 ,条。此外,车辆碰撞是一个连续过程,将碰撞时间前后 秒内样本标签均标记为碰撞,对训练集标签进行重采样,重采样后训练集碰撞标签由 变为了 个,可见重采样能够提高模型预测的泛化能力。本实验仿真所用电脑为 系统,配备 内存,处理器为英特尔第七代酷睿 。为了探究特征个数对模型性能的影响,将特征工程得到的特征使用本文模型进行训练,并在测试集上采用 、查准率()、查全率()进行模型评估,结果如图 所示。当特征个数小于 时,模型评价指标总体呈上升趋势,此时模型欠拟合;当特征个数大于 后,模型评价指标总体呈下降趋势,原因可能是模型过拟合;当特征个数为 时,模型性能最优。为了建立一个有效的预测模型,将逻辑回归模型()、支持向量机模型()、随机森林模型()、梯度提升决策树模型()和 模型进行对比研究,为了结果更加可靠,分别进行 组试验,每组重复测试 次,取其平均值作为模型最终评价指标。各模型预测结果如表 所示,模型在实验中的评价指标优于其它模型,其平均准确值约为 ,平均查准率约为 ,值约为 。图 特征数与评价指标的关系 参数较多,基于交叉验证的手动调参操作复杂且易影响预测效果,本文采用贝叶斯优化方法调整最佳参数。为了验证贝叶斯优化算法的优越性,将贝叶斯优化与网格搜索、随机搜索以及 的默认参数进行对比,不同的优化方法选择相同范围的参数空间,并使用运行时间与均方误差 兰州职业技术学院学报 第 卷作为评估指标。实验结果如表 所示,表中网格搜索的运行时间为其搜索完待选参数空间所需的时间,随机搜索的运行时间为其迭代 轮的时间,贝叶斯优化的运行时间为其精度不再变化后的时间,即完成收敛所需的时间。参数列表的顺序为 、和 。从表 中的数据看出,网格搜索虽然有精度上的提升,但是会花费大量的时间成本;随机搜索的运行时间相比网格搜索大大减少了,而且在精度上也比网格搜索略好一些;贝叶斯优化算法相比网格搜索与随机搜索,在精度上有显著的提升,而且运行时间远远小于网格搜索与随机搜索,所以使用贝叶斯优化算法寻找超参数是有效的。迭代次数为 时,模型的均方误差 较为平稳,根据贝叶斯优化结果,最佳参超参数 ,贝叶斯优化后的 模型评价指标提升比较明显,可以满足车辆碰撞识别的要求,对交通管理部门和汽车生产商具有重要的参考价值。表 不同分类器的预测结果组别算法 表 超参数优化方式对比调参方式均方误差()运行时间 秒默认参数 网格搜索 随机搜索 贝叶斯优化 数据集的正负样本不平衡会导致模型预测出现偏差。这里使用数据样本欠采样和碰撞标签重采样技术平衡样本,平衡数据集和不平衡数据集分别输入 进行分类,测试结果如表 所示。可以看出,平衡数据集后 指标从 提升到 ,指标从 提升到 ,从 提升到 ,这些结果表明平衡数据集样本可以提升模型的预测性能。表 平衡数据集优化方式对比数据集 非平衡数据集 平衡数据集 五、结语针对车联网大数据碰撞识别问题,本文提出一种基于改进 算法的碰撞识别预测模型。通过数据清洗与特征工程删选特征,欠采样、重采样提高碰撞识别预测的准确性,有效利用了各个特征与碰撞之间的相关性,同时使用 模型进行车辆碰撞识别,运行总时间为 左右。后期考虑更有效的训练模型与数据特征,进一步提高碰撞时间预测的准确性,增加更多碰撞类别的训练集与测试集数据,增强模型的泛化能力。参考文献 蒋红亮 基于深度学习的共享电动汽车碰撞检测与预警研究 南京:东南大学,马小龙,余强,刘建蓓 基于路侧毫米波雷达的车辆碰撞概率计算方法 交通运输系统工程与信息,():高利,戴钰,赵亚男,等 基于环境复杂度的危险品运输车辆碰撞预警策略 北京理工大学学报,():宋鑫 基于智慧灯杆数据的车辆碰撞预警系统研究与实现 杭州:杭州电子科技大学,(),:,():刁宁昆,马怀祥,刘锋 一种改进 结合 的滚动轴承故障诊断方法 国外电子测量技术,():肖迁,穆云飞,焦志鹏,等 基于改进 的电动汽车电池剩余使用寿命在线预测 电工技术学报,():尹航,吕佳威,陈耀聪,等 基于 的新疆羊舍 浓度预测 农业机械学报,():杨文忠,杨蒙蒙,温杰彬,等 基于 模型的车辆碰撞检测 新疆大学学报(自然科学版),():责任校对:李贵红第 期任小强等:基于改进 的车辆碰撞检测模型研究