分享
道路交通事故责任智能化在线快速划分方法研究_黄钢.pdf
下载文档

ID:2570838

大小:569.90KB

页数:7页

格式:PDF

时间:2023-07-24

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
道路交通 事故责任 智能化 在线 快速 划分 方法 研究
文章编号:1009-6094(2023)07-2402-07道路交通事故责任智能化在线快速划分方法研究*黄钢1,2,李平凡1,3,高岩1,2,孙川4,5(1 公安部交通管理科学研究所,江苏无锡 214151;2 道路交通安全公安部重点实验室,江苏无锡 214151;3 道路交通集成优化与安全分析技术国家工程实验室,江苏无锡 214151;4 清华大学苏州汽车研究院(相城),江苏苏州 215134;5 香港理工大学土木与环境工程系,香港)摘要:为提高智慧交管建设水平,提升执法效率、降低执法成本,对交通事故中当事人责任智能快速划分进行研究。使用 Pearson 相关系数来计算全部特征与事故责任的相关系数,挑选出与事故责任划分高度相关的数据特征;基于道路交通事故数据及挑选出与事故责任划分明显相关的 10 个因素为评价指标,使用高效梯度提升决策树(XGBoost)算法对事故责任进行建模预测,结果相对准确,为 78.9%,但存在模型对缺失样本分裂方向的处理能力有限及模型过拟合问题;通过参数优化和模型融合方法对 XGBoost 算法进行优化。结果表明:优化后的算法能有效地自动学习出缺失样本的分裂方向,模型融合对缺失值的处理率已提升至 94.8%,处理率提升了 50%,缺失样本的分裂方向通过模型融合基本全部得到有效学习,预测结果对比原始算法准确度提升至87.2%,交叉验证结果也表明该算法在交通事故责任智能认定中的适用性。关键词:公共安全;道路交通安全;机器学习;XGBoost;事故责任认定中图分类号:X951文献标志码:ADOI:10.13637/j issn 1009-6094.2021 2231*收稿日期:2022 02 18作者简介:黄钢,助理研究员,硕士,从事交通事故分析、交通安全研究,hgtmri ;孙川(通信作者),高级工程师,博士,博士后,从事智能交 通、交 通 安 全 研 究,sunchuan tsaritsinghua edu cn。基金项目:国家自然科学基金项目(52002215);香江学者计划项目(XJ2021028)0引言道路交通事故责任认定是道路交通事故处理中非常重要的环节,认定结果关乎事故当事人刑事、民事处罚决议1。交通事故责任认定分为全责、主责、同责、次责和无责 5 种情况。在实际工作中责任认定结果易受办案民警的业务素养及主观认知的影响,进而会形成“类案异判”的困境。随着“智慧交管”的大力建设,5G、图像处理、语音识别、边缘计算等相关技术迅速发展,在云端完成道路交通事故责任在线快速认定已成为可能2 5。交通事故责任认定是一种典型的决策树分类模型6 7。Evans 等8 将随机森林(andom Forest,F)算法应用在交通事件检测中,检测结果精度良好,但对噪声较大的分类易出现过拟合。Wu 等9 采用梯度提升决策树(Gradient Boosting DecisionTree,GBDT)算法研究经济发展、人口特征、路网与交通事故的非线性关系,其优点在于能灵活处理不同类型的数据,但存在难以并行训练数据的不足。王芳 杰 等10 引 入 轻 量 梯 度 提 升 决 策 树(LightGradient Boosting Machine,LightGBM)算法到道路交通领域,优化了公交行程时间预测模型,算法鲁棒性良好,在时间、空间复杂度上都有优势。高效梯度提升决策树(Extreme Gradient Boost,XGBoost)算法根据特征分裂提高模型性能11 12,2021 年,谢学斌等13 首次将 XGBoost 算法应用于交通事故预测。本文基于历史交通事故,通过相关性分析方法,挑选与交通事故责任认定高度相关的特征参数,并优选 XGBoost 算法对数据进行训练,使用栅格搜索来优化算法的模型调参过程,最终基于模型融合的方法来提高算法的精度。1道路交通事故数据与评估指标1.1道路交通事故数据简介数据来源于我国某省 2016 2019 年发生的交通事故库,共计 27 万余条数据、500 多维特征。事故地点、办案人、户籍信息、事故发生时间等,以及人员表中的号牌号码、车辆变速器挡位、车辆品牌型号等与事故责任划分无关或呈弱相关的特征,需要通过相关的特征工程算法进行特征相关性筛选。1.2道路交通事故责任评估指标选择目前多维事故特征中存在着许多与事故责任认定划分无关或弱相关的参数,这些数据的存在会带来大量的空值,也会给所用 XGBoost 算法预测精度带来较大影响,并影响算法的计算效率11。为挑选出与事故责任划分高度相关的数据特征,使用Pearson 相关系数14 来计算全部特征与事故责任的相关系数,挑选出事故形态、违法行为、伤害程度等10 种(包含事故责任本身)相关系数排名最靠前的事故参数(表 1)。Pearson 相关系数的计算方法为2042第 23 卷第 7 期2023 年 7 月安全 与 环 境 学 报Journal of Safety and EnvironmentVol 23No 7Jul,2023X,Y=E(XY)E(X)E(Y)E(X2)E2(X槡)E(Y2)E2(Y槡)(1)式中X、Y为待求解相关系数的 2 个样本特征;E 为期望值。表 1与事故责任相关性最强的 10 个特征值Table 1Ten characteristics with the strongest correlation of accident liability排序字段代码特征名称相关系数非空值数空值占比/%1sgzr事故责任1271 6650.002sfty是否逃逸0.804 829 96815 333shcd伤害程度0.619 07271 1610.194wfxw1主要违法行为0.603 69174 10935.915xyjjhl血液酒精含量0.576 9578 89270.966sgxt事故形态0.523 72271 6650.007claqzk车辆安全状况0.443 412138 45349.048clhfzt车辆合法状态0.385 678138 45249.049cljsg车辆间事故0.303 309213 30121.4810 xszt行驶状态0.107 892138 45249.04可以看出,是否逃逸与事故责任划分相关性非常高,另外与当事人伤害程度呈较高的负相关,其他事故参数分别为主要违法行为、血液酒精含量、事故形态、车辆安全状况、车辆合法状况、车辆间事故形态和车辆的行驶状态。原始数据集中存在大量的数据缺失问题,尤其是血液酒精含量,XGBoost 算法相比其他机器学习算法对空值的处理能力更强,且这些存在空值的数据列和事故责任划分高度相关,不宜删除,因此对空值不进行额外处理,将空值作为特征引入数据建模中,以增强算法对空值的拟合性能。2道路交通事故责任快速认定模型构建2.1事故责任快速认定模型架构事故责任快速认定模型架构见图 1。选择表 1中 9 个与交通事故责任高度相关的特征集,并选定决策树分类算法。当有新的事故需要进行责任认定时,将相关参数输入训练好的模型,得到事故责任,并进行人工判断是否合理;不合理时,可以通过参数优化和模型融合的方法来优化训练好的模型,直到认定结果合理。完成认定后,将该条数据集放入历史事故数据集作为训练集。当历史事故数据集容量足够以及认定结果正确比例足够大后,即可形成稳定的训练模型,无需再进行人工干预和模型优化。2.2算法选择及原理基于 XGBoost 算法构建事故责任快速认定模型算法,给定 n 个样本、m 维特征,提升树模型采用 k次迭代的结果作为输出结果,对于 xi的预测结果为图 1道路交通事故责任快速认定模型Fig 1Model for rapid identification of roadtraffic accident responsibility30422023 年 7 月黄钢,等:道路交通事故责任智能化在线快速划分方法研究Jul,2023yi=(xi)=kk=1fk(xi)fk F(2)式中fk为新加入模型中的基本树;F 为提升树结构空间集。正则化目标函数为L()=il(yi,yi)+k(fk)(3)式中il(yi,yi)为损失函数项;k(fk)为正则项,便于平滑最终学习的权重。通过梯度树计算得到目标函数的最优解为槇L(q)=12Tj=1(iIjgi)2iIjhi+T(4)式中Ij为叶节点使用的样本集合;gi为泰勒展开一阶导数;hi为泰勒展开二阶导数;q 为树结构;T 为叶节点个数;、为常数。2.3模型构建决策树模型属于机器学习分类模型,应用机器学习工具包构建预测模型需对数据集进行划分。事故责任是预测值,训练样本占比为 80%,测试样本占比为 20%。根据数据特征,按照表 2 设置模型的重要参数,其他参数为默认值。表 2XGBoost 算法的参数设置Table 2Parameter setting of XGBoost参数参数说明设置值max_depth树的最大深度7gamma指定节点分类所需的最小损失函数下降值0learning_rate学习率0.3subsample每个决策树所用的子样本占总样本的比例1colsample控制每棵随机采样的列数的占比0.9eval_metric对于有效数据的度量方法MSE(均方差)设置相关参数后,即可利用数据集对模型进行训练,完成基于 XGBoost 算法的事故责任预测基础模型。模型经过训练后,对测试集进行预测,前 100组数据的预测结果见图 2。对训练过程绘制学习曲线15,学习曲线的横坐标为样本数,纵坐标为得分,得分即为预测结果的准确率,亦即预测准确的总数与总样本数的比值。学习曲线见图 3。测试集的均方误差为 0.954 33,最佳迭代次数出现在第60 次迭代,预测结果准确率为78.9%。但存在以下问题:模型对缺失样本的分裂方向的处理能力有限,缺失样本处理率约为 45%;模型过拟合,训练集的模型得分在前 50 000 个样本数迅速降低,50 000 100 000 个样本上的训练得分有所减缓,后100 000 个样本的训练得分趋于平缓,交叉验证集上的得分与之相似;从训练的总体趋势来看,模型虽然收敛,但得分低于 0.6,且学习曲线呈过拟合趋势。为提高算法的准确性和实用性,继续开展下一步模型优化研究。3道路交通事故责任快速认定模型优化与验证3.1机器学习预测算法对比使用 F、GBDT、LightGBM 对相同的样本数据进行训练,并均对模型的训练过程绘制学习曲线来图 2原始 XGBoost 模型预测结果Fig 2Predicted result of the original XGBoost图 3原始 XGBoost 模型学习曲线Fig 3Learn curve of the original XGBoost4042Vol 23No 7安全 与 环 境 学 报第 23 卷第 7 期评价模型的准确率,模型训练结果见图 4。F 模型和 GBDT 模型都无法处理空值数据,对表 3栅格搜索及模型的最佳参数Table 3Best parameters of XGBoost with grid search参数参数说明栅格搜索范围调整步长最佳参数max_depth树的最大深度2 1017min_child_weight子树最小权重和3 1019gamma指定节点分类所需的最小损失函数下降值0 510learning_rate学习率0.1 10.10.3subsample每个决策树所用的子样本占总样本的比例0.1 0.90.10.8colsample控制每棵随机采样的列数的占比0.1 0.90.10.8reg_alpha正则化参数0.005n_estimators估计器3 917max_features子集特征个数选择方法lg2,sqrt,auto lg2criterion分类标准entropy,gini gini注:正则化调优过程太慢,直接据实设定。数据中的空值均进行了均值填充,但从图 4 来看,即使是填充空值后,模型的学习得分亦不理想,表明这2 种算法与

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开