温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
随机
森林
航空安全
因果
预测
新方法
任博
第 卷第期 年月系统工程与电子技术 文章编号:()网址:收稿日期:;修回日期:;网络优先出版日期:。网络优先出版地址:基金项目:国家自然科学基金();航空科学基金();陕西省自然科学基金()资助课题通讯作者引用格式:任博,岳珠峰,司勇,等基于随机森林的航空安全因果预测新方法系统工程与电子技术,():,():基于随机森林的航空安全因果预测新方法任博,岳珠峰,司勇,崔利杰,曾航(空军工程大学装备管理与无人机工程学院,陕西 西安 ;西北工业大学力学与土木建筑学院,陕西 西安 ;中国人民解放军 部队,北京 )摘要:构建精确航空安全预测模型确定事故及其致因因素变化规律,对航空安全智能管理与主动决策具有重要意义。为此,提出一种基于 模型组合的随机森林算法用于航空安全因果预测,完成安全预测模型参数优化、致因变量贡献排序。首先,基于 模型开展航空安全致因因素的关联辨识,确定安全致因变量。其次,以某航空公司 年民航安全数据:管理因素、环境因素、飞机因素、人的因素、外在因素等为研究对象,基于随机森林构建航空安全因果预测模型,开展预测变量的重要性分析、模型构建和预测精度分析。结果表明,该方法能有效预测航空安全关键因素及航空安全态势的变化趋势。同时,该方法与相关向量机、神经网络做了性能对比,所提模型在预测性能和稳健性均占优。此外,变量重要性分析结果表明:环境因素对 年航空安全影响最大,需要重点管控;反之,管理因素对于航空安全影响最小,可忽略。关键词:航空安全;因果预测;随机森林;变量选择;重要性分析中图分类号:文献标志码:,(.,;.,;.,):,:,(),;,:;第期任博等:基于随机森林的航空安全因果预测新方法 引言通过研究航空事故与因果因素的内在关系,预测航空安全,确定 事 故 规 则,能 实 现 对 未 来 飞 行 安 全 趋 势 的 预测。精确航空安全预测模型对于实现航空安全智能管理、事前决策及应急管理等具有重要意义。多家航空公司已经充分认识到数据对安全管理的重要性,数据分析结果(超限事件、免责信息分析、安全监控等)已经初步应用于航空安 全 管 理 中,提 升 了 管 理 安 全 效 率,减 少 了 事 故损失 。然而,航空事故发生是由各种因素相互交织影响所造成的,包含飞机因素、管理因素、环境因素、人为因素、外在因素等诸多不确定性因素。航空事故诱因复杂,具有低频性、随机性、时变性和高维性等特点,预测建模难度大。目前,航空安全预测主要是时间序列预测,大多采用参数、非参数、贝叶斯网络、人工智能 等方法建立航空安全时间序列开展预测。王衍洋等用样条插值函数对航空安全综合指数进行预测分析,研究人为因素与航空安全的影响关系,提高了对非线性数据的适用性。甘旭升、丁松滨、吕雪梅等 利用误差反馈神经网络、自回归移动平均等方法对飞行事故进行研究。然而,上述模型都属于“黑箱”模型,输入和输出内部机理未知,输入对输出影响难以确定,预测变量解释不清晰,无法实现根据输出预测结果的逆向分配,支持航空安全管理力度有限。随机森林(,)模型是以分类树 为支撑的机器学习算法,具有分类、回归、预测等功能,且该模型广泛应用于参数优化、变量排序及分析解释方面。目前,该方法在生态、气象、电力及农业预测等方面成功应用,然而,方法在航空安全预测的能力尚未得到充分认识,相应参考文献较为缺乏。本文针对航空安全态势感知、智能管理 的迫切需求,构建 模型,以某航空公司 年安全数据为对象,研究航空安全态势预模型构建、预测变量贡献度量以及航空安全中飞机、管理、环境、人为、外在等因素对航空不安全事件的影响关系,为航空安全预测、预警及事故预防提供了理论依据。航空安全因果预测 航空安全因果关系定义航空安全因果预测 基于事故致因理论,建立致因因素与事故后果之间的因果对应关系,在一定样本基础上,用参数、非参数、贝叶斯网络、人工智能等方法建立事件后果和致因因素之间的替代模型,进而研究输入和输出的映射关系,完成航空安全预测。模型定义为()()式中:(,)表示种不同类型航空安全不安全事件,如为一等飞行事故,为二等飞行事故,为航空事故症候;(,)表示导致航空不安全事件发生的致因因素,如为外来影响事件、为设施设备不安全事件、为环境因素,为管理因素,为人为因素(飞行和地面人员)等。此外,和是时间的函数。基于 模型的航空安全致因变量关联辨识 模型 是结合故障树及事件树,综合考虑事故起因、后果、防控措施等建立的事故前后、基本事件和后果的关系。模型示意图如图所示。其中,:基本事件;:中间事件;:顶事件;:控制事件;:后果事件。图 模型示意图 确定 模型中各变量指标,可开展定量分析。为获得存在个分支导致后果事件的发生概率,做如下假设:假设 间相关独立;假设各事件发生概率以表示,其中基本事件:;中间事件:;后果事件:;假设()个分支上个控制事件发生概率为。则第个分支的后果事件的发生概率为 ()()式中:当某一分支上环节事件发生时,(),反之,()。综上,可以表示为个基本事件与个控制事件发生概率的函数,如下式所示:(,)(,)()基于 模型开展航空事故机理的致因分析,可以得到确定航空安全的事故致因变量,结合某航空公司安全监察数据,如表所示。由此可见,在 模型基础上构建航空安全预测模型,难点在于:航空事故致因因素多,高维建模难;事故样本少,量化难;致因因素受环境影响大,具有复杂高维非线性关系,建模难度大。值得注意的是,航空安全分析、因果预测的基础在于数据变量的甄选。考虑较多变量会造成数据冗余,从而降低预测效率,疏忽关键变量则会造成预测精度降低。文献 指出,方法在参数优化、变量排序以及后续变量分析解释等方面优势明显,能将航空致因变量特征集进行袋外求解,计算每个特征重要性,按照重要性降序排列,完成重要变量的确定和冗余变量的剔除,确定核心的关键“安全数据”。系统工程与电子技术第 卷表基于 模型的航空安全关键风险及危险源分析 致因变量安全核心风险人为因素()管理因素()环境因素()外在因素()飞机因素()违规()精神因素()知觉差错()技能错误()驾驶舱资源管理问题()生理限制()决策错误()身体智力因素()规程依据()过程控制()资源管理()规程执行()规程依据()意外原因()天气原因()工作环境()外来物()意外特情()指挥()自由计划()机场()飞机系统()机载设备()机载软件()偏离高度非指令推出滑行垂直载荷大未计划着陆构型颠簸处置错误装具不齐执行飞行触发近地告警未关闭雷达冲偏出跑道 危险接近 空中人员受伤 跑道入侵 刮碰飞机数据与方法 研究数据本文数据来源于某航空公司质量安全监察数据库。基于 模型分析结果,建立航空安全数据清单,统计航空公司 年不安全事件数据,如表所示。本文将部分数据作为训练样本,另外部分作为测试数据,验证算法精准度和效率。选取个航空安全致因因素来说明对航空安全影响,如表所示。表变量指标 变量指标名称范围致因子因素个数外来影响事件机场、指挥设施设备不安全事件飞机超限、车辆违规、设备工具监控测量失误环境因素天气、鸟撞、工作环境管理因素工具违规、过程控制、资源供应人为因素(飞行和地面人员)不稳定进近、处置错误、偏离指定高度、重着陆、工卡不严格,未及时发现损伤飞机质量安全问题维修差错,强制报告事件,等级飞行事故训练和验证的数据分布如图所示,其中散点表示样本中参数的值,箱线图中有样本均值、最大值、最小值、中位数等分布信息。图训练和验证数据库样本分布 图横轴为航空安全致因因素输入变量及输出变量,纵轴用箱线图表示各输入变量及输出变量的样本分布。由于不同类型航空不安全事件具有不同量纲,所有变量进行无量纲化,具体方法如下:.()式中:为归一化后数据;.,.分别为最大值和最小值。是一种机器学习方法,可用于样本分类,模型生成决策树数目()和选择分裂属性个数(),在样本分类中起着关键作用,影响结果准确性。回归对噪声数据容忍度较高,对高维数据具有良好预测能力 。由一组无关回归决策树(,),构成棵集成决策树,表示为()(,)()式中:为安全致因因素;为决策树数量;为独立同分布随机向量。模型构建基于 的航空安全预测模型为提高模型的预测精度,结合袋装法和随机子空间法对模型进行了构建 。()袋装法:从样本集中多次放回采样大小为的个训练集,对于每个训练集建立回归模型。假设样本容量为,则每次放回抽样,每个样本不被抽中的概率为(),未被选中的样本称为袋外数据(,)。同时,由于训练样本集元素各不相同,这就保证了回归树模型的差异性。()随机子空间法:对生成的回归树进行节点分裂,选取 个变量作为当前节点分裂子集,根据决策树方法选择最优的分裂方式进行回归树的构建,该方法降低了各回归树之间的相关性,增加了其构建时的随机性。本文构建航空不安全事件 的流程如图所示。第期任博等:基于随机森林的航空安全因果预测新方法 图基于 的回归航空安全态势预测流程图 ()回归模型不但能精确地估测航空安全态势,而且还可给出各个变量的重要性评分、输入对输出影响程度。基于基尼系数和基于 误差是常用的变量重要性评分统计量,本文中基于 误差得到各变量的重要性。若(,)为输入变量,则在第棵树上的重要性为随机置换变量前后 估测误差的差值。其计算公式为()()()()()()变量在整个随机森林中的重要性得分为()()()式中:为 样本数;()为 第个样本值;()为随机置换变量前后第棵树上 第个样本估测值;()为判别函数,当()()时,取值为,否则为。考虑预测模型具有随机性,每次预测的()具有一定差异性,通过对 次计算结果取均值即为各变量权重。模型检验本文综合考虑采用决定系数、均方根误差、相对均方根误差来评估模型的预测能力,同时绘制预测值和实测值间的 关系图,相关指标表达式如下所示。决定系数:()()()均方根误差:()()()相对均方根误差:()()()()式中:表示样本均值;()表示数据集中第第个样本;()表示()所对应的预测样本点(,)。结果与讨论 回归模型参数优化在回归树模型中,采用的是决策树方法对节点自上向下进行随机分裂,直到分支到叶节点,预测值由叶节点输出,模型由所有回归树构成。根据模型输出的航空安全态势预测值求平均值即得到最终航空安全预测结果。以某航空公司 年航空安全数据为研究对象,基于 构建航空安全预测模型,如图所示。图航空安全 模型图 系统工程与电子技术第 卷 使用默认参数即可得到不错结果,其调参过程是确定决策树个数 和每棵树分裂时最大特征数 ,优化算法可搜索参数全域来确定算法最优参数。本文对 模型参数的优化过程及结果如图所示。图 模型参数优化结果 图横轴为 决策树的建树个数,纵轴为模型决定系数。决策树个数默认为 ,取 为 、构成决策树棵数列表。特征数默认取(为特征总数),因此取 为、构成最大特征数列表。由图可以看出,模型的预测精度随和值变化波动较大,其中在控制单一变量变化时,模型精度随(或)增大而增大。当优化结果取 ,时,模型精度较高且变异较小。航空安全因果预测 误差随树的数量变化曲线如图所示。图航空安全 模型的误差估计图 图横轴为随机森林树个数,纵轴为模型均方误差。随着树数量增加,模型误差逐渐递减,可以看出当为 时,误差趋于平稳,故将设为 。因此,本文航空安全预测模型树数量确定为 。航空安全预测模型变量筛选 预测模型变量筛选的主要指标是变量对提高模型预测精度的贡献能力,通过对指标进行排序,从而获得各变量的重要性排序,指标值越大,则变量越重要。针对本文航空安全预测模型变量进行重要性排序,排序 结 果 如 图所示。图 回归模型变量筛选 图横轴为针对影响航空安全的输入变量,纵轴为预测输入变量的重要性。由图可知,本文对“为外来影响事件、为设施设备不安全事件、为环境因素、为管理因素、为人为因素(飞行和地面人员)”等变量对航空安全影响的重要性进行度量。图中,环境因素对航空安全的影响最大,需要重点监控,比如需增加驱鸟频次,降低鸟撞因素对航空安全影响,加强恶劣天气环境的预报预测,及时告知飞行人员做出应对,建议指挥员变更计划,要求机务人员采取特殊天气环境的飞机适应性措施(除冰,防沙尘