航班
延误
预测
特征
分析
建立
第4 4卷第3期河 北 科 技 大 学 学 报V o l.4 4,N o.32 0 2 3年6月J o u r n a l o fH e b e iU n i v e r s i t yo fS c i e n c ea n dT e c h n o l o g yJ u n e2 0 2 3 文章编号:1 0 0 8-1 5 4 2(2 0 2 3)0 3-0 2 4 6-1 0航班到港延误时长预测及特征分析丁建立,杨 锟(中国民航大学计算机科学与技术学院,天津 3 0 0 3 0 0)摘 要:为破除X G B o o s t模型的黑盒特性,增强模型的说服性,提出一种基于S HA P的可解释性航班到港延误时长预测模型。首先,对航班历史数据、天气数据进行融合,在融合数据的基础上进行异常值处理,并利用递归特征消除方法进行特征选择;其次,构建航班延误时长预测模型,利用遗传算法进行参数调优,并与目前常用的模型进行对比;最后,在航班延误时长预测的基础上结合S HA P模型,从总体特征和特征间的相互关系2个角度分析特征的重要程度。实验结果表明,经过遗传算法调优的X G B o o s t模型预测精度更高,其中MA E降低了8.9 4%,RM S E降低了1 9.8 5%,MA P E降低了6.1 5%,且其模型精度更高。因此,S HA P模型破除了X G B o o s t模型的黑盒特性,增强了模型的可解释性,可为降低航班延误时长提供技术支持。关键词:航空运输管理;延误预测;极限梯度提升;参数寻优;可解释性;特征选择中图分类号:T P 1 8 3 文献标识码:A D O I:1 0.7 5 3 5/h b k d.2 0 2 3 y x 0 3 0 0 5 收稿日期:2 0 2 3-0 2-2 7;修回日期:2 0 2 3-0 5-1 5;责任编辑:王淑霞基金项目:国家自然科学民航联合重点基金(U 2 2 3 3 2 1 4,U 2 0 3 3 2 0 5)第一作者简介:丁建立(1 9 6 3),男,河南洛阳人,教授,博士,c c f会员(1 7 1 7 0 M),主要从事智能仿生算法、机器学习方面的研究。E-m a i l:j l d i n g c a u c.e d u.c n丁建立,杨锟.航班到港延误时长预测及特征分析J.河北科技大学学报,2 0 2 3,4 4(3):2 4 6-2 5 5.D I N GJ i a n l i,YAN GK u n.P r e d i c t i o na n dc h a r a c t e r i s t i ca n a l y s i so f f l i g h t a r r i v a l d e l a yJ.J o u r n a lo fH e b e iU n i v e r s i t yo fS c i e n c ea n dT e c h-n o l o g y,2 0 2 3,4 4(3):2 4 6-2 5 5.P r e d i c t i o na n dc h a r a c t e r i s t i ca n a l y s i so f f l i g h t a r r i v a l d e l a yD I NGJ i a n l i,YANGK u n(D e p a r t m e n to fC o m p u t e rS c i e n c ea n dT e c h n o l o g y,C i v i lA v i a t i o nU n i v e r s i t yo fC h i n a,T i a n j i n3 0 0 3 0 0,C h i n a)A b s t r a c t:T ob r e a kt h eb l a c kb o xf e a t u r eo fX G B o o s tm o d e la n de n h a n c ei t sp e r s u a s i v e n e s s,a ni n t e r p r e t a b l ef l i g h td e l a yp r e d i c t i o nm o d e l b a s e do nS HA Pw a sp r o p o s e d.F i r s t l y,b a s e do nt h ef u s i o no f f l i g h th i s t o r yd a t aa n dw e a t h e rd a t a,o u t l i e r sw e r ep r o c e s s e da n df e a t u r e sw e r es e l e c t e db yr e c u r s i v e f e a t u r ee l i m i n a t i o nm e t h o d.S e c o n d l y,a f l i g h td e l a yd u r a t i o np r e d i c t i o nm o d e lw a sc o n s t r u c t e d,a n dg e n e t i c a l g o r i t h mw a su s e d f o rp a r a m e t e r o p t i m i z a t i o n,t h e n i tw a s c o m p a r e dw i t hc o mm o n l yu s e dm o d e l sa tp r e s e n t.F i n a l l y,b a s e do nt h ep r e d i c t i o no f f l i g h td e l a yd u r a t i o na n dt h eS HA Pm o d e l,t h e i m p o r t a n c eo f f e a t u r e sw a sa n a l y z e df r o mt w op e r s p e c t i v e s:o v e r a l l f e a t u r e sa n dt h e i n t e r r e l a t i o n s h i p sb e t w e e nt h e f e a t u r e s.T h ee x p e r i m e n t a l r e s u l t ss h o wt h a tt h eX G B o o s tm o d e lo p t i m i z e db yg e n e t i ca l g o r i t h m h a sh i g h e rp r e d i c t i o n,w i t had e c r e a s eo f8.9 4%i n MA E,1 9.8 5%i nRM S E,a n d6.1 5%i nMA P E,w i t hh i g h e ra c c u r a c yc o m p a r e dt oo t h e rm o d e l s.T h eS HA P m o d e lc a nb r e a kt h eb l a c kb o xc h a r a c t e r i s t i c so ft h eX G B o o s tm o d e la n de n h a n c ei t si n t e r p r e t a b i l i t y,w h i c hp r o v i d e ss o m es u p p o r tf o rr e d u c i n gf l i g h td e l a yd u r a t i o n.第3期丁建立,等:航班到港延误时长预测及特征分析K e y w o r d s:a i rt r a n s p o r t m a n a g e m e n t;d e l a y p r e d i c t i o n;l i m i tg r a d i e n tl i f t i n g;p a r a m e t e ro p t i m i z a t i o n;i n t e r p r e t a t i o n;f e a t u r es e l e c t i o n 航班到港延误是指航班实际降落时间比计划降落时间延迟1 5m i n以上的情况。2 0 2 2年中国民航局发布的民航行业统计公报显示,不正常航班服务投诉超过六成。航班到港延误不仅仅是单点效应,当延误航班数量过大时,还会对同个航班链中的后续其他航班造成影响。因此,利用航班数据、天气数据对航班到港延误时长进行预测,有助于机场人员及时优化航班的排班,减少航班延误造成的影响。高精准度的航班到港延误时长预测一直是国内外学者研究的热点。为提升模型预测精准度,研究人员主要从改进预测模型、提取有效特征、处理不平衡数据3个方面入手。常用的预测模型有朴素贝叶斯、支持向量机(S VM)、随机森林等传统模型1-5。民航业数字化的发展促进了具有更高预测精度的复杂机器学习模型和深度学习模型在民航运输领域中的应用。胡皓月6采用大数据方法建立数据模型和预测模型并进行对比实验,通过流式学习的计算模式,提高了模型预测的精度。王春政等7提出基于A g e n t的机场网络延误模型,并适应性选用贝叶斯估计等算法建立参数模型。王丹等8通过分析基分类器间区别和精准度的联系,利用增量学习算法提高了模型学习新数据的速率和预测精度。复杂模型虽然具有高精度的优点,但其超参数过多且人工调参困难仍是目前研究者所面临的问题。在提取有效特征方面,MO R E I R A等9分析影响航班延误的因素,丰富了数据中的天气特征。R E B O L L O等1 0提出能够表征重要机场和线路的延迟状态的网络延迟变量,通过分析机场网络延迟增添数据特征提升预测精度。S H I等1 1通过灰色关联分析提取与飞行相关的因素,提出了一种改进机器学习算法的延误预测模型,并在操作效率、内存消耗和预测精准度方面进行了验证。上述学者虽然增添了天气特征、线路特征,却忽略了对飞机起飞和降落具有重要影响的机场特征。不平衡数据会对航班延误等级预测造成干扰,而过采样技术可对数据进行平衡处理,进而提升模型预测精度1 2。在航班延误发生前对航班到港延误时长进行预测,可通过优化过站时间1 3、建立预警模型1 4、最小化网络总传播延迟1 5等有效手段降低航班延误造成的影响。预测模型的黑盒特性,阻碍了其在现实中的应用。近些年,学界开始关注解释性模型,意图通过解释性模型来解释复杂机器学习模型的预测过程1 6-1 7。S HA P(s h a p l e ya d d i t i v ee x p l a n a t i o n)模型作为最新的解释性模型,可以分析不同特征的贡献程度1 8-1 9。GU I MA R A E S等2 0对中转航班时旅客错过登机的概率进行预测,并使用S HA P模型对其原因进行了分析。Z HANG等2 1和L AMB E LHO等2 2使用S HA P模型对延误预测模型进行解释,但缺乏特征间共同影响对模型作用的分析和对单架航班不同特征贡献的分析。为提高航班延误时长预测模型的可解释性,本文提出一种基于S HA P的可解释性航班到港延误时长预测模型。1 基于S H A P的可解释性航班到港延误时长整体架构整体的架构如图1所示。模型整体分为预测和解释2部分,其中预测部分主要使用X G B o o s t模型进行航班延误时长的预测利用遗传算法对超参数进行调优。将S HA P模型与调参后的X G B o o s t预测模型相结合,对其影响预测结果的特征进行分析。详细步骤如下。1)分别对航班数据和天气数据等进行预处理,并以机场、计划离港时间等为键值对数据进行融合并利用递归特征消除算法进行特征选择,最