分享
基于孤立森林算法的轨道交通...时客流告警阈值设定方法研究_王月玥.pdf
下载文档

ID:2515321

大小:1.38MB

页数:6页

格式:PDF

时间:2023-06-27

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 孤立 森林 算法 轨道交通 客流 告警 阈值 设定 方法 研究 王月玥
都市快轨交通第 36 卷 第 3 期 2023 年 6 月 收稿日期:2022-03-28 修回日期:2022-07-31 第一作者:王月玥,女,硕士,高级工程师,从事交通运输工程方向工作, 基金项目:北京市基础设施投资有限公司 2020 年度科研项目(2020-ZH-04)引用格式:王月玥,孙琦,钟厚岳.基于孤立森林算法的轨道交通实时客流告警阈值设定方法研究J.都市快轨交通,2023,36(3):71-76.WANG Yueyue,SUN Qi,ZHONG Houyue.Setting method of rail transit real-time passenger flow alarm threshold based on isolation forest algorithmJ.Urban rapid rail transit,2023,36(3):71-76.71学术探讨URBAN RAPID RAIL TRANSITdoi:10.3969/j.issn.1672-6073.2023.03.012 基于孤立森林算法的轨道交通实时客流告警阈值设定方法研究 王月玥,孙 琦,钟厚岳(北京轨道交通路网管理有限公司,北京 100101)摘 要:在轨道交通客流实时监视业务中,车站实时客流告警的目的是帮助业务人员快速、准确地定位到网络中可能存在大客流风险的车站,达到提示预警的作用。如果告警阈值偏小,则告警频率会增加,使业务人员无法准确判断最需要关注的大客流风险车站,并对告警提示产生麻木心态;如果报警阈值偏大,则车站的突发大客流风险有可能未被监测到,从而无法及时采取应对措施。因此,需要提出一套科学、合理、适用性强的告警阈值。研究利用传统统计学方法和基于孤立森林的异常检测方法训练设定告警阈值,并通过应用效果测试验证对两种算法进行比选,确认利用孤立森林异常值判别思路训练的告警阈值更满足业务目标。研究成果按照“一站一方案”“一个时段一方案”的原则,为北京市轨道交通指挥中心路网调度指挥平台提供车站实时进站量与出站量告警阈值,支撑客流实时监视与大客流风险预警。关键词:轨道交通;孤立森林;告警阈值;客流监视 中图分类号:U231 文献标志码:A 文章编号:1672-6073(2023)03-0071-06 Setting Method of Rail Transit Real-time Passenger Flow Alarm Threshold Based on Isolation Forest Algorithm WANG Yueyue,SUN Qi,ZHONG Houyue(Beijing Metro Network Control Center,Beijing 100101)Abstract:In the rail transit real-time passenger flow monitoring business,a real-time station passenger flow alarm assists operators in quickly and accurately locating stations with potential significant passenger flow risks,enabling early warning.If the alarm threshold is too low,then the alarm frequency increases,making it difficult for the operator to accurately identify high-risk stations requiring attention and potentially leading to alarm fatigue.Conversely,if the alarm threshold is too high,then the risk of sudden large passenger flow at the station may go unnoticed,and timely responses may not be possible.Therefore,the primary objective of this study was to propose a set of scientific,reasonable,and applicable alarm thresholds.This study employed traditional statistical methods and isolation forest methods based on machine learning to train and set the alarm threshold.Furthermore,an application-effect test was used to compare the two algorithms.Training the outliers in the isolation forest ensures better alignment of the alarm threshold with business goals.Adhering to the principle of“one station,one plan”and“one time period,one plan”,this study provides the alarm threshold for real-time inbound and outbound volumes at stations for the Beijing Metro Network Control Center(BMNCC)dispatching emergency command,passenger guidance,and information service platform.This supports real-time passenger flow monitoring and risk early warning for 都市快轨交通第 36 卷 第 3 期 2023 年 6 月 72 URBAN RAPID RAIL TRANSIT large passenger flow.Keywords:rail transit;Isolation Forest;alarm threshold;passenger flow monitoring 1 研究背景 轨道交通进站量与出站量客流实时监视是辅助网络调度员掌握全网客流状态的重要手段之一。网络中经常会因未知的大型集会、恶劣天气等因素造成短时、局部的突发大客流风险,根据精细化管控的要求,客流实时监视的最小空间粒度需要细化到车站,最小时间粒度可到 5 min,因此,如何帮助调度员区别常态客流风险车站,快速、准确地定位到网络中可能存在客流异常的风险车站以起到提示预警的作用,是设定进站量与出站量告警阈值的主要意义1-2。基于 AFC 实时进、出站刷卡数据进行大客流风险识别3,如果设定的告警阈值偏小,则使得出现告警的时段或车站增加,以至于调度人员无法准确判断最需要关注的客流异常风险车站,并对告警提示产生麻木心态;如果设定的告警阈值偏大,则车站的突发大客流风险有可能未被监测到,从而无法及时采取应对措施。因此,提出一套科学、合理、适用性强的实时客流告警阈值方法,是本文的主要研究目的。2 客流告警阈值算法说明 阈值的设定不能直接采用车站历史上同时段的最大值,需要对历史样本数据进行异常值判别后,选择正常范围内的历史样本进行拟合标定。对于阈值计算方法,提出传统的统计学方法和基于孤立森林的异常检测算法,具体介绍每种算法的基本原理、计算步骤和主要参数。2.1 正态分布和箱线法相结合的传统统计学算法 2.1.1 算法的基本原理 正态分布模型在很多领域被应用于阈值的设定4-6,本文针对车站历史分时进站量与出站量样本数据,用正态分布拟合法和箱线法计算得出包含分布区间和对应的概率,按业务需要定义正常的概率范围,从而确定正常概率下的分布区间,并将该分布区间作为阈值的上下限。该算法所需设定的参数包括正态分布置信水平,通常为 99.5%。2.1.2 算法步骤 步骤 1:对同类(如同一日期类型下的同一时段)样本数据进行正态分布拟合,确定置信区间,找到对应置信区间下的数值分布区间,即为阈值的上限和下限;步骤 2:对于进行步骤 1 时不满足正态分布的数组样本,则先按照一定比例过滤样本中少量的极大值和极小值,然后用剩余样本数据进行正态分布拟合,如满足,则输出对应置信区间下的数值分布区间;步骤 3:对于步骤 2 处理后仍不满足正态分布拟合的数组样本,则使用四分位距的箱线估算法设定分布区间。2.2 基于孤立森林算法的异常检测 2.2.1 算法的基本原理 从统计学角度来看,在数据空间里,若一个区域内只有分布稀疏的点,则表示数据点落在此区域的概率很低,因此可以认为这些区域的点是异常的。这些异常点可以定义为“容易被孤立的离群点”,其特征是分布稀疏且距离高密度群体较远。孤立森林算法的目标就是检测出这些离群点。从历史样本中剔除检测到的异常点,余下数据集合的最大值和最小值即为正常数据范围,可以作为阈值使用。孤立森林(isolation forest)是一种适用于连续数据的无监督异常检测方法,即不需要用有标记的样本来训练,但样本特征需要是连续的7。孤立森林算法使用了一套非常高效的策略以查找孤立点,该方法近年来也已在多个领域被应用8-9。孤立森林的算法原理(见图 1)为:用一个随机超平面对一个数据空间进行切割,切一次可以生成两个子空间(也可以想象用刀切蛋糕)。然后,继续随机选取超平面切割第一步得到的两个子空间,以此循环下去,直到每个子空间里面只包含一个数据点为止。对于密度较高的簇,需切割多次才会使得每个点均单独存在于一个子空间内;对于分布稀疏的点,经过较少次切割即可使得每个点均单独存在于一个子空间内,而这些分布稀疏的点就是异常点。图 1 孤立森林异常检测算法原理示意 Figure 1 Schematic of isolation forest anomaly detection algorithm 基于孤立森林算法的轨道交通实时客流告警阈值设定方法研究 73URBAN RAPID RAIL TRANSIT2.2.2 算法步骤 算法分为训练阶段和阈值转换两个阶段,具体如下。1)训练阶段。对输入的样本数据集进行训练,得到正常数据和非正常数据之间的“边界”函数(类似统计学算法得到的区间)或称为检测器。但该检测器是非线性且非显示的,无法直观表示,因此在进行异常判断时可将数据输入检测器,通过检测器直接判定数据是否异常。2)阈值转化。从样本数据集中剔除用检测器检测出的所有异常点,剩余数据集合中的最大值和最小值即为正常数据范围,可以作为阈值使用。基于统计学的算法原理,输出的阈值范围是根据正态分布理论推算出的理论区间,与历史的正常数据区间有一定的差异,因此可能出现以下 2 类问题:输出的区间上限比正常数据的区间上限大,导致应当给予关注的、历史未出现过的最大值被忽略;输出的区间上限比正常数据的区间上限小,导致在历史数据中并没有明显离群现象的点被当作异常。2.3 算法比选 针对上述 2 类问题,以北京地铁 1 号线古城站在2019年正常工作日的2个时间片段内客流阈值计算为例,对比统计学方法和孤立森林方法输出的阈值范围合理性。1)案例1:图2 展示了古城站在2019 年正常工作日08:2008:25 的进站量数据和对应散点图,表 1 为 2 种算法得出的古城站在08:2008:25 的进站量阈值区间。从表1 中可以看出,虽然两种方法均检测出了3 个同样的异常样本,但是统计学输出的阈值区间是298,497,孤立森林算法输出的阈值区间是32

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开