温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
means
回归
模型
交通
速度
预测
贾秀燕
第 卷 第期 年 月青 岛 大 学 学 报(自 然 科 学 版)()文章编号:():基于 聚类与 回归模型的交通速度短时预测贾秀燕,孙秋霞,李勍(山东科技大学数学与系统科学学院,青岛 )摘要:为实现对交通流局部特征的有效提取,提高交通速度预测模型的可解释性,提出基于 聚类与偏最小二乘(,)回归的交通速度短时预测模型。模型采用时空相关矩阵挖掘路网中相邻路段交通速度之间的关联性,利用 聚类算法划分历史数据集,并选取实测出租车 数据验证模型对交通速度短时预测的准确性。实验结果表明,与 、回归和 模型相比,该模型的预测误差减少了约。关键词:城市交通;速度短时预测;聚类;偏最小二乘回归;时空相关矩阵中图分类号:文献标志码:收稿日期:基金项目:山东省自然科学基金面上项目(批准号:)资助。通信作者:孙秋霞,女,博士,副教授,主要研究方向为交通大数据分析与建模。:。随着中国机动化进程不断加快,高峰出行困难成为大中城市所普遍面临的难题。作为智能交通运输系统的一项重要功能,交通控制与诱导调控策略的制定主要依赖于交通速度预测的结果。交通速度预测按照预测时间窗的长度通常划分为长时预测和短时预测,长时预测的时间步长通常以日、月或年计算,短时预测更倾向于对交通状态的微观描述,观测时间通常小于 。预测短时交通速度,实时评价交通状况,能够起到疏导交通拥堵、减少环境污染和驾乘人员等待时间、提高交通参与者的安全、为驾驶人提供有效出行信息服务的作用。国内外学者利用各学科领域内的知识开发了各种用于短时交通速度预测的方法,这些方法大致分为两大类:经典方法和基于深度学习的方法。经典预测方法包括统计方法和传统的机器学习方法。统计方法假设未来数据与历史数据具有相似性,通过建立数据驱动的统计模型对交通速度分析预测,而交通速度数据具有复杂的非线性特征,往往不满足统计方法的假设,且这些方法多适用于小数据集。传统的机器学习模型整体的非线性有限,预测效果并不是最佳的。深度学习的出现使人工智能在交通速度预测的潜能得到进一步开发。在数据集有限的应用情景下,深度学习模型难以有效的挖掘数据的规律,同时具有计算复杂度高、可解释性差的缺点。为了实现交通流量、交通速度、行程时间的短时预测,将多个模型组合以提升模型预测性能 。模型的组合方式、权重参数的确定以及训练数据集的平衡问题是组合模型研究中的难点 。为了克服传统模型无法有效提取交通速度数据非线性特征这一缺点,本文聚焦路网交通速度之间关联性的挖掘,建立时空相关矩阵,利用 聚类算法把相似状态的交通速度聚类进行建模分析,放大数据的局部特征,更准确地把握交通速度的变化趋势。综合考虑模型的预测精度与计算时间复杂度,使模型具有更高的解释性,选择偏最小二乘回归模型作为最终的预测模型。研究方法路网时空相关性的挖掘为分析相关路段交通流对目标路段交通流的影响程度,估计交通流之间的相关性,而不是直接对交通流第期贾秀燕等:基于 聚类与 回归模型的交通速度短时预测本身进行聚类。若城市道路网络中某一区域内含有节路段,且每一路段上都装有环路检测器(传感器)以采集实时的交通速度数据,可以得到条路段的历史交通速度数据所组成的时间序列数据(,),则(),(),()()其中,为路段编号,是由第条路段所有历史交通速度数据组成的时间序列,()为第条路段在第个时间间隔内的平均速度。为了量化交通流之间的时空相关性,利用 相关系数构建()维的时空相关矩阵(),()(),()(),()(),()(),()(),()(),()(),()(),()()其中,代表目标路段的编号,为当前时刻,()为目标路段在一个时间间隔之前的交通速度,(),()表示目标路段在时刻的速度与相邻路段在一个时间间隔前的速度之间的相关系数,代表在时空相关分析中考虑到的最大延迟间隔的数量,()表示对应相邻路段延迟个时间间隔的交通速度值。式()所表示的时空相关矩阵可用于量化在时刻的目标路段和相邻路段之间的时空相关性。基于时空相关矩阵的 聚类分析交通流时空关联性时,确定对目标路段未来交通流具有重要影响的相关交通流的空间特征和时间特征。聚类分析是获得数据内部结构的有效方法,通过观察聚类得到的每个簇的特点,可以集中对特定的簇进一步分析。基于密度的聚类方法适用于寻找不规则形状的簇,对噪声数据不敏感,但对小规模的类似球状簇的数据对象聚类效果较差。相比于密度聚类,聚类算法可以较好的挖掘小规模数据中的球状簇。为了捕获不同路段交通流之间的时空相关性的差异性,本文采用 聚类算法对时空相关矩阵进行聚类。输入:时空相关矩阵,簇的数目,最大迭代次数;为每个簇选择一个初始聚类中心;将时空相关矩阵的元素序列按照最小距离原则分配到最邻近聚类;使用每个簇的时空相关系数均值更新聚类中心;重复 、,直到聚类中心不再发生变化;输出:最终的聚类中心和个最佳的簇 ,。交通速度偏最小二乘短时预测模型已知历史交通速度数据集(,)中有个自变量和个因变量,原始数据的自变量集与因变量集分别表示为(),(),(),(),(),()。首先在中提取第一个成分(是的线性组合),相应的在因变量集中也提取第一个成分,并且使成分对与具有最大相关性()()()()()()()由自变量集与因变量集的次标准化观测数据矩阵和,计算第一对成分的得分向量()()()()其中,(),()。之后建立自变量集对及因变量集对的回归方程青 岛 大 学 学 报(自 然 科 学 版)第 卷()()()其中,()和()为回归系数,和是残差矩阵。如果回归方程已达到满意的精度,即残差矩阵中元素的绝对值接近,则中止计算。否则继续提取第二对成分,直到精度满足要求为止。在满足精度要求后,假设已经对自变量集提取了个成分,则建立因变量集与提出成分,的偏最小二乘回归方程()(,)()(,)()()其中,(,)为 回归方程的系数,。将自变量集与因变量集标准化还原,得到原始的因变量集与自变量集的回归方程,即偏最小二乘回归方程()(,)()(,)()(,)()实证分析研究区域概况为验证提出模型的有效性,选取青岛市西海岸新区长江中路作为主要的研究区域。青岛市西海岸新区长江路是一条东西走向的主干道,沿线串联了新区的行政、商务、教育、餐饮、居住功能区,路口较多,交通流密集,尤其是上下班的早晚高峰时段,人车交织,导致通车效率不高、交通事故频发,长江中路路段尤为严重。作为新区核心位置的主干道,长江中路的交通服务品质难以满足日益增长的社会需求,成为新区主要的道路“瓶颈”。将青岛市西海岸新区长江中路作为目标道路,为清晰、直观地观察各条路段的地理位置,从 官网下载路网矢量数据,如图所示。研究地点具有典型拓扑结构,展示了交通流之间不同程度的时空相关性,这七条道路虽位于不同的方向,但间接相连,每条道路对应不同的道路名称,具体对应关系见表。图研究区域道路图表研究区域内的道路信息表道路编号道路名称符号定义太行山路井冈山路(南段)长江中路井冈山路(北段)阿里山路(南段)九连山路阿里山路(北段)数据预处理研究数据为青岛市西海岸新区长江中路 年月日至 年月 日出租车 轨迹数据,利用 软件对其预处理,获得有效数据 条,出租车 原始轨迹数据示例见表。表出租车 轨迹数据示例车辆编号经度坐标()纬度坐标()瞬时速度()时间 第期贾秀燕等:基于 聚类与 回归模型的交通速度短时预测()数据缺失处理,即在当前时间间隔内没有 点时,需对数据进行插值补全?()其中,表示时刻,?表示目标路段在时刻所有车辆的平均速度。()时间间隔为的平均速度(),()其中,()为当前路段在时间间隔内的平均速度,为第辆出租车在第个 点处的速度值,为当前路段内 点的编号,为当前路段内所有 点的数量,是当前路段内出租车的编号,为当前路段上所有出租车的数量,是时间间隔内经过当前路段的车辆数。图交通速度热力图为了解西海岸新区长江中路交通速度的宏观特征,基于预处理后的数据,利用 软件绘制 年月日至月 日交通速度热力图(图),交通速度存在明显的周期性和日相似特征,即不同天的同一时间段的速度值有着相类似的趋势规律,而同一天的不同时间段存在着较大的差异。图中颜色的深浅代表了交通速度值的大小,颜色越深,速度就越小,代表道路越拥堵,长江中路月日至月 日的交通流速度数据存在明显的双峰现象,且出行的早高峰集中于 时间段,晚高峰集中 时间段。构建时空相关矩阵根据长江中路早晚高峰时段的分布状况,利用式()分别计算长江中路 年月 日 的早高峰时空相关矩阵与 年月 日 的晚高峰时空相关矩阵,时间延迟分别设置为 与 个时间间隔,每个时间间隔为 ,相应的时空相关矩阵热力图如图所示。图时空相关矩阵热力图()早高峰时段;()晚高峰时段图中颜色的深浅代表了目标路段 的交通速度与其他路段交通速度之间相关性的大小,颜色越深代表相关性越强。结果分析发现,早高峰时段,当时间延迟为时,路段 与路段、路段、路段 以及路段 的相关系数均为正值,且大于 。晚高峰时段,在时间延迟为时,路段 与路段、路段 以及路段(相关系数的绝对值大于 。条路段在不同时间延迟下相关系数的变化趋势相似,但在同一时青 岛 大 学 学 报(自 然 科 学 版)第 卷间延迟下路段之间交通速度的相关性强度有较大差异。这说明选择的路段之间存在较强的相关性,可以通过时空相关矩阵的聚类来捕获交通流之间的时空相关的异质性。聚类结果为了确定聚类数目值,采用方差比准则(,)评价聚类效果,基于数据集特性评估聚类效果,值越大代表聚类的效果越好。值随值的变化趋势如图所示。可知,时 值取得最大值,说明两种情况均在划分为两簇时聚类效果最佳,因此将训练数据集分为两簇。图 值随值的变化趋势()早高峰时段;()晚高峰时段表 聚类结果类别早高峰时段晚高峰时段簇,簇 ,聚类结果见表。可以看出,早、晚高峰时段的数据虽均被划分为两簇,但两簇之间并不完全相同。如路段、始终在同一簇中,说明路段 与路段 的交通状态最为相似;而路段 缺少办公楼、商场、医院等因素吸引人车流入,始终在数量少的一簇内。在不同的高峰时段,路段与路段被划分到了不同的簇中,这可能与路段所处的地理位置、交通流流向以及周边的兴趣点(,)属性相关。路段为城市主干道,西邻富春江路小学,东邻青岛西海岸新区中心医院,早高峰时段与相邻路段的车流来往密切,而路段 穿过居民区,在晚高峰时段与相邻路段的车流关系密切,说明同一天不同时间段的交通速度之间存在差异性。基于偏最小二乘算法的短时交通速度预测利用 聚类算法得到与目标路段 在早晚高峰时段最相关的路段,筛选出与目标路段的交通速度具有高相关性的历史数据集,使用更新后的数据集构建基于偏最小二乘算法的短时交通速度预测模型。由偏最小二乘算法的建模过程可知,只需选取前个主成分建立回归方程就可以达到较好的预测精度,个成分的选择提取可通过进行交叉有效性检验来确认。交叉有效性检验结果见表。表交叉有效性检验结果主成分个数早高峰时段交叉有效性簇簇 晚高峰时段交叉有效性簇簇 由表可知,前个主成分的交叉有效性均大于 ,但第个主成分交叉有效性小于 ,不满足交叉有效性提取条件,表明该成分不能明显改善模型的拟合能力,因此,模型只提取前个主成分,得到第期贾秀燕等:基于 聚类与 回归模型的交通速度短时预测标准化偏最小二乘回归方程为?()其中,?、?分别为长江中路在早高峰时段和晚高峰时段的标准化偏最小二乘回归预测模型;通过将自变量集与因变量集的标准化还原,得到原始的自变量集与因变量集的偏最小二乘回归方程为 ()其中,、分别为长江中路在早高峰时段和晚高峰时段的预测模型。最终预测的效果如图所示。图模型预测效果与真实值对比图()早高峰时段;()晚高峰时段对比图()与(),早高峰时段交通速度的预测值更接近于真实值,晚高峰时段的预测值误差略大,说明该模型对高频率波动的数据预测精度相对较差,但预测值与真实值的总体变化趋势是一致的。长江中路交通速度整体较为平缓,早高峰时段集中在 ,晚高峰时段集中在 ,晚高峰速度值低于早高峰,因为长江中路位于经济开发区中心,商场较多,晚间时段人口集中,车流密度大。模型评价为验证模型的有效性,采用与未考虑“周”周期且未聚类的 回归模型、考