温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
出租车
轨迹
道路
还原
评价
杨沁楼
本栏目责任编辑:王力数据库与大数据技术Computer Knowledge and Technology电脑知识与技术第18卷第35期(2022年12月)第18卷第35期(2022年12月)基于出租车轨迹的道路还原与评价杨沁楼,王飞翔(合肥工业大学 资源与环境工程学院,安徽 合肥 230000)摘要:轨迹数据隐含着城市交通系统的丰富信息,出租车作为城市交通的重要组成部分,其轨迹具有数据源获取容易、成本消耗小、更新快、反馈快等特点,其轨迹信息可以为城市道路网信息的提取和还原提供支持。基于这个背景,开展基于出租车轨迹数据提取道路信息和构建道路模型的研究具备一定的实际意义,通过对道路中心线、道路交叉口等信息的提取,还原道路模型并对还原效果并进行评价,所获得的成果能为基于轨迹路网信息提取的进一步研究提供参考,也能为大众的出行和相关管理部门的工作提供决策支持。关键词:出租车轨迹数据;数学形态学;道路提取;ArcGis中图分类号:G642文献标识码:A文章编号:1009-3044(2022)35-0060-04开放科学(资源服务)标识码(OSID):1 绪论1.1 研究背景及意义随着时代的进步,大数据研究成为一股热潮,其目的在于实现数据的“增值”。大数据具有5V特点,即Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。大数据可以分为三类:传统企业数据、机器和传感器数据、社交数据。轨迹数据是机器和传感器数据的一部分,蕴含着相当可观的数据信息,对路网信息更新、智慧城市建设等方面起到相当积极的作用。城市路网是城市范围内由不同功能、等级、区位的道路以一定的密度和适当的形式组成的网络结构,是城市居民出行不可或缺的资源;随着GPS仪器、卫星定位、道路监控、便携式定位设备以及传感器技术的迅速发展,对于移动对象的实时追踪已经成了现实,这就使得我们可以在低时间成本和经济成本条件下轻松获得大量的、实时的轨迹数据,进而对城市交通系统进行完善,诸多学者开始着眼于研究轨迹数据,希望能从中提取出可靠有效的路网信息。1.2 国内外研究现状从各类数据中提取路网信息是当下数据挖掘的热点方向之一。国外方面,针对道路信息数据,Kim、Kyoungok同时分析了地铁和出租车的数据,以揭示首尔交通工具对人的流动性的影响因素,采用了聚类和分类等数据挖掘技术,确定影响乘客模式的因素1。Gong和Cartlidge基于轨迹数据,利用地理感兴趣点(POI)数据和时空聚类相结合的方法,自动识别每个出租车行程的相关活动,并估计行程后的返回行程和后续活动2。国内方面,也有许多针对出租车数据的挖掘案例。李清泉通过出租车轨迹回复路线,与已有路径进行比对分析,以获取经验最优路径3。何晓军等学者提出基于 VGA 聚类的遥感影像道路中心线的提取,该方法解决了聚类数目难以确定的问题,但是数据源获取昂贵,对于轨迹数据来说适用有待商榷4。刘笑等学者通过全卷积神经网络提取道路信息,该方法数据源使用的是遥感影像,需要大量的数据集支撑,效率慢,费用昂贵5。2 有效轨迹提取2.1数据采集图 1 出租车轨迹数据格式本文需要收集出租车的轨迹数据和北京市交通图。其中,收集到的出租车轨迹数据为北京市10357辆出租车在2008年2月2日至2008年2月8日期间的GPS位置,数据以txt的格式存储。其格式如图1所示。各字段含义如下:车序列号、年月日、具体时间点、经度值、纬度值。如图1中的第一行出租车轨迹数收稿日期:2022-06-06作者简介:杨沁楼(1997),男,山东潍坊人,大学本科,主要研究方向为大数据、地理信息科学;王飞翔(1996),男,河南商丘人,大学本科,主要研究方向为大数据、地理信息科学。E-mail:http:/Tel:+86-551-65690963 65690964ISSN 1009-3044Computer Knowledge and Technology电脑知识与技术Vol.18,No.35,December202260DOI:10.14004/ki.ckt.2022.2180数据库与大数据技术本栏目责任编辑:王力Computer Knowledge and Technology电脑知识与技术第18卷第35期(2022年12月)第18卷第35期(2022年12月)据值表示:序列号为1的出租车在2008年2月2日15点36分08秒处于东经116.351172,北纬39.92123的位置。除此之外,笔者从谷歌地图上截取了2008年北京市交通图,用于对比分析路网信息提取的效果。2.2数据预处理数据预处理即针对数据噪声进行处理,旨在提高数据处理的速度,减少脏数据在模型构建过程中的影响。异常数据即偏离预期道路轨迹的数据,对已发表文献总结,找到异常轨迹数据处理主要有四种方法6:历史轨迹相似性检测法、阈值检验法、网格检验法、分类检测法。阈值检验法较为简单且精度较高,可以相对准确地将偏离主干线的点进行删除,满足数据预处理的要求,且适合本文的数据量,所以本文采用此方法对交通轨迹数据进行异常处理。异常数据删除示例如图2所示。图2 异常检测示意图2.3 道路中心线的提取2.3.1 面状道路要素构建面状要素的构建是道路中心线提取的关键一环,构建面状要素即是构建出整体的道路轮廓,该轮廓与城市交通路网相对应。面状道路要素构建可以直接建立要素缓冲区来达到目的,从我们搜索的资料来看,北京市的道路宽度平均为14.64米,所以我们对出租车轨迹点的缓冲区半径设置为10-20米,希望建的缓冲区能够相对全面地覆盖道路。本文分别选取10米、15米、20米、25米为缓冲区半径进行尝试,具体实验结果如图3所示。图3 轨迹5、10、15、20米缓冲区图从中不难看出,20米的缓冲区半径最为合适,而10米、15米缓冲区的道路面具有断开、不连通的现象,且存在大量的噪声干扰;当缓冲区半径大于20米,道路面无法体现出道路的细节,相邻的道路会融合在一起,从而无法精确地得出道路模型,所以本文采用20米作为缓冲半径构建道路面。2.3.2基于数学形态学的栅格清理数学形态学(Mathematical morphology)是一门建立在格论和拓扑学基础之上的图像分析学科,是数学形态学图像处理的基本理论。进行栅格清理时需要用到基于数学形态学的膨胀和腐蚀运算。膨胀可以理解为是求局部最大值的操作,设有两个集合A,B,对B移动x距离后,仍存在与A集合内的B要素点,即膨胀后的结果。也可以理解为A与B进行了卷积处理,B为核,计算集合B所在区域的最大像素值,并将该像素值赋予我们指定的像素,使得该区域内某些像素值得到突出显示。如公式(1)所示:A B=B+x A(1)A为被处理集合,B为结构元素,或可以理解为卷积运算中的核,为卷积运算符;腐蚀运算则不同,将集合B移动x距离,若新集合B 与A集合相交,则将相交要素集合输出,即是腐蚀运算的结果;如公式2所示:AB=B+x A 0(2)A为被处理集合,B为结构元素,或可以理解为卷积运算中的核,为卷积运算符;细化前要将构建的矢量的道路面数据进行栅格化处理,尽可能地保留原来数据的信息,从而保持道路连通性。采用大量的低精度的出租车移动轨迹数据,在经过缓冲区分析、栅格转化之后难免存在一定的问题,数据中存在空洞,破坏了数据的连通性,数据边缘存在毛刺,细化会产生零散的道路,对主干道产生干扰,如图4所示。图 4 栅格化后空洞、噪声示例图如图5所示,我们使用对栅格数据进行清理,运算像元为前景像元,对像元进行开运算和闭运算,(1)原始图61本栏目责任编辑:王力数据库与大数据技术Computer Knowledge and Technology电脑知识与技术第18卷第35期(2022年12月)第18卷第35期(2022年12月)(2)运算结果图图 5 开运算效果演示图通过开运算可以看出:图像中孤立的点经过开运算之后被消除,且要素边缘的毛刺也被平滑,开运算起到了平滑、消除噪声的作用,而且保持了原图像整体的几何形状和位置没有发生改变。对数据进行闭运算,结果如图6:(1)原始图(2)运算结果图图 6 闭运算效果演示图通过闭运算结果,可以看出:闭运算能够填补空洞,闭合裂缝,而且与开运算一致,都保持了图像要素整体的几何形状与位置不发生变化。最后清理结果如图7所示。图 7 清理效果图2.3.4 细化细化算法的目的就是在保持图像原有的拓扑结构和几何结构不变的前提下,提取图像的中心像元,以消除冗杂要素,突出图像主要特征,同时可以减少内存消耗,加快计算机处理速度。细化后的效果如图8所示,道路提取结果如图9所示,所得的线要素就是北京市交通道路网。图 8 道路细化结果图图 9 道路栅格转折线效果图3 道路模型的构建3.1 道路交叉口提取及模型构建提取道路交叉口有助于完善道路的拓扑结构,道路交叉口的位置、拓扑连接以及路口的方向关系是构建路网不可或缺的,其定义如表1所示:表 1 道路交叉口名称道路拐角丁字路口十字路口定义栅格数据每个像元点周围八个像素单位内,有且仅有两个像素点的值不为0。周围八个像素单位内,有且仅有三个像素点的值不为0。周围八个像素单位内,有且仅有四个像素点的值不为0。常用的道路交叉口提取方法有基于密度峰值聚类的道路交叉口提取方法和遍历法以及拓扑法等等7,常用的是遍历法和拓扑法。基于ArcGIS,使用拓扑法得到交叉点,进而提取交叉口;基于道路要素,建立网络数据集,建立转弯要素类,针对道路端点设置连通性,在添加属性时,添加道路长度和道路交叉口,最终生成道路模型,如图10所示:62数据库与大数据技术本栏目责任编辑:王力Computer Knowledge and Technology电脑知识与技术第18卷第35期(2022年12月)第18卷第35期(2022年12月)图 10 道路模型成果图3.2 道路模型评价经过道路交叉口的提取,我们构建了路网模型,得到了交通图,现将北京市交通图作为底图,对其进行综合评价:(1)道路精度评价。道路模型与底图基本重合,主要线路不偏离底图道路,精度符合要求,如图 11所示:图11 道路提取效果展示图(2)道路完整性评价。北京市的主要道路已经完整地从出租车轨迹数据中得到提取,主要道路从模型中得到了体现,可以从道路模型中看到北京三环内的道路得到了体现,道路完整性良好。(3)道路拓扑关系评价。具备一定的拓扑结构,具有连通性,标识出了道路拐角、丁字路口、十字路口等要素,符合实际情况,具备合理性。4 总结在前人研究基础上,本文基于出租车轨迹数据对道路进行了还原,并对还原结果进行了评价,在这个过程中取得以下一些认识:(1)基于异常数据检测算法,对异常数据进行了删除,提高了数据精度。(2)对道路中心线的提取,总结了一套方法,分析了缓冲区分析的半径参数,并利用数学形态学进行了去噪和空洞填补等操作。(3)基于道路模型,得到道路交叉口等信息,进一步丰富了道路模型的数据内涵。(4)使用出租车轨迹数据来还原道路是提取最新道路信息的一种方式,由于出租车轨迹数据获取容易、成本消耗小、更新快、反馈快,可以考虑选为更新道路信息的一种方法进行使用。基于这个背景,该设计开展了基于出租车轨迹数据提取道路信息和构建道路模型的研究,所获得的成果能为路网信息提取和更新提供帮助,有一定的实用价值。本文在研究过程中有以下不足之处:(1)在进行道路面状要素构建的时候只考虑到全局的连通性,用相同的缓冲半径构建道路面,对局部细节处理不到位。(2)细化算法的选择较为单一,对目前主流的细化算法讨论不到位。参考文献:1 Bertolotto M,Di Martino S,Ferrucci F,et al.Towards a framework for mining and analysing spatio-temporal datasetsJ.International Journal of Geographical Information Science,2007,21(8):895-906.2 何晓军,徐爱功