分享
基于行人姿态的轨迹预测方法_王瑞平.pdf
下载文档

ID:2643302

大小:1.79MB

页数:12页

格式:PDF

时间:2023-08-20

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 行人 姿态 轨迹 预测 方法 王瑞平
http:/DOI:10.13700/j.bh.1001-5965.2021.0557基于行人姿态的轨迹预测方法王瑞平1,宋晓2,*,陈凯3,龚开奇2,张峻凡4(1.北京航空航天大学自动化科学与电气工程学院,北京100191;2.北京航空航天大学网络空间安全学院,北京100191;3.南京航空航天大学机电学院,南京211106;4.北京航空航天大学宇航学院,北京100191)摘要:在自动驾驶领域,行人轨迹预测一直是研究热点之一,行人行为的不确定性给轨迹预测带来很大的挑战。目前大部分轨迹预测方法只专注于行人之间的信息交互,忽略了行人意图和场景中其他语义信息对行人轨迹的影响。为此,提出一种基于行人姿态的卷积编码器-解码器网络(PKCEDN)来预测目标行人轨迹的方法,所提方法包含基于卷积、长短时记忆(LSTM)网络的编码器-解码器模型和能够学习当前时刻与过去时刻轨迹相关性的注意力机制。所提方法在MOT16、MOT17 和 MOT20 公开数据集上进行了相关测试,与 Linear、LSTM、Social-LSTM、Social-生成对抗网络(GAN)、SR-LSTM 和 Msgtv等主流方法相比,在保证预测速度不降低的前提下,平均误差降低约 36%。关键词:行人轨迹预测;姿态提取;编码器-解码器;注意力机制;空间语义信息中图分类号:V221+.3;TB553文献标志码:A文章编号:1001-5965(2023)07-1743-12无人自动驾驶正在大力发展,行人轨迹预测问题是其中重要的组成部分,如果能够提前准确地对行人轨迹进行预测,自动驾驶系统能够使车辆事先对行人的行为做出正确的决策,促进自动驾驶、无人车配送等领域的发展,具有很好的应用价值1-3。因此,在计算机视觉领域,轨迹预测3越来越成为研究者关注的研究方向。近些年,随着人工智能的发展,研究人员逐渐用神经网络4-5的方法预测行人轨迹,主要包括常规卷积网络和图卷积网络。这种预测一般是根据行人过去时刻的轨迹,结合周围环境对其的影响,预测行人未来时刻的行走轨迹。目前,该领域主要的关注点是如何充分利用丰富的视觉信息辅助行人轨迹的预测。行人轨迹是行人与周围环境综合交互的结果。行人未来轨迹主要取决于行人过去时刻的轨迹,与周围人和车等障碍物的交互,与周围自然环境的交互6-8。基于此,构建行人轨迹预测模型具有较高的挑战性。目前,行人轨迹预测方法主要考虑 2 个方面:行人意图。现有的行人轨迹预测方法很少考虑行人的意图。在文献 6 中,将行人相关活动分为 29 种,并且将行人未来活动和轨迹预测结合起来。但行人的实际意图有很多种,是行人自我的主观意识,很难去预测其真实活动目的。时间信息。目标行人的未来轨迹首先会受到之前时刻轨迹的影响。现有的方法6-10利用长短时记忆(longshort-termmemory,LSTM11)网络进行建模,通过其记忆单元来表征目标行人每个时刻的运动状态或与其周围空间交互特征。虽然 LSTM 具有强大的记忆和遗忘功能,但其局限于对前一时刻的状态记忆,对较远的过去时刻的状态记忆非常少。在实际的行人轨迹中,目标行人在过去各个时刻的轨迹状态对当前时刻的行走状态有着不同的影响10。为了解决这些问题,本文从以下 2 个方面开展收稿日期:2021-09-26;录用日期:2022-01-02;网络出版时间:2022-02-2414:37网络出版地址: J.北京航空航天大学学报,2023,49(7):1743-1754.WANG R P,SONG X,CHEN K,et al.Pedestrian trajectory prediction method based on pedestrian poseJ.Journal of Beijing Universityof Aeronautics and Astronautics,2023,49(7):1743-1754(in Chinese).2023年7月北京航空航天大学学报July2023第49卷第7期JournalofBeijingUniversityofAeronauticsandAstronauticsVol.49No.7创新性研究工作:结合实际场景中最常见的13 种异构交通信息,本文提出一种通过学习行人姿态及周围异构交通信息进行行人轨迹预测的方法。提出通过注意力机制建立目标行人当前时刻轨迹与过去时刻轨迹的相关性,设计了一种基于行人姿态的卷积编码器-解码器网络(posekeypointsbasedconvolutionalencoder-decodernetwork,PKCEDN)来预测目标行人轨迹的方法。PKCEDN 在 MOT16 数据集上进行训练和测试,与现有的轨迹预测方法比较,本文方法有更好的预测精度。1相关工作现有的行人轨迹预测方法主要有 2 类:基于机理建模的力学模型12-15和数据驱动的神经网络模型6,16-18。在力学建模方面,主流的方法为:社会力模型12,14、智能体模型19-21等。基于经验构建的力学模型需要人为设计人与周围环境交互,比如社会力模型中构建了人与人、人与物之间的力学关系。深度学习模型基于大量行人轨迹数据去训练神经网络自动构建场景中行人与其他障碍物的交互关系。由于人具有主观意识,并且所处环境错综复杂,要想全面建立行人与环境交互的力学关系是不可能的。而神经网络模型能够很好的自我学习,经过训练能够自我感知这种相互作用的关系22。所以在预测精度方面,基于深度学习的神经网络已经大大超越了力学建模。因此,本文主要介绍基于深度学习的模型。基于人与人交互的轨迹预测模型。之前的部分工作都是基于人与人之间的交互进行建模,比较经典的方法包括:Social-LSTM7、Social-生成对抗网络23(generativeadversarialnetwork,GAN)。Social-LSTM以目标行人为中心建立固定大小的交互区域,通过区域内行人之间的交互预测目标行人的未来轨迹;Social-GAN 同样基于 LSTM,不同的是采用对抗训练的方法提升了轨迹预测精度;在实际场景中,目标行人对于不同方向的重视程度是不一样的,Social-Attention 基于此设计了不同方向的行人对目标行人施加不同的影响力24。这类方法只关注区域内的行人,本文方法是将区域内的各类交通全部考虑在内,显然更加符合实际场景。基于人与场景交互的预测模型。还有许多方法融入进了环境因素,提升预测的效果。文献 6提出人们倾向于在人行道上而不是在草地上行走。Kitani等25采用反向强化学习预测人类的轨迹。Xie 等26认为行人是“粒子”,其运动力学是在拉格朗日力学框架内建模。Scene-LSTM 划分静态场景为曼哈顿网格,并使用 LSTM 预测行人的位置9。CARNet方法提出一种场景语义的网络来预测行人的轨迹27。SoPhie 方法利用场景语义分割模型的深层神经网络特征,关注行人运动轨迹28。还有一些方法试图用图神经网络研究行人交互模式。这些工作都很有意义,但并未考虑目标行人周围环境中不同交通类别的影响3-4。基于场景视觉特征的预测模型。还有一些利用个体的视觉特征来预测目标行人的路径,而不是将其视为场景中的点4,29-30。Kooij 等31通过观察行人的面部来模拟他们的意识,从而预测他们是否会过马路。Yagi 等32提取周围行人的姿态特征,并使用卷积神经网络来预测第一人称视频中的未来轨迹。这些方法提升了轨迹预测的准确性,但并未关注行人意图的识别;Rasouli 等33利用行人外貌特征和场景上下文预测行人意图和行人轨迹,Liang等6使用行人外貌特征和图像语义分割同时预测行人意图和行人轨迹。但行人外貌特征容易受到场景光线和穿着的影响,会对行人意图的识别造成干扰。与这些方法不同的是,本文通过行人的姿态特征34-35表征目标行人的行走意图,避免了行人外部特征变化对识别行人意图的干扰。2基于姿态特征提取的行人轨迹预测行人在规划自己的路径时,会考虑到周围人和异构交通的运动情况,同时会牢记自己的目的地。目前预测行人轨迹的方法主要集中在依靠过去时刻的轨迹预测未来轨迹,忽略了对行人本身意图的关注。在本节中,首先,给出行人轨迹预测问题的定义;其次,详细阐述基于行人姿态识别行人意图的编码器-解码器网络架构。2.1行人轨迹预测问题的定义和分析(xit,yit)TobsTobs(xit,yit)t=1,2,Tobsi=1,2,NTpred本文的目标是通过推理,预测行人在未来一段时间的轨迹。假设场景中行人 i 在时刻 t 的空间位置为,N 为个时刻内的行人数量,则行人轨迹预测被定义为:假设 N 个行人在个时刻内的空间位置,,通过模型预测每个行人未来时刻的空间位置。行人轨迹预测是一个非常有挑战性的研究领域,一个重要的特点是行人行为的不确定性,因此,对行人的差异行为进行建模是非常困难的。同一场景下行人存在多种可能的行为决策,具有多模态性。例如在前方存在行人的情况下,往往存在不同的决策行为,包括跟随、绕开等。目前只能通过更多的训练数据来学习各种可能的行为,以此达到更1744北 京 航 空 航 天 大 学 学 报2023年合理的预测。同时,目标行人都有自己的行走意图,虽然在过程中可能会受到障碍物的影响而临时改变走向,但还是会按照自己的意愿前进。因此,目标行人意图的推断非常关键。针对目前行人轨迹预测缺乏意图识别的问题,本文从行人意图的角度出发,提出一种基于行人姿态的轨迹预测方法。图 1 为姿态表征行人意图,图 1(a)、图1(b)和图1(c)中这3 种行人姿态是不同的,图1(a)中静立等待的行人在不同时刻呈现的姿态基本保持不变;图 1(b)中过马路的行人呈现的是行走时的姿态;图 1(c)中等待过马路的行人在静止状态和行走状态所呈现的姿态是不同的。可以看出,行人姿态可以反应行人的意图。14151705671111213109843216(a)不打算过马路的行人(b)正在过马路的行人(c)打算过马路但正在等待的行人(d)行人姿态提取图1姿态表征行人意图Fig.1PoserepresentationofpedestrianintentionConvDeConvYt R2Xt R141111因此,本文利用姿态估计方法获得行人姿态(见图 1(d)),并结合空间语义信息,提出 PKCEDN以预测行人的未来轨迹。图 2 为 PKCEDN 的结构。其中,为卷积,为反卷积,AttentionTensor 为注意力张量,为模型预测的轨迹,为模型的输入,表示行人在当前时刻的状态特征,如下:Xt=concatenate(St,Pt)(1)St R131111Pt R11111concatenate()式中:为目标行人周围的 13 类空间语义信息;为目标行人的姿态特征,具体分析详见 2.3 节数据预处理模块;为按通道维度进行拼接。Layer3Layer2Layer1注意力模块Conv-LSTMConv-LSTMConv-LSTMConv-LSTMConv-LSTMConv-LSTMConv-LSTMConv-LSTMConv-LSTMConv-LSTMConv-LSTMConv-LSTMX1X2XkXk+1Y1Y2Y12编码器模块解码器模块ConvConvConv.AttentionAttentionAttentionTensorTensorTensorDeConvDeConvDeConv图2PKCEDN 的结构Fig.2StructureofPKCEDN2.2卷积长短期记忆网络提取行人的空间信息对于预测目标行人轨迹至关重要。本文在数据预处理时,用三维张量表征目标行人的状态(见 2.3 节)。但传统的 LSTM 只能第7期王瑞平,等:基于行人姿态的轨迹预测方法1745够处理一维张量,丢失了空间信息。为解决该问题,本文用 Conv-LSTM10构建行人轨迹预测模型。Conv-LSTM 用卷积运算代替 LSTM 单元中每个门的矩阵乘法。这样,其可通过在多维数据中进行卷积操作来捕获基础空间特征。图 3 为

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开