温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
第一
视角
回归
行人
轨迹
预测
模型
海峰
第 5 期2023 年5 月电子学报ACTA ELECTRONICA SINICAVol.51 No.5May 2023基于第一视角的非自回归行人轨迹预测模型桑海峰,王金玉,陈旺兴,王海峰(沈阳工业大学信息科学与工程学院,辽宁沈阳 110870)摘要:行人轨迹预测在自动驾驶和监控系统等多个应用中具有重要意义.目前大多数行人轨迹预测模型采用基于循环神经网络的编码器-解码器结构,其自回归的解码结构存在一定的累积误差,而且循环神经网络对序列的长期依赖问题仍然无法很好地解决.本文提出一种基于Transformer网络的非自回归行人轨迹预测模型,非自回归的解码结构能够同时生成所有预测值来减少累积误差,Transformer网络中的自注意力机制能够改善长期依赖问题.本文还设计一个局部信息加强模块来捕获行人运动趋势发生变化的局部特征,同时结合边界框的位置信息和大小信息来编码第一视角下透视投影产生的影响,使得模型提取到的轨迹特征更加有效.实验结果表明,在基于第一视角的公开数据集PIE(Pedestrian Intention Estimation)上,本文提出的模型比PIE预测模型在15、30、45帧的平均位移误差和终点位移误差上分别降低了24%,14.5%,11%和6%.关键词:行人轨迹预测;第一视角;Transformer网络;非自回归预测;累积误差;局部信息加强基金项目:国家自然科学基金(No.62173078);辽宁省教育厅科研项目(No.LJGD2020006)中图分类号:TP391文献标识码:A文章编号:0372-2112(2023)05-1266-07电子学报URL:http:/DOI:10.12263/DZXB.20211467Non-Autoregressive Pedestrian Trajectory Prediction Model Based on the First PerspectiveSANG Hai-feng,WANG Jin-yu,CHEN Wang-xing,WANG Hai-feng(School of Information Science and Engineering,Shenyang University of Technology,Shenyang,Liaoning 110870,China)Abstract:Pedestrian trajectory prediction plays an important role in many applications such as automatic driving and monitoring systems.At present,most pedestrian trajectory prediction models are recurrent neural network(RNN)based on encoder-decoder architectures.RNN could not solve the long-term dependence,and its auto-regressive decoding scheme introduces accumulate errors.This paper proposes a Transformer based non-autoregressive pedestrian trajectory prediction model,whose non-autoregressive decoder can generate all predictions simultaneously to reduce accumulative errors.The self-attention mechanism can enhance the long-term dependence problem.More specifically,this paper designs a local information enhancement module to extract the local features when pedestrians movement trend changes,and combining with the location information and scale of the boundary encodes the impact of perspective projection in the first perspective,which makes the trajectory features extracted from the model more efficient.Experimental results show that,compared with the PIE(Pedestrian Intention Estimation)model,the average displacement error of 15,30 and 45 frame and the end displacement error are respectively reduced by 24%,14.5%,11%and 6%on a public data set PIE based on the first perspective.Key words:pedestrian trajectory prediction;the first perspective;Transformer;non-autoregressive prediction;accumulative errors;local information enhancement moduleFoundation Item(s):National Natural Science Foundation of China(No.62173078);Research Project of Liaoning Education Department(No.LJGD2020006)1引言行人轨迹预测在自动驾驶和监控系统等多个应用中具有重要意义,也是计算机视觉领域中具有挑战性的任务之一.轨迹预测任务基于已有的真实轨迹信息来预测未来一段时间的轨迹,通常被描述为序列建模问题.因此,建立有效的序列模型来捕捉行人轨迹之间收稿日期:2021-10-29;修回日期:2021-12-27;责任编辑:覃怀银第 5 期桑海峰:基于第一视角的非自回归行人轨迹预测模型的时间依赖性是解决这一问题的关键.随着深度学习的快速发展,基于循环神经网络的模型,如长短期记忆网络(Long Short-Term Memory,LSTM)1或门控循环单元(Gated Recurrent Unit,GRU)2,在序列建模中取得了巨大的成功.目前大多数轨迹预测模型通常是解码器-编码器结构以自回归的方式预测未来轨迹310,这种自回归的预 测模型通常会遇到一个问题累积误差,尽管LSTM网络在一定程度上缓解了长期依赖性问题,但是对于特别长的序列,仍然不能很好的解决该问题.最近一段时间,Transformer网络11受到了各界的关注,其强大的自注意力机制在计算不同位置之间的相似性时采用点对点的计算方式,缓解长距离依赖问题.Giuliari F等人12首先将Transformer网络应用到监控场景下的行人轨迹预测中,对每个行人单独建模,在没有考虑任何人-人或者人-场景交互的情况下取得了非常好的效果.但是Transformer网络的解码器也是自回归结构,仍然存在一定的累积误差.Li等人13在动作序列预测中提出了非自回归Transformer模型,受文献 13 启发,本文设计一个非自回归构造模块用来生成隐向量,该向量作为解码器的输入对每个时间点的轨迹数据独立预测,从而缓解由自回归解码机制产生的累积误差问题.由于行人的运动具有随机性与不确定性,行人会根据所处环境的改变而随时改变自己的运动趋势,例如,在遇到静态障碍物时,可能会绕开再继续行走;在遇到车辆时,可能会减速行走以避开车辆,也可能会加速前进;在十字路口时,可能会先停下来观望然后再继续行走.Transformer网络虽能很好的捕获全局特征,学习行人的整体运动趋势,然而在运动趋势发生改变时,自注意力机制可能会忽略这种局部信息,按照之前的运动趋势进行预测必然会生成错误的轨迹.判断一个时间点的运动趋势是否发生变化,往往需要根据其上下文来确定14,本文设计了一个局部信息加强模块来关注运动趋势发生改变时的信息,提升轨迹预测的准确性.在第一视角下,行人在图像中移动的距离与现实世界中的物理距离并不直接对应,同时由于透视投影的原因,行人在图像中会出现“近大远小”的情况,只提取行人的位置信息难以准确的预测未来轨迹1517,本文同时考虑了行人的位置信息和边界框的大小信息来编码轨迹特征.2基于Transformer的非自回归行人轨迹预测模型本文提出一种基于Transformer的非自回归行人轨迹预测模型,结构框图如图1所示.轨迹序列输入到编码器之前,先经过一个局部信息加强模块提取轨迹序列中运动趋势发生变化的局部特征,然后再经过编码器编码,既能提取全局特征也能有效捕获局部特征.非自回归构造模块一次性生成所有能表示目标序列相关性的隐变量,解码器对隐变量解码,同时预测出所有时间点的轨迹值,从而减少自回归预测模型中存在的累积误差.2.1问题描述行人轨迹预测任务可以表示为对场景中任意行人,观察他在过去一段时间内的历史轨迹来预测其未来轨迹.对于行人i,假设他在时间t的位置向量为lit,行人 i 的观测轨迹为(lit-tobs+1lit-1lit),预测轨迹为(lit+1lit+2lit+tpred).本文的目标是从当前第t帧开始预测未来tpred帧相对第一帧的位置,即观测轨迹(lit-tobs+2-lit-tobs+1lit-1-lit-tobs+1lit-lit-tobs+1),预 测 轨 迹 为(lit+1-lit-tobs+1lit+2-lit-tobs+1lit+tpred-lit-tobs+1),其中,tobs为观测时间,tpred为预测时间.2.2模型输入在第一视角下,视频中行人的移动距离与现实世界中行人的移动距离不直接对应,例如,位于图像中心的行人可能在车辆附近,也可能在远处过街,这种差异会导致截然不同的未来轨迹.因此本文结合行人边界框的位置坐标和大小信息一起编码轨迹序列,对于行人i在时间t的输入向量表示为lit=(xityitwithit),其中,(xityit)表示行人i在t时刻边界框的中心坐标点,(withit)表示t时刻边界框的大小信息.2.3位置编码器循环神经网络本身是一种顺序结构,天生包含序列的位置信息.当Transformer网络抛弃循环网络结构,采用注意力机制取而代之,丢失了原本序列中的位置信息.位置编码模块将生成的位置向量加到输入向量上帮助模型学习位置信息,给定一个长度为n的序列,x表示数据在序列中的位置,位置编码器定义如式(1)所示.pos()x2i=sin x10 0002i/dmodelpos()x2i+1=cos x10 0002i+1/dmodel(1)其中,pos(x,2i),pos(x,2i+1)表示x处位置的偶数维度编码和奇数维度编码,dmodel表示向量维度.由正弦函数生成的位置编码具有连续性与高度相关性,即位置x1,x2越接近,pos(x1)和pos(x2)越相似,对于任意固定的偏移量,pos(x+)可以表示成pos(x)的线性函数.1267电子学报2023 年2.4局部信息加强模块在行人轨迹预测中,若行人以恒定的速度运动,自注意力机制能够很好地学习到行人的运动趋势.在现实场景中,行人会随着场景的变化做出不同的决策,随时改变运动方向,如图2所示,图中每个点表示行人边界框中心点在图片中的位置.若解码器解码时再继续关