温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
状态
精细
长短
记忆
对抗
网络
用于
行人
轨迹
预测
吴家皋
2023-05-10计算机应用,Journal of Computer Applications2023,43(5):1565-1570ISSN 1001-9081CODEN JYIIDUhttp:/基于状态精细化长短期记忆和注意力机制的社交生成对抗网络用于行人轨迹预测吴家皋1,2*,章仕稳1,2,蒋宇栋1,2,刘林峰1,2(1.南京邮电大学 计算机学院,南京 210023;2.江苏省大数据安全与智能处理重点实验室(南京邮电大学),南京 210023)(通信作者电子邮箱)摘要:针对当前行人轨迹预测研究仅考虑影响行人交互因素的问题,基于状态精细化长短期记忆(SR-LSTM)和注意力机制提出一种用于行人轨迹预测的社交生成对抗网络(SRA-SIGAN)模型,利用生成对抗网络(GAN)学习获得目标行人的运动规律。首先,使用SR-LSTM作为位置编码器提取运动意图信息;其次,通过设置速度注意力机制合理地为同一场景中的行人分配影响力,以更好地处理行人的交互;最后,由解码器生成预测的未来轨迹。在多个公开数据集上的测试实验结果表明,SRA-SIGAN模型的总体表现良好。特别是在Zara1数据集上,与SR-LSTM模型相比,SRA-SIGAN模型的平均位移误差(ADE)和最终位移误差(FDE)分别减小了20.0%和10.5%;与社交生成对抗网络(SIGAN)模型相比,SRA-SIGAN的ADE和FDE分别下降了31.7%和24.4%。关键词:生成对抗网络;长短期记忆网络;行人轨迹预测;注意力机制;行人交互中图分类号:TP18;TP391.4 文献标志码:ASocial-interaction GAN for pedestrian trajectory prediction based on state-refinement long short-term memory and attention mechanismWU Jiagao1,2*,ZHANG Shiwen1,2,JIANG Yudong1,2,LIU Linfeng1,2(1.School of Computer Science,Nanjing University of Posts and Telecommunications,Nanjing Jiangsu 210023,China;2.Jiangsu Key Laboratory of Big Data Security and Intelligent Processing(Nanjing University of Posts and Telecommunications),Nanjing Jiangsu 210023,China)Abstract:In order to solve the problem of most current research work only considering the factors affecting pedestrian interaction,based on State-Refinement Long Short-Term Memory(SR-LSTM)and attention mechanism,a Social-Interaction Generative Adversarial Network(SIGAN)for pedestrian trajectory prediction was proposed,namely SRA-SIGAN,where GAN was utilized to learn movement patterns of target pedestrians.Firstly,SR-LSTM was used as a location encoder to extract the information of motion intention.Secondly,the influence of pedestrians in the same scene was reasonably assigned by setting the velocity attention mechanism,thereby handling the pedestrian interaction better.Finally,the predicted future trajectory was generated by the decoder.Experimental results on several public datasets show that the performance of SRA-SIGAN model is good on the whole.Specifically on the Zara1 dataset,compared with SR-LSTM model,the Average Displacement Error(ADE)and Final Displacement Error(FDE)of SRA-SIGAN were reduced by 20.0%and 10.5%,respectively;compared with the SIGAN model,the ADE and FDE of SRA-SIGAN were decreased by 31.7%and 24.4%,respectively.Key words:Generative Adversarial Network(GAN);Long Short-Term Memory(LSTM)network;pedestrian trajectory prediction;attention mechanism;pedestrian interaction0 引言 近年来,基于深度学习方法的行人轨迹预测问题在计算机视觉和人工智能领域重新引起人们的兴趣。轨迹的预测1-4对于社交机器人导航5、自动驾驶6和智能跟踪7-8具有很高的价值。行人轨迹预测指基于行人的历史轨迹生成行人未来的位置,然而,由于行人复杂的运动行为,尤其是在拥挤的场景中,会增加行人轨迹预测的困难。基于循环神经网络(Recurrent Neural Network,RNN)的方法和基于生成对抗网络(Generative Adversarial Network,GAN)的方法是轨迹预测中最常用的两种方法。在基于RNN 的方法中,Alahi 等9提出了社会长短期记忆(Social Long Short-Term Memory,SLSTM)网络模型,采用 LSTM 编码器-解码器的结构,再通过社会池化模块得到交互信息,最后通过 LSTM 解码器输出预测的轨迹。该模型的社会池化模块以每一个目标行人为中心建立池化邻域,然后将邻域中行文章编号:1001-9081(2023)05-1565-06DOI:10.11772/j.issn.1001-9081.2022040602收稿日期:2022-04-29;修回日期:2022-07-10;录用日期:2022-07-11。基金项目:国家自然科学基金资助项目(61872191)。作者简介:吴家皋(1969),男,江苏苏州人,副教授,博士,CCF会员,主要研究方向:计算机网络、人工智能;章仕稳(1996),男,江苏南京人,硕士研究生,主要研究方向:轨迹预测、深度学习;蒋宇栋(1999),男,江苏盐城人,硕士研究生,主要研究方向:轨迹预测、深度学习;刘林峰(1981),男,江苏丹阳人,教授,博士,主要研究方向:计算机网络、移动计算。第 43 卷计算机应用人对应的LSTM隐状态进行“和池化”;但该池化方式并未将不同的行人区别对待,影响了池化效果。Lee等10提出了深度学习逆最优RNN编码器-解码器框架,通过条件变分自编码器获得一组不同的假设未来预测样本,并通过 RNN 评分模块对预测样本进行排序和细化,可以作出更好的长期预测。Bartoli等11提出了环境感知的 LSTM模型,通过对环境中可能影响行人运动的环境物体进行位置标记,运用池化层对行人交互和行人环境交互进行建模,引入了环境物体对行人运动的影响。Xu 等12提出了人群交互深度神经网络(Crowd Interaction Deep Neural Network,CIDNN)模型,使用双 层 LSTM 和 三 层 多 层 感 知 机(Multi-Layer Perceptron,MLP),并引入“空间亲和力”以及“全局和池化”来处理不同行人对目标行人的不同影响。但是空间亲和力没有包含速度信息,不足以描述行人间的相互作用。此外,全局池化方式会将距离很远的行人也考虑在内,这必然导致模型性能的下降。在上述工作中,研究人员通常倾向于最小化与未来真实坐标的L2距离,以预测目标行人唯一的未来轨迹。然而,预测人类行为(包括行人轨迹)是一个多模态问题,因为给定部分历史轨迹,可能有多条未来轨迹都适合该行人。这时,使用基于 GAN13的方法可以预测多个可接受的轨迹,并从中选择“最佳”轨迹作为预测结果。Gupta等14提出了社会 GAN(Social GAN,SGAN)模型,由一个基于 LSTM的编码器-解码器生成器、一个池化模块和一个基于 LSTM的鉴别器组成。SGAN在训练时能一次生成多个预测结果,从而使预测轨迹具有多样性。SGAN的池化模块采用“最大池化”操作来处理行人交互,但全局池化方式同样会导致过多的无效交互。Amirian等15在SLSTM和SGAN的基础上提出了Social ways模型,并引入了注意力机制使模型自主分配对交互信息的关注,进一步提升了模型效果。本研究组在之前的工作中提出了社交生成对抗网络(Social-Interaction GAN,SIGAN)模型16,采用一种社会交互模块获取场景中相邻行人与目标行人之间的位置和运动信息。然而,在SIGAN的位置编码器中,LSTM的隐藏态信息并不是最新的状态,特别是当行人在短时间内改变了运动状态时,LSTM只能获得目标运动前的状态信息,而不能获取邻居行人的运动意 图。而 Zhang 等17提 出 的 状 态 精 细 化 LSTM(State-Refinement LSTM,SR-LSTM)在 LSTM 之上增加了一层状态精细化模块(States Refinement Module,SRM),能让目标行人共享编码的邻居行人隐状态,从而获取精细化LSTM细胞状态和隐状态。采用 SR-LSTM 作为位置编码器时,可以更好地提取场景中行人的运动意图信息,尤其在短时间的预测中,这种“意图”就显得极为重要。但是,SR-LSTM对行人运动意图中的速度考虑不足,需要通过设置速度注意力机制对同一场景中行人进行影响力分配。综上所述,本文提出了一种基于SR-LSTM和注意力机制的 社 交 对 抗 生 成 网 络(SR-LSTM and Attention mechanism based Social-Interaction GAN,SRA-SIGAN)用于行人轨迹预测。本文的主要工作包括:1)提出基于SRA-SIGAN的行人轨迹预测模型,使用SR-LSTM作为位置编码器,以有效提取行人运动意图,使社会交互模块能更准确地表达目标和相邻行人之间的位置和运动信息。2)针对SR-LSTM在行人运动速度方面考虑不足的问题,基 于 自 注 意 力 机 制 设 计 了 速 度 注 意 力 模 块(Velocity Attention Module,VAM),对同一场景中行人进行影响力权重分配,使模型能充分利用行人间的交互信息,提升预测精度。3)在多个公开的真实世界数据集上对所提模型进行了大量实验,结果表明 SRA-SIGAN 模型具有较高的行人轨迹预测准确性。1 本文模型 1.1问题定义对于行人的轨迹预测问题,可以进行如下定义:在一个场景中,给定场景中n个行人过去的tobs个坐标,用于预测每个行人接下来的tpred个坐标