温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
图卷
骨架
数据
双人
交互
行为
识别
张静亭
投稿网址:http:/辽宁石油化工大学学报JOURNAL OF LIAONING PETROCHEMICAL UNIVERSITY第43卷 第3期2023 年6月Vol.43 No.3Jun.2023基于图卷积的 3D骨架数据的双人交互行为识别张静亭1,曹江涛1,姬晓飞2(1.辽宁石油化工大学 信息与控制工程学院,辽宁 抚顺 113001;2.沈阳航空航天大学 自动化学院,辽宁 沈阳 110136)摘要:针对图卷积神经网络的双人交互行为识别方法存在交互语义信息表达不充分的问题,提出了一种新的双人交互时空图卷积神经网络(DHISTGCN)用于行为识别的方法。该网络包含空间子网络模块和时间子网络模块。将基于交互动作视频获取的 3D 骨架数据生成一种双人交互动作的空间动作图用于空间信息的表示,图中根据关节点位置信息对双人之间的连接边赋予不同的权重。时间信息处理中,在构造的邻接矩阵中增加了上下文时间信息的联系,图中关节点与其一定时间范围内的节点增加连接。将生成的时空图数据送入空间图卷积网络模块,结合时间图卷积网络模块增强帧间运动特征连续性进行时序建模。该模型充分考虑了双人交互动作的紧密关系,具有较强的鲁棒性,获得了比现有模型更好的交互动作识别效果。关键词:时空图卷积;骨架数据;双人交互;行为识别中图分类号:TP391.1 文献标志码:A doi:10.12422/j.issn.16726952.2023.03.0143D Skeleton Data Double Human Interaction Recognition Based on Graph Convolution NetworkZhang Jingting1,Cao Jiangtao1,Ji Xiaofei2(1.School of Information and Control Engineering,Liaoning Petrochemical University,Fushun Liaoning 113001,China;2.School of Automation,Shenyang Aerospace University,Shenyang Liaoning 110136,China)Abstract:Aiming at the problem of insufficient representation of interactive semantic information in the double human interaction behavior recognition method based on graph convolutional neural networks,a new double human interactive spatialtemporal graph convolution network(DHISTGCN)was proposed for behavior recognition.The network contains spatial subnetwork modules and temporal subnetwork modules.Based on the 3D skeleton data obtained from the interactive action video,a spatial action graph of double human interactive action was generated for the representation of spatial information.In the graph,the connecting edges between double human were given different weights according to the joint point position information.The connection of context time information was added in the constructed adjacency matrix,and the joint points in the graph were connected with their nodes within a certain time range in time information processing.The generated spatialtemporal graph data was sent to the spatial graph convolution network module,and the temporal graph convolution network module was combined to enhance the continuity of inter frame motion features for modeling in time.The model fully considers the close relationship of double human interaction.The comparative experimental results on NTURGB+D dataset show that the algorithm has strong robustness and obtains better interaction recognition effect than the existing models.Keywords:Spatialtemporal graph convolution;Skeleton data;Double human interaction;Behavior recognition基于视频的人体行为识别技术在智能安防1、运动分析2、手势识别3、交互动作识别4等领域具有非常广阔的应用前景。随着微软 Kinect相机的迅速普及,很多大型基于视频的关节点数据集的引入为研究者们进行人类行为识别的研究提供了优越条件。针对人体骨架数据的行为识别的主要任务是动作分类和识别,基于骨架的动作识别由于其对动态的环境和复杂的背景有很强的适应性被广泛地关注和研究。基 于 卷 积 神 经 网 络(Convolutional Neural 文章编号:16726952(2023)03008605收稿日期:20211216 修回日期:20220121基金项目:国家自然科学基金项目(61673199)。作者简介:张静亭(1995),女,硕士研究生,从事基于深度学习的行为识别方面研究;Email:。通信联系人:曹江涛(1978),男,博士,教授,博士生导师,从事智能方法及其应用、视频分析与处理方面研究;Email:。第 3 期张静亭等.基于图卷积的 3D骨架数据的双人交互行为识别Network,CNN)的方法通常手动设计转换规则。Q.Ke 等5利用人体关节点序列,将每个关节生成一个向量,通过空间结构转换为二维的灰度图像,再送入 CNN中进行动作。这种 CNN方法并不能很好地对双人交互行为数据进行时序建模来表征双人交互的关系。循 环 神 经 网 络(Recurrent Neural Networks,RNN)可以对双人骨架数据的时间信息进行建模,然而 RNN 只能表示相邻较近节点的依赖关系。因此,J.Liu 等6提出了一种将长短时记忆网络(Long Short Term Memory,LSTM)扩展到时空域的时空长 短 时 记 忆 网 络(Spatial Temporal Long Short Term Memory,STLSTM)。I.Lee 等7提出了一种包 含 短 期、中 期 和 长 期 集 成 的 长 短 时 记 忆 网 络(Temporal Sliding LSTM,TSLSTM),先将骨架数据缩放、旋转、平移变换到另一个坐标系,再从变换的数据中提取运动特征。S.Li等8提出了一种新的可 独 立 循 环 的 神 经 网 络(Independent Recurrent Neural Network,IndRNN),并用于双人交互行为识别。该网络中,同一网络层的神经元组织相互独立,在不同网络层上相互关联,有效地减弱了梯度爆炸和梯度消失。P.F.Zhang等9在 RNN 结构中对相对重要的因素加入了注意力机制(ElementWiseAttention Gate,EleAttG),增加了网络的输入对输出的贡献。但是,RNN 往往侧重于对时间信息的表示,而忽略人体运动中的空间结构信息10。基 于 图 卷 积 网 络(Graph Convolutional Network,GCN)的方法能够表示点和连线的关系,在基于人体 3D 骨架数据的动作识别研究中取得了诸多成果。S.Yan等11构建时空图卷积网络(SpatialTemporal Graph Convolutional Network,ST GCN),构造了人体关节的自然连接空间图。Y.H.Wen等12提出了一种基于主题编码分层空间结构的图卷积网络,利用人体的骨架序列使用可变的时间密集块来获取不同范围的局部时间信息。Y.Tang等13提 出 了 一 种 深 度 渐 进 式 强 化 学 习(Deep Progressive Reinforcement Learning,DPRL)的帧选择方法,对最具信息量的帧进行选择,忽略信息不明确的帧。Y.H.Wen 等12在时序信息上提取了长范围和短范围的时间依赖信息,加入时域注意力机制,有效地融合了来自骨架连接和断开关节的不同语义信息。尽管基于 GCN 的方法在人体 3D 骨架数据上提供了很多行为识别方案,GCN 使用的骨架空间图是仅依赖于人身体物理结构的预定义图,对细微的交互动作识别不够充分,不能很好地对双人交互关系进行整体建模。因此,本文提出一种双人交 互 时 空 图 卷 积 神 经 网 络(Double Human Interaction Spatio Temporal Gragh Convolution Network,DHISTGCN)的行为识别模型,在 NTURGB+D 大型数据集上进行了实验。结果表明,此模型进一步提升了双人交互行为识别的准确性。1 算法框架 DHISTGCN 包含空间图卷积模块和时序图卷积模块。骨架数据中关节点坐标对应图的节点,而人身体结构的连通性及时间上的连通性对应图的两类边。将双人交互动作的骨架数据为模型的输入,先对每帧骨架数据生成的空间动作图进行空域卷积,将得到的结果作为特征值,再进行时域上的卷积,发掘更全面的双人交互动作时空信息,不再局限于单人的局部关节范围。DHISTGCN 算法框架如图 1所示。2 时空建模 2.1 空间信息构图图是一种通过顶点和连线描述的数据类型,空间动作图如图 2所示。图中,实线表示构造的空间动作图包含骨架结构的连线;虚线表示没有结构关系的两个人的关节点间的联系。例如,握手的动作,一个人的手部关节会和另一人的手部关节发生近距离接触,但是他们并没有在骨骼结构中相连,手部节点距离很远,需要经过多层图卷积才能把信息传给对方,通过手动增加连接,建立交互关系。一帧完整的双人交互动作空间图所有关节点的连接关系通过一个对称的加权矩阵W表示,其中包含的权重w通过关节点进行确定,其权值定义如下:w=|wij=0,i=j1,i j wai,aj=,(0,1)(1)式中,wij为第 i 个关节点与第 j 个关节点的连接权图 1DHISTGCN 算法框架87辽宁石油化工大学学报第 43 卷值,当不存在连接关系时,对应的权值为 0,当存在自然结构的连接关系时,对应的权值为 1;wai,aj为两人之间具有交互关系的关节点对应的权值,表达交互行为的空间依赖关系。这种权重的分配策略可以差异化地学习不同关节点的特征信息。利用双人骨架的空间结构表示交