分享
基于关键点检测和关联的多目标跟踪_刘艺博.pdf
下载文档

ID:2573582

大小:1.82MB

页数:8页

格式:PDF

时间:2023-07-24

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 关键 检测 关联 多目标 跟踪 刘艺博
Computer Engineering and Applications计算机工程与应用2023,59(13)多目标跟踪(multi-object tracking,MOT)是计算机视觉的研究热点,涉及到自动驾驶1、智能监控2、军事安全3等众多领域。近年来检测算法的性能随着深度学习技术的革新而不断提升,基于检测的多目标跟踪算法(detection based tracking,DBT)受到了越来越多的关注。这类算法包括检测模型和关联模型两部分内容,如何利用目标的检测信息对其进行状态估计,以及如何提高对同一身份目标的关联精度是该类算法研究的核心4-5。YOLO6、FasterR-CNN7、CenterNet8等检测框架的提出为DBT的研究提供了充分的先验支持,目前主流DBT的研究思路是先对目标状态进行预测,再将预测状态与检测目标匹配,具有较高的跟踪准确率。文献9提出的SORT通过卡尔曼滤波实现对下一帧对象的状态预测,再利用目标回归框和检测回归框交并比等运动信息实现预测目标和检测目标的匹配关联,然而其匹配关联时用到的信息较少,容易受遮挡问题的影响。针对该问题,文献10又提出了一种Deep SORT关联模型,用深度学习特征加强了对检测物体表面信息的收集,利用运动和外观两种信息标准实现关联匹配,增强了对遮挡情况的鲁棒性。文献11提出的MOTDT融合了目标的深度外观信息与空间信息,将预测目标与多个检测目标层级关联,根据软分配策略的轨迹评分机制来实现目标的关联。Deep SORT使用深度特征增强目标外观信息的方法开创了融合深度特征与运动状态做多目标匹基于关键点检测和关联的多目标跟踪刘艺博,奚峥皓上海工程技术大学 电子电气工程学院,上海 201620摘要:针对多目标跟踪领域中由目标信息关联性低引起的目标身份关联性差的问题,提出了一种基于关键点检测和关联的多目标跟踪算法。对目标的中心关键点建模,利用CenterNet对该点进行检测定位;将目标的深度特征与关键点尺度特征相结合,基于二者观测的显隐性关系构建一个联合特征提取器;将该联合特征作为目标的状态,通过隐马尔可夫模型估计下一帧的目标状态;利用目标的运动信息和关键点尺度信息提出“二级关联”的匹配机制,实现对该估计状态与检测目标的关联,得到最优的关联匹配结果。在公开的MOT17数据集上进行了仿真实验,并与一些主流算法进行了对比,结果表明,该算法在跟踪准确度指标表现较优,并对身份互换问题有较好的鲁棒性。关键词:机器视觉;多目标跟踪;关键点检测;目标信息关联性文献标志码:A中图分类号:TP29doi:10.3778/j.issn.1002-8331.2203-0425Multi-Object Tracking Based on Key Point Detection and AssociationLIU Yibo,XI ZhenghaoCollege of Electrical and Electronic Engineering,Shanghai University of Engineering Science,Shanghai 201620,ChinaAbstract:Aiming at the problem of poor correlation of object identity caused by low correlation of object information inthe multi-object tracking,this paper proposes a multi-object tracking algorithm based on key point detection and correla-tion.Firstly,it models the object by central key point,and uses CenterNet to detect and locate the point.Combining thedepth features of the object with the scale features,it constructs a joint feature extractor based on the explicit and hiddenrelationship between their observations.Then taking the joint feature as the object state,and the object state of the nextframe is estimated by hidden Markov model.Finally,it uses the object motion information and key point scale informa-tion to propose a“secondary correlation”matching mechanism,which is proposed to realize the correlation between theestimated state and the detected object,obtains the optimal correlation matching result.Experiments are carried out on thepublic MOT17 dataset,after compared with some mainstream algorithms,the results show that this algorithm performsbetter in tracking accuracy and has good robustness to the problem of identity exchange.Key words:machine vision;multi-object tracking;key point detection;object information correlation作者简介:刘艺博(1997),男,硕士研究生,研究方向为机器视觉,E-mail:;奚峥皓(1981),男,博士,副教授,研究方向为机器视觉、路径规划、智能认知学习与控制。收稿日期:2022-03-22修回日期:2022-05-18文章编号:1002-8331(2023)13-0156-081562023,59(13)配的新思路,但其只在匹配阶段使用深度特征信息,本质上是两个目标深度特征的相似度匹配,对于状态预测不产生影响,对遮挡目标的预测能力较差。还有一些算法为了提高DBT的实时性,采取的是同时实现目标的预测和匹配的研究思路。文献12提出的 CenterTrack算法,实现了对检测和目标深度特征提取的同时学习,通过对全部目标同时推理的方式实现对因遮挡而预测失败目标的及时更新,提高算法对重叠遮挡问题的鲁棒性。文献13提出的FairMOT,进一步提升了模型推理的速度,并且采用多层特征聚合的方式,提高了跟踪的稳定性和泛化能力。此外,除了结构的优越性之外,二者都采用了无锚框的检测器 Center-Net,它既实现了高精度检测的同时,又大大减少了后处理的资源消耗,提升了推理速度。然而,这两种方法对目标统一化处理的过程中会产生大量的身份互换,从而影响多目标跟踪的性能。基于先预测后匹配思路在跟踪准确率的优越性,以及CenterNet在推理速度的优越性,本文提出了一种基于关键点检测和关联的多目标跟踪算法(point detectionand association,PDA)。针对预测阶段状态表达不明显的问题,利用目标的深度特征和尺度不变特征变换(scale-invariant feature transform,SIFT)14特征构建一个联合特征提取器来增强信息的表达,增强对被遮挡目标的预测能力。针对两种模态特征状态估计难的问题,利用隐马尔可夫模型(hidden Markov model,HMM)15做联合特征的状态估计,实现了两个状态变量的适配,同时以马尔可夫链来传递状态增强了信息的独立性,降低了跟踪过程中目标身份互换的次数。针对数据关联时预测状态与检测状态指派性差的问题,提出了一种“二级关联”的关联机制,用关键点匹配的度量信息增强了匹配关联的能力。通过实验表明,相较于其他算法,本文算法的跟踪准确率有一定的提高,并对身份互换问题有较好的鲁棒性。1检测器和特征提取器结构1.1CenterNet检测器的结构本文搭建的 CenterNet检测器的结构如图 1 所示。包含一个主干网络和三个分支网络,选择Resnet-5016作为主干网络,用来提取输入图片的特征,三个分支网络平行不关联,分别用来预测热力图、目标的宽高,以及目标的中心点坐标。首先,将缩放到512512尺寸的图片输入到模型中;其次,利用Resnet-50提取输入图片的特征,得到尺寸大小为128128256的特征图;最后,将特征图分别送入三个分支网络进行预测,三个分支网络的输出即是检测预测的结果。1.2联合特征提取器结构本文构建的联合特征提取器的结构如图 2 所示。特征提取器针对的对象是单个目标的特征。对于检测器输出得到的每个目标,首先,将目标从一帧图像中裁剪出来,将目标图像缩放到224224的尺寸作为特征提取器的输入;其次,分别提取输入图片的深度嵌入特征和SIFT特征,其中,选取Resnet-50网络作为深度特征网络的主干网络,提取输入图片的特征图,再通过L2正则化得到该目标512维的深度嵌入特征,并且通过SIFT算法得到目标的SIFT特征;嵌入特征所表示的隐性特征状态和SIFT特征所表示的观测状态联合表征为该输入目标的特征。2基于PDA的多目标跟踪框架PDA多目标跟踪框架的算法流程如图3所示,一共包含检测、特征提取、状态估计、关联匹配四个阶段。PDA通过特征表达、根据特征估计状态的思路实现预测,利用预测的状态与检测结果关联的思路实现匹配,并提出了一种“二级关联”的关联机制。2.1联合特征的表达方式由第1章的特征提取器结构可知,用于关联匹配的特征包含深度嵌入特征和SIFT特征两个部分。若检测器提取到目标i,将其输入到Resnet模型中得到二维的特征图,将二维的特征图映射到向量空间得到1512的一维深度嵌入特征向量Femb(i),如式(1)所示:Femb()i=x1(i),x2(i),x512(i)(1)式中,x(i)表示目标i在第个纬度中的特征描述值,1,512且Z+,该描述符经过了归一化处理,在数值上x(i)0,1。其次,通过SIFT算法提取目标i中尺度不变的关键点,一个目标中会包含多个SIFT关键点,若目标i中包含N个SIFT关键点,用FSIFT(i)表示目标i的SIFT特征如式(2)所示:FSIFT(i)=y1(i),y2(i),yN(i)(2)图1CenterNet检测器网络结构Fig.1Network structure of CenterNet detector5125123Resnet-50DeConv128128256特征图输入33256 Conv11256 Conv33256 Conv112562 Conv33256 Conv112562 Conv128128112812821281282热力图中心点偏置回归框长、宽2242243Resnet-507751211512特征图SIFT输入112811281128L2深度嵌入特征隐性状态显性状态SIFT特征1n128图2联合特征提取器结构Fig.2Structure of joint feature extractor刘艺博,等:基于关键点检测和关联的多目标跟踪157Computer Engineering and Applications计算机工程与应用2023,59(13)式中,yN(i)表示第N个关键点的SIFT描述符,每个描述符可以用一个 128 维的

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开