温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
结合
卷积
Transformer
目标
跟踪
算法
春雷
第 49卷 第 4期2023年 4月Computer Engineering 计算机工程结合卷积 Transformer的目标跟踪算法王春雷1,2,3,张建林1,2,李美惠1,2,徐智勇1,2,魏宇星1,2(1.中国科学院光束控制重点实验室,成都 610209;2.中国科学院光电技术研究所,成都 610209;3.中国科学院大学 电子电气与通信工程学院,北京 100049)摘要:现有基于 Transformer的目标跟踪算法未充分利用 Transformer的长距离依赖属性,导致算法提取的特征判别性不足,跟踪稳定性较差。为提高孪生网络目标跟踪算法在复杂场景中的跟踪能力,结合卷积与 Transformer的优势,提出目标跟踪算法 CTTrack。在特征提取方面,利用卷积丰富的局部信息和 Transformer的长距离依赖属性,以卷积和窗口注意力串联的方式和层次化的结构构建一个通用的目标跟踪骨干网络 CTFormer。在特征融合方面,利用互注意力机制构建特征互增强与聚合网络以简化网络结构,加快跟踪速度。在搜索区域选择方面,结合目标运动速度估计,设计自适应调整搜索区域的跟踪策略。实验结果表明,CTTrack在 GOT-10k数据集上的平均重叠度为 70.3%,相比基于 Transformer的跟踪算法 TransT 和 TrDiMP 均提高 3.2 个百分点,在 UAV123 数据集上的曲线下面积为 71.1%,相比 TransT和 TrDiMP分别提高 2.0个百分点和 3.6个百分点。在 TrackingNet、LaSOT、OTB2015、NFS数据集上分别取得 82.1%、66.8%、70.1%、66.3%的曲线下面积,并能以 43帧/s的速度进行实时跟踪。关键词:孪生网络;Transformer目标跟踪;窗口注意力;互注意力;运动估计;搜索区域开放科学(资源服务)标志码(OSID):中文引用格式:王春雷,张建林,李美惠,等.结合卷积Transformer的目标跟踪算法 J.计算机工程,2023,49(4):281-288,296.英文引用格式:WANG C L,ZHANG J L,LI M H,et al.Object tracking algorithm combining convolution and Transformer J.Computer Engineering,2023,49(4):281-288,296.Object Tracking Algorithm Combining Convolution and TransformerWANG Chunlei1,2,3,ZHANG Jianlin1,2,LI Meihui1,2,XU Zhiyong1,2,WEI Yuxing1,2(1.Key Laboratory of Beam Control,Chinese Academy of Sciences,Chengdu 610209,China;2.Institute of Optics and Electronics,Chinese Academy of Sciences,Chengdu 610209,China;3.School of Electronic,Electrical and Communication Engineering,University of Chinese Academy of Sciences,Beijing 100049,China)【Abstract】The existing target object algorithms based on Transformer do not fully use Transformers long-distance dependence attribute,resulting in insufficient discriminability of the features extracted by the algorithm and poor tracking stability.To improve the object tracking ability,a object tracking algorithm CTTrack is proposed for complex scenes,combining the advantages of convolution and Transformer.In terms of feature extraction,the algorithm combines the rich local information of convolution and long-distance dependence attribute of Transformer to construct a general object tracking backbone network CTFormer,by concatenating convolution and window attention in a hierarchical structure.In feature fusion,only the Cross-Attention Mechanism(CAM)is used to construct the feature mutual enhancement and aggregation networks,which simplifies the network structure and improves tracking speed.In search area selection,the tracking strategy of adaptive search area adjustment is designed based on object motion speed estimation.The experimental results show that the Average Overlap(AO)of CTTrack on GOT-10k dataset is 70.3%,which is 3.2 percentage points higher than that of TransT and TrDiMP,and the Area Under the Curve(AUC)on the UAV123 dataset is 71.1%,which is 2.0 and 3.6 percentage points higher than on TransT and TrDiMP,respectively.The AUC on the TrackingNet,LaSOT,OTB2015,and NFS datasets,are 82.1%,66.8%,70.1%,and 66.3%,respectively,with real-time tracking at a speed of 43 frames/s.【Key words】siamese network;Transformer object tracking;window attention;cross-attention;motion estimation;search areaDOI:10.19678/j.issn.1000-3428.0064096基金项目:国家自然科学基金青年科学基金“基于交叉度量跨模态学习的多谱段目标跟踪方法研究”(62101529)。作者简介:王春雷(1996),男,硕士研究生,主研方向为目标跟踪;张建林(通信作者),研究员、博士、博士生导师;李美惠,博士;徐智勇,研究员、博士生导师;魏宇星,副研究员。收稿日期:2022-03-04 修回日期:2022-04-21 Email:开发研究与工程应用文章编号:1000-3428(2023)04-0281-08 文献标志码:A 中图分类号:TP3912023年 4月 15日Computer Engineering 计算机工程0概述 视频目标跟踪是计算机视觉领域中重要的方向,广泛应用于军事、医学、安防、无人驾驶等领域。但是在实际工程中经常存在目标姿态变化、背景干扰、遮挡、尺度变化等情况而影响目标跟踪效果1-2。此外,实时性也是评价跟踪算法实际应用的重要指标。因此,在满足实时性的前提下,提高算法在复杂场景中的跟踪精度具有重要意义。近年来,基于孪生网络的跟踪算法因其具有精度高、速度快的特点而成为目标跟踪算法的主流方向。SiamFC3全面完整地将孪生网络引入目标跟踪中,将目标跟踪作为简单的相似性度量问题,使用浅层网络 AlexNet提取特征,通过卷积度量两个分支的相 似 性,为 后 续 算 法 的 发 展 提 供 一 个 新 的 方 向。SiamRPN4 将检测领域中的区域提议网络(Region Proposal Network,RPN)引入到跟踪算法中,在一定程度上解决了 SiamFC3 的尺度问题,跟踪精度和速度得到有效提高,但是 RPN 的引入带来了部分超参数,使得网络对于超参数过于敏感。SiamRPN+5 和 SiamDW6 通过深度分析孪生网络跟踪算法的特点,将骨干网络从浅层的 AlexNet、GoogleNet等推广到深层的 ResNet7 ,为后续算法的发展提供扎实的基础。研究人员提出的 SiamFC+8 和 SiamCAR9 算法再次将目标检测中的 Anchor-Free 策略引入到跟踪算法领域中,缓解超参数敏感的问题,提升跟踪精 度。2021 年 主 流 的 TransT10 、STARK11、TrDiMP12 等算法在孪生网络上引入 Transformer13 进行特征增强和融合,大幅提升算法的跟踪效果。虽然现有基于 Transformer13目标跟踪算法的性能 获 得 显 著 提 高,但 是 其 本 质 仅 简 单 使 用Transformer 进行特征的增强和融合,未充分利用Transformer 的 长 距 离 依 赖 属 性,无 法 完 全 发 挥Transformer 的优势。此外,Transformer 相对于卷积神经网络具有更高的计算量,导致相关算法的网络过于臃肿,难以真正投入使用,而且因其长距离依赖属性导致在提取视觉特征时无法获取丰富的局部信息,然而,卷积神经网络能够提取丰富的局部特征且计算量较小。因此,为获得更优的跟踪效果和更快的跟踪速度,本文在现有算法的基础上,提出结合卷积 Transformer的目标跟踪算法 CTTrack。为充分利用卷积神经网络与 Transfomer 的特性,设计一个全新的目标跟踪骨干网络。利用互注意力设计简单的特征互增强与聚合网络,抛弃繁琐的编码-解码过程,降低计算量并加快跟踪速度。针对因跟踪过程中目标快速运动、目标丢失等存在搜索区域选择困难的问题,通过运动估计自适应动态调整搜索区域的策略,进一步提高跟踪精度。1相关工作 1.1孪生网络目标跟踪算法孪生网络目标跟踪算法具有结构简单、精度较优、速度较快特点。其中,SiamFC3 普遍被认为是首个孪生跟踪网络,后续算法大多在此基础上从不同角度进行探索。SiamFC3 网络结构如图 1所示。SiamFC3 由模板分支和搜索分支组成。两个分支的输入模板图像z和搜索图像x通过共享权重的骨干网络提取特征,并以模板分支的特征图作为卷积核与搜索图像的特征图进行卷积,以得到响应图,响应图中响应值最高的位置对应着目标可能出现的位置,最后将响应图进行双三次插值定位目标位置,后续发表的孪生网络跟踪算法结构大致与此类似。1.2Transformer的应用Transformer13 于2017年被提出,最早被应用于机器翻译领域,使用注意力机制组成编码-解码的结构。后续研究发现基于 Transformer13 的模型在各种自然语言处理任务中表现良好,目前已经取代长短时记忆(Long