信息
融合
卫星
视频
目标
跟踪
王丽黎
多信息融合的卫星视频单目标跟踪王丽黎,张慧(西安理工大学自动化与信息工程学院,西安710048)通信作者:张慧,E-mail:摘要:针对卫星视频中存在目标特征信息少、前景背景对比性低等问题,在 SiamCAR 的基础上提出了一种融合运动信息和注意力机制的目标跟踪方法;首先引入运动激励模块和通道注意力模块以增强目标特征提取信息;然后将相邻帧作为新模板添加到网络里形成三重网络补充模板信息;最后加入卡尔曼滤波算法进行目标轨迹预测,将预测模板添加到网络中形成四重网络增加目标的运动信息;选取 SatSOT 卫星视频数据集中的 10 组数据进行测试,实验结果表明与 SiamCAR 网络相比,改进算法的跟踪准确率和成功率分别提升了 6%和 6.2%.关键词:卫星视频;目标跟踪;SiamCAR;卡尔曼滤波;注意力机制;信息融合引用格式:王丽黎,张慧.多信息融合的卫星视频单目标跟踪.计算机系统应用,2023,32(2):266273.http:/www.c-s- Target Tracking of Satellite Video Based on Multi-information FusionWANGLi-Li,ZHANGHui(SchoolofAutomationandInformationEngineering,XianUniversityofTechnology,Xian710048,China)Abstract:Aimingattheproblemsoflesstargetfeatureinformationandlowcontrastbetweenforegroundandbackgroundinsatellitevideo,thisstudyproposesatargettrackingmethodintegratingmotioninformationandattentionmechanismbasedonSiamCAR.First,themotionexcitationandchannelattentionmodulesareintroducedtoenhancethetargetfeatureextractioninformation.Then,adjacentframesareregardedasnewtemplatesandaddedtothenetworktoformatriplenetworkandsupplementtemplateinformation.Finally,theKalmanfilteralgorithmisaddedtopredictthetargetstrajectory,andapredictiontemplateisintroducedtothenetworktoconstructaquadruplenetworkandincreasethemotioninformationofthetarget.Inaddition,10setsofdataintheSatSOTsatellitevideodatasetareselectedfortesting.TheexperimentalresultsshowthatcomparedwiththoseoftheSiamCARnetwork,thetrackingaccuracyandsuccessrateoftheimprovedalgorithmareincreasedby6%and6.2%,respectively.Key words:satellitevideo;targettracking;SiamCAR;Kalmanfilter;attentionmechanism;informationfusion随着卫星技术的发展,卫星视频中的目标跟踪成为新的研究领域.而与普通视频相比,卫星视频中的目标相对于背景只占少量像素,这会使卫星视频中的目标跟踪更容易产生漂移现象.目标跟踪分为基于相关滤波和基于深度学习的方法.基于相关滤波的方法依赖手工特征通过相关计算进行目标的位置预测,常见的相关滤波算法有 MOSSE1、CSK2、KCF3、CN4等.基于深度学习的孪生网络跟踪方法通过提取深度特征在精度和速度之间达到了平衡,这种方法简单高效,受到广泛学者的关注.Bertinetto等5提出 SiamFC 算法,该算法使用相同的网络结构提取模板和搜索区域的特征,然后利用相关计算得到目标位置.Li 等6在 SiamFC 的基础上加入区域候选网络,提出了 SiamRPN 算法,有效解决了目标尺度变化问题.Li 等7在 SiamRPN 的基础上引入残差网络和通道互相关策略,提出了 SiamRPN+算法.Guo 等8在计算机系统应用ISSN1003-3254,CODENCSAOBNE-mail:ComputerSystems&Applications,2023,32(2):266273doi:10.15888/ki.csa.008995http:/www.c-s-中国科学院软件研究所版权所有.Tel:+86-10-62661041收稿时间:2022-07-12;修改时间:2022-09-07,2022-09-15;采用时间:2022-09-27;csa 在线出版时间:2022-12-09CNKI 网络首发时间:2022-12-13266软件技术算法SoftwareTechniqueAlgorithmSiamRPN+的基础上将分类和回归并行计算,提出了SiamCAR 算法,实现无先验框跟踪,避免了很多先验框超参数的设置.Shi 等9在 SiamFC 的基础上增添一个新分支提出了 TripFC 算法.这些方法主要针对传统视频的目标跟踪进行的改进,但在卫星视频跟踪中还需要根据目标特征不明显的特点进行优化.Shao 等10在孪生网络中加入目标的像素级运动特征保证目标更精确的定位.Zhang 等11利用全卷积网络预测像素位置提高跟踪精度.Wu 等12引入慢特征和运动特征提高目标跟踪性能.Ruan 等13通过拟合目标运动轨迹缓解模型漂移问题.Song 等14在孪生网络中加入通道、空间和交叉注意力机制,实现更精确的目标定位.与上述算法不同,本文以无锚框 SiamCAR 算法为基本框架,将通道注意力模块和运动激励模块结合,更多的关注得分较高的通道和运动位置,并且添加相邻帧分支和卡尔曼预测分支形成四重网络,提高算法在卫星视频中的目标跟踪能力.我们的算法仅需额外训练注意力机制模块,增添的相邻帧和卡尔曼预测模块不需要训练,可以直接使用.1相关理论SiamCAR 将跟踪问题分解成分类和回归两个子问题,以像素的方式进行求解.该框架主要包括:一个用于特征提取的骨干网络和一个用于边界框预测的分类回归子网.1.1 特征提取特征提取子网采用改进的 ResNet-50 网络15,如图 1,ResNet-50 网络包含 49 个卷积层、1 个全连接层,第 1 部分结构主要对输入进行卷积、正则化、激活函数和最大池化计算,第 25 部分结构中都增添了残差块,解决了原 CNN 网络过深时准确率下降的问题.(Z)(X)改进的 ResNet-50 将后 3 层的特征进行拼接分别得到 templatepatch 的特征图和 searchregion 的特征图,之后执行深度互相关计算获得响应图 R:R=(Z)(X)(1)其中,表示深度相关.然后将响应图 R 通过 11 的卷积层进行降维得到 R*,以减少模型参数量,加快后续的计算.(3,224,224)Conv:33,BN,ReLUConv:11,BN,ReLU+,ReLU+,ReLUConv:11,BN,ReLUConv:11,BNConv:33,BN,ReLUConv:11,BN,ReLUConv:11,BN,ReLUConv:33,BN,ReLU(64,56,56)(512,28,28)Bottleneck1Bottleneck2Bottleneck1Bottleneck2Bottleneck2Bottleneck1Bottleneck2Bottleneck1Bottleneck2Bottleneck1Bottleneck1Bottleneck2Bottleneck2Bottleneck2Bottleneck2Bottleneck2Bottleneck2Bottleneck1(256,56,56)(C,W,W)(C,W,W)InputResNet-50 网络结构(backbone)OutputMaxpool:33(2048,7,7)(1024,14,14)图 1ResNet-50 网络结构 1.2 边界框预测Rwhm将特征提取阶段得到的作为输入,分类回归子网通过分类分支和回归分支输出,其中分类分支Aclswh2Acenwh1Aregwh4Aclswh2输出分类特征图和中心度特征图,回归分支输出回归特征图.中每个点都包含一个二维向量,该向量表示输入搜索区域中相应位置的前2023年第32卷第2期http:/www.c-s-计 算 机 系 统 应 用SoftwareTechniqueAlgorithm软件技术算法267Aregwh4t(i,j)=(l,t,r,b)(x0,y0)(x1,y1)(x,y)(i,j)景和背景分数;中每个点都包含一个四维向量,该向量表示从相应位置到输入搜索区域中边界框四边的距离,设和表示实际边界框的左上角和右下角,并设表示点的对应位置,则回归目标的公式为:?l=xx0(2)?t=yy0(3)?r=x1x(4)?b=y1y(5)Acenwh1中每个点给出相应位置的中心度分数,公式定义为:C(i,j)=I(?ti,j)?min(?l,?r)max(?l,?r)min(?t,?b)max(?t,?b)(6)1.3 跟踪阶段Ti,j=(cls,cen,l,t,r,b)clscen对于每个位置都会生成对应的 6 维向量,其中表示分类的前景分数,表示l+rt+bpi,j中心度分数,和表示当前帧中目标的预测宽度和高度.然后加入尺度惩罚,将跟踪阶段的公式定义为:q=argmaxi,j(1d)clsij pij+dHij(7)d其中,H 是余弦窗,是平衡权重,q 是最大分数像素对应的位置.2改进的卫星视频目标跟踪算法将 SiamCAR 算法作为基本框架,首先在特征提取模块中加入运动激励模块(ME)和改进的高效通道注意力(ECA)模块;然后加入相邻帧模板和卡尔曼预测模板补充对象模板以形成四重网络结构.2.1 特征提取模块特征提取模块以改进的 ResNet-50 为基础,在骨干网络的残差单元加入了运动激励模块和改进的高效通道注意力模块,改进的残差单元结构如图 2所示.Conv:11,BNME 模块改进 ECA 模块(C,W,W)ME 模块改进 ECA 模块(C,W,W)改进 Bottleneck1改进 Bottleneck2Conv:11,BN,ReLUConv:33,BN,ReLUConv:11,BN,ReLUConv:11,BN,ReLUConv:33,BN,ReLUConv:11,BN,ReLU+,ReLU+,ReLU图 2改进的残差单元结构2.1.1运动激励模块XrXr运动激励模块16将短距离运动建模与整个时空特征学习方法相结合,激发特征的运动敏感通道,以解决卫星视频中前景背景对比性低的问题.首先输入形状为 N,T,C,H,W 的时空特征 X,其中 N 是批量大小,T和 C 分别表示时间维度和特征通道,H 和 W 表示形状.将输入特征 X 经过 11 的 2D 卷积得到信道压缩特征.接着对进行通道变换,计算 t 时刻的运动特征为:M(t)=convtransXr(t+1)Xr(t),1 t T 1(8)其中,convtrans是一个 33 的2D 通道卷积层.Ms接着,连接所有运动特征得到最终运动矩阵 M,使用全局平均池层来总结空间信息得到,将得到的空间信息进行 11 卷积,并使用 Sigmoid 函数获得运动注意权重 A:A=2Sigmoid