温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
Transformer
位置
约束
端到端
多目标
追踪
算法
第 卷第 期重庆邮电大学学报(自然科学版).年 月 ().:./.基于 和位置约束的端到端多目标追踪算法收稿日期:修订日期:通讯作者:雒江涛 .吴 悦雒江涛张 攀任 媛(.重庆邮电大学 通信与信息工程学院重庆.重庆邮电大学 电子信息与网络工程研究院重庆)摘 要:为了应对计算机视觉中多目标追踪任务的挑战 针对网络中使用的锚点造成重识别训练模糊的问题通过可生成参考点的可变形 提出了一个端到端的多目标追踪系统()由骨干网络模块提取特征图将其送入可生成参考点的可变形 架构以检测目标并生成代表检测框中心的参考点利用参考点对候选目标进行空间位置约束并计算检测框的交并比来关联目标 实验结果表明 利用 的查询特征向量对目标进行位置约束提高了追踪精度并且降低了 切换的指标关键词:多目标追踪位置约束 端到端中图分类号:文献标志码:文章编号:()(.):.().:引 言多目标追踪()是计算机视觉领域的一项关键任务广泛应用于公共安全、动作识别、体育视频分析、老年人护理和人机交互等领域 的目的是检测视频中目标的轨迹如车辆、动物和行人的轨迹等 一般来说一个典型的 任务包括目标检测和数据关联两个阶段目标检测是为了检测和定位对象而数据关联的目的是利用特征来关联这些对象 由于特征的多样性如何为数据关联提取更具代表性的特征对 系统来说是一个挑战最常用的特征是外观特征 为了提取合适的外观特征有很多高精度但复杂的工作集中在采用重识别()网络学习外观特征用于后期 任务中的目标关联 另一种更简单的提取和利用外观特征的方法是在一个联合的网络中共同学习检测器分支和重识别分支 根据文献所提出的工作基于锚的检测器有多个相邻的锚只要它们检测框的交并比()足够大就可能在 分支中被估计为同一个 这为训练引入了严重的模糊性 因此无锚检测器被引入作为联合追踪系统的检测模块 然而这些在所谓的无锚方法中被提取的点依然可以被视为锚点 架构在计算机视觉中被引入因其有能力并行处理序列数据并且可以处理更大的感受野 提出了一个无锚的端到端目标检测系统文献提出了它的改进模型称为可变形()在目标检测上得到了不错的效果 和 使用时间特征和目标查询特征向量作为数据关联的外观特征在 上取得了良好的效果 然而查询特征向量作为目标检测器 的一个组成部分原本任务只是学习不同类别(如猫和狗)之间的不同特征而无法学习到同一类别(如人和人)内的相似特征的差异度因此用查询特征向量来关联对象会使 切换()更大 无法利用查询特征向量直接代表目标的外观特征而额外地引入重识别网络提取外观特征又不能真正利用到无锚 的优势因此本文提出了一个端到端的多目标追踪系统()利用从目标查询特征向量中学习到的参考点对目标进行空间位置约束而不是利用目标查询特征向量直接代表外观特征或另外引入一个 网络得到外观特征 首先检测模块采用可生成参考点的可变形 与原来的可变形 相比改进后的可变形 在数据关联模块中为空间位置约束额外生成并输出了二维参考点 其次对于关联模块参考点被用来识别目标的中心点并利用中心点通过分类学习任务来约束目标的空间位置 然后 被用来进一步约束候选目标间的距离 最后根据每一帧得到的目标位置和对应的 生成最终的目标轨迹总的来看本文提出的系统具有以下两个特点)端到端的网络结构 本文将目标检测器和特征提取器合并为一个统一的结构)简单但有效的空间位置约束 利用学习到的参考点去约束候选目标的空间位置从而有效地完成追踪任务实验结果证明 利用 的查询特征向量对目标进行位置约束提高了追踪精度与其他先进方法相比 在多目标追踪准确度()指标上取得了有竞争力的结果 相较于其他利用目标查询特征向量来直接表示外观特征的模型来说 在 切换的指标上有所降低 可生成参考点的可变形.原始可变形 原始可变形 架构由 个编码器和 个解码器组成 其中编码器对输入的图像特征进行编码以获得编码特征矩阵解码器则对编码特征矩阵进行解码以获得解码特征 将此两项通过前馈网络后即能计算出目标的类别和检测坐标可变形注意力机制被用来将全局特征图转化为只关注图中稀疏而有意义的位置 可变形注意力机制的具体过程可以写为()()()()式中:表示为注意头的索引 表示输入特征 重 庆 邮 电 大 学 学 报(自然科学版)第 卷的层次索引 表示采样点的索引和 为可学习权重表示内容特征表示采样点对每个查询元素 的参考点进行标准化处理表示输入的多尺度特征图和 分别为第 层特征层中第 个注意头的第 采样点的偏移值和注意权重值()是缩放操作使采样点 映射到输入特征图中.可生成参考点的可变形 与原 始 可 变 形 相 比 改 进 后 的 额外生成并输出参考点这些参考点在后续的数据关联模块中被用来约束目标的空间位置如图 所示查询特征向量 经过最后一层解码器中的多尺度注意力以及多头可变形注意力学习到了具有编码特征意义的特征向量 经过多层感知机()从高维的隐层特征向量得到二维向量 然后经 激活函数生成代表目标检测框中心的二维参考点()即:()()()()式中:代表由线性层和激活函数组成的多层感知机并且查询特征向量通过最后一层线性层即被降维到二维参考点 在后续的数据关联中利用标签中的目标 信息作为监督信号进一步学习图 可生成参考点的 结构.基于位置约束的追踪方法基于上述可生成参考点的可变形 生成的参考点本文设计了基于参考点和位置约束追踪方法 包括 个子模块:提取特征的骨干网络模块、采用可生成参考点的可变形结构的检测模块以及通过位置约束和 匹配目标的数据关联模块 该模型的框架图如图 所示图 结构图.第 期 吴 悦等:基于 和位置约束的端到端多目标追踪算法.骨干网络模块根据 本文利用 作为骨干网络来提取初步的图像帧特征 为了进行多尺度检测在输入骨干网络前应针对图像帧进行随机尺度变换 因此本文采用 第 层到第 层的特征图并将第 层的特征经过 卷积核的卷积运算步长为 从而通过特征金字塔获得第 层的特征 即本文中的特征金字塔是由 层不同尺度的特征组成特征金字塔中有 层不同尺度的特征为了区分不同特征层中具有相同坐标的特征点本文通过网络学习一个线性的位置编码 用 表示特征点在特征图上的位置 表示位置编码的维度 多尺度特征点的位置编码可以描述为()/()()/()()()式中:代表奇数维度 代表偶数维度()表示学习到的第 层的层级特征向量通过该层级特征向量便能区分特征金字塔中不同特征层上同一位置的特征点 代表波长值为 .可生成参考点的可变形 检测模块检测模块利用.节提出的可生成参考点的可变形 来检测目标 在优化网络参数的过程中检测损失 的计算式为 ()()式中:表示检测检测框损失表示广义交并比()损失表示掩码损失表示检测框的系数表示 的系数表示掩码的系数检测框损失 定义为 ()()式中:表示真实检测框的坐标表示预测的检测框 表示样本的数量查询特征向量 经过可生成的可变形 利用全连接层()以及 激活函数后得到预测检测框 即()损失 的计算方法为()()()()式中:表示能够包围 和 的最小矩形()表示计算面积的函数表示真实检测框和预测检测框的交并比掩码损失 由焦点损失计算得()()()式中:表示补偿操作即 表示真实掩码 表示预测的掩码 代表用于对应硬样本的平衡系数本文中的值为 代表用于平衡正负样本的权重系数值为.基于位置约束的数据关联模块在基于检测的追踪算法中检测到每一帧的目标后正确地将其与前一帧和后一帧进行关联是数据关联模块的主要任务 本文利用位置约束和 来进行数据关联 其中位置约束将相邻两帧中具有相同 的目标的参考点的距离尽可能缩小到最短训练阶段中 作为端到端的多目标追踪系统由可生成参考点的可变形 生成的参考点不仅在检测模块中利用损失函数进行学习更在数据关联模块中利用目标的真实 进行训练以此得到具有 特征的参考点特征 具体而言由于行人行走的速度较为缓慢故本文假设两帧之间的参考点越近则两个目标行人属于同一个 的可能性就越大 因此在关联模块中本文将 分配问题转换为 分类任务即利用标签中的 号作为监督信号通过学习分类任务将参考点映射到唯一的 上 的损失 可计算为()()()式中:是目标预测的 号代表预测符号如果目标真实的 号与预测 相同则为 反之为 是 的数量 是平衡系数本文中设置为.以避免过度拟合 系统的总损失 为 ()()式中:为检测模块损失为关联模块损失和 表示检测和关联模块的系数在推理阶段由于缺乏 标签本文没有利用生成得到的 直接作为目标的 而是利用具有位置约束的空间特征来关联目标 通过由目标查询特征向量学到的参考点之间的余弦相似度来衡量参考点距离得到第一次匹配结果 表达 重 庆 邮 电 大 学 学 报(自然科学版)第 卷式为()()()式中:和 分别表示参考点在帧 和帧 的索引表示参考点 和参考点 在映射到同一平面后的角度()表示利用匈牙利算法通过余弦相似度分配对象 而后进一步利用相邻帧中两个目标检测框的交并比进行第二次匹配来得到空间特征相似度最大的匹配结果 实验及分析为了验证本文所提方法的有效性本节首先将在.中简要介绍本文使用的数据集然后在.中比较了本文所提方法与其他一些先进方法最后在.中进行消融性研究.数据集与实验细节本文 利 用 和 前 二 分 之 一 的训练集作为训练集 包含 张图像用于训练、张图像用于验证以及 张图像用于测试共有 万个人类实例每张图片有 个人 包含 个训练序列和 个测试序列由于该数据集没有提供官方的验证集分割所以本文将 训练集分成两部分:用于训练用于验证以测试本文提出的 模型本文 采 用 作 为 主 干 先 使 用 数据集进行预训练 轮以学习密集的人物特征再使用前二分之一的 训练集进行 轮的训练 其中注意力头的数量设置为 多层感知机的隐藏层数为 前馈网络由 层线性层以及 激活函数组成学习率设置为 批量大小设置为 本文利用 指标包括多目标追踪精度()、以及来衡量追踪性能 是评估检测和追踪整体性能的主要指标计算公式为 ()()()式中:为帧的索引为帧 中的真实检测框的数量和 分别表示假阴性的数量和假阳性的数量表示 切换次数.方法对比 与各比较方法的细节如下):是一个基于查询键值机制的追踪方法利用前后两帧提取到的外观特征来关联目标):基于 提出了一个时域拓扑以此在数据关联时通过追踪查询特征向量分配 号关联目标):引入了一个概率自回归生成模型通过直接测量小轨道自然运动的可能性来对小轨道建议进行评分):在 基础上增加了一个额外的头部分支预测用于数据关联的追踪偏移):是一个无锚追踪方法通过利用关键点估计来寻找中心点并回归得到目标的属性):数据关联时利用空间位置约束和 关联目标本文将所比较的方法分为两组 第一组是基于 的方法包括 和 第二组是最近的不含 的方法包括、和 所有方法都使用 以及前二分之一的 训练集进行训练并使用后二分之一的 训练集进行验证 实验结果如表 表 所示表 与基于 方法的比较结果.方法.表 与不含 方法的比较结果.方法.由表 可见 在所有评价指标上都优于基于 的方法 与 相比可以在 指标上实现.的提升并且在 切换上实现.的提升与 相比在 上有.的提升并且在 上提高了第 期 吴 悦等:基于 和位置约束的端到端多目标追踪算法.的优越性在于利用了位置约束来约束 候选区域的范围而非采用额外的 模块 和 主要采用相邻帧的类间外观特征而非类内外观特征使得同一类别(如行人)之间的差异并不显著由表 可见与没有 的第二组相比 在 方面优势明显 与 相比提升幅度可以达到约.与 相比提升幅度为.与 相比提升幅度为.在 和 方面 没有比 和 更好的性能 这是因为 和 不仅利用了运动特征还利用到外观特征进行关联而 只是利用了位置约束 因此当有严重的遮挡时目标的 可能会被错误地关联起来这导致 切换不如其他使用 网络的方法本文利用验证集的 个片段案例来证明 在不同场景下的适应能力 图 显示了 随机在 验证集上选择的结果可视化每张图左侧的数字代表场景每个物体由不同颜色检测框和一个唯一的 表示 其中、为特别拥堵的场景 和 为尺度变化较大的场景 和 则为小尺度行人密集的场景 从、以及 可以看到由于采用了位置约束 在拥挤的