基于
分组
卷积
监督
注意
机制
行人
识别
方法
研究
Vol.42,No.2Journal of Inner Mongolia University of Science and Technology第42 卷第2 期2023年6 月June,2023内蒙古科技大学学报基于分组卷积的无监督注意机制行人重识别方法研究杨东贺,任国印,张晓琳(内蒙古科技大学信息工程学院,内蒙古包头014010)摘要:针对传统的行人重识别算法需要依赖大量带标签的行人图像数据,以及系统难以部署等问题,提出使用ResNet50作为模型的骨干网络通过增加CBAM注意力机制,分组卷积,层次聚类和实例学习等方法实现无监督行人重识别。同时,使用欧式距离来进行相似性度量,对最终识别结果加以验证实验结果表明:所提出的基于分组卷积的无监督注意机制行人重识别方法能够提高网络模型在未知数据域的泛化能力,减少了模型的训练参数。关键词:行人重识别;无监督;注意力机制;分组卷积中图分类号:TP391.4文献标识码:A文章编号:2 0 9 5 2 2 9 5(2 0 2 3)0 2-0 12 8-0 6D0I:10.16559/ki.2095-2295.2023.02.006Research on unsupervised attention mechanism of personre-identification method based on grouping convolutionYANG Donghe,REN Guoyin,ZHANG Xiaolin(Information Engineering School,Inner Mongolia University of Science and Technology,Baotou 014010,China)Abstract:Aiming at the problems that the traditional person re-identification algorithm needs to rely on a large number of labeled pe-destrian image data and the system is difficult to deploy,ResNet50 was proposed as the backbone network of the model.Unsupervisedperson re-identification was achieved by adding CBAM attention mechanism,grouping convolution,hierarchical clustering and instancelearning.At the same time,Euclidean distance was used to measure the similarity and verify the final recognition results.The experi-mental results show that the proposed unsupervised attention mechanism person re-identification method based on group convolution canimprove the generalization ability of the network model in the unknown data domain and reduce the training parameters of the model.Key words:person re-identification;unsupervised;attention mechanism;group convolution行人重识别(Re-ID)是指是利用cv技术判断图像或者视频序列中是否存在特定行人的技术1该技术广泛应用于智能视频监控,智能安保等领域。但是传统的有监督行人重识别需要大规模标注的数据集,需要耗费大量的人力和物力这就体现出无监督行人重识别研究的重要性近年来,国内外学者针对无监督方法2-4 进行了大量的研究,例如:ZHANG等2 使用的Resnet50*基金项目:国家自然科学基金资助项目(6 17 7 12 6 6);内蒙古自治区高等学校科学研究资助项目(NJZY23081).作者简介:杨东贺(19 9 8),男,内蒙古科技大学硕士研究生,研究方向为行人重识别.通信作者:e-mail;renguoyinimust.edu,cn收稿日期:2 0 2 2-12-2 5129杨东贺,等:三意机制行人重识别方法研究组卷积的无架构,在以无监督的方式微调网络之前,先在ImageNet5上进行预训练.DENG等3 通过使用迁移学习进行行人重识别其方法是首先在有标记的源域上进行预训练,然后应用在无标记的目标域中.虽然这些方法使用了无监督方式进行行人重识别但主要是使用了其它形式的监督并且,虽然预先训练的ImageNet权值和迁移学习都可以显著提高神经网络的性能但在明显不同的领域或体系结构之间,它们不能适应参数的调整而实验中并未使用此类增加人工成本的方法来提高行人重识别精度,并以完全无监督的方式进行行人重识别。同时,在实验过程中通过引入CBAM注意力机制6 使网络模型能关注到图像中更具有鉴别性的区域,通过使用层次聚类和实例学习让网络模型能够以完全无监督的方式来学习图像中具有鉴别性的地方。同时,通过使用分组卷积来进一步提高行人重识别的准确率,以及减少模型的训练参数.1研究方法实验整体流程如图1所示,首先将数据图像进行数据增强(如缩放/翻转),然后将增强后的图像输人至改进后的ResNet50架构7 中,在ResNet50架构中增加CGAM模块用于特征图提取,生成注意图再通过使用实例学习损失(IDL)和层次聚类损失(ACL)以完全无监督方式训练网络之后使用欧式距离来进行特征相似性度量,最后将图片进行排序输出。实验中的CGAM类似于8-9 ,CGAM中所使用的分组卷积是在首个卷积层不变的情况下,之后的分组随着深度增加而减小(如:1-8 4),并与CBAM注意力机制相结合,以减少模型训练参数,最终生成最佳注意图此外,通过关注行人的外表,可以产生更多具有判别性的特征用来增强聚类的能力。在无监督的行人重识别方面,IDL和ACL具有互补的目的.IDL通过最大化原始图像和增强图像(如缩放/翻转)之间的相似性度量,使网络对不同的跨摄像机视图保持不变性与IDL不同,ACL的目标是迭代的合并集群,提高框架区分特征的能力.因此,同时优化2 种损失,以此提高模型识别的准确率,数据增强图像数据(缩放/旋转)业ResNet50(CBAM)特征图实例学习损失(IDL)分组卷积聚类合并CGAM(ACL)组卷积特征图特征相似性度量CBAM注意力机制相似度排序图1整体流程图1.1分组卷积实验中网络模型是基于ResNet50架构,ResNet50中共有16 个bottleneck块分组卷积则是以bottleneck块为单位进行,在分组的过程中使用类似于树的根的形式进行分组,分组方法为:bottleneck块中第1个卷积层保持不变,不进行分组,之后的每个卷积层的分组程度逐渐递减在分组的过程中使用分组卷积模块替换原始网络的卷积层。通过使用分组卷积来进一步提高行人重识别的准确率,以及减少模型的训练参数。如图2 所示。(a)ReluReluRelu特征图ConvlConv2Conv3(6)ReluRelulRelu特征图ConvlConv2Conv3图2分组情况(a)标准卷积;(b)分组卷积数A.一(x,),去掉(x;0)中的参式中:中;为(,)1302023年6 月第42 卷第2 期内蒙古科技大学学报1.2可变分组注意力模块(CGAM)该模块通过将注意力机制和组卷积相互结合生成注意图输人组卷积特征图,CBAM模块沿着2个独立的维度(通道和空间)依次推断注意力图,然后将注意力图与输人特征图相乘以进行自适应特征优化.通道注意模块:通道注意模块通过为每个通道分配不同的权重,增加重要通道的权重,抑制不重要通道的权重设F为维数RCxx的中间特征图,输入到通道注意模块中通道注意力为:Ac(F)=(S(Pool(F).(1)式中:S。为全连接层;为sigmoid激活函数将式(1)中的输F的卷积层替换为组卷积,用Fc表示输人的组卷积特征图以此减少参数,同时改善注意力图通道注意可表述为:Ac(Fc)=(S(Pool(Fc).(2)空间注意模块:空间注意模块用于学习对人物贡献最大的区域将通道注意模块输出的特征图作为空间模块的输入特征图空间注意力为:As(Ac(Fc)g(Conv(Pool(Ac(Fc)Fc).(3)式中:As()e RIxxW实验过程中将组卷积与CBAM注意力机制相结合的模块称为可变分组注意模块(CGAM),通过CGAM注意模块可以将注意力放在图像中具有鉴别性的区域1.3实例学习损失(IDL)将原始数据图像与其数据增强的数据图像之间的差异最小化,同时将不同目标之间的差异最大化,使网络对不同的跨摄像机视图保持不变性实验过程中使用的增强技术有随机裁剪,缩放和水平翻转等等.特别地,对于样本;,数据增强后的样本;被归类为实例i,而对于其他ji的样本x,则不被归类为实例i一个使用数据增强后的样本x,被归类为图像;的概率为:exp(x;0)s(xn;0)/T)P(il x:)(4)E,exp(xx;0)(xa;0)/t)式中:为控制概率分布柔软度的温度参数10 ,(;0)为以为参数的映射,用于从图像x;中提取特征最大化式(4)中的分子,意味着需要增加(;0)和(x i;0).所以,通过对原始数据使用数据增强,可以增加网络模型对跨镜头图像的鲁棒性.x,被归为实例i的概率为:exp(x;0)b(x;0)/T)P(il x;)(5)Z,exp(xk;0)s(x;0)/t)通过最大化式(4),最小化式(5),可以获取实例学习损失,因此实例学习损失为:Ja=-Z,logP(il xa)-Z.Zlog(1-jiP(il x,).(6)类似最小化负对数似然1.4层次聚类损失(ACL)为了提高框架区分特征的能力,实验中的框架采用了层次聚类,这是一种分层聚类的形式,是一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者某个终结条件被满足对于E1,2,,I M I 的每个簇中心M是用来形成内存库M,其中IMI表示内存库的大小(即集群的数量).最初,IMI=n,表示所有i=1,2,.,n的训练实例x,都是自己的单独簇然而,当实例进行合并时,就会形成非单例集群。设;表示i=1,2,.,n时x;对应的簇标签图像,x;属于一个簇;的概率为:exp(Me,d(x;0)/t)P(:I x;)(7)Z,exp(Me,d(x:;0)/T)在每次学习训练的过程中,(x;0)和参数采用随机梯度下降法进行优化然后,利用优化后的(x;)和参数对内存库M进行更新.因此,层次聚类损失为:Jael=-Z,logP(;1 x,).(8)然后,用表示特征的公式将每个单例集群根据不同度量合并到一起需要合并的集群个数是一个超参数,可以在训练过程中动态改变我们使用欧几里德距离度量:do(x,),(x,)=中中i(9)为了避免将2 个不同身份但相似的图片分到同一个簇中,实验过程中引人了多样性正则化项8 .所以最终的距离度量为:d(x;),(x,)=d。+(1 M,I +l M,1).(10)式中:IM,!为集群i的样本数量.这样就有利于合并小型集群和相似度高的大型集群。131杨东贺,等重识别方法研究不意利制最终提出的框架使用IDL(式(6)和ACL(式(8)来训练CGAM网络总损失表示为:Jotal=Jial+Jacl:(11)2实验结果与分析2.1数据集Market150111数据集在清华大学校园中采集,于夏天拍摄,在2 0 15 年构建并公开采集设备包括由6 个相机(其中5 个高清相机和1个低清相机)拍摄到15 0 1个行人,并包含32 6 6 8 个检测到的行人矩形框每个行人至少被2 个相机捕获,并且在同一相机中可能具有多张图像训练集共有7 5 1人,包含12 9 36 张图像,平均每个人有17.2 张训练数据;测试集有7 5 0 人,包含19 7 32 张图像,平均每个人有2 6.3张测试数据.336 8 张查询图像的行人检测矩形框是人工绘制的.2.2评价标准实验过程中采用2 个性能指标来进行性能评估:1)累积匹配特征(CMC)曲线在累积匹配特征曲线(CMC)中选取Rank-1,Rank-5和Rank-10的得分来反映检索的精度。2)平均精度均值(mAP).每个被查询图像的平均精度(AP)由图像的召回曲线确定,并通过计算查询图像的平均精度的平均值获得平均精度均值(mAP).2.3实验细节实验过程中使用ResNet50模型作为骨干网络.是由16 个bottleneck块组成:Bottleneck()=Relu(F(x)+x),其中 F(x)=ConuBN ConuBNReluConuBNRelu(x),并且 Conv,BN(BatchNormalization),Re l u 分别表示卷积层,批量归一化层,和修正线性单元然而,在CGAM中,bottleneck层是Bottleneck(x)=CGAMRelu(F(x)+x).其中,F()中的Conu层被用类似于树的根的形式进行分组,第1个卷积层不进行分组,第2 个卷积层分成8 组,第3个卷积层分成4组.所有提出的方法都使用随机梯度下降法(SCD)进行优化,权重衰减为0.9,批处理大小为32.在初始阶段时,有效学习率设置为0.1.并且2 5 个epochs之后,学习速度降低了1/10,有效学习率设置为0.0 1.集群的合并百分比设置为4%.将所有输人图像的大小调整为2 5 6 12 8(HW),并使用随机水平翻转,随机缩放和随机裁剪进行数据增强。将公式中的温度参数T设置为0.1.2.4定量分析将所提出的方法与传统方法进行比较。表1显示了Market1501数据集在具有挑战性的完全无监督场景下(即没有使用预先训练的权重)的rank-1,r a n k-5 和rank-10的准确率和mAP值.实验结果与 DG-Net15,UJ-AAN16,GLT17 等方法进行比较比无监督域适应方法DG-Net15在rank-1准确率上领先了2.8%,在mAP指标上提升了1.2%与无监督多粒度注意-属性学习方法UJ-AAN16相比在rank-1准确率上领先了14%,在mAP指标上提升了7.7%.同时实验中所使用的方法与当前广泛使用的无监督域自适应方法GLT17相比,在性能上有一定差距。但实验过程中所使用的方法可以通过聚类迭代进行自动学习相似的行人图像,无需进行行人标注而无监督域自适应方法则需要在标注好的数据域内用有监督的方式学习模型并迁移到其他目标数据域中,仍然对源数据域的标注模型有较高的要求,并且在明显不同的领域或体系结构之间,它们不能适应参数的调整.表1没有使用预先训练的权重的结果(准确率,%)Market1501方法rank-1rank-55rank-10mAPBOW+MuliQlul42.618.6PUL1244.759.165.620.1UMDL 1334.552.659.612.4EUC1449.866.472.722.5DG-Net 1552.270.777.028.6UJ-AAN1641.064.473.522.1GLT1792.296.597.879.5Ours55.073.580.729.8图3为Market1501数据集在完全无监督的场景下行人检索结果,图中第1列为需要查询的图像,其余每列图像为算法模型输出的与查询图像最为相似的前2 0 个行人结果其中粗线框表示错误的检索结果,其它表示正确的检索结果。1322023年6 月第42 卷第2 期内蒙古科技大学学报图3Market1501检索结果2.5消融实验接下来总结一些消融实验的研究结果,研究考虑了参数入和不同分组情况对实验的影响。参数入分析:在完全无监督的情况下,对式(10)中的参数入进行了实验分析如图4所示,改变式(10)中的值,计算性能指标的数值当x=0.01时,图5 纵轴上的指标取得最大值,而随着实验不断的进行,横轴上的取值过大或过小,准确率都会有所下降其中,曲线从下到上分别表示mAP,rank-1,rank-5,rank-10 的变化.rank-180+rank-570-rank-10一mAP%/率6050-4030-0.0000.0040.0080.0120.016值图4入的不同取值对实验的影响分组的情况:表2 比较了在Market1501数据集上不同分组情况对完全无监督的行人重识别性能的影响从表中可以看出1-8 4的分组情况达到了最好的rank-1精度和mAP值所以最终选择了1-8 4的分组情况。表2不同分组情况的结果(准确率,%)Market1501分组情况rank-1rank-5rank-10mAP1-1-148.966.575.224.11-4-250.268.679.826.41-8455.073.580.729.81-16-849.467.174.024.63结论传统的无监督行人重识别模型在训练时需要预先训练大量的参数,增加了无监督行人重识别中的资源消耗在实验过程中,通过对基于分组卷积的无监督注意机制行人重识别方法的研究,可以以完全无监督的形式进行行人重识别,并进一步提高了完全无监督行人重识别的准确率,减少了模型的训练参数,降低了无监督行人重识别的计算量通过Market1501数据集实验验证,实验过程中所使用的方法具有较好的准确率。在实验过程中使用ResNet50作为骨干网络,下一步将通过更改不同的骨干网络进一步提高识别的准确率。参考文献:1XIONG F,XIAO Y,CAO Z,et al.Good practices onbuilding effective CNN baseline model for person re iden-tification CJ/Proceedings of the international confer-ence on graphics and image processing.Bellingham,USA:SPIE,2018:142.2ZHANG C,WU Y,LEI T.Unsupervised region attentionnetwork for person re-Identification JJ.IEEE Access,2019,7:165520.3DENG W,ZHENG L,YE Q,et al.Image-image domainadaptation with preserved self-similarity and domain-dis-similarity for person re-identificationCJ/Proceedings ofthe IEEE/CVF conference on computer vision and patternrecognition.Piscataway,USA:IEEE Computer Society,2018:994.4WANG D,ZHANG S.Unsupervised person re-identifica-tion via multi-label classification CJ/Proceedings ofthe IEEE/CVF conference on computer vision and pattern责任编辑:王晓枫)133杨东贺,等:基于于分组卷积的无监督注意机制行人重识别方法研究recognition.piscataway,USA:IEEE Computer Society,2020:10978.5LIN Y,DONG X,ZHENG L,et al.A bottom-up cluste-ring approach to unsupervised person re-identificationC/Proceedings of the AAAI conference on artificialintelligence.Menlo Park,USA:AAAI,2019:8738.6WOO S,PARK J,LEEJY,et al.Cbam:Convolutionalblock attention module c/Proceedings of the europeanconference on computer vision.Berlin,German:Spring-er,2018:3.7HE K,ZHANG X,REN S,et al.Deep residual learningfor image recognition CJ/Proceedings of the IEEE/CVFconference on computer vision and pattern recognition.piscataway,USA:IEEE Computer Society,2016:770.8IOANNOU Y,ROBERTSON D,CIPOLLA R,et al.Deep roots:Improving cnn efficiency with hierarchicalfilter groups cJ/Proceedings of the IEEE conferenceon computer vision and pattern recognition.Piscataway,USA:IEEE,2017:5977.9KRIZHEVSKY A,SUTSKEVER I,HINTON G E.Ima-genet classification with deep convolutional neural net-worksJ.Communications of the ACM,2017,60(06):84.10HINTON G,VINYALS O,DEAN J.Distilling theknowledge in a neural networkJ.arXiv preprint arX-iv,2015,2(07):1503.02531.11ZHENG L,SHEN L,TIAN L,et al.Scalable personre-identification:A benchmarkCJ/Proceedings of theIEEE international conference on computer vision.Pis-cataway,USA:IEEE,2015:1116.12FAN H,ZHENG L,YAN C,et al.Unsupervised per-son re-identification:Clustering and fine-tuning J.ACM Transactions on Multimedia Computing,Communi-cati-ons,and Applications,2018,14(04):1.13LV J,CHEN W,LI Q,et al.Unsupervised cross-data-set person re-identification by transfer learning of spatial-temporal patterns CJ/Proceedings of the IEEE confer-ence on computer vision and pattern recognition.Piscat-away,USA:IEEEComputer Society,2018:7948.14WU Y,LIN Y,DONG X,et al.Exploit the unknowngradually:One-shot video-based person re-identificationby stepwise learning CJ/Proceedings of the IEEE con-ference on computer vision and pattern recognition.Pis-cataway,USA:IEEE Computer Society,2018:5177.15ZOU Y,YANG X,YU Z,et al.Joint disentangling andadaptation for cross-domain person re-identificationc/Proceedings of the European conference on com-puter vision.Berlin,German:Springer,2020:87.16YANG R,WU S,XIAO G.Unsupervised multiplegranularities attention-Attribute learning for person re-Identification CJ/Proceedings of the IEEE interna-tional symposium on circuits and systems.Piscataway,USA:IEEE,2020:1.17ZHENG K,LIU W,HE L,et al.Group-aware labeltransfer for domain adaptive person re-identificationCJ/Proceedings of the IEEE/CVF conference oncomputer vision and pattern recognition.Piscataway,USA:IEEEComputer Society,2021:5306.