第27卷第6期2022年12月哈尔滨理工大学学报JOURNALOFHARBINUNIVERSITYOFSCIENCEANDTECHNOLOGYVol.27No.6Dec.2022Transformer与CNN融合的单目图像深度估计张涛,张晓利,任彦(内蒙古科技大学信息工程学院,内蒙古包头014000)摘要:针对单目视觉图像深度估计时存在精度低的问题,提出一种Transformer和CNN融合的单目图像深度估计方法。首先,采用ResNet-50作为编码器-解码器网络的主干网络对图像特征进行提取,同时在编码器-解码器网络中采用层级融合的方法,将编码器各层级特征进行融合作为解码器的输入,提升深度估计网络对多尺度特征信息的利用率。其次,采用Transformer网络对解码器的输出特征进行全局分析,Transformer网络中的多头注意力机制从解码器输出的深层特征中估计深度信息,提高深度估计网络对多尺度特征的提取能力进而提高深度图的精准度。在NYUDepth-v2数据集上完成模型有效性验证。实验结果表明,与多尺度卷积神经网络相比,该方法在精度δ<1.25上提高24.3%,在均方根误差指标上降低61.3%。证明其在单目图像深度估计的可行性。关键词:卷积神经网络;编码器-解码器;Transformer;深度估计;单目视觉DOI:10.15938/j.jhust.2022.06.011中图分类号:TP391文献标志码:A文章编号:1007-2683(2022)06-0088-07收稿日期:2021-09-27基金项目:内蒙古自治区科技计划项目(2020GG0048).作者简介:张涛(1995—),男,硕士研究生;张晓利(1963—),男,硕士,副教授.通信作者:任彦(1977—),女,博士,教授,E-mail:ren0831@imust.edu.cn.MonocularImageDepthEstimationBasedontheFusionofTransformerandCNNZHANGTao,ZHANGXiao-li,RENYan(SchoolofInformationEngineering,InnerMongoliaUniversityofScienceandTechnology,Baotou014000,China)Abstract:Aimingattheproblemoflowaccuracyinmonocularvisionimagedepthestimation,amonocularimagedepthestimationmethodbasedonTransformerandconvolutionalneuralnetworkisproposed.First,ResNet-50isusedasthebackbonenetworkoftheencoder-decodernetworktoextractimagefeatures.Atthesametime,theencoder-decodernetworkadoptsalevelfusionmethodtofusethefeaturesofeachleveloftheencoderasthedecodertoinputtoimprovetheutilizationofmulti-scalefeatureinformationbythedepthestimationnetwork.Secondly,theTransformernetworkisusedtoperformglobalanalysisontheoutputf...