Transformer与CNN融合的单目图像深度估计_张涛.pdfVIP免费

下载本文档

阅读 1
下载 0
格式 pdf
大小 695.65 KB
约7页
2023-03-07
收藏
评论
点赞(0)
海报
举报

第27卷第6期2022年12月哈尔滨理工大学学报JOUＲNALOFHAＲBINUNIVEＲSITYOFSCIENCEANDTECHNOLOGYVol.27No.6Dec.2022Transformer与CNN融合的单目图像深度估计张涛，张晓利，任彦(内蒙古科技大学信息工程学院，内蒙古包头014000)摘要:针对单目视觉图像深度估计时存在精度低的问题，提出一种Transformer和CNN融合的单目图像深度估计方法。首先，采用ＲesNet－50作为编码器－解码器网络的主干网络对图像特征进行提取，同时在编码器－解码器网络中采用层级融合的方法，将编码器各层级特征进行融合作为解码器的输入，提升深度估计网络对多尺度特征信息的利用率。其次，采用Transformer网络对解码器的输出特征进行全局分析，Transformer网络中的多头注意力机制从解码器输出的深层特征中估计深度信息，提高深度估计网络对多尺度特征的提取能力进而提高深度图的精准度。在NYUDepth-v2数据集上完成模型有效性验证。实验结果表明，与多尺度卷积神经网络相比，该方法在精度δ＜1.25上提高24.3%，在均方根误差指标上降低61.3%。证明其在单目图像深度估计的可行性。关键词:卷积神经网络;编码器－解码器;Transformer;深度估计;单目视觉DOI:10．15938/j．jhust．2022．06．011中图分类号:TP391文献标志码:A文章编号:1007－2683(2022)06－0088－07收稿日期:2021－09－27基金项目:内蒙古自治区科技计划项目(2020GG0048)．作者简介:张涛(1995—)，男，硕士研究生;张晓利(1963—)，男，硕士，副教授．通信作者:任彦(1977—)，女，博士，教授，E-mail:ren0831@imust．edu．cn．MonocularImageDepthEstimationBasedontheFusionofTransformerandCNNZHANGTao，ZHANGXiao-li，ＲENYan(SchoolofInformationEngineering，InnerMongoliaUniversityofScienceandTechnology，Baotou014000，China)Abstract:Aimingattheproblemoflowaccuracyinmonocularvisionimagedepthestimation，amonocularimagedepthestimationmethodbasedonTransformerandconvolutionalneuralnetworkisproposed.First，ＲesNet－50isusedasthebackbonenetworkoftheencoder-decodernetworktoextractimagefeatures.Atthesametime，theencoder-decodernetworkadoptsalevelfusionmethodtofusethefeaturesofeachleveloftheencoderasthedecodertoinputtoimprovetheutilizationofmulti-scalefeatureinformationbythedepthestimationnetwork.Secondly，theTransformernetworkisusedtoperformglobalanalysisontheoutputf...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容