分享
基于多尺度注意力机制的道路场景语义分割模型_范润泽.pdf
下载文档

ID:2250735

大小:1.69MB

页数:8页

格式:PDF

时间:2023-05-04

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 尺度 注意力 机制 道路 场景 语义 分割 模型 润泽
第 49卷 第 2期2023年 2月Computer Engineering 计算机工程基于多尺度注意力机制的道路场景语义分割模型范润泽,刘宇红,张荣芬,李景玉(贵州大学 大数据与信息工程学院,贵阳 550025)摘要:通过对道路场景进行语义分割可以辅助车辆感知周边环境,达到避让行人、车辆以及各类小目标物体障碍的目的,提高行驶的安全性。针对道路场景语义分割中小目标物体识别精度不高、网络参数量过大等问题,提出一种基于多尺度注意力机制的语义分割模型。利用小波变换的多尺度多频率信息分析特性,设计一种多尺度小波注意力模块,并将其嵌入到编码器结构中,通过融合不同尺度及频率的特征信息,保留更多的边缘轮廓细节。使用编码器与解码器之间的层级连接,以及改进的金字塔池化模块进行多方面特征提取,在保留上下文特征信息的同时获得更多的图像细节。通过设计多级损失函数训练网络模型,从而加快网络收敛。在剑桥驾驶标注视频数据集上的实验结果表明,该模型的平均交并比为 60.21%,与 DeepLabV3+和 DenseASPP模型相比参数量减少近 30%,在不额外增加参数量的前提下提升了模型的分割精度,且在不同场景下均具有较好的鲁棒性。关键词:深度学习;语义分割;注意力机制;小波变换;金字塔池化开放科学(资源服务)标志码(OSID):中文引用格式:范润泽,刘宇红,张荣芬,等.基于多尺度注意力机制的道路场景语义分割模型 J.计算机工程,2023,49(2):288-295.英文引用格式:FAN R Z,LIU Y H,ZHANG R F,et al.Road scene semantic segmentation model based on multi-scale attention mechanism J.Computer Engineering,2023,49(2):288-295.Road Scene Semantic Segmentation Model Based on Multi-Scale Attention MechanismFAN Runze,LIU Yuhong,ZHANG Rongfen,LI Jingyu(College of Big Data and Information Engineering,Guizhou University,Guiyang 550025,China)【Abstract】Semantic segmentation of road scenes can assist vehicles to perceive the surrounding environment,to avoid pedestrians,vehicles and all kinds of small object obstacles,and further improve the safety of driving.This study proposes a semantic segmentation network based on multi-scale attention mechanism,aiming at the problems of low recognition accuracy of small objects in semantic segmentation of road scene in deep learning,and the large number of network parameters adversely affecting the deployment.A multi-scale wavelet attention module is designed based on the characteristics of wavelet transform with multi-scale and multi frequency information analysis and embedded into the encoder structure.By fusing the characteristics of different scales and frequencies,more edge contour details are retained.The hierarchical connection between the encoder and the decoder and the improved pyramid pooling module are used for feature extraction in many aspects to obtain more image details,while retaining the context feature information.By designing the training model of multistage loss function,the network convergence is accelerated.The experimental results on the Cambridge-driving Labeled Video Database(CamVid)show that the average intersection and merge ratio of the model is 60.21%,which reduces the parameters by nearly 30%compared with DeepLabV3+and DenseASP models.The segmentation accuracy of this model is improved without additional parameters,and the model has good robustness in different scenes.【Key words】deep learning;semantic segmentation;attention mechanism;wavelet transform;pyramid poolingDOI:10.19678/j.issn.1000-3428.00632570概述 图像语义分割是计算机视觉中一个经典而基础的课题,其目的是在图像中分配像素级的标签,对场景的感知理解有重要意义,被广泛应用于行人检测1、医疗影像处理2、遥感分割3等领域。近年来基金项目:贵州省科学技术基金(黔科合基础-ZK 2021 重点 001)。作者简介:范润泽(1996),男,硕士研究生,主研方向为深度学习、目标检测;刘宇红,教授;张荣芬(通信作者),教授、博士;李景玉,硕士研究生。收稿日期:2021-11-17 修回日期:2022-03-06 Email:开发研究与工程应用文章编号:1000-3428(2023)02-0288-08 文献标志码:A 中图分类号:TP393第 49卷 第 2期范润泽,刘宇红,张荣芬,等:基于多尺度注意力机制的道路场景语义分割模型自动驾驶领域快速发展,安全行驶不仅需要车辆具备对环境的准确感知能力,还应具有在低功耗设备上实时运行的能力,能够确保汽车在前行的过程中实时对复杂道路进行感知与规划。对自动驾驶领域而言,语义分割可以对道路场景中的物体进行分割分类,给车辆避让行人等障碍提 供 辅 助 信 息。文 献4提 出 一 种 全 卷 积 网 络(Fully Convolutional Networks,FCN),实现了端到端的分割方法,也使卷积神经网络在图像分割中变为主流方法。文献 5 提出针对语义分割的编码器-解码器的网络结构,通过编码器提取特征,使用解码器恢复特征的结构并对像素进行分类。文献 6 提出U-Net网络模型,通过编码器-解码器的网络结构、跳连连接等,将语义分割推向一个新的阶段,利用全卷积网络、压缩路径和扩展路径实现图像语义分割。文献 7 将编码器-解码器结构与金字塔结构相结合,收集多尺度信息,提高了分割精度。然而,对于无人驾驶而言,上述的图像语义分割网络在边缘细节上还存在一些问题,如边界分割不明显、小目标物体不易识别、相似物体与重叠物体误判等。本文将注意力机制与小波变换相结合,设计一种基于多尺度注意力机制的道路场景语义分割模型,利用图像小波变换具有多尺度多频率信息分析的特点,使用小波多尺度变换的原理设计多尺度注意力机制,将原始图像的多尺度信息进行提取与融合。通过保留原始图像的高频特征,对图像边缘轮廓细节更加关注,并借助小波多尺度变换,改善卷积操作带来的高频特征损失问题。此外,在网络中增加残差注意力连接以及层级跳连模块,保留上下文特征信息并加以复用,并使用多级损失函数,在每一个解码器模块后将得到的特征进行输出,将不同分辨率的输出和最终结果进行融合得到损失函数,从而加速网络收敛。1相关工作 1.1图像语义分割近年来,基于深度学习的分割方法显著提高了分割的准确率和速度,多尺度特征的提取也得到了飞快发展,通过编码器-解码器结构进行图像语义分割的网络,如全卷积网络4、U-Net6、SegNet8等,其编码器通过下采样等操作,将图像压缩并提取特征,最后通过解码器将特征层还原成原始分辨率。金字塔网络能够利用多尺度信息的特点,PSPNet9等通过金字塔结构融合多尺度信息进行图像的语义分割,DeepLabV3+7则将编码器-解码器与金字塔结构融合,结合不同方法的优势,提高了分割精度。目前在提高模型精度这一问题上,大部分方法聚焦于注意力机制的设计与模块的选择。1.2注意力机制注意力机制在深度学习领域被广泛应用,它可以理解为对于原本平均分配的资源根据注意力对象的重要程度重新分配资源,着重关注需要重点使用的地方,得到更多的特征信息。文献 10 提出一种Non-local操作获取图像特征,随着通道注意力11和空间注意力12的提出,不同的注意力机制被运用到语义分割的网络中,如双注意力网络 DANet13在FCN 结构中引入了注意力机制,特征金字塔注意力网络(Pyramid Feature Attention Network,PFANet)14对不同层级的特征添加注意力并结合全局池化与金字塔融合模块提高网络的分割精度。注意力机制的引入补充了网络中的语义信息,增加了特征提取的丰富程度,但伴随着注意力机制的添加,模型的参数量也随之增加。1.3深度学习与小波变换小波变换通过多级分解得到不同频率特征下的不同子带,使之具有多分辨率多尺度分析的特点,通过逆变换更能无损失地恢复原信号,因此常被用于信号处理和图像分析领域。此外,小波变换的多尺度特性也更符合人类的视觉机制。神经网络中不论是卷积操作还是池化操作(最大池化、平均池化),在处理不同频率信息时均有一定程度的丢失,而通过与小波变换相结合的操作可以保留不同频率的信息特征,且不增加额外的参数量。目前小波与深度学习结合方向也有一些探索,文献 15 结合小波变换与残差网络,发现小波变换的更多子带可以提高网络的学习效果。文献 16 提出深度小波超分辨率恢复,通过处理子带恢复卷积提取特征的过程中缺失的细节信息。文献 17 提出将小波变换代替神经网络中的池化操作,保留原始图像的高频信息以及边缘细节。文献 18 则将小波变换集成到编码器-解码器的过程中,提高了网络的运算速度,降低了参数量,但目前还没有将小波变换与多尺度特征融合这两种方式与注意力机制进行结合的处理方法。2本文算法 本文采用“编码器-解码器”结构搭建道路场景语义分割模型,其中设计了多尺度小波注意力模块,通过注意力模块加强特征提取的同时保留高频边缘特征信息。编码器网络采用 ResNet-34,并移除了全连接层,在编码器与解码器的连接处通过改进的金2892023年 2月 15日Computer Engineering 计算机工程字塔池化模块将原始图像特征进行多尺度融合,最后通过解码器网络对

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开