温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
融合
累积
分布
函数
通道
注意
pLabV3
图像
分割
算法
2023 03 10计算机应用,Journal of Computer Applications2023,43(3):936-942ISSN 10019081CODEN JYIIDUhttp:/融合累积分布函数和通道注意力机制的DeepLabV3+图像分割算法何雪东1,宣士斌1,2*,王款1,陈梦楠1(1.广西民族大学 人工智能学院,南宁 530006;2.广西混杂计算与集成电路设计分析重点实验室(广西民族大学),南宁 530006)(通信作者电子邮箱 )摘要:为了解决DeepLabV3+在语义分割时未充分利用主干的低级特征,以及大倍数上采样造成有效特征缺失的问题,提出一种累积分布通道注意力DeepLabV3+(CDCA-DLV3+)模型。首先,基于累积分布函数和通道注意力提出了累积分布通道注意力(CDCA);然后,利用 CDCA 获取主干部分有效的低级特征;最后,采用特征金字塔网络(FPN)进行特征融合和逐步上采样,从而避免大倍数上采样所造成的特征损失。CDCA-DLV3+模型在Pascal VOC 2012验证集与Cityscapes数据集上的平均交并比(mIoU)分别为80.09%和80.11%,相较于DeepLabV3+模型分别提升1.24和1.02个百分点。实验结果表明,所提模型分割结果更加精确。关键词:深度学习;图像语义分割;通道注意力机制;DeepLabV3+;累积分布函数中图分类号:TP183 文献标志码:ADeepLabV3+image segmentation algorithm fusing cumulative distribution function and channel attention mechanismHE Xuedong1,XUAN Shibin1,2*,WANG Kuan1,CHEN Mengnan1(1.School of Artificial Intelligence,Guangxi Minzu University,Nanning Guangxi 530006,China;2.Guangxi Key Laboratory of Hybrid Computation and IC Design and Analysis(Guangxi Minzu University),Nanning Guangxi 530006,China)Abstract:In order to solve the problems that the low-level features of the backbone are not fully utilized,and the effective features are lost due to large-times upsampling in DeepLabV3+semantic segmentation,a Cumulative Distribution Channel Attention DeepLabV3+(CDCA-DLV3+)model was proposed.Firstly,a Cumulative Distribution Channel Attention(CDCA)was proposed based on the cumulative distribution function and channel attention.Then,the cumulative distribution channel attention was used to obtain the effective low-level features of the backbone part.Finally,the Feature Pyramid Network(FPN)was adopted for feature fusion and gradual upsampling to avoid the feature loss caused by large-times upsampling.On validation set Pascal Visual Object Classes(VOC)2012 and dataset Cityscapes,the mean Intersection over Union(mIoU)of CDCA-DLV3+model was 80.09%and 80.11%respectively,which was 1.24 percentage points and 1.02 percentage points higher than that of DeepLabV3+model.Experimental results show that the proposed model has more accurate segmentation results.Key words:deep learning;image semantic segmentation;channel attention mechanism;DeepLabV3+;cumulative distribution function0 引言 语义分割是计算机视觉中最重要的密集预测任务之一1。它将图像或视频帧划分为多个片段和对象,并在医学图像分析(如肿瘤边界提取和组织体积测量)、自动驾驶汽车(如可导航的表面和行人检测)、视频监控、增强现实等领域2-5中应用广泛。近 些 年 来,全 卷 积 网 络(Fully Convolutional Network,FCN)6使语义分割技术快速发展,大量语义分割模型相继被提出。分析近些年著名的语义分割模型后发现,大部分工作集中在整合丰富的上下文信息以及对注意力机制的使用1,5,7-15。尤其是对通道注意力的使用,引起了广泛的关注。其中最具代表性的是SENet10,它通过SE(Squeeze-and-Excitation)模块建立通道特征之间的依赖关系以提高网络模型精度,之后的一些研究大多通过更复杂的通道依赖改进SE 模块。CBAM(Convolutional Block Attention Module)16和ECA-Net(Efficient Channel Attention for deep convolutional neural Network)15又相继提出加入最大值池化的通道注意力和更轻量的通道注意力。但是这些通道注意力模块仍然需要少量参数进行训练,增加了网络的训练负担。文献 17 中提出将自适应注意力机制加入主干网络,以增强主干网络提取特征的能力,但忽略了高分辨率的低级特征。文章编号:1001-9081(2023)03-0936-07DOI:10.11772/j.issn.1001-9081.2022020210收稿日期:20220224;修回日期:20220525;录用日期:20220525。基金项目:国家自然科学基金资助项目(61866003)。作者简介:何雪东(1997),男,吉林松原人,硕士研究生,CCF会员,主要研究方向:语义分割、计算机视觉;宣士斌(1964),男,安徽无为人,教授,博士,主要研究方向:图像处理与识别;王款(1995),男,江苏海安人,硕士研究生,主要研究方向:姿态估计、深度学习;陈梦楠(1997),男,山西长治人,硕士研究生,主要研究方向:算法优化、计算智能。第 3 期何雪东等:融合累积分布函数和通道注意力机制的DeepLabV3+图像分割算法DeepLab 系列网络11-14是整合上下文信息的代表模型,并 且 目 前 仍 是 最 流 行 的 语 义 分 割 网 络 模 型 之 一。DeepLabV111将空洞卷积引入主干网络,以减少一系列卷积操作导致有效信息丢失的问题。因为基于优化卷积结构的空洞卷积可以在不损失分辨率的前提下扩大卷积核的感受野18,DeeplabV2 引入空洞空间金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)聚合不同空洞率的空洞卷积生成的多尺度特征,以增强网络对不同尺度目标的预测能力12。DeepLabV3+14拥有简单有效的解码模块以及聚合多尺度特征的ASPP模块,因此在DeepLab系列中更有效,并且多次被应用于实际应用。经过多次实验发现,DeepLabV3+在解码阶段只使用了主干网络多阶段浅层特征中的一个用作解码模块的融合,因此会造成部分信息丢失、分割不连续以及大尺度物体错误分割等问题。而直接将高级特征与主干网络中的低级特征进行拼接融合,显然会忽略不对齐的高低级特征向特征图中引入噪声的问题19,影响语义分割的精度。因 此,本 文 提 出 累 积 分 布 通 道 注 意 力 DeepLabV3+(Cumulative Distribution Channel Attention DeepLabV3+,CDCA-DLV3+)模型以提高DeepLabV3+的语义分割效果。本文的主要工作为:1)在高低特征跨层融合前加入一种注意力机 制,即 本 文 提 出 的 累 积 分 布 通 道 注 意 力(Cumulative Distribution Channel Attention,CDCA)模块,在减少噪声干扰的同时对特征通道进行加权,抑制通道信息冗余,整合更加丰富的上下文信息;2)在解码阶段进行多次高低级特征融合,充分利用特征提取阶段中的浅层特征,阻止图像还原时图像边缘和纹理信息丢失,以提高模型细节的表征能力。本文提出的改进策略能有效强化重要特征学习,增强网络学习能力,且只少量增加模型参数。1 相关工作 作为DeepLabV3的改进网络,DeepLabV3+在解码阶段增加一个简单的解码器模块来提取分割结果,该模块通过逐步恢复空间信息以捕获更清晰的目标边界14。实际上,对于边界特征的提取可以通过注意力机制提高表征能力,像人类一样关注视野中的重要部分,忽略不重要的干扰物16。1.1DeepLabV3+网络DeepLabV3+网络结构如图1所示,主要分为用于特征提取、还原的编码层与解码层,R为空洞率。编码层,即下采样编码部分,用于提取输入图像的高级语 义 信 息。目 前 主 流 的 主 干 网 络 有 ResNet(Residual Network)20、MobileNet21-23、Xception24、VGG(Visual Geometry Group)25等。又因为空洞卷积18,26可以在与普通卷积具有相同参数量的情况下获得更大的感受野并且不损失特征图的分辨率,所以 DeepLabV3+对 ResNet-101 进行改进,即在特征提取的最后的位置使用了空洞率分别为2、4、8的空洞卷积以提高特征提取的效果。主干网络下采样完成之后,经过ASPP模块处理后得到编码层最终输出的特征图。解码层,即DeepLabV3+网络的解码部分,首先对编码层最终的输出特征图直接进行 4 倍上采样并与 ResNet-101 下采样操作所产生的 1/4 大小的特征图经过一次 11 的卷积(Conv)后在通道维度进行拼接(Concat),然后对所得特征图进行两次33的卷积,最后经过一次4倍上采样所得到特征图即该网络的最终预测结果。本文使用全新的通道注意力以获得更加有效的低级特征,并且采用特征金字塔网络(Future Pyramid Network,FPN)逐步还原特征图,以避免多次大倍数上采样造成的特征缺失,最终得到更加精准的分割效果。1.2通道注意力机制注意力机制可以看作一种根据特征图的重要性重新分配资源的机制7,并且效果显著,因此注意力机制近几年被大量应用于深度卷积神经网络(Deep Convolutional Neural Network,DCNN)。在SENet中首次使用通道注意力(Channel Attention,CA)10,它利用了通道之间的关系生成通道注意图。随后,许多研究将它应用于视觉任务。Wang等15基于SENet 在 E