温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
结合
注意力
卷积
神经网络
腺体
息肉
分割
方法
张家宝
第 60 卷 第 2 期/2023 年 1 月/激光与光电子学进展0217002-1研究论文结合自注意力与卷积神经网络的腺体及息肉分割方法张家宝,肖志勇*江南大学人工智能与计算机学院,江苏 无锡 214122摘要 腺体和息肉的自动分割是人工智能辅助结直肠腺癌诊断的基础,但医学图像中的分割目标大小、形状多变,基于单一的卷积神经网络的自动分割方法已陷入瓶颈。基于此,提出了一种卷积神经网络和自注意力相结合的双分支网络(LG UNet),用以提升分割的精度。首先,基于 U-Net设计了 Local UNet分支,利用卷积神经网络的优势,学习分割目标的局部信息。然后在 Global Transformer分支中,利用 Transformer全局依赖关系的学习能力来优化分割细节。最后在编码过程中通过交叉融合模块将 Local分支和 Global分支的特征图进行融合,将两者优势互补。在腺体分割挑战数据集 Glas的两个测试子集 Test A和 Test B上,以 Dice系数和交并比(IOU)系数为主要评价指标,LG UNet的测试结果分别为 93.62%、88.44%和 88.17%、80.49%。在息肉分割数据集 Kvasir-SEG 上,LG UNet 的 Dice 系数和 IOU 系数分别为 85.63%和77.82%。实验结果表明,结合 Transformer和卷积神经网络优势的 LG UNet在腺体和息肉分割上取得了更好的性能。关键词 医用光学;自注意力机制;卷积神经网络;双分支网络;结直肠腺癌;腺体分割;息肉分割中图分类号 TP391 文献标志码 A DOI:10.3788/LOP212696Gland and Colonoscopy Segmentation Method Combining Self-Attention and Convolutional Neural NetworkZhang Jiabao,Xiao Zhiyong*School of Artificial Intelligence and Computer Science,Jiangnan University,Wuxi 214122,Jiangsu,ChinaAbstract The automatic segmentation of glands and polyps is the foundation for the diagnosis of artificial intelligence-assisted colorectal adenocarcinoma.However,the size and shape of segmentation targets in medical images vary considerably,and the automatic segmentation approach based on a convolutional neural network has thus run into a hindrance.Therefore,a dual branch network(LG UNet)combining convolutional neural network and self attention is proposed to improve the accuracy of segmentation.First,the Local UNet branch was developed based on U-Net,and the convolutional neural networks benefits were employed to elucidate the segmentation targets local information.Subsequently,the segmentation details were optimized using the Transformers learning ability of global dependencies in the Global Transformer branch.Finally,during the encoding process,feature maps of the Local and Global branches were merged by a cross-fusion module to complement their benefits.The two test subsets of Glas and findings of LG UNet were 93.62%and 88.44%for Test A and 88.17%and 80.49%for Test B,employing the Dice coefficient and intersection and union(IOU)coefficient as the primary examination indexes.Furthermore,the Dice and IOU coefficients in the polyp segmentation dataset Kvasir-SEG were 85.63%and 77.82%,respectively.The experimental findings demonstrate that LG UNet exhibits better performance efficiency in gland and polyp segmentation by combining the benefits of the Transformer and convolutional neural network.Key words medical optics;self-attention mechanism;convolutional neural network;multi-branch network;adenocarcinoma of the colon;segmentation of glands;segmentation of polyps1引言结直肠腺癌(CRC)是最常见的一种癌症。自动量化腺体和息肉形态,精确提取定量化的形态学特征,然后用于计算机辅助癌症分级,使分级过程比目前更加客观和可复现,是人工智能在癌症诊断领域中一个收稿日期:2021-10-09;修回日期:2021-10-27;录用日期:2021-11-16;网络首发日期:2021-11-26通信作者:*0217002-2研究论文第 60 卷 第 2 期/2023 年 1 月/激光与光电子学进展非常重要的应用。而近些年深度神经网络在计算机视觉领域的飞速发展,为人工智能在癌症辅助诊断领域中带来极大的进展。目前医学图像分割中使用最多的是基于卷积神经网络(CNN)的 U-Net1,该网络由对称的编码器-解码器网络组成,并通过跳跃连接保留高分辨率细节。U-Net 在医学图像分析中取得了巨大的成功,遵循这一思想的各种变体相继被提出并应用于医学图像分割,如 3D U-Net2、VNet3、nnUNet4、Res-UNet5、SR-Net6、文献 7 的网络、文献 8 的网络。但是,卷积运算由于其固有的局部感知性,很难学习全局信息,这使得目前基于 U-Net的医学图像分割方法仍不能完全满足医学应用对分割精度的严格要求。全局能力在医学图像分析中也尤为重要:由于医学图像来源复杂,形状各异,并且噪声多、干扰大,如果缺乏对全局信息的分析,将会导致分割精度的缺失。比如在腺体和息肉数据集中,因为成像方法的原因,腺体与息肉的边界与背景颜色非常接近。一些小腺体、小息肉游离于大目标旁边,精确地分割这些目标边界,需要网络引入更多的全局信息。因此,研究者们尝试将注意力机制加入 U-Net中,以 增 强 网 络 的 全 局 信 息 提 取 能 力,如 Attention-UNet9、Acu-UNet10、文献 11 中的网络。而最近随着自注意力在自然语言处理领域的成功,研究者们开始尝试将更好的 Transformer12带入 U-Net 中,比如TransUNet13、Swin-UNet14、UTNet15。TransUNet将 Transformer 加入 U-Net 中,利用来自 CNN 的局部高分辨率空间信息和 Transformer 编码的全局上下文信息实现精确定位。但引入 Transformer 的医学分割网络存在一个问题,即 Transformer不具备 CNN 的归纳偏置能力,因此需要在大型数据集上进行预训练,才能在下游任务中取得最佳的性能。而在医学图像分割领域,由于人工标注需要相关领域专家的先验知识,成本高昂,无法提供足量的数据进行预训练。一些研究人员针对该问题提出了改进方案:DeiT16提出了几种与数据蒸馏方法相结合的训练策略,使得 Transformer 只需在中型数据集上预训练,就能得到了一个较好的效果;MedT17参考文献 18 中提出的轴注意力模型,在自注意力中加入了 4 个可学习的门控参数,自动控制位置嵌入量的学习,以适应不同大小的医学数据集,以此提出了一种无须在其他数据集上进行预训练的医学分割网络。而本文提出了一个双分支的混合网络模型(LG UNet),将 U-Net局部信息提取能力与 Transformer 对长期依赖关系的学习能力以双分支的形式相结合,去除 Transformer对预训练的依赖,使其能在不预训练的情况下进行小数据集的医学图像分析。将 LG UNet直接用于腺体和息肉分割,实验结果表明,结合了Transformer 的 LG UNet在小数据集的医学图像中依然能取得很好的效果。2所提方法2.1Local UNet分支U-Net由一个对称的编码器-解码器及跳跃连接组成。在编码器中,每阶段采用两个连续的卷积层来编码目标特征,每个卷积层后面紧跟批次归一化层(BN)和激活函数 ReLU,如图 1(a)所示。在每阶段最后,通过一个最大池化层来进行降采样,以增强网络中卷积的感受野。解码器中每阶段由同样的两个连续卷积层组成,并且在解码器中将编码器提取的高维特征向上采样到输入分辨率。而且在解码过程中,通过跳跃连接融合来自编码器的不同尺度的低级语义特征,以减轻编码过程中降采样导致的空间信息丢失。另外,在分析结直肠腺癌自动诊断中的腺体和息肉分割数据集后发现,腺体会占图像中的绝大部分,而且分布密集、边界变化曲折。同时,息肉分割中息肉的尺度大小,形状变化差异性大,占比也普遍偏大,但相对于腺体来说形状要规则很多。两者都是大目标分割,因此为了增强 Local UNet 分支提取特征的能力,(a)(b)(c):33 convolutional:11 convolutional:BN+ReLU图 1Local UNet编码结构Fig.1Local UNet encoding structure0217002-3研究论文第 60 卷 第 2 期/2023 年 1 月/激光与光电子学进展本研究对 U-Net进行了如下改进。首先,为了得到更优的编码性能和效率,引入了 ResNet19中 Bottleneck模块,如图 1(b)所示。ResNet中的残差连接可以缓解层数加深后的网络退化问题,使编码器更好地学习深层网络中的信息,并且 Bottleneck模块能通过两个 11 的卷积来减少计算量。其次,为了增加编码时的感受 野 及 增 强 对 多 尺 寸 目 标 的 编 码 能 力,受GoogleNet20和 DC-UNet21的启发,将 Bottleneck模块中的卷积增加为 3个连续的 33卷积。为了减少参数量和计算代价,Bottleneck模块中的通道数设为输入通道数的 1/4,再通过 11卷积,将通道数调整回预定的输出通道数。由此得到了 Local UNet中