基于
Mask_R
CNN
卷积
神经网络
虹膜
分割
敬红燕
基于 Mask R-CNN 卷积神经网络的虹膜分割敬红燕,彭静,吴锡,李孝杰(成都信息工程大学计算机学院,成都610225)通信作者:彭静,E-mail:摘要:针对虹膜图像中存在眼镜遮挡、模糊、角度偏差等不同噪声因素,我们设计了一种基于 MaskR-CNN 的卷积神经网络(convolutionalneuralnetwork,CNN),命名为 Mask-INet,用于虹膜分割.该网络在特征提取阶段为特征金字塔添加了一条自底向上的路径,既提高了底层到顶层特征的定位信息,增强语义信息融合,又进一步加快了底层到顶层的传播效率,有效提升对虹膜特征提取的准确性.为了进一步挖掘特征图中的特征信息,在掩模预测分支阶段,我们引入上采样和 CBAM 网络(convolutionalblockattentionmodule),利用上采样提高特征图的空间分辨率,利用CBAM 网络让特征图中的显著信息更加显著,增强对特征的判别性.该方法在 NIR-ISL2021 比赛提供的虹膜数据集进行了验证.在相同实验条件下与该赛事的冠军相比,该方法的各项指标均优于其网络.与基线 MaskR-CNN 相比,该方法的 Dice 相似系数、平均交并比、召回率分别提升了 8.53%、11.97%、8.88%,提升了虹膜分割效果.关键词:虹膜分割;特征金字塔;MaskR-CNN;残差网络;CBAM;图像分割引用格式:敬红燕,彭静,吴锡,李孝杰.基于 MaskR-CNN 卷积神经网络的虹膜分割.计算机系统应用,2023,32(2):8393.http:/www.c-s- R-CNN-embedded Convolutional Neural Network for Iris SegmentationJINGHong-Yan,PENGJing,WUXi,LIXiao-Jie(SchoolofComputerScience,ChengduUniversityofInformationTechnology,Chengdu610225,China)Abstract:Inresponsetodifferentnoisesinirisimages,suchasocclusionbyglasses,blur,andangledeviation,thisstudydesignsaconvolutionalneuralnetwork(CNN)embeddedwithMaskR-CNN,namedMask-INet,foririssegmentation.Thenetworkaddsabottom-uppathtothefeaturepyramidinthefeatureextractionstage,whichnotonlyimprovesthelocalizationinformationofbottom-to-topfeaturesandenhancessemanticinformationfusionbutalsofurtheracceleratesbottom-to-toppropagationefficiencyandeffectivelyimprovestheaccuracyofirisfeatureextraction.Tofurtherexplorethefeatureinformationinthefeaturemap,thestudyintroducesupsamplingandaconvolutionalblockattentionmodule(CBAM)networkinthemaskpredictionbranchingstage.Upsamplingisusedtoimprovethespatialresolutionofthefeaturemap,andtheCBAMnetworkhelpsmakethesalientinformationinthefeaturemapmoresignificantsoastoenhancethediscriminationcapacityforthefeatures.ThemethodisvalidatedontheirisdatasetprovidedbytheNIR-ISL2021competition.Themethodoutperformsthenetworkofthechampionoftheeventintermsofallindicatorsunderthesameexperimentalconditions.ComparedwiththebaselineMaskR-CNN,theproposedmethodhastheDicesimilaritycoefficient,meanintersectionoverunion(mIoU),andrecallimprovedby8.53%,11.97%,and8.88%,respectively,whichboostsirissegmentationperformance.Key words:irissegmentation;featurepyramid;MaskR-CNN;residualnetwork(ResNet);convolutionalblockattentionmodule(CBAM);imagesegmentation计算机系统应用ISSN1003-3254,CODENCSAOBNE-mail:ComputerSystems&Applications,2023,32(2):8393doi:10.15888/ki.csa.008971http:/www.c-s-中国科学院软件研究所版权所有.Tel:+86-10-62661041基金项目:国家重点研发计划(2020YFA0608001);国家自然科学基金面上项目(42075142);四川省科技厅科技计划(2022YFG0026,2021YFG0018,2020JDTD0020,2019ZDZX0007)收稿时间:2022-06-28;修改时间:2022-07-25,2022-09-01;采用时间:2022-09-04;csa 在线出版时间:2022-12-06CNKI 网络首发时间:2022-12-07SystemConstruction系统建设831引言虹膜是位于黑色瞳孔和白色巩膜之间的圆环状部分,这个圆环部分里面包含了许多相互交错的细节特征,而在生物特征中,虹膜的这些细节特征并不会随着年龄的增长而发生任何改变,因此虹膜可以作为识别生物身份的一种方法.虹膜特征也因其独特性、稳定性以及不可更改性在国防和安全方面均发挥着十分重要的作用1,2.虹膜识别因此也被认为是 21 世纪最有前途的生物识别技术3,被广泛应用于各种生物特征识别应用,包括智能解锁4、边境控制5、取证等.一个完整的虹膜识别系统流程通常包括以下 4 个步骤:虹膜图像采集、虹膜预处理、特征提取和匹配6.作为虹膜预处理的一部分,虹膜分割定义了用于特征提取和匹配的图像区域,因此直接影响虹膜整体识别性能7.由此可见虹膜分割在虹膜识别中占有重要意义,分割算法的鲁棒性和准确性直接决定了后续虹膜特征提取、验证和识别8.近年来,基于深度学习的图像处理研究越来越深入,取得的成就也非常可观.相较于传统的虹膜分割方法,基于深度学习的虹膜分割方法更加具有鲁棒性和识别性.2015 年,Long 等人提出全卷积神经网络(fullyconvolutionalnetwork,FCN)9开创了语义级别的图像分割先河,随后各种语义分割网络如雨后春笋,纷纷涌现.如 UNet10、SegNet11、PsPNet12以及 DeepLab 系列.其中 DeepLab 系列作为语义分割的经典模型,取得了非常不错的分割成果.DeepLabv113针对池化降低分辨率问题,提出了空洞卷积来扩展视野,以便获取更多的上下文信息.DeepLabv214主要贡献在于提出了空洞空间金字塔池化(atrousspatialpyramidpooling,ASPP),其使用不同采样率的空洞卷积并行采样生成多尺度特征图,用于处理尺度可变性问题.DeepLabv315基于图像层次将全局背景进行编码得到图像级特征,增强了 ASPP,进一步提升了分割精度.2017 年 Trans-former 横空出世,随着 Transformer 在自然语言领域的应用和普及,其也逐渐被应用到计算机视觉领域中.Valanarasu 等人16提出的 MedT 基于 Transformer 的编码器架构来分割医学图像,取得了很好的性能.最早将深度学习方法应用到虹膜分割领域是 Jalilian 等人17提出的全卷积编码解码网络(FCEDNs),实验表明FCEDMNs 的分割结果优于传统的算法.Lian 等人18提出了 ATT-UNet,将 UNet 与注意力结合,取得了不错的分割效果.Wang 等人19基于转移学习提出一种新的训练方法,该方法是以 ResNet34 为骨干的经典UNet 架构,采用两个基于 UNet 的独立模型来执行虹膜的分割和定位任务,提高了模型的泛化能力.最终获得了 NIR-ISL2021 虹膜比赛的冠军.由于语义分割只根据不同语义像素进行分割,不能区分不同实体,因此出现了实例分割,即在检测到目标以后再对其进行分割.He 等人20提出的 MaskR-CNN 在 FasterR-CNN21的基础上增加了一个分支用于语义分割,即对检测到的目标框进行目标分割.从而实现实例分割并且通过大量实验证明该网络模型达到了较高的分割精度.上述基于深度学习的分割算法网络被广泛应用于图像分割领域,在虹膜分割任务中也取得了不错的成果.但是对于存在各种噪声因素的困难样本分割效果不是很好,存在分割边缘不够圆滑、漏分、错分等情况.针对这一问题,本文提出了基于 MaskR-CNN 神经网络的 Mask-INet 模型.该模型以 MaskR-CNN 为基本框架,结合了特征金字塔和混合注意力机制.MaskR-CNN 网络在语义分割的基础上对同类的物体能够进行更加精细的分割,能进一步减少虹膜错分的情况.我们利用特征金字塔高层特征进行上采样与底层特征自下而上的连接结构来提取虹膜图像特征.特征金字塔这种连接结构融合了低分辨率语义信息较强的特征图和高分辨率语义信息较弱但空间信息丰富的特征图,加深了对虹膜特征信息的挖掘.特征金字塔在提取虹膜特征信息过程中虽然容易获取高层语义信息但是对于底层的定位信息却难以获取,会导致检测精度不高.为了提升虹膜最终的分割精度,给特征金字塔添加了一条自下而上的路径,这条路径不仅充分利用高层语义信息同时也充分利用了底层定位信息来挖掘虹膜特征,极大提高了检测精度.为了进一步挖掘虹膜特征,我们在掩模预测分支引入两个上采样层将虹膜特征图的空间分辨率放大 4 倍.再将注意力机制引入改进的掩模预测分支中,注意机制能加强虹膜特征区域的权重信息,抑制无关信息对模型的打扰,能有效提升模型的分割精度和灵敏度.2准备工作 2.1 残差网络卷积神经网络是目前计算机视觉领域中主要的特征提取技术22.传统的卷积神经网络在信息传递计 算 机 系 统 应 用http:/www.c-s-2023年第32卷第2期84系统建设SystemConstruction过程中总是存在着信息丢失、梯度消失或梯度爆炸的问题,因此不能训练很深的网络.理论上,越深的网络输入表示能力越强的特征,但随着网络的加深,参数量和计算力也会增加,从而影响网络的训练效果造成网络退化.He 等人22提出的残差网络很好地解决了这个问题.残差网络由一个个残差单元模块叠加组成,一个残差单元的输入与输出可以用式(1)表示:yl=h(xl)+F(xl,Wl)xl+1=f(yl)(1)其中,xl和 xl+1分别代表当前这个残差单元的信号输入和输出,l 代表层,h(xl)代表当前残差单元的恒等映射即 identitymapping,F()是残差部分,一般由 2 个或者 3 个卷积操作构成,Wl表示为该部分