温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
图像
生成
多模态
视网膜
方法
於佳乐
第 23 卷第 1 期2023 年 3 月南京师范大学学报(工程技术版)JOUNAL OF NANJING NOMAL UNIVESITY(ENGINEEING AND TECHNOLOGY EDITION)Vol.23 No.1Mar,2023收稿日期:20220915基金项目:国家自然科学基金项目(62172223 和 61671242)、中央高校基本科研业务费专项资金项目(30921013105)通讯作者:陈强,教授,博士生导师,研究方向:图像处理和分析 E-mail:chen2qiang njusteducndoi:103969/jissn16721292202301002基于图像生成的多模态视网膜图像配准方法於佳乐,黄坤,张潇,陈强(南京理工大学计算机科学与工程学院,江苏 南京 210094)摘要 针对多模态视网膜的全局粗配准,提出了一种基于图像生成的多模态视网膜配准方法 不同于当前主流的提取多模态视网膜图像血管再进行配准的方法,使用 GAN 模型对不同模态的视网膜图像进行像素级映射,再通过特征点匹配的方式计算图像仿射矩阵,实现图像粗配准 基于彩色眼底图像与荧光素血管造影图像的实验结果表明,该方法与当前主流的视网膜粗配准方法相比,具有快速且鲁棒的优势 关键词 图像配准,多模态,视网膜图像,图像生成 中图分类号 TP391 文献标志码 A 文章编号 16721292(2023)01001008Multi-Modal etinal Image egistration MethodBased on Image GenerationYu Jiale,Huang Kun,Zhang Xiao,Chen Qiang(School of Computer Science and Engineering,Nanjing University of Science and Technology,Nanjing 210094,China)Abstract:A multi-modal retinal registration method based on image generation is proposed for global coarse registrationof multi-modal retinal images Unlike the current mainstream methods that extract retinal vascular structures forregistration,this method uses GAN model to perform pixel-level mapping of different modal retinal images Then,theaffine matrix is calculated through feature point matching to achieve image rough registration Experimental results basedon color fundus images and fluorescein angiography images demonstrate that this method has the advantages of fasterspeed and robust performance compared with current mainstream retinal registration methodsKey words:image registration,multi-modal,retinal images,image generation视网膜是人体中独一无二的可通过非侵入式仪器观察血管的部位,这为血流系统和神经系统疾病的研究提供了一个成熟的环境 通过对眼底特征的详细临床观察,可确定各种长期疾病的早期指标,如糖尿病、中风、高血压和心理疾病等 视网膜图像可通过不同的成像方式获得,如彩色眼底(CF)、红外扫描(I)、荧光素血管造影(FA)、光学相干断层扫描(OCT)等,以便得到眼睛的多种表征1 在临床诊断过程中往往需要对多种模态的、不同时刻的视网膜图像进行横向与纵向的观察 多模态视网膜配准可完成视网膜图像的对齐,以便眼科医生更便利地确认不同时刻不同模态视网膜特征的表现由于不同模态图像之间不仅存在分辨率、对比度、亮度的差异,且在外表上也存在明显不同,多模态视网膜配准仍是一个挑战2 近年来提出的视网膜图像配准的主流方法可归纳为两类:基于区域的方法和基于特征点匹配的方法 基于区域的方法通过找到转换参数来最小化两幅图像之间的相关性或互信息3,从而获得图像的全局对齐 该方法计算成本高,对图像失真、噪声等引起的外观变化、光照变化敏感,多用在小的旋转和局部变形的情况下4 基于特征点匹配的方法通过显著特征检测和描述、特征匹配和几何模型估计实现 该方法根据提取的特征描述符之间的对应关系寻找最佳的变换参数,可以得到更好的几何变形处理能力,常被用于图像配准和拼接任务中56 特征点检测算法曾被广泛研究和应用于多模态视网膜配准 Harris-PIIFD 设计了针对多模态和低质01於佳乐,等:基于图像生成的多模态视网膜图像配准方法量的视网膜图像的配准框架,提出了一种高度分区的局部特征描述子 PIIFD78 SUF-PIIFD-PM 改进了 Harris-PIIFD 的框架,利用 SUF 关键点检测解决特征的重复性,并提出了一种鲁棒的特征点匹配方式910 Zhang 等11 使用 USIFT 检测关键点,利用 PIIFD 描述子和 AGMM 进行错配去除,得到了更好的配准结果 除了传统方法,深度方法也逐渐被应用于视网膜配准中 Wang 等12 提出了一种基于弱监督的深度学习框架进行全局粗配准,通过 GAN 网络风格迁移的方式训练血管分割网络,再通过 SuperPoint 网络10 提取特征点位置和描述,最后用离群点抑制网络完成错配去除,实现了深度模型在多模态视网膜配准中的应用利用血管分割的图像预处理方法常被用于同模态、跨模态的视网膜配准任务中1314 但由于视网膜图像的血管分割标注困难,公开数据集往往只包含对 CF 图像的血管分割,血管分割任务有较大的成本与难度 当患者眼底因疾病出现出血等情况时,血管被遮挡会进一步提高血管分割的难度本文提出一种新的多模态视网膜配准框架,使用生成对抗网络(GAN)对不同模态的视网膜图像进行像素级映射,只需为每对图像人工标注 10 个左右的配准点对,计算粗配准仿射矩阵,即可进行训练 所提框架的基本流程是:先基于修改后的 Pix2Pix 网络12 进行跨模态转换,再通过 SuperPoint 提取特征点位置和描述,最后通过 SuperGlue15 进行特征点匹配和错配去除,使用得到的特征点对计算图像的仿射变换矩阵,从而得到两幅图像的粗配准结果1相关工作11模态转换大量研究证明,基于 CNN 的生成器可以学习 CF 图像和 FA 图像之间的像素级映射1617 为了获得更真实的生成性能,大多数方法都采用图像级对抗损失来训练生成器,即使用一个额外的鉴别器来限制输出图像的样式和纹理,使之与真实目标图像相似 本文基于 Pix2Pix 网络18 和 Pix2PixHD 网络19 训练了一个视网膜图像模态转换网络,使得不同模态的视网膜图像可在传统方法及预训练的深度网络中提取到相似的特征描述12特征点提取计算机视觉中常用的特征检测和描述方法也可用于视网膜配准任务 传统方法包括尺度不变特征变换(SIFT)20、加速鲁棒特征(SUF)21 及 Harris 角点检测8 等 针对多模态和低质量视网膜图像,文献 10 提出了一种适用于多模态的部分强度不变特征描述子 PIIFD PIIFD 被广泛应用于多模态视网膜配准框架中,以提高受疾病影响的图像对的鲁棒性7,1011 基于深度模型的特征检测方法近年逐渐取代了原有的传统算法 Choy 等提出了一种基于全卷积网络的特征描述方法(UCN),用于检测逐像素的特征描述22 Yi 等提出了利用深度模型的特征检测流程(LIFT),包括特征检测器、方向估计器和特征描述符23 SuperPoint 网络10 克服了一个编码器和两个解码器的限制,在一次前向传递中联合获得关键点和描述符,性能优于 LIFT 和 UCN SuperPoint 被广泛应用于视网膜图像的配准框架中,作为特征点检测和特征描述符12,2425 13特征点配对与过滤局部特征匹配通常由检测关键点、计算视觉描述符后进行关键点匹配、错配滤除、估计几何变换来完成 其中关键点匹配与错配滤除主要采用最近邻搜索和随机样本一致性(ANSAC26)检测的方式Superglue27 受 Transformer16 的启发,使用自我(图像内)和交叉(图像间)注意的方法利用关键点的空间关系和视觉外观进行匹配,可在短时间内完成关键点匹配与错配滤除2多模态视网膜图像粗配准方法如图 1 所示,本文提出的多模态视网膜图像粗配准方法由 3 个网络组成,分别用于模态转换、特征检测和描述、特征点匹配和异常点去除 当待配准图像中同时存在 CF 图像和 FA 图像时,训练的模态转换网络 Pix2PixHD 会将 CF 图像转换成 FA 图像,再使用特征提取网络 SuperPoint 分别对固定图像和浮动图像提取特征点位置及其描述 根据所提取特征,使用 SuperGlue 网络实现特征点匹配及计算每对特征点配对的置信度 最后选取特定置信度以上的配对点计算浮动图像的仿射变换矩阵11南京师范大学学报(工程技术版)第 23 卷第 1 期(2023 年)图 1多模态视网膜图像粗配准框架Fig.1Global coarse registration framework for multi-modal retinal images图 2条件 GAN 网络实现 CF 向 FA 的映射Fig.2A conditional GAN structure mapping CF to FA21模态转换网络对抗生成网络 GAN 主要包括一个生成器 G 和一 个 判 别 器 D本 文 参 考 Pix2Pix 网 络 和Pix2PixHD 网络设计了从 CF 图像到 FA 图像的基于条件对抗生成的模态转换网络 如图 2 所示,令CF 图像为 x,FA 图像为 y,生成器 G 通过训练将 x映射为 FA 图像 G(x),鉴别器 D 通过训练判断输入的(x,y)和(x,G(x)是真实图像还是生成的图像 条件对抗生成网络通过生成器与鉴别器的对抗博弈实现网络模型的训练:minGmaxDLGAN(G,D)(1)本文保留了 Pix2Pix 网络中的设计,将 Unet28 作为生成器 G 相较于 Pix2PixHD 网络中使用的由粗到细的生成器,Unet 可以更小的网络模型和更快的速度得到图像配准任务中所需的图像精度 判别器 D 参考 Pix2PixHD 网络的多尺度判别器,使用了Pix2Pix 中的 PatchGAN,并将原始尺寸和 2 倍降采样图像分别输入两个鉴别器 D1、D2,其对抗目标可表示为:minGmaxD1,D2k=1,2LGAN(G,Dk)(2)通过在不同尺度下对图像进行判别,使得生成图像在全局和细节上都更接近真实图像 训练生成器 G 时除了使用对抗损失,还在鉴别器的每层特征提取器上对真实和合成图像提取的张量计算 L1 距离,在层内平均、层间求和后得到 LFM损失,定义为:LFM(G,Dk)=(x,y)Ti=11Ni D(i)k(x,y)D(i)k(x,G(x)1,(3)式中,T 为鉴别器的总层数;Ni为每层的元素个数 类似的,使用预训练的 VGG-net1929 提取真实和合成图像的部分层张量计算 L1 距离,在层内平均、层间求和后得到 LVGG损失,定义为:LVGG(G,VGG)=(x,y)Si1Ni VGG(i)(x)VGG(i)(G(x)1,(4)式中,S