温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
面向
多模态
医学
语料库
皮肤
图像
分类
韩泓丞
西北大学学报(自然科学版)年 月,第 卷第 期,()收稿日期:基金项目:陕西省自然科学基础研究计划面上项目();陕西省社会科学基金项目()第一作者:韩泓丞,男,江西抚州人,博士研究生,从事机器学习和医学图像分析研究。通信作者:林玉萍,女,黑龙江勃利人,教授,从事语料库和二语习得研究,;岳婕,女,陕西西安人,从事医学图像处理研究,。医疗与人工智能面向多模态医学语料库的皮肤镜图像分类韩泓丞,林玉萍,郭钦钵,张 栋,许美凤,朱龙飞,李小棉,冯丽丽,岳 婕(西安交通大学 人工智能学院,陕西 西安;西安交通大学 外国语学院,陕西 西安;西安交通大学 自动化科学与工程学院,陕西 西安;西安交通大学第二附属医院 皮肤科,陕西 西安;韩国全北国立大学 英语教育学系,韩国 全北 全州;西安交通大学第一附属医院 儿科,陕西 西安)摘要 多模态医学语料库是医学研究、临床诊断和教学的重要工具之一。然而,现有的医学语料库大多仅有文本数据,缺乏匹配的直观图像,信息不够充分。而大量医学图像缺少明确的语义标签,导致构建语料库困难。针对上述问题,该文提出一种面向多模态医学语料库的皮肤镜图像分类方法,通过对皮肤镜图像进行精确分类获取语义标签,并结合自然语言处理方法匹配相关文本信息,从而建立图像与文本相结合的多模态语料库。首先,针对传统机器学习图像分类方法对病灶特征提取较弱且易受背景噪声影响,导致病灶分类精度差的问题,该文构建双流网络,通过融合病灶的形状与纹理特征增强病灶特征提取能力。其次,为减少特征融合导致的信息冗余,引入了基于通道注意力机制的特征筛选方法,关注关键特征并抑制噪声影响。此外,针对皮肤镜图像良恶性样本数量不均衡导致的模型优化困难问题,引入非对称损失函数,提升模型对样本不均衡的鲁棒性。在 皮肤镜图像数据集上的实验结果表明,该文所提方法能够快速准确地分类皮肤镜图像,并将图像与病历文本进行精准匹配以构建多模态医学语料库。关键词 多模态语料库;皮肤镜图像;图像分类;卷积神经网络;自然语言处理中图分类号:,(,;,;,;,;,),;医学语料库对临床辅助诊断和教学管理有重要理论指导和实践意义,是国内外的研究热点问题之一。各类基于自然语言处理(,)的医学语料库构建和应用方法也被不断提出。陈东华根据现有中英文电子病历特征建立基于 的医学文本语义模型,计算医学文本语义相似度,构建医学语料库。谭晓风提出了基于医学语料库的中英文病历互译方法,使译文符合语言规范,提高可读性。随着现代医学技术的进步,仅含有文本信息的语料库难以满足实际应用需求,而构建包含文本、图像、视频等多源数据的多模态语料库逐渐受到关注。孙旭等人构建关于老年群体言行的多模态语料库,探究异常言语和行为特征与阿尔兹海默病的关系,帮助研究老年痴呆的发病病因。等人构建了关于医生向患者的通知及患者反馈的多模态语料库,用于培养医护人员与患者交流能力,对病情治疗过程提供帮助。文献人采用分割和分类的方法,结合病历文本构建了口腔和青光眼疾病的多模态语料库,用于医学教学和研究。相较于自然场景的文本及图像数据,医学数据临床价值高,但由于采集时间跨度长、来源多、采集设备和软件有差异、格式不统一等原因,医学数据有大量未明确标记的图像数据,对多模态语料库的构建与管理造成困难。因此,对医学图像进行精确分类,有利于整理缺失标签的图像数据,提高数据利用率,对多模态医学语料库构建有重要意义。近年来,深度学习在计算机视觉任务中展现出优秀的能力,基于深度卷积神经网络的医学图像分析技术也随之发展。等人基于卷积神经网络实现皮肤病灶图像分类,在黑素瘤与良性痣的分类中取得良好效果。等人用 种不同的卷积神经网络对 类皮肤镜图像进行分类,达到接近皮肤科医生的分类准确率。等人基于多模型融合与最大相关熵方法实现脂溢性角化与基底细胞癌皮肤图像的分类,达到较高精度。钟昀辛等人融合多类别与多标签特点,实现了对黑素瘤等 种皮肤癌的检测。上述基于深度卷积神经网络的皮肤镜图像分类取得了较好的效果,但仍存在如下问题:首先,皮肤镜图像由于采集环境、采集设备、皮肤状态等因素的差异,存在不同的背景噪声,易对分类模型泛化性造成影响;其次,等人的研究表明,常用的 预训练的卷积神经网络偏向于识别纹理特征,对形状特征敏感度较低,而皮肤病灶的整体形态、边缘状态等形状特征对良恶性分辨有重要参考价值,因此,也需要对其进行综西北大学学报(自然科学版)第 卷合分析。针对上述问题,通过引入分割模型来提取病灶区域,实现背景去除并获得形状特征,是解决问题的思路之一。等人在基于 网络的分类模型前加入 病灶分割模型,通过先分割后分类的方法,提高了黑色素瘤预测准确率。此类将分割模型与分类模型串联的方法在一定程度上可以帮助模型关注形状特征,但依然存在如下问题:首先,皮肤病灶组织特征复杂,且常与背景无明显分界线,现有分割方法容易存在漏分割或误分割的情况,将分割结果作为分类模型的输入时,会造成信息丢失,不利于分类模型的工作;其次,对于类似 的编码 解码构型的分割模型,其机理是先通过编码器获得高阶特征表达,再由解码器对高阶特征进行解码,以获得与源图像相同尺寸的分割掩膜,当分割模型与分类模型串联时,图像被先编码后解码,再被编码。等人的研究表明,重复的解码与编码操作无益于特征提取,且会造成预测时计算量的浪费,影响多模态语料库构建的工作效率。针对上述问题,本文提出了一种用于皮肤镜图像精确分类的双流网络架构,通过并行的两个分支分别提取形状和纹理特征,并进行特征融合,以增强网络特征表达能力。其中,纹理特征提取分支通过 预训练的网络模型构建,形状特征提取分支基于编码 解码构型的分割网络构建,并通过专家标注的病灶区域轮廓进行监督训练。为了解决特征融合引入的信息冗余问题,通过通道注意力机制实现特征筛选,关注重要特征并抑制噪声。此外,为了解决皮肤镜图像数据普遍存在的良恶性类别样本不均衡问题,引入非对称损失作为分类模型优化的目标函数。在 皮肤镜图像数据集上的实验表明,本文所提出的方法能够有效提高皮肤镜图像分类的准确性,为多模态医学语料库构建提供技术支持。基于双流网络的皮肤镜图像分类方法.总体框架基于深度学习的图像分类方法建模主要是用卷积神经网络对图像进行特征编码,再使用全连接网络等分类器输出分类结果,其一般模型可构建为 ()()式中:是输入图像;表示特征编码网络;表示分类器;是输出的分类结果。由于在空间维度共享卷积核参数,在训练样本数量有限时,网络模型易受到背景噪声的干扰,无法完全聚焦于病灶特征,容易引入噪声特征。由于采集设备、环境、皮肤状况等原因,皮肤镜图像病灶周围存在不同程度的背景噪声,造成提取的病灶特征描述不够的问题。此外,相关研究表明,有预训练的模型相比于无预训练的模型有更好的性能。因此,针对小数据集,常用大数据集的预训练模型参数作为初始参数,使模型获得更好的泛化能力,同时加快模型收敛速度。但是,常用的 预训练卷积神经网络模型偏向于纹理特征的识别,对形状特征的关注较低,而皮肤镜图像中病灶的总体形态、边缘光滑程度等形状特征是临床诊断的重要依据。因此,除对纹理特征提取外,还应关注形状特征的提取。针对上述问题,考虑将分割网络与分类网络串联,利用注意机制增强模型对病灶特征的学习,有效抑制噪声特征的干扰,并通过分割病灶区域提取形状特征,通过特征融合进一提升模型分类性能,其模型可表达为 ()()式中:表示分类编码网络;表示分割编码网络;表示分割解码网络。上述方法有助于让模型关注形状特征,但由于皮肤镜图像复杂的病灶特征和背景噪声,难以实现精确的病灶分割,因此,分割结果存在误检和漏检情况,输入分类模型时会造成信息的丢失。此外,将分割模型与分类模型串联会造成图像被重复编码和解码,不利于特征提取,且浪费计算资源,影响语料库构建效率。因此,本文提出一种基于双流网络的皮肤镜图像分类方法,通过两个分支分别提取纹理和形状特征,并进行特征融合,双流网络架构如图 所示。首先,皮肤镜图像被输入纹理特征提取分支和形状特征提取分支,分别提取纹理特征和形状特征。其次,两个分支所得特征被融合,结合通道注意力机制进行特征筛选,加强对关键特征的关注,抑制噪声的影响。最后,通过分类器得到皮肤镜图像的良恶性分类语义标签。计算过程可表达为()()()()()式中:是输入图像;是输出的分类结果;表第 期 韩泓丞,等:面向多模态医学语料库的皮肤镜图像分类示纹理特征编码网络;表示形状特征编码网络;为分割掩膜;表示基于通道注意力的特征筛选;在本文所提方法中为 层全连接神经;表示通过拼接操作实现特征融合。双流网络通过并行的两个分支提取纹理和形状特征,相比于将分割网络与分类网络串联,减小了由于分割网络的漏检和误检带来的影响,并防止了重复的编码解码计算,增强了网络的特征表达能力,提升了皮肤镜图像分类效果和推理速度。但特征融合也带来了信息冗余问题,为减小信息冗余的影响,抑制噪声干扰,本方法基于通道注意力构建特征筛选模块,对不同特征进行加权处理,筛选关键特征。此外,为解决良恶性样本不平衡问题,引入非对称损失进一步提升分类效果。图 皮肤镜图像分类双流网络架构 .纹理特征与形状特征提取)纹理特征提取。预训练在图像分类任务中对提高分类精度和减少训练耗时方面有重要作用,等人的研究表明常用的 预训练模型偏向于纹理特征的提取。本文工作基于 预训练的 构建编码网络,作为双流网络的纹理特征提取分支,编码网络 将 的图像编码为 的特征图。)形状特征提取。与编码 解码构型的分割网络类似,形状特征提取分支中的编码网络 将含细节信息较多的低阶特征转化为含语义信息较多的高阶特征;解码网络由卷积层和双线性插值上采样操作构成,将高阶特征解析为与输入图像分辨率相同的分割掩膜。由于解码网络用于生成分割掩膜的信息来自于编码网络所编码的特征,因此,该特征中包含较为丰富的病灶形状信息。为了减少额外增加的计算量,形状特征提取分支的编码和解码网络采用参数量较小的 网络结构进行构建,编码网络 将 的图像编码为 的特征图,解码网络将其解码为 的分割掩膜。由于在形状特征分支中,编码网络 和解码网络都以分割掩膜作为监督标签,其参数优化并不依赖于后端的分类损失。因此,如图 所示,在编码网络 与后端分类过程之间仅设前向传播,而冻结其反向传播。另外,解码网络只在训练时参与计算,用于生成分割掩膜,以度量所提取形状特征的质量,并通过反向传播优化编码网络 的参数。因此,在推理时,形状特征提取分支中只有编码网络参与计算,输入图像不需要经过重复的解码和编码,提升了图像分类速度。.基于通道注意力的特征筛选纹理与形状特征融合可以引入更丰富的信息,在增强特征表达的同时也会造成一定程度的特征冗余,影响模型的分类效果与泛化能力。针对信息冗余常用的 方法,通过在全连接层随机舍弃神经元,在训练过程中优化线性拟合,有效提高模型泛化能力,但其无法对特征重要性进行度量,无法聚焦于与良恶性分类关联性强的关键特征,因此,对提升模型分类性能作用有限。受 思路的启发,卷积神经网络中卷积核参数共享表现在空间维度,而在通道维度,不同的卷积核参数使得特征图的各通道能够表达不同的特征。本文引入基于通道注意力的特征筛选方法(见图),能够对通道间的依赖关系进行编西北大学学报(自然科学版)第 卷码,自适应地对双流网络融合的特征进行通道维度的加权,突出关键特征,抑制噪声影响。图 基于通道注意力的特征筛选 如图()所示,首先,输入 的特征图,经过全局池化得到 的特征向量,再经过 次 卷积,得到 的权重向量,权重向量各通道值代表原特征图对应通道的加权系数,将权重向量与输入特征图逐通道相乘,即得到加权后的特征图,具体计算过程如下。首先,计算全局特征向量,如式()所示,(,)()()式中:,为输入特征图中的元素,、分别代表(高)、(宽)、(通道)维度的索引序号;是全局特征向量 中的第 个元素,通过全局平均池化和全局最大池化相结合的方法得到。然后,计算注意力权重向量,如式()所示,()()式中:和 分别为 次 卷积的卷积核参数;为 激活函数。最后,根据权重向量对原特征图加权,如式()所示,()式中: