利用
尺度
分析
推进
牙齿
图像
识别
研究
综述
邢丽萍
第 4 卷第 4 期2022 年 12 月微纳电子与智能制造Micro/nano Electronics and Intelligent ManufacturingVol.4 No.4Dec.2022基金项目:陕西省自然科学基金(2019JLZ-08、2019JLM-10),陕西省自然科学基础研究计划基金(2019JM-162)项目资助邢丽萍(通信作者),硕士,主要研究方向为计算机视觉、医学图像处理。E-mail:xing_lp2022 靳红梅,讲师,主要研究方向为数字信号处理、计算机视觉。E-mail:jinhm 李洪安,副教授,主要研究方向为计算机图形学、数字图像处理、智能信息处理和计算机视觉。E-mail:honganli 李占利,教授,主要研究方向为危险信息感知理论与技术、计算机视觉、计算机图形学与可视化。E-mail:lizl DOI:10.19816/ki.10-1594/tn.2022.04.034利用多尺度分析推进牙齿图像识别的研究综述邢丽萍,靳红梅,李洪安,李占利(西安科技大学计算机科学与技术学院 西安 710054)摘要:深度学习的发展及硬件条件的改善,促进了各类医学成像技术在牙齿病灶识别上的应用。受限于医学图像小样本问题,利用有限样本进行有效病灶特征学习成为近期研究热点。相关工作证明,特征提取的质量是深度模型有效学习的关键。多尺度分析方法可有效利用不同尺度的上下文互补信息提取高质量特征,因此成为缓解小样本问题的关键方法之一。为更好地理解基于少量标注样本的牙齿图像识别问题,论文通过分析算法核心思想及流程,广泛讨论了 3 类图像识别领域主流的多尺度分析算法的优势和局限性。最后对多尺度方法在牙齿图像识别任务中的应用进行分析,并指出未来可能的研究方向。关键词:牙齿病灶;深度学习;图像识别;多尺度分析;小样本学习中图分类号:TP391 文献标识码:A 国家标准学科分类代码:520Overview on promoting tooth image recognition using multi-scale analysis XING Liping,JIN Hongmei,LI Hongan,LI Zhanli(College of Computer Science&Technology,Xian University of Science and Technology,Xian 710054,China)Abstract:The development of deep learning and the improvement of hardware conditions have promoted the application of various medical imaging technologies in the identification of dental lesions.Limited by small sample problem of medical image,the use of limit-ed samples for effective lesion feature learning has become a recent research hotspot.Related work has proved that the quality of feature extraction is the key to effective learning of deep models,and multi-scale analysis methods can effectively use context complementary information of different scales to extract high-quality features,which has become one of the key methods to alleviate the small sample size problem.Therefore,in order to better understand the problem of tooth image recognition based on a small number of labeled samples,this paper extensively discusses the advantages and limitations of three mainstream multi-scale analysis algorithms in the field of image recognition by analyzing the core ideas and processes of the algorithm.Finally,the application of multi-scale methods in tooth image recognition tasks is analyzed,and possible future research directions are pointed out.Keywords:tooth lesions;deep learning;image recognition;multi-scale analysis;small sample learning0引言近年来,深度学习(deep learning,DL)的快速发展极大提升了计算机视觉(computer vision,CV)领域应用的性能及成本效益,尤其是基于深度卷积神经网络(deep convolutional neural networks,DCNNs)的方法,已经在自动驾驶、行人检测等相关领域取得巨大成就。深度学习领域的最新进展推动了智能医学工程1的研究,对医学图像的识别、分类和量化的发展起到了促进作用。临床表明,牙齿的健康问题已发展为重大公共卫生问题,如不及时治疗会产生严重病变危及患者健康,而基于深度学习的牙齿图像识别精确度更高、速度更快,可减少医生工作负担,缓解由主观因素造成的误诊、漏诊等问题,现已成为研究热点2。然而,由于深度学习方法与牙齿图像识别的实际应用特点不匹配,在将其推广至临床应用时效果差强人意3。首先是标签数据过少。现有深度学习方法需借助大量有标签的数据完成训练,但足够数量的牙齿标签数据集不易获取。此外,在建立和第 4 期邢丽萍 等:利用多尺度分析推进牙齿图像识别的研究综述35 共享数据集的过程中需充分考虑患者隐私安全问题。其次是视觉特征差异大。不同于常规图像,不同病人、不同成像设备的同一病灶组织影像间的视觉差异较大,造成了同类图像间相似特征少,而深度学习方法主要通过学习同类样本间的相似特征完成模型的预训练。最后是特征类别不均衡。现有基于深度学习的检测器在面对不同尺度目标,尤其是小且密集目标时,普遍存在精度不均衡的现象4-6。而口腔图像中,待识别的目标尺度普遍较小(健康组织通常占主导地位且呈高度重复模式,即图中大部分面积为无关背景)且患病初期病灶特征不明显,同时图像本身存在光照变化、目标尺度变化等问题,从而导致模型收敛缓慢或过拟合。已有不少学者开始研究专注于牙齿图像识别任务的深度学习方法并取得了优于人工诊断的效果,但仍 没 有 很 好 地 解 决 目 标 尺 度 这 个 关 键 性 问题7-13。尺度问题的根源在于深度学习模型加深的过程中,对抽象特征的学习表征能力逐渐增强,损失的细节特征也逐渐增多,这导致模型无法学习到精确的细粒度特征,而多尺度分析方法的关键则是充分融合浅层和深层特征,帮助模型学习到更丰富的细节空间信息和整体语义信息。该方法凭借其较好的特征提取能力,现已成为计算机视觉领域提升模型性能的主要手段。虽然已有一系列文章从网络结构、训练方式等各方面对基于深度学习的牙齿图像识别算法进行了总结分析14-17,但对其网络结构和性能提升的研究,特别是该领域小样本问题如何缓解的研究却鲜有人涉足。因此,论文以小样本困境出发,探讨多尺度分析方法在牙齿图像识别任务中的应用。首先在第 2 节中对小样本学习和多尺度相关机制机理进行介绍并指出特征提取是提升任务性能的关键,接着在第 3 节中对现有基于深度学习的视觉算法中出现的多尺度分析方法,及多尺度信息捕获和连接方式进行分类整理及实验验证。然后在第 4 节对该应用未来可能的研究方向和趋势进行展望。最后,第 5节对全文进行总结。1相关理论基础1.1小样本学习主流深度学习模型多以大量标签数据为驱动,导致模型的泛化性和鲁棒性依赖于标签数据的数量和标签质量18。由于医学领域的特殊性,牙齿图像的标签需由经验丰富的专业医师进行人工标注,因此创建一项大型的有标签数据集是劳动密集型的工作。此外,在患病早期部分,牙齿的病灶特征肉眼难以分辨,标签质量可能会受医师主观因素的影响。因此小样本学习的目标及核心,是在仅使用少量标签数据训练模型的情况下,使模型更加鲁棒并具备良好的泛化能力。目前常见的缓解医学图像识别领域中小样本困境的方法主要包括以下 5 种。(1)数据增强。该方法的根本目的是在训练初期给模型提供更多的先验知识19,主要包括基本的旋转、缩放等手工规划,自适应采样、强化学习选择最佳策略等基于学习的规划,伪标签等弱/无监督式标签传播,借助特征相似的数据集进行辅助学习4 种策略。然而,在实际应用中,需要针对目标特性做出优化,设计不当的数据增强策略可能会引入新的噪声,从而降低特征提取的性能。此外,过度的数据增强可能会造成关键特征信息的丢失,同时方法计算成本较高。(2)迁移学习。该方法旨在将从大量非医学数据中获得的知识迁移解决有针对性的医疗问题。具体地说,将使用具有自然非医学图像的大型公开数据集(ImageNet20、COCO21等)预训练好的深度学习模型的参数迁移到目标模型,再在特定的小型医疗数据集上完成模型的微调并最终实现病灶的预测。然而,由于医学的病灶特征不同于自然图像,直接迁移过来容易出现“领域适应性”问题,模型的泛化性和鲁棒性没有获得有效提升。(3)生成对抗学习。该方法属于无监督训练,旨在通过将低分辨率小目标的特征映射成与高分辨率目标等价的特征,从而达到与尺寸较大目标同等的检测性能,即小目标特征重建。然而,生成对抗网络难以训练,特别是在医学数据的小样本困境下存在样本多样性不足,基础生物结构保持困难等问题,不易在生成器和鉴别器之间取得好的平衡22。(4)上下文学习。该方法旨在充分利用图像中与目标相关的信息。主要思路是利用传统机器学习方法把输入图像中目标间不同层次的上下文信息融入到深度学习模型中以完成特征提取,或利用其他感兴趣区域的上下文特征增强候选框的特征语义。然而,现有方法没有考虑到医学图像识别场景中可能存在上下文信息匮乏问题,同时背景信息可能会产生虚假依赖现象。(5)多尺度特征学习。该方法旨在利用多尺度信息融合提升深度学习模型捕获特征的能力。该方法多依据渐进收缩式层级化的深度学习模型结构设36 微纳电子与智能制造第 4 卷计,实现简单且不会造成过多计算损失,现已被广泛用于高性能深度学习模型的方案设计中。1.2多尺度牙齿图像识别目前,基于深度学习的牙齿图像识别的研究主要集中在 3 个应用任务:(1)分类(牙齿病灶分类、龋损程度划分等);(2)检测(牙位识别、龋损具体病变位置检测等);(3)分割(单颗牙齿分割、病灶/病理确切形状的分割等)。由于目标组织的大小、形状和位置的不同,牙齿图像的检测与分割是借助深度学习完成口腔内科疾病诊断领域最具挑战性的任务之一。尽管现有相关工作中使用的网络体系结构多样,但大多算法在不同的私有数据集 上 进 行 评估,并以不同的度量标准进行分析,因此较难横向比较不同算法的性能。以检测为例描述一个基于深度学习的牙齿图像检测任务的流水线,如图 1所示。该过程由 3 部分组成:数据预处理、网络结构和预测。在数据预处理阶段,选择数据维数,然后进行预处理以减小图像间差异,并