分享
基于CNN双路特征融合模型的秀丽隐杆线虫寿命阶段分类研究.pdf
下载文档

ID:3036443

大小:1.28MB

页数:6页

格式:PDF

时间:2024-01-18

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 CNN 特征 融合 模型 秀丽 线虫 寿命 阶段 分类 研究
2023 年第 5 期计算机与数字工程收稿日期:2022年11月4日,修回日期:2022年12月20日作者简介:尹彦豪,男,硕士研究生,研究方向:图像处理。刘俊,男,博士,教授,研究方向:图像处理、医学图像分析、机器学习等。杨烨,男,博士研究生,研究方向:细胞生理学。1引言秀丽隐杆线虫是生物学研究中最重要的无脊椎模式生物之一,有着生命周期较短、生理结构简单、与人类基因高度同源、虫体透明便于观察等特点,从19世纪70年代初开始,就作为功能强大的模式生物被广泛应用1。它的研究跨越了多个学科领域,包括基因大规模功能与表征研究2,全身细基于 CNN 双路特征融合模型的秀丽隐杆线虫寿命阶段分类研究尹彦豪1,2刘俊1,2杨烨3(1.武汉科技大学计算机科学与技术学院武汉430065)(2.智能信息处理与实时工业系统湖北省重点实验室武汉430065)(3.华中科技大学生命科学与技术学院武汉430074)摘要秀丽隐杆线虫(C.elegans)由于其有着寿命较短和人类基因高度同源的特点,作为一种被优秀的模式生物,被广泛应用于多种人类健康和疾病模型的研究中。为了准确测定当前线虫所处于的寿命阶段,论文提出了一种基于CNN双路特征融合模型的的秀丽隐杆线虫寿命阶段分类方法。首先,利用卷积神经网络分类模型对线虫图像进行特征提取;同时使用快速傅里叶变换、LoG算子等图像处理算法得到荧光蛋白亮斑坐标,然后根据坐标信息计算得到荧光蛋白亮斑聚集度信息;最后,将前两步得到的特征拼接通过分类器得到分类结果。实验结果表明,论文方法能够准确、有效地对线虫寿命阶段进行分类。关键词秀丽隐杆线虫;图像分类;深度学习;快速傅里叶变换;拉普拉斯-高斯算法中图分类号TP391DOI:10.3969/j.issn.1672-9722.2023.05.033Research on Classification of Caenorhabditis Elegans Life StageBased on CNN Dual-Path Feature FusionYIN Yanhao1,2LIU Jun1,2YANG Ye3(1.College of Computer Science and Technology,Wuhan University of Science and Technology,Wuhan430065)(2.Hubei Province Key Laboratory of Intelligent Information Processing and Real-time Industrial System,Wuhan430065)(3.College of Life Science and Technology,Huazhong University of Science and Technology,Wuhan430074)AbstractAs an excellent model organism,C.elegans has been widely used in many human health and disease researchesdue to its short life span and high homology with human genes.In order to accurately determine the life stage of Caenorhabditis elegans,a classification method of caenorhabditis elegans life stage based on CNN Dual-Path feature fusion model is proposed.Firstly,the convolutional neural network classification model is used to extract the features of the nematode image.At the same time,fast Fourier transform,LoG operator and other image processing algorithms are used to obtain the fluorescent protein bright spot coordinates.Then the degree of aggregation of fluorescent protein bright spots is calculated according to the coordinate information.Finally,the features obtained in the first two steps are spliced through the classifier to obtain the classification result.Experimental results show that this method can accurately and effectively classify the life stages of nematodes.Key Wordscaenorhabditis elegans,image classification,deep learning,fast Fourier transform,Laplacian of Gaussian algorithmClass NumberTP391总第 403期2023 年第 5期计算机与数字工程Computer&Digital EngineeringVol.51No.51163第 51 卷胞的完整谱系追踪3以及动物神经系统连接组的结构体构建4等。秀丽隐杆线虫也为研究导致个体健康与寿命差异的变异性诱因提供了一个理想的模型:其在两周的寿命周期中体现出来的相对变异性与人类从出生到80岁时几乎一样多,因此对线虫不同寿命阶段差异性的研究对人类健康和衰老具有重要意义5。近年来随着机器学习和人工智能等前沿技术在生物学研究方面的应用,已有很多学者将深度学习等方法引用于线虫寿命测定中。本文选用蛋白稳态失衡现象作为线虫寿命阶段分类的指示器6,使用萤火虫荧光素酶蛋白辅助观测。由于拍摄数据集时线虫处于存活状态且获取荧光蛋白亮斑需要相对较长的曝光时间,本文数据集图像存在模糊,有效特征区域较小等问题。为了在此前提下得到更好的分类效果,本文提出基于卷积神经网络的双路特征融合模型,对线虫图像进行特征学习。该方法将深度学习提取的特征和基于先验知识提取的荧光蛋白聚集度特征相连接,共同作用于分类结果。实验结果表明,该方法能够有效提高线虫寿命阶段分类准确率。2相关工作关于秀丽隐杆线虫的寿命评估问题,目前有两个主要的研究方向,一类是利用生理特征进行评估,另一类是利用生物感受器进行评估。生理特征评估是指根据可直接观察到的线虫的生理特征表现,例如咽部吞咽速率、图像熵测定、外观测定、运动能力测定以及自荧光测定等。利用生理特征评估的优势在于有着较高的准确率以及适用于多种线虫突变株,但由于研究局限于线虫本体,缺乏技术迁移的可能性,对人体研究意义较为有限。相比利用生理特征,生物感受器主要由寿命相关基因或microRNA启动子携带荧光蛋白构成,基因背后相关信号通路机制清晰,存在着技术迁移的可能性,对人类衰老阶段评估有潜在指导意义7。但在实际研究中发现,目前的生物感受器存在以下两方面问题。一方面,生物感受器整体性能相对较低,这可能是由于单一基因本身对于寿命影响力有限导致的。另一方面,部分内源性基因,在野生型中具有一定评估效力,但在特定突变虫株(如daf-16)中往往评估能力较差,这主要是由于评估使用的基因往往受限于特定信号通路,而衰老现象由多条信号通路共同调控8。鉴于以上两种方式存在的缺陷,本文选用蛋白稳态失衡作为寿命相关指示器。这是因为绝大部分生物活动均依赖于蛋白功能,秀丽隐杆线虫中多条寿命相关信号通路均表现出对蛋白稳态的调控,随着线虫的衰老,蛋白的聚集会逐渐增多,同时在人类衰老的过程中,蛋白稳态失衡也多种老年病相关,例如阿兹海默症、帕金森病等6,9。为了便于对线虫体内蛋白聚集的观察,本文在多种亚稳态蛋白中选取了未报道病理过程相关的萤火虫荧光素酶蛋白(firefly luciferase)10,携带多拷贝萤火虫荧光素酶基因线虫不会出现早衰以及瘫痪的表型。因此,选用亚稳态蛋白作为观察目标既能具有较高的准确性,又对人类健康和寿命研究具有较好的迁移性的评估方式。随着深度学习方法的发展与应用,目前已有研究人员将深度学习强大的特征提取能力运用于秀丽隐杆线虫的寿命测定相关研究上。如Martineau11等从线虫活动视频中提取到的数百种形态、姿势和行为特征,并使用支持向量机(SVM)对其于线虫寿命直接的关系进行分析。Lin12等通过将线虫曲直信息作为全集特征引入基于卷积神经网络的线虫寿命天数逻辑回归分析模型,其精度高达0.8478,已获得较好的评估结果。Sahand13等选用生物感受器作为研究对象,为采用Mask R-CNN算法识别线虫PVD神经元衰老后出现的神经变性亚细胞突起,并以此对线虫当前寿命阶段进行判定,将线虫的生物状态分为年轻、老化、冷休克三个状态,最终得到0.85的分类准确率。但是Martineau和Lin均采用线虫生理特征进行评估,其研究仅局限于线虫本身,缺乏可迁移性。Sahand仅将线虫生物状态分为3类研究,分类阶段较为简单。针对以上方法的局限性,本文提出基于深度神经网络的双路特征融合模型不仅可以通过神经网络提取线虫的局部特征,还能通过计算荧光蛋白聚集度信息弥补其在全局特征上的损失,最终输出线虫寿命周期6阶段分类结果。3本文方法本文采用携带外源性荧光素酶融合蛋白的活体线虫图像进行实验。在拍摄时为了获取清晰的荧光蛋白亮斑,需要较长的曝光时间,且无法控制虫体的姿态和位置,使得同一类别下的图像差异过大(如图1所示),同时由于拍摄获取的图像分辨率为60004000,需要将图像压缩后才能进入神经网络框架训练学习,该过程会使大量较小的荧光蛋白亮斑特征丢失。导致在图像的中的全局特征参存在丢失的现象。尹彦豪等:基于CNN双路特征融合模型的秀丽隐杆线虫寿命阶段分类研究11642023 年第 5 期计算机与数字工程图1同一寿命阶段不同个体图像对比本文对于秀丽隐杆线虫寿命阶段分类问题的研究,提出采用卷积神经网络双路特征融合模型,通过引入一个新的附加属性聚集度信息作为全局特征,以提高实验模型的分类准确率。本文模型的总体框架如图 2 所示,分为两个主要的模块:CNN 特征提取模块M1和聚集度特征提取模块M2。子模块M1部分共有4个串行的卷积模块,每个卷积模块分为4个层,每一层均由一个2D卷积层组成,同时将该层的输出与之前每一层的输出连接,作为下一层的输入使用,最后一层经过全局均值池化后,得到特征向量F1。在子模块M2中,首先用快速傅里叶变换增强图像中的亮斑特征,再使用LoG算子获取线虫虫体上荧光蛋白亮斑的坐标信息。通过坐标信息可以计算得到线虫荧光亮斑的聚集度信息Pi。将算得的前 n 个聚集度信息(P1P2Pn)作为特征向量F2。将特征向量F1与特征向量F2连接,再连接两层全连接层,最后经过Softmax分类器输出线虫寿命阶段分类的评估结果。线虫图像图像特征增强荧光蛋白亮斑检测聚焦度信息计算M1子模块全局均值池化M2子模块Softmax分类器线虫寿命阶段图2CNN双路特征融合模型总体框架3.1CNN特征提取子模块秀丽隐杆线虫图像中有效特征区域较小,且不同寿命阶段的线虫图像具有较高的相似性,与自然图像分类任务相比,线虫图像分类任务更注重细粒度层面的特征信息。因此,本文在子模块M1中引入由 Gao14等提出的密集连接网络 DenseNet的网络模型。该网络模型在残差结构部分的思想借鉴于He15等提出的ResNet网络模型:通过使用残差映射替代恒等映射的方式,可以有效地学习到每个残差块输入与输出的差异部分,在模型收敛到一定程度时,输入的信息可以跳过部分模型,对深层模型进行有效的训练,进而降低了在过深的模型中存在网络退化的梯度消失的问题。DenseNet借鉴残差映射的思路,将每一层的输出密集连接后作为下一层的输入使用,同时在相同的目标精度下,其参数和计算量仅为ResNet的一半。b1_blockb2_block,b3_block,b4_blockConv 55Conv 33Conv 33Conv 33Conv 33Conv 33Conv 33BNReLUConv 113GAPF2图3M1子模块的特征提取过程基于卷积神经网络的特征提取子模块M1是整个线虫寿命阶段分类模型的基础。该模块由4个卷积模块组成,分别标记为b1、b2、b3、b4,如图3所示。由于模块b1中的特征图过大,在模型训练时对训练速度存在一定的影响。其次,模块b1中得到的浅层语义信息相比b2存在一定的差距,对模型训练效果影响较小,因此在子模块M1的设计中,b1由3个卷积层构成,b2、b3、b4则均采用密集块(Dense Block)结构。每个卷积模块间均采用过度块连接(Transition Block),包括批归一化处理(Batch Normalizaion)16,激活函数ReLU和一个11大小的卷积核进行卷积。该模块可以在一定程度上起到加快网络收敛,缓解网络过拟合,防止梯度消失和梯度爆炸,减少网络参数量的作用。将该模块的最终输出特征图经过全局均值池化后得到特征向量F1。使得向量F1更能表达线虫不同寿命1165第 51 卷阶段的细粒度特征。3.2聚集度特征提取子模块通过M1模块已经得到线虫图像的特征向量F1,并且其中包含丰富的语义信息,但是ROI轮廓信息等宏观层面的信息则较为粗略。而且图像在进入M1模块前需要经过均值池化,这一过程中很多较小的荧光蛋白亮斑会存在丢失现象。因此加入通过传统图像特征提取算法获取到的聚集度信息来弥补这一部分的信息丢失,使最终提取到的语义信息更具有鲁棒性。本文提出的聚集度特征提取子模块M2分为三个步骤,首先,使用快速傅里叶变换(FFT)对图像进行特征增强。其次,使用高斯-拉普拉(LOG)算子获取所有荧光蛋白亮斑的坐标信息。最后,使用得到的荧光蛋白亮斑坐标信息计算得到聚集度信息Pi,并再用其求出特征向量F2,与M1模块最终输出的特征向量F1相连接,共同提升模型的分类准确率。在本文中,线虫虫体轮廓边缘区域和荧光蛋白亮斑区域属于高频信号区域,而大量由于曝光时间过长而模糊的噪声区域属于低频区域,因此可以使用傅里叶变换对该特征进行加强,并对噪声区域进行降噪处理。快速傅里叶变换是离散傅里叶变换(DFT)及其逆变换的快速计算方法。长宽为M,N的图像可以被看作是f(xy)的二维离散信号,其离散傅里叶变换公式为F()uv=x=0M-1y=0N-1f()xy e-2uxM+vyNi(1)利用分治的思想对离散傅里叶变换序列进行拆分,使其可以在O(nlogn)时间内完成离散傅里叶变换17。斑点检测通常是为了检测出图像中像素值与周边不同的区域,常用的斑点检测算法有基于微分方法的微分检测算法和基于局部极值的分水岭算法。由于本文中所需要分割的荧光蛋白亮斑形状均较为规整,因此选择微分检测算法中LoG算子作为该模块的核心算法,LoG算子的核函数为LoG(xy)=-14 1-x2+y222e-x2+y222(2)其中,为二维高斯函数的标准差,通过改变的值,可以对不同尺度的斑点进行检测。本文中需要检测的都是蛋白亮斑,即像素值较高的聚集点集。在99的空间范围内,如果某一点的拉普拉斯响应值均大于其他26个点的响应值,则认为该点是所需求的的荧光蛋白亮斑,将r=2 记为当前亮斑半径,当前亮斑坐标记作Ai(xiyiri)。为避免亮 斑 被 重 复 计 算,对 于 亮 斑Aj(xjyjrj)、Ak(xkykrk),如果存在rjrkrj-rk()xj-xk2+()yj-yk2(3)则将亮斑Ak(xkykrk)删除。线虫荧光蛋白亮斑检测过程如图4所示,为方便展示,图像对亮斑部分放大,并对图4(c)部分做反色处理。(a)原图(b)特征增强(c)荧光亮斑检测图4线虫荧光蛋白亮斑检测图为了弥补M1子模块中图像压缩时丢失的荧光蛋白密度信息,本文基于先验知识提出线虫荧光亮斑聚集度信息Pi,为线虫荧光亮斑点间距值中最小的i个值的均值。并将算得的前n个聚集度信息(P1P2Pn)作为特征向量F2,其中,如果i大于线虫体内的荧光蛋白数,则Pi取极大值5000。当线虫寿命处于前1/3时,其表现的荧光蛋白亮斑数通常不超过10个,而当线虫寿命处于最后 1/3 时,其表现的荧光蛋白亮斑数通常在 60 以上,个别个体甚至能表达出上百个荧光蛋白亮斑。因此,在六分类实验下,n值过小会导致模型在对后两类进行分类时参考性较低,而n值过大会导致模型对前两类进行分类时不具有区分度。经实验得出,当n值取12时,模型具有最好的分类效果。3.3损失函数在使用卷积神经网络训练模型时,选取一个合适的损失函数能够提高模型的准确率和鲁棒性。本文所提出的双路特征融合模型是基于密集连接网络设计的多分类网络模型,因此使用多类交叉熵(Categorical Cross Entropy)作为损失函数。第i个样本的真实标签为yji,预测值标签为yji,则对该样本的多类交叉熵损失函数可定义为L=1mj=1mi=1cyji(logyji)(4)尹彦豪等:基于CNN双路特征融合模型的秀丽隐杆线虫寿命阶段分类研究11662023 年第 5 期计算机与数字工程式中m为该批次输入网络的图像样本数,c为分类类别数。多类交叉熵表示实际输出概率与期望输出概率分布的差距,其值越小表示模型训练的学习效果越好。4实验数据分析4.1实验数据与实验参数本文数据集图像是由华中科技大学生命学院中法联合实验室通过荧光显微镜下拍摄携带外源性荧光素酶融合蛋白的活体线虫图像。拍摄的图像来自26批次,共412条线虫,分别取自线虫的头部,尾部,躯干三个部位,均匀分布在线虫的各个寿命阶段。共取得 4593 张图像样本,并且将其中80%的图像作为训练集,20%的图像作为测试集。本文的实验环境采用的硬件配置为i7-8700K处理器,GPU型号为NVIDIA GeForce GTX 1080,显存为 8GB。操作系统 Ubuntu Server 16.04 64-bit;编程语言python 3.6。训练模型中的迭代次数设置为 5000,batchsize大小为 16,学习率设为 0.001,衰减率设为0.01,冲量设为0.1,使用SGD算法进行优化。为了验证所提出方法的有效性,本文采用准确率A,精确率P,召回率R,和F1分数作为评价指标,具体计算公式为A=TP+TNTP+TN+FP+FN(5)P=TPTP+FP(6)R=TPTP+FN(7)F1=2PRP+R(8)其中,TP(True Positive)为真阳性,表示预测为正,实际也为正的样本;FP(False Positive)为假阳性,表示预测为正,实际也为负的样本;FN(False Negative)为假阴性,表示预测为负,实际也为正的样本;TN(True Negative)为真阴性,表示预测为负,实际也为正的样负。4.2消融实验为了分析不同网络分支对模型的影响,将本文提出的M1子模块和M2子模块拆分,并对其输出的特征向量F1和F2后分别添加4个全连接层和Softmax分类器,使其具有独立的分类能力。分别完成对模型的训练及测试,测试结果如表1所示,可以看出各子模块均具有一定独立的分类能力。图5、6分别为仅使用M1子模块和使用本文完整模型的混淆矩阵。通过对比图5与图6,可以看出本文提出的M2模块的聚集度信息能显著提升模型分类准确度。表1各模块消融实验模型M1M2M1+M2准确率0.560.350.71精确率0.560.410.74召回率0.560.380.71F1分数0.540.320.70302520151050012345Predicted label012345True labelConfusion matrix107002006200008162200012302090002020150000916图5M1子模块分类效果混淆矩阵2520151050012345Predicted label012345True labelConfusion matrix10200002170000001762000827110000620140000716图6本文方法分类效果混淆矩阵4.3对比实验为了验证本文模型的分类效果,将本文使用的线 虫 数 据 分 别 输 入 至 VGG16、ResNet50、InceptionV3、MobileNet模型和本文方法,完成对模型的训练及测试,测试结果如表2所示。可以看出,本文提出的方法较其他模型均有提升。同时,将本文提出的M2模块与其他分类网络相结合,其分类精度均能有一定的提升,说明本文提出的M2模块具有一定的泛用性。表2本文方法与其他分类模型的比较模型本文方法VGG16ResNet50Inception V3MobileNetResNet50+M2Inception V3+M2准确率0.710.430.480.530.520.650.69精确率0.740.440.470.550.510.660.70召回率0.710.400.480.570.520.650.69F1分数0.700.410.450.550.510.650.701167第 51 卷5结语本文为实现秀丽隐杆线虫寿命阶段分类,提出了基于卷积神经网络的双路特征融合模型对线虫的寿命阶段进行评估。该模型可分为基于密集连接网络的子模块CNN特征提取模块M1和使用传统图像处理算法计算荧光蛋白亮斑聚集度信息的聚集度特征提取模块M2。实验结果表明,与其他分类网络相比,本文模型能有效提高分类精度和F1评分,已基本满足生物学研究方面对线虫寿命阶段的预测需求。在接下来的研究中,将进一步对分类网络模型和荧光蛋白特征提取模型进行优化,同时使用更多的数据集对网络进行训练,进一步提高线虫寿命阶段预测的准确率。参 考 文 献1Antoshechkin I,Sternberg P W.The versatile worm:genetic and genomic resources for Caenorhabditis elegans researchJ.Nature Reviews Genetics,2007,8(7):518-532.2Goldstein B.Sydney Brenner on the Genetics of Caenorhabditis elegansJ.Genetics,2016,204(1):1-2.3Sulston J E,Horvitz H R.Post-embryonic cell lineages ofthe nematode,Caenorhabditis elegansJ.Developmental Biology,1977,56(1):110-156.4Cook,S.J.,Jarrell,T.A.,Brittin,C.A.Whole-animalconnectomes of both Caenorhabditis elegans sexes J.Nature,2019,571:63-71.5Pincus Z,Mazer T C,Slack F J.Autofluorescence as ameasure of senescence in C.elegans:look to red,not blueor green J.Aging,2016,8(4):889-898.6Dimitriadi M,Hart A C.Neurodegenerative disorders:insights from the nematode Caenorhabditis elegans.J.Neurobiology of Disease,2010,40(1):4-11.7Karp X,Hammell M,Ow M C.Effect of life history onmicroRNA expression during C.elegans development J.RNA,2011,17(4):639-651.8Libina N,Berman J R,Kenyon C.Tissue-specific activities of C.elegans DAF-16 in the regulation of lifespan J.Cell,2003,115(4):489-502.9张楠,李煜,高婷,等.以秀丽隐杆线虫作为人类疾病模型的研究进展 J.中国食品卫生杂志,2014,26(04):398-403.ZHANG Nan,LI Yu,GAO Ting,et al.The review of human disease model studies using Caenorhabditis elegansJ.Chinese Journa of Food Hygiene,2014,26(04):398-403.10Gupta R,Kasturi P,Bracher A,et al.Firefly luciferasemutants as sensors of proteome stress J.Nature Methods,2011,8(10):879-884.11Martineau,Cline N,Andr EX Brown,et al.Multidimensional phenotyping predicts lifespan and quantifieshealth in C.elegans J.PLOS Computational Biology,2020,16(7):1-14.12Lin Jiunn-Liang,Kuo Wei-Liang,Huang Yi-Hao,et al.Using Convolutional Neural Networks to Measure thePhysiological Age of Caenorhabditis elegansJ.IEEE/ACM Transactions on Computational Biology and Bioinformatics,2020:1-10.13Saberi-Bosari,Sahand,Kevin B.Flores,et al.Deeplearning-enabled analysis reveals distinct neuronal phenotypes induced by aging and cold-shock J.BMC Biology,2020,18(1):130-147.14Huang,Gao,Zhuang Liu,Laurens Van Der Maaten,etal.Densely connected convolutional networksC/Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition,2017:4700-4708.15He K,Zhang X,Ren S,et al.Deep Residual Learningfor Image Recognition C/IEEE Conference on Computer Vision and Pattern Recognition,2016:770-778.16Ioffe S,Szegedy C.Batch normalization:Acceleratingdeep network training by reducing internal covariate shiftC/In:Proceedings of the 32nd International Conference on Machine Learning.Lille,France:PMLR,2015:448-456.17龚 彤 艳,张 广 婷,贾 海 鹏,等.一 种 偶 数 基 Cooley-Tukey FFT高性能实现方法 J.计算机科学,2020,47(1):31-39.GONG Tongyan,ZHANG Guangting,JIA Haipeng,etal.High-performance Implementation Method for EvenBasis of Cooley-Tukey FFTJ.Computer Science,2020,47(1):31-39.尹彦豪等:基于CNN双路特征融合模型的秀丽隐杆线虫寿命阶段分类研究1168

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开