温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
msiPL
模型
MSI
数据
分析
第 22卷 第 2期2023年 2月Vol.22 No.2Feb.2023软 件 导 刊Software Guide基于msiPL模型的MSI数据分析张敏1,黄钢2(1.上海理工大学 健康科学与工程学院,上海 200093;2.上海健康医学院附属嘉定中心医院 上海市分子影像学重点实验室,上海201318)摘要:使用基于变分自编码器神经网络的深度学习模型,学习并可视化质谱图像的低维嵌入表示能够揭示隐藏的组织结构。通过利用深度学习网络框架,对小鼠肾脏组织MSI原始数据进行无监督分析和峰值学习。这种msiPL方法在底层非线性谱流形的可视化下,成功揭示了小鼠肾脏组织解剖学的生物学相关簇和小鼠胃癌模型中的肿瘤异质性,识别了潜在的特定m/z峰。该方法可快速、高效分析MSI原始数据集,且无需进行峰值拾取。关键词:质谱成像;无监督分析;峰值学习DOI:10.11907/rjdk.221279开 放 科 学(资 源 服 务)标 识 码(OSID):中图分类号:TP183 文献标识码:A文章编号:1672-7800(2023)002-0053-07Mass Spectrometry Imaging Data Analysis Based on msiPL ModelZHANG Min1,HUANG Gang2(1.School of Health Science and Engineering,University of Shanghai for Science and Technology,Shanghai 200093,China;2.Shanghai Key Laboratory of Molecular Imaging,Jiading District Central Hospital Affiliated Shanghai University of Medicine and Health Sciences,Shanghai 201318,China)Abstract:A deep learning model based on a variational autoencoder neural network learns and visualizes low-dimensional embedded representations of mass spectrometry images to reveal hidden organizational structures.Unsupervised analysis and peak learning were performed on mass spectrometry imaging data of mouse kidney tissue using a deep learning network framework.The msiPL approach learns and visualizes the underlying nonlinear spectral manifold,reveals biologically relevant clusters of mouse kidney tissue anatomy and tumor heterogeneity in a mouse gastric cancer model,and identifies potentially specific m/z peaks.This method can quickly and efficiently analyze mass spectrometry imaging data sets without peak picking.Key Words:mass spectrometry imaging;unsupervised analysis;peak learning0 引言质谱成像(Mass Spectrometry Imaging,MSI)是一项快速发展的免标记分子成像技术,能够实现蛋白质、肽、脂质、代谢物和药物分子等多种分子的空间分布可视化和相对定量分析,具有高灵敏度和分子特异性1。这些分子数据可以在通路识别、生物标志物发现、手术指导、改善临床诊断和预后等方面发挥重要作用2-4。近年来,研究者更多关注MSI技术的空间分辨率、分子覆盖深度和采集吞吐量的提升,大大增加了MSI的数据量。因此,更有效、更准确地挖掘MSI数据以识别具有临床重要性的分子特征并实现新的生物标志物发现的计算发展是扩大MSI应用的有效方式5。然而,由于 MSI数据的复杂性,传统的机器学习算法在数据挖掘、聚类、可视化和分类上往往会受到计算机内存和计算速度的限制6。原始的高分辨率 MSI数据文件可高达数个TB大小,其中包含了数万个光谱,每个光谱含104106个质荷比(mass-to-charge ratio,m/z),传统的机器学习算法将造成“维度灾难”。峰值拾取是分析原始 MSI数据的预处理步骤。峰值拾取可以减轻稀疏性并降低原始光谱维数,同时通过保留尽可能多的m/z特征信息来提高信噪比。此外,峰值拾取收稿日期:2022-03-16基金项目:国家自然科学基金重点项目(81830052);上海市分子影像学重点实验室建设项目(18DZ2260400)作者简介:张敏(1997-),女,上海理工大学健康科学与工程学院硕士研究生,研究方向为生物医学工程;黄钢(1961-),男,博士,上海市分子影像学重点实验室主任、博士生导师,研究方向为肿瘤影像组学。本文通讯作者:黄钢。2023 年软 件 导 刊对于分子生物标志物的识别、量化和发现至关重要7。尽管现有的峰值拾取算法已较为成熟,但基线去除、峰宽、信噪比和平滑等操作会引入一定程度的主观性,从而影响生成的峰列表。预处理参数的选择很大程度上依赖于使用者的专业知识,这将导致生物标志物识别的显著差异。进行峰值拾取后,原始数据的维度降低,但 MSI数据仍具高维复杂性。MSI数据中的一张二维图像通常由数千个高维像素组成,每个像素都有数百个峰值。常用的降维算法是将高维点投影到较小的子空间中,来实现潜在变量的捕获和可视化,从而通过潜在变量揭示分子模式,反映可能具有生物学相关性的相似光谱簇8。主成分分析(Principal Component Analysis,PCA)和 非 负 矩 阵 分 解(Non-Negative Matrix Factorization,NNMF)的线性降维法已广泛用于MSI数据分析9-10。线性降维法的主要限制在于算法的线性约束,不能捕获光谱结构中的非线性特征,进而影响潜在变量的准确识别。与此同时,t分布随机邻嵌入(t-distributed Stochastic Neighbor Embedding,t-SNE)的非线性降维法近年多被用于组学数据分析11。然而,尽管许多研究者在提高 t-SNE计算和内存可扩展性方面取得了进展,但它仍然需要将全部数据加载到RAM中,这限制了高分辨率MSI数据集的应用。有研究者对2D MSI数据集进行峰值拾取后,使用神经网络的自编码器进行降维。与PCA和NNMF方法相比,该方法实现了MSI数据非线性流形的捕获,但是分析速度有限。最近Walid等12开发了一种用于MSI数据分析和峰值学习的深度学习工具msiPL,该方法直接将原始MSI数据输入到模型,且无需进行处理。本研究在借鉴国内外研究的基础上,以两种不同组织、不同质谱仪器和不同分辨率的MSI数据为例,基于变分自编码器神经网络的深度学习模型学习并可视化 MSI数据底层谱结构的非线性特征;同时通过对复杂分子模式的无监督分析及特定的m/z值的学习,揭示了小鼠肾脏组织解剖学的生物学相关簇(内髓部、外皮层、肾盂和内皮层小管)和小鼠胃癌模型中的肿瘤异质性,并识别了潜在的特定 m/z 峰。通过使用均方误差(MSE)定量评估来评估VAE模型的学习质量,即评估模型的重建数据与原始数据之间的重建损失。最后,以MSE为评估指标将msiPL方法与其他几种专为 MSI 开发的高效降维方法(PCA、MemoryEfficient PCA和DWT+PCA)进行了比较。1 实验数据实验中小鼠肾组织数据集来自 METASPACE 中的Mouse Kidney数据集,该数据集由MALDI+FT-ICR仪器在正离子模式下获得,其中 m/z 在 1001 998.07 的范围内。采集空间分辨率设置为50 m,包含了21 535个像素,每个像素含5 397个m/z。实验中的方法验证数据集来源于公开数据集13。rapifleX MALDI-TOF仪器,横向分辨率50 m。在采集MALDI-TOF数据之后,使用7T solariX XR MALDI FT-ICR分析进行质谱成像的组织切片。MALDI成像实验是在正离子模式下,通过将m/z设置在1003 000范围内,光栅宽度为20 m和15次激光射击完成的。选择十一肽物质P(RPKPQQFFGLM;M+H+,m/z 1 347.735 4)作为示踪蛋白酶底物,平均强度为23 000。原始数据集使用m/z 780.551(PC(34:2)+Na+)进行内部校准。该数据集包含以下两个数据集:小鼠胃癌模型MSI数据集1:没有喷涂蛋白酶底物示踪剂物质P,原始数据包含11 006个像素,每个像素是一个高维数据点,每个像素点有4 944个m/z值,即4 944维;小鼠胃癌模型MSI数据集2:喷涂蛋白酶底物示踪剂物质P,原始数据包含11 823个像素,每个像素含5 138个m/z值,即5 138维。2 实验方法2.1数据预处理使用 R 语言的 Cardinal 包对 MSI 数据进行总离子流(Total Ion Current,TIC)归一化。在输入msiPL模型之前要将 imzML 标准格式的 MSI数据通过 Python的 h5py包转换为 hdf5格式,并保证输入数据在 0,1 区间内。MSI数据有不同的归一化策略,最终使用者可以根据实验目的选择最好的MSI归一化策略,但msiPL模型的输入数据均需限制在 0,1 内。因为模型的输出层来源于一个 sigmoid 激活函数,因此它产生的值在 0,1 之间;同时,输入和输出层的动态范围的一致性对于优化VAE网络损失函数和最小化重建误差至关重要。2.2msiPL模型框架msiPL模型基于变分自编码器(Variational AutoEncoder,VAE)结构建立有效的无监督学习、非线性降维和随机变分推理。VAE网络14可同时优化用于变分推理的概率编码器(Encoder)和用于无监督学习的概率解码器(Decoder),如图1所示(彩图扫OSID码可见,下同)。编码特征表示在低维空间中学习到的非线性流形,并从原始高维空间捕获分子的空间模式。这些空间模式是基于较小的m/z特征子集形成的,因此识别具有生物学相关性的潜在m/z特征分子至关重要。基于高斯混合15(Gaussian Mixture Model,GMM)的编码特征聚类方法计算速度快,并且在识别生物学相关的空间簇(肿瘤和非肿瘤簇)方面非常有效。k是可调参数,可以手动或自动设置。基于信息论的优化过程可用于模型自动选择,但通过手动选择最佳模型可避免遗漏或高估的聚类平衡。由于BIC score的分布16在可搜索范围内逐渐减小,本文将 Kneedle 算法(Python,Kneed 包)应用于 BIC score以检测临界点选择最佳模型的最大曲率,即可得到推 54第 2 期张敏,黄钢:基于msiPL模型的MSI数据分析荐聚类数。2.3实现细节模型输入MSI数据的高维度特征表示,输出MSI数据降维之后的特征表示,模型框架如图1所示。MSI数据的表示为X=X1,X2,X3,XN,其中N为样本数。VAE网络由输入层、三个隐藏层(h1、h2和h3)和输出层构成。输入层和输出层的神经元个数为m/z bin的个数;h1、h2和h3的神经元个数分别为512、5、512,其中h2的输出是MSI数据的 5维