温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
TCGA
数据库
构建
腺癌
相关
免疫
基因
预后
模型
刘凤燕
第 卷 第期河南大学学报(自然科学版)年月 ()基于 数据库构建肺腺癌相关免疫基因预后模型刘凤燕,张元媛,张 琪,罗 雷,李光琴,戚文华(重庆三峡学院 生物与食品工程学院,重庆 万州 ;山西农业大学 基础部,山西 晋中 )收稿日期:基金项目:国家自然科学基金资助项目();重庆市自然科学基金资助项目()作者简介:刘凤燕(),女,山东聊城人,硕士研究生 研究方向:分子生物学与生物信息学通信作者,:摘要:从 公共数据库中下载 个肺腺癌(,)肿瘤组织样品及 个正常组织样品及其相配的临床病例资料,提取样本全转录组测序结果利用 检验对两组样品进行差异表达分析,利用网址 :下载免疫基因与肺腺癌转录组差异表达基因取交集,提取与肺腺癌相关的差异表达免疫基因 基于差异表达免疫基因,采用单因素和多因素 回归分析构建模型,并根据风险评分,将患者分为高风险组和低风险组;采用生存分析()和受试者工作特征()曲线分析检验模型预测效能结果显示,共提取 个与肺腺癌相关的差异表达免疫基因,其中表达上调基因 个,表达下调基因 个,采用 单因素回归分析获得 个与生存时间相关的预后免疫基因,多因素 回归分析最终得到一个由 个预后免疫基因构建的风险评估模型 曲线结果证实该模型对 患者内生存率的分析准确性较高(),单因素和多因素 独立分析提示 ()能作为一个独立的预后指标()临床变量相关性的预后免疫基因表达分布分析发现,、和 个免疫基因表达量在恶性肿瘤中表达较高 以上结果表明,本文所构建的预后免疫基因风险评估模型,可用于评估肺腺癌病人的预后风险值,为肺腺癌病人的预后治疗提供参考依据关键词:肺腺癌;免疫基因;数据库;预后模型中图分类号:文献标志码:文章编号:(),(,;,):(),:,()(),()(),DOI:10.15991/ki.411100.2023.02.004刘凤燕,等:基于 数据库构建肺腺癌相关免疫基因预后模型 ,:;引言肺癌()是目前对人类健康与生命危害最大的恶性肿瘤,同时也是目前发病率最高、最常见的肺原发性恶性肿瘤,占肿瘤死因的首位 肺腺癌(,)是肺癌中最常见的一种,其发生率几乎占了所有肺癌的一半 目前肺腺癌的主要治疗手段包括细胞死亡疗法、基因治疗、免疫治疗、常规放射疗法和化学疗法等 其中基因治疗法是近年来研究的热点,如对肺腺癌基因的甲基化位点、基因表达的分析研究都具有很大的临床意义,但针对肺腺癌的发病机制、预后分析的研究有所欠缺 因此,探寻肺腺癌的早期诊断、预后评估的新指标和新方法一直都是人们研究的一个不变的主题随着基因二代测序技术的发展,肿瘤的相关数据不断积累,人们逐渐将目光汇聚于高通量测序数据的分析和比对上,同时也产生了很多基于基因数据分析的方法,并且建立了肿瘤基因组图谱数据库(,)是以肿瘤病人样本为核心的数据库,目前共存储人体 个组织、器官等 种癌型及其亚型,个 等的相关数据,提供了大量的 序列、基因表达、基因突变等信息 人们可通过对其上肿瘤基因数据的挖掘和分析,来进行肿瘤的相关研究本研究基于 数据库,对 相关数据进行挖掘,分析相关免疫基因的表达及其对 患者预后的影响,构建预后相关免疫基因组成的风险模型,从分子水平解释基因与疾病的调控关系,发生的机制,为临床肺腺癌的诊断、治疗提供思路 材料和方法相关数据的获取从 数据库(:)中下载样本全转录组测序结果()和临床相关信息(),共获取正常组织样品 个,肿瘤组织样品 个其中 例肿瘤样本配有临床数据,主要包括年龄、性别、分级、分期、分期及预后等 利用网址 :下载免疫基因并与差异表达基因取交集,共获取肺腺癌相关差异表达的免疫基因 个,其中上调的基因有 个,下调的基因 个方法利用 检验肺腺癌转录组基因在正常样品和肿瘤样品表达的差异分析,提取出满足 ,(表示两样本间表达量的比值,为错误发现率)条件的差异表达基因 将下载的免疫基因与差异表达基因取交集,得到差异表达免疫基因 通过 单因素回归分析获得 个与生存时间相关的预后免疫基因,纳入多因素 回归分析,最终筛选出 个预后免疫基因用于构建风险评估模型 依据模型公式计算患者风险评分,找出中位值将其分成高低风险组,利用 估计量()法对比组间预后的差异,并通过绘制 曲线评估模型预测性能,最后再进行单因素和多因素 独立分析,判断风险评分能作为一个独立的预后指标结果与分析肺腺癌转录组基因差异表达分析从 数据库筛选符合条件的肺腺癌转录组数据,利用 检验肺腺癌转录组基因在正常样品和肿瘤样品中表达的差异(,),共提取出差异表达基因 个,其中在肿瘤样品中高表达的基因有 个,低表达的基因有 个 通过绘制热图,将差异分析中不同样本表达模式相同或相 河南大学学报(自然科学版),年,第 卷第期似的基因聚类,推测基因的功能获取差异表达免疫相关基因利用网址 :下载免疫基因,获取免疫基因的名称(),与肺腺癌转录组基因在正常组织和肿瘤组织中差异表达的数据取交集,提取与肺腺癌相关的差异表达免疫基因共 个,其中上调的基因有 个,下调的基因 个,列举其中差异较大的前 个免疫基因,如表所示表肺腺癌部分免疫基因差异表达分析 基因正常样品表达量均值肿瘤样品表达量均值 伪发现率 基于相关免疫基因的预后模型建立从肺腺癌临床数据中剔除生存时间小于和等于 及无随访数据的样品,得到 个肿瘤样品,提取这些样品的名称及其生存状态、生存时间的临床数据并与差异表达的免疫基因数据整理融合,从肺腺癌相关差异表达的免疫基因中筛选出与生存相关的预后免疫基因,如表所示,列举出了风险值排名前 的预后相关免疫基因通过 单因素回归分析获得 个与生存时间相关的预后免疫基因,其中 、和 为高风险 免疫基 因;、和 为低风险免疫基因表部分预后相关免疫基因 基因风险比基因风险比 ()()()()()()()()()()基于预后免疫基因的表达图谱及临床变量,构建生存相关的线性风险评估模型()将 个生存相关预后免疫基因纳入多因素 回归分析,最终筛选出 个预后免疫基因用于构建风险评估模型 其中 、和 为高风险基因,而、和为保护基因(见表)模型公式:(公式中 为预后免疫基因表达量,为各免疫基因与生存时间、生存状态相关的多因素 回归相关系数),得到(表达量)(表达量)(表达量)(表达量)(表达 量)(表 达 量)(表 达 量)刘凤燕,等:基于 数据库构建肺腺癌相关免疫基因预后模型 (表达量)(表达量)(表达量)(表 达 量)(表 达 量)(表达量)(表达量)(表达量)表预后相关免疫基因多因素 回归分析 基因 预测模型的有效性和稳定性评估根据公式计算 个肺腺癌病人的预后风险值(见表),然后取风险值的中位值()为分断值,将患者分为高风险组(,)和低风险组(,),运用模型在总体样品中的评估肺腺癌患者的 评分、生存分布和 表达见图从图风险曲线可以得出以下结论:随着 值的升高,患者生存时间呈缩短趋势,且死亡人数明显增加热 图 中 高 患者中 、和 表达上调,低风险患者中、和表达上调(见图)风险组采用语言中的“”包中的“”函数进行生存分析,采用“”包绘制生存曲线结果显示,高风险组患者的预后比低风险组患者差,其平均生存时间较短,死亡人数也较多;随着时间的推移高、低风险患者的生存率都是下降的,但高风险组患者总体生存率下降速度较快(),如图所示表部分肺腺癌患者风险值 样品名称风险评分风险 河南大学学报(自然科学版),年,第 卷第期注:图、图、图都以样品为横坐标图以 为截断值(虚线处),将 患者分为高、低风险两组,红色点为高风险患者、绿色点为低风险患者图红色点表示死亡的患者,绿色点表示生存的患者图为风险热图,表示预后的 个免疫基因在高、低风险患者中表达分布图,蓝色横条表示高风险患者,粉色横条表示低风险患者,图谱右侧渐变条表示基因表达量,绿色为低表达,红色为高表达图总 患者生存时间、生存状态对预后风险评分模型评估 图生存分析曲线 图风险评估模型性能测定的 曲线图 刘凤燕,等:基于 数据库构建肺腺癌相关免疫基因预后模型 绘制时间依赖的 曲线来评价风险评估模型的预测性能,分别绘制 患者、和的 曲线,如图所示 患者、和的生存率曲线下面积分别是 、和 ,都在 范围内,表明本文所构建的预后免疫基因模型对 患者内生存率的分析准确性较高,尤其是对 患者内生存率的分析更为准确,因此该模型具有较高的准确性相关免疫基因预后模型与患者生存期独立相关为检验由 个预后免疫基因组成的风险评估模型是否能独立于其他临床变量,作者作进一步分析 将 个 患者的临床变量包括年龄、性别、分级、分期进行数据整理,删除其中为“”的无随访记录数据和未知数据的样品,最终提取出 组临床数据对 组临床数据进行数值化处理(性别:女性、男性 分级:、,、,、,分 期:、,、,、,;,、;、),再进行单因素和多因素 独立分析分析结果(见图)显示,在单因素和多因素独立分析得到的 ,表明 与患者生存相关,同时风险评分能作为一个独立的预后指标,表明本文构建的预后免疫基因模型可独立于其他临床数据进行分析图单因素和多因素独立预后分析 临床相关性分析对肺腺癌患者临床数据的各个变量包括年龄(与)、性别(女性与男性)、分级(与 )、分期(与 )、(与 )、(与 )进行二分组,并与预后免疫基因的表达量进行融合,再用检验进行相关性分析,计算出值,对预后免疫基因与临床数据进行相关性分析 结果表明,具有相关性()的预后免疫基因和临床变量有 组,分别是 与、与、河南大学学报(自然科学版),年,第 卷第期 与、与、与、与 、与、与、与 和与(见表)表预后免疫基因与临床变量相关性分析 基因年龄性别分级 ()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()对与临床变量具有相关性的预后免疫基因表达分布绘图分析,如图所示在性别方面,在女性中高表达,在男性中低表达;:在 期中高表达、期中低表达;分期:在 中是高表达、中是低表达的,而 在 中是低表达、中是高表达的;分期:和 在 中是高表达、中是低表达的;分期:、在 中低表达、在 是高表达的,而 和在 中高表达、在 中是低表达的刘凤燕,等:基于 数据库构建肺腺癌相关免疫基因预后模型 图建模基因与临床参数的关系 讨论肺腺癌占肺癌患病总人数的,极大地威胁着人类的生命健康,即便经过手术治疗,仍有超 的患者存在复发的风险 探寻肺腺癌早期诊断、预后评估及个体化治疗的新指标和新方法一直是近年来研究的热点主题 随着测序技术的发展,出现了大量基于 数据库挖掘基因数据进行生存分析的研究,人们利用数据挖掘技术,获得了许多可以指导肿瘤诊断、治疗以及预测生存的基因谱系 如高周勇等 发现 基因在 组织中的表达量明显高于正常组织,并且 的表达水平越高,肺腺癌患者的生存时间越短,因此构建了一种模型,通过 的表达水平对患者的预后进行分析研究发现机体的代谢水平与肿瘤组织的发展也密切相关,肿瘤细胞为了满足自身快速增殖生长的需求,会通过反应路径较短的糖酵解方式来迅速获取能量,其产生大量中间产物也成为了肿瘤生长的原料 康永明等 发现并证明了糖酵解基因异常表达与肺腺癌患者预后之间存在联系,成功建立了 个糖酵解基因的肺腺癌预后预测模型某些免疫基因的表达与肿瘤的发生、发展密切相关,通过 数据库详细分析发现,相较于正常组织,肿瘤相关预后免疫基因在肿瘤组织中的表达水平明显升高,且肿瘤组织中相关预后免疫基因高表达的 患者预后情况较差 该结论与既往研究报道的其他恶性肿瘤中预后免疫基因表达水平上调与患者 河南大学学报(自然科学版),年,第 卷第期的不良预后相符合 然而,在肺腺癌研究中,预后免疫基因同患者预后以及生存情况的关系并未有详细的研究 本实验基于 数据库,下载了肺腺癌转录组数据及对应的临床病理参数 首先对 数据库中肺腺癌组织与正常组织的转录组基因表达进行差异化分