温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
乳腺癌
标志
影响
细胞
基因
表达
生物
信息学
分析
桑茜
安阳工学院学报Journal of Anyang Institute of Technology Vol.22 No.2(Gen.No.122)Mar.,2023第22卷第2期(总第122期)2023 年 3 月DOI:10.19329/ki.1673-2928.2023.02.020乳腺癌标志物影响卵丘细胞基因表达的生物信息学分析 桑 茜1,白莹莹2,张圣杰2,张同浩2,穆志威2,谌馥佳2*(1 安阳工学院,河南 安阳 455000;2 黄淮学院,河南 驻马店 463000)摘 要:为探讨乳腺癌患者大概率患有不孕症的情况,本研究应用生物信息学方法来研究乳腺癌标志物对卵丘细胞基因表达的影响。从 NCBI 的 GEO 数据库下载有关乳腺癌标志物的基因芯片数据库和卵丘细胞基因表达的基因芯片数据库。利用在线 GEO2R 筛选出 2 个数据库的差异基因,在 EXCEL 表格中进行筛选,对 2 个结果作韦恩图获得 2 个数据库差异基因的交集,利用 DAVID6.8 数据库对差异基因进行 GO 功能分析和 KEGG 通路分析,运用 String-db 数据库构建蛋白之间的相互作用图(PPI),导入 Cytoscape3.6.1 软件获取关键靶基因。本文通过生物信息学方法从不同角度揭示有关乳腺癌标志物对卵丘细胞差异基因表达的影响,为人类乳腺癌患者生育能力的提高带来新思路。关键词:生物信息学;乳腺癌标志物;卵丘细胞;差异表达蛋白;关键靶基因中图分类号:Q28 文献标志码:A 文章编号:1673-2928(2023)02-0103-08乳腺癌是全球发病率最高的女性恶性肿瘤。据调查全球乳腺癌患病人群约 120 万左右1,在我国每年约有 30 万人确诊乳腺癌2。随着现代医疗技术的不断进步,乳腺癌长期生存率逐步提高,越来越多的年轻患者对生育能力的需求日益明显 3。现在,胚胎和卵母细胞冻存被认为是当今乳腺癌患者生殖力保护最成功的技术。microRNA 是一种短的(长度在 18 到 23 nt之间)非编码 RNA。几乎所有的生物学功能都可以通过 miRNA 转录后的基因沉默来调控,改变 miRNA 表达经常作为癌症开始和转移的标志4。microRNA-138 作为三阴性乳腺癌(TNBC)的预后生物标记物,可抑制体内肿瘤的形成5。建立以 microRNA-138 为生物标志物的乳腺癌患者上调或下调基因,与卵丘细胞中差异基因表达的相互关系,筛选两者的交集即差异靶基因,对提高乳腺癌患者生育能力有重要的指导作用。新兴的生物信息学是研究生物信息的一门综合性学科6-7,利用基因芯片对数据进行综合数学统计分析,以计算机编程和生物学的各个工具为基础,同时结合统计分析方法、生 物 分 子 互 联 网 络 及 各 个 通 路 分 析、DNA序 列 比 对、测 序 与 拼 接 等 途 径 对 生 物 数 据进 行 收 集、存 储、管 理 与 提 供。生 物 信 息学 的 发 展 将 对 分 子 生 物 学、药 物 设 计 等 自然科学领域的发展产生深远的影响8。本文利用生物信息学技术通过网站及数据库来分析乳腺癌标志物 microRNA-138 对卵丘细胞基因表达的影响。1 材料来源和方法1.1 数据获得及研究对象使用 NCBI 的 GEO 基因芯片公共数据库(GEO Datasets)进行有关乳腺癌标志物对卵丘细胞基因表达的影响的基因芯片数据搜索,经过筛选,选择 2 个数据集 GSE110659和 GSE149033。第一个数据集 GSE110659是 由 Nama 等 提 出 的 6 个 样 本 芯 片 数 据 系列,所 采 用 的 平 台 GPL10558 即 Illumina HumanHT-12 V4.0 表达微芯片,按照加扰控制和抗 miR-138 进行分组并用 GEO2R 分析得到数据。第二个数据集 GSE149033 是由 Chermula 等提出的 8 个样品芯片数据系列,所 采 用 平 台 GPL13667 即 HG-U219 Affymetrix 人类基因组 U219 阵列,按照培养 24 h 的人类卵丘细胞和培养 30d 后的人类卵丘细胞进行分组并用 GEO2R 分析得到数据。收稿日期:2023-02-10基金项目:河南省科技厅科技攻关项目(202102310479,222102110180)作者简介:桑茜(1985),女,河南安阳人,硕士,助教,研究方向为植物保护、生物技术。通信作者:谌馥佳(1985),女,湖北黄陂人,博士,副教授,研究方向为生物制药。2023 年安阳工学院学报1041.2 数据分析软件及功能表 1 数据分析软件及功能数据分析软件功能GEO2R 找出差异基因Venn找出相同基因,获得两组差异基因的交集DAVID6.8进行 GO 功能分析和 KEGG通路分析String-db功能注释及蛋白互作分析图Cytoscape3.6.1 分析软件筛选关键靶基因1.3 差异基因的获取在 NCBI的GEO 数据库中,找到相关的数据集,利用网站自带的 GEO2R 程序对 2 组或多组样本进行对比分析,以确定在不同的实验条件下差异表达的基因。将 GSE110659 的 6 个样本分为 2 组,加扰控制作为对照组(CK),抗 miR-138 作为实验组(Treatment);将 GSE149033 的 8 个样品中的 4 个分为 2 组,24 h 的人类卵丘细胞作为对照组(CK),培养30 d后的人类卵丘细胞作为实验组(Treatment),将筛选出来的 2 个数据系列集结果通过 Venn 查询交集得到相同的差异表达基因。1.4 GO 和 KEGG 的分析使用 GEO2R 筛选出来的 2 个数据系列集通过 Venn 得到 35 个相同的差异基因,这 35 个相同的差异基因在 DAVID6.8 数据库中进行分析,获得差异基因的 GO 功能和 KEGG 信号通路。然后将差异基因的 Gene symbol 导入 String-db 中,得到差异基因编码的蛋白质之间的相互作用图,最后用Cytoscape3.6.1分析软件来筛选 Hub 关键靶基因。一个基因的度被定义为这个基因与它直接相关的所有相互作用基因的个数,根据自由度得到前 10个核心基因,其中度较大的基因成为 Hub 基因。2 结果与分析2.1 数据及记录从 NCBI 的 GEO 基因芯片数据库中下载关于乳腺癌标志物的基因芯片数据库和卵丘细胞基因表达的基因芯片数据,2 个数据库都利用 GEO2R工具进行筛选得到 2 组差异基因 GSE110659 和GSE149033,把 Gene Symbol 作为独特元素,经过 Venn 取交集得到 35 个相同的差异基因(见图1)。这 35 个差异基因分别为 MOXD1、SDPR、DKK3、RHOU、NQO1、SERPINB9、HBEGF、IFIT1、TNFRSF11B、HLA-DRA、HYI、CXCL1、PRSS35、FHL1、RHOJ、SORBS2、SERINC2、RAB27B、MT1F、MATN2、HLA-DPA1、IL1A、CCND2、RAB20、SLC46A3、CLDN1、C4BPB、PSG5、IL1B、EREG、AKR1C3、PTX3、PRSS3、PRKCA、IL6(见表 2)。图 1 Venn 图取交集表 2 相同的差异基因数据Gene symboladj.p.Value lgFCMOXD10.005 03-2.114 574SDPR0.001 97-2.976 750 1DKK30.001 782.003 116 4RHOU0.002 21-2.357 107 9NQO10.001 82-2.056 466 7SERPINB90.002 32.088 071 7HBEGF0.001 543.057 514 6IFIT10.001 38-2.665 637 8TNFRSF11B0.001 384.841 148 3HLA-DRA0.001 782.285 341 1HYI0.001 78-2.717 330 6CXCL10.001 784.758 454PRSS350.001 9-3.070 977FHL10.002 74-2.211 140 3RHOJ0.004 77-2.698 002 4SORBS20.002 27-2.486 923 3SERINC20.002 09-2.150 944RAB27B0.002 09-2.435 673 5MT1F0.001 9-2.397 804 6MATN20.001 38-2.594 017 2HLA-DPA10.001 383.232 663 3IL1A0.001 844.026 33 8CCND20.002 836.311 144 1RAB200.003 32-3.081 433SLC46A30.002 282.413 367 7CLDN10.002 283.132 630 3C4BPB0.001 78-2.863 170 8PSG50.00248-2.224 309 2IL1B0.001 973.002 650 6EREG0.004592.627 998 3AKR1C30.001 82-2.350 854 3PTX30.001 383.153 010 7PRSS30.005 482.087 423 2PRKCA0.002 09-2.560 719 3IL60.001 383.577 212 2第二期1052.2 差异表达基因数据分析利用 GEO2R 对这 2 组人类基因表达及发育的相关基因进行分析。将样本分组后,单击保存所有结果运行带有默认参数的 R 程序,获 得 2 组 数 据。首 先,对 GSE110659 的 基 因进行差异分析,以 adj p Value0.02 和差异倍数|lgFC|2 作为筛选差异基因的条件,并且删除没有 Gene symbol 的差异基因,从样本数据库 GSE110659 中共筛选出 174 个差异基因,其 中 包 括 上 调 基 因 DKK3、C3、TRMT2B、SFT2D3、SPTLC1、PRSS3、SERPINB9、IRAK2、ERCC8、CEMIP、HSPA1L、GJB2、YOD1、HIST2H2BE、FBXO45、BRICD5、QPCT、CCDC28B、EFNA1、HLA-DRA、CD14、EFNA1、PTPRR、DKK3、ADAMTS9、SLC46A3、HSD17B10、HLA-DRB6、STX11、SLC25A20、ADAM19、HSD17B10、MFAP2、HAVCR2、IL1RAP、CXCL2、EREG、ITK、ANKRD46、ZC3H12A、MIR3142HG、CXCL8、CPT1A、CHSY3、IL1B、CSF2、HBEGF、PTGS2、CXCL8、CLDN1、SKIDA1、PTX3、PRSS2、THBD、HLA-DPA1、IL6、IL1A、CXCL1、TNFRSF11B、MGAT4C、CCND2(共 61 个),下 调 基 因 ELFN2、KLC3、ITGB4、NES、CCDC190、OLFML2A、PLAC8、ANKRD23、GPER1、DMBT1、FTH1、GPER1、KISS1、MEGF6、PLAC8、RAB20、PRSS35、ENDOV、KAT2B、C1orf115、PPFIBP2、SDPR、TBL1XR1、OASL、C4BPB、SORCS2、SGO2、CMBL、C4BPB、ADD3、PRSS16、RASD2、HYI、MKX、RHOJ、PI16、IFIT1、IL1RAPL1、SLC36A4、TMEM64、ARTN、CLPTM1、MATN2、PRKCA、SPINK4、TNFAIP8L1CTSV、TMEM64、TOR1B、SORBS2、DDX58、THOC6、RIMS3、CASP6、RAB27B、CLIC3、ANGPT1、CASP6、MT1F、FBLN7、GANAB、RGCC、RHOU、HNRNPU、AKR1C3、OASL、CEP