温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
KG
GCNASL
方法
人类
癌症
合成
致死
预测
研究
朱晓敏
第 25 卷第 1 期2023 年 1 月大 连 民 族 大 学 学 报Journal of Dalian Minzu UniversityVol25,No1January 2023收稿日期:20220715;最后修回日期:20221226基金项目:国家自然科学基金项目(61876031)。作者简介:朱晓敏(1996),女,河北沧州人,大连民族大学计算机科学与工程学院硕士研究生,主要从事知识图谱、生物医学信息和链接预测等研究。通讯作者:刘爽(1977),女,辽宁大连人,教授,博士,主要从事知识图谱、智能信息处理等研究,Email:dlnuliushuang qqcom。文章编号:20961383(2023)01001407基于 KGGCNASL 方法的人类癌症合成致死预测研究朱晓敏,刘爽(大连民族大学 计算机科学与工程学院,辽宁 大连 116650)摘要:癌症合成致死(SL)指两个非必要基因双突变会造成细胞死亡,而两基因分别突变则不会对细胞生长有影响;即在肿瘤细胞中发现一个特定的基因失活会导致肿瘤细胞死亡而正常细胞不会死亡。目前用于此研究的方法包括基因敲除模拟、基于知识数据挖掘与机器学习等,但大多倾向于假设癌症合成致死对象是相互独立的,未考虑潜在的共享生物机制且预测成本较高。因此本文提出了 KGGCNASL 方法,基于知识图谱与图卷积网络及注意力机制等相结合的方法解决癌症合成致死预测问题,通过知识图谱所包含的合成致死信息传递合并到预测模型中进行消息的传递与预测,从而规避手动特性工程等问题。本文模型在 AUC 和 F1 值等指标已优于目前 SL 预测其它先进模型,证明该模型对 SL 预测的显著影响。关键词:癌症合成预测;链接预测;知识图谱;注意力机制中图分类号:TP3911文献标志码:Aesearch on Prediction of Cancer Synthetic LethalityBased on KGGCNASLZHU Xiaomin,LIU Shuang(School of Computer Science and Engineering,Dalian Minzu University,Dalian Liaoning 116650,China)Abstract:Synthetic lethality of cancer(SL)means that double mutation of two unnecessarygenes will cause cell death,while separate mutation of two genes will not affect cell growth;thatis,a specific gene inactivation found in tumor cells will cause tumor cells to die while normalcells will not At present,the methods used for this research include gene knockout simulation,knowledgebased data mining and machine learning,but most tend to assume that the syntheticlethal target of cancer is independent of each other,without considering the potential shared bio-logical mechanism and with high prediction cost Therefore,this paper proposes the KGGC-NASL method,which is based on the combination of knowledge map,graph convolution networkand attention mechanism to solve the prediction problem of cancer composite death Through thetransmission of the composite death information contained in the knowledge map and merging itinto the prediction model,the message transmission and prediction can be carried out,thusavoiding the problems such as manual characteristic engineering The AUC and F1 values of theDOI:10.13744/21-1431/g4.2023.01.004model in this paper are better than other advanced models for SL prediction,which proves thatthe model has a significant impact on SL predictionKey words:cancer synthesis prediction;link prediction;knowledge graph;attention mechanism1问题提出合成致死指对于细胞中的两个基因,其中任何一个单独突变或不发挥作用时,都不会导致细胞死亡,两者同时突变或者不能表达时,会导致细胞死亡1。在合成致死基因对中,一个基因突变不会影响细胞的生存能力,两个基因同时突变则会导致细胞死亡;通过抑制致癌突变基因的合成致死伙伴基因,可杀死致癌基因发生突变的癌细胞,且不损害正常细胞。SL 作为一种选择性杀死癌细胞新的靶向策略,为癌症治疗带来了新机遇;也为发现新的药物靶标和潜在的癌症药物联合策略提供了可能性。SL 预测是链接预测在生物医学领域一个很重要的应用。随着人们生活压力越来越大和快餐式的生活方式越来越频繁,癌症已经成为了危害人类健康的主要杀手之一,其主要原因是细胞生长不受控制导致过度增殖而引起的。传统化学疗法通过药物靶向快速分裂细胞从而杀死癌细胞,当患者使用这些药物时,会快速损害正常细胞的分裂,对不能迅速分裂的正常细胞也有毒性,因此限制了抗癌药物的有效性。知识图谱是由语义网络发展而来的2,当知识图谱被应用到各个领域后发现存在一些问题需要被解决,如链接预测问题。链接预测是将知识图谱中实体和关系的内容映射到连续向量空间中,对实体或关系进行预测,包涵(h,r,?),(?,r,t),(h,?,t)三种任务3,癌症合成致死预测是知识图谱链接预测在生物医疗领域非常重要的研究。11现有癌症合成致死预测方法与面临的挑战合成致死是抗癌药物研发的全新思路,目前用于癌症合成致死预测的方法主要包括以下三种。第一种是基于代谢网络模型进行基因敲除模拟4,如图 1。通过整合基因组、转录组、蛋白组和热力学数据实现基于各种约束的模型构建,在基因靶点识别、系统代谢工程研究等多方面取得进一步发展和理论突破;但缺点是严重依赖于代谢网络模型、领域知识和基因组数据等,不能充分利用已知合成致死对象有价值的信息。KEGG等数据库代谢网络垂直初始模型代谢网络垂模型草稿计量学矩阵提取模拟计算和分析数据基因注释信息代谢信息实验信息及文献资料等数据Gap填补模型改进模型评估提供生化信息图 1基于代谢网络的预测方法第二种是基于知识数据挖掘即面向知识的方法5 进行 SL 预测,如图 2。主要是利用特定领域的知识进行特征工程,通过相关方法从海量数据中抽取出潜在且有价值的知识规则,其缺点是 SL预测的湿实验筛选存在着成本高、成批效应和脱靶等问题,不能充分利用有价值的信息。图 2支持向量机模型的预测方法第三种方法应用机器学习的算法进行癌症合成致死预测,如图 3 所示:其特征基于领域知识和启发式函数设计的6,如支持向量机等注入基因组和蛋白质组数据来促进癌症合成致死预测;基于图网络的方法7 对输入特征等信息进行编码,但缺点在于需手工提取特征,会遗漏特征。图 3基于决策树的预测方法51第 1 期朱晓敏,等:基于 KGGCNASL 方法的人类癌症合成致死预测研究综上可知,现有方法大多倾向于假设合成致死对象是相互独立的,并未考虑到潜在的共享生物机制。一些方法虽结合基因组和蛋白质组数据来帮助癌症合成致死预测,但涉及手工特征工程,严重依赖医药学、肿瘤学等相关领域知识。12癌症合成致死预测的研究意义综上,其现有方法的局限和意义启发着应该寻找一个新改进方法或模型去更多地进行癌症合成致死预测等相关研究。本文将进行如下工作:基于知识图谱链接预测与图神经网络及注意力机制 Attention 方法使得实体特征向量融合所有邻域实体特征及相应的关系特征,更好地捕捉给定多跳邻域中的信息和关联特征,从而达到更好的效果来解决相关问题。可知知识图谱与图卷积网络及注意力机制等相结合的方法进行人类癌症致死预测研究对医疗领域与生物信息领域的研究具有重要意义,尤其是癌症治疗方面。2相关方法与模型介绍21癌症合成致死预测相关方法介绍211基于知识图谱图卷积神经网络模型介绍KGGCNASL 方法将知识图谱与图卷积网络结合引入癌症合成致死关系预测中,基于图卷积神经网络模型通过结合知识和数据更好地解决生物医药领域的复杂问题8,图卷积网络模型如图 4。新预测的合成致死基因可帮助生物学家更快筛选到新抗癌药物靶点9,实现 AI 技术加速新药研发进程。通过知识图谱来揭示 SL 背后的生物学机理,使深度学习模型具有更好的可解释性,加速癌症药物靶点发现,促进 AI 制药技术发展。图 4图卷积网络模型212注意力机制模型介绍通过引入注意力机制模型来跟踪不同基因间发生癌症合成致死的可能性,从而实现可解释性;除此还解决了语义向量无法关注到表示序列的重要信息问题10。当获取词向量被逐个送入图卷积网络模型后会产生一系列的编码端隐藏状态参与到注意力系数的计算。每轮训练中,解码端输出状态也将参与注意力系数的计算,然后使用注意力权重将原子集成到分子表示中。解码器状态与隐藏状态经过加权求和后得到最终的概率分布。此方法可以在任何给定实体的邻域中同时捕获实体和关系特征;还在模型中封装关系聚类和多跳关系,从而捕捉给定药物多跳邻域中的信息和关联特征,为基于注意力模型的有效性提供见解,其注意力机制模型如图 5。图 5注意力机制模型图22癌症合成致死预测模型介绍本文提出 KGGCNASL 合成致死预测方法,将预测问题定义为图上链接预测问题,扩展到图结构上神经网络方法进行非线性节点嵌入学习,并重构新邻接矩阵或重构新图上链接,以得到基因间合成致死关系,整体模型框架如图 6。模型将知识图谱合并到图卷积神经网络中,通过直接在图中引入潜在因素作为节点缓解独立性问题;知识图谱中注入各种可能与合成致死相关的生物过程、疾病等因素来解决独立性问题。KGGCNASL 主要由三部分组成:首先从每个基因的原始知识图谱中推导出一个基因特异性子图;其次在基因特异性子图上进行 MP,自动将基因与可能识别合成致死对象过程中起决定性作用的因素关联起来,加入注意力机制以捕获给定实体多跳邻域中的实体和关系特征,使得模型能够对不同邻居节点指定不同权值,避免采集的有效邻居节点信息量过大带来的噪声影响从而影响预测的结果;最后,定义了一个以监督方式重构基因基因相似度的译码器实现癌症合成致死预测。此模型与目前先进的合成致死预测方法进行了比较,在 OC 曲线下面积(AUC)、precisionrecall 曲线下面积(AUP)和 F1 值等方面优于目前流行的baseline 方法,证明了该模型的有效性。(1)图谱的生成:SynLeth KG 中包含 11 个实61大连民族大学学报第 25 卷体、24 种关系,如(gene,regulate