分享
基于BERT与Text-CNN的抗菌肽识别方法_徐小放.pdf
下载文档

ID:2515772

大小:843.96KB

页数:10页

格式:PDF

时间:2023-06-27

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 BERT Text CNN 抗菌 识别 方法 徐小放
徐小放 等/基于 BERT 与 Text-CNN 的抗菌肽识别方法 Chinese Journal of Biotechnology http:/ Apr.25,2023,39(4):1815-1824 DOI:10.13345/j.cjb.220878 2023 Chin J Biotech,All rights reserved 资助项目:国家重点研发计划(2021YFA1301603)This work was supported by the National Key Research and Development Program of China(2021YFA1301603).*Corresponding authors.E-mail:ZHU Yunping,;CHEN Tao, Received:2022-11-04;Accepted:2023-02-17;Published online:2023-03-02 1815 生物工程学报 基于 BERT 与 Text-CNN 的抗菌肽识别方法 徐小放1,2,杨春德1,舒坤贤3,袁新普4,李默程5,朱云平2*,陈涛2*1 重庆邮电大学计算机科学与技术学院,重庆 400065 2 军事科学院军事医学研究院生命组学研究所 国家蛋白质科学中心(北京)北京蛋白质组研究中心 蛋白质 组学国家重点实验室,北京 102206 3 重庆邮电大学 大数据生物智能重庆市重点实验室,重庆 400065 4 解放军总医院 第一医学中心普通外科医学部,北京 102206 5 国防科技大学计算机学院 量子信息研究所兼高性能计算国家重点实验室,湖南 长沙 410073 徐小放,杨春德,舒坤贤,袁新普,李默程,朱云平,陈涛.基于 BERT 与 Text-CNN 的抗菌肽识别方法J.生物工程学报,2023,39(4):1815-1824.XU Xiaofang,YANG Chunde,SHU Kunxian,YUAN Xinpu,LI Mocheng,ZHU Yunping,CHEN Tao.An antibacterial peptides recognition method based on BERT and Text-CNNJ.Chinese Journal of Biotechnology,2023,39(4):1815-1824.摘 要:抗菌肽(antimicrobial peptides,AMPs)广泛存在于生命体中,是一种具有广谱抗菌活性、免疫调节功能的小分子多肽。抗菌肽不易产生耐药性,适用范围广,具有极大的临床价值,是传统抗生素的有力竞争者。识别抗菌肽是抗菌肽研究领域中的重要研究方向,湿实验法在进行大规模抗菌肽识别时存在成本高、效率低、周期长等难点,计算机辅助识别法是抗菌肽识别手段的重要补充,如何提升准确率是其中的关键问题。蛋白质序列可以被近似地看作是由氨基酸组成的语言,运用自然语言处理(natural language processing,NLP)技术可能提取到丰富的特征。本文将自然语言处理领域中的预训练模型 BERT 和微调结构 Text-CNN 结合,对蛋白质语言进行建模,提供了开源可用的抗菌肽识别工具,并与已发表的 5 种抗菌肽识别工具进行了比较。结果表明,优化“预训练-微调”策略带来了准确率、敏感度、特异性和马修相关系数的整体提升,为进一步研究抗菌肽识别算法提供了新思路。关键词:蛋白质;抗菌肽;语言模型;预训练 生物技术与方法 ISSN 1000-3061 CN 11-1998/Q 生物工程学报 Chin J Biotech http:/ 1816 An antibacterial peptides recognition method based on BERT and Text-CNN XU Xiaofang1,2,YANG Chunde1,SHU Kunxian3,YUAN Xinpu4,LI Mocheng5,ZHU Yunping2*,CHEN Tao2*1 The School of Computer Science and Technology,Chongqing University of Posts and Telecommunications,Chongqing 400065,China 2 State Key Laboratory of Proteomics,Beijing Proteome Research Center,National Center for Protein Sciences (Beijing),Institute of Lifeomics,Academy of Military Medical Sciences,Academy of Military Sciences,Beijing 102206,China 3 Chongqing Key Laboratory on Big Data for Bio-Intelligence,Chongqing University of Posts and Telecommunications,Chongqing 400065,China 4 Department of General Surgery,First Medical Center,Chinese PLA General Hospital,Beijing 102206,China 5 State Key Laboratory of High Performance Computing,Institute for Quantum Information,College of Computer,National University of Defense Technology,Changsha 410073,Hunan,China Abstract:Antimicrobial peptides(AMPs)are small molecule peptides that are widely found in living organisms with broad-spectrum antibacterial activity and immunomodulatory effect.Due to slower emergence of resistance,excellent clinical potential and wide range of application,AMP is a strong alternative to conventional antibiotics.AMP recognition is a significant direction in the field of AMP research.The high cost,low efficiency and long period shortcomings of the wet experiment methods prevent it from meeting the need for the large-scale AMP recognition.Therefore,computer-aided identification methods are important supplements to AMP recognition approaches,and one of the key issues is how to improve the accuracy.Protein sequences could be approximated as a language composed of amino acids.Consequently,rich features may be extracted using natural language processing(NLP)techniques.In this paper,we combine the pre-trained model BERT and the fine-tuned structure Text-CNN in the field of NLP to model protein languages,develop an open-source available antimicrobial peptide recognition tool and conduct a comparison with other five published tools.The experimental results show that the optimization of the two-phase training approach brings an overall improvement in accuracy,sensitivity,specificity,and Matthew correlation coefficient,offering a novel approach for further research on AMP recognition.Keywords:protein;antibacterial peptides;language model;pre-training 近 年 来,抗 菌 素 耐 药 性(antimicrobial resistance,AMR)已经成为全世界共同面对的危机1。抗菌肽(antimicrobial peptides,AMPs)广泛分布于自然界中,是一种具有广谱抗菌活性、免疫调节功能的小分子多肽,且不易产生耐药性,是应对多重耐药菌的重要手段2-6。当前,抗菌肽的识别主要分为湿实验法与计算机辅助识别法。然而涉及蛋白质的湿实验法设计复杂、耗时较长且成本高昂7-9,使用湿实验法进行大规模抗菌肽识别具有一定挑战性。因此,计算机辅助识别方法对于抗菌肽识别任务具有重大的现实意义与实用价值。通过计算机辅助识别方法,可以低成本筛选与识别抗菌肽。目前,已有数款基于信息学的 徐小放 等/基于 BERT 与 Text-CNN 的抗菌肽识别方法 :010-64807509: 1817 抗菌肽识别工具发表。iAMP-2L10基于伪氨基酸组成(pseudo amino acid composition,PseAAC)和模糊 K 近邻(fuzzy K-nearest neighbor,FKNN)算法构建了一个抗菌肽的多标签分类器;MAMPs-Pred11利用了随机森林(random forests,RF)等机器学习方法构建了一个抗菌肽识别工具并在样本欠平衡情况下进行了讨论。Youmans 等12和 AMPScan Vr.2 工具13均使用了深度学习相关的方法,其中 Youmans 等12引入了一个双向的长短期记忆(bidirectional long short-term memory,Bi-LSTM)神经网络用于抗菌肽识别,AMPScan Vr.213则采取了将卷积神经网络(convolutional neural networks,CNN)和长短期记忆(long short-term memory,LSTM)神经网络相结合的方式。这些方法成功地减轻了湿实验识别的压力,但仍存在一定的改进空间。例如,有监督学习方法在面对无标签数据时稍显乏力。Zhang 等14首次将预训练模型 BERT15引入了抗菌肽识别领域,可以利用大量无标签数据进行预训练。蛋白质序列可以由氨基酸字母串表示,因此可以类似地看作是一种蛋白质的语言16-18,运用自然语言处理(natural language processing,NLP)技 术 可 能 提 取 到 更 丰 富 的 特 征。Transformer19是在 NLP 领域中的重要创新,在多个 NLP 任务上达到了顶尖水准

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开