徐小放等/基于BERT与Text-CNN的抗菌肽识别方法ChineseJournalofBiotechnologyhttp://journals.im.ac.cn/cjbcnApr.25,2023,39(4):1815-1824DOI:10.13345/j.cjb.220878©2023ChinJBiotech,Allrightsreserved资助项目:国家重点研发计划(2021YFA1301603)ThisworkwassupportedbytheNationalKeyResearchandDevelopmentProgramofChina(2021YFA1301603).*Correspondingauthors.E-mail:ZHUYunping,zhuyunping@ncpsb.org.cn;CHENTao,taochen1019@163.comReceived:2022-11-04;Accepted:2023-02-17;Publishedonline:2023-03-021815生物工程学报基于BERT与Text-CNN的抗菌肽识别方法徐小放1,2,杨春德1,舒坤贤3,袁新普4,李默程5,朱云平2*,陈涛2*1重庆邮电大学计算机科学与技术学院,重庆4000652军事科学院军事医学研究院生命组学研究所国家蛋白质科学中心(北京)北京蛋白质组研究中心蛋白质组学国家重点实验室,北京1022063重庆邮电大学大数据生物智能重庆市重点实验室,重庆4000654解放军总医院第一医学中心普通外科医学部,北京1022065国防科技大学计算机学院量子信息研究所兼高性能计算国家重点实验室,湖南长沙410073徐小放,杨春德,舒坤贤,袁新普,李默程,朱云平,陈涛.基于BERT与Text-CNN的抗菌肽识别方法[J].生物工程学报,2023,39(4):1815-1824.XUXiaofang,YANGChunde,SHUKunxian,YUANXinpu,LIMocheng,ZHUYunping,CHENTao.AnantibacterialpeptidesrecognitionmethodbasedonBERTandText-CNN[J].ChineseJournalofBiotechnology,2023,39(4):1815-1824.摘要:抗菌肽(antimicrobialpeptides,AMPs)广泛存在于生命体中,是一种具有广谱抗菌活性、免疫调节功能的小分子多肽。抗菌肽不易产生耐药性,适用范围广,具有极大的临床价值,是传统抗生素的有力竞争者。识别抗菌肽是抗菌肽研究领域中的重要研究方向,湿实验法在进行大规模抗菌肽识别时存在成本高、效率低、周期长等难点,计算机辅助识别法是抗菌肽识别手段的重要补充,如何提升准确率是其中的关键问题。蛋白质序列可以被近似地看作是由氨基酸组成的语言,运用自然语言处理(naturallanguageprocessing,NLP)技术可能提取到丰富的特征。本文将自然语言处理领域中的预训练模型BERT和微调结构Text-CNN结合,对蛋白质语言进行建模,提供了开源可用的抗菌肽识别工具,并与已发表的5种抗菌肽识别工具进行了比较。结果表明,优化“预训练-微调”策略带来了准确率、敏感度、特异性和马修相关系数的整体提升,为进一...