温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
人工智能
互联网
时代
化合物
毒性
预测
徐涛
基于人工智能和互联网时代的化合物毒性预测徐涛1秦越1*单伟1贾辰阳2朱加良1邓志光1李卓玥1刘丹会1(1中国核动力研究设计院核反应堆系统设计技术重点实验室成都610213;2华中师范大学化学学院农药与化学生物学教育部重点实验室武汉430079)*联系人,秦越E-mail:qyqingyue formailcom2021-06-08 收稿,2022-08-09 修回,2022-09-01 接受摘要随着商品中所含各种化合物的不断使用,人们日益关注其对人类及生态环境的安全危害。在过去的几年里,通过计算方法预测化合物毒性已经显示出极大的潜力。在此,总结了常用的机器学习和深度学习算法在建立毒性预测模型上的优缺点,并系统回顾了近三年发表的可免费访问的毒性预测网络服务器。此外,还讨论了基于人工智能和互联网时代下毒性预测所面临的机遇和挑战。希望指导人们合理选择算法和网络服务器进行建模及化合物毒性评估。关键词人工智能深度学习机器学习毒性预测网络服务器Toxicity Prediction Based on Artificial Intelligence and the Internet EraXu Tao1,Qin Yue1*,ShanWei1,Jia Chenyang2,Zhu Jialiang1,Deng Zhiguang1,Li Zhuoyue1,Liu Danhui1(1Science and Technology on eactor System Design Technology Laboratory,Nuclear Power Institute of China,Chengdu,610213;2Key Laboratory of Pesticide Chemical Biology,Ministry of Education,College ofChemistry,Central China Normal University,Wuhan,430079)AbstractWith the continuous using compounds contained in commodities,there is growing concern about theirharm to human and ecological environment safety In the past few years,computational techniques have showed theirpotential to predict toxicity of compounds Here,we summarize the advantages and drawbacks of machine learning anddeep learning algorithms for establishing toxicity prediction models,and systematically review the freely accessibletoxicity prediction web servers for in silico toxicity prediction in the past three years Additionally,the opportunitiesand challenges of toxicity prediction based on artificial intelligence and internet are discussed It is hoped that thispaper can provide help in guiding people to rationally choose algorithms and web servers for modeling and toxicityevaluationKeywordsArtificial intelligence,Deep learning,Machine learning,Toxicity prediction,Web server“One Health”理念的提出,让人们越加意识到人类、动物和环境是相互关联的一个整体,在努力确保人类的健康和继续生存的同时,必须考虑到其他生态物种和环境间复杂的相互联系与依存13。随着医药、农药、食品添加剂、化妆品等商品的不断使用,人们越来越关注其中所含的化合物对人类和生态物种潜在的安全危害。2006年,欧盟制定了化学品的注册、评估、授权和限制条例(EACH),以保护人类和生态环境健康4。实际上,我们生活的环境中充满了有毒化合物,其中一些毒性相对较低或者只有在长期摄入后才会产生毒性效应,而另外一些毒性相对较大,短时的接触或摄入就会对生物健康造成威胁甚至死亡。在巨大的化学空间内,绝大多数化合物的毒性尚未得到研究,即使是已被登记销售的化合物,仍然缺乏对其潜在毒性的全面评估5。例如,每年因药物不良反应会造成 7.5 万至 13.7 万人死亡,产生 1770 件严重的卫生事件,被认为是美国第四大致死原因;因膳食摄入造成的高胆固醇、高血糖等疾病占全球慢性疾病死亡的 23%68。因此,提前对化合物的潜在毒性进行评估,对保护人类和其他生态物种的健康有十分重要的意义。213化学通报2023 年 第 86 卷 第 3 期http:/wwwhxtborgDOI:10.14159/ki.0441-3776.2023.03.002传统的体内和体外毒理学试验可以研究化合物对生物体的毒性反应、毒性作用机制,以及帮助人们制定安全参考剂量等,但是,随着待测化合物数量的不断增长、高昂的测试费用、耗时的实验周期和出于动物保护等原因,仅依赖于传统的实验测试方法已不能完全满足人们对化合物毒性风险的评估需求。随着计算机科学的发展以及跨学科、跨专业的合作,通过计算机资源进行化合物的毒性预测成为一种有效的替代方法9,10。早在20 世纪 80 年代,科学家便建立定量构效关系(QSA)模型来预测化合物的毒性,即根据已知化合物的结构或理化性质与其生理活性之间建立定量关系,从而预测具有相似结构的化合物的毒性,因为这些化合物最有可能通过相同的作用机制表现出毒理学效应1114。传统的 QSA 模型基本上是基于统计学方法建立的,如线性回归分析、多元分析、早期浅层神经网络模型。实验数据的非线性可能会影响模型的准确性,此外,这些方法难以提取更抽象的特征,并一直被认为有高噪声、过拟合的特点,从而无法进行高精度的预测15。如今的大数据时代,人工智能算法以其优异的性能不仅广泛应用于自然语言处理、图像识别、语音识别、汽车自动驾驶,同时应用到了计算化学、生物信息学等多个学科领域,在化合物安全风险评估方面也发挥着自身的优势16。近年来,已发展了一系列基于人工智能算法的毒性预测模型来有效地评估化合物的毒性,即使用复杂的算法让计算机能够从数据中学习并做出预测,例如:支持向量机(Support vector machines,SVM)、贝叶斯分类器(Bayesian classifiers)、决策树(Decisiontrees,DTs)、k 近邻(k-nearest neighbors,kNN)、随机森 林(andom forest,F)、人 工 神 经 网 络(Artificial neural networks,ANN)等1720。由于人工智能算法快速、经济、准确、能够处理大量数据及复杂问题等优点,越来越多的研究者使用机器学习或深度学习方法来优化传统的 QSA 模型并进行化合物毒性的预测21,常见的毒性预测端点包括:急性毒性、肝脏毒性、心脏毒性、细胞毒性、基因毒性、致癌性、诱变性等,另外,也包括对一些常见生态物种的急性毒性预测,如鼠毒、蜂毒、鸟毒、水生生物毒性等13,2226。这些基于人工智能的毒性预测模型可以快速经济地帮助研究者预测化合物的毒性,以合理的方式来提前避免潜在的不利影响,此外,这些技术可以用于药物发现的早期阶段,有效筛选出低毒的化合物,并且为分子的优化提供指导。不仅如此,通过利用便捷的互联网技术,在过去几年中这些模型不再仅以复杂的公式、代码等形式展现在文献中,极大地限制了它们的使用,研发者将其嵌入到在线网络平台中,以交互式界面的 形 式 展 示 给 用 户,如 MouseTox27,ProToxII28,admetSA29 等。据统计,截至 2021 年 1月,admetSA 在 2012 年首次发表以来在 web ofscience 的被引频次已超过 670 次,在2019 年更新发表后,一年时间内引用频次高达 70 余次,均为高被引论文29,30。由此可见,发展基于人工智能的化合物毒性预测网络服务器是科研工作者的需求,这些免费的服务器提供了便捷的输入形式、快速的结果反馈,不需要用户有专业的计算机或者毒理学研究背景便可以方便地使用这些模型,不仅为更多的科研工作者提供便利的使用条件、节省了实验的成本和时间,而且进一步促进了计算机预测毒性的发展。然而,目前仍然缺乏对基于人工智能预测化合物毒性的算法及相关网络服务器的系统归纳总结。因此,本文对基于人工智能的化合物毒性预测方法进行了分类及总结,对近三年来搭建的毒性预测网络服务器进行了特点介绍、毒性预测端点统计、性能比较及实例应用展示,同时提出了基于人工智能和互联网时代的化合物毒性预测所面临的机遇和挑战。希望帮助人们了解基于人工智能和互联网时代的化合物毒性预测最新进展、仍存在的不足之处以及未来发展方向,为已具备毒理学知识的专业人员以及计算机与化学生物学等交叉学科的研究人员发展新的人工智能毒性预测模型和网络服务器提供思路和参考信息,同时指导专业的和非专业毒理学研究人员合理选择在线服务器进行化合物毒性评价。1用于建立毒性预测模型的人工智能算法截止 2020 年,世界上的数据量预估将达到35 万亿 GB31。由于探索和分析大数据的需求,以及计算机 CPU 和 GPU 等硬件的完善,促进了机器学习、尤其是深度学习算法的发展。可以说人工智能正在改变着我们的日常生活,并被评选为 2018 年 麻省理工科技评论 全球十大突破性技术之一。近年来,关于人工智能在计算化学和313http:/wwwhxtborg化学通报2023 年 第 86 卷 第 3 期生命科学中的应用已发表了一些综述文章3135,针对于化合物毒性预测方面的应用也在不断更新发展21。在此,我们将重点关注人工智能在毒性预测中的应用,举例介绍在化合物毒性预测中常见的传统的机器学习和深度学习方法,并对其优缺点进行比较。1.1传统的机器学习算法支持向量机(SVM)是由 Vapnik 等36 于 1995年提出的,能处理小样本数据集的中高维问题,其基本模型即在特征空间上建构最佳的分割超平面,使得训练集上正类和负类样本能够最大的区分。SVM 是一种有效解决二分类问题的有监督学习算法,而不适用于多分类问题。对于线性问题,SVM 模型通过空间上的点映射来分离不同类别的点,使不同类别的点边界最大化。在引入核方法后,SVM 也可以用来解决非线性问题,使用核函数将非线性可分问题从原始的特征空间映射至更高维的特征空间,从而转化为线性可分问题37。例如,Cao 等38 开发了一种基于核融合的 SVM 方法对 DSSTox 数据库中化合物的潜在毒性进行分类,独立验证的预测结果准确率最高可达 90.70%。决策树(DTs)是一种可解释的机器学习方法,逻辑上以树的形式存在从而进行决策的多分类模型,包含一个根节点、若干个内部结点和若干个叶节点36。一般来说,DTs 的构建有两个基本步骤:选择属性和剪枝。选择分子属性作为对分子的“测试”,所选属性被视为非叶节点,每个分支代表一个“测试”结果的输出,每个叶节点代表一种分类结果。属性的选择决定了模型的预测准确度,使得每一个分支节点包含的数据尽可能属于划分结果的同一类别。但是,当分割过细时可能造成过度拟合,并且由于新数据和所训练的数据不同,在面对新的数