分享
基于HPD算法的中药药对挖掘方法_薛琪.pdf
下载文档

ID:2248569

大小:2.42MB

页数:7页

格式:PDF

时间:2023-05-04

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 HPD 算法 中药 挖掘 方法 薛琪
2022 第二十四卷 第十一期 Vol.24 No.11 Modernization of Traditional Chinese Medicine and Materia Medica-World Science and Technology 基于HPD算法的中药药对挖掘方法薛琪1,高博2,温晶1,朱彦2,孟祥福1(1.辽宁工程技术大学电子与信息工程学院 葫芦岛 125105;2.中国中医科学院中医药信息研究所 北京 100700)摘要:人工智能方法辅助中药药对发现对于中医发展具有重要的现实意义,但当前的药对挖掘方法大多基于现有的单一的机器学习模型,使得药对发现的质量不高。本文旨在找出中医药候选药对,通过分析已知药对中饮片之间的特性和耦合关系,提出了一种改进的机器学习算法(Herb-Pairs Discovering,HPD)。该方法采用药对属性相关度评分方法,找出其中不低于给定阈值的饮片对。在基于朴素贝叶斯对饮片作用分类方法基础上利用决策树算法对饮片组合进行分析进而找出预测药对。在实际中医药测试数据上进行实验,结果分析表明,HPD算法得到的药对召回率达到82.7%,准确率达到80.6%,说明HPD算法可以有效地发现中医药饮片集合中潜在的药对。关键词:药对挖掘 深度学习 机器学习 作用分类doi:10.11842/wst.20210918002 中图分类号:R-058 文献标识码:A人工智能方法与中医药数据分析相结合,有效提升了中医药数据分析的质量,特别是对于药对发现、经典名方分析具有重要作用。本文以中医药中的药对发现为研究背景,提出一套针对药对发现的有效数据挖掘方法。药对(Couplet medicines),也称对药、对子1,两味药成对相配,多有协同增效或减毒作用。药对是方剂配伍的最小单元,在辨证的基础上确立相应治法,根据治法选用特定性能和功效的药物进行组合配对,并经过临床应用被证明行之有效。药对的使用是中医药学家长期医疗实践的经验总结和精华所在,体现了中药应用的基本原则2。通过对药对进行研究,可以找出方剂配伍之间的隐含规律,为中医药的信息化提供技术支持。在人工智能与中医药数据相结合的领域3,目前专门针对药对发现的研究还不够深入和系统,药对更多是在临床实践过程中形成的相对固定的饮片搭配,与药对相关的数据也多散落在大量的中药、方剂论述与中医临床处方中,使得数据挖掘技术在药对发现中面临较大挑战4-5。本文提出了一种改进的机器学习算法HPD,该方法在饮片之间的共现基础上,充分考虑饮片的性、味、归经等属性,通过先预测再分类的方法有效提高查找药对的准确率并发现潜在药对。本文HPD算法分为 3个步骤,主要贡献如下:综合考虑候选药对中饮片的性、味、归经、功效等属性信息,统计各类信息出现的频次,在此基础上将每个饮片信息转换成对应的向量表示。依据饮片的性、味、归经、功效等属性信息,提出基于朴素贝叶斯算法的药对作用分类方法,获得了较好的分类效果。按照药对作用分类对药对分别进行预测,并且在预测药对之前,更换对应作用分类的训练集,以增加训练集多元性以及效果准确性。1 相关工作 近年来,人工智能和机器学习在医学领域引起了 收稿日期:2021-09-18 修回日期:2022-05-08 国家自然科学基金委员会面上项目(82174534):广义中医经典名方智能辅助遴选系统关键技术研究,负责人:朱彦;国家科学技术部国家重点研发项目(2019YFC1710400,2019YFC1710401):以疗效为核心构建病证结合数据框架与个体化评价指标,负责人:戴国华。通讯作者:朱彦,副研究员,主要研究方向:中医药知识组织与发现、方剂药品信息标准化与分析挖掘;孟祥福,教授,主要研究方向:空间数据管理、推荐系统和大数据可视化。4160 Modernization of Traditional Chinese Medicine and Materia Medica-World Science and Technology 世界科学技术-中医药现代化思路与方法一:中药数据研究极大关注6。医疗数据的快速增长促使研究者们将大数据方法引入医疗领域中。数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识的过程,也称为数据库中的知识发现,融合了数据库、人工智能、机器学习、统计学、知识工程、面向对象方法、信息检索、高性能计算以及数据可视化等最新技术的研究成果,是一个多学科交叉研究领域。相关技术方法包括:遗传算法、粗集方法、决策树、人工神经网络、模糊逻辑、规则归纳、聚类分析、模式识别、频繁集方法、最近邻技术、可视化技术等。关联规则是在药对挖掘中应用较多的数据挖掘方法。借助于商业挖掘软件如SAS Enterprise Miner、IBM SPSS Modeler、Insightful Miner等关联规则分析模块,通过不同途径获取大量样本方剂数据集,通过对药物与药物之间关联关系的挖掘,获得了不同适应症的广义药对。但有时经典的关联规则算法(如Apriori算法和FP-Growth算法等)并不能很好地满足中医药研究的需要,因此一些研究者自行开发或改进挖掘算法。如黄黎明等7、曾令明等8、引入了关注频繁项概念,提出了基于位图矩阵和双支持度的Apriori算法,进行药对挖掘的实践。唐仕欢等9提出了基于属性互信息熵的关联规则挖掘算法,从大量关联关系中挖掘出具有正向关联关系的药对。袁楠等10采用聚类方法自动划分药物剂量的模糊区间,提出药对量效关联规则的挖掘算法。Ung 等11综合运用概率神经网络(probabilisticneural network method,PNN),k 近 邻(k nearest neighbor,kNN)、支 持 向 量 机(support vector machine,SVM)等方法,对394个药对与2470个非药对中药的性味属性予以属性分类与模式识别,发现利用人工智能与模式识别方法,可从大量非药对中对约定俗成的药对予以识别确认。尚尔鑫等12分别采用标准关联规则发现Apriori算法以及改进多数据库计算方法,对从历代药对文献中收集整理得到的625个药对等共49个属性形成的数据库进行挖掘研究,并对两种方法得到的结果进行比较。刘子闻等13在18503个血瘀证医案药方中,运用关联规则方法通过频繁项集算法找出具有特殊配对关系的既包含已知的,又包含未知的药对。以上提到的论文对药对的发现有良好的效果,但很少挖掘和分析饮片属性以及候选药对中饮片属性之间的关系,然而这些关系对于药对发现至关重要。受文献14的启发,本文设计了一种新的药对挖掘HPD算法,该算法能利用药对中饮片间属性信息和作用分类对药对进行分类及挖掘。2 问题定义和解决方案 2.1问题定义经过多年的中医药实践,医者认识到用几味药配合起来治病的效果更好。现代药对是指两味药配伍组方15,是历代医家长期临证的经验总结,遵循中药配伍相须、相使、相畏、相杀、相恶、相反原理16,在临床组方时常常两味药物配伍使用,有良好的协调作用,或对过于猛烈的药物有较好制约作用。如药对半夏和陈皮,陈皮有理气健脾、燥湿化痰的功效,半夏能燥湿化痰、降逆止呕、消痞散结,二者配合使用,以理气促进行水,气顺则水行,湿去则痰消。在经典名方“二陈汤”中,即由半夏、陈皮为主药,达到燥湿化痰、理气和胃的功效,临床用于治疗痰湿停滞,咳嗽痰多、胸脘胀闷、恶心呕吐等。半夏与生姜配伍使用,则通过生姜的温中止呕、化痰止咳功效,加强半夏的燥湿化痰、降逆止呕作用,并通过温热药性促进痰湿运化消除,兼制约半夏的毒性。如化痰散饮、和胃降逆的经典名方“小半夏汤”。找到隐藏药对有利于提高疗效降低副作用,使用更少的饮片发挥更大的作用,并对医者处方用药有启发性的作用3。近年来,很多学者把关联规则及其改进算法应用到药对发掘工作,也有部分算法运用到饮片中的性、味、归经等属性进一步提高药对发掘的准确性。除此之外,我们还应该挖掘药对中两味饮片性、味、归经等属性之间的相关性,而非仅考虑单个饮片的属性信息。并且,通过对候选药对的作用进行分类,随分类更换训练集也可以在发掘药对方面取得更好的效果。给定一个中医药饮片数据集合,包含n个不同的饮片,D=e1,.,en,任意一对饮片的组合都是候选药对(潜在药对)。本文目的是,设计一种快速有效的药对挖掘方法,找出top-k个具有最高可能性的药对。2.2解决方法本文提出的模型主要分为以下3个阶段:(1)选择相关度程度高的候选药对。对每个饮片进行两两组合、去重,算出这一对候选药对中两个饮片之间的性、味、归经、功效向量。把四个值相加挑选出数值大于1.5的候选药对。4161 Modernization of Traditional Chinese Medicine and Materia Medica-World Science and Technology 2022 第二十四卷 第十一期 Vol.24 No.11(2)利用朴素贝叶斯的方法,根据步骤一提到的每组候选药对中两个饮片之间的属性向量,通过训练已有药对的属性向量及作用来对候选药对的作用进行分类。(3)在按照药对作用分类进行预测时,根据数据库中的数据放到训练集,再用数据库的药对进行判断。此种方法的训练集是根据判断出的药对类型而定。3 数据来源与实现方法 3.1数据来源目前与药对相关的数据挖掘研究还存在着一些问题。其中包括,研究需要的基础数据多来自于古今医著或期刊文献,资料收集不全面会直接影响分析结论的可靠性4。本文所用数据来源于中国中医科学院中医药信息研究所开发的“古今方药系统”5。该数据对古今中医方剂文献进行全面系统收集整理的基础上,共收录方剂33938首,包含918种已知药对和其作用分类、配伍机制、用法用量、临床应用等内容和9207个饮片性、味、归经、功效、疾病部门等方面内容,相关数据都参考来源包括 药典、各级标准、教材等权威资料。3.2HPD方法HPD算法发掘药对总共分为3步,具体算法流程如图1所示:3.3药对属性相关度评分方法3.3.1饮片药性、药味和归经相关度计算饮片的药性为寒、热、温、凉中的一种,则把这个值设为1,其余设为0。如果这个饮片的性为平,则四种性每一个分别为0.25。“小寒”这类有程度副词的性,本文参照文献14设为0.8。对于两个饮片之间性的关联,我们用如下公式表示:Ai,jk=14m(Xki,Xkj)k=14m(Xki,Xkj)举个例子,如果想计算饮片x和饮片y性的值,则药性的表格如表1所示:同理可以计算饮片药味Bi,j和归经Ci,j的数值。3.3.2功效相关度的计算对于候选药对中饮片功效相关度的计算,我们通过计算两个饮片相同的功效数量和各自的功效数量,并运用如下公式进行计算,示例如表2:Di,j=2FTi,jFTi+FTj3.3.3AS的计算候选药对属性相关度评分系统(AS)的值有如下公式:ASi,j=Ai,j+Bi,j+Ci,j+Di,j我们挑选出 AS 大于 1.5 的候选药对进入步骤二中。图1HPD算法流程图表1饮片x和饮片y性的值饮片药性饮片x饮片y寒10.25热00.25温00.25凉00.25注:假设饮片x的性为“寒”、饮片y的性为“平”。则性的数值如表1所示。所以Ax,y=0.25/(1+0.25+0.25+0.25)0.1429表2饮片x和饮片y功效相关度饮片xy功效1224556注:假设饮片x的有四个功效、饮片y有三个功效。功效2和功效5为它们共同的功效。则功效的相关程度Dx,y=(2*2)/(4+3)0.57144162 Modernization of Traditional Chinese Medicine and Materia Medica-World Science and Technology 世界科学技术-中医药现代化思路与方法一:中药数据研究3.4朴素贝叶斯预测分类朴素贝叶斯作为一种简单实用的分类方法,将预测未知样本Z属于具有最高后验概率(条件Z)的类。即将未知的样本分配给类Ci,当且仅当P(Ci|Z)P(Ci|Z),其中1jm且ji.这样,我

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开