分享
基于知识表示向量的可解释深度学习模型及其疾病预测应用.pdf
下载文档

ID:3120909

大小:1.49MB

页数:15页

格式:PDF

时间:2024-01-21

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 知识 表示 向量 可解释 深度 学习 模型 及其 疾病 预测 应用
ISSN 10049037,CODEN SCYCE4Journal of Data Acquisition and Processing Vol.38,No.4,Jul.2023,pp.777-791DOI:10.16337/j.10049037.2023.04.003 2023 by Journal of Data Acquisition and Processinghttp:/Email:sjcj Tel/Fax:+8602584892742基于知识表示向量的可解释深度学习模型及其疾病预测应用徐鹤1,2,郑群力1,2,谢作玲3,程海涛1,2,李鹏1,2,季一木1,2(1.南京邮电大学计算机学院/软件学院/网络空间安全学院,南京 210023;2.江苏省高性能计算与智能处理工程研究中心,南京 210023;3.东南大学附属中大医院内分泌科,南京 210009)摘要:近年来,深度学习方法广泛应用于各种疾病预测任务,甚至在其中一些方面超过了人类专家。然而,算法的黑盒性质限制了其临床应用。对此,本文结合知识表示学习和深度学习方法构建了一种融入知识表示向量的可解释深度学习模型。该模型首先依据体检指标正常范围构建体检指标与检测值之间的关系图,并通过基于知识表示学习的深度学习模型对人体体检指标与检测值关系图进行编码,然后将患者体检数据表示为向量,输入到构建的自注意力机制和卷积神经网络构建的分类器中来实现疾病预测。将模型应用于糖尿病预测实验中,其准确率和召回率均优于对比的机器学习方法。与表现较优的随机森林算法相比,模型的准确率和召回率分别提升了 0.81%和 5.21%。实验结果表明,通过可解释性方法将知识表示学习和深度学习技术融合应用于糖尿病预测,可以达到对糖尿病的早期发现与辅助诊断的目的。关键词:疾病预测;知识表示学习;深度学习;自注意力机制;卷积神经网络;可解释性中图分类号:TP391 文献标志码:AInterpretable Deep Learning Model Based on Knowledge Representation Vectors and Its Application in Disease PredictionXU He1,2,ZHENG Qunli1,2,XIE Zuoling3,CHENG Haitao1,2,LI Peng1,2,JI Yimu1,2(1.School of Computer Science/School of Software/School of Cyberspace Security,Nanjing University of Posts and Telecommunications,Nanjing 210023,China;2.Jiangsu HPC and Intelligent Processing Engineer Research Center,Nanjing 210023,China;3.Department of Endocrinology,Zhongda Hospital Southeast University,Nanjing 210009,China)Abstract:In recent years,deep learning methods have been widely applied to various disease prediction tasks,even surpassing human experts in some aspects.However,the black box nature of the algorithm limits its clinical application.In this paper,the knowledge representation and reasoning learning and deep learning methods are combined to build an interpretable deep learning model incorporating knowledge representation and reasoning vectors.The model first builds a relationship graph between physical examination indicators and test values according to the normal range of physical examination indicators,and the relationship graph between physical examination indicators and test values is coded through the deep learning model based on knowledge representation and reasoning learning.Then,the patients 基金项目:江苏省科技支撑计划项目(BE2019740);江苏省六大人才高峰高层次人才项目(RJFW-111)。收稿日期:20220419;修订日期:20230706数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.4,2023physical examination data are expressed as vectors,which are input into the self-attention mechanism and the classifier constructed by convolutional neural network to realize the disease prediction.When the model is applied to the prediction experiment of diabetes,the accuracy and recall of the model are better than those of the comparative machine learning methods.Compared with the random forest algorithm,the accuracy and recall are also improved by 0.81%and 5.21%,respectively.Experimental results show that the application of knowledge representation and reasoning learning and deep learning technological convergence to diabetes prediction through interpretable methods can achieve the purpose of early detection and auxiliary diagnosis of diabetes.Key words:disease prediction;knowledge representation learning;deep learning;self-attention mechanism;convolutional neural network;interpretability引 言深度学习是机器学习的一个重要分支领域1。近年来,随着海量数据的可用性和计算机算力的提高,基于深度学习的智能系统在很多领域已经达到甚至超过了人类专家的水平,例如在语音识别2、图像分类3、自然语言处理4等领域。随着模型复杂度的增加,深度学习算法缺乏可解释性,产生的结果变得难以预测和不可解释。此外,在一些领域应用中,将深度学习算法训练出的模型看作是黑盒,阻碍了深度学习在该领域的应用56,例如金融、医疗和自动驾驶等领域。深度学习在医疗领域当前主要用于医学影像的处理7和电子健康记录(Electronic health record,EHR)处理89,并在视网膜疾病检测10、糖尿病预测11及阿尔茨海默病分类12等医学任务上取得了显著成果。尽管如此,基于深度学习的方法却尚未在临床上取得广泛应用。这是由于深度学习算法潜在的黑盒性质造成的。深度学习算法提供的视觉和文本解释似乎合理,但是算法的决策细节并未清晰的暴露出来,具有不透明性13。虽然研究人员了解这些系统的体系结构以及生成用于分类的模型的过程,但模型本身对患者或医生来说难以理解。此外,缺乏可解释性的自动医疗诊断模型会给患者诊断出错误的治疗方案,甚至严重威胁患者的生命安全14,而且将医疗决策权交给黑箱系统也有违临床医生的道德责任15。由于临床医学的复杂性以及深度学习算法的黑盒性,使得任何深度模型都不可能实现完美的决策。对此,临床医生将解释性视为在模型预测的背景下证明其临床决策合理性的一种手段,并指出相关模型需反映出与医学决策制定方法类似的分析过程16。例如,在实际临床诊断过程中,医生通常会以患者的体检数据作为参考,根据体检指标的正常值范围来做出相应的判断。此外,大多数深度学习模型使用数据驱动的方法,但大部分数据具有不确定性,这种不确定性可能来自嘈杂、缺失的数据或数据中存在的固有不确定性。因此,为了增强深度学习模型的可解释性,可采用知识驱动的方法,向模型中嵌入外部人类知识6。例如,将人类的领域知识表示成领域的知识图谱17形式,并采用知识表示学习方法18对领域知识进行编码,与深度学习等技术相融合以构建具有可解释性的深度学习模型。综上所述,为了增强深度学习在医疗领域的可解释性,模型需反映出与医学诊断类似的分析过程,或者嵌入外部人类知识。因此,本文将医学中体检指标的正常范围作为外部知识,模拟医生依据体检数据的诊断过程,提出了一种融入知识表示向量的可解释深度学习模型,并将其应用于糖尿病预测中,其主要贡献总结如下:778徐鹤 等:基于知识表示向量的可解释深度学习模型及其疾病预测应用(1)依据常规体检指标正常值范围,并采用知识表示学习方法,构建了糖体检指标和检测值表示向量。该表示向量能准确地描述体检指标和检测值之间存在的偏高、偏低等关系,可提高一些疾病预测模型的可解释性。(2)提出了一种融入知识表示向量的可解释深度学习模型,该模型使用构建好的体检指标和检测值表示向量,得到体检数据的关系矩阵,然后通过自注意力机制关联每个体检指标,并使用卷积神经网络进行特征提取,从而应用于糖尿病的预测。(3)将本文构建的融入知识表示向量的可解释深度学习模型与经典的支持向量机、随机森林等机器学习模型进行对比实验。结果表明,本文模型在准确率和召回率两方面均优于对比的机器学习模型,说明本文提出的可解释深度学习模型具有较好的疾病预测效果。1 相关工作 1.1医疗领域可解释性研究进展在医学领域,可解释问题包含其他领域不考虑的因素,例如风险和责任19。医疗决策往往伴随着生命风险,将如此重要的决策交给无法提供责任且缺乏解释性的机器,无异于推卸责任,且可能导致灾难性后果13。因此,大量研究人员开始进行面向医学领域的可解释性深度学习模型的研究1516,20。早期可解释模型通过讨论输入变量对输出的作用及意义来增强可解释性。例如,Haufe等21讨论了用于估计大脑状态的不同线性模型,包括它是如何被误解的;比较了前向模型和后向模型,并提出了对线性模型的改进建议。Caruana 等22通过逻辑回归模型发现了哮喘与肺炎死亡风险降低之间的关系,在回归模型中,哮喘作为风险预测因子的权重为负。Varol 等23使用生成判别机(Generative discriminator model,GDM)结合普通最小二乘回归和岭回归处理阿尔茨海默病和精神分裂症数据集中的混杂变量。其中,GDM 参数被认为是可解释的,因为它们是临床变量的线性组合。虽然这类简单模型更易于解释,但是通常会牺牲模型的性能。文献 24 中指出,与可解释性模型相比,复杂模型(如深度神经网络)通常可获得更高的性能,因此多数情况下,更倾向于使用这些复杂模型。为了权衡模型的性能和可解释性,研究人员开始致力于解释复杂的深度黑盒模型,其中大部分人首先从医学图像的可解释性入手,进行了一系列的研究2528。比如 Van等26尝试通过可视化学习到的特征图来解开皮肤病领域卷积神经网络的黑盒。他们发现,在某种程度上,卷积神经网络关注的特征与皮肤科医生用于诊断的特征相似。但该方法存在的问题是无法解释模型检测到的特征与其输出之间的因果关系,不具有通用性。此外,注意力机制也常作为可解释的医学图像分析的深度学习工具。如文献 27 提出了一种新的测试概念激活向量(Testing concept activation vectors,TCAV)方法,用人类可理解的概念向领域专家解释不同层次学习的特征。TCAV 使用显著图方法解释了糖尿病视网膜病变水平并实现检测视网膜中存在的微动脉瘤和动脉瘤。然而,仅仅针对医学图像的研究缺乏医学专业知识的支撑,对此,Zhang等29提出了一个融合语义和视觉可解释的医学图像诊断网络 MDNet,为可解释深度学习技术在医疗图像诊断中应用提供了一个新的视角:生成诊断报告和与报告对应的网络关注,借助于注意力机制使得网络诊断和决策过程具有语义和视觉上的可解释性。此外,为了嵌入外部知识,知识图谱在医疗领域中的应用也越来越多30。例如,刘勘等31结合知识图谱、表示学习和深度神经网络等方法构建了一种可解释的并发症辅助诊断模型。从上述研究中可以看出,医疗领域的可解释研究大多针对于医学图像数据,而且缺乏专业知识的支撑。对此,本文将结合知识表示学习和深度学习技术构建一种融入知识表示向量的可解释深度学习779数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.4,2023模型,针对医疗领域的体检数据,进行高精度且可解释的疾病辅助诊断。1.2知识表示学习模型通常,传统的知识图谱是以三元组(h,r,t)表示,其中 h表示头实体,t表示尾实体,r表示关系。知识表示学习将研究对象(实体和关系)表示稠密低维实值向量32。研究者提出了多种知识表示模型,本文将介绍目前性能比较稳定的 TransE33、TransH34和 TransR35模型,模型架构如图 1所示。TransE模型33用关系 r的向量lr作为头实体向量lh和尾实体向量lt之间的平移,它们之间满足lh+lr lt(1)其损失函数可表示为fr(h,t)=|lh+lr-lt|L1/L2(2)即向量lh+lr和lt的L1或L2距离。TransE 模型参数较少,计算复杂度较低,可扩展性强,但因为模型简单,在处理复杂关系时性能显著降低。例如,在一对多的关系中,假设知识库中有两个三元组,分别是(糖尿病,并发症,糖尿病肾病)和(糖尿病,并发症,糖尿病足),如果使用 TransE模型,会使得糖尿病肾病和糖尿病足的向量变得相同,这显然不符合事实。针对 TransE 处理复杂关系的不足,Wang 等34和 Lin 等35分别提出了改进的TransH 和 TransR模型。TransH 模型34首先将头实体向量lh和尾实体向量lt沿法线投影到关系 r对应的超平面上,可分別用lhr和ltr表示为lhr=lh-wTrlhwr(3)ltr=lt-wTrltwr(4)其损失函数可表示为fr(h,t)=lhr+lr-ltrL1/L2(5)TransR 模型35通过定义投影矩阵Mr Rd k,实现将实体向量投影到其关系 r的子空间,可分別用图 13种知识表示模型Fig.1Three knowledge representation models780徐鹤 等:基于知识表示向量的可解释深度学习模型及其疾病预测应用lhr和ltr表示为lhr=lhMr(6)ltr=ltMr(7)然后使lhr+lr ltr,其损失函数为fr(h,t)=lhr+lr-ltrL1/L2(8)式(5)和式(8)中的 L1、L2表示向量lh+lr和lt的 L1或 L2距离。2 模型架构 本文提出的融入知识表示向量的可解释深度学习模型,旨在模拟医生依据患者体检数据进行疾病诊断的过程,其核心思想主要是利用知识表示学习模型和外部体检知识构建体检指标实体和检测值实体的表示向量,然后得到患者体检数据的矩阵表示,并输入到深度学习模型中,从而实现对疾病的预测。融入知识表示向量的可解释深度学习模型架构如图 2所示,主要分为 3个部分:(1)依据体检指标检测值的正常范围,构建体检指标与检测值的关系图,然后利用知识表示学习模型,获取体检指标和检测值的表示向量。(2)获取患者的体检数据,根据(1)中体检指标和检测值的表示向量,得到所有体检指标与对应检测值之间的关系向量,并拼接成关系矩阵。(3)将其关系矩阵输入到自注意力机制(Selfattention)和卷积神经网络(Convolutional neural networks,CNN)构建的分类器中,得出糖尿病的预测结果。本文将提出的模型简称为 THSAC,即 TransHSelfAttentionCNN。2.1体检指标与检测值的表示向量在疾病实际临床诊断中,医生常会结合患者体检数据和已有的体检知识来做出判断。例如,在糖尿病的临床诊断中,空腹血糖值的正常范围为 3.96.1 mmol/L36,当患者空腹血糖值大于 7.0 mmol/L时,则考虑可能患有糖尿病。本文考虑在模型中嵌入医学领域的专业知识,首先将体检指标与检测值之间的关系划分为以下 7类:严重偏低、一般偏低、轻微偏低、正常、轻微偏高、一般偏高和严重偏高,并将这些体检知识转化成三元组的形式,例如(空腹血糖,轻微偏高,7.1 mmol/L),(空腹血糖,正常,6.0 mmol/L)等。由于体检指标与对应的检测值之间存在一对多和多对一的复杂关系,本文选择的 TransH 模型符合这种关系表示。因此,将体检知识转换成三元组的形式,使用 TransH 知识表示模型表示。该模型采用lh+lh lt为基本思想,并使用平移向量lr和超平面的法向量wr来表示关系 r。根据式(3,4)计算得到实体向量lh和lt在关系 r所在的超平面上的投影向量lhr和ltr,再根据式(5)得到体检指标和检测值实体低维稠密表示向量eH。2.2体检指标与检测值的关系向量得到体检知识实体的向量表示后,为了能够在模型中体现出体检指标与其对应检测值之间存在的关系,本文基于知识表示学习模型的基本思想lh+lr lt,用每个体检指标实体向量与其对应的检测值实体向量之差来表示它们之间的关系,即er=ev-ec(9)781数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.4,2023式中:ev为检测值实体向量;ec为体检指标实体向量。例如体检指标空腹血糖实体向量e空腹血糖和检测值“7.1 mmol/L”实体向量e7.1 mmol/L之间的关系表示为e7.1 mmol/L-e空腹血糖。将所有体检指标与其对应检测值之间的关系向量拼接起来,可构成患者体检指标与检测值之间的关系矩阵,可表示为Em k=e1r,e2r,e3r,emr(10)图 2融入知识表示向量的可解释深度学习模型架构图Fig.2Architecture diagram of interpretable deep learning model incorporating knowledge representation vectors782徐鹤 等:基于知识表示向量的可解释深度学习模型及其疾病预测应用式中:k为实体向量的维度;m为体检指标的个数。2.3SAC分类器SAC分类器为图 1中 THSAC模型的下侧部分,主要由以下几层组成:(1)输入层:将所有体检指标与对应检测值之间的关系向量拼接起来得到的关系矩阵Em k即为该分类器的输入。(2)自注意力层:由于每个体检指标之间相互关联,所以将关系矩阵Em k进一步输入自注意力层中,使得每个体检指标获取全局信息,这符合当前的医学诊断经验。本文自注意力层采用的层数为 2缩放点积注意力机制。在注意力层中,每个关系向量eir被线性映射到 3个不同的空间,得到查询向量qi、键向量ki和值向量vi。对于每个查询向量qi,根据式(11)计算输出向量eattn。eiattn=j=1maijvi(11)式中:aij表示第 i个输出关注到第 j个输入的权重,可表示为aij=softmax(s(kj,qi)(12)s(kj,qi)=kTjqiDk(13)式中:softmax()为按列进行归一化的函数;Dk为qi的维度。为了同时计算关系矩阵Em k中每个关系向量对应的输出向量,可将查询向量qi、键向量ki和值向量vi分别合并成查询矩阵 Q,键矩阵 K,值矩阵 V,然后根据式(14)得到自注意力层输出矩阵。Eattn=Vsoftmax()KTQDk(14)(3)卷积层:通过自注意力层获取了全局信息后,为了更深层次挖掘关系矩阵中的信息,将自注意力层的输出矩阵Eattn输入到卷积神经网络。假设Wf Rh d,h为滤波器窗口大小,d表示输入向量的维度。对于输入的从 i行到 i+k-1行的局部特征ei:(i+h-1)attn,卷积滤波器所提取的特征子矩阵的第 i个特征值可表示为ci=f(wfei:i+h-1attn+b)(15)式中:f()为非线性激活函数Relu();b为偏置值。因此,注意力层得到的输出矩阵Eattn的局部特征矩阵为C=c1,c2,c3,cm-h+1(16)接着对特征映射进行最大池化操作,即c=maxC(17)最终,得到体检数据最终的表示向量的表达式为Ztj=c1,c2,c3,cn(18)(4)全连接层和 Softmax层:将上述得到的体检数据的表示向量经全连接层的变换后得到患者是否患有糖尿病的得分向量 s,全连接层的隐藏单元个数为 2,即患有糖尿病和未患糖尿病,最后将得分向量s输入到 Softmax层,使其转化成一个条件概率分布,即pi(s)=exp(si)j=12exp(sj)i=1,2(19)783数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.4,2023整个模型采用交叉熵损失函数来衡量糖尿病预测概率分布与真实概率分布之间的差距,并通过反向传播算法来训练和更新模型的参数。损失函数可表示为loss=-1Niyilg pi+(1-yi)lg(1-pi)(20)式中:N表示样本数目;yi表示样本 i的真实标签,患有疾病为 1,未患有疾病为 0。3 实验与分析 3.1实验数据实验中使用到的数据主要有:(1)用于构建体检指标和检测值实体表示向量的外部体检知识,来源于某三甲医院提供的糖尿病体检指标检测值的参考范围,如表 1 所示,给出了部分体检指标的检测值参考范围。依据这些体检知识,本文共构建了 5 518个相关实体,7种关系实体(严重偏低、一般偏低、轻微偏低、正常、轻微偏高、一般偏高和严重偏高)以及 9 410个三元组关系。实体类型及其数量如表 2所示,关系类型及其数量如表 3所示,其中,由于无法预知实际中每个体检指标的临界值,故将大于(小于)实验中设定的最大值(最小值)的检测值实体统一当作是异常偏高实体(异常偏低实体)。此外,所有的缺失值项均用未知实体来代替。表 1部分体检指标检测值参考范围Table 1Reference range of detection value of some physical examination indexes体检指标血清谷丙转氨酶/(IUL)血清谷草转氨酶/(IUL)白蛋白/(gL-1)总胆红素/(molL-1)血尿素氮/(mmolL-1)总胆固醇/(mmolL-1)甘油三酯/(mmolL-1)低密度脂蛋白/(mmolL-1)高密度脂蛋白/(mmolL-1)参考范围950154040.055.02.020.03.69.52.866.100.451.810.003.371.161.42表 2实体类型及其数量Table 2Entity type and its quantity实体类型体检指标检测值异常偏高异常偏低未知举例甘油三酯1.62 mmol/L实体数量165 499111表 3关系类型及其数量Table 3Relationship type and its quantity关系类型严重偏低一般偏低轻微偏低正常轻微偏高一般偏高严重偏高实体数量3373434571 5582 6632 0052 017784徐鹤 等:基于知识表示向量的可解释深度学习模型及其疾病预测应用(2)采用一家大型公司提供的糖尿病患者的体检数据,其中包含血清谷丙转氨酶、血清谷草转氨酶、和白蛋白等 11 个常规体检指标,总共有 48 887条数据,其中训练集用 80%的数据,测试集用20%的数据,具体如表 4所示。3.2实验设置实验中主要使用的是 Pytorch 深度学习框架和 OpenKE 知识表示学习框架,本文模型的具体参数设置如表 5所示。3.3评价指标采用使用准确率(Accuracy)和召回率(Recall)作为结果的评价指标。此外,选取 Mean rank(MR)和 Hit10作为知识表示模型的评价指标。(1)Mean rank在评估知识表示学习模型性能时,会对每个评测的三元组(h,r,t),移去头部实体,依次替换成知识库中的其他实体,构建错误的三元组实体(h,r,t)。利用关系函数fr(h,t)计算头部实体和尾部实体的相似度,得到所有的三元组(包括正确的三元组和错误的三元组)头部实体和尾部实体的相似度后,按照升序排序。所有正确三元组排序位置的平均值即为 Mean rank。对于一个好的知识图谱表示来说,正确三元组的得分(即头部实体和尾部实体的关系函数值)会小于错误三元组的得分,排名会比较靠前。因此,Mean rank值越小,知识图谱表示向量越好,具体如下MR=1NTi=1NTranki(21)式中:NT表示正确三元组的个数;ranki表示正确三元组的排名。(2)Hit10上述排序中排名前 10 中所包含正确三元组的个数占正确三元组总数的比例即为 Hit10 值。所以,Hit10值越大,知识图谱表示向量越好,具体如下Hit10=Nrank 10TNT 100%(22)式中Nrank 10T表示正确三元组中在排名前十的个数。(3)准确率在预测任务中,给定样例集D=(x1,y1),(x2,y2),(xm,ym),其中yi是示例xi的真实标记。一般通过对比模型预测结果f(x)与真实标记y的差异,来评估模型f的性能。准确率(acc)是分类任务最常用的性能度量,即分类正确的样本数占样本总数的比例,可定义为acc=1m()f()xi=yi(23)表 4体检数据集分布Table 4Distribution of physical examination data set患病标签糖尿病非糖尿病总数训练集3 81535 92439 109测试集9548 8249 778表 5模型参数设置Table 5Model parameter setting参数优化器Batch_sizeEpochDropout学习率体检数据实体向量维度卷积滤波器窗口大小每种窗口大小卷积滤波器个数自注意力层层数数值Adam321000.50.000 22562,3,41002785数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.4,2023(4)召回率对于二分类问题,可将样例根据真实类别与模型预测类别划分为真正例(TP)、假正例(FP)、真反例(TN)、假反例(FN)四种情形。召回率 R可定义为R=TPTP+FN(24)3.4实验设计与结果分析(1)知识表示模型对比分析首先,分析不同知识表示模型的性能,结果如表 6、7所示。如表 6所示,综合 MR 指标和 Hit10指标来看,TransH 模型进行知识表示的效果最好。这说明 TransH 能更好地处理体检与检测值之间存在的“一对多”和“多对一”的复杂关系,弥补了 TransE 的不足。TransR 模型虽然考虑到了这些复杂关系,但是体检指标与检测值之间只存在偏高、偏低等类似的关系,不同关系关注的是实体的相似属性,所以TransR模型进行知识表示的效果并不好。此外,从表 7中可以看出,TransH 模型的表现均优于 TransE 模型和 TransR 模型,在准确率上分别提高了 0.07%、0.15%,召回率上分别提高了 0.16%、0.43%。这也进一步说明,针对本文中依据体检知识构建的三元组,TransH 模型的表示方式更加合理,也使得预测模型的性能更优。(2)本文模型与其他模型对比分析为了验证本文提出的 THSAC 模型在糖尿病预测任务上的优势,选取了一些相关糖尿病预测模型进行对比实验。THSAC 模型是通过知识表示学习将体检数据表示成向量,采用深度学习的方法进行预测。首先选取在糖尿病预测任务上效果良好的机器学习方法以及深度神经网络(Deep neural network,DNN)进行比较,结果如表 8所示。从表 8可以看出本文提出的 THSAC 模型相较于机器学习中效果最好的随机森林方法,其准确率和召回率分别提升了 0.81%和 5.21%。这是因为在基于本文构建的融合知识表示的可解释深度学习方法中,模型架构更加“窄而深”,能更好地挖掘出体检数据中所包含的信息。相比单纯采用 DNN,其准确率和召回率分别提升了 6.97%和 28.7%,说明本文通过知识表示学习将体检数据表示为向量的方法比单纯使用检测值效果更优。嵌入的外部知识不仅提高了模型的可解释性,也对模型的性能具有提升作用。此外,THSAC 模型中使用的分类器是融合了自注意力机制(Selfattention)37和卷积神经网络(Convolutional neural networks,CNN)38进行设计并实现。因此,本文还进行了与以下方法的对比实验:单独使用 SelfAttention 和 CNN、结合 SelfAttention 和双向长短期记忆网络(Bidirectional long shortterm memory,BiLSTM)39的方法,结果如表 8 所示。可以看出,与单一 SelfAtttention、CNN、SelfAtttentionBiLSTM 相比,SAC 分类器在准确率和召回率方面都有更好的性能。这是因为分类器通过获取全局的信息和对局部特征的提取,比单独使用 SelfAttention或 CNN 性能更优。此外,体检数据中并不存在时序信息,所以使用 BiLSTM 效果并不是很好。表 6不同知识表示模型的 MR和 Hit10Table 6MR and Hit10 of different knowledge representation models模型TransETransHTransRMR623.0711.6897.8Hit10/%44.947.919.0表 7不同知识表示模型的准确率和召回率Table 7Accuracy and recall rate of different knowledge representation models模型TransESACTHSACTransRSAC准确率/%97.1197.1897.03召回率/%87.1687.3286.89786徐鹤 等:基于知识表示向量的可解释深度学习模型及其疾病预测应用(3)知识表示与随机表示对比分析为了验证融入外部体检知识的有效性,本文对体检指标实体和检测值实体的随机表示和知识表示进行对比,其中随机表示指对所有实体进行onehot编码,然后与一个随机生成的矩阵相乘得到。对比结果如表 9 和图 3、4 所示。从表 9 可以看出,在预测性能上知识表示明显优于随机表示模型。这说明本文中通过体检指标和检测值之间的这种关系构建的实体向量发挥了良好的作用。此外,图 3、4分别为两种模型在训练过程中前 100批次的准确率和召回率,可以看出,结合了知识表示学习的模型训练时间更短,更快达到收敛状态。(4)不同维度的表示向量比较分析在知识表示学习的过程中,如果向量维度选择得过小或者过大,也会存在过拟合/欠拟合的风险。为了选取较优的表示向量维度,分别对比了 200、256、300 和 512 这 4 个维度,结果如图 5、6 所示。从图5、6可以看出,在较低的 200维表示向量时因为所包含的信息不全面,其准确率和召回率相比其他的要低一些。但维度越高,模型参数越复杂,训练时间也越长。综合考虑准确率、召回率和模型参数复杂度,最终选取表示向量维度为 256。表 8不同糖尿病预测模型的准确率和召回率Table 8Accuracy and recall rate of different diabetes prediction models模型逻辑回归(Logistic regression,LR)支持向量机(Support vector machine,SVM)朴素贝叶斯(Naive Bayes,NB)随机森林(Random forest,RF)40XGBoost41深度神经网络(Deep neural network,DNN)THSelfAtttentionTHCNNTHSelfAtttentionBiLSTMTHSAC准确率/%90.2990.5987.4896.3792.4290.2196.0596.2693.9097.18召回率/%49.951.6053.9482.1161.6458.6286.1584.2478.2087.32表 9不同表示方式的准确率和召回率Table 9Accuracy and recall rates of different representations模型RandomSACTHSAC准确率/%96.7297.18召回率/%86.7687.32图 3模型训练过程中的准确率Fig.3Accuracy during model training图 4模型训练过程中的召回率Fig.4Recall during model training787数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.4,20233.5讨论表 10展示了本文所提模型与不同深度学习模型异同点比较情况。本文融入知识表示向量的方法具有以下优势:(1)提高了深度学习模型在疾病预测方面的性能。通常,数据表征的质量会影响深度学习模型在下游任务上的表现。本文通过知识表示学习将体检数据表示为向量形式,作为深度学习模型的输入,进行疾病预测。文中实验结果表明,融入该向量后,预测性能明显提升。(2)提高深度学习模型的可解释性。本文基于体检指标正常参考范围,构建体检指标与测量值的关系图,并通过知识表示学习转换成向量形式,输入深度学习模型中。通过该方式,将医学专业知识嵌入深度学习中,增强了模型的可解释性。4 结束语 针对传统人工智能方法在疾病预测领域应用缺乏可解释性的问题,本文提出了一种融入知识表示向量的可解释深度学习模型并应用于糖尿病预测。依据体检指标与检测值之间的关系,通过 TransH模型,构建了体检知识实体的向量表示,进而得到患者体检数据的关系矩阵;然后通过构建的自注意力机制和卷积神经网络进行特征提取,从而设计并实现了一种面向糖尿病预测的可解释深度学习模型。实验与分析结果验证了引入知识表示向量后的深度学习模型的有效性和可解释性。该模型因为采用了外部体检知识,并且符合医学领域专业知识的诊断结果,所以具有良好的可解释性。但是,本文中所使用的体检知识并不全面,未考虑到体检指标正常范围与年龄和性别之间的关系,此外,本文模型仅使图 5不同维度的表示向量召回率Fig.5R

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开