分享
基于课程学习权重集成的贝叶斯结构学习算法研究.pdf
下载文档

ID:3631704

大小:996.11KB

页数:9页

格式:PDF

时间:2024-06-26

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 课程 学习 权重 集成 贝叶斯 结构 算法 研究
DOI:10.11991/yykj.202305024网络出版地址:https:/ BN 中节点之间互相影响程度的测量,然后划分课程阶段,分阶段构造无向图骨架,并利用优化函数对骨架进行优化;通过集成策略,将各个集成学习结果所得到的课程权重进行集合,并通过边过滤来减少错误边的出现;最后,通过爬山搜索构建 BN 结构。实验结果表明,在 4 个标准数据集上,本文所提方法具有较高的精确度和稳定性。与多种传统贝叶斯结构学习(Bayesiannetworkstructurelearning,BNSL)方法相比,本文所提方法性能平均提高了 37.18%。本文分析结果可为 BNSL 的增量学习过程进一步提供参考。关键词:贝叶斯网络;结构学习;课程学习;权重;边约束;权重互信息;集成学习;无向图骨架中图分类号:TP181文献标志码:A文章编号:1009671X(2024)01000109Bayesian network structure learning based on curriculum learningweight integrationLIUKaiyue,ZHOUYunScienceandTechnologyonInformationSystemsandEngineeringLaboratory,NationalUniversityofDefenseTechnology,Changsha410073,ChinaAbstract:LearningBayesiannetwork(BN)fromalargenumberofcomplexdatahasalwaysbeenadifficultproblem.Basedontheideaofcourselearning,thispaperintroducesameasurementsuitableforthedegreeofmutualinfluencebetweennodesinBNstructure,thendividesthecoursestage,constructstheundirectedgraphskeletoninstages,andusestheoptimizationfunctiontooptimizetheskeleton.Throughtheintegrationstrategy,thecourseweightsobtainedfromeachintegratedlearningresultareaggregated,andtheerroredgesarereducedbyedgefiltering.Finally,theBNstructureisconstructedbyhill-climbingsearch.Theexperimentalresultsindicatethatthemethodproposedinthispaperexhibitshighprecisionandstabilityonfourstandarddatasets.Comparedwithvarioustraditionalbayesiannetworkstructurelearning(BNSL)methods,themethodproposedinthispapershowsanaverageperformanceimprovementof37.18%.TheanalyticalresultspresentedinthispapercanfurtherprovideinsightsintotheincrementallearningprocessofBNSL.Keywords:Bayesian network;structure learning;curriculum learning;weight;edge constraint;weighted mutualinformation;ensemblelearning;undirectedgraphskeleton贝叶斯网络(Bayesiannetwork,BN),又称信念网络,在 1985 年由 Pearl1首先提出,是一种模拟人类推理过程、处理不确定性知识的一种图模型。BN 通过有向无环图和条件概率表可以清晰表示出变量之间的关系,帮助进行决策,为不确定性推理体系提供强有力的工具。目前,BN 已成功地应用于概率推理和因果建模的各种任务,同时在风险评估2、故障诊断3、决策系统4、基因序列分析、生物医学图像处理和疾病预测5等领域得到越来越多的应用。目前的 BNSL 方法都是通过训练全部数据样本来进行学习节点之间的依赖关系,容易出现数据量过大、训练时间过长、容易陷入局部最优的问题。由于认知科学的启发,Bengio 等6提出了课程学习(curriculumlearning,CL)的概念,让模型从简单样本学习逐步过渡至复杂样本。CL 在计算机视觉和自然语言处理等多种场景下,在提高各种模型的泛化能力和收敛率方面表现出了强大的能力7。本文基于课程学习思想,提出了一种基于课收稿日期:20230531.网络出版日期:20231215.基金项目:国家自然科学基金项目(62276262);湖南省科技创新计划(2021RC3076);长沙市优秀青年创新者培训班项目(KQ2009009).作者简介:刘凯越,女,硕士研究生.周鋆,男,副教授,博士.通信作者:周鋆,E-mail:.第51卷第1期应用科技Vol.51No.12024年1月AppliedScienceandTechnologyJan.2024程学习权重集成的结构学习(Bayesiannetworkstructurelearningbasedoncurriculumlearningweightintegration,BN-CW)算法,通过模仿人类学习认知过程,分阶段构造 BN。该算法首先对原始数据集进行采样,对 15 次骨架结构学习执行一次集成学习。对于每个训练样本,衡量节点之间的相互影响程度,从具有简单依赖关系的样本节点到复杂且依赖关系不明显的节点,根据相应课程阶段分配课程权重,将各学习结果所获得的网络边的权重进行集成,并利用边过滤来去除错误的边,将正确的边加入白名单,提高搜索效率和学习结果的精确度。本文的研究重点包括 4 个方面:1)针对网络中节点之间的相互影响程度,提出了一种基于课程权重的互信息公式,相较于传统的互信息公式,可以更好地识别出变量之间的相互影响程度,且可以动态识别出各个课程阶段节点之间相互影响程度的变化。2)基于课程阶段的划分,分阶段构造学习网络框架,在集成迭代中不断强化为修正项的学习,大大减少错误边的出现。3)通过边约束策略增加正确边的可靠性,严格限制了错误边的出现,大大缩小了 BN 的搜索空间,提高了后续搜索算法的效率。4)在不同标准数据集上的实验结果表明,本文提出的 BN-CW 算法可以有效减少 BN 中学习的误差,提高结构学习的效率和准确度。1贝叶斯网络学习相关工作1.1贝叶斯结构学习方法贝叶斯结构学习(Bayesiannetworkstructurelearning,BNSL)方法是给定问题领域中的变量,以及这些变量的相关观测数据,学习变量间的相互影响关系的过程。由于结点间的影响是有向的,需要用一个有向无环的网络结构来描述,结构学习就是寻找与训练数据匹配度最好的 BN 结构。通过大量的样本数据来提炼挖掘变量之间潜在的关系是目前 BNSL 的一个主要趋势。然而由于候选结构的数量随着节点数量的增加呈现指数级的增长数据学习,因此 BNSL 是多项式复杂程度的非确定性问题(non-deterministicpolynomial,NP)8。目前主流的结构学习算法主要有:基于约束结构学习算法(constraint-basedstructurelearningalgorithm,CB)9、基于评分结构学习算法(score-basedstructurelearningalgorithm,SB)10以及混合结构学习算法(hybridstructurelearningalgorithm,HS)11。相较于 SB 和 HS 算法,CB 是目前发展较为活跃的算法,主要由评分函数和搜索算法 2 部分组成。学者们侧重于通过对评分函数和搜索算法进行优化以提高算法的求解能力和准确度。评分函数主要包括基于信息论和基于贝叶斯 2 种,具有代表性的评分函数包括 K2 评分(CH 评分)12、贝 叶 斯 狄 利 克 雷 等 价 一 致 先 验(BayesianDirichletequivalentuniformprior,BDeu)评分函数13、贝 叶 斯 信 息 准 则(Bayesianinformationcriterion,BIC)评分函数14等。BN 的搜索空间可以分为有向无环图(directedacayclicgraph,DAG)15、等价类16和节点序搜索空间173 种。大部分的结构学习方法是在 DAG 空间中进行搜索的,但 DAG 搜索空间会随着节点数的增加呈现指数级的增长,常用的搜索策略为爬山搜索18、迭代搜索19、分布估计算法20等。相较于 DAG 搜索空间,等价类空间搜索空间较小,且基于马尔可夫等价类进行划分,存在空间难以判断且复杂的问题。节点序搜索空间是按照节点的拓扑顺序进行划分的,算法的精确度对于节点序具有较强的依赖性21。虽然基于评分函数的搜索算法有较高的准确度和效率,但当数据结构复杂时,搜索空间过大使得算法很难收敛,难以在巨大的搜索空间内寻找到最优的网络结构。为了解决 BN 结构学习中的一些主要问题,许多研究人员已经提出了一些优化策略,包括引入先验知识22、集成学习2324、专家知识整合25和矩阵分解26。但这些方法都是通过将训练样本整体放入算法中进行学习,来发现变量之间存在的依赖关系。在学习一些依赖关系时,不仅学习到的节点之间的数据噪声会影响到节点之间依赖关系的确立,一些无关的样本节点噪声也会干扰学习过程,导致错误依赖关系的建立。虽然一些学者通过 A*剪枝操作27、添加约束28等操作来降低,数据中存在的大量噪声仍然会影响到算法本身的学习过程。1.2课程学习2009 年 的 国 际 机 器 学 习 大 会(InternationalConferenceonMachineLearning,ICML)上 Bengio等6首次在机器学习的背景下提出了课程学习的概念,旨在通过模仿人类认知学习过程,从简单样本出发逐步过渡到复杂样本,使得模型具有更高的效率和准确度。课程学习的本质是非凸优化中延拓方法的扩展,从更平滑的目标函数逐步过2应用科技第51卷渡至不太光滑的函数。随后,很多学者在相应的应用领域寻求课程学习的策略,比如弱监督物体定位29、物体检测30以及神经机器翻译3132等,这些工作均证明了课程学习在小批量抽样中常规培训的明显好处。首次将课程学习策略应用与BNSL 的是文献 33,通过课程学习的思想来增量构建 BN 结构,并将各个阶段学习到的 DAG 结构作为下一阶段的初始网络结构,最终学习到完整的网络结构。课程学习虽然在各个领域都取得了较为显著的成功,但主流著作中对于课程学习的研究仍相对较少,尤其是在贝叶斯结构学习方面。考虑到前期课程阶段学习结果对后续课程阶段的影响,一旦前期课程阶段学习到错误边,会误导后续课程阶段的继续学习错误边。因此本文在前文研究的基础上,不再将前期课程阶段学习到的结果直接用于后续的课程学习,而是通过分配课程权重和权重集成约束的方式,将上一阶段的课程学习结果仅作为后续课程学习的参考,通过权重约束逐步减少错误边的出现,提高可靠边的数量。2BNSL 基本概念2.1贝叶斯网络X1,X2,XnBN 由 DAG 和 对 应 的 条 件 概 率 表 组 成。DAG 中的节点表示随机变量,这些变量涵盖范围较为广泛,可以是可观测到的变量、隐变量,或者是未知参数等。节点之间的有向边表示 2 个节点之间存在依赖关系并非条件独立的,其关系的依赖程度用条件概率表示。BN 结构的数学表示为G=(V,E)VE式中:为 BN 中的所有节点的集合,为 BN 结构中存在的边的集合。BNSL 的目标是通过学习得到与样本数据集拟合度最高的网络结构。评分函数通常被用于判断 BN 的好坏。本文采用 BIC 评分函数,BIC 是在样本满足独立同分布假设的前提下,利用对数似然来衡量结构与数据之间的拟合程度。BIC(S|D)=ni=1qis=1rik=1misklogisk12ni=1qi(ri1)logmqiximiskxisxikisk0 isk 1式中:为变量 父节点值组合的数量;为 的父节点取 的值,取 值时的样本数量;是似然条件概率,。2.2权重互信息的构建为了更好地划分课程阶段,衡量样本节点之间的相互影响程序,提出了权重互信息(weightsofmutualinformation,WMI)。XsXtXsXt定义 1已知数据集 D 中 2 个节点变量和,其和之间的相互影响程度 WMI 的计算公式定义如下:WMI(Xs,Xt)=arg maxXs,XtXI(Xs,Xt)nW(Xs)=arg maxXs,XtXxsXxtX(xs,xt)log(xs,xt)(xs)(xt)nInd(Xs)I(Xs,Xt)XsXtW(Xs)Ind(Xs)Xs式中:是节点和的互信息;为节点的课程权重值;为节点在课程集合中的位置,即权重由课程节点在课程中的学习次序决定。3基于 BN-CW 的贝叶斯结构学习本文主要是基于课程学习权重集成的思想来分 阶 段 构 建 贝 叶 斯 网 结 构,利 用 爬 山 法(hillclimbing,HC)搜索到最终的网络结构,图 1 给出了算法的整体框架。课程阶段采样后数据数据集采样边约束ABDTSABCDTS骨架结构爬山法贝叶斯网络数据采样课程学习骨架学习优化权重集成.C1C2.CnC1C2CnC1C2CnC1C2Cn.ABCTDSABCTDSABCTDSABCDSTABCDSTABCDSTABCDST.ABCDSTABCDSTABCDST.ABCDSTABCDSTABCDST.ABCDST.ABCDSTABCDST.ABCDSTABCTDSA B D E T SA 0 2.4 0.41.51.7 1.1B 0.2 0 0.30.4 3.2 0.5D 0.40.3 0 1.2 0.9 2.8E 1.5 0.41.2 0 0.2 0.8T 1.7 3.20.9 0.2 0 0.7S 1.10.50.2 0.8 0.7 0A B D E T SA0B 0.2D 0.4E 1.5T 1.7S 1.12.400.30.43.20.50.40.301.20.90.21.50.41.200.20.81.73.20.90.200.71.10.52.80.70.70AA 00.2 000.40.30.30.40.41.21.20.90.50.20.20.20.80.80.70.70001.51.71.10.41.51.71.10.52.4BB3.2DD2.8EETT3.20.9SS图1BN-CW 算法框架第1期刘凯越,等:基于课程学习权重集成的贝叶斯结构学习算法研究3算法分为 4 个阶段:1)集成采样过程。通过 Bagging 集成抽样,通过可重复的抽样技术生成多个数据集。WMI(Xi,Xj)HiCiG2)课程学习阶段。利用,选择候选节点与课程节点集合中各节点相关性最强的节点作为下一个课程节点。根据课程阶段,得到课程节点之间的依赖关系,得到无向初始网络结构,不同的课程权重分配给学习的边。3)集成学习阶段。根据集成学习的结果,通过评分优化函数对每次得到的无向图骨架进行迭代优化,得到每条边集成后的权重值。Wk4)边过滤与搜索。通过集成学习优化得到的骨架,得到无向图骨架权重表示,通过设置阈值删除权重不满足阈值 的边,将得到的骨架作为初始 DAG,通过爬山算法和 BIC 评分函数得到最终的 BN 结构。3.1课程阶段的划分C=Q1,Q2,QnBN-CW 算法构建基于课程学习的 BN,在培训步上训练标准序列。图 2 给出了 BN 构建的课程匹配机制、计算节点间以及节点与集合之间的相互影响程度,划分课程阶段,对不同课程阶段学习到的边匹配不同的权重。ABCDEFC1C2C3C4数据集课程ABCDEFABCEFABCDEFD图2BN 构造的课程匹配机制3.1.1初始节点的选取信息熵表示信息流中的平均信息量。对于由多个离散信源组成的信息,其信息熵可以用信源概率的负对数的均值来表示。H(X)=Elogpi=ni=1logpinpi式中:为信息源出现的概率,n 为信息源个数。X1根据信息熵的定义,对于一个事件,整体概率越小,包含的信息量越大。扩展到网络中的节点,信息熵越小,节点包含的信息量越少,越容易学习。按照由浅入深的思路,初始节点满足:X1=argminXiXH(Xi)3.1.2后续课程节点的选取根据课程学习的思想,为了考虑不同课程阶段下课程节点与候选节点之间整体影响程度的变化,通 过 WMI 来 衡 量 变 量 之 间 的 关 联 方 式,WMI 可以更加准确描述变量可能存在的依赖关系,且不受数据节点序列的影响,更具有鲁棒性。CiHi定义 2将数据集 D 中的节点划分为课程节点集合和候选节点集合,其划分依据如下:C1 X1,X1=argminXiXH(Xi)Ci Xj,CWMIXj=argmaxXiCi1,XjHi1WMI(Xi,Xj)H1=X/X1,i=1Hi=X/Ci,i,1DXiCi定义 3数据集中候选节点与课程集合中各课程节点的最大权重互信息定义如下:CWMIXj=maxXiCi,XjHiWMIXj通过衡量各个候选节点集合节点与课程节点之间的权重互信息,将满足条件的候选节点加入下一阶段的课程节点。3.2初始网络构建3.2.1无向图骨架构建SiSbicsEsEdEdeijSi1SbiWi本文采用集成优化的思想对原始数据进行采样,每隔 15 次设置一次集成学习。对于每个训练样本,课程学习构造的骨架被用作先验知识,对每次集成学习得到的骨架进行优化,得到更优的骨架。骨架优化函数是将 2 个骨架结构进行比较,将相同的边放入中,将不同的边放入中,将相同的无向边添加到初始骨架中,遍历中的边并将其添加到,比较得分变化。如果得分增加,则将其相加,直到得分不再增加。遍历结束形成一个骨架结构并获得一个权重矩阵。它的定义如下:Sbi1=cs(Si1,Si)其中,骨架中的边划分为eijEd,其他Es,eij Si且 eij Si1eijijSiiEsEd式中:为节点 和节点 之间的边,为经过第 次采样后学习到的 BN 骨架,为 2 次采样后网络学习都存在的边,为采样后学习过程中出现的相异边。Edij=1,s(Si1,eij)s(Si1)0,s(Si1,eij)s(Si1)s(Si1)Si1s(Si1,eij)Si1eijEdeijeij式中:为学习到的骨架结构的评分值,则为骨架结构加入边后所得到的评分值。当为 1 时,保留骨架中对应的,相反则删除。对于多次学习后学到的相同边执行保留操作。3.2.2权重集成和边过滤W通过每次学习到的骨架的权重矩阵集合进行集成,权重值表示每条边学习到的可信度,权重值越高,表示学习到该条边的可靠性更大,权重值的合理分配为后续贝叶斯结构学习提供了更加可靠的初始骨架结构。每条边的权重定义为Weij=nk=1ms=1N(eij)ks4应用科技第51卷nsN(eij)ksksXiXk式中:为优化次数,为课程阶段数目,为第 次迭代后在第 次课程中节点和之间边出现的次数。avgWWeijavgWeijeij为了确保学习到的骨架结构的准确性并减少搜索空间,对学习边设置约束,计算平均权重,并 根 据 经 验 值 设 置 阈 值为 0.6,如 果,则删除;否则,保留对应的边。具体的算法如算法 1 所示。算法 1BN-CW 算法DnXtnc输入:训练数据集、样本大小、BN 节点集合、学习步长、课程数量输出:对应的 BN 结构 DAGk (1,15)forX1 maxH(Xi)Xi maxCWMIXiCi=Ci1Xi,Hi Hi1/Xj/*将满足条件的节点放入相应的课程集合中,并从候选集合中删除*/Sklig(Xi,Ci,D)Sbk,Wkcs(Sk1,Sk,C,D)W Wki (1,n)forPiPC(Xi,D)endforWij ifE=E/EijendifendforDAGHs(D,E)returnDAG4实验结果与分析4.1实验设置与数据集t本文使用 Python 语言中的 Pgmpy 工具包。选取了 4 种不同规模的标准数据集进行对比实验,通过抽样形成了不同数据规模的样本。根据实验对比效果,BN-CW 算法中的学习步长 根据数据集的出入度进行设计;实验中所涉及到的相关数据集如表 1 所示。表1标准数据集数据集节点/个边/条参数/个出入度Cancer54102/2Asia8881822/2Child20252307/2Alarm37465094/44.2结果分析为了验证算法的有效性,本文涉及到的指标有 F1 分 数(F1-Score)、结 构 汉 明 距 离(structuralHammingdistance,SHD)、正确边数(truepositive,TP),对生成的 BN 进行评价。SHD 值越小表示学习到的 BN 越接近真实网络,TP 值越大说明学习到的正确边越多。4.2.1WMI 和 MI 的对比验证 WMI 方法的有效性,选取互信息(mutualinformation,MI)值作为参照,对 WMI 值和 MI 值方法构建的初始网络的进行了对比实验,来判断WMI 方法是否具有更好地分析变量间相互影响程度的能力。对 4 种标准数据集分别进行采样,共 32 组对比实验,而每一组对比实验有 10 组数据,实验结果是 10 组实验结果的平均值和与最优值的百分比。实验结果如图 3 和图 4 所示。5001 0001 5002 000012SHD(a)Cancer 网络MIWMIMIWMIMIWMIMIWMI样本数量5001 0001 5002 000样本数量5001 0001 5002 000样本数量5001 0001 5002 000样本数量0123SHD(b)Asia 网络0510SHD(c)Child 网络081624SHD(d)Alarm 网络图3比较使用 WMI 和 MI 构建初始网络的 SHD 实验结果第1期刘凯越,等:基于课程学习权重集成的贝叶斯结构学习算法研究5图 3 和图 4 详细绘制了标准数据集上 MI 和WMI 方法构造出来的 BN,在 Cancer 数据集的实验结果中,WMI 方法只有在采样 500 次的错误边数和 MI 方法相同,其他指标均大大优于 MI 方法;在 Asia 数据集上可以明显看出 WMI 方法在各项指标上完全由于 MI 方法。对于 Child 和Alarm 数据集,WMI 方法在一些指标上略差于MI 方法,由于节点数目较多时,课程阶段的划分影 响 了 WMI 对 于 数 据 节 点 之 间 影 响 关 系 的判断。4.2.2不同数据集下 BN-CW 算法和其他算法性能对比实验中对 4 种标准数据集分别采样,样本大小为 500、1000、1500 和 2000,与 HC、皮特克莱克算法(Peter-Clarkalgorithm,PC)、最大最小爬山法(max-minhill-climbing,MMHC)34、基于迹指数和增广拉格朗日的非组合优化(non-combinatorialoptimization via trace exponential and augmentedlagrangianforstructurelearning,NOTEARS35、遗传算法(geneticalgorithm,GA)和基于遗传算法改进的 粒 子 群 算 法(particle swarm optimization withgeneticalgorithm,PSO-GA)36等算法进行对比,每组对比实验有 10 组数据,取 10 组数据的平均值,实验结果如图 5 和图 6 所示。从图 5 中可以看出,在 SHD 的表现上,BN-CW 算法相较于其他结构学习算法具有明显的优势。对于 Cancer 数据集,当样本量较小时,算法略次于 NOTEARS 算法,但随着样本量的增大,汉明距离逐渐降低,当样本量大于或者等于 1k 时,BN-CW 算法相较于其他算法具有显著优势。对于 Asia 和 Child 网络,该算法均有明显优势。相较于其他算法,BN-CW 算法性能表现较为稳定,说明了 BN-CW 设置的边约束机制和集成优化策略可以显著降低错误边的出现概率。4008001 2001 6002 00002468SHD(a)Cancer 网络BN-CWPCHCMMHCBRKGAGANOTEARSBN-CWPCHCMMHCBRKGAGANOTEARSBN-CWPCHCMMHCBRKGAGANOTEARSBN-CWPCHCMMHCBRKGAGANOTEARS03691215SHD(b)Asia 网络SHD(c)Child 网络SHD(d)Alarm 网络样本数量样本数量样本数量4008001 2001 6002 000样本数量01234TP02468TP0510152025TP0816243240TP5001 0001 5002 000(a)Cancer 网络样本数量5001 0001 5002 000样本数量(b)Asia 网络5001 0001 5002 000样本数量5001 0001 5002 000样本数量(c)Child 网络(d)Alarm 网络MIWMIMIWMIMIWMIMIWMI图4比较使用 WMI 和 MI 构建初始网络的 TP 实验结果6应用科技第51卷SHD(a)Cancer 网络BN-CWPCHCMMHCBRKGAGANOTEARSBN-CWPCHCMMHCBRKGAGANOTEARSBN-CWPCHCMMHCBRKGAGANOTEARSBN-CWPCHCMMHCBRKGAGANOTEARSSHD(b)Asia 网络01020304050SHD(c)Child 网络1020304050607080SHD(d)Alarm 网络样本数量4008001 2001 6002 000样本数量4008001 2001 6002 000样本数量样本数量图5标准数据集上不同算法的汉明距离BN-CWPCHCMMHCBRKGAGANOTEARSBN-CWPCHCMMHCBRKGAGANOTEARSBN-CWPCHCMMHCBRKGAGANOTEARSBN-CWPCHCMMHCBRKGAGANOTEARS00.20.40.60.81.0F1-score00.20.40.60.81.0F1-score00.20.40.60.81.0F1-score00.20.40.60.8F1-score4008001 2001 6002 000(a)Cancer 网络样本数量(c)Child 网络4008001 2001 6002 000样本数量(d)Alarm 网络4008001 2001 6002 000样本数量(b)Asia 网络4008001 2001 6002 000样本数量图6标准数据集上不同算法的 F1-score从图 6 可发现,BN-CW 在 4 种标准数据集上的 F1-score 值均优于其他算法,特别是在 Cancer和 Alarm 数据集上,BN-CW 的优势远超过其他算法。而在 Child 和 Asia 网络仅在部分样本略次于NOTEARS 算法和 PC 算法。从 F1-score 指标上也反映出 BN-CW 算法具有更高的精确度,构建出来的网络结构更加接近真实结构。通过图 5 和图 6 的分析可以发现,本文提出的 BN-CW 算法在各数据集上均有较好的表现,说明该算法具有普适性。将初始无向骨架作为先验知识用于结构学习,能够有效压缩搜索空间,提高算法的搜索效率。课程阶段的不断学习可以不断地加强正确边的学习,弱化错误依赖关系的影响,减少错误边的出现,边约束可以进一步地第1期刘凯越,等:基于课程学习权重集成的贝叶斯结构学习算法研究7过滤掉错误边,这也是算法在汉明距离表现出色的原因。特别对于大型网络,在学习过程中,通过不断调整优化骨架结构使得初始网络不断接近真实网络,因此生成的 BN 也会越接近真实网络。但是 BN 的搜索学习最终是通过 HC 算法实现的,与标准网络相比还存在一定的误差(如多边、反边),容易陷入局部最优。由于是对于节点数目较多的中大型网络,这也是在这些数据集上的某些指标为次优的原因。5结束语本文结合课程学习思想和集成策略进行BNSL 中,提出了 BN-CW 算法,提出了 WMI 的概念,并推导了 WMI 的计算公式,通过实验验证了WMI 相较于传统的互信息,具有更加优秀的识别变量关联程度的能力。课程阶段的划分学习,可以在集成迭代中不断加强对正确边的识别,并在课程阶段的学习过程中,大量减少了错误依赖关系的出现,一定程度上减少了错误边的出现。通过在标准数据集上进行实验,并与其他的结构学习算法进行对比,验证了算法在结构学习上的有效性和普适性。但在后期的搜索过程中使用HC 算法进行搜索,很容易陷入局部最优,导致算法效果的下降。未来的工作包括 2 个方面:1)探索如何实现课程学习过程的反馈和自修正,实现学习过程中自调整;2)进一步研究如何将课程学习的思想应用于搜索的迭代优化过程跳出局部最优,从而优化算法的搜索效果。参考文献:PEARL J.Probabilistic reasoning in intelligent systems:networksofplausibleinferenceM.SanFrancisco:MorganKaufmann,1988.1孙宝丹,王培超,周鋆.NOTEARS 算法在 XSS 攻击检测中的应用研究 J.小型微型计算机系统,2020,41(4):782785.2宋仁旺,杨磊,石慧,等.概率分布表插值的离散贝叶斯网络故障诊断算法 J.组合机床与自动化加工技术,2022(7):139143.3GENDELMAN R,XING H,MIRZOEVA O K,et al.BayesiannetworkinferencemodelingidentifiesTRIB1asanovel regulator of cell-cycle progression and survival incancercellsJ.Cancerresearch,2017,77(7):15751585.4郑伟,姚远,刘乐源,等.基于贝叶斯网络的制粉系统安全控制方法 J.控制工程,2023,30(3):560569.5BENGIOYoshua,LOURADOURJerme,COLLOBERTRonan,etal.CurriculumlearningC/Proceedingsofthe626th Annual International Conference on MachineLearning.NewYork:AssociationforComputingMachinery.2009.KESGIN H T,AMASYALI M F.Cyclical curriculumlearningJ.IEEE transactions on neural networks andlearningsystems,2023:19.7高晓光,叶思懋,邸若海,等.基于融合先验方法的贝叶斯网络结构学习 J.系统工程与电子技术,2018,40(4):790796.8茹鑫鑫,高晓光,王阳阳.基于模糊约束的贝叶斯网络参数学习 J.系统工程与电子技术,2023,45(2):444452.9蔡青松,陈希厚.基于评分函数的贝叶斯网络结构融合算法 J.计算机工程与应用,2019,55(11):147152.10陈海洋,张娜.基于混合改进鸟群算法的贝叶斯网络结构学习 J.空军工程大学学报(自然科学版),2021,22(1):8591,98.11COOPERGF,HERSKOVITSE.ABayesianmethodforthe induction of probabilistic networks from dataJ.Machinelearning,1992,9:309347.12HECKERMAN D,GEIGER D,CHICKERING D M.Learning Bayesian networks:the combination ofknowledgeandstatisticaldataJ.Machinelearning,1995,20:197243.13ADKISONMD,PETERMANRM,LAPOINTEMF,etal.Alternative models of climatic effects on sockeyesalmon,oncorhynchusnerka,productivityinBristolBay,Alaska,andthefraserriver,BritishColumbiaJ.Fisheriesoceanography,1996,5(3/4):137152.14SOLOVIEV Vicente P,et al.Quantum approximateoptimization algorithm for Bayesian network structurelearningJ.Quantuminformationprocessing,2023,22(1):128.15AMNDOLAC,HOLLERINGB,SULLIVANTS,etal.Markovequivalenceofmax-linearBayesiannetworksC/OL/Uncertainty in Artificial Intelligence.PMLR,2021:17461755.16BEHJATI S,BEIGY H.Improved K2 algorithm forBayesian network structure learningJ.Engineeringapplicationsofartificialintelligence,2020,91:103617.17ADHITAMA R P,SAPUTRO D R S.Hill climbingalgorithm for Bayesian network structureJ.AIPconferenceproceedings,2022,2479(1):17.18DECAMPOSLM,FERNNDEZ-LUNAJM,PUERTAJ M.An iterated local search algorithm for learningBayesian networks with restarts based on conditionalindependencetestsJ.Internationaljournalofintelligentsystems,2003,18(2):221235.19SOLOVIEV V P,LARRAAGA P,BIELZA C.Estimation of distribution algorithms using Gaussian208应用科技第51卷Bayesian networks to solve industrial optimizationproblemsconstrainedbyenvironmentvariablesJ.Journalofcombinatorialoptimization,2022,44(2):10771098.Bouckaert R R.Properties of Bayesian belief networklearning algorithmsC/Uncertainty Proceedings 1994.Seattle:MorganKaufmann

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开