分享
基于改进贝叶斯方法的基因调控网络构建_饶臻.pdf
下载文档

ID:2252844

大小:2.24MB

页数:12页

格式:PDF

时间:2023-05-04

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 改进 贝叶斯 方法 基因 调控 网络 构建 饶臻
第 卷 第期 年 月广西大学学报(自然科学版)()收稿日期:;修订日期:基金资助:国家自然科学基金项目()通讯作者:郑明(),男,吉林长春人,梧州学院副研究员,博士;:。引文格式:饶臻,郑明基于改进贝叶斯方法的基因调控网络构建广西大学学报(自然科学版),():基于改进贝叶斯方法的基因调控网络构建饶臻,郑明(广西大学 计算机与电子信息学院,广西 南宁 ;梧州学院 大数据与软件工程学院,广西 梧州 )摘要:为了研究基因之间的复杂调控关系,使用贝叶斯网络模型来构建基因调控网络,针对以往单一贝叶斯网络模型结构学习算法精度低的问题,提出一种结合信息论构建初始网络并在该网络上进行评分搜索的基因调控网络学习方法,使用最大信息系数筛选有较高关联性的节点构建初始网络以提高解的质量,在评分搜索中使用禁忌搜索和 评分训练生成最终网络。之后在一组单细胞的蛋白质因果表达网络数据和大肠杆菌表达网络数据上进行构建基因调控网络实验,并在不同数据量,不同性能指标上与其他网络构建算法进行对比。实验结果表明,构建方法在不同规模的数据集上的有效性和准确率优于用于对比的其他算法。关键词:贝叶斯网络;最大信息系数;基因调控网络;结构学习;贪婪算法中国分类号:文献标识码:文章编号:(),(,;,):,广西大学学报(自然科学版)第 卷 :;引言随着人类基因组计划的开始,生物信息学作为一门新的交叉学科而兴起,内容包括对分子生物学数据库的研究和推理、基因之间的调控关系研究等。研究基因之间的调控关系对生物医药的研究有着重大意义,例如人类常见的疾病的发生归根溯源都是基因的异常表达结果,且在基因之间存在促进和抑制的调控关系,调控与被调控的基因之间构成了基因调控网络。传统的通过实验对比进行基因调控网络验证的方法的耗费巨大,因此利用现有的实验样本中的基因表达数据,使用机器学习或统计分析的方法构建基因调控网络,取得对生物研究者有一定指导作用的成果,成为许多研究者广泛关注的问题。贝叶斯网络模型是一种可以反映变量之间的依赖关系的网络模型,具有可以进行图形化表示,因果关系清楚,可以进行不确定推理等优点,在相当多的领域都有着广泛的应用,研究者们先后将各个领域的问题引入到贝叶斯网络模型中求解,取得了不错的成果。本文采用贝叶斯网络的结构学习来构建基因调控网络,而学习一个由离散变量组成的贝叶斯网络的最优结构在几乎所有情形下都是 问题,其网络空间随着节点个数的增加呈指数增加,所以只能用启发搜索算法来寻找接近最优的网络,目前主流方向有以下种:基于约束的统计分析方法;基于评分搜索的方法;前述种算法结合的混合搜索算法。基于统计分析的方法通过检测互信息值的方式判定在网络中节点的边是否存在并构建有向图,如最早的 算法、改进后的 算法、算法等。该类学习算法需要依次判别各节点之间的条件独立性,随着网络规模增加,时间复杂度指数级增长,因此该类算法只能适用于较小的稀疏网络。基于评分搜索的方法则使用启发式搜索来构建有向图,搜索算法和评分函数决定了生成网络的准确度,目前常用的经典搜索算法有爬山()算法,需要提供节点序的 算法等;评分函数有 、等。近几年,评分搜索广泛使用了基于仿生学理论的优化方法,如蚁群算法、人工免疫算法等。上述种方法各有其缺点,适用场景也有限,因此,混合学习的方法成为现今研究的重点,此类方法利用独立性测试分析效率较高的优势来约束搜索空间的大小,然后再用评分搜索进行最优网络结构的寻找,最终完成一个最优网络结构。第一个混合学习算法是 算法,通过 算法确定节点间的先后顺序,之后再使用 算法对结构进行学习;算法 是结合稀疏候选算法思想的另一种经典混合学习算法,使用 算法构建贝叶斯网络的搜索结构,再用 算法来确定最优的网络。已有实验表明,无论从网络的质量还是时间复杂度上来看,算法都要较优。本文提出了贝叶斯网络的混合学习算法构建基因调控网络的方法,基于最大信息系数 估算各个基因变量之间的关联程度并据此构建初始网络,通过在缩小搜索空间的初始网络上进行评分搜索,构建更加准确的基因调控网络,并在规模较小的单细胞的蛋白质因果表达网络()和规模较大的大肠杆菌表达网络()数据集进行了不同样本数量的多次实验,与 算法、算法等经典算法在个性能指标上进行对比,验证了该方法的有效性和优越性。第期饶臻,等:基于改进贝叶斯方法的基因调控网络构建理论与方法 贝叶斯网络定义贝叶斯网络由一个无环的有向图(,)和一个条件概率表构成,在图(,)中,表示一个网络中的随机变量集合,为随机变量。是以中随机变量的有向边的集合,如,表示网络中存在到的边,当存在到的边时,称是的父节点。条件概率表则表示了各个父子节点之间的条件概率,表示网络中随机变量的条件概率分布。贝叶斯网络的结构学习就是根据给定的数据集尽可能找出与其最拟合的网络结构模型,并将其用有向无环图表示的过程。拟合程度的评分标准以评分函数计算,本文使用的评分函数为 评分函数,评分函数使用数据和先验知识查找后验概率最大的网络结构,方便使用且有直观意义。其定义如下:()()()()()()(),()式中:()表示有向无环图的先验概率;表示网络中的节点个数;为第个节点的父节点数;表示第个节点的取值个数;表示节点,()时候的样本个数,因此可得 ;,表 示 了 给 定 网 络 的 迪 利 克 雷 分 布 的 超 参 数,计 算 公 式 为 ,为超参数。最大信息系数为了尽量消除对个变量进行互信息检测时其他变量对相关性判定的影响,使用 检测网络中各个基因节点的依赖关系。是针对个具有一定相关性的变量,利用这个变量的散点图上进行某种网格划分后的近似概率密度分布进行互信息计算并正则化的值,可衡量这个向量的相关程度。相较于互信息,具有更高的准确度,不受数据的影响,也不会限定在特定的关联函数种,能够广泛应用且更有公平性,是一种优秀的数据关联性的计算方式。定义对于一个含有随机变量和的数据集,按行和列将一坐标平面划分成网格,()为网格 的界限,根据 等 的研究,()为最优,使得数据集里的变量都落入网格 中,意为数据集的样本大小。计算网格下的变量互信息,定义如下:(:)(,)(,)()()()。()定义有限数据集中的个节点和的特征矩阵()的公式定义为(,),(,)(,),()式中(,)表 示 有 限 数 据 集 中 变 量和在 网 格 中 的 最 大 互 信 息 值,也 即(,)(,)。(,)为网格 下变量和的互信息值,和为使得(,)达到最大值的网格的行和列。定义个节点变量和在坐标平面的最大信息系数的定义如下:(,)(,),。()由于随机变量之间的 存在对称性质,也具有对称性。广西大学学报(自然科学版)第 卷 融合方法的贝叶斯网络学习根据 所述的 定义,可知 值与个随机变量之间的依赖程度是正相关的,也就是说,如果随机变量和之间的 值越大,二者的依赖程度就越高,说明它们在网络中可能相连。反之,如果随机变量和之间的 值越小,则依赖程度越低,当个变量间的 值为时,表示变量相互独立,说明二者在网络中不存在调控关系。本文提出 算法,根据 构建初始网络以缩小搜索空间并使用优化算法进行评分搜索。下面以蛋白质因果表达数据集()为例说明初始网络构建的过程。首先根据最大信息系数的定义计算数据集中变量之间的 值(表)并根据 值进行初始网络的构建。表 网络的 表 变量 根据计算出的 值(表),将每一列(行)中值最大的 记为 ,如果表中存在变量和的 满足式(),那么变量和变量在网络中可能存在一条边,表中用粗体标注所示。(,)(),(,)(),()式中为控制因子。根据 等的研究,对于此类稀疏图,取值为 时,能使得初始网络中添加尽量多的可能存在的边的同时添加尽量少的无关边。根据表的标注对所有满足式()的 值从大到小进行排序,并根据大小顺序在空图的节点间依次添加有向边以构建初始网络,这样可以最大限度地将关联性更强的边添加到网络中,边的方向为列节点指向行节点,如 ,此步骤到所有满足式()的 值全部判断完毕,得到一个非连通的有向图为止,在添加有向边的时候,有条规则:在根据 值向网络中添加有向边的时候,为了避免出现冗余的边,如果该节点有其他有向边,则跳过该列的判断。如果在添加有向边时,该边的反向边已经存在,则跳过继续判断下一对满足条件的节点对。当往网络中添加有向边的操作会导致出现环时,则跳过该边继续判断下一对满足条件的节点对。根据以上的加边规则构造出的有向图如图()所示,可发现使用上述方法并不一定能获得一个连第期饶臻,等:基于改进贝叶斯方法的基因调控网络构建通的有向图,为获得一个连通的有向图,需要继续在图中的连通分量中添加有向边。假设一个非连通图由个连通分量组成,记为,为了将图修复成连通图,要在个连通分量之间添加条边,具体方式如下:设有变量集、,为使两变量集之间相连通,需要在、间添加一条边,并使其满足 (,)(,)。()计算非连通图中的个连通分量任意节点的 值,并且根据()式选取连通分量之间 值最大的个连通分量、,在、之间添加一条有向边,并以此类推直到图变为连通图为止,如图()所示。()连通前()连通后图根据 构建的 初始网络 根据 计算出的初始网络能够有效的缩减评分搜索过程中的搜索空间,减少计算过程中的随机性,有效的提高最终网络的准确性。随后以该初始网络作为起点,引入 算法的思想和使用 评分函数进行基于评分的网络搜索,在 算法运行中,通过将一些可能使得算法产生重复循环的解置入禁忌表,提高算法效率跳出局部最优,生成最终的基因调控网络(图),算法如下所示。算法 输入:矩阵化 表 ,数据集输出:贝叶斯网络 :(,)()(,)将节点之间的 值从大到小排序 :()(,)(,)(、)检查、之间连接边是否会导致图中出现环 (,)将的有向边添加到边集合中 (,)以 为初始网络,为评分函数,为拟合数据集进行 搜索 广西大学学报(自然科学版)第 卷图 算法流程图 实验结果与分析 实验准备本文中实验使用 语言的 包,通过 语言进行编程完成算法进行网络结构学习。语言的 包是一个贝叶斯网络工具包,内置各种评分函数和用于比较的经典算法,主要用于贝叶斯网络结构学习和 参数 学习 等方面,本 文 使 用 版 本。实 验 的 运 行 环 境:操 作 系 统,处理器,内存。第期饶臻,等:基于改进贝叶斯方法的基因调控网络构建为了便于进行性能对比,实验采用了已经验证过的蛋白质因果表达网络()和大肠杆菌表达网络()个标准网络数据集,在 下载标准网络的 文件,随机生成相应大小的数据集进行实验,见表。表本文实验使用数据集 数据集节点个数边条数 实验指标为了能够评估基因调控网络建立的效率,本文将使用值和汉明距离值(,)对算法生成的网络进行评价以验证算法的有效性。式()中,表示真阳率(),反映了算法对标准网络中存在的边的预测正确率,表示在标准网络和算法生成网络中均存在的边数,表示在标准网络中存在,但是算法并没有生成的边数,()式中,表示查准率(),反映了算法预测出来的网络边的准确度,表示标准算法中不存在但是算法生成了的边数。由()()式可知,值和值越高,值越低,算法生成的网络就越贴近真实网络。,(),(),()。()结果分析实验中对个不同大小的标准网络:小型网络 数据集,大型网络大肠杆菌表达网络数据集()进行了对比,将其按照 、的样本量进行采样,与其他经典贝叶斯算法,如、等在值、值(汉明距离)、(正确边数)这个指标进行了对比分析,为使实验结果尽量排除随机因素影响,对每个样本量都进行 次采样学习,最后使用 次交叉验证结果的指标的平均值和标准差对比(表、),表中括号内的值为 次实验结果的标准差。表 与各个算法在 数据集上的实验结果 算法样本数量 ()()()()()()()()()()()()()()()()()()()()()()()()()()()广西大学学报(自然科学版)第 卷续表算法样本数量 ()()()()()()()()()()()()()()()()()()对于规模较小的 网络,从表的数据中可以直观的看出,本文中的 算法与其他的结构算法相比,取得了较优的实验结果。从样本数量为 、的实验结果可以看

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开