温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
互信
自动
算法
故障诊断
过程
中的
应用
第 卷第 期 年 月热能动力工程 ,收稿日期:;修订日期:作者简介:何 康(),男,东南大学硕士研究生文章编号:()基于互信息的自动聚类算法在故障诊断过程中的应用何 康,任少君,司风琪(东南大学 能源热转换及过程测控教育部重点实验室,江苏 南京)摘 要:随着热工建模过程中参数的增多,根据参数之间的相关性进行分块建模成为降低模型复杂度、提高模型监测效果的有效手段之一。因此提出了一种基于互信息的自动聚类、分块建模方法。首先,获取参数之间的互信息矩阵,在此基础之上以训练数据的平均平方预测误差最小为标准,使用谱聚类算法对参数进行自动聚类。然后,分别建立每个子块对应的主成分分析(,)模型,并将所有子块的建模结果通过贝叶斯理论进行融合来对多个子块模型进行统一监测。最后,采用基于最小角度回归(,)的故障诊断方法定位故障发生的方向和幅值。通过数学案例的验证和电厂高温再热器的实际应用,表明了所提方法在故障监测和诊断方面的有效性。关 键 词:互信息;谱聚类;故障诊断中图分类号:文献标识码:引用本文格式何 康,任少君,司风琪 基于互信息的自动聚类算法在故障诊断过程中的应用 热能动力工程,():,():,(,:):,(),():,第 期何 康,等:基于互信息的自动聚类算法在故障诊断过程中的应用引 言热工过程中的设备运行环境恶劣复杂,设备之间的关联耦合性强,运行参数多。在众多的监测方法中,基于多元统计学的方法如主成分分析()法、偏最小二乘(,)法等由于其算法简单、适用范围广,得到了大量的研究和应用。建模方法将数据映射到低维空间来建立全局模型,并通过残差子空间的统计量来进行过程监测。但是随着模型参数的增多,整个模型会越来越复杂,这就会造成模型的监测和诊断效果下降。因此,为了降低模型的复杂性,提高监测诊断的效果,分块建模成为新的研究热点。分块建模的主要思想是通过定量评估参数间的相关性对过程参数进行分类,从而针对具有强相关的子块参数进行分块建模。等人通过将主成分空间和残差空间分成 个部分进行分块建模来提高模型的精度。等人沿主成分方向对主元信息进行重构,寻找参数间的相关性,提出分布式主成分分析(,)的分块建模方法,有效提升了模型的监测效果。但是当监测出故障之后,如何准确地进行故障隔离、定位故障发生的参数,仍是一个待解决的问题。等人在划分参数时,综合考虑了变量之间的相关性和冗余性,提出了基于最小冗余最大相关性的分布式 建模监测方法,该方法可以在一定程度上提高模型的监测效果。但是实际热工过程中,参数之间的关系往往很复杂,仅仅依靠相关性有时难以对参数进行准确分类。互信息(,)是一种成熟的统计分析方法,通过信息熵去度量两个变量之间的依赖。等人提出了一种基于过程变量间互信息的非平稳过程监控方法,计算正常操作条件下互信息矩阵的特征值欧氏距离,以获得统计量并对过程进行监测。等人基于互信息对电力系统中的海量数据进行特征选择,并使用这些特征进行故障监测。现存的研究方法,在使用互信息对参数进行聚类时大部分都需要根据先验知识去确定聚类个数。但是在热工建模过程中,随着参数的增多,这种先验知识往往很难准确获得。而在分块建模中,参数聚类的准确与否会对后续模型监测效果产生重要影响。综上,为了提高模型的监测和诊断效果,提出了一种基于互信息自动聚类的分块建模故障诊断算法(,):()在参数之间互信息矩阵的基础之上,以训练数据的平均平方预测误差最小作为最佳聚类个数的评判标准,使用谱聚类算法完成对参数变量的自动聚类;()当监测到故障发生之后,首先对故障发生的子块进行定位,然后使用基于 的重构算法对故障参数进行定位并计算出对应的故障幅值。使用数学仿真案例和电厂实际高温再热器的过程数据对所提方法进行验证。基于互信息的自动聚类算法 互信息理论在信息论和概率论中,互信息是衡量随机变量之间相互依赖程度的度量,反映两个变量直接的相关性:(,)(,)(,)()()()式中:(,)和 的互信息值;()的边缘概率密度函数;()的边缘概率密度函数;(,)和 的联合概率密度函数。对于连续随机变量,式()中的求和被替换成了二重积分:(,)(,)(,)()()()可以看出,不同于相关系数,互信息不局限于实值随机变量,取决于联合分布(,)和边缘分布()()乘积的相关性。值越大表明 和 之间相关性越高,为 则表明 和 相互独立。并且通过互信息的定义可以看出,其具有对称性和非负性,即:(,)(,)()式中:(,)和 的互信息值。对于给定的样本 (,),样本 的热能动力工程 年互信息矩阵:(,)(,)()式中:(,)样本和之间的互信息值。谱聚类谱聚类 是从图论中演化出的一种聚类算法,相比于 等算法,对数据分布的适应性更强。其基本思想是把所有的数据看作空间中的点,这些点之间可以用边连接起来。距离较远点之间权重低,距离较近的点之间权重高。通过对所有数据点组成的图进行切图,让切图后不同子图之间的边权重尽可能低,而子图内的边权重尽可能高,从而达到聚类的目的。对于给定的样本 (,)和聚类数目,其计算步骤为:()计算样本的相似度矩阵。()根据相似度矩阵 构建度矩阵:()式中:矩阵 对角线的第 个元素。()根据式()计算拉普拉斯矩阵:()根据式()构建标准化的拉普拉斯矩阵:()之后,计算 最小的 个特征值所对应的特征向量。()将特征向量按行进行标准化,最终组成 维的特征矩阵。()对 中的每一行使用 聚类方法进行聚类,聚类的数目为,并最终得到新的类族,。因此,如果将样本 的互信息矩阵 作为相似度矩阵 进行谱聚类,那么最终得到的聚类结果就能够使每个子块参数之间的互信息最小,子块内参数之间的互信息最大,从而达到对样本参数进行聚类的目的。基于互信息的自动聚类算法传统的谱聚类方法需要根据先验知识去确定聚类个数,但是热工过程参数多,参数之间关系复杂,往往很难获取到完备的先验知识去确定最佳的聚类个数。对于故障监测模型来说,评价其精度的标准之一就是平方预测误差(,),其定义为:()()()式中:样本 的预测值。越小,表明模型的预测误差越小,训练模型的精度越高。因此,以训练模型的平均 最小为依据,自动确定谱聚类的最佳聚类个数,算法流程为:()输入:要进行聚类的训练样本 ,其中 为样本个数,为参数个数。()输出:聚类的类族。计算样本 的互信息矩阵;初始化聚类个数集合 ,初始 为空集合。,以 作为相似度矩阵,作为聚类个数,使用谱聚类对参数进行聚类并得到对应的聚类结果。对于每个类族中的参数样本,使用 方法进行建模,得到对应的 统计指标,根据式()计算对应的平均,并将其加入 集合之中。()式中:平均 值;聚类个数。()计算 集合中的最小值,将其对应的聚类个数 作为谱聚类的最佳聚类个数,并输出对应的聚类结果。建模诊断方法 回归算法最小角度回归算法,是为了解决稀疏回归问题而提出来的一种算法:|()式中:训练样本;训练标签;稀疏回归系数;向量中不为 的元素个数;样本个数。稀疏回归问题的本质就是进行高维数据的特征选择,在尽量保留数据原始特征的基础上,使得回归系数 尽可能稀疏,即有尽可能多的项值为。这样在提高模型精度的同时也可以大幅度降低计算量。作为求解稀疏回归问题的经典算法,其 第 期何 康,等:基于互信息的自动聚类算法在故障诊断过程中的应用思想与前向选择方法类似,都是逐步进行。但是对于 维的数据最多只需要 步就可以完成整个算法的迭代过程,原理如图 所示。图 算法的原理示意图 假设训练数据 (,),当前稀疏回归的预测值为,根据式定义相关系数()。()()()算法初始时,从图 可以看出,此时 更靠近,即()(),于是 算法会选择沿着方向更新:()式中:步长;更新后的预测值。而步长的选择则是使得 可以平分与的夹角,即()()。在完成第 次选择之后,第 次选择会沿着 的方向,直到残差 足够小为止,至此完成第 次的选择过程。此时对应的步长 集合即为所求的稀疏回归系数。对于高维数据,假设第 次选择之后,算法下一次的选择方向位于特征 和的角平分线上,则 算法在下一次特征选择时都会探索更多的可能方向,以使得下一个特征 和预测值 的相关系数()与()和()相等,然后再更新对应的稀疏回归的预测值。依次循环,直到残差足够小或者所有的变量已经选择完毕,算法终止。算法的具体求解过程可以参考文献。建模方法对于给定的样本 ,建模的流程:()求解 的协方差矩阵。()式中:样本个数。()对 进行特征值分解,得到对应的特征值 和特征向量。并根据累计贡献率选择主成分个数,再将对应的特征向量组成新的矩阵。()式中:累计贡献率;第 个特征值;参数个数。()计算样本 的 控制线。()|()式中:;置信度为 的正态分布控制上限。()对于给定的监测样本,计算其对应的 值,如果 则认为此时有故障发生。基于 的故障诊断方法当故障发生之后,就需要找到故障发生的方向以及故障幅值。故障发生之后,对应的重构监测指标可以写成:,(),()式中:,单位矩阵。进一步,可以将其写成:,(),?()式中:?;?;。而数学表达式形式和稀疏回归问题的目标函数完全一致。因此,可以将故障诊断问题转化为稀疏回归系数的求解问题,即可以用 算法来快速求解稀疏回归系数,即故障幅值。需要说明的是,在使用 算法求解式时,根据参考文献,如果找到了正确的故障参数和对应的故障幅值,就可以使得监测指标 降到控制线以下。即在每个迭代计算完成之后,首先计算对应的 值,如果满足 ,则终止计算,将得到的稀疏回归系数 作为故障幅值 的输出。基于互信息的分块模型故障监测与诊断随着建模参数的增多,对应的聚类子块数目和热能动力工程 年子块模型也会增多,无法得到一个直观的最终决策。因此,采用贝叶斯融合策略,将所有子块的统计量组合成一个新的()统计量来进行统一监测,下标 表示平方预测误差。对于监测样本,首先计算属于子块 的部分故障数据的后验概率。()()()()()式中:故障;()故障的概率。对于给定的置信度,分别计算故障和正常的条件概率。(),()()(),(),()式中:所属的子块 的 限值;,监测数据为时计算得到的限值;正常。根据全概率公式,可以得到()的计算式:()()()()()()对于 最终的贝叶斯融合 指标值为:,()式中:,第 个分组的贝叶斯 值。计算式为:,()()()()如果 ,则认为过程是正常的,否则认为过程是异常的。当监测到故障发生之后,先计算各子块的,值,其最大值对应的子块为故障发生的子块。之后对这个子块的 模型使用 故障诊断方法进行故障隔离,找出故障发生的方向和幅值。基于互信息的分块 建模诊断算法的流程如图 所示。具有步骤为:()对训练数据 进行归一化,并计算 的互信息矩阵。()以 的平均 最小为依据,使用谱聚类获取 的聚类结果。对每个子块使用 算法进行建模,并计算对应的阈值。()对于监测数据,计算其对应的 值,并判断是否有故障发生。若有故障发生,使用 算法进行故障诊断来确定故障参数和对应的故障幅值。图 算法流程图 数学仿真和实际案例应用 数学仿真为了验证所提出算法的有效性,建立数学模型。,|()式中:(,),(,),第 期何 康,等:基于互信息的自动聚类算法在故障诊断过程中的应用(,),(,),(,),(.,),(,),(,),(,)。式中:服从高斯分布的随机数据;噪声;系数矩阵。噪声,(,)。系数矩阵 为:|()生成 组样本并标准化,作为训练数据。图 分别展示了第 个、第 个和第 个参数与其他参数之间的互信息值。图 部分参数之间互信息值 以样本的互信息矩阵作为相似度矩阵,采用自动聚类算法对参数进行聚类,聚类的结果如图 所示。可以看出,本文的算法将原始数据分成了 类,并且将结构相似、相关性强的参数放在同一子块中,这与原始数据的分布特征也是完全吻合的。图 参数聚类结果 针对训练数据,生成两类模拟故障:()故障。对第 个参数,从第 个样本开始设置故障幅值大小为 的阶跃故障;()故障。对第 个参数,从第 个样本开始设置故障幅值大小为 ()的线性故障。为了进一步说明 算法的有效性,分别采用本文得到的最佳聚类个数 ()和 随 机 选 取 的 聚 类 个 数