温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
分贝
推断
DPG
机组
异常
数据
识别
研究
甘雨
第 卷 第期 年月动力工程学报 收稿日期:基金项目:国家自然科学基金资助项目()作者简介:甘雨(),女,甘肃定西人,硕士研究生,研究方向为风电机组状态监测以及风电机组数据采集与监控数据分析。电话():;:。文章编号:():基于变分贝叶斯推断的 风电机组异常数据识别研究甘雨,郭鹏,林立栋(华北电力大学 控制与计算机工程学院,北京 )摘要:为了准确识别和剔除风电机组在实际运行过程中产生的异常数据,以便为功率预测等工作提供有效的数据支持,通过分析风电机组运行数据散点在风速功率()坐标系中的分布特征,提出了基于变分贝叶斯推断的狄利克雷过程高斯混合模型异常数据识别方法。将试验机组 实测数据散点沿水平功率方向以一定间隔划分区间,采用能自适应确定最佳分量个数的狄利克雷过程高斯混合模型对每一个功率区间内的数据散点进行聚类,结合各高斯分量置信椭圆参数及数据散点在坐标系中的分布特征,对试验机组 各功率区间内的高斯分量及其聚类散点进行异常标识。结果表明:该模型克服了传统高斯混合模型需要人为确定分量个数的缺点,能够对风电机组异常数据进行准确识别。关键词:风电机组;异常数据识别;狄利克雷过程高斯混合模型;变分贝叶斯推断中图分类号:文献标志码:学科分类号:,(,):,()(),:;在风电机组实际运行过程中,由于风电机组的工况会随风速发生时变、户外恶劣环境导致机组各部件故障率高,以及人为限电等因素,原始风电机组运行数据中异常数据比例高,异常类型复杂,无法直接应用于风电机组出力建模预测或状态监测等工作中。对风电机组运行数据进行有效预处理,自动准确标识正常和异常数据,才能充分挖掘数据中的有用信息。王新等基于风速功率()数据的分布特征,提出了基于分区域()算法的异常数据识别清洗方法,在垂直风速方向划分区间,计算各分区内数据分布的标准差,将位于以外的数据识别为异常并剔除,但数据散点在垂直风速方向散布范围较大,数据处理效果欠佳。胡阳等基于 函数建立精细化置信等效功率边界模型,识别剔除异常数据。相比于传统法直接构造边界模型,该方法分区间建立边界模型,使得数据处理更加精细化。但单一 函数对复杂数据集的适应性有限,而混合 函数的参数拟合复杂,函数的差异性选取会导致计算边界存在误差,从而造成数据漏删或误删。等采用变点分组四分位法的组合来清洗风电机组异常数据,在风速分区内依次采用变点分组法和四分位法剔除不同类型的异常数据,但清洗后的数据分布形状呈显著锯齿状,正常数据误删率较高。赵永宁等提出一种基于四分位法和均值聚类组合的异常数据清洗方法,先采用横向和纵向四分位法剔除分散型异常数据,再使用均值聚类算法剔除堆积型异常数据,但在均值聚类算法中,聚类个数的确定较为困难且对数据处理结果影响较大。范晓泉等采用基于密度的噪声应用空间聚类()算法和局部离群因子()算法,将高密度分布区域内的运行数据识别为正常,离散孤立数据识别为异常,实现了分散型异常数据的有效识别,但对于密度较高的堆积型异常数据识别效果差,且 算法的参数取值及 算法的阈值设定比较困难。雷萌等采用无标签聚类轮廓系数对 算法中的关键参数进行自适应最佳选择,实现了无监督自主聚类和异常数据的识别。针对现有方法中存在的正常数据误删量大、堆积型异常数据识别效果差、聚类个数难确定等问题,笔者深入分析了风电机组运行数据在坐标系中的分布特征,提出基于分功率区间的狄利克雷过程高斯混合模型()聚类识别方法,自主确定每一个功率区间内模型的最佳分量个数,对数据散点进行准确聚类,并结合坐标系中数据散点的分布特征,实现异常高斯分量及聚类异常数据的识别,以实测数据为例验证了该方法的有效性,并与 算法进行异常识别效果对比。风电机组数据散点分布特征风电机组数据采集与监控()系统记录的原始运行数据中通常存在大量异常数据,由不同原因产生的异常数据散点在坐标系中的分布特征也不尽相同。通过分析坐标系中数据散点的分布位置及疏密程度,即可判定数据类型,进而对异常数据进行识别与清洗。以内蒙某风电场编号为 的 双馈风电机组为例,系统数据记录间隔为 ,选取试验机组 年月共计 条实测数据并绘制散点图,其分布情况如图所示。由图可以看出,风电机组的大量正常数据散点密集分布呈带状,称为功率主带。图试验机组 的散点分布 按照数据散点在坐标系中的分布形态,异常数据主要可分为类:()功率为的堆积型异常数据,表现为当风速大于切入风速时发电功率依然为,常由机组故障、计划外停机检修及通信设备故障等原因产生。若叶片故障停止转动,而机组的检测系统仍需耗电,则也可能出现功率为负动力工程学报第 卷值的情况。()限负荷异常数据,由于目前电力系统的调峰调频及输电能力不足,风电场按照调度计划进行弃风限电较为普遍,需要将机组控制在给定功率下运行,表现为低于额定功率的水平堆积型数据带。()分散离群的欠发型异常数据,其较孤立稀疏地分布在功率主带右侧,常由信号传输干扰、极端天气等随机且易恢复的因素产生,因此该类异常数据具有随机性和不确定性。此外,还有极少量位于功率主带左侧的超发型异常数据,通常由简单偶发的传感器故障如风速计卡滞导致。水平功率分区间 风电机组数据散点聚类分析 高斯混合模型()聚类是一种基于模型的软聚类方法,其应用广泛。是高斯分布的扩展,由个高斯分布函数加权组合而成,通过增加模型的分量个数可以逼近任意类型的概率分布。固定模型分量个数,的数学定义式为:(,),()()式中:,()为的概率密度函数,可表示为个高斯分布的加权组合;为样本数据集,其 中为维 观 测 数 据 向 量,为数据个数;为混合系数,;为第个高斯分量在混合模型中所占权重,其值满足且;为第个高斯分量的均值向量;为精度矩阵,即协方差矩阵的逆;(,)为第个数据在第个高斯分量下的概率密度函数。(,)()()()()采用 进行聚类时,需要人为确定混合分量个数,当值设定不佳使得模型的复杂度与实际观测数据规模不匹配时,将会导致过拟合或欠拟合现象,模型聚类不准确。相比于有限混合模型,无限混合模型能够自适应确定最佳分量个数,优化模型拟合度。因此,引入 ,以狄利克雷过程作为 混 合 分 量 权 重 的 先 验 分 布,将 有 限的分量个数无限化,模型复杂度可以随着观测数据集的变化自主调整,具有较强的灵活性和稳健性,聚类更加客观准确。狄利克雷过程是一个随机过程,常用 (,)来表示,其中为基分布,为集中度参数,用来描述从狄利克雷过程中采样的随机分布的离散化程度。使用折棍构造法 直观地表述狄利克雷过程,即定义个独立的无限随机变量序列和,满足:,(,)()式中:为折棍比例。则由折棍过程构造的随机分布可表示为:,()()式中:为示性函数。将折棍法构造的狄利克雷过程作为高斯混合分量权重参数的先验分布,建立了 ,该模型 包 含 无 限 数 量 的 高 斯 分 量。将 式()中 的,可得到无限的函数。,(),()()引入隐变量以表征观测样本属于 的某个高斯分量,当样本来自第个高斯分量时,否则。综上,满足如下概率分布:,(),()()的模型选择及参数估计在复杂的高维数据模型中,很难根据贝叶斯理论求得后验概率分布的精确解。采用变分贝叶斯推断算法 ,在传统贝叶斯理论与最大期望算法的基础上引入变分近似理论,指定模型参数的先验分布,为隐变量和模型参数的集合,即,通过对一簇形式简单的变分分布()进行循环迭代,实现变分下界()()的最大化,使得()无限近似参数的真实后验分布,从而获得模型最优参数,避免了复杂的积分运算,且参数估计准确率高、收敛速度较快。的变分下界为:()(),()()(),()()(),()()在 实 际 应 用中,为 了便 于处理,通常 对无限 进行有限近似,即采用狄利克雷过程截断的第期甘雨,等:基于变分贝叶斯推断的 风电机组异常数据识别研究折棍构造方法,根据观测数据集规模指定模型混合分 量 个 数 的 上 限,令(),则 有,且当时,。可任意初始化,模型的有效分量个数可以在变分贝叶斯推断过程中自动迭代确定。对于 来说,()可分解为:()()()()()()每个因子()的最优通解表达式为:(),()()式中:为常数项。每个参数的变分分布都需要涉及对其他分布期望的求解,与最大期望算法中的迭代步骤类似。通过交替迭代更新()中的超参数和求解期望个步骤 来 实 现 变 分 下 界 的 最 大 化,当 下 界 变 化 值()()足够小时,认为其趋于收敛,则停止迭代,丢弃权重极小的高斯分量,从而获得模型的最优分量个数及最优参数,。水平功率分区间 实测散点聚类在坐标系中,实测运行数据散点分布复杂,散布范围广,为了获得更精确的数据处理效果,应划分区间依次进行散点聚类及异常标识工作,降低数据处理难度。由于功率主带在垂直风速方向上的散布范围显著大于其在水平功率方向上的散布范围,同时额定风速以上和人为限负荷时数据散点均呈现水平分布,因此选择在水平功率方向划分区间。为保证每个区间内数据散点的个数充足,功率间隔取为,在 划分出 个功率区间。由于风电机组在额定功率附近处于满发状态,相应功率区间内的数据均为正常状态,无需处理;设置功率小于等于 的删除条件,功率为 的堆积型异常数据即可被剔除。选取个分别包含分散离群的欠发型异常数据和限负荷异常数据的典型功率区间来说明散点聚类及异常识别过程,并对额定功率以下各功率区间内的数据散点进行相同处理。在每一个水平功率区间中,各高斯分量置信椭圆的参数反映了聚类散点的位置及分布特征。置信椭圆的中心位置由高斯分量的二维均值向量决定,椭圆的大小和方向取决于高斯分量的协方差矩阵。设某水平功率区间内 第个高斯分量的协方差矩阵为,对其进行特征分解,可得到矩阵的特征值和对应的特征向量如下:()式中:为特征向量矩阵,其中特征向量、分别对应特征值、。根据累积卡方分布和椭圆的方程式定义可得,置信度为 的置信椭圆的长轴长度和短轴长度分别为:.().()置信椭圆长轴与坐标系水平轴正方向的夹角为:()()()式中:()和()分别为最大特征向量的水平和垂直分量。基于上述参数,可以准确绘制出 各高斯分量置信椭圆,实现散点的聚类。以 系统采集的试验机组 实际运行数据为例,分别采用具有固定分量个数的和基于变分贝叶斯推断的 对散点进行聚类,并进行对比分析。首先,选取存在少量分散离群的欠发型异常数据散点的 水平功率区间,该区间内共有 个数据散点,分布特征较简单。分别采用和 对数据散点进行聚类,结果如图所示。根据区间内散点个数及分布情况,人为设定的 分 量 个 数,则依 据 设 定()置信椭圆数据散点聚类()置信椭圆数据散点聚类图 和 聚类 动力工程学报第 卷的分 量 个 数 进 行 拟 合 聚 类,将 散 点 聚 为簇。的有效高斯分量个数在变分贝叶斯推断过程中可以自动确定,采用个高斯分量置信椭圆即可对区间内的散点进行有效聚类,号高斯分量对密集分布在 的风速区间内的正常数据散点进行聚类,号高斯分量置信椭圆形状及位置差异较大,聚类分散离群的欠发型异常数据散点。因此,传统需手动确定模型分量个数,主观性太强。能够根据聚类数据的分布自适应确定高斯分量个数,数据聚类更加客观准确。各高斯分量的权重及均值见表。号高斯分量对大量正常运行数据散点进行聚类,个分量的权重都较大,权重之和高达 ;且置信椭圆中心风速相近,均在 附近。而号高斯分量权重很小,仅为 ,且其均值风速为 ,即置信椭圆中心位置显著偏离号椭圆。上述参数反映出该类散点较孤立稀疏地分布在正常散点右侧,说明号高斯分量对分散离群的欠发型异常数据散点进行聚类。表 水平功率区间 分量参数 分量编号权重均值风速()均值功率 在 水平功率区间内,除密集分布在 的风速区间内的正常数据散点外,功率主带右侧还存在显著呈水平带状分布的限负荷异常数据散点,分别采用 和 对散点进行聚类,结果如图所示。该功率区间内的数据散点总计 个,数量较少,人为预先设定,则将散点聚为类,而 自适应确定个高斯分量即可对散点进行有效聚类。相比于固定个高斯分量的 聚类,简单且不影响聚类准确性;同时,采用 进行所有数据散点的聚类时,人为设定的分量个数无法匹配所有功率区间内的数据量及分布情况,使得模型