温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
Transformer
水电
机组
异常
指标
预测
应用
林烨敏
Zhejiang Electric Power第 42 卷 第 1 期2023 年1 月Vol.42,No.01Jan.25.2023Transformer在水电机组异常指标预测的应用林烨敏1,王宁1,邱荣杰1,汤宇超1,周冠群2,李泽洲2,王中亚2(1.国网浙江省电力有限公司紧水滩水力发电厂,浙江 丽水 323000;2.宁波工业互联网研究院,浙江 宁波 315016)摘要:水电站机组日常检修、维护及异常检测的工作量巨大,传统人工监测的工作方式容易导致异常问题被遗漏或误判,采用深度学习算法对数据建模并监测异常情况可以降低成本,提升安全可靠性。结合Transformer网络对长期序列高效准确建模的能力以及GAN(生成对抗网络)架构的数据生成训练策略,利用TransGAN模型对水电机组监测数据进行生成式建模,并主动发现异常数据点。TransGAN模型在水电站机组实测中达到了97.76%的查准率和99.23%的查全率,异常点检出延迟低于0.1 s,实现了实时高精度异常监控功能。关键词:水电机组;异常监测;数据降维;Transformer;生成对抗网络DOI:10.19585/j.zjdl.202301014 开放科学(资源服务)标识码(OSID):Application of Transformer in anomaly indicators forecasting of hydropower unitsLIN Yemin1,WANG Ning1,QIU Rongjie1,TANG Yuchao1,ZHOU Guanqun2,LI Zezhou2,WANG Zhongya2(1.Jinshuitan Hydropower Plant of State Grid Zhejiang Electric Power Co.,Ltd.,Lishui,Zhejiang 323000,China;2.Ningbo Industrial Internet Institute,Ningbo,Zhejiang 315016,China)Abstract:The workloads of routine repair,maintenance,and abnormality detection of hydropower units are heavy.Therefore,traditional manual monitoring may leave out or misjudge abnormalities.Deep learning algorithms are used for data modeling and monitoring abnormalities to reduce costs and improve safety and reliability.With the help of the Transformer neural networks,the efficient and accurate modeling capacity of long-term sequences and the GAN(generative adversarial network)architecture data are used to generate a training strategy.A TransGAN model is used for generative modeling of the measured data of hydropower units and proactively detects abnormal data points.The TransGAN model achieves a detection accuracy rate of 97.76%and a recall rate of 99.23%in hydropower data measurement.The anomaly detection delay is less than 0.1 s.The real-time high-precision anomaly monitoring function is realized.Keywords:hydropower units;anomaly detection;dimensionality reduction;Transformer;GAN0引言在水电站日常运维管理中,对机组运行的实时数据进行异常监测有着至关重要的作用,可以避免水电运行安全事故进一步扩大,并且在指导机组进行状态检修等方面也有重要意义。国网浙江紧水滩电厂是国家开发瓯江流域龙泉溪干流梯级发电的第一级水电站,总容量30万kW,于二十世纪八十年代建成。结合企业发展及数字化改革要求,传统水电厂向更加智慧的现代化水电厂转型是必然趋势,这也符合水电厂向“无人值班、远程集控、智慧运行”目标推进的要求。水电机组的异常监测管理是水电智慧运行的核心环节。目前,紧水滩电厂已全面完成水轮机、发电机定子及自动化监控系统改造,实现生产数据自动采集,整体自动化水平较高,机组本身的传感数据丰富,可为机组整体运行状态进行异常分析建模提供数据基础。水电机组的故障通常发生在轴系、叶轮、叶片、导轴承等部位,主要故障包括油箱油位升降、油温升高、轴瓦平均温度升高等1。本文采集的系统数据包含大部分待检测的故障部位。时序异常检测是时序分析问题重要的分支领基金项目:国网浙江省电力有限公司科技项目(B311JS210002)第 1 期林烨敏,等:Transformer在水电机组异常指标预测的应用域,自十九世纪开始,统计学领域就开始对数据中的异常检测展开研究2。通过对时序序列进行模式识别,从中挖掘异常序列片段特征并输出异常片段或报警信息。异常特征通常包含异常点、离群点、错误值等类型,其中异常点和离群点是常见的时序异常检测目标。近年来随着机器学习和深度学习的发展,时序异常检测的准确率获得不断提升,方法也获得极大程度的补充。Breunig 等人于2000 年提出的LOF(局部离群因子)是基于密度估计的方法3,Scholkopf等人于2001年提出的单类SVM(支持向量机)是基于聚类的方法4。这些基于传统机器学习的方法在一定程度上解决了部分异常检测的问题,但很难泛化到大规模数据以及多样化的异常特征提取。基于深度学习RNN(循环神经网络)的方法则进一步提升了长时间序列的记忆和建模能力以及在大规模数据上的泛化性能。Ya Su等人于2019年提出以随机循环神经网络算法解决多维时序异常检测问题5,Lifeng Shen 等人于 2020 年提出THOC(时间分层一类)网络,融合多维时序特征,进一步提升异常检测精度和效率6。近两年,基于自监督算法模块构建的Transformer模型在自然语言处理任务中取得业界最好的效果。相比基于循环模块的 RNN 系列算法,Transformer模型完全采用注意力机制,能够避免计算隐含层特征信息时过度依赖前一时刻隐含状态和当前时刻输入的问题,更好地建模远距离上下文隐含关系7,极大程度地提成了序列建模和预测的效果。同时,基于Transformer的时序异常检测也获得了一定发展。Shaohan Huang 等人于2020 年提出的 HitAnomaly 模型构建了层次分级Transformer8,解决系统日志中的序列异常问题。Zekai Chen等人于2021年使用Transformer模型学习多维时间序列中的图结构,解决了时序异常检测问题9。以上方法在大规模时序数据中包含较少的异常点或离群点检测问题时通常表现不足,并且需要标注大量异常片段样本序列,增加了人力成本。而基于生成式GAN(生成对抗网络)10的方法则能够在无监督的场景下,通过对大规模数据集进行序列特征建模,从而很好地发现少量异常片段,在实现高精度异常报警的同时,降低人力标注成本11。结合水电机组日常运维中分析运行数据存在的周期性和趋势性异常,为尽早发现和切断机组故障,结合Transformer模型对大规模长序列特征提取和建模的能力,以及GAN在生成算法高效的训练方式以及无监督自训练的能力,提出TransGAN模型,用于在大规模水电运行数据上进行序列异常检测。本文将从机组运行数据分析、TransGAN模型构建以及结果验证3个方面进行具体论述和分析。1数据分析水电机组系统采用InfluxDB数据库记录不同传感器的时序监测序列数据,通过读取接口可以获取与需要的时间段对应的多维度监测数据。本文所使用的水电站机组数据对应时间段为20212022年,数据包含60个维度不同的监测数据。由于数据写入水电机组时序数据库系统时,每个时刻点的数据均会与前一时刻点数据进行比较,只有当数值发生变化、超过阈值时,才写入该时刻点数据,如此虽然可以大幅节省存储空间,但读取到的数据存在较多缺失值。60个维度的监测指标包括各组件的温度、电流、电压、水压、水流量、油压和振幅等。根据水电机组的工作原理,可以推断单一组件各项指标间以及各个组件不同指标间必然存在隐含的关联性。本文所采用的异常序列监控方法仅需要对关键监测指标进行异常分析即可,与关键指标存在隐含关联性的其他指标存在相似异常属性,重复监测会导致系统处理压力过大,负载增加,浪费计算资源、降低监测实时性。因此前期的数据分析需要观察指标互相关性,对数据做降维处理。1.1缺失值处理如前文所述,水电机组后台系统实时录入所有监测指标,系统I/O压力较大,一般存储的数据类型为浮点型数据,占用空间高。为了降低系统I/O和存储压力,连续监测指标没有变化的数据通常不写入数据库,因此导致后期采集的数据存在大量缺失值。111第 42 卷实验过程中对采集到的60个维度的监测指标数据缺失值比例进行统计,如图1所示(监测指标名称通过序列ID替代),可以观察到:由于缺失值占比超过50%的监测指标占比较高,缺失值对降维分析和模型训练均有很大影响;同时,由于待分析的监测数据均为数值型数据,不存在分类指标或文本类型指标数据。因此,本文实验中对缺失值的处理将按照上文提到的系统实际存储行为完成缺失值填充,填充方法为:根据实际水电系统数据写入规则以及避免在插值过程中引入额外的人为误差(波动幅值一般源于环境噪声或探测器电子学噪声),如果传入的监测指标值与上一时刻非空(若为空值,则迭代回溯)的指标值相同,则录入空值,否则录入当前值。因此填充时可以直接将前一时刻数据值直接替换当前时刻缺失值,无须通过传统的补充平均值、补零等方式填充。通过以上方法填充前一时刻存在的记录值,填充后数据头部依然存在无法被填充的缺失值,但相对一年时间数据长度占比极小,如图2所示。从图2可以看到,填充后头部缺失数据占比极小,平均约占总体数据量的0.02%,对后续序列特征变化特性建模的影响极小。因此实验中直接移除头部无法填充的数据段。1.2降维分析在时序序列数据分析中,获得数据并进一步进行数据分析之前,需要先进行特征降维,避免因特征维数过高导致的维数灾难,同时也可以使数据分析获得更好的性能。水电机组数据中,存在隐形高度相关的监测指标维度较高,例如对同一设备同时监测的电压和电流值等类似的监测对,在其中一个指标发生异常的同时,另一个指标必然发生异常,可能为正相关或负相关关系,在实际监测时只需要对其中一个指标进行监测即可12。一般通过数据采集时以人工选择的方式提取互不相关的独立监测指标用于数据分析,但人工选择非常耗费时间,并且存在漏筛选或过度筛选的问题。因此,本文对采集到的全量特征维度利用机器学习方法提取主要特征,以降低人工成本和错误率,提高数据链路自动化处理能力。常见的数据降维方法包括PCA(主成分分析)、随机森林特征选择、低秩表示等。PCA是一种常见的无监督学习方法,主要利用正交变换把由线性相关变量表示的少量观测数据转换为由线性无关变量表示的数据,最终获得的线性无关的变量即为主成分13。随机森林算法是一种基于决策树的集成学习算法。决策树的每个节点都是关于某种特