温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
聚类分析
架构
基于
遗传
算法
电池
异常
数据
检测
方法
马速良
第 47 卷 第 2 期 电 网 技 术 Vol.47 No.2 2023 年 2 月 Power System Technology Feb.2023 文章编号:1000-3673(2023)02-0859-09 中图分类号:TM 721 文献标志码:A 学科代码:47040 聚类分析架构下基于遗传算法的电池 异常数据检测方法 马速良1,武亦文1,李建林1,周琦2,李雅欣1(1储能技术研究中心(北方工业大学),北京市 石景山区 100144;2国网江苏省电力有限公司电力科学研究院,江苏省 南京市 211103)Anomaly Detection for Battery Data Based on Genetic Algorithm Under Cluster Analysis Framework MA Suliang1,WU Yiwen1,LI Jianlin1,ZHOU Qi2,LI Yaxin1(1.Energy Storage Technology Engineering Research Center(North China University of Technology),Shijingshan District,Beijing 100144,China;2.Power Research Institute,State Grid Jiangsu Electric Power Co.,Ltd.,Nanjing 211103,Jiangsu Province,China)ABSTRACT:Anomaly detection technology has an important engineering practical significance for battery data feature mining,retired battery cascade utilization screening grouping and battery operation state safety evaluation.Therefore,this paper proposes a new method of genetic optimization anomaly detection based on the cluster analysis frame.In this method,the cluster analysis is focused on as a center for anomaly detection and the swarm intelligence optimization algorithm is applied as an effective way to solve the global optimization problem.By reasonably designing objective functions to describe data anomaly,the effective detection of abnormal data is realized.Finally,taking the abnormal state detection of the battery data as an example,by comparing the existing methods and the abnormal detection results under the three clustering ideas proposed in this paper,the advantages of the proposed method in its personality,flexibility and accuracy of abnormal detection are verified,especially showing a better detection effect in the clustering optimization detection process based on density idea,It provides a new idea for real-time battery abnormal state detection and data cleaning.KEY WORDS:battery abnormal detection;feature engineering;cluster analysis;genetic optimization algorithm 摘要:异常检测技术对电池数据特征挖掘、退役电池梯次利用筛选分组以及电池运行状态安全评估均具有重要的工程实际意义。为此,该文提出一种基于聚类分析架构的遗传优化异常检测新方法,其特点在于以聚类分析进行异常检测为核心,群智能优化算法被用于解决全局寻优能力的有效途径,通过有针对性地设计目标函数用于描述数据异常状态,实现了对异常数据的有效检测。最后以电池数据异常状态检 基金项目:北京市自然科学基金资助项目(21JC0026)。Project Supported by Natural Science Foundation of Beijing(21JC0026).测为例,通过对比已有方法和该文所提 3 种聚类思想下异常检测的结果,验证了所提方法在异常检测个性化、灵活性以及准确度的优越性,尤其是基于密度思想的聚类优化检测过程表现出更为优异的检测效果,为实时电池异常状态检测和数据清洗提供了新思路。关键词:电池异常检测;特征工程;聚类分析;遗传优化算法 DOI:10.13335/j.1000-3673.pst.2021.1871 0 引言 在退役动力电池梯次利用及储能电池应用安全的背景下1-2,运用大数据科学挖掘储能电池数据发展规律具有重要意义。作为数据科学的热门方向,异常数据检测技术可用于数据清洗3-4降低异常数据对数据分析的干扰或者用于预警保护5-6提升设备应用的安全性。因此,建立面向应用需求的有效异常检测技术已经成为数据研究的关键问题之一。作为异常检测技术的常见应用模式,数据清洗是数据挖掘的基础和前提,国内外研究人员提出众多异常检测方法以实现对电力设备和新能源数据的有效清洗。例如文献7和8利用无监督学习的方式分析输变电设备和电量数据的异常状态,完成对“脏”数据的还原解析和有效清除;在光伏数据方面,文献9提出滑动标准差的统计模型、文献10采用高斯混合模型形成对光伏阵列数据异常样本的可靠辨识,有效地降低了异常数据对光伏预测精度的影响;而在风电机组的异常数据识别中,通过 风特性下的 Copula 函数计算概率功率曲线11和云分段最优熵值12提高了风电异常数据识别准确率。在储能电池的异常检测研究中,异常检测倾860 马速良等:聚类分析架构下基于遗传算法的电池异常数据检测方法 Vol.47 No.2 向于对电池健康状态和故障情况的分析,具体侧重于电池健康特性表征的估算以及检测诊断方法两个方面。在电池健康特性表征中,围绕电池电芯性能13-14、健康因子提取方法15-16以及电池状态估计17-18等方面开展研究,这些研究为电池异常检测提供了有效地数据和特征来源,是电池异常状态检测实施应用的基础。另一方面,相关研究人员开展了电池异常检测方法和故障诊断技术研究,如文献19应用孤立森林算法完成异常电池数据检测,并提出一种基于区块链的数据源评分机制,提高了数据质量,满足了健康估计的要求;文献20从电池容量衰减趋势入手,提出利用一类支持向量机模型检测电池异常样本,实现电池衰退早期的异常状态检测;文献21提出了一种不依赖离线测试数据的新型基于时间序列聚类电池异常检测方法,提高了电池维护效率,并降低了电池运行异常的风险;文献22开发基于多维特征和混合聚类算法的健康状态综合评分体系,形成异常电池的筛选评估;文献23从有/无模型的角度综述了锂离子电池的诊断方法,论述了电池异常信息下的故障诊断策略;文献24基于电池充电电压曲线距离,采用局部离群因子检测方法诊断电池不一致单体,实现了对异常电池的故障识别。文献25和26从锂电池可靠性测试角度出发,分别论述了基于回归模型、马氏距离以及序列概率检验等多种检测方法用于电池异常退化行为的分析,实现对不健康电池可靠性的有效检测。从上述已有相关研究可以看出,多种异常检测技术已应用于储能电池、电力27和能源28等众多领域29,但不同异常检测方法差异性较大,难以实现定制化个性服务,在储能电池领域应用尚不完善。因此,本文提出一种新型基于聚类分析架构下的遗传优化异常检测方法,并以储能电池异常检测应用为场景展开讨论。首先,讨论基于统计模型的异常检测方法及优缺点,构筑本文在聚类分析框架下异常检测方法的实现流程;然后,围绕本文所提方法的个性化异常检测的特色及核心环节,即异常检测优化的目标函数,设计三种应用倾向的目标函数;最后,在电池数据的特征工程基础上,通过对不同目标函数及经典方法的检测结果分析对比,验证了本文所提方法在个性化异常检测服务中的优越性,为储能电池异常检测奠定了应用基础。1 异常检测概述与遗传优化异常检测原理 1.1 异常检测常用方法分析 在数据挖掘中,对不匹配事情预期模式或偏离观测数据本身特点的离群点、奇异值进行识别,称之为异常检测。如图 1 所示,假设一组数据样本在特征 x1上的数值分布,根据传统的统计模型如箱型图和正态分布模型的 3准则,可以实现对特定异常样本数据的评判。在箱型图中异常数据被定义为超出(Q13QIQR,Q3+3QIQR)范围的数据,其中 Q3和 Q1分别为上、下四分位数,QIQRQ3Q1。该方法优势在于可以简单直接辨识出异常数据,且不受异常值影响,无需假设数据样本的分布函数,但是中位数代表总体水平具有一定局限性。而另外一种统计模型正态分布模型的 3准则,具备明确的统计理论基础,但需要样本数据符合假设分布条件,当数据维度复杂且存在独立和非独立关系时,概率分布假设难以成立。因此,以机器学习中聚类分析为代表的异常检测方法被大力研究应用。图 1 异常数据样本示意图 Fig.1 Schematic diagram of abnormal data sample 1.2 遗传优化异常检测原理与实现 本文所提出的异常检测方法归属于聚类分析架构下的一种利用遗传群智能算法迭代优化的异常检测方法。不同于已有基于统计模型方法,本文方法是一种以聚类思想为蓝本的异常检测方法;同时,不同于传统基于邻近度和密度的聚类分析异常检测方法,本文通过借鉴其对于异常样本的描述方式构筑个性化目标函数,以遗传优化算法实现优化检测过程;不同于经典遗传优化算法解决优化问题的应用方式,本文是应用了遗传算法求解全局最优的编码操作过程,不同之处在于灵巧地改变了遗传个体二进制编码的应用方式,实现以编码位识别异常的新方式,同时不同于遗传算法优化常规聚类方法参数的模式,本文方法优化过程本身实现了聚类检测过程。本文所提聚类分析架构下的遗传优化异常检测的示意图,如图 2 所示。定义n个数据样本提取m个特征后可以形成集合,其形式为 y(i),i1,2,n,y(i)y1(i),y2(i),ym(i),其中 yj(i)表示第 i 个数据样本的第j个特征值,y(i)表示由m个特征值组成的特征向量。第 47 卷 第 2 期 电 网 技 术 861(1)(2)(3)(n)(i)m个特征变量y1(2)y2(2)ym(2)y1(3)y2(3)ym(3)y1(n)y2(n)ym(n)y1(i)y2(i)ym(i)特征工程后的数据集合编码位(i)0或者1(0-异常,1-正常)对应y1(1)y2(1)ym(1)检测出正常数据集合否是是遗传选择、交叉、变异等操作更新编码是否停止输出检测结果计算异常检测目标函数值1?检测分组z1(2)z1(j)zm(2)zm(j)图 2 聚类架构下遗传优化异常检测方法示意图 Fig.2 Schematic diagram of