温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
多元
数据
特征
改进
随机
智能
配电网
异常
辨识
投稿网址:www stae com cn2023 年 第23 卷 第5 期2023,23(5):02007-09科学技术与工程Science Technology and EngineeringISSN 16711815CN 114688/T收稿日期:2022-06-17;修订日期:2022-11-15基金项目:中国电力科学研究院有限公司武汉分院项目(JLW51202100757)第一作者:李强(1996),男,汉族,山西长治人,硕士研究生。研究方向:电力信息物理系统安全。E-mail:liqiang6414126 com。*通信作者:张立梅(1972),女,汉族,河北保定人,硕士,副教授。研究方向:新能源规划、智能优化算法。E-mail:lmzhang09126 com。引用格式:李强,张立梅,白牧可 基于多元数据特征和改进随机森林的智能配电网异常数据辨识 J 科学技术与工程,2023,23(5):2007-2015Li Qiang,Zhang Limei,Bai Muke Identification of abnormal data in smart distribution network based on multivariate data features and im-proved random forestJ Science Technology and Engineering,2023,23(5):2007-2015基于多元数据特征和改进随机森林的智能配电网异常数据辨识李强1,张立梅1*,白牧可2(1 河北农业大学信息科学与技术学院,保定 071000;2 中国电力科学研究院有限公司,北京 100192)摘要智能配电网异常数据的准确辨识对于提高电网安全运行和调度具有重要意义。提出一种基于多元数据特征和改进随机森林算法的异常数据辨识方法。首先,在分析异常数据辨识过程的基础上,利用 K-means、箱线图法等提取原始数据异常特征;考虑配电网技术需求,挖掘电网运行的衍生特征。其次,针对类不平衡问题,提出结合过采样方法的混合 Bootstrap 抽样和加权投票策略,引入信息增益率优化最优特征选择,增加算法稳定性。最后,仿真分析了决策树数量和衍生特征对算法辨识性能的影响,并与支持向量机、神经网络等算法进行性能比较。实验结果表明所提方法有效、合理,具有优异的辨识性能和效率。关键词异常数据辨识;随机森林;多元数据特征提取;智能配电网中图法分类号TM769;文献标志码AIdentification of Abnormal Data in Smart Distribution Network Based onMultivariate Data Features and Improved andom ForestLI Qiang1,ZHANG Li-mei1*,BAI Mu-ke2(1 College of Information Science Technology,Hebei Agricultural University,Baoding 071000,China;2 China Electric Power esearch Institute Limited Company,Beijing 100192,China)Abstract Accurate identification of abnormal data in smart distribution networks is important for improving safe operation and dis-patching of power grids An anomaly data identification method based on multivariate data features and improved random forest algo-rithm was proposed Firstly,on the basis of analyzing the anomaly data identification process,the original data anomaly features wereextracted by using K-means and box-plot method Considering the technical requirements of the distribution network,the derived fea-tures of the network operation were explored Secondly,a hybrid Bootstrap sampling combining oversampling methods and weighted vot-ing strategy was proposed for the class imbalance problem The information gain rate was introduced to optimize the optimal feature se-lection and increase the stability of the algorithm Finally,simulations were conducted to analyze the effects of the number of decisiontrees and derived features on the algorithm detection performance,and the performance was compared with support vector machine andneural network The experimental results show that the method proposed is effective and reasonable,and has excellent detection per-formance and efficiency Keywords anomaly data identification;random forest;multivariate data feature extraction;smart distribution networks智能配电网在集成信息通信技术和智能感知设备后,成为复杂的信息物理系统,能够实现实时感知、信息服务和动态控制功能。但是,对信息技术和网络物理设备的高度依赖也使智能配电系统面临严峻的网络威胁,导致设备、服务和系统异常 1,从而导致大量的异常数据破坏了真实量测数据的完整性和可用性。当这些异常数据绕过监控机制,参与电力可靠性评估、电网运行状态估计和电网调度管理等,会造成巨大的经济损失和严重的安全问题。开展异常数据辨识可以提高智能配电网的防御能力,减少电力企业和用户的经济损失。在异常数据辨识研究中,特征提取是进行准确辨识的必备环节。文献 2提取波动性、趋势性和变动性特征对电力数据时间序列进行表征;文献 3采用分段投稿网址:www stae com cn线性表示方法描述电力数据的动态特性;文献 4通过计算杰卡德相似系数进行相似性比较,从而提取异常数据特征。现有工作侧重于多维数据的降维处理,忽略了电网结构和电力数据的关联关系,对电力异常数据的特征表示还需完善和提高。作为异常数据辨识的主要内容,辨识方法的选取对提高辨识准确性和效率也具有关键作用。概率统计方法5 是早期电力异常数据检测中常用的方法,然而这类方法在时间复杂度和辨识准确性上的表现难以满足智能配电网的要求。近年来,具有多维数据处理能力的机器学习分类方法在电力数据异常检测中得到了广泛应用,文献 6 基于自动编码器检测由电源管理单元(power management unit,PMU)数据操纵攻击产生的电力异常数据,构建了分布式检测框架;文献 7 提出一种基于改进极限学习机的电力系统异常数据检测模型,但是没有实现在线检测;文献 8 结合主成分分析和改进局部离群因子算法检测异常电力交易数据,针对异常行为特征实现分阶段检测,能有效识别电力市场异常行为。基于机器学习的辨识方法在智能电网中发挥着重要作用,但是这些方法缺少对配电网数据中类不平衡问题的研究,导致异常数据的辨识能力弱。现提出一种基于多元数据特征和改进随机森林算法的智能配电网异常数据辨识方法。首先从原始数据和衍生数据两方面进行特征分析,利用三次样条插值、K-means 聚类和箱线图法提取原始数据特征,进而考虑配电网运行特性,挖掘电压越限、三相不平衡等衍生数据特征。其次,基于随机森林,从 Boot-strap 抽样、决策树构造和辨识结果投票等方面对算法进行改进,以降低类不平衡对模型性能的影响。最后,通过仿真实验证明该方案的有效性。1异常数据辨识过程异常数据辨识过程主要包括数据获取、数据清洗、异常数据特征提取和异常数据辨识 4 个环节,如图 1 所示。数据获取:获取具有足够规模、可靠来源和准确性的数据对于确保研究的完整性至关重要。智能电表、变压器等终端设备在电网信息采集、存储和传输过程中发挥着重要作用,同时面临严峻的网络威胁,是获取量测数据的主要途径。采集的数据包括三相电流、三相电压和功率。数据清洗:采用缺失值填充和离群值检测方法对原始数据进行清洗,能够提升数据质量,避免由于电力设备异常、人工操作失误等原因产生的缺失值和离群值对异常数据检测的干扰。采用三次样条插N(A)表示随机森林中第 N 棵决策树对样本 A 的辨识结果;F(A)表示随机森林对样本 A 的辨识结果图 1智能配电网异常数据检测Fig.1Anomaly data detection for smart distribution network值法和箱线图法进行数据预处理。特征分析:由网络攻击产生的异常数据具备隐蔽性,能够利用与原始测量值一致的分布特性绕过异常数据检测。因此,从原始数据和衍生数据两方面进行特征分析,能够进一步提高异常数据的辨识准确性。从电压越限、三相电压不平衡和三相电流不平衡三方面提取衍生特征。异常数据辨识:在完成特征提取之后,利用清洗后的量测数据和衍生数据构造样本集,采用改进随机森林算法训练异常数据辨识模型,实现对样本数据的准确识别。2异常数据特征分析智能配电网是集成计算、网络和物理设备的多维复杂系统,也为异常数据的产生和渗透创造了条件。风电、光伏等清洁能源的接入,增加了智能配电网的不确定性和波动性,导致异常数据特征的变化。为了提高异常数据辨识准确性,从原始数据特征和衍生数据特征两方面进行分析。原始数据是从终端设备采集的历史数据,衍生数据考虑配电网运行的性能要求,包括电压限制、功率平衡和电网结构等不同的约束,基于历史数据获得。2.1基于历史数据集的原始数据特征原始数据特征从样本数据中提取,与相电压、相电流和三相负载功率有关,可以表示为 F1=UA,UB,UC,IA,IB,IC,P。不同的配电网量测数据具备不同的特征,导致其在一定范围内波动 9,如图 2 所示。为了构建原始数据特征,采用三次样条插值填充缺8002科学技术与工程Science Technology and Engineering2023,23(5)投稿网址:www stae com cn图 2不同数据的区间时间序列Fig.2The interval time sequence of different data失值,K-means 聚类被用于获取区间时间序列,而箱线图法则负责剔除异常值和提取原始数据的边界特征。原始数据特征的构建过程如下。步骤 1样本数据集的预处理。考虑到存在多重数据缺失,采用三次样条插值方法对缺失值进行填充10。假设序列 X=x1,x2,xp,xn,根据式(1)进行区间 xi,xj 的缺失值填充。S(xp)=(xj xp)36ei+1+(xp xi)36e3