温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
历史数据
挖掘
辅助
场景
分析
电网
缺失
数据
填补
方法
正阳
Electrical Automation电气自动化 2023 年第 45 卷 第 1 期电力系统及其自动化Power System Automation基于历史数据挖掘辅助场景分析的电网缺失数据填补方法朱正阳,袁文辉,伍乙杰,杨锡勇,陈光宇(南京工程学院 电力工程学院,江苏 南京211167)摘要:针对当前电网数据填补精度不足的实际问题,提出一种基于历史数据辅助场景分析的电网缺失数据填补方法。首先通过波动互相关分析选取具有强相关的属性数据作为缺失属性数据填补的参考依据,并通过组合权重进一步量化其关联程度;其次,在负荷场景分析的基础上引入动态时间弯曲距离来衡量数据源之间的相似度;最后,结合动态时间弯曲距离与组合权重,找出含有最相似数据的日期,使用该日同一时刻的数据来替代缺失时刻数据。算例采用实际电网数据进行仿真分析,结果表明,提出的数据填补方法具有良好的填补效果。关键词:缺失数据填补策略;波动互相关分析;熵权分析;场景分析;动态时间弯曲距离DOI:10 3969/j issn 1000 3886 2023 01 020 中图分类号 TM714 文献标志码 A 文章编号 1000 3886(2023)01 0072 03Method for Filling Missing Data in Power Grid Basedon Historical Data Mining Auxiliary Scenario AnalysisZhu Zhengyang,Yuan Wenhui,Wu Yijie,Yang Xiyong,Chen Guangyu(School of Electric Power Engineering,Nanjing Institute of Technology,Nanjing Jiangsu 211167,China)Abstract:Aiming at the actual problem of insufficient filling accuracy of current grid data,a method for filling missing grid data based onhistorical data-assisted scenario analysis was proposed Firstly,the attribute data with strong correlation was selected as the referencebasis for filling the missing attribute data through fluctuation cross-correlation analysis,and the correlation degree was furtherquantified by combination weight;secondly,based on the load scenario analysis,the dynamic time bending distance was introducedto measure the similarity between data sources;finally,combine with the dynamic time bending distance and combined weight,findthe date with the most similar data,and use the data at the same time of the day to replace the missing time data The actual powergrid data are used for simulation analysis The results show that the proposed data filling method has good filling effectKeywords:missing data filling strategy;fluctuation cross-correlation analysis;entropy weight analysis;scenario analysis;dynamic timebending distance定稿日期:2021 11 01基 金 项 目:南 京 工 程 学 院 2021 年 大 学 生 科 技 创 新 基 金 项 目(TB202104044)0引言在现代智能电网中,监测数据缺失难以避免。设备故障和人为操作失误等均会导致数据丢失1。数据缺失会缩减样本信息,提升数据分析难度,若处理不当则会无法挖掘出有效信息,甚至挖掘出错误信息2。因此,研究如何正确处理缺失数据,具有重要意义3。目前,已有多种算法实现缺失数据填补,文献 4 将 K-NN 算法与支持向量机结合,通过缺失数据的 k 个最近邻居的标签来推测缺失数据自身的标签。文献 5提出了一个包含双学习模型的对抗生成网络,基于缺失数据的两种情况,即特征完全缺失和特征部分缺失的情况,分别通过时空相关方法和特征相关方法来填补缺失数据。本文以电网中各属性数据之间的相关性为切入点,提出一种基于历史数据辅助场景分析的电网缺失数据填补方法。首先,利用波动互相关算法选取具有较强相关性的属性数据作为缺失属性数据填补的参考依据,并利用熵权分析方法给强相关属性配以相应的组合权重。其次,在负荷场景分析的基础上通过动态时间弯曲距离衡量历史数据与缺失时刻数据的相似程度。最后,将动态时间弯曲距离与组合权重相结合,找出含有最高综合相似度数据的日期,用该日同一时刻的数据替代缺失时刻的数据,完成电网缺失数据的填补。算例以随机删除单个、多个数据的电网负荷数据集合作为填补对象,将本文的缺失数据填补算法和最大期望值(expectation-maximum,EM)算法进行填补精度对比。结果表明,本文提出的方法能有效填补电网缺失数据。1基于波动互相关算法的多属性相关性分析波动互相关分析算法6 是波动分析算法在研究两个时间变量相关性问题上的推广,即分析两个时间序列数值之差在不同采样步长下的变化情况。在计算出含缺失数据属性与其他属性的波动互相关系数后,为避免相关性较低的属性数据影响缺失属性数据填补结果,设定波动互相关系数的比较阈值,若已知属性数据与缺失属性数据的波动互相关系数高于比较阈值。则认为该已知属性数据参考价值较高并保留,否则舍弃。经比较阈值判定后,剩余 M 个属性属性称为 M 个 Know 属性,对这 M 个 Know 属性从 1 至 M 进行编号,将含有缺失数据的属性称为 Unknow 属性。27Electrical Automation电力系统及其自动化Power System Automation电气自动化 2023 年第 45 卷 第 1 期电网数据中,各 Know 属性数据与 Unknow 属性数据的相关性决定了其参考和利用价值,故需要计算缺失属性的组合权重来确保其合理的利用7。Know 属性 j 与 Unknow 属性的组合权重wj通过式(1)计算。wj=cjMj=1cj(1)式中:cj为 Know 属性 j 与 Unknow 属性的波动相关系数。2基于负荷场景分析的数据综合相似度计算缺失数据的填补需要遍历含缺失数据节点的纵向历史数据。即不同日期的同一时间段的历史数据,如果历史数据集过于庞大,则需要减少历史数据样本,从而减少计算量,提升效率。K-means 聚类算法以欧式距离作为相似度测度,采用误差平方和准则函数作为聚类准则函数8。基于 K-means 聚类的负荷场景分析步骤如下:首先,以负荷有功功率为参考值,绘制出有功功率曲线并进行聚类,分为三类(工作日、一般休息日以及特殊节假日);随后计算含 Unknow 属性日期的负荷曲线与三类曲线簇心的距离,将其归到距离最近的一类,即可在电网的历史数据中为含 Unknow 属性的日期找到同一场景的 H 个日期;最后将含Unknow 属性的日期称为缺失日期,将寻找到的 H 个日期称为相似日期。动态时间弯曲距离9 通过动态时间规划对两个时间序列的不同时间点元素进行对应,为其找到最恰当的对应关系。该算法能有效量度时间序列之间的整体形状相似度。通过动态时间弯曲距离来衡量 Know属性Aj在第h个相似日期中的第t0,t1,t2,t2n时刻的属性数据D(j,h)与在缺失日期中的第 t0,t1,t2,t2n时刻的属性数据 D(j,p)的相似度 S(j,h)。D(j,h)=2ng=0d(j,h,g)。式中:d(j,h,g)为 Know 属性 j 在第 h 个相似日期中 tg时刻的属性数据;p 为缺失日期;j=1,2,M;h=1,2,H;g=0,1,2,2n。结合各Know属性与Unknow属性的组合权值,计算各相似日期的综合相似度。各相似日期的属性综合相似度通过式(2)计算。Ch=Mj=1Hh=1wj S(j,h)(2)寻找出 Unknow 属性综合相似度最高的日期,并用该日期同一时刻的数据进行填补,即可完成缺失数据的填补。基于历史数据挖掘辅助场景分析的电网缺失数据填补流程如图 1 所示。3算例分析为验证本文方法的有效性,以某区域电网约 200 d 的实际数据为试验对象,负荷数据采样间隔为 15 min,监测值包括有功功率、无功功率、电流、功率因数和电压,缺失数据填补对象为电压值。所用计算机配置为 AMD3500X,内存 16 GB,编程语言为 Py-thon 3 6。首先通过波动互相关分析算法,计算电压和电流、有功功率、无功功率、功率因数的波动互相关系数和皮尔逊相关系数进行对比。两种算法的计算结果如表 1 所示。图 1基于历史数据挖掘辅助场景分析的电网缺失数据填补流程示意图表 1皮尔逊相关系数和波动互相关系数计算结果属性皮尔逊相关系数波动互相关系数电压 电流022068电压 有功功率032066电压 无功功率030085电压 功率因数018047根据皮尔逊算法结果,电流、有功功率和无功功率都和电压均为弱相关,不符合实际经验。而波动互相关分析结果显示电流、有功功率和无功功率都和电压具有较高的关联度。设定波动互相关系数阈值为 0 6,保留电流、有功功率和无功功率属性参与后续计算。计算电流、有功功率、无功功率的组合权重结果如表 2 所示。表 2属性组合权重计算结果属性组合权重电流0 31有功功率0 30无功功率0 39利用 K-means 聚类算法对样本进行聚类分析,聚类前后的负荷曲线分布如图 2 所示。由聚类结果可知,工作日场景 106 d,一般休息日场景 68d,特殊节假日场景 27 d,簇与簇之间差异明显,且簇内曲线趋势基本一致。随机删除一个电压数据,经过查找,该电压数据采集于 8 月12 日12 时45 分且属于一般休息日场景,故调取该场景下的所有68 条日负荷曲线参与综合相似度计算。计算动态时间弯曲距离与综合相似度的部分结果如表 3 所示。通过排序,最后挑选综合相似度最大的日期,即7 月24 日12时 45 分的数据填补原缺失数据。为了展现本方法的优越性,在原数据集中随机抽取 15 个样本,每个样本随机删除一个电压数据,其他数据保存完整,将本文方法与最大期望值算法的填补准确度进行对比分析,结果如图 3所示。结果显示在只含有一个缺失数值的情况下,本文所采用的方法相对于 EM 算法,缺失数据填补精度有一定的提升。37Electrical Automation电气自动化 2023 年第 45 卷 第 1 期电力系统及其自动化Power System Automation图 2负荷曲线聚类结果表 3各属性动态时间弯曲距离及综合相似度部分计算结果项目7 月 24 日7 月 2 日6 月 19 日5 月 31 日有功功率3223563 14582无功功率6136297 19953电流2492312 24316综合相似度4134244 44644图 3本文方法与 EM