Vol.43No.062023.06船电技术|应用研究69基于聚类分析和Pearson相关系数法的电网负荷数据清洗与去重赵耀1,虞莉娟1,苏义鑫1,郑拓2,童光波2(1.武汉理工大学自动化学院,武汉430070;2.国网湖北省电力有限公司黄冈供电公司,黄冈438000)摘要:针对电网负荷数据存在冗余和价值密度低等问题,本文提出一种结合K-means算法与Pearson相关系数计算的集成学习方法,对负荷数据进行清洗与去重。设置仿真实验将某地区连续730日的负荷数据进行聚类、切片、排序、比对、去重等分析处理,得到清洗后的新数据集,将新数据集与原数据集代入相同的BP神经网络模型和随机森林模型进行负荷预测,实验结果表明新旧数据集具有相似的特征特性与数据挖掘潜力。与传统的数据去重方法相比,本文提出的数据清洗策略在进行训练集的预处理时,效率和准确度方面均有更好表现,可以为训练用于负荷预测的网络模型提供支持。关键词:聚类分析K-means算法Bagging算法Pearson相关系数可决系数中图分类号:TM714文献标识码:A文章编号:1003-4862(2023)06-0069-08PowergridloaddatacleaningandDeduplicationbasedonclusteranalysisandpearsoncorrelationcoefficientmethodZhaoYao1,YuLijuan1,SuYixin1,ZhengTuo2,TongGuangbo2(1.SchoolofAutomation,WuhanUniversityofTechnology,Wuhan430070,China;2.HubeiElectricPowerCompanyHuanggangPowerSupplyCompany,Huanggang438000,Wuhan,China)Abstract:Aimingattheproblemsofredundancyandlowvaluedensityofpowergridloaddata,thispaperproposesanintegratedlearningmethodcombiningK-meansalgorithmandPearsoncorrelationcoefficientcalculationtocleananddeduplicateloaddata.Asimulationexperimentwassetuptocluster,slice,sort,compareanddeduplicatethe730consecutivedays'loaddataofaregion,andanewdatasetwasobtainedaftercleaning.ThenewdatasetandtheoriginaldatasetweresubstitutedintothesameBPneuralnetworkmodelandrandomforestmodelforloadforecasting.Theexperimentalresultsshowthatthenewandolddatasetshavesimilarcharacteristicsanddataminingpotential.Comparedwiththetraditionaldatadeduplicationmethods,thedatacleaningstrategyproposedinthispaperimprovestheefficiencyandaccuracywhenpreprocessingthetrainingset,andprovidesupportforthetrainingnetworkmodelusedforloadforecasting.Keywords:clusteranal...