分享
基于聚类分析和Pearson相关系数法的电网负荷数据清洗与去重.pdf
下载文档

ID:2643224

大小:875.03KB

页数:7页

格式:PDF

时间:2023-08-20

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 聚类分析 Pearson 相关系数 电网 负荷 数据 清洗
Vol.43 No.06 2023.06 船电技术|应用研究 69 基于聚类分析和基于聚类分析和 Pearson 相关系数法的相关系数法的 电网负荷数据清洗与去重电网负荷数据清洗与去重 赵 耀1,虞莉娟1,苏义鑫1,郑 拓2,童光波2(1.武汉理工大学 自动化学院,武汉 430070;2.国网湖北省电力有限公司黄冈供电公司,黄冈 438000)摘 要:针对电网负荷数据存在冗余和价值密度低等问题,本文提出一种结合 K-means 算法与 Pearson 相关系数计算的集成学习方法,对负荷数据进行清洗与去重。设置仿真实验将某地区连续 730 日的负荷数据进行聚类、切片、排序、比对、去重等分析处理,得到清洗后的新数据集,将新数据集与原数据集代入相同的 BP 神经网络模型和随机森林模型进行负荷预测,实验结果表明新旧数据集具有相似的特征特性与数据挖掘潜力。与传统的数据去重方法相比,本文提出的数据清洗策略在进行训练集的预处理时,效率和准确度方面均有更好表现,可以为训练用于负荷预测的网络模型提供支持。关键词:聚类分析 K-means 算法 Bagging 算法 Pearson 相关系数 可决系数 中图分类号:TM714 文献标识码:A 文章编号:1003-4862(2023)06-0069-08 Power grid load data cleaning and De duplication based on cluster analysis and pearson correlation coefficient method Zhao Yao1,Yu Lijuan1,Su Yixin1,Zheng Tuo2,Tong Guangbo2(1.School of Automation,Wuhan University of Technology,Wuhan 430070,China;2.Hubei Electric Power Company Huanggang Power Supply Company,Huanggang 438000,Wuhan,China)Abstract:Aiming at the problems of redundancy and low value density of power grid load data,this paper proposes an integrated learning method combining K-means algorithm and Pearson correlation coefficient calculation to clean and de duplicate load data.A simulation experiment was set up to cluster,slice,sort,compare and de duplicate the 730 consecutive days load data of a region,and a new data set was obtained after cleaning.The new data set and the original data set were substituted into the same BP neural network model and random forest model for load forecasting.The experimental results show that the new and old data sets have similar characteristics and data mining potential.Compared with the traditional data de duplication methods,the data cleaning strategy proposed in this paper improves the efficiency and accuracy when preprocessing the training set,and provide support for the training network model used for load forecasting.Keywords:cluster analysis;K-means algorithm;bagging algorithm;Pearson correlation coefficient;determinable coefficient 0 引言引言 电力系统在发电、变电、输电、配电等阶段产生海量多源数据,由配电网管理系统(DMS)、收稿日期:2023-02-13 作者简介:赵耀(1997-),男,硕士。研究方向:电力系统负荷预测。E-mail: 数据采集与监视控制系统(SCADA)、能量管理系统(EMS)、智能电表系统等对信息进行采集与分析1-2分析结果的应用主要集中于两个方向,一是对电网当前运行状态的评估与诊断,二是对电网未来运行或建设的规划与预测1。其中负荷预测技术是电网调度规划的关键,而作为负荷预测训练集的电网数据有数据量大、数据类型多、价值船电技术|应用研究 Vol.43 No.06 2023.06 70 密度低的特点2-3,因此在进行电力系统负荷预测任务前,先进行电网数据的清洗与去重,提取数据的相关性特征4,可以提高负荷预测的速度和效率。负荷预测是规划和运营电力系统,加强电力系统安全性,降低发电输电系统运营成本的重要手段。电力负荷预测根据预测持续时间分为短期、中期、长期预测,分别为 24 小时、几周或几个月。长期与中期负荷预测通常用于规划电力系统中新站点或线路的启用或停运5,短期负荷预测主要用于对未来某日每个时刻的负荷量进行合理预测6精准的负荷预测不仅能为电网的区域规划建设提供帮助,辅助新发电机组的选址和容量选择,还能帮助电力调度部门更好地调配机组出力组合、制订检修计划、减少供电冗余,进而降低发电成本,增加经济效益。负荷预测受许多相互独立的参数,如天气条件、季节因素、所处时段、大型社会活动和突发事件等的影响,因此负荷变化往往表现为在年、月、日等不同时间长度上的周期变化,即时间序列上的非平稳随机过程7。而随着电网中智能电表和在线监测系统的投入使用,上述各种影响因素数据和负荷数据采集记录的范围和频率显著增加,意味着数据规模更加庞大,且电力系统一直处于运行状态,对任务处理时限有一定要求,即要求能对电力数据进行高效的在线实时处理8。因此在进行电力系统负荷预测前,选择合适且有代表性的数据,对数据进行清洗和去重是获取更好的训练集与验证集、建立准确有效的预测模型的关键。1 数据清洗与去重方法数据清洗与去重方法 1.1 一般数据清洗方法 数据清洗包括噪声过滤与缺失值处理两个步骤,噪声过滤的一般方法有以下几种:高通滤波法:将低于给定频率的低频信号减弱、阻隔,减弱或阻隔的程度根据不同的滤波目的设定。特点是针对由偶然因素导致的噪声干扰,使用高通滤波法可以获得较好收敛值,但对周期性的噪声处理效果不佳。小波分析法:非线性小波变换阈值法去噪是工程中应用最广泛的方法之一,可以在抑制噪声的同时,尽可能保留原始信号的峰值特征。但使用软阈值或硬阈值函数都各有缺点:由于导数不连续的性质,软阈值函数在许多工程实际中并不适用,而使用硬阈值函数在信号不连续点容易出现伪吉布斯效9。离群点检验:离群点检验的方法包括基于统计、临近度、密度或聚类分析的离群点检测,其中基于聚类分析的离群点检验方法在处理高维大数据集时更有优势,其中关键超参数值的选取直接影响聚类结果,因此需要不断验证离群点检验结果,获得使函数收敛的超参数值10。缺失值插补的一般方法有以下几种:回归插补法:根据回归函数对缺失值进行拟合。生成回归函数时使用的数据越多,理论上能得到越精确的回归函数,但此方法会减小数据集的标准差,且需要回归函数中的变量存在线性关系。KNN算法:求解缺失值与所有已知样本之间的距离(一般取欧氏距离),选择 K 个距离最近的样本,以它们的加权平均值作为缺失值的插补。缺点是计算时需要遍历整个样本集合,因此算力要求较高,时效性不强。极大似然估计:在配电系统的监测和控制方面,Wenyu Wang 等将相位识别问题表述为一个极大边际似然估计问题10,优化后的算法对不准确的馈线模型、不完整的测量值和不良测量值具有鲁棒性,同时在复杂电路上的监测控制表现更好,缺点是容易陷入局部最优解和收敛速度较慢。1.2 k 均值算法 全称 k 均值聚类算法(k-means clustering algorithm),是在处理分类或回归问题时常用的一种迭代求解的聚类分析算法,一般步骤如下:将待处理数据分为 k 个簇,同时随机选择其中 k 个对象作为初始聚类中心(簇原型),分别计算每个对象与所有初始簇原型的欧式距离,将对象分配给距离它最近的簇原型,形成 k 个簇,每这样分配一次簇,簇原型就根据本聚类中所有对象的重心(平均距离中心)更新一次。重复以上过程直到满足某终止条件,包括簇原型不再发生变化、限制最多迭代次数或误差平方和(SSE)局部最小,误差平方和计算公式如下:SSE=式中,k 为簇的个数;p 为样本点;iC为某个簇内所有样本点的集合;im为簇的簇原型。k 均值聚类算法复杂度低,聚类时容易得到局部最优解,将三类气象数据:日平均温度、日相对湿度、日降雨量作为算法处理的对象,三种数据都与一年中季度或月份相关,因此在使用k-means 算法时选取合适的 k 值和初始聚类中心,就可以获得基于气象三要素的局部最优聚类效果。Vol.43 No.06 2023.06 船电技术|应用研究 71 1.3 Bagging 算法 全称引导聚集算法(Bootstrap aggregating),又称装袋算法,作为一种常用的集成学习算法,一般与其他分类、回归算法结合,可以提高模型的准确性和鲁棒性,尤其在有降低泛化误差和避免过拟合的需求时有较好的表现。Bagging 算法的特点在于使用随机采样方法(bootstrap sample),从大小为 n 的训练集 D 中随机地、有放回地抽取 m 个大小为 n*(n*n)的子集 Di 作为新的训练集(即同一样本可能被多次抽取,可能未被抽取),基于 m 个训练集得到m 个不同的模型,最后根据任务类型的不同,通过取平均值或取多数票等方法得到最终结果。对离群点检测后的缺失样本数据进行预测,引入 Bagging 算法,以最小均方误差(MSE)的大小作为预测值的判正依据,提高预测值的准确性的同时避免发生过拟合。均方误差计算公式如下:miiiyymMSE121(2)式中,m 表示样本个数;iy表示实际值;iy 表示预测值。1.4 Pearson 相关系数和可决系数 Pearson 相关系数可以用于衡量数据间线性相关程度,在-1,1的输出值域上,输出值越接近1 表示正相关性越强,越接近-1 表示负相关性越强,输出值为 0 表示无相关性。Pearson 相关系数在用欧几里德距离表示相似度的基础上,对被计算的值作中心化处理,再求中心化结果的余弦距离,变量的不同量纲的差别在上述计算过程中可以被消去,其计算公式如下:niniiiniiiyyxxyyxxr11221(3)式中,x和y分别是两个数据集的平均值。使用 Pearson 相关系数法分别计算三种气象数据:日平均温度、日相对湿度、日降雨量与用户用电负荷的相关性,并根据计算结果设定权重d,用于在聚类分析时计算对象到簇原型的距离。可决系数由回归差平方和(SSR)与离差平方和(SST)的比值表示,可以衡量回归方程的拟合效果。在(0,1)的输出值域上,输出值越接近 1 表示回归方程拟合程度越高,估计值越接近实际测量值,输出值越接近 0 则表示拟合程度越低。可决系数的计算公式如下:222221yyyyyyyyr(4)式中,y为实际测量值;y为实际值的平均值;y

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开