温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
密度
峰值
超短
工业
负荷
预测
金维刚
基金项目:国家自然科学基金项目(51777082)收稿日期:20210411修回日期:20210605第 40 卷第 2 期计算机仿真2023 年 2 月文章编号:10069348(2023)02008405基于密度峰值聚类的超短期工业负荷预测金维刚1,李锋1,周良松2(1 国家电网公司华中分部,湖北 武汉 430077;2 华中科技大学电气与电子工程学院,湖北 武汉 430074)摘要:针对水泥工业提出一种使用密度峰值聚类和广义回归神经网络进行超短期负荷预测的方法,可以为大用户购电提供重要依据和参考。鉴于传统聚类很容易进入局部鞍点并且非常依赖于初始化数据,而密度峰值聚类是一种具有快速收敛,高鲁棒性,无需人为设置最佳聚类数等优势。所以采用密度峰值聚类算法分析负荷数据,然后对每一类簇构建广义回归神经网络预测模型得到预测结果。由仿真软件得出仿真结果表明,所提方法具有较高的预测精度,可以用于指导用户合理购电。关键词:密度峰值聚类;超短期负荷预测;大用户;用电行为;数据挖掘中图分类号:TM743文献标识码:BUltra ShortTerm Industrial Power Prediction Based onDensity Peak ClusteringJIN Weigang1,LI Feng1,ZHOU Liangsong2(1 Central China Branch of State Grid Corporation of China,Wuhan Hubei 430077,China;2 School of Electrical and Electronic Engineering,Huazhong University of Science and Technology,Wuhan Hubei 430074,China)ABSTACT:In this paper,a method of super short term load forecasting using density peak clustering and general-ized regression neural network is proposed for cement industry,which can provide important basis and reference forlarge users to purchase electricity In view of theSince traditional clustering is easy to enter the local saddle point andis very dependent on the initialization data,while density peak clustering has the advantages of fast convergence,high robustness,and no need to set the optimal clustering number artificially Therefore,this paper adoptsed densitypeak clustering algorithm to analyze load data,and then builds built a generalized regression neural network predic-tion model for each type of cluster to get the prediction results The simulation results of the simulation software showthat the proposed method has high prediction accuracy and can be used to guide users to purchase electricity reasona-blyKEYWODS:Density peak clustering;Ultra short term power forecasting;Big users;Electricity use behavior;Data mining1引言2015 年国务院发布的第 9 号文件提出了关于进一步深化电力体制的改革,促进我国电力行业又好又快的发展的精神。努力解决电力行业的突出矛盾和深层次问题,并且要尽力推动结构转型和产业升级1。随着我国新一轮电力体制改革的实施,挖掘用户用电数据和用电行为,掌握用户用电规律,进行精准的负荷预测具有重要意义2。水泥行业是一类电力高耗能产业,其负荷总量大,波动性强,具有一定的冲击负荷,对电力系统具有较大影响,威胁着电力系统安全稳定和电能质量。因此,要科学的对影响水泥行业电力负荷的因素进行分析,达到提高负荷预测的准确性的目的,并以此为依据对生产方式进行调整,保证电力系统的稳定运行。目前,针对高耗能的工业用户负荷预测主要集中在中长48期负荷预测上,文献 3提出了针对高耗能工业用户的负荷波动特点用分类建模的思想进行负荷预测模型的构建,但是其分类原则依靠主观判断。文献 4 使用粒子群算法优化后的最小二乘支持向量机预测模型对某工业用户进行了中长期负荷预测。文献 5、文献 6 均中使用了 FCM 聚类法,研究工业用户的负荷特性,但是 FCM 聚类算法容易陷入局部鞍点,所以预测精度不高。文献 7采用的遗传膜优化 BP神经网络预测模型存在较大主观性,且预测精度不高。针对以上问题,本文针对以水泥工业为例的高耗能工业用户提出了一种基于密度峰值聚类的 GNN 神经网络的超短期负荷预测的方法,区别于其它预测方法的是,本文中使用聚类效果更佳的密度峰值聚类算法对负荷数据进行聚类分析,再对聚类所得类簇分别建立预测模型,预测精度更高,对于指导用户合理购电更具指导意义。2数据预处理及分析2.1数据预处理本文中采用的负荷数据来源是某市某水泥公司,通过关口表采集到的数据。时间跨度是 2018 年 5 月 1 日到 2018 年12 月 31 日,共计 245 天,每 15 分钟进行一次数据采集,每日共计 96 个点。删除含有异常值的 26 天的数据,并将数据归一化到区间 0,1 中。图 1原始负荷曲线2.2数据分析对数据进行时间序列分析如图 1 将原始数据分为长期趋势和短期趋势进行分析,可以看出水泥行业的负荷特点是日负荷曲线波动很大,每日曲线的形状也有一定的差异,有时负荷还会接近 0。但就每天的总体趋势来看,日间负荷会出现低谷,高峰出现在夜间,原因是用户根据分时电价制定生产计划。在保证正常生产状况的情况下,峰时电价时间段尽可能减少用电,谷时电价时可以满负荷运作,以达到减小生产成本的目的。基于这种情况。考虑对用户的负荷曲线进行聚类研究,然后进行负荷预测。3密度峰值聚类算法2014 年,亚历克斯罗德里格斯(Alex odriguez)和亚历山德罗莱奥(Alessandro Laio)在 Science 上发表文章,提出了一种新的聚类算法,称为“密度峰值聚类”。该算法通过计算数据点之间的距离识别非球状类簇,与 FCM 聚类方法相比,该算法可以自动确定聚类中心和聚类数,并快速搜索并找到数据点的密度峰值8。可以得到更精准的类簇,用以分析用户用电行为。3.1算法原理密度峰值聚类算法的核心是对聚类中心的定义,聚类中心有两个重要的特征:1)聚类中心具有较大的自身密度,即聚类中心的密度大于包围聚类中心的“邻居”的局部密度8。2)聚类中心和局部密度比它更大的数据点之间的距离相对来说会更大。假设待聚类的数据集为 X=xiN,其对应的指标集为 IX=1,2,N,用 dij表示数据点 xi与 xj之间距离,对于数据集 X 中的任一数据点 xi,定义两个重要的参数:局部密度 i和距离 i。局部密度 i通常采用截止核函数(Cutoff kernel)或者高斯核函数(Gaussian kernel)进行计算,但 Cutoff kernel 为离散值,而 Gaussian kernel 为连续值。考虑到本文中原始数据为连续值,故采用高斯核函数来计算局部密度。i=jIXe(dijdc)2(1)式中,dij表示数据点 xi与 xj之间的距离,dc表示截断距离,i表示数据集 X 中与数据点 xi的距离小于 dc的点的个数。其中 dc需要人为指定,对于大型数据集,密度峰值聚类算法对于 dc的选取具有鲁棒性12。因为高斯核函数为连续值,所以不同数据点具有相同局部密度值的概率很小,现设一个数据集 qiNi=1表示局部密度集 iNi=1的一个降序排列下标序,qiNi=1满足q1 q2 qN(2)定义距离 i为qi=minqij i dqiqj,i 2maxj2 qi,i=1(3)运用式(1)(3)计算可以得到各数据点 xiX 的(i,i),然后在二维坐标图中将所有数据点表示出来得到决策图。选择聚类中心的原则是该数据点的 值和 值均比较大。而剩余的数据点会在确定聚类中心之后被分派到距离58最近的自身密度更高的数据点所在类簇中。对于在决策图中难以用肉眼判断出聚类中心的情况,定义一个综合考虑 值和 值的指标 ii=ii,i=IX(4)根据式(4)可知 i越大,该数据点是聚类中心的可能性就越大,所以对指标数据集 iNi=1进行降序排列,画出以 为纵轴,数据点下标为横轴的二维坐标图,非聚类中心点对应的 值比较平滑,聚类中心点与非聚类中心点所对应的 值存在肉眼可以分辨的跃变。3.2两个距离 dij和 dc的选取3.2.1 距离 dij的选取距离 dij用于评价不同样本之间的差异度9,由于已经对原始数据进行归一化处理,因此,只需要考虑不同样本之间在空间距离上的数值差异,在此引入欧式距离,其表达式为dij=nk=1(xik xjk)212(5)式中,xik和 xjk为样本 xi和 xj的第 k 维元素。3.2.2 截断距离 dc的选取首先计算样本之间的欧氏距离得到 N 个距离值,然后将距离值升序排列为 d1d2dN。截断距离 dc=dn,其下标 n=0.02N(为取整函数)。4密度峰值聚类4.1决策图将第一节中归一化后的数据,共计 219 天,每天 96 个点构成的 21996 维的负荷特征向量进行平滑处理然后进行聚类,得到如图 2 的结果。图(a)中同时具有较大 值和 值的点共有 4 个,图(b)中显示这 4 个点与其它点在 0.13处有明显跃变。所以聚类中心共有 4 个,聚类数为 4。图 2聚类结果4.2类簇分析各类簇反映的日负荷波动情况如图 3 所示,由于已对数据归一化到区间 0,1,所以纵轴刻度为 0,1。图 3 中的四种波动情况基本涵盖了水泥行业的在各种生产状况下的负荷波动情况。类簇 1 反映了减产甚至停产的负荷情况,类簇 2 和类簇 4 反映了正常生产情况下采用避峰的手段降低用电成本的负荷特性,类簇 3 反映了企业全天候满负荷生产时的负荷特性。图 3类簇图5广义回归神经网络广义回归神经网络是一种非线性映射能力更强,容错性更好,鲁棒性更高的改进型径向基函数12。而且在样本数较少的情况下依然能有较高的预测精度。鉴于本文中的负荷数据较少,所以选用广义回归神经网络进行预测。5.1广义回归神经网络结构本文中所使用的广义回归神经网络结构共四层,分别是输入层、输出层、模式层和输出层。输入层和输出层均设 96个神经元。5.2神经网络训练5.2.1K 折交叉验证由于部分类簇的样本数量较少,所以本文采用交叉验证的方法进行神经网络的训练13。根据每一类簇的具体样本数进行 K 折交叉验证,将样本分割成 K 个子样本,轮流将一个子样本作为测试集,剩余的 K1 个子样本作为训练集,重复 K 次。再针对每一类簇建立神经网络预测模型,求得最优输入输出。5.2.2最优 SPEAD 值的选择SPEAD 值是调节广义回归神经网络的重要参数10,其合理的选值是否合理直接影响着预