基于
MDS
WFCM
负荷
曲线
方法
杨邓
基金项目:国家自然科学基金(61202369,61401269,61572311);上海市科技创新行动计划地方院校能力建设项目(17020500900);上海市教育发展基金会和上海市教育委员会“曙光计划”(17SG51)收稿日期:2021-05-18 修回日期:2021-05-27 第 40 卷 第 4 期计 算 机 仿 真2023 年 4 月 文章编号:1006-9348(2023)04-0103-05基于 MDS-WFCM 的日负荷曲线聚类方法杨 邓1,杨俊杰1,2(1.上海电力大学电子与信息工程学院,上海 200090;2.上海电机学院,上海 201306)摘要:电力负荷曲线聚类是挖掘电力消耗大数据的主要方法。为解决现有研究中聚类方法在运行效率、聚类质量等方面存在的不足,提出了一种基于多维标尺(MDS)及加权模糊 C 均值聚类(WFCM)的日负荷曲线聚类方法。首先使用 MDS 将负荷曲线数据降维处理,然后利用最小二乘法原理(LSM)确定降维指标数目以及改进熵权法确定指标权重,最后采用 WFCM聚类方法对日负荷曲线聚类分析。算例分析表明,所提方法在聚类效率、质量以及算法鲁棒性方面均优于传统方法。关键词:多维标尺;最小二乘法;改进熵权法;鲁棒性中图分类号:TP301.6 文献标识码:BClustering Method of Daily Load Curve Based on MDS-WFCMYANG Deng1,YANG JUN-jie1,2(1.School of Electronic and Information Engineering,Shanghai University of Electric Power,Shanghai 200090,China;2.Shanghai Dianji University,Shanghai 201306,China)ABSTRACT:Power load curve clustering is the main method for mining big data of power consumption.In order tosolve the shortcomings of the existing clustering methods in terms of operation efficiency and clustering quality,thispaper proposes a daily load curve clustering method based on multi-dimensional scale(MDS)and weighted fuzzy C-means clustering(WFCM).Firstly,the MDS was used to reduce the dimension of load curve data.Then,the leastsquare method(LSM)was used to determine the number of dimension reduction indicators,and the improvedentropy weight method was used to determine the weight of indicators.Finally,the WFCM clustering method was usedto cluster analysis the daily load curve.Numerical examples show that the proposed method is superior to traditionalmethods in clustering efficiency,quality and algorithm robustness.KEYWORDS:Multidimensional scaling;Least square method;Improved entropy weight method;Robustness1 引言近年来,随着智能电网数字化、信息化的不断发展,电网公司积累了海量的用电负荷数据。聚类算法就是通过挖掘用户的用电行为实现对电力用户负荷曲线有效分类,对电网的实时调度以及运行规划等方面提供一定的参考意义。常用的聚类方法有直接聚类和间接聚类。程江州等1采用 CK-means 算法对负荷曲线直接聚类,但直接聚类方法在计算效率、聚类质量等方面存在着严重的不足。间接聚类是将原始负荷数据进行降维或特征提取,然后进行二次处理的技术。陈菲等2采用多层凝聚方法降低负荷曲线的维度,提高了聚类精度。陈烨等3采用 SVD 分解将高维负荷数据映射至低维坐标中,实现降维聚类。宋英军等4将欧式距离与动态时间弯曲距离相结合提取出日负荷曲线的整体与局部等 3种特征,采用 K-means 算法对日负荷曲线聚类。上述研究成果,采用的降维方式不能准确反映原始负荷曲线的特征,这会对聚类的效果产生影响,从而影响聚类的质量。鉴于此,本文提出了一种基于多维标尺及加权模糊 C均值聚类的日负荷曲线聚类方法。通过 MDS 降维技术保留了原始负荷曲线之间的特征,结合加权模糊 C 均值聚类方法达到对负荷曲线的精准分类。以我国某地区真实数据为例,301验证了本文方法的有效性。2 MDS 降维理论将 MDS 理论5,6 应用于日负荷曲线降维中,假定一个由m 条负荷曲线,每条负荷曲线有 n 个采样点,其构成原始空间的距离矩阵 DRmm,表示为D=d11d12d1md21d22d2mdm1dm2dmm|(1)dij表示第 i 个用户负荷曲线到第 j 个用户负荷曲线之间的欧氏距离,将原始 n 维空间数据降至 q 维空间表示为 Z=z1,z2,zmRmq,第 i 个用户的负荷数据为 zi=zi1,zi2,ziq,且满足任意两个用户在 q 维空间中的欧氏距离等于n 维空间的欧氏距离,以此达到降维效果。根据降维前后距离不变原则可得d2ij=zi-zj2=zi2+zj2-2zTizj(2)假设经过降维后 的负荷矩阵 Z 是中心化的,满足:mi=1zi=0。直接由 D 难以确定 Z 的表达式,若定义内积矩阵 B=ZTZ Rmm,其中 bij=zTizj。则有:bij=-12(1m2mi=1mj=1d2ij-1mmi=1d2ij-1mmj=1d2ij+d2ij)(3)对矩阵 B 做特征值分解,得:B=VVT,其中=diag(1,2,n)为矩阵 B 的特征值构成的对角矩阵,满足 12n,V 为特征向量矩阵。取前 q 个最大非零特征值,它们构成的对角矩阵为 q=diag(1,2,q),对角阵元素依然按照降序排列令 Vq为其对应的特征向量矩阵,则降维后矩阵 Z 可以表示为Z=Zq=12qVTq Rmq(4)3 基于 MDS-WFCM 的聚类算法3.1 数据预处理3.1.1 异常数据处理负荷数据在采集过程中由于仪表故障、传输通信故障等常常会产生异常数据。当采集的某条负荷曲线的异常量高于 10%及以上时,就认为该条负荷曲线无效,反之,则通过式(5)进行修正。本文假设某条负荷曲线 xk=xk,1,xk,2,xk,n经检测存在异常且异常量低于 10%,则其修正量为xk,i=p1p=1xk,i-p+o1o=1xk,i+op1+o1(5)式中:xk,i为异常数据点 xk,i的修正值;p 与 o 分别表示为异常点向前和向后采集的数据点,一般地,p1和 o1的取值范围为35。3.1.2 负荷数据归一化为防止原始数据之间因数量级差异影响聚类效果。需要将原始数据归一化处理变换至0,1之间。本文采用最大值归一化的方法,如式(6)所示xk,i=xk,imax(xk,1,xk,2,xk,n)i=1,2,n(6)式中:xk,i表示采集的第 k 条负荷曲线在 i 个采样点的负荷值,xk,i表示归一化处理后的第 k 条负荷曲线在 i 个采样点的负荷值。经归一化处理后负荷曲线 xk,i构成负荷矩阵 X。3.1.3 高斯平滑处理在实际的负荷数据采集过程中,所采集的数据不可避免的会受到多种干扰信号或者设备故障等因素导致负荷数据存在较大的波动。采用高斯平滑处理能够消除因为数据突变而带来的高额噪声干扰,起到更好的聚类效果。以某条负荷曲线为例,平滑处理前后的负荷曲线对比如图 1 所示。图 1 负荷曲线的平滑处理3.2 确定降维指标及权重为了充分利用第 2 节中矩阵 B 特征值的下降趋势,本文采用最小二乘法来确定 q 值的大小,步骤如下:Step 1:计算特征值。对矩阵 X 多维标尺处理,获得 n 个特征点(i,i)组成的数据集 S。Step 2:计算拟合曲线。设置初始值 q=3,前 q 个特征点组成的数据集 Sq,用最小二乘法对 Sq作拟合,得拟合曲线 y=kqx+bq,再依次计算当 x=1,2,q 时对应的拟合值 y,记录在数据集 Sq中。Step 3:求拟合误差。求出前 q 个特征点的拟合平均误差 Tq,并计入数据集 T。Step 4:计算 q=q+1,重复 Step 2 和 3,当 qn 时,转到Step 5。Step 5:确定降维指标 q 的值。找出数据集 T 中的最小值,对应的 q 值即为最终的降维指标数目。改进熵权法配置指标权重如下1)计算熵值 ej。第 j 个降维指标的熵值可由下式确定ej=-kmi=1PijlnPij(7)401Pij=zij/mi=1zij(8)式中:i=1,2,m,j=1,2,q;k 为常数,k=1/lnm;Pij为第i 个用户下的第 j 个被评价对象的贡献度。2)计算权重 wj。利用改进后的权重计算公式计算 wjwj=exp(qk=1ek+1-ej)-exp(ej)q=1(exp(qk=1ek+1-e)-exp(e)(9)式中:wj0,1,且满足qj=1wj=1(10)3.3 WFCM 聚类算法考虑指标权重对聚类结果的影响,本文采用的 WFCM算法与传统 FCM 算法稍有不同,步骤如下:Step 1:聚类中心初始化。设 L 为聚类数,从降维后的负荷矩阵 Z 中随机挑选出 L(2L0.5n)条负荷曲线 V=V1,Vi,VL作为初始的聚类中心,其中 Vi=vi1,vi2,viq。Step 2:确定隶属度矩阵 U。隶属度矩阵 U=U1,Ui,Um,Ui=ui1,uij,uiL,其中 uij表示 zi属于第 j 个聚类中心的隶属值,uij可以表示为uij=Ll=1(qk=1wkd2k(zik,vik)qk=1wkd2k(zik,vlk)1/(t-1)-1(11)Step 3:计算目标函数 J。在负荷曲线聚类过程中,将每个用户负荷数据到所有聚类中心的距离的加权平方和定义为目标函数:J(U,V,W)=mi=1Lj=1qk=1(uijwkd2k(zik,vik)(12)Step 4:更新聚类中心。若 Step 3 中目标函数 J 的值未达到最小,那么需要根据式(13)重新选取聚类中心并返回Step 2。vik=ni=1(uij)tzik/ni=1(uij)t(13)Step 5:当目标函数 J 达到最小值时,算法结束。采用的加权模糊 C 均值算法是在原始 FCM 的基础上对隶属度矩阵、目标函数等更加细致化的调整,对聚类效果有更进一步的提升。3.4 聚类有效性检验聚类的有效性检验是通过聚类有效性指标确定最佳的聚类数。常用的指标有 XB 指标、SC 指标、SSE 指标、CHI 指标、DBI 指标等7。其中 XB 指标在模糊聚类当中是较为有效的指标。XB 指标值越小,代表的聚类效果越好,并且该指标相对于其它指标更加适合用于负荷曲线聚类的研究。由于本文考虑计入权重的影响,故 XB 指标计算公式如下XB=Li=1mj=1qk=1(utijwkd2k(zik,vik)nminilqk=1(utijwkd2k(vik,vlk)l=1,2,L(14)XB 指标的分子与分母分别反映的是类内紧凑程度与类间分散程度,当类内紧凑度越小,类间分散