温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
高斯核
密度
估计
典型
负荷
曲线
形态
算法
严明
基于高斯核密度估计的典型负荷曲线形态聚类算法严明辉,谢雄,李维劼,吴滇宁,崔雪,潘舒宸(昆明电力交易中心有限责任公司,昆明;武汉大学 电气与自动化学院,武汉)摘要:在电力现货市场结算过程中,获取市场化用户的实时电量至关重要。文中聚焦现货市场中非分时计量用户的电量分解,设计了一种利用典型负荷曲线获取分时电量的方法和流程。文中选取样本用户,对样本用户计量数据进行预处理后得到完整样本典型负荷曲线。然后,文中提出一种基于核密度估计聚类中心的负荷曲线聚类方法,将 算法原有的均值获取聚类中心升级为高斯核密度估计获取最大概率的聚类中心进行迭代计算,并将聚类中心曲线作为典型负荷曲线对不具备分时计量的用户进行日电量划分,划分至以 为颗粒度的电量进行结算,运用云南省样本用户计量数据,采用传统峰平谷比例分解、传统聚类算法以及本文改进聚类算法获取的典型负荷曲线进行电量的实时分解算例分析,结果显示,文章所提的改进 算法具备更好的分类性能和较好的效率,同时所分解电量具备更高的准确性。关键词:典型负荷曲线;核密度估计;现货市场;结算;日分时电量:中图分类号:文献标识码:文章编号:(),o,(g cg,g 5,c cc gg,):o o o o ,o o o o o o o o ooo o o o o o o o o o ,o o o o o ,oo o o o o,o o o o o o o o o o,o o o o ,o o,o o o o,o o,o ooo,o o o o o o o o o o ,o o o oo o o ,ooo :o o,o,o,o ooo基金项目:国家自然科学基金面上项目()引 言 年国家发改委、能源局发布关于深化电力现货市场建设试点工作的意见以来,首批 个电力现货试点纷纷启动结算试运行,现货市场建设推进速度明显加快。在现货市场结算中,实时要实时反映电力供需关系变化,因而有时实时电价波动会很剧烈,同时由于现货市场采用价量结算,故实时电量的准确性决定了现货市场结算的准确性。由于各种计量装置或第 卷 第 期电测与仪表 年 月 日 ,传输问题,很多用户的电量并不能实时获得,这种用户称为非分时计量用户,此时需要通过电力曲线将该类用户的日电量分解至每日以 为间隔的分时电量,该电力曲线可称之为典型负荷曲线。目前广东电力市场非分时计量用户的日电量分解计划是对所有的用户通过每日的峰平谷三个时段进行电量的比例分配。这样对一个用电规律明显的大用户来说,一个时段内的曲线时段上微小的波动引起的电费差距可能很大。相对日电量按固定比例分配,建立一个动态的每日 个点的典型负荷曲线模型能有效提高日电量分解准确率。由于每个区域电力市场包含了海量用户的负荷数据,不能给每个市场化用户建立其典型负荷曲线模型,如何通过有效的负荷曲线形态分类方法来把握不同用户的用电特性,具有相同用电曲线的用户选用相同的典型负荷曲线进行现货市场日电量的分解;同时如何提高典型负荷曲线的日分时电量曲线的准确性成为了关乎现货市场进一步深入推进的关键。为了解决上述问题,本文选用负荷曲线形态聚类后的聚类中心作为簇内的典型负荷曲线用于簇内所有用户的日分时电量分解。从而可以通过提高聚类中心描述同类簇下所有曲线的能力来提高所有用户日分时电量分解时的准确性。目前国内外关于负荷曲线形态分类问题的研究较为完备,主要通过无监督学习的聚类方法获得。包括快速密度峰值算法、基于斜率提取边缘、模糊 均值聚类和谱聚类等聚类算法和利用降维方法来提高聚类效果如强化学习机、自编码器降维、奇异值分解降维、自组织映射降维等。传统聚类算法为了提升分类效率,一定程度上牺牲了聚类中心描述同类簇负荷曲线的能力和准确性。如 算法是一种基于距离的无监督学习分类方法,其聚类中心是通过同类簇的均值法获得,通过不断迭代计算同类簇下曲线与聚类中心的欧式距离,来获得分类结果。聚类中心只是为了获取分类结果的一个过程比较参数,聚类中心的描述能力仍可进一步提高。同时在传统聚类算法中,核密度估计(o,)只用于选取 聚类的初始聚类中心,从而来提升分类效果。但是只能保证初始聚类中心在第一次迭代计算中,描述能力是最好的。而在后续的迭代计算中,不能保证典型负荷曲线的簇内描述能力。基于此,为了提升聚类中心描述同类簇的能力,本文将核密度估计的思想引入 聚类算法中的聚类中心每一次形成过程,将原有的均值获取聚类中心升级为高斯核密度估计获取最大概率的聚类中心进行迭代计算。典型负荷曲线获取流程如图 所示,利用电力负荷数据进行数据准备和改进 算法聚类,最后以云南省电力计量数据为例,对提出的算法与传统聚类算法、传统日电量分解方法进行了比较。结果显示基于核密度估计改进聚类中心的 算法获得的典型负荷曲线在用于现货市场日电量分解时准确性更高。数据预处理样本典型负荷曲线提取数据标准化负荷曲线平滑主成分分析降维DBI 指标查询迭代改进kmeans算法输出聚类结果数据准备改进聚类求解图 典型负荷曲线形成框架 o 负荷数据准备为了解决非分时计量用户的电量分解问题,选择具有相似用电规律的分时计量用户的典型负荷曲线提供其进行结算。如不具备分时计量的超市参与现货市场时,需要根据具有分时计量超市的典型负荷曲线进行日电量的分解。故需要选择具有分时计量能力的样本用户,为了样本用户能充分模拟真实的全省负荷,样本用户的选取涵盖了各个行业,各个电量等级。由于电力计量状况不一,存在漏数、串数等异常情况,需要对各样本数据进行预处理。数据预处理 异常数据处理对于异常数据,根据计量值累加递增原则即下一个时刻的计量值大于等于此刻的计量值小,记录异常值位置,对该位置的数据做缺失值处理。第 卷 第 期电测与仪表 年 月 日 ,书书书1 1 2 缺数处理对于用户负荷电量缺数较少的情况,采用三次样条插值法14 进行插补。对于缺值较多的用户,采用垂直修复法进行修复。即选用前一周同一时刻对应的负荷值作为此刻的负荷值。对于缺值太多的用户不宜选为样本用户。1 2 典型负荷曲线提取1 2 1 提取样本日负荷曲线经过数据预处理后,得到了样本用户全年一共35 040个时间序列点计量数据。为了得到特定场景下(特定月份)的样本典型负荷曲线,需要进一步对该样本用户的不同场景(工作日、休息日、节假日)进行日负荷曲线提取。采用基于高斯核函数概率密度分布的方法进行负荷曲线提取。以 6 月份的工作日场景为例。该场景下任一个时序点的电量等于该月 22 个工作日的电量数据进行概率密度的叠加。其中 Gaussian 核函数 K,其计算公式为:K(x)=12ex22(1)计算该用户历史负荷数据第 k 时刻负荷值 xk_num对应的概率密度函数 fk(xk_num),其表达式为fkxk_num()=1ThTi=1Kxk_num xikh()(2)式中 K 为高斯核函数;T 为时序 k 下的样本点数目;h 为带宽;xk_num xk_min,xk_max;xik为第 i 日 k 时刻的负荷值;xk_min为该用户历史负荷数据第 k 时刻的负荷最小值;xk_max为该用户历史负荷数据第 k 时刻的负荷最大值。根据式(2),形成最大概率密度曲线向量,Xi_mp=xi_mp_1,xi_mp_2,xi_mp_k,xi_mp_96T,这条最大概率密度曲线作为该样本用户的典型负荷曲线,其中 xi_mp_k为 fk(xk_num)取最大值时 xk_num对应的数值。1 2 2 数据标准化样本用户使用电量的数量级具有较大差异,而典型日负荷曲线提取是为了把握该样本用户的负荷规律,即目的在于曲线的形状而非曲线的电量值。故可以通过数据标准化,对数据按比例缩放,使之落入一个特定区间进行曲线形状的描述。文中设置所有样本用户一天内的 96 个时序用电量之和为 1 000 kWh,便于不同量级的用户能够进行比较和加权,如式所示。x*=xi_mp_kNk=1xi_mp_k 1000(3)1 2 3 负荷曲线平滑用户用电数据存在用户数据由于其一定的用电随机性,负荷曲线容易出现一定的上下波动的情况,而进行负荷曲线预测时,希望把握负荷的曲线变化规律,因此部分曲线出现的噪音点将会干扰负荷波动形态的判断。鉴于上述问题,最后使用高斯滤波(Gauss Filter,GS)进行用户典型曲线的平滑15。原有的用户计量数据为不完整的电量数据,经过前文所述的数据预处理后,可得到任意月份的典型日负荷曲线。经过平滑后的某超市 2018 年 6 月的工作日典型负荷曲线如图 2 所示。400350300250200150100500电量/(kWh)2468 10 12 14 16 18 20 22 24时间刻度/h滤波前滤波后图 2某超市 2018 年 6 月工作日典型负荷曲线Fig 2Typical load curve of working days inJune 2018 of supermarktet2基于核函数估计的 Kmeans 聚类2 1 主成分分析法降维数据降维可提升后续聚类算法的效率,同时能够舍弃掉噪声影响的数据。文献 16 中指出对于负荷曲线降维,主成分分析降维可取得最佳效果;因而选用主成分分析法进行用户数据降维。主成分分析基于最大可分性,将样本用户在超平面上实现可分。PCA 算法流程如表 1 所述。其中,降维后维数 d 根据特征向量的描述能力决定。2 2 改进 kmeans 聚类算法2 2 1 聚类有效性评价数据集中含有 N 条样本负荷曲线,每条负荷曲线可以表示为 96 维的向量。由于聚类的样本负荷曲线没有标签,为无监督学习。故为了衡量聚类的效果,引入聚类有效性指标有误差平方和(Sum of Squared Er-ror,SSE)、Davies-Bouldi 指标(Davies-Bouldin Index,DBI)等17。根据聚类有效性指标确定最佳聚类数目,实现 kmeans 聚类数目的准确输入。93第 60 卷第 2 期电测与仪表Vol60 No22023 年 2 月 15 日Electrical Measurement InstrumentationFeb15,2023表 主成分分析算法流程 oo o o输入:样本集 ,;低维空间维数 过程:所有样本中心化:;计算样本的协方差矩阵 ;对协方差矩阵 做特征值分解;取最大的 个特征值所对应的特征向量,输出:投影矩阵 ,()()指标误差平方和 用于衡量簇内各子类至聚类中心的欧氏距离,即:c,()()式中 c为类簇 的聚类中心,即 c;(c,)为向量间的欧式距离。()指标 指标能有效描述簇内的相似性和簇之间的相差性。k k()式中:k kk()()ck,c()()式中 (k)和 ()为簇内样本内部距离;(ck,c)为聚类中心的距离;越小表示聚类效果越好。基于核密度估计的 聚类算法传统 聚类算法是根据欧式距离来对样本的相似性进行的分类的方法。算法流程如表 所示。在传统 算法中第 步计算新的均值向量时,采用等权重平均值叠加形成的新的聚类中心。然而在实际中,均值法聚类中心提高了算法效率,但是对聚类中心的聚类质量也有一定下降。为了提高对典型负荷曲线描述用户用电特点的准确性。基于概率统计的思想,提出一种新的聚类中心形成方法,如图 所示。采用高斯核函数概率密度分布函数拟合样本最大概率分布函数,然后根据簇内的其他曲线与最大概率曲线的概率分布进行加权叠加,获得新的聚类中心形成数据的划分。结果显示新聚类中心能更精准描述簇内用户的负荷曲线。表 算法流程 o o输入:样本集 ,聚类簇数 k过程:从 中随机选择 k 个样本作为初始均值向量,k 令 k()o o ,o计 算 样 本 与 各 均 值 向 量 k()的 距 离:根 据 距 离 最 近 的 均 值 向 量 确 定 的 簇 标 记:,k 将样本 划入相应的簇 o o ,k o 计算新均值向量:将当前均值向量 更新为 保持当前均值向量不变 o 当前均值向量均未更新输出:簇划分 ,k新的聚类中心形成过程包括()根据式()计算时序 k 的负荷值 k对应的概率密度函数 k(k),其中 为高斯核函数,为时序 k 下的样本点