温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
深度
强化
学习
策略
优化
电网
无功
方法
第 47 卷 第 2 期 电 网 技 术 Vol.47 No.2 2023 年 2 月 Power System Technology Feb.2023 文章编号:1000-3673(2023)02-0562-09 中图分类号:TM 721 文献标志码:A 学科代码:47040 基于深度强化学习近端策略优化的电网无功优化方法张沛,朱驻军,谢桦(北京交通大学电气工程学院,北京市 海淀区 100044)Reactive Power Optimization Based on Proximal Policy Optimization of Deep Reinforcement Learning ZAHNG Pei,ZHU Zhujun,XIE Hua(School of Electrical Engineering,Beijing Jiaotong University,Haidian District,Beijing 100044,China)ABSTRACT:The fluctuations of renewable energies and loads pose a great challenge to reactive power optimization.Considering the time-varying characteristics of new energies and loads,the reactive power optimization problem is constructed as a reinforcement learning problem.The method of constraint-target division and target presupposition is proposed to design a reward function,and the proximal policy optimization algorithm is used to solve the reinforcement learning problem,getting the reactive power optimization policy.A case study is carried out with the modified IEEE39 system,and the results show that the proposed reward function can improve the convergence speed of the agent.The reactive power optimization strategy based on reinforcement learning is supirior to the traditional deterministic optimization algorithm in decision-making effects and decision-making time.KEY WORDS:reactive power optimization;new power system;deep reinforcement learning;proximal policy optimization;data driving 摘要:新能源和负荷波动给无功优化带来更大的挑战。考虑新能源和负荷时变特性,将无功优化问题构建成强化学习问题。提出了约束目标划分和目标预设的方法设计奖励函数,并采用近端策略优化算法求解强化学习问题,获得无功优化策略。以改进的 IEEE39 系统开展案例分析,结果表明所提的奖励函数能提高智能体收敛速度,基于强化学习求解的无功优化策略在决策效果和决策时间上优于传统确定性优化算法。关键词:无功优化;新型电力系统;深度强化学习;近端策略优化;数据驱动 基金项目:南方电网公司科技项目(面向系统平衡和电网安全的源网荷储协同调控技术研究,科技编码 YNKJXM20222463)。Project Supported by Science and Technology Project of China Southern Power Grid(YNKJXM20222463).DOI:10.13335/j.1000-3673.pst.2022.0728 0 引言 在“双碳”战略背景下,随着新型电力系统的构建,新能源的渗透率越来越高,源荷双侧不确定性使无功优化问题面临更大的挑战。无功优化问题过去被定义为优化问题。优化求解方法可以分为常规优化算法和人工智能算法两类。常规优化算法主要有线性规划1-2、非线性规划3-4、混合整数规划5-6 及动态规划法7-8等。人工智能算法主要包括遗传算法9-10、粒子群法11-12、禁忌搜索13-14、模拟退火算法15-16等。常规优化法物理概念清晰、理论成熟、收敛可靠、应用广泛,但其高度依赖模型精准性,对初始点敏感,对目标函数和约束条件有一定限制,对于非凸优化问题难以收敛到最优解。智能算法在处理离散变量和解决“维数灾难”上十分有效,但其易于早熟,陷入局部最优,后期搜索能力弱。新能源的大规模并网加重了源荷侧的不确定性,确定性的优化算法难以解决不确定性的无功优化问题。随着强化学习和量测技术的发展,已有研究将强化学习用于电力系统规划、管理和运行控制中17-20。文献21将双层强化学习的模型用于综合能源系统实时调度问题求解,解决了模型对负荷和新能源出力预测准确性的要求,但其采用深度 Q 值网络(deep Q network,DQN)作为核心算法难以应对较大规模系统。文献22使用 DQN 搭建“电网脑”进行电网的自动调压,解决了负荷波动和网架故障下的电压调整问题,但 DQN 算法只能处理小规模离散动作空间问题,处理大规模问题易发生“维数爆炸”。文献23提出基于深度确定性策略梯度(deep deterministic 第 47 卷 第 2 期 电 网 技 术 563 policy gradient,DDPG)的电压控制方法,验证了强化学习方法在网架模型参数不确定下的适用性。DDPG 算法克服了 DQN“维数灾难”的问题,但其只能解决连续动作空间问题。文献24将优势演员评论家算法(advantage actor-critic,A2C)用于配网无功优化中,克服了可再生能源间歇性和用户需求不确定导致的随机波动问题。A2C 算法基于动作器评价器(actor-critic,AC)框架,能够应对大规模问题,但是其策略更新幅度较大,不利于收敛。文献25 提出基于多智能体的配电网无功优化方法,设计 2个智能体解决不同调节速度设备的协调性问题;采用 DQN 结合 AC 算法,但 DQN 短板效应明显,约束了整体性能。上述方法在不同的场景取得了一定的成效,提供了解决问题的方法和思路,但同时存在一定的局限性,且对于奖励函数的设定,没有很好地结合实际问题对约束条件和目标函数进行 设计。无功优化问题属于序贯决策问题,具备马尔可夫性,可将其视为马尔可夫决策过程(Markov decision process,MDP)使用强化学习进行求解26。具体说明可见后文 1.1 小节问题描述内容。本文将无功优化问题视为强化学习问题。使用近端策略优化算法(proximal policy optimization,PPO)进行强化学习问题求解。PPO 能够解决连续动作空间和离散动作空间问题,算法收敛性好,对超参敏感度低。为弥补先前算法的不足,构建基于 PPO 算法的深度强化学习模型进行无功优化。1 日前无功优化问题的 MDP 模型 1.1 问题描述 当不考虑随机因素时,确定型方法能较准确地分析无功优化问题,但在电力系统实际运行中,不确定因素总是广泛存在的,使传统确定型模型面临着巨大挑战。其一是由于负荷参数变化带来的需求侧不确定性;其二是可再生能源接入引起的发电侧不确定性。因此,有必要在无功优化模型中考虑随机因素。MDP 用元组(,)S A P R描述,其中:S为有限状态集;A为动作集;P为状态转移概率;R为回报函数;为折扣因子。MDP 的状态转移概率包含动作,如1|,kijtjtitkPP ssss aa。图 1 为MDP 的示意图。图 1 中:is表示第 i 个状态;kijP表示从状态is采取动作ka后,转移到状态js的概率;kiR表示在状态is采取动作ka的即时奖励。2S1S3S4S5S6S11R111P21R112P12R121P22R123P32R14R142P143P34R154P15R24R145P221P226P223P13R136P135P23R156P25R 图 1 马尔可夫决策过程 Fig.1 Markov decision process 图 2 为无功优化示意图。在系统运行中,选取0t时段系统状态作为初始状态0000,sP Q U,0P、0Q、0U分别表示在状态0s下的有功功率、无功功率和电压幅值等状态(下同)。在该状态下存在多种可供选择的控制措施,诸如,机端电压调节、并联无功补偿装置投切,变压器抽头调节等。当选择并执行动作1a后,系统状态转移到状态1111,sP Q U,根据设定的评价方法评价状态1s的好坏并给出该动作的奖励值。奖励值可正可负,正值会使得智能体加大选择动作1a的概率;反之同理。由于动作的多样性,所以状态s会由于采取动作的不同而改变,如12,ns ss。那么,在下一时段1t,n+1 个状态中每个状态都存在着多种动作,如此按照“状态旧动作奖励状态新”的方式进行序贯决策。t系统运行控制措施控制措施.tn.t0P0Q0U0a0t1a1anP0,Q0,U0P1,Q1,U1Pn,Qn,Una0a1anP0,Q0,U0P1,Q1,U1Pn,Qn,Un 图 2 无功优化示意图 Fig.2 Diagram of reactive power optimization 结合图 1 的 MDP 示意图,可以明确:系统运行状态量即 MDP 中的状态观测量;无功优化控制措施就是 MDP 中的动作;状态转移概率矩阵由电力系统运行环境给定;控制决策评价对应 MDP 奖励;折扣因子人为划定。从以上分析过程可知,可以将无功优化处理为马尔可夫决策过程,并将其定义为强化学习问题进行求解。1.2 强化学习原理简介 强化学习对于解决不确定性决策控制问题具有天然的适用性。对于任意一个 MDP 问题,可由元组(,)S A P R进行描述。强化学习的最终目的要得到最优策略,现对强化学习最优策略获取和强化学习为什么能解决不确定性问题展开分析。当给定一个策略时,定义累计回报 1210()ktttt kkGRRR (1)564 张沛等:基于深度强化学习近端策略优化的电网无功优化方法 Vol.47 No.2 由于策略是随机的,因此累计回报也是随机的。那么,tG是个随机变量,无法对其进行描述,但期望为确定值,由此定义状态值函数 10()|kt ktkVsERss (2)式中E表示在策略下的期望。相应地,定义状态行为值函数为 10(,)|,kt kttkQs aERss aa (3)定义最优状态行为值函数 *(,)max(,)Qs aQs a(4)若已知最优状态动作值函数,最优策略可通过直接最大化*Q来决定。*1 =arg max(,)(|)0 a AaQ s aa s,其他(5)由此得到基于期望值的最优控制策略。对于不确定性问题的适用性主要通过式(2)和式(3)得到体现,采用期望进行值函数的计算,再通过式(4)进行优化,得到高于平均水平的控制效果。将无功优化过程与强化学习相结合,得到无功优化问题的强化学习模型,如图 3 所示。预测数据和运行状态对应强化学习中的状态观测量;调度决策中心对应智能体,决策变量对应智能体选定的动作;根据动作施行后系统状态生成控制评价,对应奖励值。电力系统智能体控制决策评价决策量无功补偿装置投切变压器抽头调节机端电压调节网络损耗机组出力支路