温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
改进
延迟
深度
确定性
算法
电网
有功
安全
校正
控制
顾雪平
2023 年4 月 电 工 技 术 学 报 Vol.38 No.8 第 38 卷第 8 期 TRANSACTIONS OF CHINA ELECTROTECHNICAL SOCIETY Apr.2023 DOI:10.19595/ki.1000-6753.tces.221073 基于改进双延迟深度确定性策略梯度算法的电网有功安全校正控制 顾雪平1 刘 彤1 李少岩1 王铁强2 杨晓东2(1.华北电力大学电气与电子工程学院 保定 071003 2.国网河北省电力公司 石家庄 050021)摘要 新型电力系统中,由于源荷不确定性的影响,发生线路过载事故的风险增大,传统的有功安全校正方法无法有效兼顾计算速度及效果等。基于此,该文提出一种基于改进双延迟深度确定性策略梯度算法的电网有功安全校正控制方法。首先,在满足系统静态安全约束条件下,以可调元件出力调整量最小且保证系统整体运行安全性最高为目标,建立有功安全校正控制模型。其次,构建有功安全校正的深度强化学习框架,定义计及目标与约束的奖励函数、反映电力系统运行的观测状态、可改变系统状态的调节动作以及基于改进双延迟深度确定性策略梯度算法的智能体。最后,构造考虑源荷不确定性的历史系统过载场景,借助深度强化学习模型对智能体进行持续交互训练以获得良好的决策效果;并且进行在线应用,计及源荷未来可能的取值,快速得到最优的元件调整方案,消除过载线路。IEEE 39 节点系统和 IEEE 118 节点系统算例结果表明,所提方法能够有效消除电力系统中的线路过载且避免短时间内再次越限,在计算速度、校正效果等方面,与传统方法相比具有明显的优势。关键词:新型电力系统 有功安全校正 深度强化学习 改进双延迟深度确定性策略 最优调整方案 中图分类号:TM732 0 引言 随着新型电力系统的建设与发展,输电线路的传输功率持续增多,源荷等不确定性因素大幅增加,由元件故障、源荷波动等引发线路过载的概率显著提高1-3。由于电网在元件故障情况下较脆弱、受源荷波动性影响较大等,若线路出现过载且无法得到及时、有效的校正处理,则可能加剧联锁故障的传播速度与范围,继而引发大停电事故。因此,研究系统正常运行状态或事故发生后,安全校正措施的及时、有效实施以消除潮流越限,对保障系统安全运行具有重要意义。传统有功安全校正方法分为优化法和灵敏度法两大类。优化法虽能全面考虑各类约束条件,但可能导致参与调整设备过多,收敛速度较慢、计算耗时较长,计算结果难以适应电力系统实际运行场 景4-8。灵敏度法计算速度较快,但调整过程中易出现反复过载现象,导致调整效率较低9-10。有研究提出安全域视角下的基于有功灵敏度的安全校正控制方法10-11,但该类方法对调节措施的调整方向、优先级以及调节措施组合的自由度有所限定,可能遗漏最优解甚至造成无解7。近年来,已有部分研究将人工智能技术应用于系统的安全校正控制,如文献12对比分析了基于灵敏度法和粒子群优化法的有功安全校正控制效果,并给出各自适用场景,但粒子群优化法需要在线迭代求解,计算速度较慢。文献13利用深度神经网络快速确定参与调整的机组,之后通过规划法求解各调整机组出力,提高了规划方法的求解速度,但没有从本质上克服规划法的不足。此外,当前新型电力系统运行工况复杂多变,国家电网公司科技资助项目(SGTYHT/17-JS-199)。收稿日期 2022-06-08 改稿日期 2022-07-12 第 38 卷第 8 期 顾雪平等 基于改进双延迟深度确定性策略梯度算法的电网有功安全校正控制 2163 新能源出力的波动幅度大,已有基于传统方法和智能算法的校正方案除无法很好地兼顾计算速度与计算效果外,亦未考虑校正过程中源荷等不确定性因素的影响以及校正后系统的安全性,极易导致校正结果无效或校正后短时间内再次出现潮流越限问题。因此,校正过程中,在保证以较快的速度和最小调整量(或发电成本最低)消除过载线路的前提下,亦应计及源荷波动性影响使计算结果更符合实际运行场景,同时尽可能地提高系统运行安全性,保证较好的校正效果。强化学习14是一种通过环境与智能体不断交互学习达成回报最大化,寻找最优目标的人工智能技术,具备全局决策能力,且受系统规模和复杂度影响较小,能够较好地计及源荷波动性。同时,强化学习依据离线学习、在线应用的方式,可实现快速、有效的在线决策,减小不确定性因素的影响。深度强化学习将深度学习的感知能力与强化学习的决策能力相结合,具备连续状态特征提取能力和较大动作空间,改善了传统强化学习仅能在离散状态和动作空间中学习的不足,在电力领域得到广泛应用,如风速预测、自动发电控制等15-20。目前使用较多的一种深度强化学习算法为深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)。文献17提出基于多智能体 DDPG 算法有功-无功协调调度模型,并证明该算法比深度 Q 网络、双深度 Q网络深度强化学习算法在训练效率、应用效果等方面好,亦比传统的基于二阶锥规划的优化法在线计算耗时少、综合效果好。然而,DDPG 算法通常学习到的 Q 函数会高估真实的 Q 值,从而使得学到的策略失效。双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)算法为在 DDPG 基础上的扩展,有效改善了原有的不足20-21。本文提出一种基于 TD3 算法的电网有功安全校正控制方法。首先,依据实际系统有功安全校正控制的特点,同时兼顾系统运行安全性,建立有功安全校正模型。之后,搭建有功安全校正深度强化学习框架,定义奖励函数、动作空间、系统观测状态等。为进一步地提高最优解质量,采用多经验池概率回放的 TD3 算法进行环境与动作之间交互学习,得到全局最优决策方案。通过预学习、在线应用方式,快速获得任意场景下线路过载的有效消除方案。IEEE 39 节点系统和 IEEE 118 节点系统算例验证了本文方法的可行性和有效性。1 静态有功安全校正模型 当电网运行过程中出现单条或多条线路潮流越限时,需要采取校正控制措施使系统满足静态安全约束。常规可调元件主要包括机组、直流系统、负荷。由于调整负荷将造成用户供电中断,在实际调度运行中通常不会采用,一般可采用调整可调机组出力和直流系统功率两种控制措施7。为提高新能源发电利用率,文中选取常规机组和直流系统作为可调元件。1.1 目标函数 考虑到机组出力调整将导致机组磨损、辅机启停,直流系统的功率调整将影响其他区域电网的功率平衡等,为最大化降低不利影响,本文定义各可调元件调整量绝对值之和最小为目标之一。同时,兼顾系统运行安全性,即保证在调整量最小的情况下,系统安全性最高。安全性大小可由系统载荷均匀度来表示,载荷均匀度则由线路负载率标准差表征,标准差越小,系统均匀度越高,安全性越高22。目标函数为()Line211,2Line1m in +1NiNik tkllPN=|-|-|(1)式中,,k tP为可调元件 k 在 t 时刻的调整量,,k tP=,1k tk tPP-;N 为可调元件数量;li为线路 i 负载 率,li=Pi/Pimax,Pi为线路 i 的传输功率,Pimax为线路 i 的最大传输功率;l为线路负载率的平均值;l=LineLinem ax1NiiiPNP=,LineN为线路数;1、2为将调整 量、系统均匀度两种指标约束到一定范围内的常系数。1.2 约束条件(1)功率平衡约束 GN ewD CLoadGWDL,1111+NNNNi tj te tz tijezPPPP=+=(2)式中,G,i tP、W,j tP、D,e tP分别为常规机组、新能源机组、直流系统在 t 时刻注入的有功功率;L,z tP为负荷量;NG、NNew、NDC、NLoad分别为常规机组、新能 源机组、直流系统、负荷的数量。(2)出力约束 常规机组出力的约束上、下限为 G,min,maxii tiPPP (3)2164 电 工 技 术 学 报 2023 年 4 月 式中,Pi,min、Pi,max为常规机组 i 有功出力上、下限。新能源机组出力约束上、下限为 W,m in,m axjj tjPPP (4)式中,Pj,max、Pj,min为新能源机组 j 有功出力上、下限。直流系统传输功率的上、下限约束 D,min,maxee tePPP (5)式中,Pe,max、Pe,min为直流系统 e 有功出力上、下限。(3)在计及系统载荷均匀度目标的基础上,文中将校正后线路负载率不超过 90%作为校正后线路的传输约束,以保证必要的安全裕度,如式(6)所示7。,m ax0.9l tlPP (6)式中,Pl,max为线路 l 最大允许传输功率。(4)可调元件爬坡速率约束,1,up,1,dow n k tk tkk tk tkPPRPPR-|-|(7)式中,Rk,up和 Rk,down分别为机组 k 在一个调度时段内的最大向上、向下爬坡功率。2 有功安全校正问题深度强化学习框架 强化学习是智能体与环境不断交互,寻找一个最优策略来最大化期望回报值的过程,组成部分包括环境、智能体、表征环境的状态集合 S、表征智能体动作的集合 A 及对智能体的奖励 r。某时刻 t交互过程如图 1 所示。图 1 智能体与环境交互过程 Fig.1 Interaction process between agent and environment 由图 1 可知,在 t 时刻,环境向智能体提供观测到的系统状态 stS,智能体基于深度强化学习算法和系统状态 st生成动作 at,环境根据动作更新下一时刻状态,并返回一个奖励值 rt给智能体。本文中,电力系统为环境,设可调元件数量为N、节点数量为 NNode、线路数量为 NLine、负荷节点数量为 NLoad、新能源机组数量为 NNew,有功安全校正问题的深度强化学习框架内各组成部分表征 如下。1)状态空间 s 状态空间应尽可能表达系统的特征,因此,选择系统拓扑、线路潮流、节点负荷、新能源出力作为观测状态,对于任意时刻 t,状态 st表示为 t=s LineLineLineLoadLineLoadN ew1222+NNNNNNNsssss+(8)式中,L i n e1Nss为线路开断状况,为 1 表示线路未断开,为 0 表示线路断开;L i n eL i n e12NNss+为线路 传输功率;LineLineLoad212NNNss+为节点负荷值,LineLoadLineLoadN ew2+12+NNNNNss+表示新能源出力值。2)动作空间 a 动作空间为优化模型中的相关决策量。文中将可调元件出力的调整作为动作,考虑到爬坡约束,将调度出力的调整用增量形式表示。以任意可调元件 k 为例,其在 t 时刻的动作表示为,up,dow n0110kkkkkkka RaPa Ra|=-|(9)式中,Pk为可调元件当前时刻 t 较上一时刻 t-1 的出力变化量;ak为强化学习输出的可调元件 k 出力动作值,ak-1,1。系统中共包含 N 个元件动作12Naaa。为 减少无效机组出力调整,提高调整效率,设置每步动作只选择两个元件分别进行增出力与减出力。t时刻,动作空间 at表示为 ,1,tijaaijN=a (10)3)奖励 r 有功安全校正的目标是以最小的调整量同时保证较高的系统运行安全性消除线路过载。此外,环境在反馈给智能体奖励时,应当根据式(2)式(7),计及系统功率平衡、线路负载率是否小于等于 0.9等。因此,在时刻 t 获得的奖励表示为()Line2112Line11NiNitkkllrPN=|-|=-+|-|(11)第 38 卷第 8 期 顾雪平等 基于改进双延迟深度确定性策略梯度算法的电网有功安全校正控制 2165 式中,为惩罚项,当任一约束不满足时,惩罚项取值为-30,否则为 0。4)智能体 智能体由深度强化学习算法及其得到的调整策略组成,深度强化学习分为策略学习、价值学习、Actor-Critic 三大类。Actor-