基于
强化
学习
配电网
应急
抢修
决策
方法
启东
第 42 卷 第 3 期2023 年 3 月电 工 电 能 新 技 术Advanced Technology of Electrical Engineering and EnergyVol.42,No.3Mar.2023收稿日期:2022-04-15基金项目:中国南方电网深圳市供电局电网智能 AI 调度技术与应用研究项目(090000KK52190162)作者简介:田启东(1987-),男,河南籍,高级工程师,研究方向为电网调度运行控制;陈 颖(1979-),男,四川籍,研究员,博士,研究方向为电力系统高性能计算、信息物理系统、电网韧性(通信作者)。基于强化学习的灾后配电网应急抢修决策方法田启东1,张家琦2,陈 颖2,聂欢欢2,林长盛1(1.深圳供电局有限公司,广东 深圳 518048;2.清华大学电机工程与应用电子技术系,北京 100084)摘要:灾后故障配电网的应急抢修及重构需求,面临着灾情的不确定性、多抢修队调配特性、抢修与重构耦合等多个挑战。本文基于强化学习构建了灾后多抢修队的抢修调配模型,设计了状态粗筛机制以固定强化学习状态及动作空间大小,搭建了配电网抢修恢复测试环境。在不同恢复模式、多个故障场景下的测试结果表明:强化学习在提出的多个评价指标下综合表现稳定,可以作为灾后动态抢修的可选方案。关键词:韧性;配电网;强化学习DOI:10.12067/ATEEE2204027 文章编号:1003-3076(2023)03-0066-10 中图分类号:TM731 引言 配电网是从主网到用户端之间的配电系统,是电力系统中分布最广泛、与用户关系最密切的电力网络。近年来极端自然灾害呈频发态势,对配电网的安全稳定运行造成极大威胁。在极端灾害袭击下,配电网可能会在短时间内发生多处故障而大面积失电。同时,由于灾害的强不确定性及配电网故障探知能力的有限,电网中的灾情信息往往难以在第一时间获取。伴随着配电网抢修工作的开展,配电网中的故障才得以陆续探明。面对极端灾害导致的配电网大面积故障,及时安排合理的配电网抢修计划对于提升配电网韧性至关重要1-4。快速制定科学有效的抢修计划,能帮助配电网快速恢复至正常供电状态,减小自然灾害冲击给配电网造成的损失。可见,研究配电网灾后有效抢修,最小化灾害导致的配电网失电损失,具有重要意义。配电网的应急抢修旨在将各抢修队伍派遣至不同故障处进行修复,加速配电网负荷供电恢复,是典型的(多)旅行商问题。由于旅行商问题求解困难,现有的配电网应急抢修工作多基于贪婪和启发式算法搜索可行方案5-8。另一方面,配电网在进行抢修时往往伴随着系统拓扑重构进程,即通过配电网自动化开关进行系统转供电。已有研究给出了多种灾后配电网抢修调配和重构复电方案。文献9关注配电网远程和人工操控实现动态重构,采用动态规划求解重构逻辑和人员派遣策略。文献10研究了电网灾后恢复的抢修人员调配和配电网复电耦合问题,建模为多阶段优化问题,通过解耦求解提高效率。文献11先对故障区域空间划分,再对抢修人员派遣、系统重构和分布电源调配的联合优化求解。综上所述,配电网应急抢修及恢复中需要考虑灾情的不确定性,开展多抢修队动态调配,实现抢修恢复和转供复电协同优化。已有研究还存在灾情不确定性考虑不充分、求解效率较低难以支撑实时决策等不足。随着人工智能技术提高,强化学习方法被用于求解组合优化问题,如旅行商问题。文献12,13提出了指针网络 Pointer Network,分别采用监督学习和强化学习求解组合优化问题。文献14提出了基于强化学习的端到端车辆路径问题(VehicleRouting Problem,VRP)求解框架,在解的质量上优于经典的启发式算法和 Google 的 OR 工具。文献15,16结合神经组合优化和强化学习,用于解决田启东,张家琦,陈 颖,等.基于强化学习的灾后配电网应急抢修决策方法J.电工电能新技术,2023,42(3):66-75.67 在线车辆路径问题。另一方面,针对多主体(旅行商)协同优化,可采用多智能体强化学习方法17,18。已有研究刻画了多个智能体之间的合作、竞争及混合关系,提出了通信学习19,20、价值网络分解21和动态环境重要性抽样22等技术,提升了学习效率和效果。文献23提出用元启发式算法解决组合优化问题的多智能体架构,利用强化学习协助寻找最佳启发函数。文献24利用多智能体强化学习解决订单配送系统中的车辆调度问题。文献25利用强化学习为各个智能体分配旅行节点,将多旅行商问题转化为多个单旅行商问题,进而高效求解。已有研究对配电网灾后抢修及恢复问题的求解效率较低,未考虑灾情不确定性,求解方法的适应性和实时性不足,因此本文提出了基于多智能体强化学习的方法进行应急抢修策略的学习。首先,考虑多抢修队动态调配,抢修恢复和转供复电的协同优化,建立了灾后配电网抢修问题模型。其次,提出了适应多抢修队的多智能体强化学习模型,并设计了模型状态粗筛机制以处理状态和动作空间不固定的问题。最后,设计了强化学习模型训练算法以及神经网络结构,并以 IEEE 123 节点系统为故障环境模型进行了测试。实验结果验证了所提出的基于强化学习灾后抢修调配模型综合性能的优越性,可以为灾害冲击下的电网应急管理提供有效的辅助决策支持。2 问题建模2.1 灾后配电网抢修问题 考虑一包含 N 个系统节点的配电网,节点集为N=1,2,N,系 统 中 常 闭 线 路 集 为 Ln=(i,j),i,j N,i j,常开备用线路集为 Lb=(k,l),k,l N,k l。极端灾害可能会导致配电网中部分设备发生损坏,发生损坏的设备可以是支路类型或节点类型。记灾害导致的配电网故障线路集为 Le=(m,n),m,n N,m n,导致的配电网故障节点集为 Ne=i,i N,此时系统中可用常开备用线路集为备用线路中未发生故障的线路,记为 Lb=Lb-Le。考虑到系统灾情的不确定性,系统发生的故障往往难以第一时间探知,故为发生的每一个故障设置一个探知时间,在此探知时间前,系统未能知道该故障发生。设系统有 nR个抢修队,故障抢修即为将 nR个抢修队分别派遣至所有支路、节点故障处进行抢修。每次一个故障抢修完毕之后,可以决定是否需要采取重构措施帮助系统恢复。因此,便形成抢修-重构-抢修-重构-的灾后恢复机制,直至配电网中的故障全部抢修完毕或系统恢复正常供电。此问题的关键为抢修队伍调配顺序的确定。考虑到该问题的非确定性多项式(Non-deterministic Polynomial,NP)难特性,受强化学习等人工智能方法的启发,采用强化学习进行此配电网应急抢修及恢复问题的求解。图 1 为配电网灾后恢复过程的示意图。随着抢修工作的开展,系统中的故障被陆续清除,负荷陆续恢复;且一般来说当耦合系统重构操作时,能更快速地进行配电网的供电恢复。灾后恢复的目标为最小化恢复曲线上方、系统正常供电负荷水平以下的不规则多边形面积,该块面积为系统失电负荷的累计损失,即:minL(;nR)(1)L(;nR)=Ni=1T0wiPii,(t;nR)dt(2)式中,为 灾 害 导 致 的 某 一 配 电 网 故 障 场 景;L(;nR)为系统采取的重构及抢修策略为 时的系统灾后失电损失,即上文所述的不规则多边形面积;wi为负荷节点 i 的负荷权重;Pi为负荷节点 i 的功率需求;T 为整个系统全部恢复正常供电的时间;i,(t;nR)0,1 为配电网故障场景 下,系统中有 nR个抢修队,采取的重构及抢修策略为 时,负荷节点 i 在 t 时刻的供电状态,1 表示该负荷失电,0 表示该负荷正常供电。i,(t;nR)的确定为灾后配电网恢复问题的核心,其受系统的抢修安排和重构措施影响。图 1 配电网灾后恢复示意图Fig.1 Schematic diagram of post-disaster recoveryof distribution networks负荷供电状态的确定思路:一般而言配电网呈辐射状,所有负荷由配电网变电站供电。正常情况下,配电网中各个节点均存在至配电站的连通路径,68 电 工 电 能 新 技 术第 42 卷 第 3 期此时各个节点正常供电。灾害发生后,由于部分设备损坏,电网连通性遭到破坏,部分节点找不到其至配电站的连通路径,此时该负荷停电。当随着抢修工作及重构的开展,部分停电的负荷又重新和配电站节点建立了连通关系,此时此部分停电的负荷恢复正常供电。可见,整个恢复过程是一个配电网拓扑结构不断变化的过程,每次抢修及重构完毕后,系统拓扑结构均会发生变化。因此,可设计一个路径搜索策略,如利用深度/广度优先等遍历算法,确定某一节点和配电站节点间是否存在连通路径。每一抢修及重构完毕后,运行此策略,从而确定负荷的供电状态。2.2 灾后配电网抢修的强化学习模型 针对抢修调配及重构恢复问题,本节设计相应的强化学习模型。强化学习是指一个智能体在和环境交互的过程中,通过获取环境状态,采取动作作用于环境,获取反映该状态下所采取动作好坏的奖励值,并利用奖励值进行学习的一种机器学习方法。强化学习尤其适合用于序列决策问题当中,当把一个问题建模为强化学习问题时,需要明确智能体获取的状态、采取的动作及相应的奖励。在本问题中,智能体代表着抢修队伍调配及系统重构管理中心,也即电网管理者,智能体采取的动作为各个抢修队的调配方案及重构方案,奖励函数可根据配电网失电损失进行设计。首先考虑强化学习状态 st的设计,强化学习状态为智能体选择决策的依据,因此强化学习状态中需要包含影响其做出决策的信息。本问题中系统故障信息、各抢修队伍的状态、系统的恢复态势均会对抢修人员调配安排有所影响,所设计的系统状态如下所示:st=(Ft,Ct,cselectt,PRt,VRt)(3)式中,Ft为系统的故障信息;Ct为抢修队伍信息;cselectt为此时选择进行派遣的抢修队;PRt为系统的负荷恢复率;VRt为系统的负荷价值恢复率,也即加权负荷恢复率。Ft为系统故障信息集,考虑如何描述一条故障。对于 Ft中的一条故障 ft,设计如下的描述方式:ft=(x,y,tR,pftt,vftt,eftt)(4)即每一条故障用一个六维向量表示:该故障的地理位置 x,y;该故障的抢修耗时 tR,即该故障从开始抢修至抢修完毕的耗时;若该故障抢修完毕,系统可以提升的负荷恢复率为 pftt;若该故障抢修完毕,系统可以提升的负荷价值恢复率为 vftt;及从该时刻至下一抢修队可调配期间,系统的失电损失为eftt。同样地,需要考虑抢修队伍的描述方式,对于Ct中的每一个抢修队 ct,其设计为一个三维向量:ct=(xt,yt,uctt)(5)式中,xt,yt为抢修队的地理位置;uctt表示在经过 uctt时间后抢修队 ct可以被再次调配。将某一故障分配给一个可调配的抢修队伍之后,该抢修队的地理位置变为分配的故障的地理位置,uctt可通过抢修队调配前的位置和故障位置之间的距离及故障的抢修耗时决定。其次考虑强化学习动作 at的设计。本文的抢修安排为将各抢修队分配至各个故障处进行抢修,因此强化学习动作为离散值。st中包含了对系统故障信息的描述 Ft,因此强化学习的离散动作维数为Ft中的故障数目 Ft,即:at 1,2,3,Ft(6)接着考虑每次抢修派遣过程奖励 rt的设计。每次有抢修队状态变为可派遣时的时刻为智能体进行决策的时刻,如开始进行抢修的时刻和每次抢修队完成一个故障抢修的时刻。每次决策的奖励可根据从该次决策到下次决策之间的系统失电损失 lt进行设计。同时,由于系统失电损失 lt反映的是累积决策的影响,如抢修最开始无论采取何种调配策略其失电损失 lt均会较大,而抢修接近结束时其失电损失 lt较小,因此也需要设计反映该项抢修调配方案的即时好坏。因此进行如下的奖励设计:rt=-lt+vftt(7)式中,vftt对应于待抢修的故障 ft,反映了若抢修该故障能为系统带来的供电负荷价值恢复率提升,为此抢修安排的短期价值体现;为反映此短期价值体现的因子,其大小可利用网格搜索确定。2.3 强化学习状态粗筛机制 在所提出的强