能源
互联网
专题
研讨会
基于
信息
物理
社会
融合
系统
智慧
调度
机器人
理论
实践
基于信息基于信息-物理物理-社会融合系统的社会融合系统的智慧能源调度机器人理论与实践智慧能源调度机器人理论与实践报告人:余涛报告人:余涛教授教授 博士生导师博士生导师华南理工大学华南理工大学 电力学院电力学院20182018年年1212月月研究工作经历:2011/3-至今,华南理工大学,“兴华人才”学科团队(配电网智能化与节能技术)负责人2014/5-2015/3,澳大利亚悉尼大学,电气信息学院,访问学者2011/9-至今,华南理工大学,电力学院,教授/博士生导师(破格)2010/9-2013/7,香港理工大学电机工程学系,博士生副导师2006/12-2011/8,华南理工大学,电力学院,副教授/硕士生导师2005/4-2006/4,香港理工大学电机工程学系,副研究员2003/9-2006/11,华南理工大学电力学院,讲师教育经历:1999/9-2003/7,清华大学,电机工程与应用电子技术系,工学博士1992/9-1996/7,浙江大学,电机工程学系,工学学士国家电力可靠性标准委员会委员,国家电力可靠性标准委员会委员,国内核心期刊国内核心期刊电测与仪表电测与仪表、电力电力系统保护与控制系统保护与控制、电力系统及其自电力系统及其自动化学报动化学报编委及编委及新型工业化新型工业化副主副主编,曾任香港理工大学、澳大利亚悉尼编,曾任香港理工大学、澳大利亚悉尼科技大学外聘博士生导师。主持国家自科技大学外聘博士生导师。主持国家自然科学基金然科学基金4 4项和省部级项目项和省部级项目6 6项,横项,横向项目超过向项目超过5050余项,其中单项超过余项,其中单项超过500500万项目万项目4 4项。发表(含录用)各类论文项。发表(含录用)各类论文260260余篇,近五年为余篇,近五年为180180篇;专著篇;专著2 2本;本;共计发表(含录用)共计发表(含录用)国际国际SCISCI源刊论源刊论文文7070余篇余篇(第一或通信作者(第一或通信作者5858篇,篇,2828篇为一区篇为一区TopTop期刊)。获得中国电力创期刊)。获得中国电力创新一等奖(第新一等奖(第1 1)、中国电力技术发明)、中国电力技术发明二等奖(第二等奖(第2 2)、江苏省科学技术三等)、江苏省科学技术三等奖(第奖(第1 1)、北京市科技进步奖一、北京市科技进步奖一项、项、国网公司科技发明一等奖一项和南方电国网公司科技发明一等奖一项和南方电网科技进步奖网科技进步奖3 3项。项。个人简介:自适应控制基于MDP的强化学习控制基于SMDP的改进强化学习控制多智能体随机均衡对策理论虚拟发电部落分散自律控制基于CPSS的调度机器人与知识自动化微元网自组织协同演化与群体智能决策2007南方电网科技进步二等奖2012年结题“优秀”2011年结题“优秀”2011年结题“优秀”2005年至2007年三项调度课题2008国家自然科学青年基金2009年广东省自然科学基金2010年中央高校基本业务费重点项目2011年清华大学国家重点实验室重点项目2011年国家自然科学基金面上项目2012年863“智能电网二期”重大项目子课题2013年973国家重大基础理论子课题2014年国家自然科学基金面上项目20172017年国家年国家自然科学基自然科学基金面上项目金面上项目2016年结题“优秀”(全票当选)理论研究深度展开项目研究纵向发展2017年结题“优秀”国内知名的智能发电调度与控制领域专业团队2017年配用电知识自动化技术获国网技术发明一等奖(排名2)目录0.0.课题研究背景及意义课题研究背景及意义1.1.面向下一代能源电力系统的平行面向下一代能源电力系统的平行CPSSCPSS理想架构理想架构2.2.基于平行基于平行CPSSCPSS结构的智慧能源调度机器人及其知识自动化结构的智慧能源调度机器人及其知识自动化3.3.前期示范工程前期示范工程4.4.具体例子研究具体例子研究5.5.面临的科学和挑战面临的科学和挑战0.0.背景及意义背景及意义6机械化信息化网络化电气化18世纪末1900 s1970 s2000蒸汽机电动机计算机路由器工业1.0解放了人的手工业2.0工业3.0工业4.0增强了人的体力解放了人的脑全面拓宽人的认知代表事件底层技术驱动力时间第一台纺织机(1784)辛辛那提屠宰场第一条生产线(1870)第一台可编程逻辑控制器PLC(1969)信息物理系统引发的第四次工业革命(2010)以人工智能为基础的知识自动化0.0.课题研究背景及意义课题研究背景及意义工业5.0机器人时代信息-物理-社会融合系统(未来)Machine Learning Machine Learning 机器学习机器学习2016年可以看作是年可以看作是机器学习机器学习(machine learning,ML)的一个里程碑年的一个里程碑年,Google公司旗下深智团队所公司旗下深智团队所开发计算机围棋开发计算机围棋AlphaGo以以4:1战胜世界顶级棋手李战胜世界顶级棋手李世石;世石;2016年年12月月AlphaGo的升级版的升级版Master战胜了战胜了包括世界排名第一的柯杰在内的十余位中韩顶尖职业包括世界排名第一的柯杰在内的十余位中韩顶尖职业棋手棋手,令人难以置信地创造了令人难以置信地创造了60:0的完胜战绩的完胜战绩。知识自动化是基于信息的自动化技术向基于知识的自动化技术关键性转变。智慧能源与传统能源系统的关键区别是体现在“智慧”,智慧则主要体现为硬件即插即用和软件知识自动化。AlphaGo“数据/行动”原理图0.0.课题研究背景及意义课题研究背景及意义机器学习算法体系0.0.课题研究背景及意义课题研究背景及意义 人类发展进程与能源利用休戚相关。从工业发展三个多世纪的历史变迁来看,工业进程从机械化、电气化、信息化到今天的网络化时代,能源系统也伴随着工业4.0的发展进程进入到了能源4.0时代。“十三五”以来,“互联网+”智慧能源已经确定为我国能源4.0革命的未来发展方向。电力市场改革,特别是增量配电网建设的开放对电力行业影响深远。能源能源4.04.0系统系统区别区别传统能源系统的最传统能源系统的最主要的两个主要的两个特征特征信息与能源物理系统高度融合各种智慧能源耦合互补信息物理融合系统(CPS)是当下工业界与能源电力研究的热点从复杂系统理论观点看,现有电力CPS仍然基于牛顿系统理论来构建。但在能源市场开放的大环境下,人与社会行为实质上深深地嵌入到了能源各个环节。若从默顿系统角度来看,CPS是否就是下一代能源电力系统的“终极形态”值得深思。0.0.课题研究背景及意义课题研究背景及意义-中科院自动化研究所王飞跃能源调控方式与人类行为紧密耦合。因此,考虑能源电力市场与人类调度员行为,必须从复杂系统理论出发,深入研究默顿定律下的能源与电力变化规律。工业4.0后面的工业5.0应是一个信息物理社会融合系统(Cyber-physical-social Systems,CPSS,尽管能源4.0还未完全实现,但未来能源利用应是基于CPSS的能源5.0时代。该CPSS架构需构建一个虚拟平行人工系统(VPAS),它可以是一个纯软件系统(software-based system)。构建社会系统来增强机器人的智能化水平工业5.0能源调度机器人电网调度技术和知识自动化技术的国内外研究现状电力混成自动控制系统架构电力混成自动控制系统架构具有“多指标自趋优运行能力”的电网(Smart-WAR)显然,一台Smart-WAR已经无法完成日益复杂多样的调度任务,其工作模式必然被多台调度机器人协同工作的模式所代替。0.0.课题研究背景及意义课题研究背景及意义在能源电力系统领域,最近二十年来,以马尔科夫决 策 过 程 为 严 格 数 学 基 础 的 强 化 学 习(Reinforcement Learning,RL)算法成为机器学习领域中一个新的突破,Q学习、R学习和自适应动态规划等强化学习经典算法被国内外学者陆续引入到电力系统领域中来。另一方面,将大数据与深度学习、极限学习、隐马尔科夫等高级机器学习算法结合近年来再度成为电力系统研究的一个热点。逐步升级电网调度技术和知识自动化技术的国内外研究现状0.0.课题研究背景及意义课题研究背景及意义AlphaGo Zero 棋力的棋力的增长与积分比较增长与积分比较AlphaGoMaster AlphaGo Zero1.1.面向下一代能源电力系统的平行面向下一代能源电力系统的平行CPSSCPSS理想架构理想架构 能源能源4 4.0 0时代:时代:“互联网互联网+”智慧能源智慧能源 能源电力市场能源电力市场开放的多方位开放的多方位挑战挑战1.1.面向下一代面向下一代能源电力系统能源电力系统的平行的平行CPSSCPSS理想架构理想架构对象1.1.面向下一代能源电力系统的平行面向下一代能源电力系统的平行CPSSCPSS理想架构理想架构 能源5.0框架(基于平行CPSS的理想架构)能源1.0-煤、水利用为主的传统电力系统;能源2.0-以油、气、核为代表的现代电力系统;能源3.0-以风、光等新能源为代表的智能电网;能源4.0-基于CPS的以电、热(冷)、气、车等多能耦合网络构成的能源互联网;能源5.0-基于信息-物理-社会融合系统(CPSS)的综合能的源系统能源能源5.0框架框架-基于平行基于平行CPSS的理想架构的理想架构 能源5.0框架(采用调度机器人RoboEC)RoboEC-Robot of energy control 能源调度机器人1.1.面向下一代能源电力系统的平行面向下一代能源电力系统的平行CPSSCPSS理想架构理想架构能源能源5.0框架框架-采用调度机器人采用调度机器人RoboEC代替代替本课题致力于将电力调度机器人拓展到下一本课题致力于将电力调度机器人拓展到下一代能源电力系统的调度与控制领域,称之为代能源电力系统的调度与控制领域,称之为“智慧能源调度机器人”(“智慧能源调度机器人”(RoboEC)。未来工业:基于机器学习与决策的知识自动化 能源5.0框架(采用调度机器人RoboEC代替人类调度员群体)对于单个RoboEC的知识自动化,实质就是相对简单的调度信息与流程的个体机器学习过程;而对于群体RoboECs则可以实现简单问题的独立学习求解和复杂问题的分解平行学习求解,这是一个更为复杂的多智能群体知识自动化过程,即分散式的“群体智慧”产生过程。通过调研,能源互联网作为一个非常庞大、复杂的通过调研,能源互联网作为一个非常庞大、复杂的随机系统,在此领域的知识自动化技术研究存在很随机系统,在此领域的知识自动化技术研究存在很大空白。因此,如何实现大空白。因此,如何实现RoboEC群体知识自动化群体知识自动化是一个有待重点攻关的核心技术问题。为此,本课是一个有待重点攻关的核心技术问题。为此,本课题题提出用RoboECs代替真实的人类调度员群体。1.1.面向下一代能源电力系统的平行面向下一代能源电力系统的平行CPSSCPSS理想架构理想架构2.2.基于平行基于平行CPSSCPSS结构的智慧能源调度机结构的智慧能源调度机器人及其知识自动化器人及其知识自动化 能源5.0控制框架图整个控制系统其实是传统控制系统的一个扩展,依然由三个部分构成:调度员与能源市场的综合作用构成了一个广义控制器(面向人与社会);原有的工业闭环控制系统与平行人工系统构成广义受控对象;对整个平行系统输出(包含人与社会属性由于控制输出导致的因果变化)进行评价的广义大闭环反馈器。2.2.基于平行基于平行CPSSCPSS结构的智慧能源调度机器人及结构的智慧能源调度机器人及其知识自动化其知识自动化用RoboEC代替,理论上可起“一箭双雕”的作用:在很大程度上解决了对平行CPSS中最关键的“人”建模的问题,机器人的决策能力只受其数据空间和学习能力约束,不受自然生物属性约束,可充分发挥人工系统对物理系统引导的优势;通过虚拟平行人工系统和平行机器学习方法,可实现RoboEC群体向真人调度员的在线学习,这类似于AlphaGo与真人博弈中提升自身决策能力。且可实现虚实结合的自我探索学习,智能水平将持续提升,理论上应类似AlphaGo一样最终超越人类调度员,这对RoboEC工程实用化至关重要。技术方案技术方案:(1 1)构建能源)构建能源5.05.0系系统的研究平台统的研究平台平台搭建过程包含3个步骤:用标准参数构成的“标称模型”仿真器来代替真实物理系统,如图右下部分所示;用存在一定参数误差和降维建模(如降阶的负荷模型和电源模型)的仿真模型来代替“镜像模型”,但需保证系统潮流相符、动态摇摆特性接近,如图左下部分;按照JADE多智能体架构,采用标称模型与镜像系统进行平行布置和分布式建模。人工智能算法1)各能源网络基础潮流节点状态量节点状态量支路状态量支路状态量电力网络电压、相角支路有功、无功气网络气压管道流量热网络温度热流2222mnmnmnmnmnnmmnkppppfkpppp=气网管道流量公式()0fw+=AUT气网节点功率平衡方程 热力网络通过水传递,包括水力平衡方程和热力平衡方程水力平衡方程热力平衡方程 气网络潮流都可通过基本网络定律建立技术方案技术方案:(2 2)构建能源)构建能源5.05.0系统的基础系统的基础计算分析平台计算分析平台A.综合能源系统稳态建模与混合潮流人工智能算法2)能源网络耦合关系=nnnsssLPLnnnsssPLnnnsssP能源中心物理模型能源中心物理模型能源中心数学模型能源中心数学模型负荷=效率矩阵*比例矩阵*源注入能源中心抽象为一个集各种能源注入、转换、传输及消费的整体,可用于描述不同类型的实体如钢铁厂、汽车制造厂等工业设施,机场、高铁站、大型商场等建筑,以及乡村、城镇等小型区域。技术方案技术方案:(2 2)构建能源)构建能源5.05.0系统的基础系统的基础计算分析平台计算分析平台三区域三区域3333节点能源中心测试系统节点能源中心测试系统根据需要,可将该仿真节点规模进一步扩大,使其成为包含5000电网节点、5000天然气网络节点、500个能源中心的大规模能源电力系统,其规模完全可以满足基于CPSS的下一代能源电力系统调度问题的仿真研究条件。遗传算法人工智能算法1)集中优化:强化学习+内点法构成级联算法速度快,可处理各种复杂问题。2)分散优化:增广拉格朗日函数法只需共享边界信息,保证信息安全。B.综合能源优化运行基础算法(分散/集中)仿真系统算法算法W/美元美元W/%Sge/%迭代迭代次数次数耗时耗时/sCIPM2.3638E3/29.73131.51APP2.3645E30.03029.51365171BCD2.3621E30.07229.43195266AND不收敛1314129620191615411881773251110N1N2GGCCC1312125614943111078能源中心编号系统节点编号12345678910112345691011121314天然气网络电力网络分散优化结果算法算法avrWeWctimeavr/sMAGA0.62441035.5568.4582123PSO0.60121036.5868.5862035知识迁移知识迁移Q学习学习0.61731035.9068.457297集中优化结果技术方案技术方案:(2 2)构建能源)构建能源5.05.0系统的基系统的基础计算分析平台础计算分析平台 xp1Qp1Alternative actionState-action chainNew tasks Task 1Task 2Task y xp2 xp3xpn|Ap1|=mp1Qp2|Ap2|=mp2Qp3|Ap3|=mp3Qpn|Apn|=mpn Optimal solutionsKaiping Qu,Tao Yu*,Linni Huang,Bo Yang,Xiaoshun Zhang.Decentralized Optimal Multi-Energy Flow of Large-Scale Integrated Energy Systems in a Carbon Trading Market.Energy,2018,149(4):779-791遗传算法人工智能算法C.多目标优化算法库-Pareto优化(NSGAII,NNIA 等)对于综合能源系统,其运行的经济性,低碳性和安全性是供能侧需要考核的目标。因此,我们提出一种用于Pareto优化的方法邻近均分轴线法(AUAM)。RCRARB算法示意图G1G7G81234567891011121314151617181920 S气源加压站 S2 S3 S4 S5 S6 S1仿真系统算法算法f1min/万美元万美元f2min/万吨万吨f3min/MW收敛度收敛度分布广度分布广度分布均匀度分布均匀度单位耗时单位耗时/sNSGA-II31.80790.598766.02330.67620.70391.677832.78NNIA31.78460.603566.89810.75240.63951.332537.11UWM31.64670.596164.799300.82913.72260.36NBI31.64670.596164.799300.71550.72310.34AUAM31.64670.596164.799300.82750.32360.36技术方案技术方案:(2 2)构建能源)构建能源5.05.0系统的基系统的基础计算分析平台础计算分析平台技术方案技术方案:(3 3)研究调度机器人的平行机器)研究调度机器人的平行机器学习方法(集中控制)学习方法(集中控制)研究单一RoboEC对集中调度和控制流程中的知识自动化,将强化学习和深度学习与迁移学习结合形成新型的集成学习新方法。调度决策过程中高级知识学习、存储和转移调度决策过程中高级知识学习、存储和转移Xiaoshun Zhang,Qin Li,Tao Yu*,et al.Consensus Transfer Q-learning for Decentralized Generation CommandDispatch based on Virtual Generation Tribe.IEEE Trans on Smart Grid.DOI:10.1109/TSG.2016.2607801Xiaoshun Zhang,Yu,T.*,Pan,Z.,Yang,B.,&Bao,T.Lifelong learning for complementary generationcontrol of interconnected power grids with high-penetration renewables and EVs.IEEE Trans on PowerSystems,DOI:10.1109/TPWRS.2017.2767318算法寻优速度最快可提升到传统启发式人工智能算法的100倍以上完全可以满足二次与三次调频的在线协调滚动优化技术方案技术方案:(3 3)研究调度机器人)研究调度机器人的平行机器学习方法(集中控制)的平行机器学习方法(集中控制)L.F.Yin,T.Yu.Adaptive deep dynamic programming for integrated frequency control of multi-area multi-microgrid systems.Neurocomputing(In Press)利用综合能源中心(现有的)来实现电、气、冷(热)的联合调度与控制流程中的高级知识提取和表达。因此,可将深度学习与强化学习进行结合形成高级机器学习算法,如:将深度学习与经典强化学习算法-Q学习构成一种新型的Deep-Q Learning(D-QL)算法;将深度学习与另一种强化学习的代表算法-自适应动态规划法结合形成一种新型深度自适应动态规划算法(D-ADP)。技术方案技术方案:(3 3)研究调度机器人的平行)研究调度机器人的平行机器学习方法(集中控制)机器学习方法(集中控制)充分借鉴AlphaGo!通过镜像仿真系统与物理系统虚实互动来自我探索产生海量学习样本,实现RoboEC个体高级平行机器学习。Stage I:数据(Data)处理阶段 Stage II:行动(Action)学习阶段 Stage III:数 据/行 动 交 互 提 升(Reactivity&Enhancement)阶段将其扩展成3个阶段平行学习的理论框架图平行学习的理论框架图(虚线上方为通过软件定义的人工系虚线上方为通过软件定义的人工系统进行大数据预处理统进行大数据预处理,虚线下方表示基于计算实验的预测学虚线下方表示基于计算实验的预测学习和集成学习习和集成学习,以及平行控制和指示学习以及平行控制和指示学习.细线箭头代表数细线箭头代表数据生成或数据学习据生成或数据学习,粗线箭头代表行动和数据之间的交互粗线箭头代表行动和数据之间的交互)AlphaGo 将现实世界的数据映射到平行将现实世界的数据映射到平行世界世界,进行多线迭代来求取预期行动进行多线迭代来求取预期行动-王飞跃王飞跃技术方案技术方案:(3 3)研究调度机器人的平行机器)研究调度机器人的平行机器学习方法(集中控制)学习方法(集中控制)在平行学习中在平行学习中,可以使用预测学习和集成学习来拓展可以使用预测学习和集成学习来拓展经典机器学习方法经典机器学习方法,即:即:A.允许多个允许多个RoboEC共同学习共同学习,每个智能体可独立地每个智能体可独立地获取到一系列观测数据并构成集合获取到一系列观测数据并构成集合。每个每个RoboEC还可独立地采取一系列行动并构成集合还可独立地采取一系列行动并构成集合。B.每个每个RoboEC获取的数据和采取行动的次数和时间获取的数据和采取行动的次数和时间均独立均独立。平行机器学习允许一个行动可以产生多个平行机器学习允许一个行动可以产生多个新的数据新的数据、允许获取数据和完成行动有着完全不同允许获取数据和完成行动有着完全不同的频次和发生顺序的频次和发生顺序。C.以平行世界的角度来看待系统状态的演化过程以平行世界的角度来看待系统状态的演化过程。将将新获得的数据映射到平行空间中新获得的数据映射到平行空间中,则可通过大量则可通过大量、长期的仿真迭代来预测和分析预期行动的结果长期的仿真迭代来预测和分析预期行动的结果,并并最终将最优动作返回现实空间最终将最优动作返回现实空间。降低了数据和行动之间的耦合降低了数据和行动之间的耦合,极大地扩展现极大地扩展现有的强化学习方法有的强化学习方法。这可看作是使用RoboEC进行中长期仿真迭代来预测和分析预期行动的结果。同时,其数据的产生和行动的产生相对独立,不需时间对齐。这就是典型的实际小数据到虚拟大数据的实现过程。Parallel learning技术方案技术方案:(4 4)研究调度机器人的平行机)研究调度机器人的平行机器学习方法(分散协同控制)器学习方法(分散协同控制)智能电网的发展推动了电力系统EMS系统走向“分散自律分散自律、集中协调集中协调”的形态,未来将形成一系列EMS小家族。因此,下一代能源电力系统的智慧调度机器人也必然是一个群体(小家族),即RoboECs,其知识自动化流程知识自动化流程、人工社人工社会建模及群体平行机器学习方法会建模及群体平行机器学习方法是研究的重点RoboECRoboEC个体行为与外部环境的相互作用原理个体行为与外部环境的相互作用原理为了确保每个RoboEC具备自主调度和协同调度的能力,可从学习能力和行为特征出发,继续采用采用Q学习学习算法来培育群体算法来培育群体RoboECs的知识学习和存储能力的知识学习和存储能力。111(,)(,)(,)max(,)(,)kkkkkkkkkkkkkkas as aR ssasas a+=+AQQQQ知识的学习和存储知识的学习和存储“追求”和“尝试”,可根据“追求”和“尝试”,可根据RoboECRoboEC现有的知识水平来获得,即现有的知识水平来获得,即4117argmax(,)unidrnd()kkaasaa+=AQAA 分散调度模式下的群体RoboECs的知识自动化流程、人工社会建模与平行机器学技术方案技术方案:(4 4)研究调度机器人的平行机)研究调度机器人的平行机器学习方法(分散协同控制)器学习方法(分散协同控制)分散调度模式下的群体RoboECs的知识自动化流程、人工社会建模与平行机器学RoboECs社会交际网络拓扑建模与分析RoboECsRoboECs社会交际网络拓扑生成示意图社会交际网络拓扑生成示意图社交网络节点即为每一个社交网络节点即为每一个RoboEC,相互联络关相互联络关系反映了相互关系系反映了相互关系(竞争竞争/合作合作)及信息透明程度及信息透明程度等耦合关系等耦合关系。基于此基于此,提出用如下三元数学结构提出用如下三元数学结构来描述这种关系来描述这种关系:(),(),()DV D E DD=式中:D为有向图;V是节点集;E是定义在V上的二元关系(有向线段);是E到V V的函数。V节点集就是RoboEC节点,E为RoboEC的社交联络线,函数则可以定义为多元变量函数,其中“信息完备度信息完备度”和和“合作度合作度”是最重要的是最重要的两个变量两个变量。技术方案技术方案:(4 4)研究调度机器人的平行机)研究调度机器人的平行机器学习方法(分散协同控制)器学习方法(分散协同控制)社交网络联络关系的变化反映了各个RoboEC间信息完备度(透明度)和合作度的变化,由博弈论可知,个个体信息透明度或合作度不同时体信息透明度或合作度不同时,博博弈结果弈结果(均衡点均衡点)会差异很大会差异很大.各种均衡态和相关算法也可用于RoboEC的研究中来,此外,亦可借鉴卢强院士、清华大学梅生伟教授团队近几年在“工程博弈论”方面的最新成果。基于基于Q Q学习形成了学习形成了一个算法体系!一个算法体系!()()()(),)1(,11111+=kkkkikkkitkkkkitkkkkisasHybridQsasRsasQsasQ各个算法的区别主要在此!分散调度模式下的群体RoboECs的知识自动化流程、人工社会建模与平行机器学技术方案技术方案:(4 4)研究调度机器人的平行机)研究调度机器人的平行机器学习方法(分散协同控制)器学习方法(分散协同控制)多智能体机器人系统融合与协调架构(基于多智能体博弈论)分散调度模式下的群体RoboECs的知识自动化流程、人工社会建模与平行机器学RoboEC间的互动博弈和演化关系设计。对于实际的每个子物理系统来说,RoboEC往往只能依赖有限的局部信息来做调度决策。为使整个人工能源系统能够产生大量的合格且优质的调度策略(经济性、安全性、环保性都得以提升),每个每个RoboEC需根据局部的信息与相邻需根据局部的信息与相邻RoboEC进行互动博弈和演化进行互动博弈和演化。解决三大类博弈问题:(A)具有从众和学习行为特征的演化博弈;(B)考虑RoboEC个体背叛行为的集成博弈;(C)不完全信息下的预想虚拟博弈。3.3.具体例子研究具体例子研究(来源:两篇最新我们发表在国际权威期刊上的论文)(来源:两篇最新我们发表在国际权威期刊上的论文)3.1 3.1 微网综合能源系统优化调度问题微网综合能源系统优化调度问题微网分布式能量管理模型微网分布式能量管理模型Energy balanceOptimization method提提高高Supply sideDemand sideWind turbinePV unitCHP unitDiesel generator Commercial buildingResidential buildingFactory()()()()()dgchpdrhcostdgdghhchpchpchpdrmgtie1111min,NNNNiijjkkkmmijkmffPfHfPHfDfP=+目标函数目标函数:inoutrinwtwtinrrinrwtrout0,for and,for,for vvvvvvPPvvvvvPvvv=()()rpvpvpvref11000SPPTT=+WT:PV:()2dgdgdgdgdgdgdgfPPP=+DG:()2hhhhhhhfHHH=+Heat-only unit:()22chpchpchpchpchpchpchpchpchpchpchpchpchpchpchp,fPHPPHHHP=+CHP:()buytietiemgtieselltie,if 0,otherwiseCPPfPCP=Main grid:Energy demanders:()lin20drlinlin1DafDDDbb=+如何求解?如何求解?容量约束热/电能量平衡约束 CHP非凸热电耦合可行域约束模型与问题Main gridMicrogridPCCWind turbinePV unitCHP unitCommercial buildingFactoryResidential buildingHeat unitDiesel generatorPhysical spaceSelling/buying pricesCyberspaceG1GPCCG2L1G3G5G4L2L3Cyber connectionSocial space:Consensus interaction:Game interactionParallel learning for DEM:Electrical flow:Heat flowCPSS framework for DEM of a microgrid微网分布式能量管理微网分布式能量管理复杂非凸优化子任务简单完全凸优化子任务优化联络线功率以及CHP 热能量输出优化剩余变量采用相关均衡采用相关均衡(correlated(correlated equilibrium,CE)equilibrium,CE)的分布式的分布式交互求解交互求解自适应一致性交互求解自适应一致性交互求解模型与问题优化任务分解,采用不同Social交互机制求解构造社会系统模型“涌现”海量场景Small world networkVAS#1VAS#2VAS#4VAS#iVAS#(i+1)VAS#(n-1)VAS#nAgent#1Agent#j Agent#(J-1)Agent#JMicrogrid EMSVAS#3Multiple virtual artificial systemsMicrogrid EMSAgent#(J-1)Agent#jAgent#J Agent#1Cyber-social spacesPhysical spaceReal-world system:Cyber connection多虚拟人工系统与真实系统之间的平行交互基于相关均衡的交互求解基于相关均衡的交互求解i)知识学习()()()()()()11,1,+=+kkkjkjkjkjkjksasaRsaVssaQQQ()()()()1111,+=kkjkjkjkasVssasa AQii)均衡点获取()()()()()()()()()oo,=jjkjjkkkjkjkjjjkjkjjasasjpjpjjjjpjpjsasaasasaaaaaaaaaAAQQAAiii)决策策略()()()()b1,2,.,max,=kkjjkjkasjJfs as aAQ()()()()b1,2,.,maxmin,=kkjjkjkasjJfsasaAQ()()()()b1,2,.,maxmax,=kkjjkjkasjJfsasaAQ()()()()bmax,=kkjjkjkasfs as aAQUtilitarian:Egalitarian:Plutocratic:Dictatorial:基于平行学习的微网分布式能量管理CPSS系统应用平行系统之间的交互平行系统之间的交互i)虚拟人工系统与真实系统的交互()cost1,2,.,arg min=ikinhfx()()rcostbcostrbb,if ,otherwise=hkkhkkrkffxxxxx()()()rrrQcostbcostrr,if ,otherwise+=khkkkhkjjjkjkjrffQQQxxQQ知识校正与提升知识校正与提升ii)虚拟人工系统之间的交互pmax1,1,2,.,=iwkCwnkSmall world network:()costargmin=iiwkwhfx()()costbcostbb,if ,otherwise=iih kikh kikikffxxxxx()()()Qcostbcost,if ,otherwise+=iiikh kikikh kjjjikjikjrffQQQxxQQ基于平行学习的微网分布式能量管理CPSS系统应用人类调度员的交互,来衍生出人类调度员的交互,来衍生出/涌现出不同的联合策略出来!涌现出不同的联合策略出来!避免了出现局部最优问题!避免了出现局部最优问题!580.000590.000600.000610.000620.000MeanMaxMin598.250 599.296 597.468 599.000 605.809 596.149 595.296 596.147 595.043 595.278 596.056 595.058 GAPSOABCGSOParallel learning IParallel learning IIParallel learning III930.000940.000950.000960.000MeanMaxMin947.314 948.845 945.678 950.438 963.420 944.385 944.256 945.242 944.139 944.189 944.531 944.139 GAPSOABCGSOParallel learning IParallel learning IIParallel learning III1160.0001170.0001180.0001190.0001200.000MeanMaxMin1183.524 1186.621 1180.050 1176.312 1177.892 1176.004 1176.112 1176.941 1176.004 1176.043 1176.748 1176.004 GAPSOABCGSOParallel learning IParallel learning IIParallel learning III0.0001.5003.0004.5006.000MeanMaxMin0.499 0.599 0.457 2.460 4.548 1.810 2.505 4.600 1.798 2.971 5.285 2.056 GAPSOABCGSOParallel learning IParallel learning IIParallel learning III场景1下不同算法得到总运行成本对比不同场景下不同算法的运行计算时间基于平行学习的微网分布式能量管理CPSS系统应用仿真分析:不同场景下不同算法运行仿真分析:不同场景下不同算法运行5050次统计结果对比次统计结果对比场景2下不同算法得到总运行成本对比场景3下不同算法得到总运行成本对比仿真分析:收敛性分析仿真分析:收敛性分析0501001502002500.80.820.840.860.88Iteration numberFeedback reward(p.u.)0501001502002500.320.340.360.38Iteration numberFeedback reward(p.u.)0501001502002500.60.620.640.66Iteration numberFeedback reward(p.u.)Tie-line powerCHP1CHP205010015020025000.20.4Iteration numberElectricity energy(MW)05010015020025000.050.10.15Iteration numberHeat energy output