分享
基于ADP的一类未知非线性...统事件触发输出反馈最优控制_李琳.pdf
下载文档

ID:2369192

大小:2.44MB

页数:6页

格式:PDF

时间:2023-05-10

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 ADP 一类 未知 非线性 事件 触发 输出 反馈 最优 控制 李琳
第 40 卷第 3 期计算机应用与软件Vol.40 No 32023 年 3 月Computer Applications and SoftwareMar 2023基于 ADP 的一类未知非线性系统事件触发输出反馈最优控制李琳1潘忠成2,3*李昶志41(广东交通职业技术学院信息学院广东 广州 510000)2(哈尔滨工程大学材料科学与化学工程学院黑龙江 哈尔滨 150001)3(陕西麦可罗生物科技有限公司陕西 渭南 715500)4(陕西省公共资源交易中心陕西 西安 710000)收稿日期:2020 07 22。陕西省科技厅项目(2018ZKC-173,2019-PT-15);国家自然科学基金面上项目(51979064);陕西省科技厅重大项目(S2018-YF-ZDNY-0199)。李琳,讲师,主研领域:计算机网络技术,电子商务管理。潘忠成,副研究员。李昶志,助工。摘要针对一类未知非线性系统,提出基于 ADP(Adaptive Dynamic Programming)的事件触发输出反馈最优控制策略,此方法只用到了系统的输出量。考虑到系统内部状态量无法测量和系统模型难以获得的问题,设计神经网络状态观测器来估计系统的不可测状态量并通过输出信息重构了系统的内部状态。在获得系统的未知动态和状态量信息后,设计结合事件触发技术的 ADP 输出反馈最优控制策略。通过 Lyapunov 理论推导了神经网络观测器和评估网络的权值更新率,并且证明了闭环控制系统的稳定性。通过仿真实验验证了该控制方法的有效性。关键词ADP神经网络观测器事件触发输出反馈中图分类号TP3文献标志码ADOI:10 3969/j issn 1000-386x 2023 03 046ADP-BASED EVENT-TIGGEED OUTPUT FEEDBACK OPTIMAL CONTOLFO A CLASS OF UNKNOWN NONLINEA SYSTEMSLi Lin1Pan Zhongcheng2,3*Li Changzhi41(School of Information,Guangdong Institute of Communications,Guangzhou 510000,Guangdong,China)2(School of Materials Science and Chemical Engineering,Harbin Engineering University,Harbin 150001,Heilongjiang,China)3(Shaanxi McCullough Biotechnology Co,Ltd,Weinan 715500,Shaanxi,China)4(Shaanxi Public esources Exchange Center,Xi an 710000,Shaanxi,China)AbstractAimed at a class of unknown nonlinear systems,an event-triggered output feedback optimal control schemebased on adaptive dynamic programming(ADP)is proposed,which uses only the output information Considering thatthe internal state of the system could not be measured and the system model was difficult to obtain,a neural network stateobserver was designed to estimate the unmeasurable system states and reconstruct the system internal state based theoutput data After the information of unknown dynamics and the unmeasurable states information were obtained,an ADPoutput feedback optimal control scheme combined with event-triggered technique was proposed Through the Lyapunovtheory,the weight update rates of neural network observer and critic network were obtained,and the stability of closed-loop control system was proved The simulation results demonstrate the effectiveness of the proposed control schemeKeywordsADPNeural network observerEvent-triggered techniqueOutput feedback0引言随着控制性能要求的提高,非线性系统最优控制受到了控制领域的广泛关注1 4。在最优控制设计过程中,系统哈密顿-雅可比-贝尔曼方程(Hamilton-Jacobi-Bellman equation,HJB)的求解方法成为控制器设计的关键,而动态规划(Dynamics Programming,DP5)作为求解方法被广泛应用于最优控制策略中。然而动态规划在时间上是向后执行的,所以 DP 为离线求解第 3 期李琳,等:基于 ADP 的一类未知非线性系统事件触发输出反馈最优控制293方法。并且由于在高维最优化问题中存在“维度诅咒”问题,DP 难以在实际控制中应用。为了避免上述问题,Werbos6提出了基于强化学习(einforcementLearning,L)的自适应动态规划(ADP)策略。它将强化学习方法、演员-批评家结构(Actor-Critic Structure)7 和神经网络结合来解决最优控制问题,其中评估网络用于估计动态规划中的成本函数,从而解决“维度诅咒”问题。近些年来,基于 L 的 ADP 的控制策略和相关领域受到了学者的广泛关注并且获得了很多重要的成果。文献 8 针对带有未知动态的非仿射非线性系统的控制问题提出了一种新型 ADP 控制方法,此方法不需要识别系统的未知动态。文献 9 设计了基于观测器的 ADP 控制器,解决了非仿射连续非线性系统的控制问题,其中观测器用于重构系统不可测状态量,评估网络用于估计系统的性能指标函数。文献 10将ADP 方法应用于具有未知动态的多智能体编队控制中。近些年来,非线性系统的事件触发控制方法吸引了广泛的关注11 12。与常规的时间触发控制方法相比,事件触发控制(Event-Triggered Control,ETC)只有在当前状态量与期望值的误差超过阈值时控制器才会更新,这样大大减少了控制系统的计算负担同时节约了被控对象和执行器的通信资源13。在最优控制的实际应用中还需要考虑系统模型未知和系统的内部状态量无法测量的问题。需要注意的是,在实际应用中通常只有系统的输出量和控制输入量为可测度量,并且只对输出量进行测量也可以大大减少控制系统对测量装备的需求。为了估计不可测量的状态量,本文首先通过神经网络观测器来重构系统状态量,然后通过观测到的状态量设计了基于 ADP 算法的事件触发输出反馈最优控制策略,在实现最优控制的同时节约计算能力和通信资源。通过 Lyapunov 理论获得了神经网络观测器的权值更新率和评价网络的权值更新率。闭环系统的稳定性同样进行了严格的证明。最后通过仿真实验验证了控制算法的有效性。1系统描述考虑如下的未知非线性系统:x(t)=G(x(t),u(t)y(t)=Cx(t)(1)式中:x(t)n代表系统的状态量;y(t)m代表系统的输出量并且为可测度量;u(t)p代表系统的控制输入;Cm n为常数矩阵;G(x(t),u(t)代表系统的未知动态。需要注意的是,在实际应用中系统的状态量不一定完全可测量的且系统的状态方程也不一定精确可知,所以式(1)符合实际的应用场景。为了便于后续观测器设计,将式(1)写成如下形式:x(t)=Ax+U(x(t),u(t)y(t)=Cx(t)(2)式中:U(x(t),u(t)=G(x(t),u(t)Ax;A 为常数矩阵。假设 1系统未知动态 U(x(t),u(t)为平滑函数并满足:U(x(t),u(t)/u(t)(3)式中:为正常数。2控制器设计本节主要分成两个部分,首先设计了基于神经网络的状态估计器用于估计系统的状态量,然后设计基于自适应评估的输出反馈最优控制策略。2 1基于神经网络的状态观测器结合式(2)设计如下的状态观测器:x=Ax+U+T(y Cx)y=Cx(4)式中:x和y分别为系统状态量 x 和输出量 y 的估计值;U为未知方程 U 的估计值并采用神经网络进行逼近;Tn m的选择满足 D=A TC 为 Hurwitz 矩阵。D 有如下特性:DTP+PD=M(5)式中:P=PT,M=MT。设计如下的神经网络逼近器用来逼近式(1)中的未知函数 U:U=T1s1(x,u(t)+(x)(6)U=T1s1(x,u(t)(7)式中:U为 U 的估计值,U=U U为神经网络的估计误差并且估计误差有界,即(x)满足(x)m,m为正常数;1=1 1,其中 1为神经网络的理想权重并且满足 1m,m为正常数;隐含层的激活函数s1(x,u(t)选择双曲正切函数。神经网络的输入为系统估计状态和控制输出。权重的更新律选择如下:1=a(yTCD1)TsT1(x,u)y1(8)式中:y=y y;a 和 为正常数。294计算机应用与软件2023 年定理 1对于式(1)、式(4)、式(6)、式(8)、状态观测器的估计误差 x=x x和神经网络的估计权重误差1为一致最终有界(Uniformly Ultimately Bounded,UUB)。证明定义如下的 Lyapunov 函数:V1=12xTP x+tr(T)(9)对式(9)求导可得:V1=12xTP x+12xTP x+tr(T11)(10)结合式(2)、式(4)、式(6)、式(7)和式(8),式(10)可写成:V1=12xTMx+s1(x,u)TP x+TP x+tr(Ta(Cx)TCD1)Ts1(x,u)T+T1y1)(11)令 b=a(D1)TCTC,则式(11)简化为:V1=12xTMx+s1(x,u)T1P x+TP x+tr(T1bxs1(x,u)T+yT11)(12)考虑如下不等式成立:tr(T1(1 1)m112(13)将式(13)代入式(12)可得:V1 12min(M)x2+x(sm1P+mP+sm1b)+Cx(m112)(14)式中:min(M)表示矩阵 M 的最小特征值;sm表示激活函数的上界。为了消除带有 1的项,令:H=smP+smb+mC2 C(15)则式(14)变为:V1 12min(M)x2+x(mP+C H2 C(H)2)12min(M)x2+x(mP+C H2)(16)因此,为了保证V1 0,状态估计误差满足如下条件:x2(mP+C H2)min(M)(17)根据 Lyapunov 理论可知,只要式(17)满足,则观测器的估计误差x和神经网络的估计权重误差满足UUB。定理 1 证明完毕。2 2基于自适应评估的输出反馈控制器本节主要设计基于事件触发的输出反馈最优控制策略。首先假设 tkk=0为严格递增的数列,其中 tk代表了事件触发的瞬间,kN 为正整数。在时间触发时,令:xk=x(tk)kN(18)这意味着 xk在 t tk,tk+1)为定值。为了后续事件触发函数的设计,定义如下的误差方程:ek(t)=x(tk)x(t)t tk,tk+1)(19

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开