浙江科技学院学报,第35卷第1期,2023年2月JournalofZhejiangUniversityofScienceandTechnologyVol.35No.1,Feb.2023doi:10.3969/j.issn.1671-8798.2023.01.004收稿日期:2021-08-30基金项目:浙江省重点研发计划项目(2018C01085);浙江省自然科学基金项目(LQ15F030006);浙江省教育厅科研项目(Y202249418);浙江科技学院研究生科研创新基金项目(2021yjskc04)通信作者:项新建(1964—),男,浙江省永康人,教授,硕士,主要从事人工智能、机器人技术研究。E-mail:188002@zust.edu.cn。一种改进的近端策略优化算法费正顺,王焰平,龚海波,项新建,郭峻豪(浙江科技学院自动化与电气工程学院,杭州310023)摘要:近端策略优化(proximalpolicyoptimization,PPO)是从一个已知的分布附近来采样估计另一个分布,通过用新策略在老策略的附近学习来实现优化的,其中老策略作为新策略的近似分布。【目的】针对PPO算法在强化学习中学习效率及收敛性不够好的问题,提出一种改进的PPO算法。【方法】首先提出一种新损失函数来更新PPO算法中的网络参数,采用泛化优势估计(generalizeddominanceestimation,GAE)对优势函数进行描述;然后采用类似异步优势演员评论家(asynchronousactor-critic,A3C)算法中的多线程策略来训练智能体;最后设计新的参数更新方式来实现对主副两种网络中的参数更新。【结果】本方法能够使智能体更快地完成学习训练,其训练过程中收敛性更好;由于多线程,其算法的训练速度会比常规的PPO算法至少快5倍。【结论】改进的PPO算法其性能更好,这为后续强化学习算法的研究提供了新思路。关键词:强化学习;近端策略优化;泛化优势估计;多线程中图分类号:TP183文献标志码:A文章编号:1671-8798(2023)01-0023-07OnanimprovedalgorithmofproximalpolicyoptimizationFEIZhengshun,WANGYanping,GONGHaibo,XIANGXinjian,GUOJunhao(Schoolo...