基于演员−评论家结构的深度强化学习齿轮箱智能故障诊断方法程哲1,2,韦磊1,2,3,程军圣3,胡茑庆1,2(1.国防科技大学智能科学学院,长沙410073;2.装备综合保障技术重点实验室,长沙410073;3.湖南大学机械与运载工程学院,长沙410073)[摘要]由于旋转机械大部分时间处于健康状态,并且很难获得足够的故障数据,历史监测数据将高度偏向健康状态,在非平衡样本条件下的深度学习故障诊断方法的诊断精度将会严重降低。本研究结合强化学习框架和深度学习算法,提出一种基于演员−评论家结构的深度强化学习的齿轮箱智能故障诊断方法。智能体以原始振动信号作为输入,将智能体输出概率值的分布与真实标签one-hot编码的Jensen-Shannon(JS)散度距离作为连续奖励函数,并以不平衡比为基准来提高智能体正确识别故障样本时的奖励值;设计一种使智能体在训练初期尽可能探索状态空间而在训练后期逐渐收敛的探索策略。实验证明:在PHM2009数据集中,健康样本和故障样本不平衡比例为10时,本研究所提的智能故障诊断方法在3种工况下平均识别精度可达99%,相较于其他诊断精度方法提升37%~49%。[关键词]不平衡样本;智能故障诊断;深度强化学习;奖励函数;探索策略[中图分类号]TH17[文献标志码]Adoi:10.3969/j.issn.1673-6214.2023.03.001[文章编号]1673-6214(2023)03-0141-08DeepReinforcementLearningGearboxIntelligentFaultDiagnosisMethodBasedonActor-criticStructureCHENGZhe1,2,WEILei1,2,3,CHENGJun-sheng3,HUNiao-qing1,2(1.CollegeofIntelligenceScienceandTechnology,NationalUniversityofDefenseTechnology,Changsha410073,China;2.LaboratoryofScienceandTechnologyonIntegratedLogisticsSupport,Changsha410073,China;3.CollegeofMechanicalandVehicleEngineering,HunanUniversity,Changsha410073,China)Abstract:Asrotatingmachineryisinahealthystatemostofthetimeandobtainingsufficientfaultdataisdifficult,thehistoricalmonitoringdatawillbeinclinedtohealthyconditionsandthediagnosticaccuracyofthefaultdiagnosismethodsbasedondeeplearningalgorithmunderunbalancedsampleconditionswillbesignificantlyreduced.Therefore,bycombiningareinforcementlearningframeworkandadeeplearningalgorithm,anintelligentfaultdiagnosismethodforgearboxesbasedondeepreinforcementlearningwithactor-criticstructurewasproposedinthisstudy...