温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
演员
评论家
结构
深度
学习
齿轮箱
智能
故障诊断
方法
程哲
基于演员评论家结构的深度强化学习齿轮箱智能故障诊断方法程哲1,2,韦磊1,2,3,程军圣3,胡茑庆1,2(1.国防科技大学智能科学学院,长沙410073;2.装备综合保障技术重点实验室,长沙410073;3.湖南大学机械与运载工程学院,长沙410073)摘要 由于旋转机械大部分时间处于健康状态,并且很难获得足够的故障数据,历史监测数据将高度偏向健康状态,在非平衡样本条件下的深度学习故障诊断方法的诊断精度将会严重降低。本研究结合强化学习框架和深度学习算法,提出一种基于演员评论家结构的深度强化学习的齿轮箱智能故障诊断方法。智能体以原始振动信号作为输入,将智能体输出概率值的分布与真实标签 one-hot 编码的Jensen-Shannon(JS)散度距离作为连续奖励函数,并以不平衡比为基准来提高智能体正确识别故障样本时的奖励值;设计一种使智能体在训练初期尽可能探索状态空间而在训练后期逐渐收敛的探索策略。实验证明:在 PHM2009 数据集中,健康样本和故障样本不平衡比例为 10 时,本研究所提的智能故障诊断方法在 3 种工况下平均识别精度可达 99%,相较于其他诊断精度方法提升 37%49%。关键词 不平衡样本;智能故障诊断;深度强化学习;奖励函数;探索策略 中图分类号 TH17 文献标志码 Adoi:10.3969/j.issn.1673-6214.2023.03.001 文章编号 1673-6214(2023)03-0141-08Deep Reinforcement Learning Gearbox Intelligent Fault DiagnosisMethod Based on Actor-critic StructureCHENGZhe1,2,WEILei1,2,3,CHENGJun-sheng3,HUNiao-qing1,2(1.CollegeofIntelligenceScienceandTechnology,NationalUniversityofDefenseTechnology,Changsha410073,China;2.LaboratoryofScienceandTechnologyonIntegratedLogisticsSupport,Changsha410073,China;3.CollegeofMechanicalandVehicleEngineering,HunanUniversity,Changsha410073,China)Abstract:Asrotatingmachineryisinahealthystatemostofthetimeandobtainingsufficientfaultdataisdifficult,thehistoricalmonitoringdatawillbeinclinedtohealthyconditionsandthediagnosticaccuracyofthefaultdiagnosismethodsbasedondeeplearningalgorithmunderunbalancedsampleconditionswillbesignificantlyreduced.Therefore,bycombiningareinforcementlearningframeworkandadeeplearningalgorithm,anintelligentfaultdiagnosismethodforgearboxesbasedondeepreinforcementlearningwithactor-criticstructurewasproposedinthisstudy.Withthisalgorithm,theagenttakestheoriginalvibrationsignalasinputdata,andtheJensen-Shannon(JS)divergencedistancebetweenthedistributionoftheagentoutputprobabilityvaluesandthetruelabelone-hotencodingasacontinuousrewardfunction.Besides,theimbalanceratioworksasabenchmarktoincreasetherewardvaluewhentheintelligentsystemcorrectlyidentifiesthefaultysample.Moreover,anexplorationstrategywasdesigned,which can ennable the intelligent system explore the state space as much as possible at the training beginning and graduallyconvergeattheend.Theexperimentalresutlsvalidatesthat,whentheimbalanceratiobetweenhealthyandfaultysamplesis10inPHM2009dataset,theproposedintelligentfaultdiagnosismethodcanachieveanaveragerecognitionaccuracyof99%underthreeworkingconditions,whichis37%49%higherthanotherdiagnosisaccuracymethods.Key words:unbalancedsample;intelligentfaultdiagnosis;deepreinforcementlearning;rewardfunction;explorationstrategy收稿日期 2023年1月7日修订日期 2023年3月21日基金项目 国家自然科学基金(52275140)作者简介 程哲(1982 年),男,博士,副教授,主要从事机械故障诊断等方面的研究。2023 年 6 月第 18 卷第 3 期失效分析与预防June,2023Vol.18,No.30引言旋转机械作为现代工业的重要生产设备,正朝着智能化、高速化、高精度的方向快速发展。特别是随着产品复杂性和功能模块集成度的提高,它对设备的整体安全性、稳定性和鲁棒性提出了更大的挑战。大多数旋转机械处于恶劣的工作状态,在可变工况下运行时承受着交替载荷。在高速和重载条件下运行时很容易发生各种故障,不仅会使设备停止运行,还会导致设备和人员事故。因此,对以齿轮箱为代表的装备动部件进行健康监测和故障诊断是非常重要的1。近年来,由于深度学习算法具有多层神经网络的层次结构,它可以通过逐层处理从输入数据中获得有用信息,从而获得强大的数据特征提取能力。这一优势引起了故障诊断领域许多学者的兴趣2。Jing 等3提出了一种一维卷积神经网络(CNN),它可以直接从振动信号的频率数据中学习特征,在齿轮箱故障诊断中获得较高的诊断精度。Di 等4将深度学习理论应用于机床的故障诊断和健康监测,提出了一种基于多尺度、高效通道注意网络的刀具故障诊断方法。该方法综合了机床主轴不同方向的振动信号,提高了诊断精度。然而,实际采集的振动数据往往表现出正常样本和故障样本的不均衡分布,即健康样本的数量远远大于故障样本的数量,这给深度学习在故障诊断中的应用带来了很大的挑战。由于传统的 DL 在数据分布不均衡情况下会失效,因此故障数据往往被判断为健康,这在实际工程中是不可接受的。为了解决不平衡样本下的故障诊断问题,许多研究者都从数据和算法的角度进行改进。从数据的角度出发,Mao 等5提出了过采样和欠采样的混合方法,将不平衡数据集转换为平衡样本集,有效提高了不平衡故障诊断任务的准确性。从算法的角度出发,韩淞宇等6通过设计一种新的 Focal-Loss 作为损失函数,提出了一种基于自适应权重和多尺度卷积的增强型 CNN,该模型可以增加对故障样本的关注,减少不平衡样本的影响。虽然这两种改进方法已被证明在一定程度上是有效的,但不幸的是,随着信息时代的快速发展,从设备中产生了大量高度不平衡的复杂数据。两种改进方法都有一定的局限性,导致传统的改进方法不足以处理越来越复杂的数据,这给非平衡数据下的故障诊断带来很大的挑战。因此,需要探索一种更有效的非平衡样本条件下的故障诊断方法。在最近的研究中,深度强化学习算法在计算机游戏、机器人控制、推荐系统和其他领域取得了优异的成绩7。深度强化学习算法使用环境反馈机制来引导智能体尽可能地对一系列输入数据做出正确的决策(分类或回归),目的是在一系列决策行动中获得更高的回报。因此,由于深度强化学习方法对智能体的奖励机制,以及模拟动物的思维,它被视为解决分类不平衡问题的一种新颖方法。Lin 等8首次将深度强化学习算法应用于非平衡数据的分类,他认为数据分类问题是智能体的顺序马尔可夫决策过程。通过增加对智能体正确地分类少数样本时的奖励,来鼓励智能体尽可能正确地识别少数类,并获得比以前方法更高的分类精度。目前,很少有学者研究深度强化算法在故障诊断中的应用。本研究通过对原有深度强化算法的分析,提出一种改进的强化学习方法。在该改进方法中,原始振动信号被用作输入数据,CNN 被用作基学习器来感知输入数据,演员评论家结构被用作强化学习框架来对输入数据进行决策,从而形成一个深层强化学习网络。针对深度强化算法初始训练过程中数据不平衡和稀疏奖励导致的样本效率低的问题,设计一种奖励函数,在每个时间步长上计算出连续的奖励值,这不仅可以提高智能体对少数故障样本的分类精度,而且可以解决稀疏奖励问题。此外,在训练的早期阶段,让智能体尽可能多地探索外部世界的每一种状态,而在训练后期逐渐缩小智能体的探索范围,通常被认为是做出提高识别率的关键技术9。为此,设计一种改进的-贪婪搜索策略,其贪婪系数 会随训练次数的增加而减小。最后,由于深度强化的参数空间和策略空间并没有一致地映射,因此尽管可以保证智能体在参数空间中得到良好的训练,但是很难确保智能体在策略空间朝着良好性能的方向更新。基于这个问题,引入平均优势加权回归函数来确保更新智能体后得到的新策略总是优于旧策略。1基于演员评论家结构的深度强化学习算法1.1基于值函数的算法强化学习算法本质上是一个反馈控制回路,142失效分析与预防第18卷智能体在环境中观测交互状态 stS,得到采样轨迹(s1,a1,r1,s2,st,at,rt,st+1),并试图使得每一步回报 rt最大化,如图 1 所示10。在策略 训练智能体接收样本 st选择每一步的动作 atA,训练过程选择动作的过程包含了一定的概率,如式(1)所示,代表了智能体对环境的探索过程。(a|s)=P(at=a|st=s)(1)AgentEnvironmentState StReward RtAction atSt+1Rt+1图1强化学习的控制回路Fig.1Controlloopofreinforcementlearning强化学习算法的智能体对单条轨迹内的状态stS 做出决策,则智能体在每一个时间步长里拿到环境给予的累计折扣奖励为:Gt=Rt+1+1Rt+2+kRt+k+1=k=0kRt+k+1(2)式中,为折扣因子,0,1,反映了当前 t 时刻的决策对未来的影响程度。通过观测的采样轨迹,定义函数 Q 用于评估当前采样轨迹在策略 下的状态动作对(st,at)的期望折扣奖励,即:Q(st,at)=Es0=st,a0=at,Tt=0trt(3)式中,T 为当前采样轨迹最大时间步长。定义函数 V 用于评估在策略 下状态 st的期望折扣奖励,即当前状态下采取所有动作获得奖励的期望值,即:V(st)=Es0=st,Tt=0trt=a(st)(at|st)Q(st,at)(4)1.2基于策略梯度的算法在基于策略梯度的算法中,定义目标函数为智能体在当前策略下所有的采样轨迹的预期回报,