基于
随机
森林
算法
英语
自动
翻译
设备
运行
态势
监测
方法
郭春玲
收稿日期:2022-07-05基金项目:横向课题大学英语翻译技巧与实践(SYHX-2019001)作者简介:郭春玲(1979-),女,陕西渭南人,本科,讲师。基于随机森林算法的英语自动翻译设备运行态势监测方法郭春玲(西安思源学院,西安 710038)摘 要:针对传统英语翻译服务机器人故障诊断准确率低,导致机器人设备运行监测效果变差,安全性降低的问题。基于随机森林和梯度提升树算法,将两者相结合得到 RF-GBDT 故障特征选择算法;然后基于 GRU 神经网络,提出一种改进的故障诊断混合模型,通过此模型实现翻译设备故障准确诊断和运行态势监测。试验结果表明,从 39 维向量至 29 维向量的特征选择中,提出的 RF-GBDT 算法运算效率提高了 30%及以上。算法应用发现,提出的 RF-GBDT 算法的故障诊断率最高可达 92.5%,相较于未进行特征选择的算法,本算法可有效提升故障诊断率。对比于其他故障诊断模型,提出的 GRU 混合模型的诊断准确率高达 94.3%,故障诊断精度明显更高,诊断效果更好,可提升英语翻译机器人的安全性。关键词:随机森林算法;英语自动翻译;特征选择;故障诊断;GRU 中图分类号:TP392 文献标识码:A DOI 编码:10.14016/ki.1001-9227.2023.01.178Monitoring of English Automatic Translation Equipment Based on Random ForestGUO Chunling(International School of Xian Siyuan University,Xian 710038,China)Abstract:In view of the low fault accuracy of traditional English translation service robot,the operation monitoring effect and safety of robot equipment are reduced.Based on random forest and gradient lifting tree algorithm,RF-GBDT fault feature selection algorithm is combined,and then an improved fault diagnosis hybrid model based on GRU neural network is proposed to achieve accurate translation equipment fault diagnosis and operation situation monitoring.The experimental results show that the operational efficiency of the proposed RF-GBDT algorithm increases by 30%or more from 39 to 29 dimensions.The algo-rithm application shows that the fault diagnosis rate of the proposed RF-GBDT algorithm can reach 92.5%.This algorithm can effectively improve the fault diagnosis rate compared with the algorithm without feature selection.Compared with other fault diagnosis models,the diagnosis accuracy of the GRU hybrid model proposed in this paper is as high as 94.3%,the fault diag-nosis accuracy is significantly higher,and the diagnosis effect is better,which can improve the safety of the English transla-tion robot.Key words:random forest algorithm;automatic English automatic translation;feature selection;fault diagnosis;GRU0 引言近年来,随着物联网和人工智能技术的不断发展,各种各样的服务机器人逐渐进入人们的视野。其中,英语翻译服务机器人在翻译领域取得了初步应用,为众多翻译者的工作提供了极大的便利。然而,由于我国对翻译机器人的研究起步较晚,在机器人整体功能设计、安全性和智能化水平方面的研究还不够成熟。目前市场上存在的英语翻译服务机器人出现内部设备和零件故障,人身伤害和财产损失问题,使得机器人无法正常运行,严重影响翻译工作者的工作效率和质量。且由于服务机器人的故障诊断系统还不够完善,在故障诊断方面还存在诊断准确率低的问题,此问题使得机器人设备运行监测效果变差,安全性降低。针对此问题,已有学者和专家进行了大量研究,并取得了一定的研究成果。如谢丽蓉等提出在双馈风电机组中,基于 ENN 网络模型加入 GA 算法,将该算法与网络进行融合处理后,优化改进算法参数,对风电机组的故障特征进行选择,从而实现对该机组的轴承进行准确故障诊断1;王威等针对机器人轴承故障诊断问题,提出对聚类评价算法进行改进,通过改进算法实现轴承特征选择,在不同的轴承故障中,取得了较好的诊断效果2;胡仁青以英语机器自动翻译机器人为研究对象,基于深度学习算法,构建了关于英语翻译质量的评估模型,通过 CNN 神经网络实现了英语语义特征提取,提升了质量评估效果3。然而,以上学者提出的故障诊断方法虽然在机器学习中具有一定的研究意义。但大部分研究的故障诊断准确率均不高,且多数学者对英语自动翻译机器人的故障特征提取较为单一,使得特征提取和选择准确率较低,从而影响后续故障诊断模型的诊断准确率。基于此,提出将随机森林算法和梯度提升树算法进行融合,实现故障特征准871基于随机森林算法的英语自动翻译设备运行态势监测方法 郭春玲确选择,然后基于此算法构建基于 GRU 神经网络的混合模型,通过此模型提升翻译机器人故障准确诊断率,从而实现翻译机器人设备运行状态实时监测,为同领域的故障诊断研究提供数据支持和参考,具有一定的实际应用意义。1 基本算法1.1 随机森林算法 随机森林算法(Random Forest,RF)是数据挖掘领域一种常用的特征选择算法,该算法主要以决策树为基分类器,通过 Bagging 集成学习方法建立组合决策树4。由此该算法对特征选择和数据降维方面具有较好分类效果,可有效降低故障诊断模型的方差,在故障诊断领域得到广泛应用。该算法中,决策树分裂主要通过基尼指数进行评估,基尼指数可对特征的重要性进行判断。若存在 d 个特征,表示为 X1,X2,X3,Xd,可通过 FIj求出某个特征Xj的特征重要性评分。则特征 Xj在分裂节点 k 的特征重要性可表示为:FIGini()jk=Ginik-Ginil-Ginir(1)式(1)中,Ginik表示 k 节点的基尼指数;Ginil和 Ginir分别为节点 k 分裂后,左右两个节点的基尼指数5。特征 Xj在单棵决策树 t 中出现的节点集合可表示为 K,则 Xj在决策树 t 中基尼指数特征重要性可表示为:FIGini()tk=kKFIGini()jk(2)若随机森林中含有 N 棵决策树,则特征 j 的基尼指数特征重要性可表示为:FIGini()j=Ni=1FIGini()tj(3)标准化处理以上全部基尼指数特征重要性后,可获得最终特征重要性,可表示为:FIj=FIGini()jdi=1FIGini()t(4)1.2 梯度提升树算法梯度提升树算法(Gradient Boosting Decison Tree,GBDT)也是一种以决策树为基分类器的 Boosting 集成学习算法。其主要用于分类和回归问题中,可有效降低故障诊断模型的偏差,从而提升故障诊断准确率。因此,选择梯度树算法进行故障特征选择。梯度提升树主要采用构建决策树的加法模型进行特征学习,具体表现为:fMx()=Mm=1T x;m()(5)式(5)中,T x;m()为决策树;m表示决策树的参数;M代表树的数目6。要提升梯度提升树的特征提取精度,需在每次训练完一棵决策树后,将其乘以缩减系数,从而为后续的决策树提供更多拟合空间,并减少过拟合现象。具体表达式为:fmx()=fm-1x()+T x;m()(6)获得最终决策模型可表示为:f x()=Mi=1iT x;m()(7)梯度提升树具备较强的特征选择能力,其可对高维故障数据进行降维处理,从而提升故障分类模型的准确率。若 d 个特征 X1,X2,X3,Xd,利用 FIj求出某个特征Xj的特征重要性评分。在单棵树中,特征 j 的重要程度可表示为:J2jT()=L-1t=1i2t1 vt=j()(8)式(8)中,L 和 L-1 分别表示为决策树叶子的节点数量和非叶子节点数量;i2t表示节点 t 分裂前后平方损失函数的减少值7;vt表示和节点 t 具有关联性的特征。通过特征 j 在单棵决策树中的重要程度平均值可对特征 j 的全局重要度进行判断,具体判断式为:J2j=1MMm=1J2jTm()(9)式(9)中,M 表示决策树的个数;Tm表示第 m 棵决策树。标准化处理以上全部特征重要性,可得到:FIj=j2jdi=1j2i(10)通过梯度提升树求出全部变量特征重要性后,即可以特征重要性的大小作为标准,对有效特征和有效特征进行分类,并保留有效特征,去除无效特征,由此完成数据特征选择。2 故障诊断模型构建2.1 基于 RF-GBDT 故障特征选择在英语自动翻译机器人中,多数传感器的传输信息可能存在干扰信息,并多为无效信息。而机器人无法准确地对有效信息和无效信息进行区分,从而选择了无效特征和干扰信息为重要特征变量,使得故障诊断准确率降低,增加了计算步骤,计算效率降低8。为解决此问题,首要条件是对故障特征进行准确选择,以为后续故障诊断提供有效特征。基于以上分析可知,随机森林算法可有效降低模型方差,减少过拟合;而梯度提升树算法适用于降低模型偏差,提升模型准确率,但存在过拟合现象,两种算法正好互补。因此,提出将两种算法相结合,提出基于随机森林和梯度提升树融合的故障特征选择 RF-GBDT 算法。该算法通过多个随机森林和多个梯度提升树融合方式,对故障特征进行选择。首先,构建 M 个随机模型,将其均分为随机森林模型和梯度提升树模型,根据各个模型的分类准确率进行加权融合9。由此得到全部特征的加权重要性可表示为:FIj=M2t=1ARF()iFIRF()ij+M2i=1AGBDT()iFIGBDT()ij(11)式(11)中,M 表示 Bootstrap 生成的数据集个数;ARF()i和 AGBDT()i分别表示随机森林和梯度提升树的第 i 个模型的准确率;FIRF()ij和 FIGBDT()ij分别表示特征 j 在随机971自动化与仪器仪表2023 年第 1 期(总第 279 期)森林和梯度提升树 模型中第 i 个模型 中的特征重要性10。标准化处理加权重要性后,可获得最终的特征重要性:FINj=FIidtFIi(12)通过 RF-GBDT 算法进行故障特征选择后,可有效降低故障分类模型的低差和方差,避免过拟合,从而提升模型分类精度和准确率。2.2 基于 GRU 神经网络的混合故障诊断模型2.2.1 GRU 神经网络GRU 神经网络属于一种特殊的 RNN 变体网络,其通过门控机制可有效缓解 RNN 的梯度消失和梯度爆炸问题。在时间序列数据处理方面具有