基于
语言
特征
迁移
学习
英语翻译
机器人
纠错
系统
研究
黄晓蓉
收稿日期:2022-06-27基金项目:横向课题大学英语翻译技巧与实践(SYHX-2019001)作者简介:黄晓蓉(1981-),女,四川江安人,硕士,讲师。基于语言特征和迁移学习的英语翻译机器人纠错系统研究黄晓蓉(西安思源学院,西安 710038)摘 要:针对英语翻译机器人智能纠错需求,基于语言特征以及迁移学习,构建用于英语翻译机器人纠错系统的方法。其中,利用 DNN-HMM 声学模型搭建机器人语音识别模型,并以汉语语音识别为基础任务,通过迁移学习构建对应的英语语音识别系统。实验结果证明,使用训练共享隐层所有层的方法与仅使用英语数据进行基线系统训练的方法相比 1 h 训练集错误率下降了 24.38%,20 h 训练集错误率下降了 4.73%,显著提高了系统的识别精度,对英语翻译机器人纠错性能有一定的提高。关键词:语言特征;DNN;迁移学习;多语言数据;共享隐层 中图分类号:TP392 文献标识码:A DOI 编码:10.14016/ki.1001-9227.2023.01.237Research on English translation robot error correction system based on language features and transfer learningHUANG Xiaorong(International School of Xian Siyuan University,Xian 710038,China)Abstract:According to the requirements of intelligent error correction of English translation robot,a method for error cor-rection system of English translation robot is constructed based on language features and transfer learning.Among them,the dnn-hmm acoustic model is used to build the robot speech recognition model,and the corresponding English speech recogni-tion system is built through transfer learning based on Chinese speech recognition.The experimental results show that com-pared with the baseline system training method using only English data,the error rate of 1 h training set is reduced by 24.38%,and that of 20 h training set is reduced by 4.73%,which significantly improves the recognition accuracy of the sys-tem and the error correction performance of the English translation robot.Key words:language features;DNN;transfer learning;multilingual data;shared hidden layer0 引言人工智能的兴起带来了各种智能机器人的火热,翻译机器人则是其中之一。但翻译机器人中如何对英语翻译进行实时纠错,是提高人机交互对话的重点。针对该问题,陈琳提出了一款英语翻译机器人错误文本检测系统1;薛俊杰等通过对 CNN 进行改进,提出了一种基于注意力改进 CNN 的机器翻译自动问答系统,提高了自动问答交互翻译的准确性2。翻译机器人翻译的准确性是评估其性能的主要指标,对于基于语言特征的英语翻译机器人,提高其语音翻译的准确性既是关键所在也是难点所在。翻译机器人在人机交互阶段需要首先对使用者发出的语言信息进行采集处理,而由于地区不同以及使用者语言水平差异等因素,将各种语言信息准确地进行翻译是十分复杂且特别容易出错的。当前,较为常用的文本纠错方法为深度神经网络模型(Deep Neural Networks,DNN),该方法较强的学习能力和泛化能力。因此,为提高英语翻译机器人的翻译准确度,提出一种基于语言特征和迁移学习的英语翻译机器人纠错系统。1 基本方法1.1 隐马尔科夫算法(HMM)隐马尔可夫模型(HMM)作为一个双随机过程,由两部分组成:马尔可夫链和一般随机过程。前者采用转移概率描述状态的转移,后者采用观察值概率描述状态和观察序列间的关系3。隐马尔可夫模型状态变迁图(例子)x-隐含状态;y-可观察的输出;a-转换概率(transition probabilities);b-输出概率(output probabilitties)图 1 隐马尔科夫模型而使用隐马尔科夫模型进行语音识别也可以等效为一种概率运算。在进行训练集数据计算时,只需将其中的条件概率最大值作为识别结果。732自动化与仪器仪表2023 年第 1 期(总第 279 期)图 2 建立 HMM 统计模型原理框图1.2 深度神经网络模型(DNN)神经网络模型结构的隐层达到一定层数时,会出现拟合过度的情况,而过度拟合会使得分类效果只能够在训练集上表现出良好性能,却无法在测试集上发挥良好。而神经网络模型作为非凸优化模型,仅能在局部寻找到最优解,为了防止该问题影响整个网络,需采取措施解决,一个合适的初始化参数便能够解决该问题(可采用 DBN 和 RBM 算法获得)4。在获取到深度神经网络的初始化参数后,即可对其进行训练,通常釆用 BP 算法进行训练。在这里对如图 2所示的 DNN 结构的 L+1 层进行分析计算,将输入 x 对应的输出设置为 Pr(s x),故对应的 DNN 模型的前向计算过程如下:h0=x(1)al=wlhl-1+bl(1lL+1)(2)hl=al()1lL()(3)Pr(s|x)=soft maxs(aL+1)=eaL+1ss eaL+1s(4)其中,Wl 第 l 层网络权重;bl 第 l 层偏置量;alj 矢量 al的第 j 个分量;hlj 矢量 hl的第 j 个分量;()为 sigmoid 函数;softmax 表示在这个过程中的输出为 softmax 层,F()则代表目标函数。对深度神经网络对应的参数集 wl,bl1lL+1进行更新,在此釆用 SGD 算法,公式为:wlwl-Fwl,(1lL+1)(5)blbl-Fbl,1lL+1()(6)学习速率。图 3 DNN 结构示意图对于 BP 训练算法而言,主要目标是每一层输入的反向传播误差信号,但对于中间部分的隐层无法直接获得其误差信号,可从输出层误差信号反馈获得。但该方式依然存在着较大的不足,该方式在参数更新时会浪费过多的时间,进而降低深度神经网络结构的学习效率。为解决这一问题,引进批处理方法,该方法是通过在权重系数更新前先需要更新的数值进行一次平均计算5。而为了保证更新过程的平稳,同时助力求得更好的局部最优解也会映入冲量因子(momentum)。经过上述的改进后的权重更新量可以表示为:wlt+1=wlt-(1-)Fwlt(7)其中,Wlt代表第 t 帧时的权重,Wlt则为对应的权重更新量,另外引入 为权重衰减因子(weight Decay),通过加入上述数据,新的权重更新量可表示为:wlt+1=wlt-(1-)(Fwlt+wlt)(8)为避免训练过程中训练的有效性和客观性,应避免由于深度神经网络的遗忘特性带来的数据的异常处理,因此,应保证数据的随机性。2 基于 DNN-HMM 和迁移学习的语音识别2.1 DNN-HMM 模型构建ANN-HMM 很早就已经引入语音控制中,也有各种类型的语音识别系统被研制而出,它们的建模方式都有着不同之处6。而设计的系统中所使用的 DNN-HMM结构对语音特征建模过程如图 4 所示。图 4 DNN-HMM 语音建模示意图DNN 的输入一般采用传统频谱特征及其改进特征经过帧拼接得到,而输出则一般釆用各种粒度的音素声学单元,且输出层的标注一般采用 GMM-HMM 基线系统经强对齐得到7。2.2 基于深度神经网络迁移学习的语音识别迁移学习是指一种能够将现存的资源充分运用从而搭建出一个大致相同的任务的方法8。832基于语言特征和迁移学习的英语翻译机器人纠错系统研究 黄晓蓉在语音识别系统的设计中,DNN-HMM 由于深度神经网络的优势所在已经成为了主流的语音建模方法,这是因为 DNN 的隐藏层能够发现不同语言特征的共性并将该共性提取出来,因此,DNN 具有优良的迁移学习特性,十分契合语音识别系统的需求。2.2.1 基于深度神经网络的语音识别由于 DNN 表现出的杰出的学习能力以及 HMM 能够实现序列化建模这两方面的优势,DNN-HMM 系统在投入语音识别时便能表现出良好的性能。而在 DNN 的训练过程中通常遵循两个准则:最小均方误差(MSE)准则和交叉熵(CE)准则9。在此采用交叉熵的准则作为训练约束。将时刻 t 对应的特征向量设置为 xt,如式(15)所示。xt=p(sXt)=ezt(s)sezt(s)(9)上式中 zt(s)对应的输出层状态 s 的输出值,同时满足:lnp Xts()=lnxt(s)-lnP(s)(10)上式中,P(s)为 s 对应的概率。在反向传播算法中需要设定一个对应的目标函数故采用交叉熵,整个过程也需要经过优化才能保证结果的准确性,因此,采用随机梯度下降算法进行优化,最后使用对数概率负值作为交叉熵,表示如下:JCE=-Tt=1lnxt(st)(11)st表示 t 时刻的状态,JCE表示求得的交叉熵。2.2.2 基于共享隐层 DNN 的语音识别如图 5 所示,这种结构被称为共享隐层的多语言深度神经网络10-11。由于 DNN 结构特征以及各种语言在一定程度上的相似之处,因此,共享隐层 DNN 能够实现不同语言之间的相互迁移。图 5 共享隐层 DNN 结构2.3 基于迁移学习的语音识别2.3.1 语言相似性通过了解汉语和英语之间的相似性,才能够更加准确地掌握整个迁移学习的过程。因此,使用单语言共享隐层 DNN 且以汉语为基础任务训练英语语音识别系统,分析该过程所得到的实际测试结果,便可了解到两种语言之间的相同之处,便于对语音系统进行优化。以英语数据为语料基础实施单语言共享隐层 DNN进行迁移学习训练步骤如下:(1)用汉语训练深度神经网络语音识别系统。(2)去除 DNN 的 softmax 层。(3)将 softmax 层进行初始化处理,然后再将经处理过的 softmax 层与去除了 softmax 层而仅剩下的 DNN 隐层结合起来,组成一个特殊的语音识别系模型作为迁移学习的对象。(4)基于英语数据对步骤(3)中描述的特殊的语音识别模型进行迁移训练,最终得到一个基于单语言共享隐层 DNN 的英语语音识别系统2.3.2 迁移学习训练方式迁移学习主要工具为以英语数据为基础的共享隐层 DNN,由于在整个迁移学习操作过程中存在的不同,将该方法细化为两种方式12:第一种方式是训练整个深度神经网络的所有层,另外一种方式则是在训练过程中使用和前一种方式同样的算法训练深度神经网络的softmax 层,同时不对深度神经网络的其他层进行训练。2.3.3 多语言共享隐层 DNN设计的多语言共享隐层 DNN 是以汉语语音数据为基础的迁移学习训练而成的,而该方法是基于多种语言数据的,多种语言数据同时对 DNN 的隐层进行训练。能够实现多种语言同时训练是由于训练算法中的每个小批量数据中都包含着所有语言训练数据。再将完成上述训练的 DNN 模型的 softmax 层剥离开来