基于
译本
平行
语料库
英汉
智能
翻译
系统
设计
冯掬琳
收稿日期:2022-07-22基金项目:陕西省哲学社会科学重大理论与现实问题研究项目英国小说讽刺手法的政治维度与寓意研究(2022ND0479)作者简介:冯掬琳(1981-),女,陕西榆林人,硕士研究生,副教授。基于多译本平行语料库的英汉智能翻译系统设计冯掬琳1,王彦裕2(1.榆林学院,陕西 榆林 719000;2.榆林市林业与草原局,陕西 榆林 719000)摘 要:为了提高传统翻译系统翻译质量,提出一种基于多译本平行语料库的英汉智能翻译系统。为实现该系统,首先采用网络爬虫算法对英汉语料进行收集和预处理,搭建出多译本平行语料库;然后采用基于上下文向量的词对齐模型和基于余弦相似度计算方式的段落对齐模型作为系统模型,并构建出基于 attention 注意力机制-LSTM 的翻译系统,最后与基于跨语言词向量和基于 IBM 模型 1 的词对齐模型进行对比实验。实验结果表明,三种模型中基于上下文向量的词对齐模型正确率高达 90.24%,而其余两种模型正确率仅为 62.71%和 51.06%,可以证明基于多译本平行语料库的英汉智能翻译系统可以有效提升翻译的正确率,达到了预期的翻译效果,可以运用于英汉智能翻译的工作中。关键词:智能翻译系统;平行语料库;网络爬虫;词对齐;段落对齐 中图分类号:TP39;TN39 文献标识码:A DOI 编码:10.14016/ki.1001-9227.2023.01.157Design of English-Chinese intelligent translation System based on Multi-translation Parallel CorpusFENG Julin1,WANG Yanyu2(1.Yulin University,Yulin Shaanxi 719000,China;2.Yulin Forestry and Grassland Administration,Yulin Shaanxi 719000,China)Abstract:In order to improve the translation quality of traditional translation systems,an English-Chinese intelligent translation system based on parallel corpus of multiple translations is proposed.In order to realize the system,firstly,the web crawler algorithm is used to collect and preprocess the English-Chinese corpus and build a multi-translation parallel corpus.Then,the word alignment model based on context vector and the paragraph alignment model based on cosine similarity calcu-lation are used as the system model,and the translation system based on attention mechanism-LSTM is constructed.Finally,the comparison experiment is conducted with the word alignment model based on cross-language word vector and IBM model 1.The experimental results show that the correct rate of the word alignment model based on context vector among the three models is as high as 90.24%,while the correct rates of the other two models are only 62.71%and 51.06%,which proves that the English-Chinese intelligent translation system based on multi-translation parallel corpus can effectively improve the correct rate of translation and achieve the desired translation effect.It can be used in the work of English-Chinese intelligent translation.Key words:intelligent translation system;parallel corpus;web crawler;word alignment;paragraph alignment0 引言随着各国文化的交流与发展,翻译器已经成为了大众普遍使用的便利工具,为了能更好满足人们对翻译器的需求,翻译系统的升级设计也成了众多学者研究的热点。王晓艺构建了基于深度神经网络的翻译系统,一定程度上提升了翻译速度,满足了大访问量的翻译需求1;林睿睿等设计出基于 B/S 框架的交互式在线翻译系统,加快了翻译速度,提升了翻译的准确性和交互质量2;郑萌在 TensorFlow(数据流编程)的基础上,将注意力机制和神经网络框架相结合,应用于英语翻译系统,以此来提高翻译的准确性3。上述的研究在一定程度上提升了翻译系统的速度与翻译质量,但在基于语料库之上的翻译系统设计还有一定的研究空间。因此,本研究选择对基于深度学习的为提高英汉翻译系统的精度和速度,达到较好的翻译效果,以满足所需的翻译需求。首先基于爬虫算法构建了多译本平行语料库,系统模型采用了基于深度学习的上下文向量词对齐模型和文本相似度的段落对齐模型,构成了一套英汉智能翻译751自动化与仪器仪表2023 年第 1 期(总第 279 期)系统。1 多译本平行语料库构建1.1 网络爬虫网络爬虫是一种可以对网络信息数据进行快速筛选的程序。主要在指定的网址中,依据指令,浏览网站的内容,将符合指令的数据下载至本地文件夹中,如果所遇数据不符合,则不会下载保存,会再次开始遍历流程4。利用网络爬虫对英汉双语语料进行收集可以提高速度与效率,网络爬虫原理如图 1 所示:图 1 爬虫流程图1.2 中英语料爬虫算法为了搭建多译本平行语料库,本研究根据爬虫算法先对所需的语料信息进行收集。图 2 为具体的收集流程:图 2 语料收集流程图具体算法与步骤如下:(1)整理需要收集语料的中英双网站,从中选择网站首地址;(2)根据网站首地址收集中英篇章地址,并将收集信息存储于 txt 文件中;(3)分析网站 HTML 结构5,针对网站的中英语料分布特点,对中英语料分进行两次爬虫获取;(4)在文章正文内容中分段收集语料;(5)对收集完成的语料根据标题进行分篇命名,再按顺序收集 txt 中所有的网站,可完成语料收集。1.3 语料预处理为提高语料库的收集质量,需要对语料进行预处理。具体步骤为:首先将收集的语料库按爬虫收集的顺序合成一个文本,再对文本编码进行归一化,最后采用正则表达式,滤除文本中多余的部分标题和网络标记6。在语言信息处理中,统一编码是一步很重要的基础工作。考虑到其他格式可能会对语料库的读取造成影响,本研究选择 utf-8 格式作为语料库的编码格式7。此外,正则表达式的过滤效果良好,它可以根据需求,检索或替换符合模式的文本,并且可以不按固定方式组合8。2 语料库模型在翻译系统中,语料库的对齐方式十分重要,它可以帮助词或段落与译文建立对应关系9。为提高翻译质量,本研究采用词对齐和段对齐的方式作为语料库的对齐方式。2.1 基于上下文向量的词对齐模型在双语句中建立每个单词和其译文的对应关系的对齐方式称为词对齐,主要包含基于词典、统计、字符等多种对齐方式,其中,基于上下文向量的词对齐方式应用最为广泛10。有学者提出利用 Multilingual BERT(词嵌入模型)训练上下文向量11。即每对的平行句表示为 x 和 y,对应的上 下 文 向 量 表 示 为 hx=hx1,hx2,hxn和 hy=hy1,hy2,hym。其中,n 表示源语言的单词个数,m 表示目标语言单词个数。通过两者的上下文向量计算点积,可获取相似矩阵:S=hxhy(1)在此基础上,通过概率阈值法来抽取双语词典,即计算两者间的每个单词互为词对的概率,超出阈值的词对视为对齐11。利用 softmax 函数将(1)式的相似矩阵转化为概率值:Sxy=softmax(2)其中,Sxy表示源语言与目标语言之间的对齐矩阵,同理可得 Syx,表示目标语言到源语言之间的对齐矩阵。利用两个矩阵的交集可以推导出最终的对齐矩阵:A=Sxy()Syx()(3)其中,阈值以 表示,当 Aij=1 时,xi和 yj对齐。将目标函数最大化,将其作为模型的训练目标函数,表示为:L=i,jAij12Sxyijn+Syxijm()(4)2.2 基于文本相似度的段落对齐模型在不同语言的翻译工作中,每个段落都有着独特的851基于多译本平行语料库的英汉智能翻译系统设计 冯掬琳,等标志,段落对齐法就是利用段落间的特殊标志,对语料文本进行分段和对齐12。本研究先对中英语料段落间的相似度进行计算,再将相似度较低的段落筛除,以提高语料库的质量。具体段落对齐流程如图 3 所示:图 3 段落流程图本研究选择引用余弦相似度算法计算。余弦相似度算法用余弦值来表示特征向量之间的关系,范围标准为(0,1),所计算出的数值越接近 1 时,两者的相似度越高;数值越接近 0 时,两者的相似度越低13。具体计算流程如图 4 所示:图 4 余弦相似度计算流程图sin(A,B)=cos()=ABA B(5)式中,A 与 B 表示信息转化后的两个向量。根据上述,段落对齐可分为以下几步:(1)依照爬虫顺序,对文本数据进行整合处理;(2)找出段落间的特殊符号,例如“n”,按n 进行语料库读取,就可以完成语料库的段落对齐;(3)为了提高语料库质量,先翻译英文语料库,再计算出与中文语料库之间的相似度;(4)针对对齐后的语料库进行筛检,删减相似度低的语料段落。3 翻译系统的实现本研究通过引入 LSTM 神经网络和 attention 注意力机制,来提高翻译器的准确率。其翻译器构建步骤为:(1)在英汉双语平行语料库的基础上构建词汇表,并用 one-hot14对中英平行语料库的句子进行编码;(2)编码后,模型对数据进行训练,同时保存训练模型;(3)调用模型实现中英机器翻译系统,并搭建出翻译界面。4 实验验证4.1 多译本语料库构建结果表 1 表示本研究语料库的数据情况。由表 1 可知,句子的平行语料有 667 729 句,篇章的平行语料有 6 969篇。通过谷歌翻译将英语翻译成中文,再和原中文翻译进行相似度计算,可筛检出较高质量的平行句对。表 1 英汉平行语料库展示网站来源对齐级别 数量(单位:对)基本描述TED篇章3,159句子17,6835TED 字幕相对口语化,语料质量良好IPDF篇章3,426句子59,357语料质量最佳英语线上学习网站篇章句子239,914包含英语学习软件、微信公众号等英语内容,语料质量较好领事馆篇章2,012句子19,654内容多为领事馆新闻,语料质量较好合计篇章6,969句子667,7294.2 模型验证的参数与训练方式设置为了对模型翻译的准确性进行评估,本研究通过模型随机抽取英语词条,利用词典和谷歌翻译器进行评价,以准确率(Accuracy,ACC)作评估标准。正确率是正确对齐的词对数与待识别对齐的词对