分享
基于集成修剪的维汉神经机器翻译系统_冯笑.pdf
下载文档

ID:2253142

大小:2.38MB

页数:6页

格式:PDF

时间:2023-05-04

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 集成 修剪 神经 机器翻译 系统 冯笑
第45卷 第02期 2023-02【69】收稿日期:2021-04-18基金项目:中国科学院西部之光人才培养计划A类(2017-XBQNXZ-A-005);国家自然科学基金(U2003303);新疆高层次引进人才项目(新人社函2017699号);中科院创新青年促进会资助(2017472);中科院创新青年促进会资助(科发人函字201926号)作者简介:冯笑(1995-),男,山东济宁人,硕士研究生,研究方向为自然语言处理、机器翻译。基于集成修剪的维汉神经机器翻译系统Uyghur and chinese machine translation system based on ensemble pruning 冯 笑13*,杨雅婷13,董 瑞13,马 博13FENG Xiao13*,YANG Ya-ting13,DONG Rui13,MA Bo13(1.中国科学院新疆理化技术研究所,乌鲁木齐 830011;2.中国科学院大学,北京 100049;3.新疆民族语音语言信息处理实验室,乌鲁木齐 830011)摘 要:针对平行语料匮乏导致的维汉神经机器翻译性能不佳的问题,利用集成学习思想提升维汉神经机器翻译质量,提出基于可重访问的深度优先遍历集成修剪算法,缓解传统集成学习翻译速度慢、模型存储开销大以及集成模型数量越多性能反而下降等问题,并提出应该将集成修剪具体地划分为高准确率优先和低冗余度优先两种需求,让集成修剪更具有目的性。在CWMT2015维汉平行语料上的实验证明:在高准确率优先需求上通过基于可重访问的深度优先遍历集成修剪算法得到的维汉神经机器翻译系统BLEU相对于基线系统提升了2.14;在低准确率优先需求上,在保证修剪后的集成系统BLEU值不低于未修剪的前提下,翻译速度是其2.1倍。关键词:神经机器翻译;集成学习;集成修剪;差异性;翻译速度中图分类号:TP391.2 文献标志码:A 文章编号:1009-0134(2023)02-0069-050 引言新疆地广人稀,从古至今是我国重要的边疆要塞,也是我国一带一路发展战略的核心地带,因此新疆的安全与发展是以中央与地方的有效沟通为基础的。新疆是一个多民族聚居的地区,其中主体为维吾尔族,使用的语言为阿勒泰语系的维吾尔语。维吾尔语属于黏着语,是一种极低资源的语言,由词根和词缀构词,词缀复杂多变,人工翻译成本巨大,为了促进维汉之间的民族沟通、民族团结和助力一带一路的重大发展战略,我国一直有着对高质量维汉机器翻译系统的实际需求。为了提升维汉机器翻译的质量,研究人员们尝试了各种方法。2017年,潘一荣1等人提出了一种面向汉维机器翻译的调序表重构模型,通过使用循环神经网络(RNN)来优化基于统计的维汉机器翻译的调序表来提高维汉机器翻译的质量。2018年,张金超2等人提出使用多编码器-多解码器的结构搭建大规模的维汉神经网络机器翻译模型。帕旦丽木合塔尔3等人将基于循环神经网络(RNN)的机器翻译框架与基于短语的统计机器翻译系统相融合,构建了新联合翻译模型。2019年,Luo4等人提出了层次迁移模型,充分利用汉语-英语平行语料的数量巨量优势和土耳其语与维语的相似性有效提升了维汉机器翻译系统的效果。2020年,张新路等人5将集成学习与基于交叉熵的重排序方法相结合,提出了基于集成学习的双向重排序模型。2021年,陈玺等人6对各种汉语BERT编码信息的嵌入效果进行了对比,探究了BERT不同隐藏层编码的信息对汉维神经机器翻译的效果影响,提出一种两段式微调BERT的策略。集成学习是通过构建并结合多个模型来完成学习任务,结合后模型的泛化性能通常会优于单一的模型,是一种在机器学习任务中有效而且使用广泛的技术7。常用的集成学习方法主要有并行式Bagging8、串行式Adaboost9等。集成学习能够显著提高神经机器翻译的准确率,这使其成为在机器翻译领域中被广泛的使用的技术。Vaswani等人10提出将单一模型训练过程中不同时刻保存的N个模型的参数进行平均来获得鲁棒性更强的模型。Sennrich等人在WMT1611测评任务中使用了模型参数平均的方法,在WMT1712测评任务中使用了独立集成的方法,均取得了优异的成绩。李北等人13通过实验总结出了一种在机器翻译中更高效的集成方法。Wang等人14提出了一种TEL(Transductive Ensemble Learning)的方法,该方法能够在测试集的源语言已知的情况下有效得集成多个NMT模型,进一步提升强翻译模型的性能。但是传统的集成学习存在着一些负面影响:首先,随着参与集成的基模型数目增多,集成模型的翻译速度急剧下降。其次,并不是参与集成的基模型数量越多,集成模型翻译质量越好。最后,基模型过多带来更大的存储开销。周志华等人15提出了“集成修剪”的概念,即按照某种评价标准从已训练好的基模型中选取部分子集进行集成。理论分析和实践均表明,利用集成修剪可以得到更好的预测效果。【70】第45卷 第02期 2023-02本文的主要贡献有以下3点:1)提出并构建了一个基于集成修剪的维汉神经机器翻译系统(如图1所示),提升维汉机器翻译系统的翻译质量,提升系统的翻译速度,并降低翻译模型所需要的存储空间;2)提出集成修剪应该具体分为高准确率优先和低冗余度优先两种需求,使修剪更具有目的性;3)提出一种基于可重访问的深度优先遍历集成修剪算法,并通过实验证明了该算法的有效性。图1 基于集成修剪的维汉神经机器翻译系统1 背景1.1 Bagging集成学习算法要想得到泛化性能强的集成模型,参与集成的基模型应该尽可能相互独立;虽然“独立”在现实任务中无法做到,但可以尽可能使基模型具有较大差异。Bagging是并行式集成学习算法最著名的代表。机器翻译任务中,给定两个语言分布X和Y,训练集、验证集、测试集分别记作1(,)trainNtrainiiiDx y=,1(,)validNivalidiiDx y=,*1testNtestjjDx=。其中*,iijx x xX是源语言句子,,iiy yY是目标语言句子,trainN,validN,testN分别是训练集、验证集、测试集的规模。Bagging算法的基本思想是基于自助采样法16重采样样本扰动组建N个样本子集1(,)subNsubktrainiiiDx y=,1,2,.,kN,这N个样本子集近似服从同一分布,并有效地降低方差,由于不同子数据集间规模相同但内容略有差别,从而增加训练数据的多样性,基于这N份样本子集训练N个具有差异性的基模型:(,)=minlog(|;)subktrainksubx yDfP y x,1,2,.,kN(1)给定一个源语言句子x,使用集成翻译模型所得到的目标语言译文(1)(2)()(,.,.)tyyyy=,其中:()()1argmax 1log(|,;)NttksubktyP w yx fwvN=(2)Bagging方法的示意图如图2所示:1.2 模型多样性随着集成学习应用越来越广泛,参与集成的基模型数量大幅增加,集成学习出现了一系列的负面问题:首先,当基模型过多的时候,在解码时需要更大的计算开销;其图2 Bagging示意图次,并不是参与集成的模型越多,集成模型效果就一定越好;最后,基模型过多,需要更大的存储开销。若想在集成之后性能有所提升,要遵循一个“好而不同”的准则,“好”就是基模型的预测性能不能太差,“不同”是基模型间要有多样性。1995年,Krogh和Vedelsby17提出了误差-分歧(er-ror-ambiguity)分解,证明了参与集成的基模型的精度越高且差异性越高,则集成后泛化性能越好。1996年,Ueda和Nakano等人18对偏差-方差-协方差分解进行了拓展,证明了集成的平方误差依赖于协方差项,体现了不同基模型之间的关联,协方差越小,集成效果越好,如果所有基模型所犯错误相似,那么协方差会很大,因此更希望基模型之间犯不同的错误,表明了多样性对集成的重要性。2005年,Brown等人19发现了误差-分歧分解和偏差-方差-协方差分解之间的关联,证明了很难在不影响偏差项的前提下最大化分歧,即训练多个具有差异性的基模型是具有挑战性的。尽管很多研究人员致力于研究如何去衡量模型之间的差异性,但是目前仍然没有一个差异性度量指标能够完全在理论或者实践中表现出该通过该指标进行模型选择能够稳定提高集成模型的性能。2 本文算法集成修剪是从已训练好的基模型中选取一部分进行集成,从而削减存储模型带来的存储开销,减少集成模型解码时的计算开销,有时性能甚至会优于使用全部基模型获得的集成。为了让集成修剪更具有目的性,本文认为应当将集成修剪具体的划分为两种需求:1)高准确率优先需求:通过集成修剪,剔除在集成中起负作用的模型,提升集成性能;2)低冗余度优先需求:通过集成修剪,在保证集成性能不低于集成全部基模型的前提下,尽可能减少参与集成的基模型数量。集成修剪是一个NP难问题,常采取的算法有排序、选择等方法20,但是这些方法并不能稳定地提升集成学习的性能,穷举法会产生组合爆炸问题。本文基于深度优先遍第45卷 第02期 2023-02【71】历的思想,提出基于可重访问的深度优先遍历集成修剪算法(A reaccessible depth-first traversal ensemble pruning algorithm,RDEP)。该算法的基本思想是,先将所有基模型加入集成,该集成看作一个无向完全图,图中的每个顶点表示一个基模型。通过可重访问的深度优先遍历此图,逐步剔除冗余模型。在传统的深度优先遍历中,假设一个顶点已经被访问,则以后再也不会被访问,而可重访问的深度优先遍历当某个顶点被剔除后,会将全部顶点重置为未访问,已经访问过而未被剔除的顶点在后面仍有被剔除的机会,保证剔掉尽可能多的顶点,降低集成模型冗余度。与其他的选择算法还有不同的是,因为目前没有任何一个差异性度量指标能够完全在理论和实践中表现出通过该指标可以稳定提高集成模型性能,所以本文方法避开对模型间差异性的直接度量,以BLEU值为唯一评价指标,以集成全部模型的BLEU为底线,可以得到一个较优的解,最坏的情况下不会比集成全部模型差。2.1 高准确率优先需求上的RDEP算法高准确率优先需求是通过集成修剪得到一个性能更好的集成模型。高准确率优先需求上的RDEP算法的步骤如下:将全部基模型加入集成,将这个集成视为一个无向完全图,选取图中任意一个顶点v作为出发点,按照下列步骤遍历此图并剔除冗余顶点:1)计算图中所有顶点集成后在验证集上的BLEU值,记为BLEU_high;2)访问当前顶点v,若剔除v剩余顶点集成后BLEU值不低于BLEU_high,则将BLEU_high更新为此值,且将v从图中删除,并重置图中所有剩余顶点为未访问;否则,标记v为已访问;3)在当前顶点的所有邻接顶点中找出一个尚未访问过的一个,将其作为下一步搜索的当前顶点,执行(2);4)重复(3)直到无向完全图中未被剔除的顶点全部标记为已访问;5)输出图中剩余顶点作为集成组合。2.2 低冗余度优先需求上的RDEP算法与高准确率优先不同,低冗余度优先需求是通过集成修剪,在修剪后的集成BLEU不低于全部基模型集成的前提下,减少参与集成模型的个数。低冗余度优先需求上的RDEP算法的步骤如下:将全部基模型加入集成,将这个集成视为一个无向完全图,选取图中任意一个顶点v作为出发点,按照下列步骤遍历此图并剔除冗余顶点:1)计算图中所有顶点集成后在验证集上的BLEU值,记为BLEU_all;2)访问当前顶点v,若剔除v剩余顶点集成后BLEU值不低于BLEU_all,则将v从图中删除,并重置图中所有剩余顶点为未访问;否则,标记v为已访问;3)在当前顶点的所有邻接顶点中找出一个尚未访问过的一个,将其作为下一步搜索的当前顶点,继续向下执行(2);4)重复(3)直到无向完全图中未被剔除的顶点全部标记为已访问;5)输出图中剩余顶点作为集成组合。3 实验3.1 预处理本文在CWMT2015提供的维汉双语平行语料上进行实验,首先对语料进行预处理。维吾尔

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开