第45卷第02期2023-02【69】收稿日期:2021-04-18基金项目:中国科学院西部之光人才培养计划A类(2017-XBQNXZ-A-005);国家自然科学基金(U2003303);新疆高层次引进人才项目(新人社函[2017]699号);中科院创新青年促进会资助(2017472);中科院创新青年促进会资助(科发人函字[2019]26号)作者简介:冯笑(1995-),男,山东济宁人,硕士研究生,研究方向为自然语言处理、机器翻译。基于集成修剪的维汉神经机器翻译系统Uyghurandchinesemachinetranslationsystembasedonensemblepruning冯笑1~3*,杨雅婷1~3,董瑞1~3,马博1~3FENGXiao1~3*,YANGYa-ting1~3,DONGRui1~3,MABo1~3(1.中国科学院新疆理化技术研究所,乌鲁木齐830011;2.中国科学院大学,北京100049;3.新疆民族语音语言信息处理实验室,乌鲁木齐830011)摘要:针对平行语料匮乏导致的维汉神经机器翻译性能不佳的问题,利用集成学习思想提升维汉神经机器翻译质量,提出基于可重访问的深度优先遍历集成修剪算法,缓解传统集成学习翻译速度慢、模型存储开销大以及集成模型数量越多性能反而下降等问题,并提出应该将集成修剪具体地划分为高准确率优先和低冗余度优先两种需求,让集成修剪更具有目的性。在CWMT2015维汉平行语料上的实验证明:在高准确率优先需求上通过基于可重访问的深度优先遍历集成修剪算法得到的维汉神经机器翻译系统BLEU相对于基线系统提升了2.14;在低准确率优先需求上,在保证修剪后的集成系统BLEU值不低于未修剪的前提下,翻译速度是其2.1倍。关键词:神经机器翻译;集成学习;集成修剪;差异性;翻译速度中图分类号:TP391.2文献标志码:A文章编号:1009-0134(2023)02-0069-050引言新疆地广人稀,从古至今是我国重要的边疆要塞,也是我国一带一路发展战略的核心地带,因此新疆的安全与发展是以中央与地方的有效沟通为基础的。新疆是一个多民族聚居的地区,其中主体为维吾尔族,使用的语言为阿勒泰语系的维吾尔语。维吾尔语属于黏着语,是一种极低资源的语言,由词根和词缀构词,词缀复杂多变,人工翻译成本巨大,为了促进维汉之间的民族沟通、民族团结和助力一带一路的重大发展战略,我国一直有着对高质量维汉机器翻译系统的实际需求。为了提升维汉机器翻译的质量,研究人员们尝试了各种方法。2017年,潘一荣[1]等人提出了一种面向汉维机器翻译的调序表重构模型,通过使用循环神经网络(RNN)来优化基于统计的维汉机器翻译的调序表来提高维汉机器翻译的质量。2018...