温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
学术
文本
机器翻译
错误
探析
神经
节选
谢晓璐
文化传播1132023 年第 15 期学术文本机器翻译错误探析以 神经机器翻译(节选)为例谢晓璐(青岛大学 山东 青岛 266071)近年来,随着大数据、人工智能等技术的发展,机器翻译逐渐成为关注的焦点。机器翻译是“使用计算机系统将文本或语音从一种自然语言自动翻译为另一种语言”1。但机器翻译的质量无法让人满意,且在垂直领域仅依靠机器翻译难以产出高质量译文,因而译后编辑环节必不可少2。本文选取的原文本属于学术文本,学术著作属于科学语言,它的功能是记录科学活动和学术思想,科学活动和学术思想的显著特点是概括性和抽象性,因此,相对于其他文本来说,学术著作的翻译在学术性方面提出了很高的要求3。近几年机器翻译越来越多地参与到学术文本的翻译过程中,相关研究也逐渐增多。因此运用计算机辅助翻译是翻译学术文本的一大趋势。笔者借助YiCAT 翻译平台,采用Tencent TranSmart 交互式机器翻译,以学术文本的机器翻译译文为例,总结学术文本机器翻译结果的高频错误,分析译文存在的问题并提出解决办法。一、文献综述国外对机器翻译质量研究已经有60多年的历史,例如:Garcia的Translating by post-editing:is it the way forward?Fiederer R和OBrien S的Quality and machine translation:A realistic objective。国外学者对译后编辑的研究有近20多年的历史,主要针对英德、英法互译等。国内对该领域的研究也取得了一定的进展,例如:崔启亮、冯全功的译后编辑研究:焦点透析与发展趋势总结了译后编辑的研究现状,预测其趋势,为学界提供参考,但是,译后编辑在具体领域的应用研究鲜有谈及4,且机器翻译系统对不同文本给出的译文质量也存在差异。比较典型的研究有罗季美和李梅的机器翻译译文错误分析,李梅和朱锡明的英汉机译错误分类及数据统计分析 对汽车技术文献的英汉机器翻译错误进行【摘要】使用YiCAT 翻译平台中的机器翻译引擎将神经机器翻译 第一章的第一部分译成汉语,以此翻译结果为研究对象,总结出现频率较高的机器翻译错误类型,如在词汇层面的术语翻译错误、多义词误译、词性错译,句法层面的语序错误、从句错译、欠译,篇章层面的缺少衔接和逻辑混乱问题,并在此基础上提出改进方法,对机器翻译错误提出解决对策,以期为今后学术文本机器翻译译后编辑研究提供借鉴。【关键词】学术文本;机器翻译;错误探析;译后编辑【中图分类号】H315 【文献标识码】A 【文章编号】2096-8264(2023)15-0113-03【DOI】10.20024/ki.CN42-1911/I.2023.15.036归类分析。从上述研究分析可以看出,目前对机器翻译学术文本的错误研究相对较少,本文将在对相关错误类型进行分析的基础上,提出相应的解决办法,以期提高学术文本译后编辑的质量。二、理论基础:译后编辑译后编辑是“检查和修正机器翻译的输出”1,是指根据特定的目的对机器翻译的原始产出进行加工与修改的过程,包括更改翻译(语言)错误、提高机译产出的准确性与可读性等5。就目前机器翻译技术来说,自动翻译生成的译文质量对于参照原文进行理解一般还可以做到,但是还难以达到直接输出译文稿而无需人工润色的质量,所以后编辑处理在很多情况下必须使用6。三、机器翻译错误类型及分析本章着重分析使用YiCAT 翻译工具过程中遇到的机器翻译错误,主要从词汇、句法、语篇这三个层面阐述。(一)词汇层面1.术语翻译错误例1原文:Fluency also involves picking the right content words when there are several possible synonyms available.机器译文:流利还包括在有几个可能的同义词可用时选择正确的内容词。译后编辑:流畅性还包括在有很多同义词的情况下选择正确的实词。分析:学术文本中的术语较多,语义丰富,涉及的领域专业性较强,某些词汇既可以作为一般词汇又可以作为术语,而机器翻译系统有时难以辨别一般词汇和专业词汇。“content words”这个术语翻译错误,机器翻译没有采114今古文创用通用译法,机器译文不符合英文表达习惯,通过查询术语在线网(http:/),确定将该术语译为“实词”,符合学术文本中术语翻译的准确性。2.多义词误译例2原文:Four score and seven years is not just any way to say 87 years.机器译文:四分七年不是随便说的 87 年。译后编辑:八十七年不是随便说的 87 年。分析:同一个单词或短语经常有多种理解,多义词识别是自然语言处理中一个较难解决的问题。这里score 不表示“分数”,而是“二十”的意思。译员在处理一词多义的问题时会根据上下文或具体语境选择恰当的含义,而机器翻译系统目前虽然具备一定的语境处理能力,但此例的语境有些难处理,原因在于score 作为“分数”义与years都是名词,且前面都有数词,很容易理解为两个并列的名词结构,score 作为分数义,前面也多跟数词,对于机器翻译来说很难辨认,如此机器处理起来困难很大。由于计算机自身存在局限性,不能像人脑一样灵活思考,在结合具体语境对文章进行分析的能力上还不足,往往会选用出现次数最多的那个单词意思,不能选择恰当的表达,容易出错。3.词性错译例 3 原文:There is an extensive proliferation of tool kits available for research,development,and deployment of neural machine translation systems.机器译文:可用于神经机器翻译系统的研究、开发和部署的工具包广泛扩散。译后编辑:有大量的工具包可用于神经机器翻译系统的研究、开发和部署。分析:在英译汉的过程中,我们一般会遵循汉语动词优势,将英语中的名词或名词词组译为汉语中的动词,但这要视情况而定,在翻译某些词汇时须保留其本来的词性。此例中,proliferation 作为名词有“扩散、激增、大量的事物”等含义,在短语a proliferation of 中意为“大量的”,而机器在处理该情况时无法辨别,从而错译。此处仍需将proliferation 看作名词短语中的一部分,不改变词性来翻译。(二)句法层面1.语序错误例4原文:The data-driven methods that I discuss in this book are not able to match this performance.Yet.机器译文:我在本书中讨论的数据驱动方法无法达到这种性能。还没有。译后编辑:但是,我在本书中讨论的数据驱动方法无法达到这种性能。分析:可以看出机器译文在语序安排上出了问题,不能使上下文合理衔接。Yet 单独成句放在句尾,表转折,意为“但是”,然而英语和汉语的表达方式不同,汉语主要通过词序反映词义,根据汉语的逻辑思维和表达习惯,“但是”往往位于小句句首,此处需根据句子结构和内容,在形式上调整语序,作出变通,将Yet 置于前面翻译,从而体现本句的逻辑层次,以符合汉语的行文表达习惯。2.从句错译例5原文:Anybody who can read this book will be able to build a machine translation system that is comparable to the state of the art.机器译文:任何人谁可以阅读这本书将能够创建一个机器翻译系统,可以与现有技术相媲美。译后编辑:任何读过这本书的人都将能够建立一个机器翻译系统,可以与现有技术相媲美。分析:机器译文的前半部分有误,机器翻译系统没有结合从句中的成分对应分析,只是按照原文顺序,逐个将单词的含义翻译出来,没有考虑到这是定语从句,未注意到定语从句和所修饰词“anybody”的关系密切,导致译文松散。此处应该将“who”作为定语从句的引导词,修饰前面的“anybody”,不必译出具体含义。虽然机器翻译系统多数情况下可以识别定语从句进行转换,但有时还会出错,说明机器翻译系统存在不稳定性仍需改进。3.欠译例 6 原文:But there is more going on here.机器译文:但这里还有更多的事情。译后编辑:但对于这个问题还有很多需要阐述的内容。分析:由于英汉语言表达的差异,翻译时容易出现语义空缺,机器翻译系统没有摆脱原文的句法结构,仅逐字一对一地翻译,使得译文表达不通顺,脱离语境。另外原文属于学术文本,语言凝练,但机器译文不符合学术文本的规范,不切合学术文本的语体,没有传达出原文的基本信息,未表达出作者要继续解释说明的意思。通过联系上下文,可以发现本句有承上启下的作用,是要对上文内容作补充,因此不能只翻译字面意思,而应将语义具体化,将作者想要说明的关键内容表达出来,使译文具有可读性,让读者清楚地理解原文含义。(三)语篇层面1.缺少衔接例7原文:The biggest obstacle to data-driven methods is sparsity.And it is worse than you may think.机器译文:数据驱动方法最大的障碍是稀疏性。比你想象的还要糟糕。译后编辑:数据驱动方法最大的障碍是稀疏性,这比你想象的还要糟糕。分析:原文中And 表示递进关系,是表达逻辑关系的文化传播1152023 年第 15 期手段,机器译文漏译and 和it,使译文中前后两句的衔接显得生硬,译后编辑运用指示的方法,用“这”表示前面提及的事情,使语篇连贯。2.逻辑混乱例8原文:So,a professional translator may decide to render this as the popular German news weekly Der Spiegel reported.机器译文:因此,一个专业的翻译可能会决定翻译这一点,因为受欢迎的德国新闻周刊明镜周刊 报道。译后编辑:因此,一个专业译员可能会决定按照德国著名新闻周刊明镜周刊 报道的那样,将其译为纽约时报,而非美国报纸纽约时报。分析:语言的逻辑缺层是指不符合常规逻辑推理的语言表达,即在行文中没有形成完整的逻辑链7。此处机器翻译系统没有正确理解as 的含义,扰乱逻辑层次,从而造成整句逻辑关系混乱,难以理解。这里as 意为“按照的方式”。机器译文具有模糊性,读者可能不清楚是按照明镜周刊报道的要求来翻译还是按照报道风格来翻译,具有歧义,结合上文提到的“据明镜周刊报道,直译可能会使美国读者对原文的可靠性产生怀疑”,为避免歧义,笔者做出修改,采用释义的方式来翻译。四、未来建议(一)优化机器翻译系统在未来,机器翻译系统应努力朝向结合语境分析原文的方向发展,逐步解决机器翻译中的文化干扰问题,尽量扩大机器翻译系统所用的双语数据资源,小牛翻译创始人朱靖波表示要从少量数据中提高机器学习的泛化能力,解决数据稀缺的问题;从数据驱动扩展到知识驱动。(二)实现人机结合虽然机器翻译技术已经向各个领域逐步深入,节省了人力和时间,但是其译文质量仍有待提高,机器翻译并不能完全替代人工翻译,理想的做法是实现人机结合。首先,译前编辑不可忽视,对提高译文质量发挥着重要的作用。译前编辑是对句式、标点、词汇等作出适当调整,旨在尽可能降低机译的错误译文,提高机器译文准确度,其主要手段是:拆分长句、调整语序、代词替换、消除歧义、增删句子成分、同义词替换等8,使机器翻译系统更好地识别和理解源语的含义。再使用机器系统处理基本的工作,使译员对原文本的大意有基本的了解,再译后编辑,修改错误,逐步分析,进行译文的完善工作,提高译文质量和工作效率。另外,建立并不断扩充术语库及语料库,丰富语料资源,以提高匹配度。如此,将译前和译后的工作相结合,发挥机器翻译和人工翻译各自的优势,取长补短,减轻工作量,提高译