分享
2023年旅游文化法英翻译资源库构建方法.docx
下载文档

ID:2044056

大小:16.24KB

页数:10页

格式:DOCX

时间:2023-04-24

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
2023 旅游 文化 翻译 资源库 构建 方法
旅游文化法英翻译资源库构建方法 :对于我国丰富的旅游资源,传统的人工翻译已经无法满足人们的需求,为此,基于机器学习构建陕西旅游文化法英翻译资源库。确定资源库的总体架构和功能架构,利用朴实贝叶斯分类算法对资源教育,依据计算得出的文本属性权重大小对资源文本分类划分,通过机器学习自学习过程补充和完善资源库中的资源属性,保证资源库中资源具有较高的精确     性,至此完成资源库的构建。通过性能测试结果可知,应用所提方法后法英翻译资源库在忠实度、流畅度和可理解度方面均有了明显提升,为旅游翻译工作者供给了强有力的根底保障。 关键词:机器学习;法英翻译资源库;朴实贝叶斯分类算法;陕西旅游文化;资源教育集 语言沟通是人类沟通的主要方式,但是各个国家和地区都有其当地语言风俗,这些差异导致旅游文化对外输出[1]遇到了巨大的阻碍。翻译是打破这个阻碍最有效的途径,但是这不仅要求翻译人员具备专业的翻译学问,还需对当地旅游文化资源具有确定的了解,否那么就会消逝景点介绍不到位、文化现象翻译得不够传神等现象。在当今信息快速进展的时代,人工翻译明显不能满足社会进展的需求,相关学者开头争辩利用机器翻译替代人工翻译,于是构建关于旅游文化的翻译资源库,整合经过系统处理的高质量的翻译资源[2],如李华勇[3]重点争辩了翻译汉语语料库TED-CN中构筑的语义韵与其在原创汉语语料库BJKY中构筑的语义韵存在显著性差异,为提高翻译质量供给了参考;严世芸等[4]构建中医药现代学问体系,确定中医药名词术语内涵,以推动实现中医药的现代化与对外传播。国外学者提出了一种将连续词嵌入与深度学习相结合的并行句子生成方法[5]。引入跨语言语义诱导双语信号,试验说明,对于低资源语言,在缺乏外部资源的状况下,可以取得较好的翻译效果。陕西西安作为六朝古都和世界四大古都之一,钟楼、雁塔、兵马俑、华清池等我国优秀历史文化,高度表达了我国古代劳动人民的才智;关中盆地地势平坦、土质肥沃、水源丰富,号称“八百里秦川〞。随着我国对外开放的不断推动,这些优秀的旅游资源也要适应跨地区、跨国家的需求。本争辩在机器学习的根底上,提出了陕西旅游文化法英翻译资源库构建方法。依据对资源库的设计要求和应用目标分析,明确了资源库的总体架构和功能架构。通过构建资源教育集,为后续进行分类计算供给数据输入,利用朴实贝叶斯分类算法对资源教育集进行分类计算,找出概率值最大的资源文本,并依据机器学习过程,完成对资源库中资源的补充和完善,由此完成资源库的构建。通过性能测试结果说明,本争辩所设计方法可保证翻译的精确     性和流畅性,对于旅游文化翻译工作具有较高的参考依据。 1构建陕西旅游文化法英翻译资源库 基于机器学习的法英翻译资源库,是在机器学习的根底上,利用自学习特性不断分类处理资源,确保资源库具有极高的分类精确     性。完善包含法英双语分词系统、机器自学习过程、资源教育集和词库的分布式并行计算等主要局部的资源库。 1.1旅游文化法英翻译资源库构建需求分析 旅游是一种特殊的跨文化交际类型。这项工作的主题是译者为了到达成功的交际而被要求进行的干预程度。他们的任务不是呈现他们在特定主题上的学问,而是呈现他们的调整力量,从而使之适用于与原著所针对的类型必定不同的旅游者。因此,翻译人员应当学会为旅游者供给足够的信息。同时译者在语言和解释层面确实定在确定程度上会让读者参与其中,从而影响旅游目的地的推广。国际外宣翻译工作在城市对外旅游宣扬中起着特殊重要的作用。但是目前对法英翻译资源库中资源分类方案和资源分类教育集的争辩较少[6],本争辩基于文本分类的思想,将机器学习和朴实贝叶斯分类算法结合起来建立了资源分类系统。与文本分类思想不同的是,由于旅游文化的翻译具有不确定性、简洁性和多变性,这使得本争辩构建的分类系统应具备更强大的分类性能、自学习性能和过滤性能,以便更好地适应简洁多变的翻译内容。为了资源库的稳定运行,本争辩设计的资源库隶属于分布式并行环境。该环境接受分布式并行计算框架DaSyx,该框架具备较高的计算性能,为资源库的稳定运行供给了强有力的保障。 1.2法英资源库架构 从对法英资源库的设计目标分析,将资源库的总体架构分为预处理模块、朴实贝叶斯分类模块、机器学习模块、资源教育模块、DaSyx框架模块和日志效劳模块。总体架构构成如图1所示。DaSyx框架在法英资源库中的主要功能是为资源库供给分布式并行计算效劳,确保资源库可以高效、稳定地运行。从法英资源库的应用目标分析,资源库的功能架构主要由机器学习系统、资源教育集、法英分词系统和朴实贝叶斯分类器4个局部组成。运作流程为法英资源库猎取到待分类文本[7]后,首先通过法英分词系统对文本信息进行分词操作,并将无用信息滤除掉,完成分词后将结果传送至朴实贝叶斯分类器中;分类器通过文本教育集计算出文本信息的概率值,并将结果依据从大到小的挨次分类,匹配出最或许率值所属的资源类型;完成匹配后的结果集通过机器学习系统与初始教育集结合,共同对文本的字词结构和特征权重不断进行优化更新,以保证翻译的精确     度。资源库的功能架构如图2所示。将资源教育集分为n个初始化资源,并以文件夹的形式存储,每个文件夹中包含所属该类型的资源文本。不仅如此,资源教育集中还包含着分类计算所匹配的文本信息和计算结果[8],当到达触发器设定的阈值标准后那么启动机器学习系统,进入自学习过程。完成自学习后,评估系统自动对自学习结果进行测试评估,只有通过测试后才能被永久保存在初始集中。 1.3构建法英资源教育集 法英资源教育集主要包含初始集和扩展集[9]两局部。初始集为初始资源类别,扩展集为扩展的资源类别。初始集通过机器学习不断执行自学习过程,进行资源的优化和完善,初始集主要用于资源匹配中。扩展集是初始集的进一步完善和补充,主要对未定义的资源类别[10]进行资源扩展。法英资源类别由多个资源文本构成,这些资源文本又同时构成了资源教育集,具体如图3所示。资源教育集中资源文本均以结构化的方式直接存储在系统硬盘上,使用时直接调用即可。 1.4基于朴实贝叶斯算法的分类运算 朴实贝叶斯分类器是在朴实贝叶斯公式的根底上实现的分类运算。假设资源库猎取的待分类文本属性为X,用特征向量将其表示为X〔X1,X2,X3,…,Xj〕;假设类别集合为S,已定义的类别集合为Si,用特征向量将其表示为S〔S1,S2,S3,…,Si〕。把X和Si的特征向量共同输入朴实贝叶斯分类器中,计算过程如式〔1〕〔1〕式中,P〔SiX〕表示X属于Si的概率值;P〔XSi〕表示假设X不属于Si,Si中包含X的概率;P〔Si〕表示X属于Si的概率值;P〔S〕表示全部给定资源类别的联合概率值。依据式〔1〕中S的定义计算,可知属于该资源类别的P〔S〕值为一个固定值,求解资源类别的过程就是求解max〔P1,P2,P3,…,Pt〕的过程,由此可将式〔1〕简化为式〔2〕。max[P〔SiX〕]=max[P〔XSi〕×P〔Si〕]〔2〕又因朴实贝叶斯分类算法独特的“朴实性〞,其特征向量X〔X1,X2,X3,…,Xj〕均可为独立存在的状态,可以将概率计算转换为对每个文本属性特征概率分布的乘积计算,如式〔3〕。式〔6〕给出了分类算法输出结果为Xj属于Si的概率值,由此可获得朴实贝叶斯算法的函数原型,以此函数原型为根底开放的分类计算可直接用于法英资源库的构建。由于朴实贝叶斯分类算法没有考虑各个文本属性之间的关系,只是为了提升计算速度,简化简洁的计算过程。但事实上,各个文本属性之间存在着多种关系,而且每个文本属性对分类计算的重要程度也不相同,所以朴实贝叶斯分类算法会与实际状况产生确定的偏差。为了将这种误差把握到最小,本争辩接受了基于特征权重的朴实贝叶斯分类器,对资源教育集中的每一个文本属性都进行一次权重计算,以便于更好地区分不同的文本属性对分类计算的重要程度。该方法可以在确定程度上提高算法的分类精度,构成如图4所示。基于特征权重的朴实贝叶斯分类算法主要由待分类资源文本、朴实贝叶斯分类器、资源翻译列表和具有TF-UIDF权重的文本教育集组成。计算流程如下:资源库猎取到待分类资源文本后,朴实贝叶斯分类器依据资源教育集中文本属性的权重和数量,得到资源文本属于每个资源类别的概率,并找出概率值最大的资源类别,把待分类的资源文本划分到该资源类别中。本争辩利用增加了TF-UIDF权重的朴实贝叶斯分类算法,对文本属性具有更高的分类精确     性。 1.5基于机器学习的法英翻译算法 机器学习自学习过程主要由评估系统、触发器模块、奉献度计算模块和文本集维护模块4局部共同完成。自学习过程如图5所示。文本集维护模块整合了资源教育集和匹配结果集的全部文本资源,并接受文件锁的形式存储资源,保证整个资源库资源的完整性。触发器模块作为自学习过程的启动模块,本争辩对该模块设定了2个触发条件:匹配结果集容量触发和循环时间触发模式。奉献度计算模块主要为资源教育集和匹配结果集中的支持计算其奉献度大小。在资源库中,某个单词的奉献度可以看作为在分类计算时的重要程度。评估系统依据奉献度计算模块得出的结果对自学习效果进行测试评估。该系统包含了预替换过程、效果评估和确认替换3个模块。假设测试通过,执行预替换操作,否那么不予替换。式中,vc为单词的词向量;uo和uw分别为在单词作中心词时使用的向量表征和外部词语时使用的向量表征。依据计算结果,将概率值最高的作为翻译结果输出。机器学习的自学习过程,是补充和完善的过程,在资源库中,只有通过不断的自学习,才能保证资源库中的资源具有较高的精确     性,以应变简洁多变的翻译内容。 2性能测试 为了验证本争辩所设计方法的有效性,对本争辩构建的英法翻译资源库进行性能测试,共有10名外语系专业同学参与测试。 2.1测试内容 对接受本争辩所设计方法和未接受本争辩所设计方法翻译的两种译文从忠实度、流畅度和可理解度3方面进行打分。忠实度为评判译文是否忠实地表达原文意思,分为0—5分5个等级,打分结果取小数点后一位小数。流畅度为译文翻译是否流畅、正宗,分为0—5分5个等级,打分结果取小数点后一位小数。可理解度为评判同学〔用户〕是否可以理解翻译后的文章,分为0—5分5个等级,打分结果取小数点后一位小数。 2.2测试步骤 〔1〕不接受本争辩所设计方法,对陕西旅游文化资源进行法英翻译。〔2〕接受本争辩所设计方法翻译同一篇文章,并对翻译后的文章进行人工校对,如表1、表2所示的忠实度、流畅度和可理解度标准对两篇译文进行打分。〔3〕完成测试,统计打分结果。2.3测试结果测试结果如表3所示。由表3可以看出,虽然本争辩构建的法英资源库并没有得到总分值,存在确定的分类优化问题,但是接受本争辩所设计方法后,在忠实度、流畅度和可理解度方面均比未接受本争辩所设计方法前有了明显提升,均保持在94%以上。 3总结 旅游文化的翻译工作和争辩受到国内外很多学者的关注,在进行翻译工作之前,构建高效的翻译资源库是必不行少的。本争辩在理论语言学的根底上,结合机器学习,构建了陕西旅游文化法英翻译资源库,填补了该领域语言翻译资源库建设的空白。将需要检索的信息输入资源库中,就可得到包含检索关键词的全部陕西旅游文化法英翻译的语句和相关文章,完成对陕西旅游文化法英翻译资源库。翻译资源库不仅可以为翻译工作者供给参考依据,还可以关心翻译工作者在翻译旅游文化资源时了解特殊的语句结构和语法特征。不仅如此,还可以在本争辩构建资源库的根底上,提高机器翻译在旅游翻译领域的效率。但是,本争辩在争辩过程中,觉察资源库还有很多新的问题需要解决,如双语文本语义和句法标注技术的更新等,将以此为重点进行下一步争辩,进行更深层次的争辩工作。 王玉 单位:咸阳师范学院 外国语学院

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开