分享
藏文文本校对技术研究进展.pdf
下载文档

ID:2742554

大小:1.34MB

页数:6页

格式:PDF

时间:2023-11-29

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
藏文 文本 校对 技术研究 进展
引 言文本自动校对技术是指通过计算机技术对文本进行自动校对和纠错,文本校对在自然语言处理研究中的语料库构建、语音识别、语音合成、文字识别及问答系统等领域具有重要的应用价值。自20世纪60年代,国外开始了文字拼写检查研究,目前其技术已基本成熟,并开发了一些优秀的拼写检查系统。近年来中文文本校对技术研究也取得了较好的成果。2018年卓利艳1采用条件随机(Conditional RandomFields,CRF)和n-gram散串相结合的联合查错模型对中文字词进行校对,最终检测层的准确率达到了95.8%。2020年龚永罡等2提出了基于Seq2Seq和Bi-LSTM设计的中文文本校对模型,并通过公开的数据集进行了不同模型的对比实验,该模型有效处理了长距离的错误以及语义错误,显著提升了中文文本校对模型性能。2021年郭可翔等3通过应用基于多通道CNN和BiGRU的模型研究了中文字词级文本错误检测,同时采取L2正则化和dropout策略来防止模型过拟合,实验表明该方法有效优化了汉文文本校对性能。藏文文本校对研究相比于英汉文起步晚,始于20世纪90年代。目前藏文文本校对研究成果主要集中在拼写检查方面,其技术趋于成熟,能够满足实际应用需求。1998年扎西次仁4通过使用藏文音节表和词表加拼写规则和虚词搭配规则,在DOS操作系统上设计了一个藏文拼写检查系统。2002年王维兰等5藏文文本校对技术研究进展普哇拉毛尼玛扎西*道吉扎西王 超(西藏大学信息科学技术学院西藏拉萨850000)摘要随着信息技术的迅速发展和互联网的广泛应用,越来越多的藏文信息以电子文档形式存储,电子文档的校对技术已成为自然语言处理中的重要任务。目前藏文文本自动校对的方法主要有基于规则方法、统计方法及深度学习的方法。文章较为系统地分析和阐述了藏文文本自动校对方法,重点介绍了基于规则和深度学习的藏文文本校对模型和方法,探讨了当前藏文文本校对技术中存在的问题及未来展望。关键词自然语言处理;藏文文本;文本校对;深度学习DOI:10.16249/ki.2096-4617.2023.02.011中图分类号 TP391.1文献标识码 A文章编号 2096-4617(2023)02-099-006收稿日期:2022-06-28基金项目:科技创新2030新一代人工智能重大项目(2022ZD0116101);西藏大学校级科研培育计划项目(ZDQMJH22-01).第一作者简介:普哇拉毛,女,藏族,甘肃甘南人,西藏大学信息科学技术学院硕士研究生,主要研究方向为藏文信息处理。通讯作者简介:尼玛扎西,男,藏族,西藏拉萨人,西藏大学信息科学技术学院教授,博士生导师,主要研究方向为藏语计算语言学。通过对识别后形成的文本中的音节进行次校正,将藏文拼写检查应用于藏文文字识别后期处理。2009年多杰卓玛6提出将一个藏文音节按构件分成若干个字丁,利用N元模型在藏文字丁之间建立关系,并进行了藏文音节级的校对研究,即藏文拼写检查。2013年安见才让7通过分析藏文音节拼写的各种规则和藏文音节语法研究了音节级藏文自动校对算法。2016年尼玛扎西8提出了一种关于藏文拼写形式语言与自动机理论和方法,通过构建藏文拼写结构的形式语言模型,实现了对藏文拼写的高效检查。2017年才让叁智等9通过现代藏文音节,将藏文音节分为规则音节(遵循组件组合规则的藏文音节)和不规则音节(不遵循组件组合规则的音节)两种,对规则音节采用了音节组件组合规则进行检错,非规则音节采用建立梵音藏文词典、音译藏文词典和本体非规则音节词典进行检错。2018年才智杰等10采用了一种基于规则约束的藏文词向量模型,经测试该模型对藏文拼写检查的平均准确率达到了99.995%。综上所述,目前英、汉文的文本校对技术基本成熟,落地产品也较多。随着藏文文本校对技术的发展,藏文拼写检查技术基本成熟,但词法、语法和语义层面的藏文文本校对技术目前还处于初级研究阶段,技术有待提高。当前,基于深度学习的藏文文本校对模型和方法已经成为主流,且该方法在藏文词法检查任务中表现出了较好的效果。本文主要围绕藏文文本校对发展历程中的关键技术,介绍了传统的藏文文本校对方法和基于深度学习的藏文文本校对方法。深入分析了基于卷积神经网络和长短记忆网络的藏文文本校对模型、方法及特点,最后探讨了藏文文本校对技术研究中存在的问题,并对未来的相关工作进行了展望。1 藏文文本校对特征藏文是一种拼音文字,藏文文本校对包括藏文拼写检查、词法检查、语法检查和语义检查11。其中,藏文拼写检查是从音节层面检查每个藏文字是否符合藏文的拼写规则,例如:藏文文本“”(好学生)中,“”不符合藏文的拼写规则,属于拼写错误;藏文词法检查是在考虑文本上下文的情况下,检查字词搭配是否正确,例如:“”原意是“大海”,但是根据藏文词的搭配规则,“”的写法属于词法错误,正确的写法应该是“”,这类错误不属于藏文拼写检查范围;藏文语法检查和语义检查是在考虑藏文语法的情况下,检查整个句子的语义是否正确,例如:藏文文本“”(贪图小利,何来大幅!)中,藏文格助词“”和词“”符合藏文拼写规则,但根据相关藏文语法规则“”12,此处用格助词“”属于语法错误,应用格助词“”,再考虑文本的语义时“”这个词是错误的,正确用词应该是“”,这类错误属于藏文文本校对中的语法和语义错误。2 基于传统方法的藏文文本校对技术2.1 基于规则的藏文文本校对2014年珠杰等13通过藏文语音特性建立的字组织方法为依据,以藏文音节规则为模型,提出了藏文音节规则模型(TSPM)的藏文音节拼写检查算法,并实验验证了该算法的有效性。2016年尼玛扎西10提出了一种关于藏文拼写形式语言与自动机理论和方法,通过构建藏文拼写结构的形式文法及其自动机,实现了对藏文音节的文本校对,此方法的最终校对准确率接近于100%,达到了实用化程度。该方法将藏文字定义为字母表L(L=b1,b2,b3,b35,i,u,e,o,a)上的语言,且为了使藏文拼写形式文法及其形式语言清高原科学研究 2023年第2期(总第23期)100100晰、易于理解,做了如下设计:(1)通过对藏文拼写文法的分析和归纳,最终将藏文基本拼写结构归纳为37种,藏文字按照37种不同的拼写结构定义为字母表VT(VTL,L=b1,b2,b3,b35,i,u,e,o,a)上的37种字体。(2)给出了约束这些语言的 37 种形式文法Gi()i=1,2,3,37。文法Gi是一个四元组,即Gi=()VT,VN,Si,P。其中,VT表示终结符的有限集合;VN表示非终结符的有限集合;Si表示起始符号,SiVN;P表示产生式规则的有限集合,产生式规则由藏文拼写文法形式化描述推导产生。由于文法Gi=()VT,VN,Si,P的产生式规则均满足如下形式,即ABz,或Az,其中A,BVN,是非终结符,zVT是终结符号。因此,文法Gi为右线性正规文法。(3)由 于 文 法Gi=()VT,VN,Si,P生 成 的 所 有 句 子 的 集 合 就 是 由 文 法Gi生 成 的 语 言,即L()Gi=wV+TSiw()i=1,2,3,37。该语言所有句子的集合就是文法Gi定义的藏文字。(4)构 造 确 定 型 有 限 自 动 机DFAMi()i=1,2,3,37,使 之 接 受 由 正 规 文 法Gi生 成 的 语 言L()Gi=wV+TSiw()i=1,2,3,37。DFAMi是一个五元组,即Mi=(),Q,q0,F。其中,表示输入符号的有限集合,=VT;Q表示状态的有限集合,Q=VNF;q0Q表示自动机的初始状态,q0=Si()i=1,2,3,37;FQ表示自动机终止状态的集合;是q与的直积(Q)到Q的映射,即状态转移函数。(5)最终将藏文字作为有限自动机Mi的输入来进行藏文字的拼写检查,能够被自动机识别的藏文字的拼写是正确的,否则判断为错误。才智杰等10通过分析藏文文法中的拼写规则,利用藏文字向量模型将藏文字用计算机易于操作的数字(向量)表示,建立了基于规则约束的藏文字向量模型A14,A=|()a1,a2,a3,a4,a5,a6,a70a15,0a23,0a330,0a44,0a54,0a610,0a72;设计了该模型下的藏文字拼写检查模型及算法。该算法首先把藏文字进行构件分解,然后将藏文构件前加字、上加字、基字、下加字、元音、后加字及再后加字等组合构成的藏文字用向量模型A来进行向量化,最后根据向量模型A的藏文字约束规则,查找藏文特殊字表进行拼写检查,实验表明该算法平均准确率达99.995%。2.2 基于规则与统计相结合的藏文文本校对藏文文本是由单字词组合构成,单字词的错误会造成多字词的错误,并对自动分词等各种自然语言处理任务造成严重干扰。因此,完么扎西等15利用藏文自身的结构特征,提出了基于自动机的现代藏文音节识别方法,并采用了基于互信息和t-测试差的真字词错误检测技术,实现了藏文文本的音节拼写和词双粒度自动查错,实验表明该方法能有效发现音节拼写和词错误,查错准确率为70.7%。次仁白玛16通过研究互信息的基本概念和应用,根据藏文字和词错误类型,把互信息的计算方法应用到藏文字和词校对中,提出了基于字互信息的藏文自动校对方法,该方法的具体步骤如下:(1)输入待校对文本,并字切分;(2)根据字切分后的结果作为单位求解两个字之间的互信息值,公式如下:I(X,Y)=XXYYP(X,Y)log2p(x,y)p(x)p(y)(1)(3)计算两个字间的互信息值时出现数据平滑的现象,利用古德-图灵估计法进行数据平滑处理,公普哇拉毛,尼玛扎西,道吉扎西,等:藏文文本校对技术研究进展101101式如下:PGT=N1N(2)PGT=(C+1)N1+1NCN(3)(4)根据校对的效果来设定阈值,并以阈值进行校对,最终错误信息标红。基于字互信息的藏文自动校对系统平均精确率、召回率、F值分别达到81%、78%、80%。该文针对词法检查的藏文文本校对,又提出了基于词互信息的藏文自动校对方法。该校对方法在算法思想上除了分词外,与字互信息校对思想大致相同,其按照分词后的界限作为单位计算两个词之间的互信息表,最终实现了基于词互信息的藏文自动校对系统,平均精确率、召回率、F值分别为69.5%、65%、67%。因此,目前藏文词法检查的研究成果尚未满足实际应用需求。3 基于深度学习的藏文文本校对技术随着深度学习技术的发展,越来越多的深度学习模型被应用于文本校对中。深度学习利用了自主学习的特点,使得文本校对的过程简单化,文本校对的性能也有较大提升。但目前深度学习模型被用于藏文文本校对中的文献较少。近年来主要有色差甲等17建立了适合于藏文音节拼写规则的卷积神经网络(CNN)模型;华旦扎西18利用LSTM模型,构建了藏文词法检查模型TC_LSTM(Tibetan Characters LSTM);三毛措11构建了基于BiLSTM的TS_BiLSTM语言模型,对藏文词法检查问题进行了较为深入的研究。3.1 基于CNN的藏文文本校对色差甲等17提出了藏文音节拼写检查的CNN模型。针对藏文拼写检查,CNN的输入值用Word2Vector生成的7行D列藏文基本构件向量,输出值为模型预测的拼写错误和拼写正确的藏文音节标签,该标签分别标注为二维的one-hot(1,0)和(0,1),模型如图1所示。图1 藏文音节拼写检查的CNN模型框架图17Fig.1 Frame diagram of CNN model for Tibetan syllabic spell checking17CNN对藏文音节文本校对的F值可达99.41%,虽然该模型的实验结果达到了预想的效果,但跟传统的基于有限自动机和向量模型技术的藏文拼写检查效果相比,并没有体现出明显的技术优势。3.2 基于长短记忆网络(LSTM)的藏文文本校对LSTM用于解决一般递归神经网络中普遍存在的长期依赖问题,使用LSTM可以有效传递和表达长时间序列中的信息,并且不会导致长时间前的有用信息被忽略(遗忘)。与此同时,LSTM还可以解决RNN中的梯度消失/爆炸问题19。2020

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开