温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
藏文
音节
单纯词
抽取
方法
设计
实现
第44卷总第13 1期2023年9 月西北民族大学学报(自然科学版)Journal of Northwest Minzu University(Natural Science Edition)Vol.44,No.3Sep,2023藏文单音节单纯词抽取方法设计与实现才让东知12,祁坤钰1,2,贡保杰布3(1.西北民族大学甘肃省民族语言智能处理重点实验室,甘肃兰州7 3 0 0 3 0;2.西北民族大学中国民族语言文字信息技术教育部重点实验室,甘肃兰州7 3 0 0 3 0;3.青海师范大学计算机学院,青海西宁8 10 0 0 0)摘要针对藏文词汇资源匮乏和词汇分级模糊等问题,采用词典语料和词性标注语料相结合的方法,设计了藏文单音节单纯词抽取模型,规划了详细的技术方案,构建了比较完整的词典语料库,获得了藏文单音节单纯词的分类词表,依据相对通用度得到了分级词表,其中名词、动词、形容词、副词和数词等单音节单纯词总数1414条,词性之间存在大量的兼类现象,对汉藏语言资源库建设具有重要意义。关键词藏文单纯词;抽取模型;语料库中图分类号TP391文献标识码A文章编号10 0 9-2 10 2(2 0 2 3)0 3-0 0 16-0 90引言语言是文化的重要载体,而词汇则是文化观念在语言中的主要承载者1.在藏文中,单纯词是最基本的词汇单位之一,它由一个单独的词素构成,与合成词相对.单纯词的主要词性为名词、动词、形容词和副词,是藏文词汇表达的重要组成部分.其在自然语言处理中的抽取是一个关键任务,对藏文机器翻译、信息检索、语音识别等任务具有重要作用.一个语素构成的词在英语中通常被称为“monomorphemic word,其中“mono-表示单一的语素,“morphemic表示词素,“word表示词.这种词通常是最简单的词汇单位,通常由一个基本的词根或词干构成,没有任何前缀或后缀.例如,英语单词“dog由单一的词根“dog”组成,是一个典型的mono-morphemic word.在汉语中,单纯词也是由一个语素构成的词.在传统的藏文文法中,单纯词没有从词的结构进行说明,但现在大多数学者将其与“3 55 相对应起来.单纯词与复合词形成鲜明对比,为藏文词汇的形态构成提供了重要的语法形式.本文提供了一种可用于其他NLP任务的藏文单纯词抽取方法,对促进藏文NLP应用的发展和汉藏语言资源库建设具有重要意义.1单纯词抽取的意义及语料库的概述单纯词抽取是一种文本挖掘技术2 ,它的主要目的是从给定的文本语料库中提取出所有的单词(或“A m o n o m o r p h e m i c w o r d i s a w o r d c o n s i s t i n g o f a s i n g l e m o r p h e m e;e x a m p l e s i n En g l i s h i n c l u d e s u c h w o r d s a s c a t,r e d,p e n,a n dso on.(Bauer,1983,p.3)收稿日期2 0 2 3-0 4-0 1基金项目国家自然科学基金项目“面向长序列的文档级神经机器翻译关键技术研究”(6 2 2 6 6 0 3 8)作者简介才让东知,男,藏族,硕士研究生,主要研究方向为藏文信息处理、计算语言学.16一表1常用六大藏文词典者词汇单位),并且计算它们的频率或其他相关的统计信息.例如哪些单词是最常见的,哪些单词在特定的语境中更加常见,或者哪些单词可能与特定的主题或领域有关.通过对这些信息的分析,我们可以更好地理解文本的含义和背景,同时也可以为其他自然语言处理(NLP)任务,如文本分类、文本聚类、信息检索等提供基础.1.1抽取的意义一方面,抽取单纯词可以为词汇研究、文本分析和语言模型构建等任务提供有用的资源.单纯词是藏语言的基本构件,抽取它们可以帮助减少语言的复杂性,提高自然语言处理的效率和准确性.另一方面,抽取藏文单纯词可以应用于各种自然语言处理任务,例如机器翻译、信息检索、文本分类和语音识别.与抽取其他语言的单纯词相比,抽取藏文单纯词面临着一些挑战.由于藏文的复杂形态和语法,单纯词的抽取需要处理语言的多种变形和语法规则.因此,本文提出的抽取方法需要考虑藏文的特殊性,并结合使用基于规则和统计的方法.1.2语料库语料库最大的特点就是借助计算机,利用数据库技术对大量的语料进行高速、穷尽性观察.藏文计量研究的发展得益于藏文信息处理学科的强力推动.计算机的语言能力首先也来自对语言文字本身的研究3.藏文语料库建设是一个庞大的语言学研究工程,特别是大规模、高质量的标注藏文语料库,在藏文自然语言处理领域显得越来越重要,它不仅作为语言模型的语料,也可充当各类语言模型和实用工具的测试数据,同时,这些语料也是理论语言学研究者挖掘语言规律的重要资源.1.2.1弱藏文标注语料词性标注语料是给自然语言文本中的每个单词标注上其所属的词性4,从而形成的标注数据.对这样的语料进行分析,可以得到每种词性下的单纯词.从词性标注语料统计得到单纯词也可以用于语言教学、自然语言处理等.在语言教学中,掌握单纯词可以帮助学生了解一种语言的基本构成单位,掌握最基本的词汇和语法知识.词典名称作者格西曲扎格西曲吉扎巴1957年藏文辞典中国社会新编藏文字典科学院藏汉大辞典张怡荪主编1985年藏汉词典西北民族大学1996年Sarat Chandra藏英词典Das主编M o n l a mMonlamIT藏文大词典语料库的规模越大包含的语言数据就越丰富,通过收集和整理大量的语言数据,可以尽可能地避免数据偏差和误差,从而更加准确地反映语言的现象和规律.本文所应用的藏文文本词性标注语料库源于西北民族大学教育部重点实验室,语料规模为50 0 0 万词次.该语料最大程度上涵盖了藏文化中涉及到的所有词汇,包含了哲学、宗教、语法、小说、散文、诗歌、格言、史诗、民歌、道歌、历史、教派史、寺院志、人一 17 一出版时间1983年1902年2019年条目数253636954535032519357153107065出版社北京:民族出版社北京:中国藏学是藏学研究和藏文教学的必备工具出版社书.中国第一部兼有藏文字典和藏学百北京:民族出版社科全书性质的综合性藏汉双解大型工具书.兰州:甘肃藏文教学和藏汉翻译的重要工具书.民族出版社英国牛津大学该词典也可以作为英语学习者了解出版社藏文和藏族文化的参考词典。TBRC得到学术界的高度评价和认可.评价藏学家格西曲扎的学术造谐和丰富的实践经验,是有权威性和实用性并重的辞典之一。物传记、新闻、网络评论、期刊、政治、法律、教材及词典等体裁的语料.1.2.2藏文词典语料词典以词为收录对象,尽管有不是“词”的语言成分充当了词目,但说词与词目之间大体相等,还是能够成立的.词目有字形、有读音、有释义、有例句、有标注,反映的是词的形、音、义,例句提供了一个小的语用环境,标注揭示了词目的语义特征或使用特征5.因此词典也就成为词汇计量研究最有效、内容最丰富的一类特别语料.本文主要也是筛选出词典中的词目,所选词典语料来源于西北民族大学“一带一路”多语言智能处理与人文社会大数据研究中心的语料数据库,分为六部.2抽取方法与技术路线本文采用了词性标注语料库和词典相结合的方法抽取藏文单纯词.基于规则的方法使用人工规则来识别单纯词,基于统计的方法进行识别.本文结合使用了这两种方法,通过构建规则和算法来提高抽取的准确性和效率.2.1基于词典语料的单音节词获取本文所涉及的语料库均采用藏文Unicode国际编码体系,预设了藏文虚词集,以藏文符号和音节点为切分标记,统计藏文词汇中搭配频率,软件用Python语言设计,算法如图1.算法:在词典中对单音节进行词频统计1.defreadfileO:#按行读取子函数2.for line-fr:.3.loc=line.find(=)4.ifloc!=-1:5.dow=line0:loc#提取词但不要解释部分6.if is_wordone(w)=True:7.8.9.10.11.defis_wordone(self,w):#移除Od和Ob,判断单音节12.wa=w.strip(uOfod).strip(uOfob)13.loc=wa.find(luofob)14.ifloc=-l:#没找到赋值为-1,判断为单音节,返回true15.doreturn True16retumFalse图1基于词典语料的单音节词频统计算法这是用Python程序撰写,其中定义了一个名为“bobuild的类,用于查找给定文本文件中的单音节词并将其写入到另一个文本文件中.程序通过读取输入文件中的每一行来查找单音节词,如果找到,则将其添加到一个字典中,并计数其出现次数,最后程序将字典中的单音节词写入到输出文件中。程序的执行流程如下:I.定义“bobuild类,包含三个方法:init、r u n a p p、o u t p u t.II.在_ _ init_方法中,程序初始化输入文件名、输出文件名和一个空字典,并调用runapp方法.II.在runapp方法中程序调用readfile和output方法,完成单音节词的查找和写人IV.在readfile方法中,程序按行读取输人文件,使用is_wordone方法判断每个单词是否为单音节词,并将单音节词添加到字典中。V.在is_wordone方法中,程序通过strip方法移除单词中的特殊字符(/uofod”和“uofob”),并判断单词中是否包含“/uofob”,如果不包含则认为该词是单音节词.VI.在output方法中,程序将字典中的单音节词写入到输出文件中最后,在程序的末尾,定义了一个名为“mainapp”的函数,并在其中指定输人文件,输出文件的名称,并调用bobuild类的构造函数来执行程序.程序的运行结果将打印输出.以上算法可以快速地从大量的藏文语料库中抽取单音节词,并为后续的研究提供基础数据.18一doifw-dic:#字典中已经存在该单音节,其频次+1do dicw+=1else:#字典中未存在该单音节,其频次赋值1dicw=1词典语料1200001070651000002.1.1通用度随着自然语言处理技术的发展,计量统计和迁移学习越来越多地用于自然语言处理6 ,以提高算法在任务中的性能.语言学界所谓词语的通用度是指词语在语言应用的各个领域里常用性的综合指标7。通用度兼顾词语的分布率和频率两方面,但是本文是用常用六部藏文词典得到相对通用度,如果某个词包含在六部词典中表示这个词的通用度高,如果该词只在一个词典中就表示通用度低,以此表示一种相对通用度.选取这六部词典的主要原因是他们在藏文词典中具有一定的代表性,为了让读者有可视化的效果,参照图2 更为直观,浅色的柱状图表示词典中本来就存在的词次,而深色的代表单音节的词次,展示词典中抽取单音节词的结果。80000600004000020000571232519355621.95753503290020462536315476959892Monlam藏汉词典藏英词典藏汉大辞典总词次单音节词次图2 词典语料的柱状图词典语料中得出高通用度词汇的详细算法如下:该算法实现藏文的字典应用.“tibdict”类接收了几个包含不同语言单词的输人文件,通过计算每个单词在所有输入文件中出现的次数来创建一个字典.创建的字典被输出到用户指定的文件中.“read-table方法从文件中读入单词,并将其加人一个集合.“dic_to_dic方法将一个集合中的所有词加入另一个集合.“counter方法将每个输人集的单词与字典进行比较,并更新每个出现单词的计数.“dmax_to_dmax方法对词组中的所有词将字典初始化为0.最后,“output”方法将字典写到一个文件中,只包括在输人文件中出现6 次和5次的词.“mainapp”函数只是用适当的输人和输出文件调用“tibdict”类,并在完成后输出.该算法使用UTF-16编码来读写文件.通用度3000200010000WE