藏文单音节单纯词抽取方法设计与实现.pdfVIP免费

下载本文档

阅读 0
下载 0
格式 pdf
大小 4.71 MB
约9页
2023-11-29
收藏
评论
点赞(0)
海报
举报

第44卷总第131期2023年9月西北民族大学学报（自然科学版）JournalofNorthwestMinzuUniversity(NaturalScienceEdition)Vol.44,No.3Sep,2023藏文单音节单纯词抽取方法设计与实现才让东知12,祁坤钰1,2，贡保杰布3（1.西北民族大学甘肃省民族语言智能处理重点实验室，甘肃兰州730030；2.西北民族大学中国民族语言文字信息技术教育部重点实验室，甘肃兰州730030；3.青海师范大学计算机学院，青海西宁810000)［摘要］针对藏文词汇资源匮乏和词汇分级模糊等问题，采用词典语料和词性标注语料相结合的方法，设计了藏文单音节单纯词抽取模型，规划了详细的技术方案，构建了比较完整的词典语料库，获得了藏文单音节单纯词的分类词表，依据相对通用度得到了分级词表，其中名词、动词、形容词、副词和数词等单音节单纯词总数1414条，词性之间存在大量的兼类现象，对汉藏语言资源库建设具有重要意义。［关键词］藏文单纯词；抽取模型；语料库[中图分类号]］TP391[文献标识码]A［文章编号］1009-2102(2023)03-0016-090引言语言是文化的重要载体，而词汇则是文化观念在语言中的主要承载者[1.在藏文中，单纯词是最基本的词汇单位之一，它由一个单独的词素构成，与合成词相对.单纯词的主要词性为名词、动词、形容词和副词，是藏文词汇表达的重要组成部分.其在自然语言处理中的抽取是一个关键任务，对藏文机器翻译、信息检索、语音识别等任务具有重要作用.一个语素构成的词在英语中通常被称为“monomorphemicword"①,其中“mono-"表示单一的语素，“morphemic"表示词素，“word"表示词.这种词通常是最简单的词汇单位，通常由一个基本的词根或词干构成，没有任何前缀或后缀.例如，英语单词“dog"由单一的词根“dog”组成，是一个典型的mono-morphemicword.在汉语中，单纯词也是由一个语素构成的词.在传统的藏文文法中，单纯词没有从词的结构进行说明，但现在大多数学者将其与“355"相对应起来.单纯词与复合词形成鲜明对比，为藏文词汇的形态构成提供了重要的语法形式.本文提供了一种可用于其他NLP任务的藏文单纯词抽取方法，对促进藏文NLP应用的发展和汉藏语言资源库建设具有重要意义.1单纯词抽取的意义及语料库的概述单纯词抽取是一种文本挖掘技术[2}，它的主要目的是从给定的文本语料库中提取出所有的单词（或①“Amonomorphemicwordisawordconsistingofasinglemorpheme;examplesinEnglishincludesuchwordsascat,red,pen,andsoon."(Bauer,1983,p.3)[收稿日期]2023-04...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容