计算机与现代化JISUANJIYUXIANDAIHUA2023年第1期总第329期文章编号:1006-2475(2023)01-0043-06收稿日期:2022-02-05;修回日期:2022-03-06基金项目:科技部重点研发计划重点专项(2017YFB1402200);西藏自治区科技创新基地自主研究项目(XZ2021JR002G);西藏大学研究生“高水平人才培养计划”项目(2019-GSP-S118)作者简介:朱亚军(1994—),男,河南周口人,硕士研究生,研究方向:自然语言处理,E-mail:zhuyajun2022@163.com;通信作者:拥措(1974—),女(藏族),青海玉树人,教授,博士生导师,博士,研究方向:自然语言处理,人工智能,E-mail:yongtso@163.com;尼玛扎西(1964—),男(藏族),西藏拉萨人,教授,博士生导师,博士,研究方向:藏语计算语言学,E-mail:nmzx@utibet.edu.cn。0引言藏医药学是中国医药学重要的组成部分[1]。藏医药学者从不同的角度对藏医药做了相应的研究,无论是在临床使用上[2-3],还是在藏药的理化分析上[4-5],藏医药都取得了长足的发展,但是在藏医药的知识发现上却少有研究。藏医药学文本指的是有关藏医药学经验和知识的文字记录,其中蕴含着极其丰富的藏医药学常识、经验和知识[6]。比如藏医药典籍、医院就诊患者的诊疗记录等,这些文本往往是一些非结构化的藏文文字记录。藏文的语法结构非常复杂,其中包括以下4个主要问题:1)语序。藏文的语序主要为主语-宾语-谓语,比如在“ར■ར■བསན■པས■རང■ཁག■སས■ལ■ཕན■(川木香益气血)”中,宾语“རང■ཁག■(气血)”在谓语“ལ■ཕན(有利于)”的前面。2)大部分形容词具有一般形式、比较级和最高级。比如“好”有3个级别:“ཡག■པཔ■(好)”、“ཅང■ཡག■པ■(较好)”、“ཡག■ཤཔས■(最好)”。3)动词分现在时、过去时、未来时和命令式。4)助词在藏文中具有重要作用,比如“གས”表示领属关系,“ལ”表示领有关系等。语法结构越复杂语言模型对藏文的拟合难度越大,字符的上下文环境也越复杂。因此如何对大量的非结构化文本进行知识发现成为极具挑战的问题,而藏医药基于藏文BERT的藏医药医学实体识别朱亚军1,2,3,拥措1,2,3,尼玛扎西1,2,3(1.西藏大学信息科学技术学院,西藏拉萨850000;2.西藏自治区藏文信息技术人工智能重点实验室,西藏拉萨850000;3.藏文信息技术教育部工程研究中心,西藏拉萨850000)摘要:藏医药文本字符嵌入对藏医药医学实体识别有着重要意义,但目前藏...