本栏目责任编辑:唐一东本期推荐ComputerKnowledgeandTechnology电脑知识与技术第18卷第35期(2022年12月)基于BERT-CRF的中文分词模型设计陈月月,李燕,帅亚琦,徐丽娜,钟昕妤(甘肃中医药大学信息工程学院,甘肃兰州730101)摘要:分词作为中文自然语言处理中的基础和关键任务,其分词效果的好坏会直接影响后续各项自然语言处理任务的结果。本文基于BERT-CRF的分词模型利用通用领域数据集与医学领域数据集对模型进行训练,分别取得F1值0.898和0.738的实验结果。关键词:BERT;CRF;中文分词;自然语言处理中图分类号:TP311文献标识码:A文章编号:1009-3044(2022)35-0004-03开放科学(资源服务)标识码(OSID):自然语言处理(NaturalLanguageProcessing,NLP)是研究计算机理解和自然语言生成的信息处理[1]。随着深度学习的发展,神经网络算法被广泛应用于各项自然语言处理任务中。分词作为自然语言处理中的基础和关键任务,其结果会直接影响后续命名实体识别、关系抽取等自然语言处理相关工作的准确性[2]。由于神经网络具有很强的自学习性和自适应性,有助于提高中文分词模型的性能,因此,现有的中文分词模型大都结合了神经网络算法对分词模型进行构建。分词的目的是将一个完整的句子分割为词语级别[3]。不同于英文中以空格为分词符号的分词,在中文文本中,词与词之间没有明确的分词标记,其以连续字符串的形式呈现,且存在一词多义和语境不同意义不同的现象。因此,做好中文分词工作对处理所有的中文自然语言处理任务有着至关重要的作用。1相关工作分词模型是自然语言处理中最基本的语言处理模型之一。中文的语言结构复杂,难以准确地进行词语识别[4]。因此,中文分词成为分词任务中的热点话题。中文分词方法可以分为传统的分词方法和基于神经网络的分词方法。传统的分词方法包括基于词典规则的方法和基于统计的方法。基于词典规则的方法就是按照中文文本的顺序将其切分成连续词序,然后根据规则以及连续词序是否在给定的词典中来决定连续词序是否为最终的分词结果[5]。基于词典规则方法构建的分词模型分词速度快、容易实现,且其在特定领域分词的准确率较高,但其高度依赖词典规则,针对词典规则中未登录词的识别效果差。基于统计方法构建的分词模型,其主要思想是把字符序列中的每个词都看作由字组成,计算字符序列中任意相邻字符出现的概率,概率值越大则说明相邻字符成词的可能性越大[6]。基于统计方法构建的分词模型可以很好地识别未登录...