第40卷第3期计算机应用与软件Vol.40No.32023年3月ComputerApplicationsandSoftwareMar.2023融合词语信息的细粒度命名实体识别曹晖1徐杨1,2*1(贵州大学大数据与信息工程学院贵州贵阳550025)2(贵阳铝镁设计研究院有限公司贵州贵阳550081)收稿日期:2020-07-29。贵州省科技计划项目(黔科合LH字[2016]7429号);贵州大学引进人才项目(2015-12)。曹晖,硕士生,主研领域:自然语言处理。徐杨,副教授。摘要针对基于字级别的命名实体识别方法无法充分利用句子词语信息的问题,提出一种融合词语信息的细粒度命名实体识别模型。该模型通过引入外部词典,在基于字表示中融入句子潜在词语的信息,避免了分词错误传播的问题,同时构建了一种增强型字向量表达;利用扁平化的LatticeTransformer网络结构对字和词语的表示以及位置关系信息进行建模;通过CRF(ConditionalRandomFiled)计算得到最优标签序列。在细粒度命名实体语料CLUENER2020上进行了实验,精确率达到82.46%,召回率达到83.14%,F1值达到82.80%,验证了融合词语信息可以提升细粒度命名实体识别效果。关键词词语信息细粒度实体识别扁平化LatticeTransformerBERT中图分类号TP391.1文献标志码ADOI:10.3969/j.issn.1000-386x.2023.03.036FINE-GRAINEDNAMEDENTITYRECOGNITIONBASEDONWORDSINFORMATIONCaoHui1XuYang1,2*1(SchoolofBigDataandInformationEngineering,GuizhouUniversity,Guiyang550025,Guizhou,China)2(GuiyangAluminumMagnesiumDesign&ResearchInstituteCo.,Ltd.,Guiyang550081,Guizhou,China)AbstractAimingattheproblemthatthecharacter-levelnamedentityrecognitionmethodcannotmakefulluseofthewordsinformationinthesentence,weproposeafine-grainednamedentityrecognitionmodelthatintegrateswordsinformation.Byintroducinganexternallexicon,themodelincorporatedtheinformationofpotentialwordsinthecharacter-basedrepresentation,avoidingthepropagationofwordssegmentationerror,andanenhancedwordvectorexpressionwasconstructed.Usingtheflatlatticetransformernetworkstructuretomodelthecharactersrepresentation,thewordsrepresentationandthepositionrelationshipinformation.Theoptimaltagsequencewascalculatedbyconditionalrandomfiled(CRF).Theexperimentswereconductedonthefine-grainednamedentitycorpusCLUENER2020....