数据库系统设计DatabaseSystemDesign电子技术与软件工程ElectronicTechnology&SoftwareEngineering1901电子病历概述电子病历(ElectronicMedicalRecord,EMR)是病历的一种记录形式,包括住院病历和门诊病历,是临床辅助决策系统、保险智能理赔系统、医疗知识图谱构建、智能咨询等应用的重要电子数据支撑。如何利用自然语言处理技术从电子病历中智能分析提取信息并组织成结构化内容是当前研究的重点。电子病历分析流程如图1所示。其中,NER在电子病历的分析利用中起着关键作用,是数据预处理与数据应用之间的常用技术。2相关工作中文电子病历命名实体识别方法主要有三个发展阶段:基于词典、基于规则和机器学习。其中,机器学习方法通常最好,主要表现出良好的实用性和可移植性,与基于词典的方法相比,兼容性差,基于规则的方法机动性差。特别是深度学习技术被提出后,电子病历命名实体识别的深度学习方法爆炸式增长,各种创新的深度学习模型不断优化命名实体识别的准确率和召回率。基于字典、基于规则和机器学习方法的优缺点如表1所示。2.1基于词典方法基于词典的方法需要人工构建综合医疗词典,结合词典匹配算法(包括前向最大匹配算法、后向最大匹配算法、双向最大匹配算法等)完成电子病历命名实体的识别。其中,词典的质量和规模对实体识别的结果尤为重要。大量论文证明,该方法在处理中国电子病历中包含的大量受控词、缩写、专业术语和符号实体的识别方面效果突出。词汇增强的中文电子病历命名实体识别方法邝琦贺勇(长沙理工大学电气与信息工程学院湖南省长沙市410000)摘要:本文对基于词汇增强的中文电子病历命名实体识别方法进行了分析。命名实体识别(NER)是自然语言处理中的基本任务。在中文命名实体识别任务中,通常可分为基于字符(字符粒度)和基于单词(单词粒度)。在命名实体识别任务的中文电子病历中,命名实体识别方法的字符粒度更为常见。词汇信息在实体识别中非常重要,但常用的方法缺少重要的词汇信息,因此采用LEBER方法引入词汇信息,提高中文电子病历命名实体识别模型的性能。实验证明,词汇增强方法在中文电子病历命名实体识别中是有效的。关键词:命名实体识别;电子病历;LEBER;词汇增强●基金项目:长沙理工大学校企合作基金(30404022264)。图1:电子病历分析流程图数据库系统设计DatabaseSystemDesign电子技术与软件工程ElectronicTechnology&SoftwareEngineering191目前提出的方法是提高字典质量和规模的可靠性,但许多...