分享
基于神经网络的医疗文本分类研究_许浪.pdf
下载文档

ID:2515082

大小:1.09MB

页数:7页

格式:PDF

时间:2023-06-27

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 神经网络 医疗 文本 分类 研究 许浪
基于神经网络的医疗文本分类研究*许 浪1,2,李代伟1,2,张海清1,2,唐 聃1,2,何 磊1,2,于 曦3(1.成都信息工程大学软件工程学院,四川 成都 6 1 0 2 2 5;2.四川省信息化应用支撑软件工程技术研究中心,四川 成都 6 1 0 2 2 5;3.成都大学斯特灵学院,四川 成都 6 1 0 1 0 6)摘 要:传统的医学文本数据分类方法忽略了文本的上下文关系,每个词之间相互独立,无法表示语义信息,文本描述和分类效果差;并且特征工程需要人工干预,因此泛化能力不强。针对医疗文本数据分类效率低和精度低的问题,提出了一种基于T r a n s f o r m e r双向编码器表示B E R T、卷积神经网络C NN和双向长短期记忆B i L S TM神经网络的医学文本分类模型CMNN。该模型使用B E R T训练词向量,结合C NN和B i L S TM,捕捉局部潜在特征和上下文信息。最后,将CMNN模型与传统的深度学习模型T e x-t C NN和T e x t R NN在准确率、精确率、召回率和F1值方面进行了比较。实验结果表明,CMNN模型在所有评价指标上整体优于其他模型,准确率提高了1.6 9%5.9 1%。关键词:自然语言处理;医疗文本分类;B E R T;C NN;B i L S TM中图分类号:T P 3 9 1文献标志码:Ad o i:1 0.3 9 6 9/j.i s s n.1 0 0 7-1 3 0 X.2 0 2 3.0 6.0 1 9M e d i c a l t e x t c l a s s i f i c a t i o n b a s e d o n n e u r a l n e t w o r kXU L a n g1,2,L I D a i-w e i1,2,Z HANG H a i-q i n g1,2,T ANG D a n1,2,HE L e i1,2,YU X i3(1.S c h o o l o f S o f t w a r e E n g i n e e r i n g,C h e n g d u U n i v e r s i t y o f I n f o r m a t i o n T e c h n o l o g y,C h e n g d u 6 1 0 2 2 5;2.S i c h u a n P r o v i n c e E n g i n e e r i n g T e c h n o l o g y R e s e a r c h C e n t e r o f S u p p o r t S o f t w a r e o f I n f o r m a t i z a t i o n A p p l i c a t i o n,C h e n g d u 6 1 0 2 2 5;3.S t i r l i n g C o l l e g e,C h e n g d u U n i v e r s i t y,C h e n g d u 6 1 0 1 0 6,C h i n a)A b s t r a c t:T h e t r a d i t i o n a l m e d i c a l t e x t d a t a c l a s s i f i c a t i o n m e t h o d s i g n o r e t h e c o n t e x t o f t h e t e x t.E a c h w o r d i s i n d e p e n d e n t o f e a c h o t h e r a n d c a n n o t r e p r e s e n t s e m a n t i c i n f o r m a t i o n.T h e t e x t d e s c r i p t i o n a n d c l a s s i f i c a t i o n e f f e c t a r e p o o r,a n d f e a t u r e e n g i n e e r i n g r e q u i r e s m a n u a l i n t e r v e n t i o n,s o t h e g e n e r a l i-z a t i o n a b i l i t y i s n o t s t r o n g.A i m i n g a t t h e p r o b l e m s o f l o w e f f i c i e n c y a n d l o w a c c u r a c y o f m e d i c a l t e x t d a t a c l a s s i f i c a t i o n,t h i s p a p e r p r o p o s e s a m e d i c a l t e x t c l a s s i f i c a t i o n m o d e l CMNN b a s e d o n b i d i r e c t i o n a l e n c o d e r r e p r e s e n t a t i o n s f r o m T r a n s f o r m e r(B E R T),c o n v o l u t i o n a l n e u r a l n e t w o r k(C NN)a n d B i-d i r e c t i o n a l l o n g a n d s h o r t-t e r m m e m o r y(B i L S TM)n e u r a l n e t w o r k.T h e m o d e l u s e s B E R T t o t r a i n w o r d v e c t o r s a n d c o m b i n e s C NN a n d B i L S TM t o c a p t u r e l o c a l l a t e n t f e a t u r e s a n d c o n t e x t u a l i n f o r m a-t i o n.F i n a l l y,t h e p r o p o s e d m o d e l i s c o m p a r e d w i t h t h e t r a d i t i o n a l d e e p l e a r n i n g m o d e l s T e x t C NN a n d T e x t R NN i n t e r m s o f a c c u r a c y,p r e c i s i o n,r e c a l l a n d F1 s c o r e.T h e e x p e r i m e n t a l r e s u l t s s h o w t h a t t h e CMNN m o d e l o u t p e r f o r m s o t h e r m o d e l s o n a l l e v a l u a t i o n m e t r i c s,a n d t h e a c c u r a c y i s i m p r o v e d b y 1.6 9%5.9 1%.K e y w o r d s:n a t u r a l l a n g u a g e p r o c e s s i n g;m e d i c a l t e x t c l a s s i f i c a t i o n;B E R T;C NN;B i L S TM*收稿日期:2 0 2 2-0 9-2 7;修回日期:2 0 2 2-1 1-1 5基金 项 目:欧 盟 项 目(5 9 8 6 4 9-E P P-1-2 0 1 8-1-F R-E P P KA 2-C B HE-J P);国 家 自 然 科 学 基 金(6 1 6 0 2 6 0 4);四 川 省 科 技 厅 项 目(2 0 2 1 Y F H 0 1 0 7,2 0 2 2 Y F S 0 5 4 4,2 0 2 2 N S F S C 0 5 7 1)通信作者:于曦(y u x i c d u.e d u.c n)通信地址:6 1 0 2 2 5 四川省成都市成都信息工程大学软件工程学院A d d r e s s:S c h o o l o f S o f t w a r e E n g i n e e r i n g,C h e n g d u U n i v e r s i t y o f I n f o r m a t i o n T e c h n o l o g y,C h e n g d u 6 1 0 2 2 5,S i c h u a n,P.R.C h i n a C N 4 3-1 2 5 8/T PI S S N 1 0 0 7-1 3 0 X 计算机工程与科学C o m p u t e r E n g i n e e r i n g&S c i e n c e第4 5卷第6期2 0 2 3年6月 V o l.4 5,N o.6,J u n.2 0 2 3 文章编号:1 0 0 7-1 3 0 X(2 0 2 3)0 6-1 1 1 6-0 71 引言随着信息化时代的快速发展,在线医疗咨询平台越来越受到人们的欢迎。患者可以在线描述自己的健康状况,方便、及时地咨询医生,从而获取用药和治疗方案等信息。这种通过网络进行诊疗的方式,可以很大程度上解决线下医疗面临的地理不便、服务 能 力 分 布 不 均、医 患 信 息 不 对 称 等 问题1,2,提高了有限优质医院资源的利用效率。更重要的是,近年来,人工智能作为新一轮技术革命和产业变革的重要动力,极大地推动了智能医疗的发展3。I s o b e等4开发了辅助康复治疗的医疗A I系统。D i n g等5基于深度学习算法,利用大脑的1 8 F-F D G P E T对阿尔茨海默病进行早期预测。其中,根据患者病症自动正确地推荐科室是网络问诊的重要组成部分。因此,基于自然语言处理和深度学习技术的智能医疗指导受到越来越多的关注,而医学文本分类是其中不可或缺的一部分。本文提出了一种混合文本分类模型,该模型通过预训练模型B E R T(B i-d i r e c t i o n a l E n c o d e r R e p r e s e n t a t i o n s f r o m T r a n s-f o r m e r)对 文 本 向 量 进 行 编 码,然 后 利 用C NN(C o n v o l u t i o n a l N e u r a l N e t w o r k)提取局部特征,接 着 根 据 使 用B i L S TM(B i-d i r e c t i o n a l L o n g S h o r t-T e r m M e m o r y)网络的高内存容量捕捉到的长期依赖关系将提取的特征正确连接起来,从而保证了文本分类的准确性。实验结果表明,本文提出的模型比其他基线模型具有更好的性能。本文的重点如下:(1)为进一步提高文本分类效果,提出了一种结合预训练模型、C NN和B i L S TM的医学领域文本分类方法,可有效提高文本分类准确率。(2)为了提高词向量表示的能力,本文在文本向量化过程中使用B E R T模型训练词向量。新模型还利用了C NN和B i L S TM的独特优势。C NN从空间角度提取文本的局部特征,B i L S TM得到句子的序列特征。(3)与其他先进的优化模型进行了深入的比较,从准确率、精确率、召回率和F1值方面进行评估。本文其余部分的组织如下:第2节介绍词嵌入技术和文本分类在医

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开