基于神经网络的医疗文本分类研究*许浪1,2,李代伟1,2,张海清1,2,唐聃1,2,何磊1,2,于曦3(1.成都信息工程大学软件工程学院,四川成都610225;2.四川省信息化应用支撑软件工程技术研究中心,四川成都610225;3.成都大学斯特灵学院,四川成都610106)摘要:传统的医学文本数据分类方法忽略了文本的上下文关系,每个词之间相互独立,无法表示语义信息,文本描述和分类效果差;并且特征工程需要人工干预,因此泛化能力不强。针对医疗文本数据分类效率低和精度低的问题,提出了一种基于Transformer双向编码器表示BERT、卷积神经网络CNN和双向长短期记忆BiLSTM神经网络的医学文本分类模型CMNN。该模型使用BERT训练词向量,结合CNN和BiLSTM,捕捉局部潜在特征和上下文信息。最后,将CMNN模型与传统的深度学习模型Tex-tCNN和TextRNN在准确率、精确率、召回率和F1值方面进行了比较。实验结果表明,CMNN模型在所有评价指标上整体优于其他模型,准确率提高了1.69%~5.91%。关键词:自然语言处理;医疗文本分类;BERT;CNN;BiLSTM中图分类号:TP391文献标志码:Adoi:10.3969/j.issn.1007-130X.2023.06.019MedicaltextclassificationbasedonneuralnetworkXULang1,2,LIDai-wei1,2,ZHANGHai-qing1,2,TANGDan1,2,HELei1,2,YUXi3(1.SchoolofSoftwareEngineering,ChengduUniversityofInformationTechnology,Chengdu610225;2.SichuanProvinceEngineeringTechnologyResearchCenterofSupportSoftwareofInformatizationApplication,Chengdu610225;3.StirlingCollege,ChengduUniversity,Chengdu610106,China)Abstract:Thetraditionalmedicaltextdataclassificationmethodsignorethecontextofthetext.Eachwordisindependentofeachotherandcannotrepresentsemanticinformation.Thetextdescriptionandclassificationeffectarepoor,andfeatureengineeringrequiresmanualintervention,sothegenerali-zationabilityisnotstrong.Aimingattheproblemsoflowefficiencyandlowaccuracyofmedicaltextdataclassification,thispaperproposesamedicaltextclassificationmodelCMNNbasedonbidirectionalencoderrepresentationsfromTransformer(BERT),convolutionalneuralnetwork(CNN)andBi-directionallongandshort-termmemory(BiLSTM)neuralnetwork.ThemodelusesBERTtotrainwordvectorsandcombinesCNNandBiLSTMtocapturelocallatentfeaturesandcontextualinforma-tion.Finally,theproposedmodeliscomparedwiththetraditi...