收稿日期:2023-05-20基金项目:2022广州社会科学基金项目“双循环新发展格局下粤港澳大湾区社会保障高效协同研究”(项目编号:10000-42220402);2023广州市哲学社会科学发展“十四五”规划项目“健康中国背景下面向互联网医疗大数据的抑郁症风险预测研究”(项目编号:2023GZGJ259)。作者简介:聂卉(1971-),女,副教授,研究方向:自然语言处理,文本挖掘,智能数据分析。吴晓燕(1997-),女,硕士研究生,研究方向:医疗文本分析,数据挖掘。·数据分析与大数据挖掘·基于在线医疗咨询文本的抑郁症症状短语的自动识别聂卉吴晓燕(中山大学信息管理学院,广东广州510006)摘要:[目的/意义]利用在线医疗咨询文本探索抑郁症症状的自动抽取方法,推进健康大数据的深层次应用。[方法/过程]以在线问诊平台“好大夫在线”的患者问诊记录为语料,选择无监督机器学习法,运用短语识别和深度学习语义建模技术实现抑郁症症状的快速提取。算法通过了测试语料的评估,并在抑郁症典型症状分析和抑郁症人群预测两个任务中得以检验。[结果/结论]运用本文算法识别抑郁症症状短语的准确率为7385%,模型表现优良。用该方法分析抑郁症患者的典型表现,结论与心理学临床检验结果一致,抑郁症人群预测的精准度则可以达到7881%。对于3个症状短语的分布表示模型,具备深层次语义表达能力Sentence-BERT表现最好,说明强化短语的语义表达,运用无监督机器学习方法能够实现疾病症状的快速提取,有效提升大规模文本信息的处理能力。关键词:在线医疗咨询文本;抑郁症;语义建模;短语识别DOI:10.3969/j.issn.1008-0821.2023.09.006〔中图分类号〕G202;TP391〔文献标识码〕A〔文章编号〕1008-0821(2023)09-0063-11AutomaticIdentifyingtheDepressionSymptomsfromOnlineMedicalConsultationTextNieHuiWuXiaoyan(SchoolofInformationManagement,SunYat-SenUniversity,Guangzhou510006,China)Abstract:[Purpose/Significance]Thisstudyexploreshowtoid...