温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
在线
医疗
咨询
文本
抑郁症
症状
短语
自动识别
收稿日期:基金项目:广州社会科学基金项目“双循环新发展格局下粤港澳大湾区社会保障高效协同研究”(项目编号:);广州市哲学社会科学发展“十四五”规划项目“健康中国背景下面向互联网医疗大数据的抑郁症风险预测研究”(项目编号:)。作者简介:聂卉(),女,副教授,研究方向:自然语言处理,文本挖掘,智能数据分析。吴晓燕(),女,硕士研究生,研究方向:医疗文本分析,数据挖掘。数据分析与大数据挖掘基于在线医疗咨询文本的抑郁症症状短语的自动识别聂 卉 吴晓燕(中山大学信息管理学院,广东 广州)摘 要:目的 意义 利用在线医疗咨询文本探索抑郁症症状的自动抽取方法,推进健康大数据的深层次应用。方法 过程 以在线问诊平台“好大夫在线”的患者问诊记录为语料,选择无监督机器学习法,运用短语识别和深度学习语义建模技术实现抑郁症症状的快速提取。算法通过了测试语料的评估,并在抑郁症典型症状分析和抑郁症人群预测两个任务中得以检验。结果 结论 运用本文算法识别抑郁症症状短语的准确率为,模型表现优良。用该方法分析抑郁症患者的典型表现,结论与心理学临床检验结果一致,抑郁症人群预测的精准度则可以达到 。对于 个症状短语的分布表示模型,具备深层次语义表达能力 表现最好,说明强化短语的语义表达,运用无监督机器学习方法能够实现疾病症状的快速提取,有效提升大规模文本信息的处理能力。关键词:在线医疗咨询文本;抑郁症;语义建模;短语识别:中图分类号;文献标识码 文章编号 ()(,):,“”,:,:;年 月第 卷第 期现 代 情 报 ,据世界卫生组织报告,抑郁症已成为全球巨大的疾病负担,约 的世界人口患有不同程度的抑郁症。要降低疾病危害,患者尽早接受医疗救助至关重要。“线上问诊”打破了传统就医模式的时空束缚,调查显示抑郁症病患对线上问诊的接受度高达 。在线问诊记录是患者与医生的交流文本,求诊者对病程、感受、状态、情绪的陈述反馈出其罹患疾病的性质、严重度及对健康的影响,是疾病诊断的重要依据。在真实的医疗场景中,相较其他疾病,抑郁症诊断也主要依托量表及患者与医生的交流记录,因此,大规模在线问诊记录为抑郁症研究提供了充分的数据支持。现有基于互联网的抑郁症研究,主要是通过分析用户生成内容来预测抑郁风险,首要任务是识别抑郁症状。早期研究采用词典法,但静态词典不能全面覆盖患者病况,预测精准度低;而随后提出的有监督机器学习则需付出人工标注成本。因此,设计一个无需标注,也能高效地从患者问诊记录中识别抑郁病症的方案成为本研究要点。深度学习建模技术在自然语言处理方面性能卓越。基于大规模的抑郁症在线咨询文本语料,本研究引入深度学习建模技术,采用无监督机器学习策略构建症状识别模型,并通过抑郁症典型特征分析、抑郁症风险预测两个实际应用检验症状识别模型的实效。本研究工作旨为辅助医生诊断、提高医疗平台问诊服务效率、增强抑郁症筛查和防控能力提供技术参考。文献综述 医学术语与疾病症状的识别研究与疾病有关的医学术语的识别与表示是医学自然语言处理领域的经典问题。早期研究主要采用词典和规则匹配法,如 等基于关键字和本体规则,从临床记录中自动抽取传染性疾病的症状。等借助词典与语法分析,从病人记录中提取心力衰竭的描述。基于词典和规则的方法完全依靠医学领域词典和专家,实际应用中普适性较差。随后,学者们提出了有监督机器学习方案,因为有学习过程,有监督学习摆脱了外部资源的制约,可应用于不同场景。用有监督机器学习抽取医学术语的 个主流算法是支持向量机()、隐马尔可夫模型()和条件随机场(),应用最广。叶枫等以语言符号、词性、构词模式、词边界、上下文为特征,采用 识别电子病历中包括症状在内的医学命名实体。等用 从乳腺癌患者的诊疗记录中提取疾病症状并判断性质。相较词典匹配,有监督机器学习方案显著提升了术语识别的查全率,整体表现更优。但有监督机器学习算法的表现很大程度上取决于特征工程,存在不稳定性。近年,深度学习为医学领域的自然语言处理任务提供了富有潜力的方案。深度学习框架不考虑特征工程,以分布式向量表示医学文本,并应用于疾病诊断。如 等先利用 从病案记录中抽取症状,然后用词向量表示症状,再运用深度学习框架()预测疾病发生风险。等同样先用 提取病案中有关体征和生理的医学术语,再整合用药等信息,构建咳嗽诊断模型,该研究对比了多种机器学习方案,基于 预训练模型的诊断模型表现最佳。抑郁症状的提取与应用研究作为面向特定疾病的医学症状识别研究,抑郁症症状识别遵循同样的技术路线。等根据抑郁症量表获取症状术语种子,然后利用词典拓展同义词,生成症状词典。等直接依据 精神障碍诊断与统计手册(),对 推文中的抑郁症状进行手动编码,然后统计出与重度抑郁症相关的症状描述。等利用电子健康记录检测重度抑郁症的典型症状,症状识别采用了。深度学习技术则越来越多地在最新的研究文献中出现,等通过公共信息网获取用户生成内容,根据医生列出的抑郁症状为用户建模,再运用深度学习框架 预测用户的抑郁症倾向。等运用深度学习框架 构建文本分类器,对抑郁症社区中用户提及的抑郁症状进行分类整理,再通过网络分析挖掘症状间的关联。包括深度学习,应用有监督机器学习算法,移植性和标注成本是两个不可回避的问题。面对大规模语料,有学者尝试了无监督机器学习策略,等使用词向量表示症状,用聚类技术抽取抑郁 年 月第 卷第 期基于在线医疗咨询文本的抑郁症症状短语的自动识别,症状。等首先构建基于词向量的情感词典,再运用深度聚类算法分析患者发布文本,以可视化方式呈现患者文本中的情绪。可见,用无监督机器学习算法识别疾病症状同样可行。相关研究发现对于患者个性化的陈述,症状表达存在句法和语义上的变异性,常无法直接对应单一词项,短语的长度灵活,表达语义丰富,显然更适于描述疾病症状。综上,无监督机器学习的普适性为在大规模语料集上快速检测抑郁症风险提供了新的技术选择,短语形式的症状描述则能更准确地表达语义,因此,采用无监督机器学习策略,基于语义建模,实现短语级抑郁症状的自动识别值得探究。研究设计数据层面,基于求诊者的问诊记录建立语料库,是本研究的首要任务。问诊记录中的“疾病描述”部分包含大量抑郁症状描述,本研究从中提取这些症状描述,用于构建患者模型,并用于抑郁症典型症状分析和抑郁症风险预测两个任务。在原始语料中,没有字段明确标识病况(是否是确诊患者以及抑郁的程度),病况从问诊记录中获取,并据此生成研究语料集。方法层面,识别症状短语是研究重点,主要涉及短语抽取与语义建模两个任务。对此,本研究采用无监督机器学习策略并引入深度学习模型表示症状。应用层面,在抑郁症典型症状分析和抑郁症风险预测两个具体任务上检测症状识别算法的实效。依据上述设计,将整个研究分为三部分,如图 所示:语料库构建,抑郁症状短语自动识别及应用,核心是症状短语的识别算法。图 研究流程 研究方法研究采用无监督机器学习方案实现抑郁症状短语的自动识别。算法基本思想是,基于抑郁症量表先构建症状种子词库,再从“疾病描述”文本提取有关症状的叙述(短语形式)作为症状候选项,计算候选项与种子间的语义相似度,据此判定候选短语是否为抑郁症症状,并明确症状的类别。算法核心是如何对短语进行恰当的语义表示,本研究选择了、和 种语言模型,通过数据实验从中选出最佳。整个算法包括抑郁症症状种子库构建、候选症状短语提取、症状识别 个部分。年 月第 卷第 期现 代 情 报 ,抑郁症症状种子库构建抑郁症症状种子是一组描述抑郁典型症状的词项或短语,是诊断患者抑郁的重要依据。临床检测中,患者需要填写抑郁测试量表,医生据此了解其感知、认知、生理、行为等方面的状态,量表题项中有针对症状的规范表达。例如,贝克抑郁量表量表的题项“我比之前睡眠过少”中“睡眠过少”就是抑郁症“睡眠障碍”的典型症状。研究首先依据国际疾病分类(,)体系标准诊断中的症状类别建立抑郁症症状分类体系,再按分类体系从量表题项中梳理出表述症状的代表性短语或词项,即症状种子。研究共梳理了 个临床心理学常用量表,包括贝克抑郁量表()、抑郁症 的诊断标准、抑郁症诊断标准、流行病学研究中心抑郁量表()、老年抑郁量表()、汉密尔顿抑郁量表()、蒙哥马利阿斯伯格抑郁量表()、抑郁自评量表()、对抑郁症的诊断标准、抑郁症筛查量表。将从量表中提取的症状种子映射到症状分类体系中,形成症状种子库。如表 所示,症状种子库含有 个种子词,对应 类抑郁症典型症状。表 抑郁症症状种子库类别描 述种 子 词心境低落情绪低落、感到悲伤、感到空虚、心中苦闷、哭泣、心情沉重、失去勇气、闷闷不乐、流泪兴趣和愉快感丧失兴趣显著降低、丧失愉快感、丧失兴趣、兴趣减少、枯燥无味、放弃活动与兴趣、缺乏兴趣、乐趣明显减少、提不起劲、愉快感显著降低精力降低精力不足、过度疲劳、缺乏精力、疲乏无力、感到疲乏、没有活力、精力不充沛、感到疲倦集中注意的能力降低注意集中能力减退、犹豫不决、注意力降低、无法集中注意力、难以集中思想、思考能力减退、专注有困难、思维能力减退自我评价和自信降低自卑、讨厌自己、自己很失败、低人一等、我是废物、一无是处、比别人差、自信心丧失自罪观念和无价值感内疚、自责、罪恶感、觉得有罪、责备自己、毫无价值、连累他人、感到自己无用认为前途暗淡悲观生活没有意思、对未来心灰意冷、将来无法改善、未来没有希望、情况不会好转、前途不太乐观、我的病不会好了、前途没有希望自伤或自杀的观念或行为自杀未遂、自杀的意念、自杀计划、自杀行为、活着没有意义、不如死了的好、不如死掉、出现死的想法睡眠障碍睡眠障碍、睡眠过多、睡眠不好、早醒、难以入睡、入睡困难、睡眠不深、时睡时醒、失眠食欲下降体重明显下降、体重明显增加、食欲减退、食欲增加、体重变化、不想吃东西、胃口不好、没有食欲、不愿进食、食欲不振 候选症状短语提取候选短语提取在开源汉语语言平台(:)上实现。该平台在中文自然语言处理领域有广泛应用,提供分词、词性标注、命名实体识别、短语识别等基本语言处理功能,其中,短语识别基于互信息与信息熵实现。研究利用该平台从“疾病描述”文本中抽取短语,并对组成短语的词项进行词性标注,将含有动词(包括动词、动词性惯用语 和不及物动词)、名词(包括名词、名动词、专有名词)和形容词(包括形容词 和名形词)的短语作为候选症状短语,短语抽取效果如表 所示。可以看出,候 年 月第 卷第 期基于在线医疗咨询文本的抑郁症症状短语的自动识别,选短语中有大量与抑郁症症状有关的叙述,后续识别任务即通过语义计算确立候选短语与抑郁症典型症状间的关系。表 候选症状短语提取(示例)示例疾病描述候选症状短语突然做梦梦到学校的事情。还有好朋友的背叛。导致重度抑郁症复发,我每天都处在焦虑中,我好怕下一秒自己就和别人一样跳楼解脱好朋友的背叛、抑郁症复发、跳楼解脱、做梦、怕跳楼、突然做梦、导致抑郁症、梦到学校、焦虑中、学校事情长期抑郁焦虑暴躁失眠,有自残现象,轻微幻听抑郁焦虑、暴躁失眠、焦虑暴躁、轻微幻听、自残现象、长期抑郁和家里有口角,心理压力大,情绪低落,有自残现象,自己觉得控制不住害怕自己,哭。觉得心口有东西压着心口东西、觉得心口、自残现象、东西压着、家里口角、不住害怕、控制不住、觉得控制心情非常低落,对任何事情不感兴趣,食欲减退,萎靡不振。在网上做过相关测试,结果为中度抑郁症事情不感兴趣、非常低落、心情非常、相关测试、网上做、做相关 症状识别要确立候选短语与抑郁症典型症状的语义关联,语义模型的选择是关键。研究选用了、和 个语义模型对抑郁症症状短语向量化。是经典的词向量模型,成功运用在各种自然语言分析任务中,完成了从词袋到词向量语义特征表示的跨越。是 的文档级模型。考虑到本研究中,抑郁症症状采用短语表达,模型可能更合理。是目前自然语言处理领域最流行的语言模型,它通过在大规模语料上采用()机制和掩码语言模型(,)做预训练任务,能够使模型学到丰富的语义知识,具备理解文本深层语义的能力。尽管如此,在句子对回归等任务(如文本相似度计算,语义聚类)上,原生 需将句子拼接后输入模型,再通过带有自注意机制 的 网络进行预测,这导致巨大的计算开销,在语义相似度搜索等任务上的表现并不理想。为此,等对 结构进行修改,他们使用孪生网络或 胞胎网络()生成维度固定的语句向量,语义相近的语句,语句向量的空间距离接近,通过余弦相似度、欧式距离计算能够快速找到语义相近的语句,这就是 的构建原理。相较原生,在不影响准确性的同时,能够大幅提升计算效率(计算余弦相似度大概为 秒),特别适用于文本相似度计算、文本聚类等无监督机器学习任务。的结构如图 所示。两个语句 和 通过共享参数的 模型生成它们的字向量(),再传入池化层()进行平均池化操作,得到固定维度的句向量 和。然后计算 和 的余弦相似度(,),并输出。微调过程中均方误差(,)为损失函数。在 等的实验中,文本语义相似度计算的评测语料是语义文本相似计算(,)任务的数据,这些数据是成对带类标的语句,类标标识了语句间的关系,取值范围为。评测实验直接用训练好的模型计算语句对的相似度,然后通过皮尔曼等级相关系数评测模型优劣,结果显示,相较原生,表现最佳。本研究要计算种子词与候选症状短语之间的语义相似度,分别采用了、和 个模型对候选症状短语和种子词向量化,再计算候选症状短语与每类种子词的语义相似度,见式()。其中,为候选症状短语向量,对应症状类,为候选症状短语 与种子词 的余弦相似度。依据式()分别计算候选词 与 年 月第 卷第 期现 代 情 报 ,图 模型(回归结构)每个症状类(,)的相似度,若相似度的最大值满足阈值设定,指定相似度最大的类 为候选症状 的类别。(,)(,)()实验与结果 语料库构建 数据源与数据采集“好大夫在线”(:)是国内领先的在线医疗平台。据最新统计,该平台收录了国内 万多家正规医院的 万名医生的信息,累计服务量超过 万人次。问诊记录规模在国内在线医疗平台中名列前茅。基于该平台的数据质量及在医疗服务领域的权威性,本研究将其作为数据源,采集了“好大夫在线”近 年问诊记录百万余条,其中 条记录来自精神科、心理咨询科和神经内科,从中筛选出抑郁症医疗咨询记录 条。每条记录包含疾病描述、疾病名、患者性别、年龄、病程等字段。其中,“疾病描述”为文本型字段,是患者面对医生针对个人病情的详细陈述,为患者问诊的主要内容。本研究选择该字段内容提取患者的病征、情绪、心理状态和行为,数据采集样例如图 所示。图 数据样例采集页面截图 抑郁症预测评测语料抑郁症预测评测语料用于检验抑郁症人群的自动识别效果。研究采用关键词匹配策略从问诊记录中提取确诊信息,并对语料做标注。具体步骤如下:年 月第 卷第 期基于在线医疗咨询文本的抑郁症症状短语的自动识别,首先对“疾病描述”的内容进行分词,剔除单个字词语、数字、标点符号及过短(文本长度)记录,获得抑郁症问诊记录 条。算法遍历每条记录内容,依据匹配规则,提取确诊信息。例如:“今天去了北京安定医院诊疗。做了心理评估,结果为轻度抑郁。”,由此断定问诊者患“轻度”抑郁症,将其问诊记录标注为“轻度”。完成初始标注后,进行抽样检查,发现部分确诊情况只是患者推测,如“感觉有轻 中 重度抑郁”,故设定“非确诊”规则对初标注语料进行二次梳理与核查,最终获得带抑郁症程度标记的语料 条,其中,重度抑郁 条,中度抑郁 条,轻度抑郁问诊记录 条。另外,从非精神类疾病的问诊记录中随机抽取 条,归为“非抑郁”,“非抑郁”疾病涵盖多种疾病,这些疾病在生理层面与抑郁症可能存在类似症状,如“头痛”“乏力”,但精神情志层面与抑郁症应有显著差异。将这类问诊记录与抑郁症问诊记录进行整合,分成“轻度、中度、重度、非抑郁”组,共计 条,语料命名为。抑郁症症状识别评测语料研究采用、和 个语义模型表示症状短语,抑郁症症状识别语料用于评测 个模型的性能表现。语料标注采用人工方式,从抑郁症患者的 条问诊记录中随机抽取 条,对照抑郁症症状分类体系,如表 所示,对“疾病描述”文本中提及的候选症状短语进行人工归类,示例如表 所示。形成一个小规模的评测语料集。表 测评语料标注示例示例病情描述标注症状类别和家里有口角,心理压力大 情绪低落 有自残现象 自己觉得控制不住害怕自己 哭 觉得心口有东西压着情绪低落(类别)有自残现象(类别)哭(类别)害怕自己(类别)情感问题出现轻度抑郁症状,夜里做噩梦,凌晨惊醒无法入睡,不愿意出门,不愿意社交活动,开始有自主愿望想进行心理治疗,但是又反复不愿意去,家属如何才能动员他去医院或者是诊所治疗?做噩梦(类别)无法入睡(类别)不愿意出门(类别)不愿意社交活动(类别)抑郁症症状识别模型采用 的症状短语识别方法,在 上 进 行 实 验。和 基 于 条来自精神科、心理咨询科、神经内科的问诊记录构建。个语言模型的参数设置如表 所示。另外,依据算法,在确定候选短语 的症状类别 时,要求 与 的相似度超过阈值。研究将 作为参数,通过实验确定,如图()、图()所示。表 模型参数设置模 型参数及取值算法 算法 预训练模型 窗口大小 窗口大小 向量维度 最小词频 最小词频 使用库 学习率 学习率 向量维度 向量维度 库 库 年 月第 卷第 期现 代 情 报 ,图 基于不同模型的症状识别算法的性能比较 评测指标是识别 类症状短语的准确率、召回率和 值的微平均值。如图()所示,模型 和 的表现优于。当 ,时,和 的 值接近,分值最高。细分 的实验结果见图()。整体观察,当 时,的表现最好,值为 ,略优于 的最好表现()。准确率指标上,最好达到 ,高 个百分点,表明 的错误率更低。但召回率指标上,为 ,低于(召回率 )。权衡两个模型,研究认为对于疾病症状识别任务,在语料相对充足的前提下,准确率更重要。因此,后续采用 表示短语,阈值 设定为 。因该评测语料规模相对较小,症状识别算法的实效在抑郁症患者典型特征分析和抑郁预测两个任务上将做进一步检测。抑郁症典型症状分析将 的抑郁症症状识别算法应用于。针对不同抑郁程度的病人,抽取“疾病描述”中的症状短语进行统计。图 展示了“轻度,中度,重度”组患者问诊记录中症状短语的分布情况。总体观察,严重困扰抑郁症患者的 类症状分别是心境低落(类)、睡眠障碍(类)和精力下降(类),类症状的出现频率显著高于其他症状;而不同抑郁程度的患者,类症状出现频率差异不大,说明心境低落、睡眠障碍和精力下降是抑郁患者的共有表现。但图 揭示出,随着患者病情加重,兴趣和愉快感丧失(类)、自伤或自杀观念行为(类)、食欲下降(类)症状的提及率逐步上升,尤其轻度、中度和重度患者问诊记录中有关“自伤或自杀观念行为(类)”的短语的提及率有显著差异,说明“自伤或自杀观念行为”的出现是抑郁严重度诊断的重要依据,严重抑郁伴随着极端行为的发生,这一结论与临床检测量表的测度依据一致,从一定程度上检验了症状识别算法的效力。根据症状识别抑郁人群该实验通过建立抑郁症预测模型明确抑郁症人群的典型特征,进一步检验本文提出的症状识别算法的实效。根据 类症状创建 个特征变量,若“疾病描述”中提及了某类症状,则对应的特征变量赋,否则为,即将病情描述文本转换为 维的 矢量,以症状矢量为输入,预测问诊者是否为确诊病人。预测模型选用了分类性能优异,并能够进行特征重要性分析的 集成树算法。以 为实验数据,按划分为测试集和训练集。在训练集上采用五折交叉验证的网格搜索法确定重要参数,参数取值及最优参数结果如表 所示,采用最优参数模型对测试集的问诊记录做预测。结果如表 所示,二分类模型的 值达到 ,精确率和召回率接近,均在 以上,模型整体表现较理想。对抑郁患者的识别能够达到精确率 年 月第 卷第 期基于在线医疗咨询文本的抑郁症症状短语的自动识别,(),高于非抑郁患者(),说明基于症状特征构建的预测模型能较好区分抑郁与非抑郁症患者。图 不同抑郁程度患者的症状频率分布表 算法调参设置参 数参数意义参数调节范围说 明最佳取值学习率,该参数控制每次迭代更新权重时的步长 树的深度,该参数用于防止过拟合问题最小实例数,该参数指叶节点继续分裂所需的最小样本权重最小损失减少量,该参数指叶节点继续分裂所需的最小损失函数下降值 表 基于 模型预测抑郁症结果类 别精确率()召回率()值()非抑郁人群 抑郁人群 总体 同时计算出 类症状特征变量的相对重要度。特征重要度反映各特征项在预测任务中的贡献,据此也可揭示抑郁症人群的典型症状。结果如图 所示,心境低落(类)、睡眠障碍(类)、自伤或自杀的观念或行为(类)类症状是诊断抑郁症的重要因素,基于 的特征重要度排名与抑郁症典型症状特征分析结果一致。心境低落(类)、睡眠障碍(类)是患者提及率最高的症状,特别是心境低落(类),其重要度远高出其他 个变量。这两个症状也是抑郁症诊断标准 列出的抑郁症主要特征。自伤或自杀的观念或行为(类)是区分抑郁程度的重要线索,同样也是临床判断病患病况的关键信息。这些与临床抑郁症诊断标准相吻合结论,间接验证了本文抑郁症状自动识别算法的有效性。研究结论与局限 研究结论本研究利用心理学领域的抑郁症测度量表,运用自然语言处理及深度学习建模技术,以无监督机器学习方法实现了基于患者在线问诊记录的抑郁症症状的自动抽取。基于抽取的疾病症状,对不同抑 年 月第 卷第 期现 代 情 报 ,图 模型特征重要度分布图郁程度的患者进行了典型症状分析,并实现抑郁症人群的自动检测,检验了本文抑郁症症状识别算法的有效性。主要结论归结为以下两点:方法层面,在评测语料上,本文提出算法的症状识别精度为 。应用该算法分析抑郁症患者典型特征、识别抑郁症人群,结果与临床诊断标准基本一致,验证了算法的可行性与合理性。症状短语的语义建模实验比较了 个深度学习模型,、和,具有深层次语义表达能力 整体表现最佳,表明强化短语的语义表示,用无监督的机器学习方案也能够有效识别疾病症状。应用层面,从患者问诊记录中的“疾病描述”中提取抑郁症症状,应用描述统计和集成树算法 对抑郁症群体的典型症状进行分析。描述统计得出的结论是,心境低落、睡眠障碍和精力降低是抑郁症患者的共有症状,兴趣和愉快感丧失、自伤或自杀观念行为、食欲下降是中 重度病患的典型表现。抑郁症人群的预测实验则揭示,心境低落、睡眠障碍、自伤或自杀的观念或行为是诊断抑郁症的 个主要依据。这些依据在线医疗文本数据得出的结论与临床心理学的抑郁症诊断标准相吻合,说明本方案在实际应用中能为医生快速诊断病情提供有价值的参考,而检测手段的自动化将有助于提升医疗平台对危重患者的响应能力,采取有效的干预措施,降低病症带给人类健康的危害。研究局限和后续研究思考本研究有 点不足,为后续工作提供了研究思路:本研究重点分析医疗咨询文本中患者疾病症状的显性表达,用短语描述症状,尽管运用了语义模型,但语句的上下文信息并未纳入模型,这可能导致抑郁症的某些症状表述未能提取,从而对抑郁症人群识别模型的预测精度产生影响。后续考虑直接利用疾病描述本文建模,基于隐性表达的特征预测抑郁症发生风险,并与本文模型进行对比;因症状短语的标注成本较高,症状识别评测语料规模偏小。本研究通过两个下游任务检测算法,后续将扩大评测语料的规模,进一步优化算法;将症状提取结果应用于检测抑郁人群,以实现抑郁症早期发现,而抑郁严重程度预测将有助于实施个性化治疗,这将成为未来的另一探索方向。参考文献 ,:,人民日报健康客户端,健康时报,抑郁研究所,等 国民抑郁症蓝皮书 :,():,“”:,:,():,():年 月第 卷第 期基于在线医疗咨询文本的抑郁症症状短语的自动识别,():王若佳,赵常煜,王继民 中文电子病历的分词及实体识别研究 图书情报工作,():郑强,刘齐军,王正华,等 生物医学命名实体识别的研究与进展 计算机应用研究,():,叶枫,陈莺莺,周根贵,等 电子病历中命名实体的智能识别 中国生物医学工程学报,():,():,:,:,():,():,:,():,:,:,:,:,:,:,:,:,:,:,:,:,(),:,:,:,好大夫在线简介 :,唐晓波,刘亚岚 基于 语义表示的咨询问题提示列表自动构建方法研究 以糖尿病咨询为例 现代情报,():陈美杉,夏晨曦 肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法 数据分析与知识发现,():,:,:(责任编辑:陈 媛)年 月第 卷第 期现 代 情 报 ,