温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
OCC
模型
情绪
诱因
颗粒
识别
方法
研究
沈丽宁
研究论文数据分析与知识发现研究论文基于OCC模型和情绪诱因事件抽取的细颗粒度情绪识别方法研究*沈丽宁1,2 杨佳艺1 裴家旋1 曹广1 陈功正11(华中科技大学同济医学院医药卫生管理学院 武汉 430030)2(湖北省卫生技术评估研究中心 武汉 430030)摘要:【目的】从情绪诱因事件角度丰富传统细颗粒度情绪分析中的事件逻辑。【方法】分析OCC模型中的情绪生成规则和条件,利用事件抽取和文本分类方法生成二元组。【结果】研究构建了情绪生成规则,情绪类别划分具有理论基础。模型能够有效识别情绪诱因事件(F1=0.933 8)及情绪(F1=0.963 7),生成二元组(F1=0.889 2),实现事件级细颗粒度情绪分析。【局限】情绪生成规则结构简单,难以体现网民情绪的多样性。现阶段构建的语料集存在领域局限性,每条语料只包含一种类型情绪诱因事件。【结论】借助OCC模型将事件评价和情绪相关联,让情绪识别更接近人类思维方式。模型的理解性和迁移性较强,提升了现有研究中情绪对象的粒度层次,为文本情绪分析领域研究提供新思路。关键词:OCC模型 细颗粒度情绪分析 情绪诱因 事件抽取 深度学习分类号:TP391DOI:10.11925/infotech.2096-3467.2022.0957引用本文:沈丽宁,杨佳艺,裴家旋等.基于OCC模型和情绪诱因事件抽取的细颗粒度情绪识别方法研究J.数据分析与知识发现,2023,7(2):72-85.(Shen Lining,Yang Jiayi,Pei Jiaxuan,et al.A Fine-Grained Sentiment Recognition Method Based on OCC Model and Triggering EventsJ.Data Analysis and Knowledge Discovery,2023,7(2):72-85.)1 引 言在文本分析领域,情感分析(Sentiment Analysis)1 是一种常见的自然语言处理方法的应用,它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理,利用一些情感得分指标量化定性数据的方法。文本情感分析的应用非常广泛,如应用在购物网站2、网络舆情3等方面,为其提供决策支持和信息预测。从文本分析的粒度层次来看,情感分析可分为关注篇章及句子级的粗颗粒度研究和关注对象和属性的细颗粒度研究。随着组织和个人的要求越来越高,情感分析的粒度层次正逐步向细颗粒度分析层面发展4。目前的细颗粒度情感分析是对句中的对象进行情感分析,主要分为两类5:实体级情感分析通讯作者(Corresponding author):沈丽宁(Shen Lining),ORCID:0000-0002-7311-8777,E-mail:。*本文系华中科技大学自主创新研究基金(人文社科)项目(项目编号:2019WKYXZX011)的研究成果之一。The work is supported by the Huazhong University of Science and Technology Independent Innovation Research Fund(Humanities and Social Sciences)(Grant No.2019WKYXZX011).和方面级情感分析(Aspect-Based Sentiment Analysis,ABSA),这两类研究的基本思路均是先识别出给定文本中的预定义的实体或方面词,再对其划分情感类别。在这个过程中,主要存在三个问题:(1)大部分研究通常将情感主观笼统地分类为积极、消极、中性,情感类别划分的依据性差,颗粒度大。(2)情感类别划分缺乏心理学及认知科学的基础6-7。(3)基于实体和方面词的细颗粒度情感分析缺少事件逻辑,结果不够丰富。情绪相较于情感来说,多维度地描述了人的态度和心理,扩展了简单的情感类别,情绪分析逐渐成为当前学者研究的重点8。本文提出细颗粒度情绪分析的概念,即将细颗粒度情感分析中的单一情感倾向细化为多类情绪。相比于传统细颗粒度任务中的“实体”,事件是一种粒度更大的、动态的、具有现实场景的信息,人们通过事件和事件之间的关系认知和了解世界9,但从事件的角度进行情绪分析的研究尚不多见。1989年,Ortony等10提出了OCC模型(Ortony,Clore,Collins,OCC),从诱因事件和情绪两个角度建立情绪触发规则,从心理学和认知学的视角把事件与情绪生成过程结合起来。当前针对OCC模型的研究 11-14多是将其作为情绪划分的依据,而基于OCC模型和事件相结合的情绪分析研究欠缺深入挖掘。如何丰富细颗粒度情绪分析的研究对象,使结果更加具有语义及事件逻辑?如何更加科学地划分文本情绪,增加模型的可迁移性?本文针对上述两个问题,设计并实现了一种基于OCC模型和诱因事件抽取的细颗粒度情绪识别方法,并进一步对该方法的有效性和可行性进行了实验验证。该方法继承并发展了细颗粒度情绪分析,同时为文本情绪分析领域研究提供了新的模式和思路,从情绪产生的认知角度出发,提高了模型的可解释性。2 相关工作结合本文的研究目的,主要从事件与细颗粒度情绪分析、情绪模型、相关技术三方面对相关研究进行梳理归纳。2.1事件与细颗粒度情感分析相关研究情感是对外界环境的主观反应。当情感产生时,个体可以通过表情、肢体动作等外部特征展现,也可以通过文字、音乐等人文载体进行表达。针对文本载体的情感分析相关研究中,情感对象粒度逐步由早期的篇章15、句子16,演变到近年热门的实体和方面属性粒度研究17,情感分析粒度逐渐细化。传统的细颗粒度情感分析任务主要是提取文本中的方面词和情感词,然后对其分类,相比于实体或方面,事件是一种粒度更大的、动态的、具有现实场景 的 信 息。ACE(Automatic Content Extraction,ACE)自动内容抽取会议将事件(Event)18定义为:发生在某个特定时间点或时间段,某个特定地域范围内,由一个或多个角色参与的一个或多个动作组成的事情或状态的改变。目前研究通常将事件和情感倾向相结合进行分析,主要分为两方面:一是针对某个特定公共事件的舆情分析;二是对检测出的多类事件进行情感分析。(1)特定公共事件的舆情分析通常从网民的情感变化特征、情感波动影响因素、情感图谱等方面进行探究。黄仕靖等19以新冠疫情事件为背景,基于微博平台针对事件演变的不同阶段、不同群体特征(年龄、地区、性别等)的网民情感进行舆情主题分析和时空差异分析,从多个角度对每个阶段网民的情感特征进行了探讨。仇丽青等20针对突发事件中负面网络舆情传播的问题,提出了一种基于情感分析和影响力评估的突发事件情感图谱研究方法,以“7.7安顺公交车坠湖事件”为例,采用基于多头自注意力机制和双向长短期记忆网络(Bi-directional Long Short-Term Memory,Bi-LSTM)的情感分析模型计算用户的情感倾向,采用融合加权度与K-shell值的节点影响力评估算法评估用户的影响力,从而综合构建突发事件的情感图谱。(2)多类型事件的情感分析通常从整体文本数据的角度进行事件分类和抽取,再与情感进行关联分析。刘忠宝等21从微博新闻中抽取捐赠、临床、防控、英雄四大类疫情事件并建立疫情事件画像,并依据微博评论语料计算网民情感强度,最后通过二者的关联分析进行可视化展示。Patil 等22构建了72总第 74 期 2023 年 第 2 期Data Analysis and Knowledge Discovery和方面级情感分析(Aspect-Based Sentiment Analysis,ABSA),这两类研究的基本思路均是先识别出给定文本中的预定义的实体或方面词,再对其划分情感类别。在这个过程中,主要存在三个问题:(1)大部分研究通常将情感主观笼统地分类为积极、消极、中性,情感类别划分的依据性差,颗粒度大。(2)情感类别划分缺乏心理学及认知科学的基础6-7。(3)基于实体和方面词的细颗粒度情感分析缺少事件逻辑,结果不够丰富。情绪相较于情感来说,多维度地描述了人的态度和心理,扩展了简单的情感类别,情绪分析逐渐成为当前学者研究的重点8。本文提出细颗粒度情绪分析的概念,即将细颗粒度情感分析中的单一情感倾向细化为多类情绪。相比于传统细颗粒度任务中的“实体”,事件是一种粒度更大的、动态的、具有现实场景的信息,人们通过事件和事件之间的关系认知和了解世界9,但从事件的角度进行情绪分析的研究尚不多见。1989年,Ortony等10提出了OCC模型(Ortony,Clore,Collins,OCC),从诱因事件和情绪两个角度建立情绪触发规则,从心理学和认知学的视角把事件与情绪生成过程结合起来。当前针对OCC模型的研究 11-14多是将其作为情绪划分的依据,而基于OCC模型和事件相结合的情绪分析研究欠缺深入挖掘。如何丰富细颗粒度情绪分析的研究对象,使结果更加具有语义及事件逻辑?如何更加科学地划分文本情绪,增加模型的可迁移性?本文针对上述两个问题,设计并实现了一种基于OCC模型和诱因事件抽取的细颗粒度情绪识别方法,并进一步对该方法的有效性和可行性进行了实验验证。该方法继承并发展了细颗粒度情绪分析,同时为文本情绪分析领域研究提供了新的模式和思路,从情绪产生的认知角度出发,提高了模型的可解释性。2 相关工作结合本文的研究目的,主要从事件与细颗粒度情绪分析、情绪模型、相关技术三方面对相关研究进行梳理归纳。2.1事件与细颗粒度情感分析相关研究情感是对外界环境的主观反应。当情感产生时,个体可以通过表情、肢体动作等外部特征展现,也可以通过文字、音乐等人文载体进行表达。针对文本载体的情感分析相关研究中,情感对象粒度逐步由早期的篇章15、句子16,演变到近年热门的实体和方面属性粒度研究17,情感分析粒度逐渐细化。传统的细颗粒度情感分析任务主要是提取文本中的方面词和情感词,然后对其分类,相比于实体或方面,事件是一种粒度更大的、动态的、具有现实场景 的 信 息。ACE(Automatic Content Extraction,ACE)自动内容抽取会议将事件(Event)18定义为:发生在某个特定时间点或时间段,某个特定地域范围内,由一个或多个角色参与的一个或多个动作组成的事情或状态的改变。目前研究通常将事件和情感倾向相结合进行分析,主要分为两方面:一是针对某个特定公共事件的舆情分析;二是对检测出的多类事件进行情感分析。(1)特定公共事件的舆情分析通常从网民的情感变化特征、情感波动影响因素、情感图谱等方面进行探究。黄仕靖等19以新冠疫情事件为背景,基于微博平台针对事件演变的不同阶段、不同群体特征(年龄、地区、性别等)的网民情感进行舆情主题分析和时空差异分析,从多个角度对每个阶段网民的情感特征进行了探讨。仇丽青等20针对突发事件中负面网络舆情传播的问题,提出了一种基于情感分析和影响力评估的突发事件情感图谱研究方法,以“7.7安顺公交车坠湖事件”为例,采用基于多头自注意力机制和双向长短期记忆网络(Bi-directional Long Short-Term Memory,Bi-LSTM)的情感分析模型计算用户的情感倾向,采用融合加权度与K-shell值的节点影响力评估算法评估用户的影响力,从而综合构建突发事件的情感图谱。(2)多类型事件的情感分析通常从整体文本数据的角度进行事件分类和抽取,再与情感进行关联分析。刘忠宝等21从微博新闻中抽取捐赠、临床、防控、英雄四大类疫情事件并建立疫情事件画像,并依据微博评论语料计算网民情感强度,最后通过二者的关联分析进行可视化展示。Patil 等22构建了73研究论文数据分析与知识发现SegAnalysis框架用来检测推特社交媒体的事件,该框架首先进行推特数据分割,再通过朴素贝叶斯算法分类分析该推特是否包含事件,接着进行在线聚类分析自动形成事件群,然后评估该事件的情感倾向。2.2OCC模型相关研究1989年Ortony等10提出了一种认知评价理论,称为OCC模