分享
基于平滑采样和改进损失的不平衡文本分类_梁健力.pdf
下载文档

ID:2372773

大小:881.81KB

页数:8页

格式:PDF

时间:2023-05-10

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 平滑 采样 改进 损失 不平衡 文本 分类 梁健力
第 卷第期湖北工业大学学报 年 月 收稿日期 第一作者梁健力(),男,广东佛山人,湖北工业大学硕士研究生,研究方向为数据挖掘 通信作者商豪(),女,湖北罗田人,湖北工业大学副教授,研究方向为随机分析与算法 文章编号 ()基于平滑采样和改进损失的不平衡文本分类梁健力,商豪(湖北工业大学理学院,湖北 武汉 )摘要在不平衡数据下,文本分类模型容易把样本数量较少的类别错分成数量较多的类别。在采样层面上提出一种平滑采样方法,在损失函数层面上根据不平衡分布改进交叉熵损失和标签平滑。复旦文本数据集上的实验表明,每种层面的改进都较基准模型有一定提高。当结合使用采样和损失函数的改进时,、和模型在宏平均值上分别提高、和,在 上分别提高、和,较好解决了不平衡数据下文本分类任务。关键词文本分类;不平衡比例;平滑采样;损失函数 中图分类号 文献标识码文本分类是自然语言处理领域中一项基础又重要的任务,可用于情感分析、新闻分类和意图识别等应用场景,也可以为搜索、排序等大型的复杂系统提供技术支持。从传统的手工特征结合分类器的机器学习时代,再到使用循环神经网络()、卷积神经网络()和大规模预训练语言模型()对数据进行自动学习的深度学习时代,模型不断被创新和优化,文本分类效果得到了飞跃性的突破。例如,汲取 元语法()的思想,使用不同大小的卷积核来捕捉句子中的局部信息,取得了当时文本分类最好的结果。在双向长短时记忆网络()的基础上,使用卷积核在通道维度上进行卷积运算,并通过时序全局最大池化获取重要特征。带注意力机制的双向长短时记忆网络()在充分利用 的时序建模优良性的同时,使用长短时记忆网络()和注意力机制来缓解梯度消失的问题,进一步提升模型的效果。模型利用注意力机制,从单词层面和句子层面对文档进行分类,从而捕捉句子中的重要词汇以及文档中的重要句子,获取较好的分类效果。然而,文本分类性能的提升与训练数据的质量、规模以及类别平衡性有着一定的关系。当出现数据标签不平衡时,由于每个训练样本对目标函数的贡献均等,模型在学习过程中会主动偏向样本数量较多的类别标签。一方面相当于模型对多数类别有着更大的权重,另一方面也意味着模型对多数类别过拟合。但测试阶段所采用的评价指标对多数类别与少数类别都同等看待,最终导致在类别不平衡的场景下,训练结果与实际的测试结果相差甚远。由于现实收集的数据基本都存在类别不平衡的现象,需要进一步研究在类别不平衡场景下的文本分类。过去机器学习和深度学习时代,主要通过种方式来处理类别不平衡的问题,即对原始数据进行重抽样 、修改损失函数 以及采用集成学习算法。在采样方法上,本文利用数据的不平衡比例,基于指数平滑的思想,提出了一种降低数据不平衡度的平滑重抽样方法;在损失函数上,以不平衡分布来改进标签平滑以及交叉熵损失,提出了一种结合不平衡分布和标签平滑的交叉熵损失函数以提升文本分类的效果。同时结合采样方法和在损失函数上的改进,深度学习模型对不平衡数据的分类能力得到进一步提升。方法设计采样方法在过去,无论是机器学习中的经典采样方法,还是深度学习中的数据增强方法,对不平衡数据采样后是否配平并没有统一的定论。有的学者采用完全配平的方式来完成样本的重抽样,有的则认为这种配平方式可能会损害最终的分类效果。所以,在采样后保持多大的不平衡比例仍然是一个需要深入研究的问题。但总体来看,增加数据量、降低数据的不平衡度对文本分类效果有一定增益。指数平滑多用于时间序列,其是对历史观测值按时间进行加权平均作为当前时间的预测值。虽然训练数据的不平衡比例序列和时间并没有关联,但由于指数平滑具有一定的平滑数据功能,能够在降低不平衡比例的同时,保证平滑后的类别不平衡度与平滑前有相似的分布。本文提出的平滑采样方法的定义如下:假设原始数据有个类别,记为,。记为第个类别的样本数量,其中取,可定义各类别的不平衡比例如下:(,)对于个 类 别 可 得 到 长 度 为的 不 平 衡 序 列,将该序列从小到大排序得到有序的不平衡序列,根据指数平滑思想计算不平衡序列的平滑值,其中取,:,(),修正平滑值,其中取,:根据修正后的平滑值与原始的不平衡比例,可计算各类别中欠采样(式()与过采样(式()的比例,其中 是指个欠采样比例的最小值,且取,:()()由于式()并不能保证过采样比例大于,因此对过采样比例进行修正,使得修正后的过采样比例恒大于。损失函数在深度学习模型训练中,由于需要使用损失函数根据正向传播的结果计算出误差,再进行反向传播实现梯度更新,因此模型的效果往往跟选用何种损失函数有一定关系,好的损失函数可能会带来性能上的提升。在文本分类问题上,一般采用交叉熵损失,其具体定义如下:()?()()假定训练数据中有个类别,一个批的样本数量为,记类别的独热编码向量为 ,其具体形式为(),(),()。使用()来代表批中第个样本是否属于第个类别,其中(),。而?()表示该样本属于第个类别的预测概率。由于交叉熵损失对多数类样本和少数类样本的错误同等看待,为了使模型在训练过程中更加关注少数类别,本文根据训练数据的不平衡分布对交叉熵损失进行改进,记原始数据或采样数据的类别不平衡比例为,对于改进后的带不平衡分布的交叉熵损失 ()?()此外,为了防止模型在训练过程中对标签的预测过于自信,本文还对损失函数引入标签平滑 的正则化方式。其结合均匀分布的思想来修改传统的独热编码向量,可以减少类内距离,增加类间距离,从而提升模型的泛化能力。记为平滑值,标签平滑的具体形式为:(),(),()但在不平衡数据中,各类别标签的分布并不均匀,因此本文使用数据不平衡比例对标签平滑进行改进。首先利用原始的不平衡比例序列 求出用于标签平滑的不平衡比例序列(),其具体形式如下:(),对不平衡序列()进行归一化处理,可得到改进后的标签平滑向量 ,其元素值(),()(),()结合式()和式(),可得到用带不平衡分布的标签平滑来改进交叉熵损失的形式:(),?()最后将带不平衡分布的交叉熵损失和带改进标签平滑的交叉熵损失加权平均,得到本文最终提出的损失函数,其具体形式如下:()其中是需要调节的超参数。当等于时,该损失函数退化为带不平衡分布的交叉熵损失;当等于时,该损失函数退化为带改进标签平滑的交叉熵损失。湖北工业大学学报 年第期实验设置实验数据集实验数据集主要采用复旦大学的文本分类语料库,其包含 个训练文档与 个测试文档,并涵盖了 个主题类别。其中,原始数据中各类别的样本数量和文档长度差异较大,数量不平衡比例高达。此外,数据集中有大量的重复数据,且部分文档并没有包含实质性的内容。因此,本文先对原始数据集进行数据清洗,并提取文档中的正文部分进行分析。清洗后的训练集和测试集包含 和 个文档,训练数据的不平衡比例降为 。训练集清洗前后的数量和文档字符长度分布如图所示。()原始训练数据集的类别分布比例()清洗训练数据集的类别分布比例()原始训练数据集的字符长度分布()清洗训练数据集的字符长度分布图训练集清洗前后数量和字符长度分布此外,在模型训练和测试前,还需要对文本进行分词和去除停用词。本文使用 分词工具对清洗后的训练集和测试集进行分词,并引入停词表对其进行去停词处理。评价指标准确率()是衡量模型好坏的标准之一。但当数据是类别不平衡或者不同类别的错误所造成的后果不同的时候,准确率这一指标实际并不适用。通常来说,模型的分类性能应综合使用查全率和查准率进行度量。此外,也有学者建议使用 来度量模型在不平衡数据中的表现。因此,本文将把宏和 作为主要的性能评价指标,多分类情况下的性能指标定义如下:假设数据集中有个类别,为分类的混淆矩阵,为该矩阵中的第行第列的元素,其中,。记.,.,可计算各类别中真正例()、假 正 例()、真 反 例()、假 反 例()向量:(),.().(),()根据、和 可计算宏查准率()、宏查全率()和宏特异度()向量为:根据向量 、和 可计算得到本文使用的宏和 :文本分类模型为了呈现改进方法的效果,本文将使用 、和 等几个较先进的深度学习模型来进行实验。)设置 模型的输入序列长度、词向量维度、隐藏层单元数和隐藏层数量分别为 、和。第 卷第期梁健力,等基于平滑采样和改进损失的不平衡文本分类)对于 模型,本文使用窗宽为、的卷积核来提取特征,每组不同卷积核的输出维度都为 。此外,设置模型输入的序列长度为 ,词向量维度为 ,模型的输入维度为 。其中,模型的输入由两组序列词向量合并而成,一组为固定的词向量,一组随着模型的训练而更新。)本文设置 模型的输入序列长度为 ,词向量维度为 ,模块的隐藏层单元数和隐藏层数量分别为 和,卷积模块的输出维度为 。其中将 模块的输出和原始序列的词向量在通道维度上进行连接,作为卷积模块的输入。)本文设置 模型的单个文档中的最大句子数和句子中的最大单词数分别为、,双向门控循环神经网络()模块的隐藏层单元数和隐藏层数量分别为 和。由于复旦文本数据集中的文档字符长度不一,因此,本文对较短的文档进行补,对较长的文档从中间进行截取。在将文本转化成词向量的过程中,采用预训练的腾讯词向量,其词向量维度为 。在训 练过程中,采 用学习率 衰减 的 方法,每 更 新 步时进行一次衰减。此外,各种模型的输出节点数都为,的概率采用,激活函数皆采用 。实验结果和分析为了单独呈现采样方法的效果,本文还将利用、和 来进行特征提取,并在经过不同采样处理的数据集上建模。在采样方式上,本文分别进行随机欠采样、随机过采样和回译过采样三种实验;在采样比例上,本文采用 、和 等种采样平滑值,并与原始比例以及完全配平的数据集实验结果进行对照。为了避免其他数据增强方法对实验结果的干扰,表仅展示种模型在不同随机过采样比例上的具体表现,其余采样方式的实验结果如图所示。其中,种模型对比系统如下。):使用词袋模型表示文本,特征维度为 ,并用逻辑回归()和随机森林()对文本进行分类。):使用词频逆词频表示文本,特征维度为 ,并用支持向量机()和极端梯度提升树()对进行文本分类。):使用概率主题模型将文本映射到低维空间向量,再用 和 进行分类,其中主题个数为 。):先采用有监督方式直接进行文本分类,再使用无监督的方法生成文本词向量,并用 和 进行分类。由表可以看出,种模型系统的最佳结果皆在非原始比例数据集上取得。其中,完全配平的采样方式更倾向于在、等稀疏的向量表示空间上取得更好的效果,但在 、等稠密的低维空间上的表现甚至比原始比例数据集的效果差。这表明虽然不平衡比例的降低和样本数量的增加会对模型效果有一定增益,但完全配平的方式会极大改变原始数据分布,可能会导致模型性能下降。此外,随着采样比例的调整,本文提出的采样方法在种模型系统上均取得比原始比例更好的效果。在、和 三种模型系统中,对比采样平滑值 和 的结果,可发现后者都有一 定 的 提 升,但 其 不 平 衡 比 例 从 下 降 到 ,数据量却基本保持不变,表明适当降低不平衡比例可能会给模型带来提升,尤其是在低维稠密的向量空间中。表种模型在不同随机过采样比例下的宏值 不平衡比例 训练样本数量 图 显示不同采样平滑值下各类别不平衡比例的变化情况。相比于完全配平,该采样方式在降湖北工业大学学报 年第期低不平衡比例的同时,仍保持与原始数据相似的分布。从图 可以看出,在绝大部分实验模型中,欠采样会极大地损害模型的性能,这是由于样本数量的锐减使得文本中的重要信息缺失,从而导致分类效果的下降。而图 和则表明,在过采样时,采用回译等其他增强方式可能会降低直接随机复制样本带来的过拟合风险,从而进一步提升分类的效果。图不同改进采样方法在复旦数据集上的实验结果为了进一步说明平滑采样方法和带不平衡分布与标签平滑的损失函数的有效性,本文以 为基准,开展一系列的对比工作。表和表分别呈现使用预训练的腾讯词向量前后,改进的采样方法和损 失 函 数 较 基 准 方 法 的 提 升。其 中,和 分别表示仅使用交叉熵损失和带标签平滑的交 叉 熵 损 失 的 情 况;和 分别代表利用不平衡分布改进的交叉熵损失和标签平滑的情况;是指结合使用带不平衡分布的交叉熵

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开