第38卷第2期湖北工业大学学报2023年04月Vol.38No.2JournalofHubeiUniversityofTechnologyApr.2023■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■[收稿日期]2021-09-23[第一作者]梁健力(1996-),男,广东佛山人,湖北工业大学硕士研究生,研究方向为数据挖掘[通信作者]商豪(1982-),女,湖北罗田人,湖北工业大学副教授,研究方向为随机分析与算法[文章编号]1003-4684(2023)02-0033-07基于平滑采样和改进损失的不平衡文本分类梁健力,商豪(湖北工业大学理学院,湖北武汉430068)[摘要]在不平衡数据下,文本分类模型容易把样本数量较少的类别错分成数量较多的类别。在采样层面上提出一种平滑采样方法,在损失函数层面上根据不平衡分布改进交叉熵损失和标签平滑。复旦文本数据集上的实验表明,每种层面的改进都较基准模型有一定提高。当结合使用采样和损失函数的改进时,TextCNN、BiLSTM+At-tention、TextRCNN和HAN模型在宏平均F1值上分别提高4.17%、5.13%、5.06%和6.21%,在G-mean上分别提高6.56%、3.03%、3.92%和5.32%,较好解决了不平衡数据下文本分类任务。[关键词]文本分类;不平衡比例;平滑采样;损失函数[中图分类号]TP391[文献标识码]A文本分类是自然语言处理领域中一项基础又重要的任务,可用于情感分析、新闻分类和意图识别等应用场景,也可以为搜索、排序等大型的复杂系统提供技术支持。从传统的手工特征结合分类器[1-2]的机器学习时代,再到使用循环神经网络(RecurrentNeuralNetwork)[3-5]、卷积神经网络(ConvolutionalNeuralNetwork)[6]和大规模预训练语言模型(Pre-trainedLanguageModel)[7-8]对数据进行自动学习的深度学习时代,模型不断被创新和优化,文本分类效果得到了飞跃性的突破。例如,TextCNN[6]汲取N元语法(n-gram)[9]的思想,使用不同大小的卷积核来捕捉句子中的局部信息,取得了当时文本分类最好的结果。TextRCNN[10]在双向长短时记忆网络(BiLSTM)的基础上,使用1×1卷积...