1引言文本分类问题是自然语言处理领域的重要研究问题,可以进行主客观分类、舆情情感分析等。文本分类的模型也是比较多的,本文采用7种方法对中文文本进行二分类(正向情感、负向情感)或三分类(正向情感、中性情感、负向情感)研究对比,找到各种方法的优缺点,并将其应用到舆情情感分析等文本分类领域。2数据的准备我们从网络上收集了很多领域的评论数据,以及日常的微博数据,并对数据进行了预处理,去除多余的空格,表情符号,Html标签等。然后对这些数据进行标注,再将数据转换成各种模型能够识别的格式。模型在使用的时候把这些数据分成开发集(developmentset)和测试集(testset),开发集又分成训练集(trainingset)和开发测试集(developmenttestset)。本文中使用的开发集样本数是17130条,测试集样本数是4187条,此外,还收集了停用词典,情感词典(分为正向词典和负向词典),程度副词,否定词典等数据。3中文文本分类法3.1基于情感词典的分类法基于情感词典的分类法是对人类的记忆和判断思维的最简单模拟,人类会通过学习来记忆一些基本词汇,如否定词有“不”,积极词有“幸福”“骄傲”,消极词有“讨厌”,从而在大脑中形成一个基本的语料库,然后对输入的句子进行拆分,看看记忆的词汇表中是否存在相应的词,然后根据这个词的类别来判断情感。这里使用了一种比较简单的算法,将词语的权重值划分为四类,分别为P、N、DaP、DaN。P类型的词语权重值为1,包括积极词语、否定词+消极词语;N类型的词语权重值为-1,包括消极词、否定词+积极词语、积极词语+否定词;DaP类型的词语权重为2,包括程度副词+积极词语;DaN类型的词语权重为-2,包括程度副词+消极词语。并假定情感值满足线性叠加原理,最终算出的权重值在(-∞,+∞)范围内,越大说明越积极。为了方便划分类别,将最终的权重值放入sigmoid函数转换成(0,1)之间的数值。上述方法在测试集上进行测试,最终结果的准确率为60%。该方法存在的问题:(1)假设了所有积极词语、消极词语的权重值都是相等的,但我们知道中文文本本身带有非常丰富的感情色彩,同为积极/消极词语但语气程度可能是不同的;(2)对否定词和程度副词仅做了取反和加倍,但事实上,不同的否定词和程度副词的权重程度也是不同的;(3)假设了权重值是线性叠加的,但事实上,人脑情感分类是非线中文文本分类模型对比研究陈海红,司威,黄凤坡(赤峰学院数学与计算机科学学院,内蒙古赤峰024000)收稿日期:2022-10-09基金项目:赤...