基于
改进
TF
IDF
算法
语料
处理
计算机系统
方法
研究
海燕
收稿日期:2022-08-05基金项目:陕西省社会科学界联合会、2022 年度国际传播能力建设重点研究项目日本文学中的中国形象研究与学生文化自信培养 (2022HZ0857);西安翻译学院名实践项目日语翻译工作坊(SJ19A03)作者简介:魏海燕(1981-),女,陕西西安人,研究生,副教授。基于改进 TF-IDF 算法的日本文学语料处理计算机系统方法研究魏海燕,沈 进(西安翻译学院,西安 710105)摘 要:对日本文学进行语料处理,有助于快速提取具有一定价值的文本信息,从而方便阅读和理解。为此,基于深度学习算法,构建了日本文学语料处理模型。首先,利用改进 TF-IDF 算法进行情感语料分类;其次,结合卷积神经网络与自循环思想构建自循环 CNN 模型,以处理不等长语料的分类问题;最后,结合卷积神经网络与双向门控循环单元处理特定主题语料分类问题。综合上述内容,构建日本文学语料处理模型。经多次实验结果显示,该模型的分类准确率超过 90%,表明该模型能够有效实现日本文学的语料处理。关键词:TF-IDF 算法;卷积神经网络;语料处理;日本文学 中图分类号:TP273 文献标识码:A DOI 编码:10.14016/ki.1001-9227.2023.01.162Research on computer system method of Japanese literature corpus processing based on improved TF-IDF algorithmWEI Haiyan,SHEN Jin(Xian FANYI University,Xian 710105,China)Abstract:The processing of Japanese literature corpus is conducive to the rapid extraction of valuable text information,so as to facilitate reading and understanding.Therefore,based on the deep learning algorithm,a Japanese literature corpus pro-cessing model is constructed.Firstly,the improved TF-IDF algorithm is used to classify emotional corpus;Secondly,combi-ning convolution neural network and self circulation idea,a self circulation CNN model is constructed to deal with the classifi-cation of unequal length corpus;Finally,convolutional neural network and bi-directional gated cyclic unit are combined to deal with the classification of topic specific corpus.Based on the above,a processing model of Japanese literary corpus is con-structed.The experimental results show that the classification accuracy of the model is more than 90%,which shows that the model can effectively realize the corpus processing of Japanese literature.Key words:TF-IDF algorithm;convolutional neural network;corpus processing;japanese literature0 引言基于机器学习的文本分类技术是自然语言处理领域中的重点研究方向,在多个领域中均有着重要应用,如舆情监控、个性化推荐等。利用文本分类技术对日本文学进行语料处理,能够从中提取具有较高价值的文本信息,从而方便阅读、理解以及学习1-2。当前有关语料分类的研究成果较多,例如庞皓明等人研究了一种基于改进极限学习机(Extreme Learning Machine,ELM)的文本分类方法3。刘敬学等人基于卷积神经网络(Convo-lutional Neural Networks,CNN),实现了字符级的文本分割4。蒋浩泉等人探讨了图卷积神经网络(Graph Con-volution Neural Networks,GCNNs)在文本分类工作中的应用效果5。可以看到,虽然文本分类的研究成果较多,但少有将其应用到日本文学的语料处理中。因此,研究基于深度学习技术提出了一种日本文学语料处理方法,以对日本文学进行高效、准确的文本分类。首先,针对日语中情感语料情感特征不够明显的问题,研究采用改进词频逆文档(Term Frequency-Inverse Document Fre-quency,TF-IDF)算法增强情感特征,去除冗余信息;然后结合 CNN 和自循环思想,解决了日本文学中语料长度不一致的问题;最后,结合 CNN 与双向门控循环单元(Bidirectional gated recurrent unit,BGRU),实现对特定主题语料的精准分类。研究的创新点主要有两点,第一点是针对日本文学语料情感、主题以及长度等与中文不一致的问题,提出了解决策略;第二点是将 BGRU 思想应用到 CNN 中,对 CNN 进行优化改进。1 日本文学语料处理模型的构建1.1 基于改进 TF-IDF 算法的情感语料分类方法早在 20 世纪 50 年代,学者们就开始了关于文本分类的研究。传统的文本分类方法有基于统计学的词频统计、基于关键词的文本分类等。但随着互联网的发展,人们所接收的信息越来越多,传统的需要人工辅助的文本分类方法在巨大的文本数据量面前存在着效率、261基于改进 TF-IDF 算法的日本文学语料处理计算机系统方法研究 魏海燕,等精度低,时间成本、人力成本高的缺陷,逐渐无法适用。为此,学者们将能够自主学习,高效分类的机器学习应用到文本分类当中。基于机器学习的文本分类技术,基本上是以 TF-IDF 算法为词语的语料特征赋予权重,在对分类模型进行充分训练后,利用分类模型根据输出权重实现文本分类。但在日本文学中,由于语法、情感等与中文均有一定的差异,导致现有的文本分类模型无法准确识别和分类日本文学语料,因此,还需要对其进行改进优化。在文学作品中有较多的情感语料,但在日文中,情感语料的情感特征不够明显,可能会对语料分类造成一定的负面影响6-7。因此,研究基于改进 TF-IDF算法来实现情感语料的分类。TF-IDF 算法中某个词的特征权重计算见公式(1)所示。tji=tfjiidfj=freqjidilog10Nnj(1)公式(1)中,tj表示某个词汇;tfji为 tj在文档 Di内存在的次数;idfj为 tj的逆文档频率;N 为文本总数;nj表示所有文本中 tj的数量。一般而言,情感语料的文本长度都较短,数据量较少,因此,采用基于 TF-IDF 算法向量空间表示文本数据集。在文本中,某个词的出现频率越高,该词汇的特征权重就越高,也就越能代表该文本的主题8。但情感类的词汇因为用一个就能够表达整个语句的情感倾向,因此,词频往往较低,且在整个文本中很少重复出现同一个情感词汇,因此,传统 TF-IDF 算法对情感词汇的区分度不够,需要对其进行优化9-10。首先,构建情感词典 dic,然后基于 TF-IDF 算法增强情感词汇的词频,以增强情感特征,如公式(2)所示。tji=tfjiidfi=freqji+wqdilogNnj(2)公式(2)中,q 表示情感词汇 tj的情感特征增强倍数;w表示情感词典中的情感特征词。对于情感词典,有 dic=w1,w2,wn,在情感词典中进行情感特征词匹配,并增强其词频,就能有效增强情感词汇的权重值,进而方便对情感词汇的分类。在特征增强后,情感词汇的可观察数量增加,但句子维度也随之增加,不利于后续词汇分类。研究基于 TF-IDF 算法提出一种冗余信息去除方法,去除语料中的非情感特征词,如公式(3)所示。tji=tfjiidfi=freqjidi-clogNnj(3)公式(3)中,c 表示非情感特征词汇的数量。冗余信息去除操作能够有效地缩短文本长度,减少数据维度,方便后续计算分类。在特征增强和冗余信息去除操作后,将获取的文本向量输入到分类器中,即可实现情感特征词汇的分类。1.2 基于 CNN 的不等长度语料的分类方法深度学习的应用,使得文本分类技术有了巨大的发展11-12。但在日本文学作品中,文本语料句子的长短不一,有明显的差异,导致许多神经网络模型的语料识别精度不够。针对这一问题,研究基于 CNN,提出一种自循环 CNN 模型,从而提出一种不等长度语料的分类方法。CNN 的基本拓扑结构如图 1 所示。图 1 CNN 的拓扑结构分类模型在进行文本分类时,需要句子的长度基本一致。对于不满足要求的句子,一般的解决措施是对句子的末尾进行补零,但该方法会让句子的类别区分工作受到负面影响,因此,研究采用自循环思想来处理该问题。文本的自循环思想是指:对某些不满足模型的数据长度要求的句子,利用语句本身对末尾进行循环补充,直到数据长度满足分类模型的要求。该方法的好处是能够保持文本数据的特性不发生较大改变,从而不会影响到分类模型的精度。将自循环思想融入到 CNN 中,构建自循环 CNN 模型,以对不等长度语料进行分类。自循环 CNN 模型如图 2 所示。图 2 自循环 CNN 模型的基本结构如图 2 所示,对于长度不能满足 CNN 要求的文本,采用尾部循环的方式补充文本长度,使得所有语句都有相等长度。自循环 CNN 中词向量矩阵可用公式(4)表示。Sj=x1,x2,xm(4)公式(4)中,Sj为词向量矩阵;m 表示 Sj中词汇数量;xm表示矩阵中第 m 个词汇的向量。在卷积层,通过滤波器对词汇进行卷积操作,从而产生新的特征,如公式(5)所示。ci=f xi:i+h-1+b()(5)公式(5)中,ci为卷积操作后产生的新特征;h 表示词汇数量;表示滤波器;b 是一个偏置项,且存在 bR;xi:i+h-1表示在句子中第 i 个单词的特征向量。然后在池化层,对所有生成的新特征向量进行最大池化操作,并将所有的特征向量进行连接操作并传输给全连接层,以方便后续的文本分类。在全连接层,利用 Softmax 函数对连接的特征向量进行改良求解,然后在类别判断层进行文本分类。基于上述内容,完成不等长度语料的分类。1.3 基于 BGRU 的特定主题语料分类方法在日本文学作品中,通常存在大量特定主题的语料。特定主题的语料一般和上下文存在着较为紧密的联系,需要联系上下文进行理解。一般采用 CNN 提取文本特征并进行分类,但 CNN 无法获取特征之间的联系,361自动化与仪器仪表2023 年第 1 期(总第 279 期)因此对特定主题语料的分类效果不够理想13-15。门控循环单元(gated recurrent unit,GRU)是最常见的门控循环神经网络(gated recurrent neural network,GRNN)之一,该算法的优点是能够选择性地保留数据,并考虑前文与特定主题语料之间的语义联系。GRU 的激活函数通常有 Tanh 函数、Sigmoid 函数以及 Relu 函数等,激活函数形状如图 3 所示。图 3 GRU 激活函数的形状在上述三种激活函数中,Tanh 函数能够使变量的映射值在-1 到 1 之间,收敛速度更快,因此,研究采用Ta