温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
ERNIE
DPCNN
iGRU
农业
新闻
文本
分类
杨森淇
2023-05-10计算机应用,Journal of Computer Applications2023,43(5):1461-1466ISSN 1001-9081CODEN JYIIDUhttp:/基于ERNIE+DPCNN+BiGRU的农业新闻文本分类杨森淇1,2,段旭良1,2*,肖展1,2,郎松松1,2,李志勇1,2(1.四川农业大学 信息工程学院,四川 雅安 625014;2.四川农业大学 农业信息工程实验室,四川 雅安 625014)(通信作者电子邮箱)摘要:针对农业新闻目前面临的针对性差、分类不清和数据集缺乏等问题,提出一种基于 ERNIE(Enhanced Representation through kNowledge IntEgration)、深度金字塔卷积神经网络(DPCNN)和双向门控循环单元(BiGRU)的农业新闻分类模型EGC。首先利用ERNIE对数据集进行编码,然后利用改进后的DPCNN和BiGRU同时提取新闻文本的特征,再将两者提取的特征进行拼合并经过Softmax得到最终结果。为了使EGC模型适用于农业新闻分类领域,对DPCNN进行改进,减少它的卷积层以保留更多特征。实验结果表明,与ERNIE相比,EGC模型的精确率、召回率和F1分数别提升了1.47、1.29和1.42个百分点,优于传统分类模型。关键词:新闻文本分类;农业工程;ERNIE;深度金字塔卷积神经网络;双向门控循环单元中图分类号:TP183 文献标志码:AText classification of agricultural news based on ERNIE+DPCNN+BiGRUYANG Senqi1,2,DUAN Xuliang1,2*,XIAO Zhan1,2,LANG Songsong1,2,LI Zhiyong1,2(1.College of Information Engineering,Sichuan Agricultural University,Yaan Sichuan 625014,China;2.Agricultural Information Engineering Laboratory,Sichuan Agricultural University,Yaan Sichuan 625014,China)Abstract:To address the problems of poor targeted performance,unclear classification and lack of datasets faced by agricultural news,an agricultural news classification model based on Enhanced Representation through kNowledge IntEgration(ERNIE),Deep Pyramidal Convolutional Neural Network(DPCNN)and Bidirectional Gated Recurrent Unit(BiGRU),called EGC,was proposed.The dataset was first encoded by using ERNIE,then the features of the news text were extracted simultaneously by using the improved DPCNN and BiGRU,and the features extracted were combined and the final results were obtained by Softmax.To make EGC model more suitable for applications in the field of agricultural news classification,the DPCNN was improved by reducing its convolution layers to preserve more features.Experimental results show that compared with ERNIE,the precision,recall and F1 score of the proposed EGC model are improved by 1.47,1.29 and 1.42 percentage points,respectively,verifying that EGC is better than traditional classification models.Key Words:text classification of news;agricultural engineering;Enhanced Representation through kNowledge IntEgration(ERNIE);Deep Pyramid Convolutional Neural Network(DPCNN);Bidirectional Gated Recurrent Unit(BiGRU)0 引言 随着我国农业的快速发展,人们对农业新闻的质量提出了更高的要求,但因农业领域因涵盖面广、涉及产业众多,农业信息的获取仍存在针对性较差、分类不清等问题,人们需要花费大量时间甄别出所需的农业新闻,极大地阻碍了农业新闻的传播。目前中文新闻分类最著名的数据集是THUCNews(THU Chinese Text Classification)1,它包含74万篇新闻文档,涉及体育、财经、房产、教育和科技等14类新闻,但唯独没有农业新闻。农业新闻的分类在中文新闻分类领域目前仍处于起步阶段,如何精准、高效地实现农业新闻文本分类,为用户提供精准的农业新闻,提高农业新闻传播的效率,扩大农业新闻的传播范围,成了目前亟待解决的问题。1 文本与新闻分类模型 1.1针对不同领域新闻的分类模型文本分类模型的更新进展较快,如 Wang 等2提出了一种 用 于 文 本 分 类 的 归 纳 图 卷 积 网 络(Inductive Graph Convolutional Network for Text classification,InducT-GCN),该网络仅基于训练文档的统计数据构建图,并用词向量的加权和来表示文档向量。InducT-GCN在测试期间进行单向图卷积网络(Graph Convolutional Network,GCN)的传播,能降低时间和空间复杂度,InducT-GCN在5个文本分类基准中取得了最好的效果。Wang 等3将多维边缘嵌入图卷积网络(Multi-dimensional Edge-enhanced Graph Convolutional Network,ME-GCN)用于半监督文本分类,通过构建文本图描述文本之间的多维关系,并将生成的图送入 ME-GCN 训文章编号:1001-9081(2023)05-1461-06DOI:10.11772/j.issn.1001-9081.2022040641收稿日期:2022-05-07;修回日期:2022-07-15;录用日期:2022-07-22。基金项目:四川省自然科学基金资助项目(2022NSFSC0172)。作者简介:杨森淇(1997),男,河北廊坊人,硕士研究生,主要研究方向:自然语言处理;段旭良(1982),男,河北唐山人,副教授,硕士,主要研究方向:智慧农业、数据挖掘、数据清洗;肖展(2000),男,四川巴中人,硕士研究生,主要研究方向:自然语言处理;郎松松(1997),男,四川达州人,硕士研究生,主要研究方向:计算机视觉、目标检测;李志勇(1985),男,四川眉山人,副教授,博士,主要研究方向:农业信息处理、智能决策。第 43 卷计算机应用练,它可以整合整个文本语料库的丰富图边信息源。实验结果表明,ME-GCN在8个基准数据集中显著优于最先进的方法。Yang等4提出了混合经典量子模型,由一种新颖的随机量子时间卷积(Quantum Temporal Convolution,QTC)学习框架 组 成,该 框 架 取 代 了 基 于 BERT(Bidirectional Encoder Representation from Transformers)的解码器中的一些层。实验结果表明,BERT-QTC 模型在 Snips 和 ATIS 口语数据集中获得了较好的结果。新闻分类是文本分类的一个分支,文本分类技术自然也被应用到新闻领域5,针对新闻分类的研究日益增多,很多学者都提出了针对新闻分类的模型。谢志峰等6针对财经新闻提出了一种基于卷积神经网络(Convolutional Neural Network,CNN)的中文财经新闻分类方法,通过CNN对中文财经新闻进行分类,在大、小规模的财经语料上都表现优异。许英姿等7针对物流新闻分类提出了一种基于改进的加权补集朴素贝叶斯物流新闻分类的方法,针对文本不均衡的情况,加权补集朴素贝叶斯模型在进行新闻分类时更加快速和准确。朱芳鹏等8针对船舶工业领域新闻构建了一个船舶工业新闻语料库,并提出了基于文档频率、卡方统计量及潜在语义分析(Latent Semantic Analysis,LSA)进行特征选择和特征降维,将文档-词矩阵映射成文档-主题矩阵后,最终对处理后的特征采用支持向量机(Support Vector Machine,SVM)进行文本分类的方法。实验结果表明,该方法能够有效解决文本向量的高维度、高稀疏性问题,在小样本集和类别有限的前提下获得了比传统方法更好的分类效果。李超凡等9为了解决中文电子病历文本分类的高维稀疏性、算法模型收敛较慢、分类效果不佳等问题,提出了一种基于注意力机制(Attention mechanism)结合CNN和双向循环神经网络的模型。该病历文本分类模型对比实验的结果表明,该模型的 F1 值达到了 97.85%,有效地提升了病历文本分类的效果。目前国内农业新闻分类的模型还较少,其中霍婷婷10提出了一种基于FastText对“重要词进行加权筛选”和“融合新闻标题”的模型CFT-FastText(Content Feature and Title Fast Text)应用于农业新闻文本分类,通过对特征增强的序列进行加权筛选,再融合提出的 CFT-FastText 算法,可以获得更好的农业新闻分类效果。农业文本与其他类别文本相比,具有长度较短、文本间较为类似、特征不突出,并且维度较高、稀疏性较强等特点,容易区分不开。例如“在山区如何养野鸡”和“在山区如何捉野鸡”这两个只有一字之差的农业新闻标题,前者属于畜牧业,而后者属于副业。针对农业文本的特点,不同作者提出了不同的解决办法。如金宁等11运用词频-逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)算法对农业文本的特征进行扩展,并采用 Word2Vec(Word to Vector)模型训练分词结果,将农业文本转为低维、连续的词向量,实现了农业问答社区中农业问句的精确快速分类;王郝日钦等12提出了一种基于CNN和注意力机制的水稻文本分类方法,根据水稻文本具备的特征,采用Word2Vec方法对文本数据进行处理与分析,并结合农业分词词典对文本数据进行向量化处理,有效地解决了文本的高维性和稀疏性问题。1.2基于BERT的新闻分类目前,融合BERT模型的新闻分类方法取得了较好的效果。BERT 模型是一种基于大量语料库训练完成的语言模型,生成的词向量拥有较多的先验信息、并且充分结合上下文语义等优点,因此被广泛应用于新闻分类领域。随后产生了一批基于 BERT 进行改进的加强版模型,例如 Liu等13提出的 RoBERTa(Robustly optimiz