温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
Bert
模型
文本
分类
应用
研究
昌磊
本栏目责任编辑:唐一东人工智能Computer Knowledge and Technology电脑知识与技术第19卷第4期(2023年2月)第19卷第4期(2023年2月)基于Bert模型的文本多分类应用研究昌磊1,王依伦2,陈艳平2(1.时代新媒体出版社有限责任公司,安徽 合肥 230071;2.合肥学院 人工智能与大数据学院,安徽 合肥 230601)摘要:结合K12教育题库数据的特点,使用自然语言处理技术对习题分类,基于BERT模型,针对中文文本分类,采用“抽取+生成”的方式获得文本摘要,为了提升模型性能,使用迁移学习,最后利用了CNN分类算法对习题的多个标签进行多分类。结果表明该方法可以有效实现习题分类,为更好地教学以及学生学习提供便利。关键词:BERT;文本分类;迁移学习中图分类号:TP181文献标识码:A文章编号:1009-3044(2023)04-0040-02开放科学(资源服务)标识码(OSID):1 概述随着互联网的发展越来越发达,教育领域也因教育信息化而发生了巨大变革,通过搜索引擎和在线答题平台咨询学习问题已逐渐成为学生及老师学习的一种方式1。在咨询过程中,问答系统会对用户提出问题的类别进行准确区分,如题目的学科或题目考查的知识点。知识点在教育教学过程中起着重要的作用,可对题库根据知识点进行分类,然后根据学生的学习情况,有针对地将习题推荐给学生,老师也能根据学生的做题情况有针对地进行拔高训练,为学生设计阶段性学习方案,学生能更快速地掌握知识点,学习效率能得到快速提升。传统上,教师或教研人员需要人工判断习题的题型,浪费时间和精力,而且过程十分消耗耐心。在设计建立试题库,问答系统等场景下,就可以利用文本分类的方法对题目进行试题分类,即机器代替人工实现题型分类提高了教师的工作效率。同时也能使得试题和试卷的管理更高效而便捷,大大节省了教师的工作时间,便于教师有更多时间和精力致力于教学方法的研究,毕竟合理的教学方法也同样影响着学生的成绩。题型分类属于自然语言处理短文本分类任务,需要对相关文本进行处理,得到文本的向量化表示。近年来,深度学习方法渐渐兴起,目前主要是采用词嵌入的方式获得文本的特征表示,如利用word2vec 模型学习文本中词向量的表示,也可以用预训练模型BERT得到文本的语义表示完成文本分类2。基于转换器的双向编码表征BERT是2018年由Google 推出的,在多项 NLP 任务中取得了卓越的效果3。使用预训练模型 BERT,能够解决一词多义问题,而且对中文文本语义的获取BERT 预训练模型有更好的效果。对于不同的下游任务,BERT的结构可能会有不同的轻微变化。2 相关研究2.1Bert模型BERT模型是基于 Transformer模型的一种双向多头自注意力编码器组成的深层预训练模型。双向的意思是该模型能通过某些数据便可以获取这个句子在上下文语义的功能4。BERT模型示意图如图1所示,可以很清楚地看到BERT采用了Transformer Encoder block进行连接,但舍弃了Decoder模块,这样最终使其拥有了双向编码能力和强大的特征提取能力。图1 Bert模型结构2.2 Transformer和Attention机制多层 Transformer 组装成了 Bert 模型。而 Attention 机制又是 Transformer中最关键的部分,它表示了各个词语之间的联系程度。Self-Attention就是一种可以考虑全局信息的机制。Multi-head Self-Attention获取输入文本中每个不同的字基于不同题型的语义向量,然后进行线性组合,最终得到的特征向量和输入向量长度相同,利用的就是不同的注意力机制。在Multi Head Self-Attention基础上添加残差连接和层归一化及线性转换。而 Bert 模型就是由多个 Trans收稿日期:2022-09-20基金项目:合肥学院校级本科教学质量工程项目(2021hfujyxm26)作者简介:昌磊(1989),男,安徽全椒人,时代新媒体出版社副主任,主要研究方向为数字出版、数字教育;王依伦(1999),男,安徽淮北人,硕士,主要研究方向为人工智能在灾害中的应用;陈艳平(1981),女,湖南邵阳人,副教授,合肥学院人工智能与大数据学院教师,主要研究方向有人工智能与模式识别,计算机网络。E-mail:http:/Tel:+86-551-65690963 65690964ISSN 1009-3044Computer Knowledge and Technology电脑知识与技术Vol.19,No.4,February202340DOI:10.14004/ki.ckt.2023.0189人工智能本栏目责任编辑:唐一东Computer Knowledge and Technology电脑知识与技术第19卷第4期(2023年2月)第19卷第4期(2023年2月)former Encoer堆叠起来得到的5。注意力机制的思想是将一个query值和一组 key-value对映射到一个输出中,是权值分配6,通过查询(Query)与的映射关系,计算与 Key的内积,得到相应权重,再将Value加权求和,进行归一化处理。Attention()qt,K,V=i=11Zexp()qt,kidk(1)式(1)中:K、V 是文本向量对应的键值对;q 代表Query;dk为输入词向量维度;Z表示归一化因子。3 基于BERT-CNN 的K12教育题库的题型分类模型本文是基于K12教育题库的题型多分类问题,采用基于样本的迁移学习方法,其分类模型如图 3所示。图3 多标签文本分类模型3.1 算法流程本文提出一种基于BERT-CNN的K12教育题库的题型分类模型,其具体的算法流程如下。步骤 1 首先获取数据集的K12题库文本X=x1,x2,xn,其中 xi所代表的意思是K12教育题库文本中该条题目的第 i 个字符。步骤 2 然后要进行的是对文本x进行序列化操作,即将文本x输入BERT 层,得到序列化后的文本向量:E=E1,E2,En,其中 Ei指k12教育题库文本中该条题目的第 i 个字的序列化字符。步骤 3 经过多层双向 Transformer对序列化字符进行训练,得到k12教育题库文本所对应的特征向量:T=T1,T2,Tn,其中 Ti意思是第i个字符经 Transformer提取后得到的特征向量。步骤 4 将上一步得到的特征向量 T 作为输入矩阵进行训练,经过 CNN 模块层对 BERT 层输出的文本特征训练,经此操作便能得到文本高层特征向量:C=C1,C2,Cn-h+1,其中 Ci代表的是经过h 个不同大小的滑动窗口以及最大值池化操作之后,筛选出的卷积特征值。步骤 5 连接全连接层,再完成一次 dropout,防止模型过拟合,而且此操作不改变向量维度。步骤 6 对每个主题类别标签完成自监督训练,采用softmax 激活函数。步骤 7 利用Cross Entropy机制进行反向传播训练,直到损失函数的误差收敛到一个较小的值之前,迭代更新 CNN模型的超参数。步骤 8 结束训练,并输出文本多分类结果。4 实验结果及分析4.1 实验数据集本文数据集采用K12教育题库长文本20000个题目,根据对应的不同知识点,一共将文本分为6个类别,分别是:二次函数与反比例、三角函数、生理与健康、科学、设计及生物。每个题目的平均文本字符长度 为 2030,训 练 集、验 证 集、测 试 集 的 比 例为:8:1:1。4.2 实验环境本次实验编程软件使用的是Pycharm 社区版,操作系统为Windows10,GPU 为 NVIDIA RTX3060。基于 Python3.8,使用 Anaconda 编程平台,选择 Pytorch作为深度学习框架。4.3 参数设置预训练模型采用 Google 发布的中文BERT-Base,基于64 个多头自注意力机制和12层双向 Transfomer编码器对K12教育数据短文本进行动态字向量训练。并根据数据集的特点微调 BERT,以提升 BERT 的下游任务的效果7。由于电脑显存限制,batch _size设置为 64,Epoch 设置为 3,learning_rate 设置为 3e-5,num_classes 表示类别总数设置为6。4.4 实验结果本实验使用“提前停止”技术,这可以更好地避免过拟合问题。对于文本分类的效果采用精确率(Precision)、召回率(Recall)和F1值3个指标进行评价8,实验结果如表 1所示。表1BERT-CNN实验结果类 别二次函数与反比例三角函数生理与健康科 学设 计生 物精确率0.93650.91700.96600.98800.97440.9484召回率0.94400.88400.95800.98500.95200.9740F10.94020.90020.96600.98650.96310.96105 结论从表1可看出识别的标签不同,评价体系得分也不同,所有标签平均得分为0.95.准确率也是0.95。从实验结果可以看出,该模型实现了K12教育题库类中文文本的多分类,并且Bert-cnn在各项评测指标中的表现也令人满意。但由于习题科目及知识点种类繁多,关系复杂,所以数据集的构造还需要烦琐的工作,想要继续提升准确性,还需要优化数据集并优化各种模型及参数。参考文献:1 李峰超.基于领域知识的试题分类及相似试题检测的研究D.大连:大连海事大学,2009.2 叶至伟.基于多维特征的题型自动分类技术及在智能题库中的应用D.成都:电子科技大学,2019.3 郑承宇,王新,王婷,等.基于ALBERT-TextCNN模型的多标签医疗文本分类方法J.山东大学学报(理学版),2022,57(4):21-29.4 林德萍,汪红娟.基于BERT和RNN的新闻文本分类对比J.北京印刷学院学报,2021,29(11):156-162.5 张海丰,曾诚,潘列,等.结合BERT和特征投影网络的新闻主题文本分类方法J.计算机应用,2022,42(4):1116-1124.6 由丽萍,刘越,王世兴.融合自注意力机制和语义词典的危机情绪分类研究J.情报理论与实践,2022,45(5):189-195.7 吴德平,时翔,王晓东.基于BERT模型的安全生产事故多标签文本分类J.武汉工程大学学报,2021,43(5):586-590.8 张小为,邵剑飞.基于改进的BERT-CNN模型的新闻文本分类研究J.电视技术,2021,45(7):146-150.【通联编辑:唐一东】41