分享
基于改进Adam优化算法的中文短文本分类方法_赵志杰.pdf
下载文档

ID:2252945

大小:1.23MB

页数:7页

格式:PDF

时间:2023-05-04

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 改进 Adam 优化 算法 中文 短文 分类 方法 赵志杰
电 子 测 量 技 术E L E C T RON I CME A S U R EME N TT E CHNO L O G Y第4 5卷 第2 3期2 0 2 2年1 2月 D O I:1 0.1 9 6 5 1/j.c n k i.e m t.2 2 0 9 9 2 2基于改进A d a m优化算法的中文短文本分类方法*赵志杰 张艳艳 毛翔宇(南京信息工程大学 南京 2 1 0 0 4 4)摘 要:针对B E R T模型中编码器提取特征信息时因并行计算而缺少文本的时序信息及模型网络复杂度较高易受偏差影响等问题,本文提出一种基于改进A d a m优化算法的模型D T S C F-N e t。模型采用B E R T模型提取短文本的语义特征表示,将语义特征输入到B i-G RU中,提取具有上下文时序特征的语义信息,输入M a x p o o l i n g层筛选最优特征,分类得到该短文本的类别。针对A d a m算法在拟合中产生的动量偏差添加校正算法来缓解性能下降,对比两个连续时间步上的校正动量值,选取两个时间步中的动量最大值代入梯度计算,并对学习率添加自适应调节因子,利用上一次迭代的梯度值,实现学习率的自适应调节,提高分类精度。实验表明,D T S C F-N e t的分类准确率为9 4.8 6%,相较于同实验环境下的基准模型B E R T、B E R T-B i-G RU分别提高2.0 7%、1.7 1%。结果证明本文所提方法具有一定的性能提升。关键词:文本分类;自适应矩估计;B E R T;B i-G RU;短文本中图分类号:T P 3 9 1.1 文献标识码:A 国家标准学科分类代码:5 2 0.2 0 2 0R e s e a r c h o n C h i n e s e s h o r t t e x t c l a s s i f i c a t i o n m e t h o d b a s e d o n i m p r o v e d A d a m o p t i m i z a t i o n a l g o r i t h m Z h a o Z h i j i e Z h a n g Y a n y a n M a o X i a n g y u(N a n j i n g U n i v e r s i t y o f I n f o r m a t i o n S c i e n c e a n d T e c h n o l o g y,N a n j i n g 2 1 0 0 4 4,C h i n a)A b s t r a c t:T h e m o d e l u s e s t h e B E R T t o e x t r a c t t h e s e m a n t i c f e a t u r e r e p r e s e n t a t i o n o f t h e s h o r t t e x t,i n p u t s t h e s e m a n t i c f e a t u r e s i n t o t h e B i-G RU a n d e x t r a c t s t h e s e m a n t i c i n f o r m a t i o n w i t h c o n t e x t u a l t i m i n g f e a t u r e s.T h e m o d e l f e e d s t h e f e a t u r e s i n t o t h e M a x p o o l i n g l a y e r t o f i l t e r t h e o p t i m a l f e a t u r e s a n d c l a s s i f y t h e m t o g e t t h e c a t e g o r y o f t h e s h o r t t e x t.A c o r r e c t i o n a l g o r i t h m i s a d d e d t o m i t i g a t e t h e p e r f o r m a n c e d e g r a d a t i o n f o r t h e m o m e n t u m b i a s g e n e r a t e d b y t h e A d a m a l g o r i t h m i n t h e f i t t i n g.T h e A d a m a l g o r i t h m i s i m p r o v e d b y c o m p a r i n g t h e c o r r e c t e d m o m e n t u m v a l u e s a t t w o c o n s e c u t i v e t i m e s t e p s a n d s e l e c t i n g t h e m a x i m u m v a l u e o f m o m e n t u m i n t h e t w o t i m e s t e p s t o s u b s t i t u t e i n t o t h e g r a d i e n t c a l c u l a t i o n.T h e i m p r o v e d A d a m a l g o r i t h m a d d s a n a d a p t i v e a d j u s t m e n t f a c t o r t o t h e l e a r n i n g r a t e a n d u s e s t h e g r a d i e n t v a l u e o f t h e p r e v i o u s i t e r a t i o n t o a c h i e v e a d a p t i v e a d j u s t m e n t o f t h e l e a r n i n g r a t e a n d i m p r o v e t h e c l a s s i f i c a t i o n a c c u r a c y.E x p e r i m e n t s s h o w t h a t t h e c l a s s i f i c a t i o n a c c u r a c y o f D T S C F-N e t i s 9 4.8 6%,w h i c h i s 2.0 7%a n d 1.7 1%h i g h e r t h a n t h a t o f t h e b e n c h m a r k m o d e l B E R T a n d B E R T-B i-G RU r e s p e c t i v e l y i n t h e s a m e e x p e r i m e n t a l e n v i r o n m e n t.T h e r e s u l t s d e m o n s t r a t e t h a t t h e p r o p o s e d m e t h o d i n t h i s p a p e r h a s c e r t a i n p e r f o r m a n c e i m p r o v e m e n t.K e y w o r d s:t e x t c l a s s i f i c a t i o n;A d a m;B E R T;B i-G RU;s h o r t t e x t 收稿日期:2 0 2 2-0 5-1 2*基金项目:国家自然科学基金(6 1 7 0 5 1 0 9)、江苏高校优势学科建设工程资助项目、江苏省双创团队人才计划0 引 言 中文短文本分类是自然语言处理领域的重要研究方向之一,其应用领域广泛,如垃圾邮件过滤、个性化推荐1、情感分析等。短文本的字符长度一般不超过1 6 0个字符,文本内容由高度概括的词汇组成2。短文本的分类难点在于用词缺乏规范、语义模糊,现有的分类方法表现不佳,且文本长度较短,在有限的长度内提取其完整语义特征的挑战较大3。如何提高分词准确性与分类准确度,对短文本分类有重要的研究意义。文本分类的首要任务是对文本进行表示,即将字词以向量的形式表示。该方法主要分为两类,一类是静态词向量表示方法W o r d 2 V e c、G l o V e4(g l o b a l v e c t o r s),另一类是E LM o(e m b e d d i n g f r o m l a n g u a g e m o d e l s)、B E R T231 赵志杰 等:基于改进A d a m优化算法的中文短文本分类方法第2 3期(b i d i r e c t i o n a l e n c o d e r r e p r e s e n t a t i o n s f r o m t r a n s f o r m e r s)等动态词向量方法5。M i k o l o v6等提出W o r d 2 V e c模型,为了让词向量高效地表示上下文信息,它提供 了S i k p-G r a m与C B OW(c o n t i n u o u s b a g-o f-w o r d s)两种训练方法,但它只利用了文本的局部信息,并未高效利用文本的全局信息。为解决此问题,P e n n i n g t o n等7提出了全局词向量模型(g l o b a l v e c t o r s,G l o V e),兼顾了文本的局部信息与全局信息。W o r d 2 V e c与G l o V e等词向量表示方法为文本分类的模型性能带来了有效提升8,但这类词向量表示方法均为静态词向量表示方法,在不同的上下文中,同一字词在不同语境中的词向量表示相同,无法处理“一词多义”和“一义多词”问题9,导致文本分类的性能受限。随着E LMO、B E R T等动态词向量模型的提出,文本的语境歧义问题得到解决1 0,其中最具代表性的B E R T模型能捕捉词语和句子级别的表示,在多类文本处理任务中表现优异。而B E R T模型具有1 2层堆叠的多头注意力E n c o d e r层1 1,其网络结构较为复杂,在受到误差干扰的情况下容易出现性能下降。科大讯飞联合哈工大1 2发表了B E R T-WWM,改变 了 训 练 样 本 的 生 成 策 略,由 局 部 词m a s k机制修改为全词遮盖(w h o l e w o r d m a s k,WWM)。L a n等1 3提出一种基于B E R T的轻量级预训练语言模型A L B E R T(a l i t e B E R T),通过嵌入层参数因式分解减少B E R T参数量,扩展了B E R T模型的可用性。温超东等1 4结合A L B E R与门控循环单元(g a t e d r e c u r r e n t U n i t,G RU)模型在专利文本分类任务上取得了不错的效果,但模型分类精度相较于B E R T有一定程度的下降。参考上述文献,本文从B E R T模型网络复杂度较高易受偏差影响与如何有效提取的语义特征两方面开展理论与研究工作,主要贡献如下:1)提出一种改进的A d a m算法,通过对一阶矩估计与二阶矩估计的校正与对比前后两个迭代阶段的矩估计值,选取最优值更新网络,减小误差对模型的影响,并对学习率添加自适应调节因子,实现网络参数的自适应调整,逼近网络的最优解。2)提出使用B E R T模型对文本中的字符进行动态词向量表示,引入了B i-G RU最大化获取词向量的上下文时序信息,弥补B E R T模型在编码时仅

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开