基于mBERT的东南亚小语种推特文本情感分析_贺友程.pdfVIP免费

下载本文档

阅读 3
下载 0
格式 pdf
大小 1.49 MB
约3页
2023-05-04
收藏
评论
点赞(0)
海报
举报

本栏目责任编辑：王力数据库与大数据技术ComputerKnowledgeandTechnology电脑知识与技术第19卷第1期(2023年1月）基于mBERT的东南亚小语种推特文本情感分析贺友程（同济大学电子与信息工程学院，上海201804)摘要：小语种由于其训练语料资源稀缺，在自然语言处理领域一直是一大难题，使用传统的机器学习方法与神经网络方法，具有很大的瓶颈。而跨语言预训练语言模型的出现，对于低资源语种的包括文本分类在内的多项任务，都起到了很大的提升效果。在基于海量语料训练得到的跨语言预训练语言模型mBERT的基础上进行微调，相较于传统的机器学习方法，在情感分析任务的效率和准确度都可得到不错的提升。关键词:小语种；预训练语言模型；文本分类；情感分析；BERT中图分类号：TP391文献标识码：A文章编号：1009-3044(2023)01-0074-03开放科学（资源服务）标识码(OSID)：1引言对小语种文本的情感分析的方法，经历了从构建其情感词典并采用基于规则的无监督方法、挖掘其文本特征并采用有监督的分类方法，再到基于跨语种的方法。然而，传统基于机器翻译的方法，或直接将源语种情感词典翻译为目标语种，或直接将目标语种翻译为源语种后进行训练，模型效果不够理想。对于低资源语种的情感分析，文献[1]通过将目标小语种机器翻译为源语种，通过英语情感分类器对目标小语种实现分类；文献[2]提出CoNBiLSTM词嵌入模型在多语言和多领域环境中进行文本分类；文献[3]比较了4种机器学习方法对少量的印尼语推特文本进行情感分析的效果；文献[4]提出LAAE网络模型，通过LSTM+AAE获得跨语言情感向量后利用双向GRU进行情感分类任务；文献[5]提出基于时间卷积注意力胶囊网络的维吾尔语情感分类模型；文献[6]研究了通过多任务学习训练小语种文本的情感分析模型。BERT[7]通过词嵌入、句子类别、位置信息3个维度的特征，通过MLM与NSP进行微调，在包括文本分类在内的多项任务中均取得良好效果。而mBERT跨语言模型则是BERT的一个分支，支持100多种语言的多项NLP任务。本文将mBERT运用到东南亚小语种推特文本的情感分析中，构建目标语种数据集，对mBERT的输出层进行调整后，通过微调训练实现目标东南亚小语种推特文本的情感分析器。2数据预处理与数据集构建Sentiment140[8]是由Go等构建的包含了1,600,000条从推特爬取的推文的数据集，可用于情感分析相关的训练。本文基于其首先构建了源语言的微调训练数据集，并借助谷歌翻译构建了目标语言的微调训练数据集。2.1源语言微调数据集构...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容