分享
基于LDA主题模型的电商评论数据分析.pdf
下载文档

ID:3075034

大小:2.31MB

页数:5页

格式:PDF

时间:2024-01-19

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 LDA 主题 模型 评论 数据 分析
第33卷第3期2023年9月信阳农林学院学报Journal of Xinyang Agriculture and Forestry UniversityVol.33 No.3Sep.2023基于LDA主题模型的电商评论数据分析魏丽(安徽中澳科技职业学院管理系,安徽合肥2 30 0 31)摘要:以京东电商评论数据为研究对象,探讨评论数据的情感指数及关键词提取。首先,基于Scarpy框架爬取商品评论数据,分析顾客评论数据,直观地了解顾客的需求,从词云中掌握食品数据特点;其次运用LDA主题建模方法对上述数据进行情感分析,得出具体评论数据的情感系数(越接近1 越积极),了解各分数段的评论分布情况;最终,分别对正、负评论数据进行LDA主题分析,分析文本中有价值的内容。关键词:LDA模型;爬虫;情感分析;SnowNLP;顾客评论数据中图分类号:TP391.1商品评论数据分析一直是国内外研究的热点,通过对顾客的评论信息进行情感分析,可以推断出他们的消费偏好、消费缘由等1,从而使商家更好地制定商品的发展策略,提升商品和服务的质量,以吸引更多的消费者购买。电商评论数据中含有大量的有用信息,这些文字评论既体现顾客购买后对于商品、客服的情感表达,也成为了顾客购物决策的参考标准。因此对于电商评论数据进行挖掘,能够估计顾客的情感倾向和卖家的管理、运营情况,更好地帮助企业改进自身产品的不足,提升服务质量,吸引更多的顾客购买;同时帮助顾客根据数据分析的结果确定该产品是否符合自己的预期。1模型简介1.1SnowNLP本研究利用SnowNLP工具对食品评论的内容进行文本情感分析2 。具体思路为:分词提取特征一特征选择一分类模型一识别结果。SnowNLP情感分析是基于内置的情感系统所实现的,它将文本简单地分为积极与消极两类,输人文本评论信息即可获得返回值:这条评论是正面评论的概率(越接近于1 越积极,接近0 为消极)。其底层思想为朴素贝叶斯模型,在已知样本信息的情况下推测评论信息积极的概率,具体如公式(1)所示:(1)其中ci代表某条评论分类为积极,而w1,W 2,w,代表每条评论的样本信息(每条评论被划分成n个词向量,每个词向量都有一定的积极性权重,相加可得评论的积极性得分信息)。1.2LDA主题模型LDA是一个三层贝叶斯模型3,其中每一个文档都被看做不同主题的随机混合项,而每个主题都是由单词组成的分布。在给定主题数K、文档集合数M以及词汇表V的条件下,词向量的分布由P(w,=|n=t)定义,并由矩阵(KV)表示。同样类似的的是主题的条件分布:P(z,=t l d,=d),并由9(MK)表示。语料库w和相应主题z的联合概率如公式(2)所示:(2)其中Nwlt是主题t产生词向量w的次数,Ntld是文档d中主题t产生的次数文档集合数M以及词汇表V的条件下,词向量的分布由P(w,w l z,=t)定义,该模型设定词向量、主题分别为参数、的Dirichlet分收稿日期:2 0 2 3-0 1 一31基金项目:2 0 2 1 年安徽省高校优秀青年骨干人才国内访学研修项目(gxgnfx2021215)。作者简介:魏丽(1 97 8 一),女,安徽阜阳人,副教授,研究方向:电子商务、物流管理。:112:文献标识码:AP(w1,w2,.,w,Ic)P(c,)文章编号:2 0 9 5-8 9 7 8(2 0 2 3)0 3-0 1 1 2-0 5魏丽:基于LDA主题模型的电商评论数据分析布,最终由主题t生成的单词w的预测概率如公式(3)所示:Nwlt+nwP(wlt,W,z,)=N.It+其中N.It是主题t产生任何单词的总次数,文档d中主题t的预测概率如公式(4)所示:N.ld+m,P(tld,w,z,)=N.Id+其中N.Id是该主题中主题的总数,最终相乘得到每个主题下生成词语的概率,即实现不同主题的关键词提取。1.3最优主题数的选取在构建LDA模型时,确定最优主题数是必不可少的L4。本研究希望用最少的迭代次数获得最优的主题数。具体的步骤如下:(1)取初始的主题数为k,并构建模型,计算各主题之间的平均余弦相似度。(2)在k的基础上增加或减少主题数,分别计算相似度。(3)重复上述步骤直至得到平均余弦相似度最低时的k值。使用LDA模型寻找到不同主题的关键词,并以词频为基础,构建任何两个主题之间的向量并计算其余弦相似度,如公式(5)所示:ZA,B;cos0=Z-,(A,)*2-,(B,)2TABI余弦相似度的值越大,则表明两个主题越相似。因此当相似度最低时,各个主题的差异就最明显,也便是最优模型。2楼数据采集与处理2.1楼数据来源本研究中选取的电商评论数据全部来自京东网。由于互联网评论数据随时间变化很大,具有时效性,因此没有选择过往数据,而是从京东商品的评论页直接爬取实时数据,爬取的是坚果的热评数据,具体的步骤:打开谷歌浏览器的调试工具,发现评论数据存放于json包中,其中的“content”字段便是本研究需要提取的数据集。2.2数据词云设计将采集到的数据进行数据处理,对处理后的数据进行词频统计并通过绘制词云查看分词的效果。首先对各关键词进行词频统计,并按照词频倒序排序,选择前1 0 0 个词并生成词云,食品评论数据的词云如图1所示。3情感分析本文研究的对象是电商产品的评论数据,在此部分期望实现文本数据的自动分类(依据评论信息自动划分成好评、差评),并对产品的特征、品质的优缺点进行分析,因此并不需要过于精确地计算每条评论的情感:113:(3)(4)AB(5)价格很快正品服务质力放心太品质量过年旦装信赖品牌孩子口度希望道贵饱满发货味物流下次产品物美价康划算活动性价比力购感零食挺好物优惠分量实惠品质冒下单商品回购卖家合适配赞图1 食品评论数据的词云态度里超级坚果特别感二加家满意爱第33卷第3期指数。接下来将从匹配情感词、修正情感倾向、SnowNLP情感分析三部分展开阐述。3.1匹配情感词情感分析的第一步是采用词典匹配,本文使用2 0 0 7 年知网发布的“情感分析用词语集”,对于中文正面评价表中的词语,赋予初始权重1;对于负面评价表中的词语赋予权重0,同时将“便宜”“实用”“贵”“不好”等电商评论情感倾向词加入表中,构成词典集。最后将情感词表与jieba分词后的评论数据相匹配,得出初始的情感系数。3.2修正情感倾向中文文本中存在双重否定的现象,因此当否定词出现次数为奇数次时,将这条评论调整为相反的情感分类。在上述步骤的前提下,对情感值的方向进行修正并计算每条评论的情感得分(0 到1 之间),为了减少负面词汇带来的误差,以0.6 为界限将所有评论数据分为正面评论、负面评论,并计算情感分析的准确度。以下是根据情感得分进行划分得到的食品数据的混淆矩阵,可知在匹配词典的情况下,食品数据的查准率为79.7%。初步观察,可以得到结论:食品数据为热评数据,其中存在大量的好评,而差评多被隐藏,导致差评数据量较少,仅占5%,使得预测的准确率降低。3.3SnowNLP情感分析基于情感词典的SnowNLP,能够很好地契合电商评论数据,其能够将文本分为两类:积极评论与消极评论,并返回情绪的概率值,越接40近于1 为积极,接近于0 为消极。其底层逻辑是朴素贝叶斯模型,在30gueno已知评论样本的信息情形下,推测其为好评的概率。下面对爬取到的20食品进行情感分析。首先统计各情感指数分数段出现的频率并绘制10柱状图,食品的评论情感频率图如图2 所示。0.0通过初步观察,可知食品评论数据在预测中大多偏向正面,这与本文选取的数据有一定的关联:食品的热评数据中多为称赞或默认好评。其次,在上述情感分析的基础上,本文对最新的评论进行分类预测。4LDA主题建模在自然语言处理领域,主题模型是用来提取文档中抽象主题的一种数学模型5-6。人们往往使用词频统计方法如:TF一IDF(词频一逆向文档频率)判断文档的相似程度,而这种方法仅仅考虑文本的出现次数,却没有考虑到文字背后的深层含义,例如两个文档中共同出现的词语很少,却是属于一个领域、相似的,因此在判断其相似性的时候需要使用LDA主题模型。4.1主题模型介绍LDA模型是一种无监督的贝叶斯模型,其核心公式(6)可以表示为:P(词|文档)=P(词|主题)|P(主题|文档)它被称为生成模型:每篇文档的每一个词都是通过一定的概率选择某一个主题的,并且这个主题又以一定的概率选择了某个词语。因此,LDA又叫三层贝叶斯模型,三层结构分别是:文档(d)、主题(z)以及词向量(w)。如果直接使用文本信息,很难进行建模,LDA模型恰巧考虑到了这一方面,采用词袋模型:将每一篇文档记为词频向量,从而使得其转化为易于分析的数字信息。假设共有M条评论信息,其中分布着K个主题,记为Z,(i=1,2K)。由N个词构成的评论记为d=(W i,W 2,Wn)。LD A 模型的结构如图3所示。和是Dirichlet函数的先验参数;是文档中主题的多项分布函数;是主题中词语的多项分布参数,它们分别满足如下表达式,如公式(7)和(8)所示:0Dir()Dir():114:信阳农林学院学报2023年9 月Analysis of Sentiments500.2图2 食品评论数据的情感分布图(6)B$Dir()zMultinomial(e)0Dir()图3LDA模型结构0.4Sentiments Probability0.6wMultinomial(o)0.8KNM(7)(8)1.0魏丽:基于LDA主题模型的电商评论数据分析在上述假设的前提下,每条评论由各个主题按照一定比例混合而成,服从多项分布,记为式(9)zl0Multinomial(0)而每个主题又由各个词向量按一定比例混合而成,记为式(1 0)w|Multinomial()最终在评论d,条件下生成词w;的概率表示如公式(1 1)所示P(w;ld,)=ZP(w;l=s)XP(=sld,)按照概率大小的倒序排序,选择前N个作为该主题的关键词,以上便是LDA建模的全过程。4.2LDA主题模型分析本研究在情感分析部分使用 SnowNLP方法将数据划分成了积极、消极评论7。由于本研究目的是仅仅通过文字评论信息进行正、负面评论的分类及两类数据的关键词提取,所以并不使用实际的评论类型,而是选择上述预测结果以保证实验的真实性。在此基础上,利用LDA主题模型对潜在的主题、主题下的关键词进行数据挖掘,并选定最优主题数,最终生成产品好评、差评不同主题的关键词列表。寻找最优主题数的过程,即在无需人工调试的情况下,用相对较少的迭代数,找到最优的主体结构的过程。具体步骤为:首先,假定一开始的主题数为2,得到初始的LDA主题模型,并计算各主题间相似度(平均余弦距离);其次,增大主题数,并分别计算在2 一1 1 主题数的情形下不同的相似度值;最终,确定平均余弦相似度最小时的主题个数为最优主题数。食品正面、负面评论主题数寻优如图4所示:1008106041021(9)(10)(11)21.00806041Q21Q0由图4可知:食品正面、负面评论数据主题数为3时,主题间的平均余弦相似度就达到了最低。因此对于食品数据做主题分析时,可以选取最优主题数为3。通过上述分析,对于食品数据以主题数3进行主题挖掘,输人情感分析结果产生的正、负面评论数据,并设定每一类主题下的词语数量为1 0,生成各主题关键词,初步展示商品特征。食品正、负面评论主题下关键词如表1 所示。主题一主题一质量物流包装速度赞快递购物发货4正面评论LDA主题数寻优。2图4食品正面、负面评论主题数寻优表1 食品正、负面评论主题下关键词正面主题二846负面评论LDA主题数寻优主题三满意很快值得好评8负面主题二活动坚果价格点合适便宜感觉回购主题三贵性价比高味道115第3 3 卷第3 期宝贝味道卖家服务高口感可以看出食品评论数据中正面评论分类效果较好:主题一中高频特征词如“质量”“包装”主要反映食品本身的特质;由于负面评论数据量较少,食品数据的负面主题分类效果一般,大致能够发现食品的负面评论大多集中在“价格贵、活动先提价后降价、味道一般”等上面。5总结本研究运用Python一Scrapy框架分别爬取京东商品产品的热评数据,在数据预处理之后绘制词云,直观观察顾客对于商品特征的需求,初步掌握商品卖点;运用词典匹配、SnowNLP情感分析方法对上述的评论数据进行情感指数预测,其中情感指数越接近于1,表明这条评论越可能是积极评论,并通过柱状图展示各分数段的评论分布情况。由于上述预测结果(情感指数大于0.6 判定为积极评论)与真实分类差别很小,为了模型的真实性,按上述分类方法将所有数据划分成正面、负面评论数据;最终对上述数据进行LDA主题分析,分析文本中有价值的内容。参考文献:1周艳聪,白家文.电商评论的情感分析研究J.中小企业管理与科技,2 0 2 0(1 7):1 30 一1 31.2池毛毛,潘美钰,王伟军.共享住宿与酒店用户评论文本的跨平台比较研究:基于LDA的主题社会网络和情感分析J.图书情报工作,2021,65(2):107116.3赵凯,王鸿源.LDA最优主题数选取方法研究:以CNKI文献为例JJ.统计与决策,2 0 2 0,36(1 6):1 7 5一1 7 9.4张厚栋,徐爱民.基于LDA模型的电商用户评价分析J.浙江万里学院学报,2 0 2 0,33(6):9 1 一9 6.5裴丽丽.基于Python语言对电影影评数据爬虫与词云制作J.信息记录材料,2 0 2 0,2 1(5):1 1 6 一1 1 8.6吴洁.基于用户情感倾向理解的微博情感分析方法研究D.重庆:重庆理工大学,2 0 2 0.7杜彦慢,张军,郑棋方,等.基于SnowNLP技术的微博评论分析研究:以“李子柒”微博为例J.科技经济导刊,2 0 2 0(1 8):37 一37.Data Analysis of E-commerce Reviews Based on LDA Topic Model(Department of Management,Anhui Zhong-Ao Institute of Technology,Hefei 230031,China)Abstract:This article uses JD e-commerce comment data as the research object to discuss the sentiment index and keyword ex-traction of comment data.Firstly,we crawl product review data based on Scarpy framework,analyze customer review data tointuitively understand customers needs and grasp food data characteristics from word clouds.Secondly,the LDA topic model-ing method is applied to analyze the above data for sentiment,to derive the sentiment coefficient of specific review data(thecloser to 1,the more positive),and to understand the distribution of reviews in each score segment.Finally,LDA thematic a-nalysis is performed on the positive and negative comment data respectively to analyze the valuable contents of the text.Keywords:LDA model;crawler;sentiment analysis;SnowNLP;customer review data信阳农林学院学报活动信赖客服购服务态度特别给力价格零食真的品牌正品WEI Li2023年9 月续表完不好做贵零分算物流不用少降价更好挺包装希望说太真的申请(编辑:严佩峰).116

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开