第33卷第3期2023年9月信阳农林学院学报JournalofXinyangAgricultureandForestryUniversityVol.33No.3Sep.2023基于LDA主题模型的电商评论数据分析魏丽(安徽中澳科技职业学院管理系,安徽合肥230031)摘要:以京东电商评论数据为研究对象,探讨评论数据的情感指数及关键词提取。首先,基于Scarpy框架爬取商品评论数据,分析顾客评论数据,直观地了解顾客的需求,从词云中掌握食品数据特点;其次运用LDA主题建模方法对上述数据进行情感分析,得出具体评论数据的情感系数(越接近1越积极),了解各分数段的评论分布情况;最终,分别对正、负评论数据进行LDA主题分析,分析文本中有价值的内容。关键词:LDA模型;爬虫;情感分析;SnowNLP;顾客评论数据中图分类号:TP391.1商品评论数据分析一直是国内外研究的热点,通过对顾客的评论信息进行情感分析,可以推断出他们的消费偏好、消费缘由等1,从而使商家更好地制定商品的发展策略,提升商品和服务的质量,以吸引更多的消费者购买。电商评论数据中含有大量的有用信息,这些文字评论既体现顾客购买后对于商品、客服的情感表达,也成为了顾客购物决策的参考标准。因此对于电商评论数据进行挖掘,能够估计顾客的情感倾向和卖家的管理、运营情况,更好地帮助企业改进自身产品的不足,提升服务质量,吸引更多的顾客购买;同时帮助顾客根据数据分析的结果确定该产品是否符合自己的预期。1模型简介1.1SnowNLP本研究利用SnowNLP工具对食品评论的内容进行文本情感分析[2}。具体思路为:分词提取特征一特征选择一分类模型一识别结果。SnowNLP情感分析是基于内置的情感系统所实现的,它将文本简单地分为积极与消极两类,输人文本评论信息即可获得返回值:这条评论是正面评论的概率(越接近于1越积极,接近0为消极)。其底层思想为朴素贝叶斯模型,在已知样本信息的情况下推测评论信息积极的概率,具体如公式(1)所示:(1)其中ci代表某条评论分类为积极,而w1,W2,,w,代表每条评论的样本信息(每条评论被划分成n个词向量,每个词向量都有一定的积极性权重,相加可得评论的积极性得分信息)。1.2LDA主题模型LDA是一个三层贝叶斯模型[3},其中每一个文档都被看做不同主题的随机混合项,而每个主题都是由单词组成的分布。在给定主题数K、文档集合数M以及词汇表V的条件下,词向量的分布由P(w,=|n=t)定义,并由矩阵(K×V)表示。同样类似的的是主题的条件分布:P(z,=tld,=d),并由9(M×K)表示。语料库w和相应主...