温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
LDA
模型
商用
评价
分析
杜利
作者简介:杜利(),男,北京邮电大学经济管理学院硕士研究生,研究方向:服务运营与大数据管理。基于 模型的电商用户评价分析杜利(北京邮电大学 经济管理学院,北京 )摘要:随着电子商务迅速发展,商品在线评论服务的重要性日益凸显。评论蕴含了众多消费者对特定产品和相关服务的真实感受,反映出了许多消费者的态度、立场和意见,具有非常宝贵的调研价值。以某电商平台的某款手机产生的评论为实验数据,对其进行了分词、词性标注和评论文本信息的预处理。基于预处理后的用户数据进行客户情感分析,使用 主题模型来分析用户评论,了解其潜在目标用户的需求、意见、购买原因,以及产品的优缺点,提出全面改善产品交互体验的相关建议。关键词:电商用户;在线评论;情感分析;模型;主题分析中图分类号:文献标识码:(,):,:;引言随着互联网和电子商务的建设发展,人们日常生活的消费购物服务方式发生了巨大的变化。中国互联网络信息中心()发布的 第 次中国互联网发展统计报告指出,截至 年 月,中国移动互联网用户已经超过 亿人,网上虚拟购物用户也达到 亿人,比 年月增加 万人。年,全国网络零售额 总 量 达 到 万 亿 元,比 年 增 长 。随着网络购物规模和频率的不断增加,越来越多消费者也习惯在商品购买结束后发表评论,包括个人观点、情感信息、使用体验、价格、商品物流等内容感知。相比于传统的市场需求调研,在线产品评论一般不受工作时间、地域、职业差异等影响,用户对产品特性和产品服务的改进要求,均能得到直观展现,能够较为客观、全面、及时地反映当前市场需求变化。图网络购物用户规模及使用率对消费者来说,这是一种反馈意见的方式,同时,也是一种信息获取方式,通过了解商品质量和售后服务来影响购买决策。对于商家来说,与用户之间的互动不仅可以帮助用户选择,增加用户粘性,还可以收集和分析在线用户评论内容,改进自己的产品,加强内部管理,提高竞争力。年月科技创业月刊第 卷第期本文利用 采 集 京 东 自 营 旗 舰 店 的 商品在线文本评论数据,将文本挖掘处理碎片化、非结构化的电商网站评论数据,转化为结构化数据。参考知网发布的情感分析词汇集,统计评论数据的正负情感指数,进行情感分析,通过词云图直观查看正负评论的 关 键 词。最 后,通 过 潜 在 狄 利 克 雷 分 配(,)模型,了解用户的需求、意见、购买原因、产品的优缺点等,提取评论的关键信息,提出提高用户满意度的建议。数据获取与处理数据采集以来自京东的 旗舰店数据,选择最近流行的手机产品,找到网页源码地址,使用 的 对页面内容进行分析,并在 年月 日前循环爬取该产品的所有用户评论,共 条。根据用户名、评论内容、购买时间、点赞数、回复数、评分时间、手机型号,将获得的商品数据写入 格式文件中。数据预处理由于原始评论数据上的重复评论和自动评论都会影响数据分析和结果,导致数据分析与实际情况间的偏差,因此对数据的预处理至关重要。结合系统原始评论数据,删除所有自动评论和重复评论,共删除 条评论,剩余评论 条。继续对目标文本内容进行预处理,对目标文本进行分段、分句、分词、词性标记,并删除文本中的停用词。数据清洗数据清洗是通过软件对数据重复信息进行信息审查与判断处理和数据校验分析的综合过程,目的在于删除重复数据或错误信息,保证数据一致性。表部分数据清洗结果原句清洗后真的很喜欢 ,流畅度很好,底层流畅不是加一个高刷屏就能解决的,其次这个绿色是真心好看,很清新,男生用也没问题,屏幕显示效果太好了,色彩准确,拍照音质都很不错,续航还行真的很喜欢,流畅度很好,底层流畅不是加一个高刷屏就能解决的,其次这个绿色是真心好看,很清新,男生用也没问题,屏幕显示效果太好了,色彩准确,拍照音质都很不错,续航还行特别特别好,手感也好,有质感,物超所值,第一批拿到货的。很像 的手感,棱角分明,拿在手里,我就是最靓的仔,很喜欢,打算再买一个 体验一下,苹果,华为我都支持一下,加油特别特别好,手感也好,有质感,物超所值,第一批拿到货的。很像的手感,棱角分明,拿在手里,我就是最靓的仔,很喜欢,打算再买一个体验一下,华为我都支持一下,加油文本分词和词性标注经过对上述评论的文本内容进行处理后,需要对该评论的文本内容进行中文分词,确定情感分析结果。中文做分词远比英文做分词更加复杂,英语句子结构中单词是可 以 用 空 格 来 进 行 分 隔 处 理 的,而 汉 语 没 有 空格。为了解决这个问题,需要处理好评论中需要使用到的各种文字标记,然后去做中文分词。分词编码和词性标注处理后产生的最终结果如表所示。表分词及词性标注部分结果原句分词及词性标注结果上 个 月 下 旬 买的,是帮朋友下的 单,第 一 次买,这 么 贵 的,拿 在 手 里 很 有份量哦,手感非常 不 错 哦!系统非常的流畅,拍照也很清晰!(上个月,),(下旬,),(买,),(的,),(,),(是,),(帮,),(朋友,),(下,),(的,),(单,),(,),(第一次,),(买,),(,),(这么,),(贵,),(的,),(,),(拿,),(在,),(手里,),(很,),(有,),(份量,),(哦,),(,),(手感,),(非常,),(不错,),(哦,),(!,),(系统,),(非常,),(的,),(流畅,),(,),(拍照,),(也,),(很,),(清晰,),(!,)去除停用词评论大多也是口语化的,会有很多如啊 呃或在之类的词。这类叫停用词,不能体现主题。停用词可能没用,但它出现的频率可能很高。如果不能够予以处理,会导致在一定程度上影响实验结果。词云图经过上述的文本数据预处理后,再对处理生成的评论数据进行词云分析,如图所示。可以看出,消费者提到最多的四个词是“好看”“速度”“喜欢”“拍照”。可见大部分消费者主观上仍然是十分认同这次消费的,苹果作为智能手机的龙头厂商,实力雄厚,名副其实。商家可以通过词云了解用户的需求,也可以让用户对产品有一个整体了解,帮助用户在购买前快速提炼评论内容。图词云图基于 模型的商品在线评论分析评论数据情感倾向分析情感分析是自然语言处理的相关分支领域,其主要任务是分析某个单词、段落内容或一篇文章中所包含的情感色彩。过去在有人要购买某商品时,往往就会事先向亲朋好友询问有关该件商品的使用感受,然后才选择是否购买。每个评论往往都是包含着消费者对商品的杜利基于 模型的电商用户评价分析科技创业月刊,():基本情感取向,购买者们往往会根据这些评论进行理性选择。任何一种评论风格都会影响购买者个人的购买意愿,因此进行情感分析显得尤为重要。匹配情感词情感倾向也叫情感极性。在用户对商品进行留言评论过程中,可以直接了解该用户对该款商品看法的态度是支持、反对还是中立,通常称为积极情绪、消极情绪和中立情绪。由于本案例主要分析产品本身的一些优缺点,所以只需要去确定每个用户对于评论内容的主观情感倾向,不需要具体分析每条用户评论内容的情感程度。分析评论的情感倾向,首先是情感词匹配,主要是词典匹配。本案例中使用的正面情感词汇是来自我国于 年 月 日在知网发布的 用于情感分析的词汇(版)。将“中文正面评论”和“中文正面情感”这两个词汇组合起来,给每个组合词设置初始权重为,就是本案例的正面评论情感词汇。将“中文负面评价”和“中文负面情绪”这两个词汇组合起来,给每个词增加初始的权重,作为本案例的一个负面评论情绪词汇。一般基于词汇的情感分析方法往往与情感词汇中的词有很强的相关性。如果情感词汇中的词语足够全面,并且词语符合案例场景中所表达的情感,那么情感分析效果会更好。对于这个案例场景,需要对知网提供的词汇进行优化。比如“高赞”“超值”“差评”“五分”等词汇,只有在网购评论中出现时,可以根据词汇的情感倾向,添加到相应的情感词汇中。在积极情绪词汇中加入“满意”“赞美”“很快”“”“很值”“很有力量”“支持”等词汇。在负面情绪词汇中加入“差评”“贵”“高”等词汇。在正面和负面评论的情感词汇中读取,正面词的初始权重为,负面词的初始权重为。使用 函数,根据单词将情感词汇与分词结果进行匹配。修正情感倾向情感方向修正法主要是指根据情感词中是否存在着同一否定词,去判断其情感值正确与否,由于汉语词汇结构中,存在着奇数否定词,表示否定的意思,即当这一否定词连续出现奇数次,表示这是一个否定的意思;或当否定词出现偶数次时,表示为肯定的意思。本文中使用到的否定助词表中共有 个否定词,分别记为:不、没、无、非、莫、弗、毋、未、否、别、無、休、不是、不能、不可、没有、不用、不要、从没、不太。读入否定代词表,对情感值的方向进行修正。计算出每条评论信息的情感得分,将评论内容分为正面评论和负面评论,并据此计算出情感分析的结果的统计准确率。运行代码,可得正面情感评论词云如图所示,负面情感评论词云如图所示。为了找出产品评论文本之间蕴含的语义关系,分析其产品属性特征的差异优劣,有必要系统地对这些评论图正面情感词云图负面情感词云的文本语义进行进一步的综合提炼,挖掘评论文本中包含的主题词。文本评论的 主题分析 模型介绍 模型是一种主题模型。它通过分析每篇文档中使用的每个文本主题类型,抽取出代表它们概率特征类型的文本主题,可以进行文本主题的聚类分析或文本主题分类。它实际上是一种典型的词袋模型,即每一篇文档内容均是由某一组词所构成的,词组之间完全没有任何时间先后顺序的关系。建立 主题模型,首先需要建立词典及语料库,方可进行主题分析。寻找最优主题数基于相似度的自适应最优 模型选择方法,确定主题数并进行主题分析。实验证明该方法可以做到不需要人工调试主题数目的情况下,用相对少的迭代,找到最优的主题结构。使用 主题模型,找出不同类型的主题数下相同的主题词集;并且从每个主题模型上随机取出了若干个主题词(比如前 个),合并成一个集合;生成任何两个主题间的词频向量;计算两个向量数的余弦相似度,值越大表示越相似;计算主题数的平均余弦相似度,寻找最优主题数。运行代码可得主题间的平均余弦相似度图,如图所示。由图可知,对于正面评论数据,当主题数为或时,主题间的平均余弦相似度达到最低。因此,对正面评论数据做 ;对于负面评论数据,当选择的主题数为时,主题间平均余弦相似度达到最低。因此,对负面评论数据做 ,可以选择主题数为。评价主题分析结果根据 主 题 数 寻 优 结 果,使 用 基 于 框 架 的 模块对正、负面评论分析数据并分别构建 主题模型,设置主题数为经过 主题分析后,每个科技创业月刊 年月第 卷第期 ,图主题间平均余弦相似度主题下生成 个最有可能出现的词语以及相应的概率,可得 主题分析结果如表、表所示。表手机正面评价潜在主题主题主题主题速度喜欢不错真的很快拍照流畅满意屏幕运行感觉好看效果特别系统太手感快递价格值得电池充电收到颜色包装物流发货表手机负面评价潜在主题主题主题主题不错屏幕高充电拍照不好贵垃圾客服体验差收到真的速度信号点确实流畅特别售后质量系统感觉一点外观手感太表反映了手机正面评价文本中的潜在主题。主题中的高频特色词主要关注速度、流畅性和操作性,主要体现手机的平稳运行。主题中的高频特征词,即重点主要是喜欢、满意等,主要体现了手机的良好质量和令人满意的产品;主题中的高频功能,即屏幕、好看、颜色等,主要体现了手机的美观外观,其基本功能如拍照、发声等都很好。表反映出手机负面评价文本中包含的潜在主题,主题文本中包含的高频特征词的主要关注点在贵、价格等,意味着有部分消费者对手机价格过高而产生不反满;主题中高频特征词则主要与外观、屏幕这几方面,映产品质量也确实存在部分问题;主题中的高频特征词主要与客服、信号有关,即主要反映的是手机售后产品质量存在某些问题。基于以上对主题和高频特征词的分析,这款手机的优点是:外观好,产品性能优秀。相对而言,用户对手机的抱怨主要体现在手机价格高,部分手机质量管控不到位。结语本文向读者展示了使用 处 理 电 商 文 本 数据。通过使用 爬取案例数据,对文本数据进行预处理、分词、去停词等操作,在知网情感词表上进行优化,并基于词表进行情感词汇分析。最后,利用 对案例好评率和案例差评率进行主