温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
数据
挖掘
火锅店
服务
评价
改进
研究
王寒冰
科技视界Science&Technology Vision作 者 简介:王 寒冰,研究 生,工 程 师,研究 方向 为 计算 机 应 用 技术和高 新 技 术 标 准。0引言大数据技术越来越多地应用于各行各业,通过数据挖掘分等技术研究分析行业发展规律,能够为业务决策者提供有力的支持。因此,本文将主要利用数据挖掘技术对选定火锅店的在线用户的点餐数据进行关联分析,研究一套简单通用的数据分析方法为火锅行业的菜品定制化搭配和精细化服务的提供参考。在数据采集方面,网页爬虫技术1是目前比较流行的方法,该方法通过识别网页 HTML 上的标签来实现数据的自动化抓取。基于 Python 的网页爬虫函数库有很多,BeautifulSoup2和 XPath3是使用较多的两种。而在数据挖掘方面也有很多成熟的方法4-5,在功能层面可分为预测法和描述法6两种。其中描述法是一种用于研究数据内在本质,概括研究对象特征的方法。其主要侧重于描述事物间的内在联系,主要分为关联分析和聚类分析两种方法。其中关联分析用于发现隐藏在大数据集中的有意义的联系,找出数据中相互关联的规则。典型的关联分析算法包括 R.agrawal 等人提出的 Apriori 算法,Apriori Tid 算法和 Apriori Hybrid算法7。而 IBM SPSS Modeler8则是一种可以提供基于过程的算法设计的软件,其包含许多可以直接使用的设计数据模型,如 Apriori、Carma、K-means、KNN 等。本文拟对某海底捞火锅店在线用户数据进行抓取并分析,通过对用户点餐及评价行为建模,分析菜品与服务评价的关联性。文章的第二章节是方案设计与实现部分,主要包括方案整体设计,数据采集及预处理的内容;第三章节中介绍使用 SPSS Modeler 对关联模型的详细建模方法,并分析结果;第四章节是文章的总结部分。1方案设计与实现1.1整体方案设计如图 1 所示,本文工作包括数据采集、数据处理、数据挖掘和数据可视化四个部分组成。其中,在数据采集阶段用 Beautiful Soup 采集用户数据;在数据处理节点使用 Excel 对数据进行标准化处理,包括增删改查、二值化等操作;在数据挖掘阶段使用 PSSModeler 对数据进行进一步处理,即使用 Apriori 算法建模关联模型并分析;最后在数据结果可视化阶段,整理分析结果并以文本和图表的方法展示。1.2数据采集本文获取的用户点餐信息和评价信息来自大众点评网站。数据获取方式采用爬虫技术,主要使用基于 python 的 Beautiful Soup 函数库。如图 2 所示,获取的数据包括用户名、用户点菜信息、用户评分信息、用户评价信息等。DOI:10.19694/ki.issn2095-2457.2022.31.53基于数据挖掘的火锅店服务评价改进研究王寒冰(安徽省质量和标准化研究院,安徽 合肥230001)【摘要】大 数据 技术的 发展 推 动着 社会 资 源 的 数 据化 进 程,也 为各行 业 开 辟 出 新的 价值 领域。近 些年 火 锅行 业发展 迅速,但 同样 面临 着提 升个性 化 服 务和精 准 服务 的 瓶颈 问 题。本 文依 托 线上 点 餐 平 台,采 用 数 据 挖 掘 技 术 获 取 用 户的在 线 点餐 和 评 价数 据,通过 对数 据 进行 建 模并 对 菜 品 关联 性 和 用 户 评 价 关 联 性 的 分 析,以 期 为 火 锅 行 业 的 有 序 发展,提 升服务 质 量提 供 参 考。【关 键词】火 锅行 业;大数据;数 据 挖掘;关 联分 析管理科学186Science&Technology Vision科技视界(a)用 户点 餐 信息 表(b)用户 评 价信 息 表图2图1整体方案设计流程为了分析用户点菜的菜品之间的关联性,从大众点评网站上采集用户的详细点餐数据,图 2(a)中每行数据是用户的一次点餐信息。由于每个菜品信息都反映了用户点餐倾向,因此每条点餐信息中包含的菜品可以看作是一个菜品集合,其中各个菜品之间存在一定的相关性。本文将分析各菜品之间的关联性,从而找出哪些菜品组合更受用户青睐,以期提供更精准的菜品推荐。同时,图 2(b)中的每行数据是用户的一次评价信息。用户的评论信息属于纯文本数据,本文将首先使用文本分词技术从中提取关键词,再进一步分析各个关键词与评分信息的相关性。3关联分析本章节将基于前文中采集的用户点餐源数据和评价源数据分别对菜品关联性和用户评价关联性建模分析。首先需要对采集数据进行预处理操作,再介绍通过 PSS Modeler 软件使用 Apriori 算法进行关联分析建模的方法,最后分析结果数据提出具体建议。3.1菜品关联分析在数据预处理阶段,本文使用 Excel 对用户点餐源数据进行处理,并删除了一些冗余信息。最终,获取到该火锅店从 2016 年到 2020 年共计 4278 条源数据。图 3 中,从源数据中提取了各种菜品信息,并对每条点餐信息进行了二值化处理,以便为下一步的关联性建模做准备。图3用户点餐信息预处理将预处理数据导入 SPSS Modeler 中,在设置好相关参数后选择 Apriori 算法进行建模。模型配置流程如图 4 所示,包括数据导入,类型选择,字段选择和数管理科学187科技视界Science&Technology Vision据建模四个步骤。主要的配置参数包括“最小支持度”和“最小置信度”,其中支持度是指数据集中规则应验的次数,可用于计算一组事务(前项和后项)被选择的概率;而置信度是指规则的准确率,可用于计算用户选择前项后又选择后项的概率,这里分别设置为 5.0和 10.0。图4菜品关联模型配置流程图从图 5 中的菜品关联分析结果可以看出哪些菜品组合更受到顾客的青睐,结果按照置信度百分比降序排列。在此基础上,对每种菜品分别统计其与其他单项菜品间的置信度,结果如图 6 所示。图5菜品关联分析结果图6菜品单项关联性分析结果3.2用户评价关联分析用户评价源数据的预处理过程与菜品关联分析相似使用基于 TF-IDF 算法的关键词提取技术,具体使用基于 python 的中文分词函数库 jieba。其中,主要使用了函数“jieba.analysis.extract_tags”。用到了分词参数的前 1000 个权重,关键词类型选择包括名词、动词、形容词等。其次,分析了关键词的权重并选择了前600 个关键词。在此基础上,使用知识图谱对其进行分类,具体使用 CN-DBpedia 函数库。最后,将关键词分为 29 个类别,并结合用户的评价信息进行二值化处理。结果如图 7 所示。经过数据预处理,最终得到了 5161 条有效数据。将其导入到 SPSS Modeler 中,选择 Apriori 算法进行建模和分析。其中,将“最小支持度”设置为 3.0,将“最小置信度”设置为 5.0。模型配置流程如图 8 所示。图8用户评分关联性模型配置流程图图9 展示的是降序排列的结果。可以看出,一些菜品是用户做出高评价的原因比如额外的表演,支持深夜营业等。因此,通过对用户评价的关联分析,可以直观地分析出火锅店的菜品和服务对火锅店的影响程管理科学188Science&Technology Vision科技视界度,而这些因素都是进一步调整火锅店营销策略的重要依据。图9用户评价关联分析结果4结语本文通过对某火锅店在线用户点餐及评价数据的关联分析基础上,挖掘有价值的菜品组合和评价服务信息,这对于火锅店营销策略的调整,进一步提升服务质量具有重要的参考意义。同时,该问题出的方法对于其他餐饮业也是适用性的,具备一定的推广应用价值。【参考文献】1黄雨辰,童彤.基于Scrapy爬虫框架下电商数据分析J.安阳师范学院学报,2021(5):132-136.2李晨昊.基于BeautifulSoup+requests和selenium爬虫网页自动化处理的实现和性能对比J.现代信息科技,2021,5(16):10-12.3王康,史雅婷,梁洪炎,等.基于XPath的天气数据的爬取研究J.江苏通信,2021,37(5):83-84.4李静.基于大众点评网餐饮业商家分类探究D.浙江工商大学,2018.5王丽丽.大数据背景下数据挖掘技术的应用J.计算机与网络,2021,47(20):45-47.6王瑞.大数据时代的数据挖掘技术与应用J.轻工科技,2021,37(9):72-73.7裘慧奇.基于向量矩阵的Apriori改进算法研究J.上海理工大学学报,2022,44(1):56-61.8张黎明,赵丽娟.基于SPSS Modeler的涉警网络舆情预警研究J.网络安全技术与应用,2021(10):145-148.图7用户评价信息预处理结果管理科学189