科技视界Science&TechnologyVision作者简介:王寒冰,研究生,工程师,研究方向为计算机应用技术和高新技术标准。0引言大数据技术越来越多地应用于各行各业,通过数据挖掘分等技术研究分析行业发展规律,能够为业务决策者提供有力的支持。因此,本文将主要利用数据挖掘技术对选定火锅店的在线用户的点餐数据进行关联分析,研究一套简单通用的数据分析方法为火锅行业的菜品定制化搭配和精细化服务的提供参考。在数据采集方面,网页爬虫技术[1]是目前比较流行的方法,该方法通过识别网页HTML上的标签来实现数据的自动化抓取。基于Python的网页爬虫函数库有很多,BeautifulSoup[2]和XPath[3]是使用较多的两种。而在数据挖掘方面也有很多成熟的方法[4-5],在功能层面可分为预测法和描述法[6]两种。其中描述法是一种用于研究数据内在本质,概括研究对象特征的方法。其主要侧重于描述事物间的内在联系,主要分为关联分析和聚类分析两种方法。其中关联分析用于发现隐藏在大数据集中的有意义的联系,找出数据中相互关联的规则。典型的关联分析算法包括R.agrawal等人提出的Apriori算法,AprioriTid算法和AprioriHybrid算法[7]。而IBMSPSSModeler[8]则是一种可以提供基于过程的算法设计的软件,其包含许多可以直接使用的设计数据模型,如Apriori、Carma、K-means、KNN等。本文拟对某海底捞火锅店在线用户数据进行抓取并分析,通过对用户点餐及评价行为建模,分析菜品与服务评价的关联性。文章的第二章节是方案设计与实现部分,主要包括方案整体设计,数据采集及预处理的内容;第三章节中介绍使用SPSSModeler对关联模型的详细建模方法,并分析结果;第四章节是文章的总结部分。1方案设计与实现1.1整体方案设计如图1所示,本文工作包括数据采集、数据处理、数据挖掘和数据可视化四个部分组成。其中,在数据采集阶段用BeautifulSoup采集用户数据;在数据处理节点使用Excel对数据进行标准化处理,包括增删改查、二值化等操作;在数据挖掘阶段使用PSSModeler对数据进行进一步处理,即使用Apriori算法建模关联模型并分析;最后在数据结果可视化阶段,整理分析结果并以文本和图表的方法展示。1.2数据采集本文获取的用户点餐信息和评价信息来自大众点评网站。数据获取方式采用爬虫技术,主要使用基于python的BeautifulSoup函数库。如图2所示,获取的数据包括用户名、用户点菜信息、用户评分信息、用户评价信息等。DOI:10.19694/j.cnki.issn2095-2457.2022.31.53基于...