分享
基于Apriori算法的关联规则分析应用_殷丽凤.pdf
下载文档

ID:2578636

大小:1.62MB

页数:5页

格式:PDF

时间:2023-08-01

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 Apriori 算法 关联 规则 分析 应用 殷丽凤
电子设计工程Electronic Design Engineering第31卷Vol.31第15期No.152023年8月Aug.2023收稿日期:2022-03-09稿件编号:202203078基金项目:国家自然科学基金(61771087)作者简介:殷丽凤(1976),女,黑龙江海伦人,博士,副教授。研究方向:大数据挖掘与分析、不确定XML规范化处理、查询。目前,随着整个社会进入到信息化时代,大量的信息和数据成为了当前时代的特征。在大数据时代下,数据就是人类的无形财富和资产。在不断产生海量数据的情况下,必须利用新的技术手段和工具来处理海量的数据集,从而更加智慧地提取数据中有用的信息。关联规则挖掘技术是数据挖掘最重要的方法之一,凡是涉及从数据中获取知识的问题,关联规则挖掘都可能成为有力的工具。现如今关联规则挖掘已经应用到各行各业,例如销售行业、金融、教育等。文中利用关联规则挖掘中最经典的 Apriori算法,使用公共数据集MovieLens进行电影标签推荐的研究。1数据挖掘和关联规则1.1数据挖掘数据挖掘技术是数据分析方法,它从大量的、模基于Apriori算法的关联规则分析应用殷丽凤,李明状(大连交通大学 软件学院,辽宁 大连 116028)摘要:Apriori算法是关联规则的经典算法之一。文中是基于对Apriori算法原理的研究从而完成电影标签推荐的应用,实现当用户给自己喜欢的电影打标签时,可通过关联规则进行电影推荐。实验采用 Python语言实现 Apriori算法,对数据集 MovieLens采用 One-hot编码进行处理,利用 Apriori算法寻找到数据集中的频繁项集,根据找到的频繁项集生成关联规则。实验结果表明,基于Apriori算法的电影标签推荐得到的实验结果更准确、快速、高效,同时也取得了良好的电影标签推荐效果,从而提升用户体验。关键词:Apriori算法;电影推荐;关联规则;数据挖掘中图分类号:TN311.13文献标识码:A文章编号:1674-6236(2023)15-0011-04DOI:10.14022/j.issn1674-6236.2023.15.003Analysis and application of association rules based on Apriori algorithmYIN Lifeng,LI Mingzhuang(School of Software,Dalian Jiaotong University,Dalian 116028,China)Abstract:Apriori algorithm is one of the classic algorithms of association rules.This paper is based on astudy of the principles of Apriori algorithms to complete the application of movie tag recommendations.When users tag their favorite movies,they can recommend movies through association rules.Theexperiment uses the Python language to implement the Apriori algorithm,uses the Onehot encoding toprocess the data set MovieLens,uses the Apriori algorithm to find the frequent itemsets in the data set,and generates association rules according to the found frequent itemsets.The experimental results showthat the experimental results of the movie tag recommendation based on the Apriori algorithm are moreaccurate,fast and efficient,and also achieve a good movie tag recommendation effect,thereby improvingthe user experience.Keywords:Apriori algorithm;movie recommendation;association rules;data mining-11电子设计工程 2023年第15期糊的、有噪音的数据中挖掘出具有潜在价值的、隐藏的、未知的概念、规则和模式。1.2关联规则关联规则挖掘是一种处理大量数据集中各项之间隐藏的属性关系的方法。假设两项或者多项属性之间存在一定关联,则一项属性就能按照其他属性进行判定1。下面给出项、项集、项集的频数、支持度、置信度、作用度、最小支持度和最小置信度等关联规则的相关概念。1)项与项集设I=i1,i2,im,i1,i2,im称为项,集合I称为项集。2)项集的频数包括项集的事务数称为项集的频数,事务数代表数据集中的记录数,数据库中的一条记录称为事务,频数被用于支持度的计数3。3)支持度(Support)关联规则XY的支持度反映了所有事务集中X,Y出现的可能性2,公式如下所示。Support(XY)=NUM(XY)|D(1)式中,D 表示整个事务集,|D表示 D 中事务的总数,NUM(X Y)表示数据集中 X与 Y同时出现在一条事务记录中的次数3。4)置信度(Confidence)关联规则XY的置信度反映了事务X,Y在事务 X 单独发生的情况下所占的比重,公式如下所示。Confidence(XY)=Support(XY)Support(X)(2)5)作用度(Lift)关联规则XY的作用度反映了事务Y发生的条件下,同时含有事务 X 的概率与仅关注事务 X 发生概率的之比,实质上就是置信度和期望置信度的比值4,公式如下所示。Lift(XY)=Confidence(XY)P(Y)(3)6)确信度(Conviction)关联规则XY的确信度反映了事务X出现而事务Y不出现的概率,公式如下所示。Conviction(XY)=1-Support(Y)1-Confidence(XY)(4)7)最小支持度与最小置信度最小支持度(min_Sup)与最小置信度(min_Conf)是根据实际情况人为设定的,通过比较事务集的支持度与最小支持度,进行剪枝操作。最小支持度反映了关联规则的最低重要程度,最小置信度规定了关联规则必须满足的最低可靠性3。8)频繁项集频繁项集即支持度大于min_Sup的事务集。9)强关联规则在频繁项集中,置信度大于或等于最小置信度的关联规则称为强关联规则5。2Apriori算法原理Apriori算法是关联规则挖掘频繁项集的经典算法之一6,基本思想就是利用层层迭代的方式逐层获取频繁项集7。频繁k-项集Lk用于搜索频繁(k+1)-项集Lk+1,反复循环,直到不能找到新的频繁项集为止,然后通过频繁项集挖掘出强关联规则8。为了提高频繁项集产生的效率,Apriori算法有如下两个性质:性质1:事务数据库D中有两个项集分别为X与Y,假设满足XY,且Y是一个频繁项集,X,则推出X是频繁项集9。性质2:事务数据库D中有两个项集分别为X与Y,假设满足 XY,且当 X是一个非频繁项集时,则 Y也是非频繁项集。Apriori算法步骤如下9:Step1:设定最小支持度及最小置信度。Step2:通过扫描事务数据库后,计算每一个事务集的支持度。将其与最小支持度进行对比,所有支持度大于或等于最小支持度的事务集被称为频繁1-项集,该集合记为L110。Step3:扫描 L1,将 L1中的事务集进行自连接,形成频繁2-项集的候选集C2。Step4:遍历 C2中所有的事务项,计算每个事务项的支持度,支持度不低于最小支持度的项集则为频繁2-项集10,该集合记为L2。Step5:重复 Step3,Step4 过程,直到不能再找到频繁k-项集。Step6:计算频繁 k-项集中元素之间的置信度,根据min_Conf筛选产生关联规则11。算法流程图如图1所示。3算法实现与结果分析3.1获取数据集MovieLens 数据集是推荐系统领域最为经典的-12数据集之一12。文中采用 MovieLens 数据集中的movie.csv文件,该文件包括 movieId(电影编号)、title(电影名称)、genres(电影标签)三个属性参数13。3.2用One-hot编码进行数据预处理One-hot 编码也称“独热编码”,又称一位有效编码,使用 One-hot编码,主要是采用 N 位状态寄存器来对 N 个状态进行编码,每个状态都有独立的寄存器位,并且在任意时候只有一位有效14。在数据处理任务中,为了加快速度,通常需要对数据进行特征数字化,三个特征属性的例子如下:性别:“male”,“female”地区:“China”,“US”,“Asia”浏览器:“Firefox”,“Chrome”,“Safari”,“MicrosoftEdge”对 于 某 一 个 样 本,如 “female”,“China”,“Safari”,在进行数据预处理之前,要将这个样本值的特征采用序列化的方式进行数字化。如性别的两个特征属性值“male”和“female”对应的数值分别为0和 1;地区的三个特征属性值“China”“US”“Asia”对应的数值为0、1、2,浏览器四个特征属性值对应的数值分别为0、1、2、3。样本“female”,“China”,“Safari”序列化的结果为1,0,2。但序列化特征处理并不能直接放入算法中,为了解决此问题,可以采用 One-hot编码处理。在 One-hot编码中,样本值中有多少特征属性值,就用多少维来表示这个特征15。采取One-Hot 编码处理方式对样本“female”,“China”,“Safari”进行编码,“female”对应0,1,“China”对应1,0,0,“Safari”对应0,0,1,0。则完整的编码结果为0,1,1,0,0,0,0,1,0。文中采用的MovieLens数据集非常规则,对于数据预处理分为如下步骤:Step1:查看genres数据列的类型;Step2:将genres列数据进行One-hot编码;Step3:电影类型之间使用“|”分隔符隔开;Step4:把genres列去掉,分割之后再拼接上;Step5:把 genres转换为字符串类型,然后按竖线进行分割。用One-hot编码处理MovieLens数据集得到的部分结果如图2所示。图2用One-hot编码处理数据后的部分数据集3.3实验过程利用 Apriori算法生成频繁项集,通过与最小置信度比较生成关联规则8。例如关联规则XY,用户喜欢X类型标签电影,则该用户很可能喜欢Y类型标签的电影。文中设定最小作用度,只返回高于最小作用度的关联规则。作用度反映了在用户给电影标签为X时,推荐用户标签Y的电影出现概率发生了多大的变化16。整个实验的过程如下:1)扫描事务数据集,累计每个事务出现的次数,设置最小支持度为0.02;2)按照支持度大小输出频繁项集;3)根据所产生的频繁项集计算关联规则,设定最小作用度为2;4)按照作用度从大到小排序,得到的关联规则本地保存。图1Apriori算法流程图殷丽凤,等基于Apriori算法的关联规则分析应用-13电子设计工程 2023年第15期3.4结果分析根据实验过程中步骤 2,通过 Apriori 算法遍历每条电影数据,大于最小支持度 0.02的项集则为频繁项集,共计频繁项集 38 条,输出的部分频繁项集如表1所示。表1部分频繁项集项集(Drama)(Comedy)(Thriller)(Romance)(

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开