温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
标签
电影
推荐
算法
研究
,基金项目微型电脑应用 年第 卷第期基金项目:承德市 科 技计划项目();年度河北 省引进国外智力项目();河北民族 师 范 学 院 校 级 基 金 项 目()作者简介:张萌(),女,本科,研究方向为机器学习。通信作者:纪佳琪(),男,博士,副教授,研究方向为机器学习、深度学习、推荐系统。文章编号:()基于标签的电影推荐算法研究张萌,纪佳琪(河北民族师范学院,数学与计算机科学学院,河北,承德 )摘要:为了有效解决用户在电影网站海量资源中寻找兴趣度高的电影时效率低这一问题,研究了一种基于标签的推荐算法。根据用户与标签的关系计算用户对标签的兴趣度;构建标签基因矩阵以及兴趣度矩阵,计算出用户对电影的喜好程度;为用户推荐喜好程度高的电影,提高用户对电影网站的好感度。通过在实际数据集上应用基于标签的推荐算法,验证了该算法的可行性以及有效性。关键词:标签;推荐算法;协同过滤中图分类号:文献标志码:,(,):,:;引言随着互联网时代的到来,日益增长的数据信息使得人们在电影网站获取电影资源的效率变低,这就要求我们的网站尽可能根据用户留下的信息去分析用户可能感兴趣的电影资源并推荐给用户。传统的推荐算法有很多种,基于物品的推荐算法,基于用户的推荐算法等,而近年来基于标签的推荐算法逐渐应用于多个领域。将基于标签的算法应用于现实电影推荐系统中可以为用户带来很大的便利,也可间接地促进电影产业的发展。基于标签的推荐算法推荐算法的目的是联系用户和物品,标签推荐算法中的标签是联系用户和物品的媒介。标签推荐算法的原理是进行用户兴趣建模,需要根据训练数据构建矩阵得出用户对所有物品的喜好程度矩阵,在得到的计算结果中选取前个推荐给用户。标签推荐算法计算过程 计算用户对标签的喜好程度用户对一个标签的认可度可以使用二元关系来表示,这种关系只有“是”“否”两种结果,实际上难以准确地表达出用户对物品的喜好程度。因此,我们可以用连续数值来表示用户对物品的喜好程度,范围在之间,便于对喜好程度进行区分和排序。用户对标签的喜好程度计算式为 (,)(,)(,)(,)()式中,分子为用户对物品的评分 与物品与标签的相关度 乘积之和,分母为物品与标签相关度的和,代表用户,代表电影,代表标签。下面对具体计算过程进行说明。例如:有位用户、部电影和个标签。由图可得,用户对电影、电影和电影的评分分别为分、分和分(例子中最高设定为 分)。由图可以看出,电影与标签的相关度为 ,与标签的相关度为 ,与标签的相关度为 。由图可以看出,电影与标签的相关度为 ,与标签的相关度为 ,与标签的相关度为 。,基金项目微型电脑应用 年第 卷第期图用户对电影的评分 (,)图电影与标签的相关度 (,)图电影与标签的相关度 (,)由图可以看出,电影与标签的相关度为 ,与标签的相关度为 ,与标签的相关度为 。图电影与标签的相关度 (,)根据式()得到用户对标签的喜好程度 (,)为()()用户对标签的喜好程度 (,)为()()用户对标签的喜好程度 (,)为()()优化用户对标签的喜好程度式()适用于用户评分行为较多的情况,假设一个用户对标签的评分行为较少,那么用上面的公式就会导致推荐结果产生相对比较大的误差。比如当用户只对电影给出了评分时,根据式()可计算得到:用户对标签的喜好程度为 用户对标签的喜好程度为 用户对标签的喜好程度为 与上述计算结果相对比可以看出误差非常大,所以为了降低评分行为较少时产生的误差,在式()的基础上引入一个作为平滑因子,同时将与用户对所有物品评分的平均值相乘加在式()的分子上,分母上也相应地加上一个平滑因子,由此得到改进后用户对标签的喜好程度公式为 (,)(,)(,)(,)()根据式()重新计算用户对标签的喜好程度 (,),式()中加入的平滑因子是一个不确定的值,在本节中将平滑因子取。由此可以得出:用户对标签的喜好程度 (,)为()()用户对标签的喜好程度 (,)为()()用户对标签的喜好程度 (,)为()()假设用户只对电影给出了评分时,根据式()可计算出用户对 标 签、的喜好程度分别为 、。优化后即使用户对物品评分行为较少的情况下误差也缩小了很多。在评分信息正常的情况下,式()计算得到的用户对标签的喜好程度顺序没有发生变化。计算用户对标签的依赖程度 和 计算的是用户对标签的喜好程度,是从用户的角度进行分析。一个标签如果被用户标记的次数越多,则说明该用户对标签的依赖程度越大。因此本小节使用 算法来计算每个标签的权重,用这个权重来表达用户对标签的依赖程度。算法的中心思想是:如果某一个词语在一篇文章中出现的频率 比较高,同时在其他文章中出现的频率比较低,那么这个词语就很可能反映了这篇文章的特性,为 词 语 出 现 的 频 率,为 逆 文 档 频 率。所表达的实际上是 与 的乘积。计算用户对标签的依赖程度,首先计算 值即用户使用标签标记的频率:(,)(,)(,)()式中,分子部分表示用户使用标签标记的次数,分母部分表示用户使用所有标签标记的次数之和。计算 值:(,)(,)(,)()式()表 示 一 个 标 签被 不 同 的 用 户 使 用 的 概 率,(,)表示 所 有 用 户 对 所 有 标 签 的 标 记 次 数 之 和,(,)表示所有用户对标签标记的次数之和。最终,用户对标签的依赖程度计算公式为 (,)(,)(,)()用户对标签的兴趣度的计算公式为 (,)(,)()构建物品标签基因矩阵在标签系统中,每个物品都可以被看作与其相关的标签的集合。标签基因可用来表示标签与物品之间的关系,采用标签基因可以为每个物品计算出一个标签向量。例如 中电影的标签基因为电影分别与标签、标签和标签的相关度组成的矩阵,即 ,。电影、电影和电影的标签基因矩阵如表所示。根据训练数据可以构建所有物品的标签基因矩阵和用户对标签的兴趣度矩阵。的计算方式在 已经给出说明,按照上述计算方式构建矩阵。,基金项目微型电脑应用 年第 卷第期表电影的标签基因矩阵标签标签标签电影.电影.电影.计算标签基因矩阵需首先计算用户与标签的相关度。例如有部电影、,个标签、。有如下几条数据:用户为电影评分,对应标签为;用户为电影评分,对应标签为;用户为电影评分,对应标签为;用户为电影评分,对应标签为;用户为电影评分,对应标签为。根据以上数据构建,见表电影、标签、用户关系对应表。进而可以构建,见表电影与标签对应关系矩阵,矩阵中的数字表示对某部电影评分同时赋予对应标签的用户数量(如表矩阵中数字表示对电影评分,对应标签为的用户数量为)。表电影、标签、用户关系对应表,表电影与标签对应关系矩阵 计算电影与标签的相关度为()。同理,可以计算出所有电影与标签对应的相关度。根据物品与标签的相关度数据构建物品的标签基因矩阵,由于电影与标签数据过多,本文在计算电影与标签的相关度时,只要电影有对应的标签就将相关度标记为,否则标记为。综上,则用 户对 物品的 喜 好 程 度矩阵(,)计 算 公式为(,)()式中,为用户对所有标签的兴趣度矩阵,为所有商品的标签基因矩阵的转置矩阵。最终将计算得出的用户对所有物品的喜好程度矩阵前个结果推荐给用户。基于标签的电影推荐算法实现 评价指标第部分介绍标签推荐算法的数学建模过程,本部分将标签推荐算法应用于具体数据集中,为不同用户推荐喜好程度较高的电影,同时得到推荐算法的准确度。本实验将推荐准确度作为算法评价指标。推荐准确度的计算公式为 ()()()()式中,()表示推荐电影的个数,()表示在训练的数据集中用户有过评分行为的电影个数,()()表示推荐的电影与所有评过分的电影相交的个数。数据集本实验 中 使 用 的 数 据 集 是 中 的 数据集,主要用到 、和 三个数据。其中,包含了 位用户对 部电影的 条评分记录,用到 条标签数据。数据用到列:用户编号 、电影编号 和用户对电影的评分 。数据用到列:用户编号 、艺术家编号 以及标签编号 。由于实验中使用的是数值型的标签,因此对 中的 一列做数据处理。将字符串型 数据转换为数值型数据,同时要将 一列重命名为 ,最终得到数据 。表展示了个数据中每列数据分别包含的数量。表用户评分标签数据对应数量 实验本节选取实验结果中 号用户的推荐结果进行说明,其他用户推荐结果原理相同。表 号用户推荐结果用户 推荐数量 推荐准确度电影 喜好程度 表为 号用户推荐电影的结果。从表可以看出,本次共为 号用户推荐了部电影,推荐结果为第一部是 为的 电 影,号 用 户 对 电 影的 喜 好 程 度 为 。第二部是 为 的电影,号用户对电影 的喜好程度为 。第三部是 为 的电影,号用户对电影 的喜好程度为 。第四部是 为 的电影,号用户对电影 的喜好程度为 。第五部是 为 的电影,号用户对电影 的喜好程度为 。通过数据观察到用户对电影的喜好程度是由高到低排序的,根据喜好程度优先为用户推荐相应的电影。本次推荐的准确度为 ,代表本次为 号用户推荐的部电影中有部电影是用户有过评分行为的。结果分析 的结果展示是为任意一位用户推荐电影的准确度,整个实验的数据是对多位用户进行多次推荐。因此本节对不同值下所有用户的推荐准确度取平均值进行分析,值取到。(保留三位小数)如图所示,值取时得到的推荐准确度平均值为 ,值取 时得到的推荐准确度平均值为 。的取值在到 区间时,推荐数量值越大,推荐准确度越低。,基金项目微型电脑应用 年第 卷第期图值与推荐准确度关系图计算得到的多个取值下推荐准确度的值,最终将所有推荐准确度的值求取平均值得到标签推荐算法的推荐准确度为 。总结本文首先对基于标签的推荐算法进行了介绍,并阐述了标签推荐算法的计算过程,重点是根据用户与标签的关系计算出用户对电影的喜好程度,最终按照喜好程度的高低将前部电影推荐给用户。将标签推荐算法应用于电影推荐系统可以优化电影网站的推荐准确度,为用户带来便利,提高用户对电影网站的好感度。参考文献熊楚平基于标签权重的个性化协同过滤推荐算法乌鲁木齐:新疆大学,杨谊,张斌,和法伟标签相关度加权的协同过滤个性化推荐算法 现代计算机,():董跃华,梁雪雷 基于标签重要程度的协同过滤推荐算法 科学技术与工程,():王嵘冰,安维凯,冯勇,等基于标签和 的重要微博用户推荐算法 计算机科学,():王海同 个性化推荐系统的设计与实现 南京:东南大学,扈维,张尧学,周悦芝基于社会化标注的用户兴趣挖掘 清 华 大 学 学 报(自 然 科 学 版),():(收稿日期:)(上接第 页)外,当输入数据自然地是随机的时,体系结构能够推断出样本的方向,并在它们之间产生线性关系。这使得该体系结构的进一步应用能够自动对齐随机定向的数据集。当使用一个由散射变换计算的特征时,达到了最低的错误率。期望网络中的输入图像比本文提出的要大,在更大的图像中的测试表明,由于扫描和预测包含在特征空间中的每一个转换,导致时间增加。降低错误率的下一步是用一个可训练的特征阶段代替散射变换,该阶段预先服务于这个旋转变换属性,并在其他数据集(如浮游生物、食物或人脸)上来验证它。参考文献胡越,罗东阳,花奎等关于深度学习的综述与讨论智能系统学报,():郑远攀,李广阳,李晔 深度学习在图像识别中的应用研究综 述 计 算 机 工 程 与 应 用,():卢虹竹 基于深度学习算法的人脸识别管理系统信息技术,():李俊俊,杨华民,张澍裕,等 基于神经网络融合的司机违规行为识别 计 算 机 应 用 与 软 件,():李方舒光学图像的自卷积运算与旋转操控 厦门:厦门大学,():严春满,王铖卷积神经网络模型发展及应用计算机科学与探索,():徐冰冰,岑科廷,黄俊杰,等图卷积神经网络综 述计算机学报,():,():,:,:,:,:,:,:,:(收稿日期:)