分享
基于用户聚类和时间隐语义模型的推荐算法研究_吴祺.pdf
下载文档

ID:2543170

大小:1.13MB

页数:5页

格式:PDF

时间:2023-07-10

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 用户 时间 隐语 模型 推荐 算法 研究 吴祺
2023 年第 3 期计算机与数字工程收稿日期:2022年8月13日,修回日期:2022年9月27日作者简介:吴祺,男,硕士研究生,研究方向:推荐算法、数据挖掘、数据分析。聂文惠,男,硕士研究生,副教授,研究方向:数据库理论与应用、数据挖掘、大数据处理。1引言随着社会的发展和网络技术的不断进步,信息数据呈现爆发式增长,传统的协同过滤推荐算法已经无法满足人们日常的需求,人们无法从海量的数据中快速获得自己想要的信息,即产生“信息过载”问题1。如何更准确更快速地帮助用户获取有效信息成为当前研究的热点,个性化推荐也就应运而生。协同过滤算法2是目前推荐系统中应用最为基于用户聚类和时间隐语义模型的推荐算法研究吴祺聂文惠(江苏大学计算机与通信工程学院镇江212000)摘要协同过滤算法是推荐系统中使用最广泛的算法之一,随着个性化推荐技术的发展,传统的协同过滤算法在数据稀疏的情况下推荐的准确率较低,同时没有考虑用户的兴趣会随着时间的推移发生动态变化等因素,传统的协同过滤推荐算法已无法满足个性化推荐的需求。论文针对以上问题提出一种融合算法,将K-means算法和隐语义模型相结合,提出基于用户聚类和时间隐语义模型的推荐算法K-T-LFM(K-means algorithm clustering users and Time Based Latent Factor Model)。该算法根据用户的属性特征,采用最大-最小准则确定初始质心的K-means算法将用户聚类,解决了新用户登录的冷启动问题,降低了矩阵的稀疏程度和矩阵规模;根据艾宾浩斯遗忘曲线提出时间函数,并融合传统隐语义模型对聚类中的用户评分稀疏矩阵进行填充,有效缓解了数据的稀疏性,同时考虑了时间因素对用户的兴趣偏好的影响,提高了推荐算法的准确性。通过MovieLens数据集进行实验对比,该算法较其他的协同过滤算法准确率有所提升。关键词协同过滤;用户聚类;时间隐语义模型;推荐中图分类号TP301.6DOI:10.3969/j.issn.1672-9722.2023.03.005Research on Recommendation Algorithm Based on User Clusteringand Time Based Latent Factor ModelWU QiNIE Wenhui(School of Computer and Communication Engineering,Jiangsu University,Zhenjiang212000)AbstractCollaborative filtering algorithm is one of the most widely used algorithms in the recommendation system.With thedevelopment of personalized recommendation technology,the accuracy of traditional collaborative filtering algorithm is low in thecase of sparse data,and it does not consider the dynamic changes of users interests over time.The traditional collaborative filteringrecommendation algorithm can not meet the needs of personalized recommendation.To solve the above problems,this paper proposes a fusion algorithm,which combines K-means algorithm with Latent Factor Model,and proposes a recommendation algorithmK-T-LFM(K-means algorithm clustering users and Time Based Latent Factor Model).The algorithm uses the maximum-minimumcriterion to determine the initial centroid K-means algorithm to cluster users according to the attributes of users,solves the coldstart problem of new user logins,and reduces the sparseness and scale of the matrix.A time function is proposed based on the Ebbinghaus forgetting curve,and the traditional implicit semantic model is integrated to fill the sparse matrix of user ratings in the cluster,the influence of time factor on users interest preference is considered.Through the MovieLens data set for experimental comparison,the accuracy of this algorithm is improved compared with other collaborative filtering algorithms.Key Wordscollaborative filtering,user clustering,time based latent factor model,recommendationClass NumberTP301.6总第 401期2023 年第 3期计算机与数字工程Computer&Digital EngineeringVol.51No.3561第 51 卷广泛最为成熟的算法之一,它的核心思想是通过寻找拥有相同兴趣爱好的用户继而通过相似用户的兴趣爱好为该用户推荐可能感兴趣的信息。随着用户数量和物品数量呈现指数型增长,用户对物品的评分数据变得稀疏,传统的协同过滤算法在处理稀疏矩阵时推荐准确率较低3。用户聚类是通过聚类算法将用户对象的集合分成由类似对象组成的多个类的过程。K-means算法是常见的聚类算法之一,其将具有相同属性特征的用户归为一类4,这样一方面使得无历史行为的新用户获得推荐,即解决“冷启动”问题,另一方面降低了矩阵稀疏程度和矩阵规模,提高隐语义模型预测的准确度。针对数据稀疏性问题,国内外学者提出多种解决方法。Su、Khoshgoftaar等5用线性回归、均值填补和贝叶斯分类等多种方法以缓解用户-评分矩阵的稀疏问题,但使用均值填补稀疏矩阵给用户评分预测带来较大的误差;Hao、Li等6提出利用用户评分偏好相似性和特征矩阵来预测商品评分,该方法当数据非常稀疏时,算法的稳定性和准确性下降。在解决稀疏性问题中矩阵分解算法也具有较好的效果,其中 SVD 算法是最早的矩阵分解算法,由Billsus等7将其引入推荐系统。该算法计算复杂度较高,难以应用于大规模评分矩阵8。2006 年Simon Funk在博客上发布Funk-SVD算法,后来被称为隐语义模型(LFM)9。隐语义模型是近几年推荐系统领域较为热门的话题,它主要是利用矩阵分解建立隐含特征与用户和隐含特征与物品之间的关系,进而通过隐含特征将用户与物品联系起来10,最终预测用户对物品的偏好,大大缓解了协同过滤算法由于数据稀疏引起的推荐准确率低的问题。当然该模型还存在着一些不足,如没有考虑时间因素对用户评分的影响。本文将K-means聚类算法和隐语义模型相结合,提出基于用户聚类和时间隐语义模型的推荐算法(K-T-LFM)。该算法既克服了新用户冷启动和数据稀疏性的问题,同时也考虑了时间因素对用户兴趣的影响。2基于用户聚类和时间隐语义模型的推荐算法基于用户聚类和时间隐语义模型的推荐算法(K-T-LFM)融合了K-means聚类算法和隐语义模型,本文首先介绍用户聚类和隐语义模型,然后提出使用融合时间函数的隐语义模型对缺失矩阵进行填充,基于目标聚类用户通过协同过滤算法产生推荐。2.1用户聚类用户聚类主要是根据用户的特征属性对用户进行聚类,从而找到相似的用户群体。日常生活中具有相近特征属性的用户往往会有相似的兴趣爱好,不同特征属性类别的用户往往兴趣爱好差异性较大11。考虑到用户的特征属性是相对客观稳定的,本文通过引入用户特征进行聚类来降低不相关用户对目标用户的影响。同时在用户初次登陆APP应用时,通过用户的属性特征聚类可以解决冷启动的问题,为该用户推荐相似用户的兴趣爱好。考虑到用户的特征属性比较多,本文依据用户以下几个主要特征进行聚类12:1)性别。不同性别的人大体上兴趣偏好差异很大,男女可以分别记为 1,2 ;2)年龄。人在不同年龄段有不同的生活履历和遭遇,因此不同年龄的人对生活的态度也不同,可以将年龄段分为12岁以下,13-17岁,18-29岁,30-39岁,40-49岁,50-59岁,60岁以上,分别记为0,1,2,3,4,5,6 ;3)职业。不同职业的人有不同的价值观念和兴趣爱好,看待事物的角度也不同,按照职业的不同分别记为 0,1,2,n 。建立用户特征数据表,记录用户的性别,年龄,职业信息,然后采用最大-最小准则算法确定初始质心改进的K-means算法进行聚类。改进的K-means算法用户聚类过程:输入:用户特征数据集u,聚类个数k输出:k个依据用户特征数据划分的聚类1)定义聚类的个数k;2)随机选择一个点作为质心,选取距离这个点最远的点作为第二个质心,然后计算每个点到两个质心的距离,选取距离较小的加入到集合V中,在集合V中选取距离最远的点作为下一个质心,以此类推,直至选择第k个质心;3)计算其它点到每个质心的距离,选择距离最近的质心作为一类;4)计算每个聚类的中心点,作为新的质心;5)Repeat 3),4);6)达到最大迭代次数或者质心基本不发生变化则用户聚类结束。通过用户聚类不仅解决了用户初次登录冷启动的问题,同时通过降低用户数据的维度,缓解数吴祺等:基于用户聚类和时间隐语义模型的推荐算法研究5622023 年第 3 期计算机与数字工程据稀疏性,提高了使用隐语义模型预测的准确率。2.2隐语义模型隐语义模型主要是针对SVD算法填充稀疏矩阵需要大量存储空间的缺点改进而来,它能有效地挖掘用户与物品间的隐藏关系。将其应用在推荐系统的预测中具有预测精度高和占用内存小的优点。该模型通过矩阵分解将用户评分矩阵分解为两个低维评分子矩阵,分别为用户隐含特征矩阵和物品隐含特征矩阵:R?=PTQ(1)其中PRfm,QRfn分别为用户隐含特征矩阵和物品隐含特征矩阵。用户u对物品i的评分预测公式为r?ui=fpufqif(2)其中rui表示用户u对物品i的评分,puf表示用户u的兴趣和第f个隐类的关系,qif表示电影i和第f个隐类的关系。定义其损失函数为C(p,q)=(u,i)Train(rui-f=1Fpufqif)2+()|pu|2+|qi|2(3)其中()|pu|2+|qi|2是为了防止过拟合,是正则化参数。但是随着时间的推移,用户的兴趣爱好可能发生变化,进而影响了推荐的准确率。2.3时间隐语义模型2.3.1时间权值的选择德国心理学家艾宾浩斯提出人类遗忘曲线13,主要依据是:随着时间的推移,人的记忆会随之发生变化,曲线描述了人类大脑对事物的遗忘规律,用户对新事物的兴趣随着时间推移同样遵循遗忘规律。考虑到时间因素对用户兴趣的影响,采用指数时间函数来表示,突出用户近期兴趣偏好所占的权重14,考虑

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开