POI
推荐
中的
数据
融合
隐私
保护
方法
王利娥
第 41 卷 第 1 期2023 年 1 月 广西师范大学学报(自然科学版)Journal of Guangxi Normal University(Natural Science Edition)Vol.41 No.1Jan.2023DOI:10.16088/j.issn.1001-6600.2022021104http:王利娥,王艺汇,李先贤.POI 推荐中的多源数据融合和隐私保护方法J.广西师范大学学报(自然科学版),2023,41(1):87-101.WANG L E,WANG Y H,LI X X.A multi-source data fusion and privacy protection method of POI recommendationJ.Journal of Guangxi NormalUniversity(Natural Science Edition),2023,41(1):87-101.?POI 推荐中的多源数据融合和隐私保护方法王利娥1,2,王艺汇1,李先贤1,2(1.广西师范大学 计算机科学与工程学院,广西 桂林 541004;2.广西多源信息挖掘与安全重点实验室(广西师范大学),广西 桂林 541004)摘 要:随着移动定位技术的发展,兴趣点(point-of-interest,POI)推荐技术已经成为推荐领域中的研究热点之一。受限于用户的签到能力,POI 推荐中存在严重的数据稀疏问题,而融合多源数据的 POI 推荐又面临着多重隐私挑战。涉及多来源的数据具有多样性、多元性等隐私特征,隐私泄漏机理更为复杂多样,其隐私保护问题更具挑战性。为此,本文提出一种基于注意力机制和隐私保护的多源 POI 推荐 MultiAM&PP_POI,能够在保护隐私的前提下有效提高 POI 推荐的精度。为了实现数据的有效融合,本文采用 LDA 主题模型提取用户在不同领域中的潜在特征,并利用注意力机制来自适应地训练,学习不同领域的潜在特征对 POI 推荐结果的影响,同时利用多层感知器来实现不同领域潜在特征的迁移。针对多源 POI 推荐中的隐私问题,本文利用联邦学习框架将原始数据保存在本地,各参与方只需交互加密后的潜在特征,并改进了注意力机制和多层感知器,使其可在密文状态下完成训练,以保护用户隐私的安全。最后通过实验验证,本文模型能够在保护用户隐私前提下,相比单源联邦模型和其他跨域模型,在推荐精度方面分别提升 3.05 和 4.42 个百分点。关键词:兴趣点推荐;多源融合;注意力机制;隐私保护;联邦学习中图分类号:TP391 文献标志码:A 文章编号:1001-6600(2023)01-0087-15近年来,基于位置的服务(location-based serviced,LBS)与移动网络迎来了技术快速发展的时代。LBS技术因其覆盖范围广、定位精度高等特点得到广泛应用。而与此同时,人们的日常生活也越来越离不开一些社交网络的应用,随着基于互联网的社交应用发展,人们的社交圈也逐渐脱离了地理因素的限制。而融合位置信息的社交网络(location-based social network,LBSN)也随着这些技术的发展逐渐成为人们日常生活中的重要应用。LBSN 服务允许用户在签到服务平台上向自己信任或熟悉的好友分享自己感兴趣的POI,而向用户提供 LBSN 服务的平台也可以通过收集用户的历史签到数据来分析他们的签到偏好,为其生成可能感兴趣的 POI 推荐,以提升用户的平台体验满意度。例如国外 FourSquare、Gowalla、Yelp 等平台,以及国内大众点评、微博等,都为用户提供 LBSN 服务。但是,用户的签到数据受到地理和时间因素的限制,仍旧存在严重的稀疏问题,这是因为相对于传统的商品推荐中的购买数据来说,用户的签到能力是非常有限的,很多用户的签到轨迹可能只局限于某个位置附近的范围。而且 POI 推荐的时效性更强,因为用户通常在不同的时间段倾向于签到的 POI 也是不同的。例如在中午时段,用户就更加倾向于签到餐厅相关的 POIs。LBSN 服务平台的另一大特点就是允许用户在签到某个 POI 后对它的服务产生评论,这些评论在平台上是公开的,会在很大程度上影响未签到过该 POI 的用户对该 POI 的判断。并且,用户的评论中往往包含着个人的情感因素,相对于单纯的 POI 签到数据来说,更能够反映出用户对某个 POI 的收稿日期:2022-02-11 修回日期:2022-07-27基金项目:国家自然科学基金(U21A20474,62262003);广西科技计划项目(桂科 AA22067070,桂科 AD21220114);广西自然科学基金(2020GXNSFAA297075);“八桂学者”工程专项;广西大数据智能与应用人才小高地项目;广西应用数学中心(广西师范大学)项目;广西区域多源信息集成与智能处理协同创新中心项目;广西多源信息挖掘与安全重点实验室系统性研究课题基金(19-A-02-02)通信作者:李先贤(1969),男,广西桂林人,广西师范大学教授,博导。E-mail:广西师范大学学报(自然科学版),2023,41(1)看法。综上所述,针对 POI 推荐领域中的数据稀疏和冷启动问题,现有工作通常通过融合辅助数据的方法来丰富 POI 推荐信息,常用数据包括位置、时间以及用户的评论文本等1-3。但这些数据是基于 POI 的相关信息,仍旧会受到用户签到能力的影响。有研究者指出,可以通过融合其他领域的辅助信息来提高 POI推荐领域的精度,其中应用最多的就是用户的社交网络数据4-5,这是因为用户在日常生活中的签到偏好很容易受朋友的影响。很多研究表明,基于信任关系的推荐可以在一定程度上缓解数据稀疏的问题。但基于单维度的数据融合,存在信息不全面,进而使得用户偏好存在偏斜的问题。为此,本文提出一种融合多源数据的 POI 推荐方法,通过多源辅助信息的融合,形成一个更为全面和完整的 POI 推荐模型。为方便描述,本文以融合用户的社交信息和电子商务领域的数据为例来进行说明。笔者认为除了社交信息之外,用户在电子商务领域的购买偏好也可以在一定程度上反映用户的签到偏好,比如一个人如果经常在电商平台上购买化妆品类的商品,那么当他到达一个商场时,他就更有可能签到与化妆品相关的商品服务。对于多源数据的融合,目前还存在 2 个方面的挑战:1)数据融合过程中的隐私问题。由于不同领域数据的自治性和隐私控制策略不同,数据中包含用户个人信息甚至商业机密等隐私信息。而多源数据的融合基础就是数据共享与特征提取,因此如何在保证隐私安全的前提下,实现有效的数据融合已成为多源推荐中的关键瓶颈问题。2)不同领域的辅助数据对于 POI 数据的影响程度不同。虽然不同领域之间的数据都存在着某种关联,但关联程度却不相同,现有跨领域的 POI 推荐大多是通过指定线性的权重来控制不同因素对 POI 推荐结果的影响6,但指定的权重往往不能满足用户多样化的需求或不符合实际应用场景。因此,本文同时考虑多源数据之间的关联度和用户的隐私安全问题,在服务器端利用一个改进后的注意力机制和多层感知器(multi-layer perceptron,MLP)来实现加密后的潜在特征分布7。一方面,在传输这些潜在特征分布时,本文采用同态加密方案8对原始特征分布加密后再进行传输,实现保护用户的隐私信息;另一方面,本文采用注意力机制来实现服务器的自适应训练,自动学习不同来源的辅助数据对 POI领域的影响程度,提高训练结果的准确性。本文的主要工作可以归纳如下:1)提出一种多源跨域 POI 推荐方法,通过融合多源辅助数据来缓解 POI 领域的数据稀疏和冷启动问题,采用深度学习技术来进行知识迁移以实现多源数据的融合,进而改善推荐质量。目前,已有工作提出了融合评论文本或者社交网络的 POI 推荐,但评论文本本身就是基于 POI 领域,仍然存在稀疏性和冷启动问题,而单一的融合社交网络数据则是基于重叠用户的前提,存在一定的偏斜问题。本文融合多源数据的 POI 推荐,能够获得更为完整和全面的辅助信息,有效缓解数据稀疏和冷启动情况下推荐精确度不高的问题。2)为了保护多源数据融合过程中的隐私安全,本文集成联邦学习框架提出适用于多源跨域 POI 推荐的隐私保护方法,将不同领域的用户特征数据存放在本地,只上传提取的特征以实现数据的安全融合,同时利用同态加密方法在数据传输过程中保护用户的隐私,并设计能够适应密文数据训练的注意力机制和服务器端的神经网络进行模型训练,能有效保证整个模型训练过程中的隐私安全。3)考虑到不同辅助领域数据对 POI 推荐结果的影响程度不同,本文利用注意力机制使得服务器端能够进行自适应的训练。现有工作主要通过指定一个线性的权重来控制不同因素的影响,但这往往不具有普适性。本文采用注意力机制自适应地训练多个辅助领域的影响权重,能够提高训练结果的质量。1 相关工作1.1 POI 推荐技术研究现状针对 POI 推荐中存在的数据稀疏性和冷启动问题,最自然的方法就是融入其他维度的信息,现有工作主要考虑 POI 在时间和地理位置上的 2 个相关维度。Pan 等9考虑用户在一定地理区域内的潜在隐性关系,该框架结合了用户偏好和个性化的地理社会影响;Stefancova 等10则主要考虑季节性和长期兴趣的88http:推荐,使得模型针对某个特殊的地理位置可以在一定范围内显著提高推荐结果的质量;叶继华等11则考虑签到数据的时间影响和空间影响,通过序列的表示来融合数据的时间和空间维度信息,建立时空上下文信息的 POI 推荐模型(STCPR),为 POI 推荐提供了更精准的个性化偏好;陈炯等12则综合分析兴趣点的地理位置、分类偏好、流行度、社交与情感倾向等多维度影响因素,提出融合多因素的兴趣点协同推荐模型(GCSR)。其次,有研究者指出可以通过用户的评论文本融合来缓解 POI 签到数据的稀疏问题,因为评论文本通常可以反应用户真实的情感偏好。Da Silva 等13将用户评论的文本信息引入泊松矩阵分解框架中,同时考虑用户的信任关系;Chang 等14指出传统的连续 POI 建模没有考虑 POI 之间的连续关系,单纯 POI之间的物理距离是不够的,并提出可以利用上下文信息来提高连续的 POI 签到推荐的精确度;也有研究者关注通过上下文信息的融合来缓解数据稀疏问题,如陈劲松等15提出一种多维上下文感知的图嵌入模型 MCAGE,利用主题模型获取用户和项目间的潜在语义特征,并重新定义了一系列图的节点及关联规则,设计更有效的用户偏好公式,以此提升刻画移动用户偏好的精准度。1.2 数据融合的 POI 推荐技术研究为了跳出 POI 数据的局限,有研究者指出可以基于其他领域的数据来丰富 POI 领域的数据。已有工作主要考虑用户的社交网络数据,这是因为 LBSN 融合了社交网络数据与 POI 签到数据,利用社交网络中人与人之间的关系来为 POI 推荐提供辅助分析数据。夏英等6提出一种融合社交关系和局部地理因素的 POI 推荐算法。一方面,基于用户的社交关系和共同签到数据来度量用户的相似性,采用协同过滤方法构建社交影响模型;另一方面,基于局部范围内 POIs 间的签到相关性分析,建立局部地理因素影响模型;最后融合社交关系和局部地理因素以提高 POI 推荐的质量。刘真等16则认为 LBSN 中的签到、社交等信息具有丰富的上下文信息,可以基于其空间特性深入挖掘用户和 POI 之间的非线性交互,设计了一种谱嵌入增强的 POI 推荐算法 PSC-SMLP。任星怡等17则充分考虑兴趣点的地理、文本、社会、分类与流行度等多维度信息,提出一种上下文感知的概率矩阵分解兴趣点推荐算法,将兴趣、地理、社会、分类的相关分数进行有效融合,从而生成推荐列表,给用户推荐其感兴趣的 POI 位置点。Zhang 等18提出一个可以同时发现用户签到行为的社会、序列、时间和空间模式的统一概率生成模型。Zeng 等19在建立用户-标签矩阵模拟用户多标签影响的同时,引入社会正则化项