分享
基于对齐性和均匀性约束的图神经网络会话推荐方法.pdf
下载文档

ID:3632516

大小:1.31MB

页数:9页

格式:PDF

时间:2024-06-26

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 对齐 均匀 约束 神经网络 会话 推荐 方法
DOI:10.11991/yykj.202306005网络出版地址:https:/ 3 个公开数据集上的实验表明,文中提出的模型 TAU-GNN 的推荐性能优于对比的主流会话推荐模型。关键词:会话推荐;图神经网络;对齐性;均匀性;对比学习;交叉熵损失;匿名会话;邻域信息中图分类号:TP391文献标志码:A文章编号:1009671X(2024)02009009Graph neural network toward representation alignment and uniformity forsession-based recommendationTANGTaotao1,CHUFei1,WANGJiong1,JIACaiyan1,21.SchoolofComputerandInformationTechnology,BeijingJiaotongUniversity,Beijing100044,China2.BeijingKeyLabofTrafficDataAnalysisandMining,Beijing100044,ChinaAbstract:Session-basedrecommendation(SBR)aimstopredictthenextclickitemofananonymoususerbasedonashortinteractionsequence.InordertosolvetheproblemthatexistingSBRmethodsbasedongraphneuralnetworks(GNNs)ignore the differences between the same items at different locations in a session,after obtaining an itemembedding by a GNN,we further consider the correlation of its neighbor items in a session to generate the itemneighborhood correlation representation.Considering the importance of alignment and uniformity in contrastivelearning,weproposeanalignmentanduniformitylossmethodforsessionrecommendationtoconstrainthegeneratedsessionrepresentationanditemrepresentation.ExperimentsonthreepublicbenchmarkdatasetsshowthatournewlyproposedmodelTAU-GNNisbetterthanthatofthemainstreammodelsforSBR.Keywords:session-basedrecommendation;graphneuralnetworks;alignment;uniformity;contrastivelearning;crossentropyloss;anonymoussession;neighborhoodinformation随着互联网的迅速发展,用户常常面临信息过载的问题。推荐系统则可以根据用户的特点和兴趣,帮助用户过滤掉大量不感兴趣的信息并推荐他们可能感兴趣的商品或内容。但由于用户通过游客登录或隐私政策的限制,推荐系统通常难以获得用户信息和用户的所有历史交互记录。因此,基于会话的推荐系统逐渐发展起来。会话推荐(session-basedrecommendation,SBR)是基于匿名和简短的交互序列来预测用户的下一个点击项目1。传统的基于会话的方法将每个会话视为按点击时间排序的项目序列,并广泛使用循环神经网络(recurrentneuralnetwork,RNN)来解决推荐问题。这些方法24已经取得了显著的成效,但是这些方法不足以在会话中获得准确的用户表示,并且忽略了项目间的复杂转换。由于图神经网络(graphneuralnetwork,GNN)可以有效地捕获项目之间的复杂信息转换5,近年来,许多与 SBR 相关收稿日期:20230603.网络出版日期:20231128.基金项目:国家重点研发计划项目(2018AAA0100302).作者简介:唐韬韬,男,硕士研究生.贾彩燕,女,教授,博士.通信作者:贾彩燕,E-mail:.第51卷第2期应用科技Vol.51No.22024年3月AppliedScienceandTechnologyMar.2024的工作612从会话构造图结构,并利用 GNN 在相邻项目之间传播信息,以捕获复杂的高阶关系。然而,大多数方法都密切关注图结构,没有仔细研究如何在图卷积后有效地聚合会话表示,这限制了模型的推荐性能。例如,SR-GNN6(session-basedrecommendationwithgraphneuralnetworks)在生 成 会 话 表 示 时 忽 略 了 顺 序 信 息。一 些 模型1314通过引入位置编码丰富位于不同位置的项目表示,但是,位置编码只考虑了会话中项目的顺序影响,而没有考虑其与相邻项目的交互作用。考虑在有重复消费的会话图构造过程中,如果忽略位置信息和项目邻域信息,则会话中不同位置的同一项目经过图卷积后将使用相同的表示。当采用类似 SR-GNN 的方法计算项目的重要性时,这些项目在整个会话中又会得到相同的重要性分数,这是不合理的。为了克服这一问题,本文提出了邻域相关表示学习模块,在生成项目表示时考虑项目的邻域信息,作为对项目表示的修正。此外,受对比学习最新进展1516的启发,根据分析协同过滤中的对齐性和均匀性特性17,我们从理论上证明了通常用于 SBR 的交叉熵(cross-entropy,CE)损失对这 2 种特性都有益处。完美的对齐性和均匀性编码器构成了 CE 损失的精确最小化(exactminimization)。在此基础上,本文设计了一种新的学习目标,以实现会话推荐的表示的对齐性和均匀性。实验结果表明,在加入新的学习目标后,已有的相关模型的表现显著提升,同时文中提出的带有新的优化目标和项目修正学习的 TAU-GNN 模型,其准确率和平均倒数排名指标在 3 个公开数据集上均达到了最好结果。本文提出的模型不仅可以在不增加额外成本的情况下大大提高 SBR 在会话级图上建模的性能,而且可以与根据所有项目建模全局图的 SBR 方法竞争。1会话推荐相关工作1.1基于序列建模的会话推荐基于序列的方法将每个会话视为按点击时间排序的项目序列。在早期的研究中,FPMC18(factorizing personalized Markov chains for next-basketrecommendation)使用马尔可夫链和矩阵分解来捕获顺序用户行为和长期兴趣。由于 RNN对顺序数据建模的有效性,基于 RNN 的模型逐渐被用于 SBR。GRU4Rec2(session-basedrecom-mendationswithrecurrentneuralnetworks)使用多层GRU19对 用 户 行 为 序 列 进 行 建 模。NARM20(neuralattentivesession-basedrecommendation)使用带有注意力机制的混合编码器来模拟用户的顺序行为,并捕获用户在当前会话中的主要目的。循 环 记 忆 网 络21(recurrent memory networks,RMN)通过外部的兴趣记忆模块存储长期兴趣,并通过会话间记忆写入单元建模长期兴趣转移。SASRec22(self-attentive sequential recommendation)堆叠多个自注意层来建模用户的历史行为信息。然而,仅对会话序列建模忽略了项目之间的复杂转换,无法获得准确的会话表示6,从而限制了SBR 任务的性能。1.2基于图神经网络的会话推荐近年来,大多数方法通过 GNN 捕获项目之间的复杂转换。例如,SR-GNN6通过构造会话图,使用门控图神经网络(gatedgraphneuralnetwork,GGNN)获得项目表示,然后使用注意机制进行下一个项目预测。GCE-GNN14(globalcontextenhancedgraphneuralnetworks)通过构造全局图和局部图,以 更 好 地 利 用 会 话 信 息。S2-DHCN23(self-supervisedhypergraphconvolutionalnetworks)另外设计了一种基于线图的 GNN,通过最大化 2 个网络学习会话表示之间的互信息,将自监督学习集成到网络的训练中。融合全局上下文信息注意力增强的图神经网络模型24(globalcontextinformationgraphneuralnetworks,GCI-GNN)针对每个目标商品都计算了用户对该物品的兴趣,并将会话长度作为长期偏好和短期偏好的分配权重。SGNN-HN13(star graph neural networks-highway network)通过增加星节点解决了长距离信息传播问题,并使用高速公路网络(highwaynetwork,HN)缓解过拟合问题。这些基于 GNN 的方法虽然尝试考虑项目的顺序信息,但在生成会话表示时,没有考虑同一项与其邻域在会话不同位置的交互差异,从而限制了模型的性能。2面向表示对齐性和均匀性的图神经网络2.1基本定义V=v1,v2,vNs=vs,1,vs,2,vs,mvs,i V(1 i m)ivs,m+1令表 示 项 目 的 集 合,其 中N 为项目个数;每个会话 s 表示为一个集合,其中为会话 s中匿名用户的第 个历史交互项目,m 为会话长度。SBR 的目标是预测给定会话 s 的下一项目。第2期唐韬韬,等:基于对齐性和均匀性约束的图神经网络会话推荐方法912.2模型结构TAU-GNN 结构如图1 所示,该模型主要由3 个模块组成:基于单会话建图的门控图神经网络模块,用于获得每个项目的表示;邻域相关性表示学习模块,以每个项目为中心,学习邻域信息感知窗口内项目的邻域相关性表达;基于注意力机制的会话表示生成及预测模块,在目标函数中引入对齐性和均匀性损失约束会话和项目的表示。邻域相关性表示学习模块邻域信息感知窗口训练批次对齐性均匀性v1v1S1v2v4v3v2v3v2v4.SnS2.S1均匀性图卷积层候选项目概率预测y填充填充vs,nvs,2vs,1图1TAU-GNN 示意2.3会话图的构建及编码s=vs,1,vs,2,vs,mGs=(Vs,Es,As)sVsEsEs(vs,i1,vs,i)Esvs,i1vs,iAsAs=AOs;AIsAOs RNNAIs RNNvi V,i=1,2,Nv Rdvid每个会话转换为对应的有向会话图,其中会话 中出现的项目组成点集;构造了一个边集,其中中的每条边表示用户在会话中的项目后交 互 了 项 目;为 节 点 对 的 权 重 矩 阵,其中和分别为出边 和 入 边 的 归 一 化 权 重 矩 阵。将 每 个 项 目嵌入到统一的嵌入空间中,节点嵌入表示项目 的嵌入表示,其中 为维度。使用 GGNN25来更新每个节点的表示:v=GGNN(Vs,Es,As)2.4邻域相关性表示学习vvTvi假设堆叠 T 层图网络,消息传递过程为每个节点 输出其对应的表示。考虑与会话中项目的邻域信息的交互,同时生成项目邻域相关性表示。svics,i在会话 中,将每个以项目 为中心的邻域信息感知窗口中的感知内容定义为:cs,i=concat(vTs,ic/2,vTs,i,vTs,i+c/2)式中:c 为邻域信息感知窗口的大小,在实验中将其设置为 3,concat 函数为向量的拼接操作。mvTs,0vTs,mWc Rddvs,c,i=Wccs,i因此对于会话开始和结束位置的项目,在会话开始位置填充,在会话结束位置填充。会话 s 中的第 i 个项目 vi的邻域相关表示 vs,c,i可以由一个可学习的邻域信息交互矩阵得到:vs,c,ivi因为项目的邻域相关性表示考虑了项目的局部信息,所以它可以表示会话 s 对应的用户Lconvs,c,i1vs,c,i+1Lcon的局部偏好。由于用户的相邻局部偏好受部分共同的项目影响,因此相邻局部偏好之间也存在一定的一致性,并非一个突变的过程。为了保持会话中这种用户相邻局部偏好的一致性,设计了一个损失函数用来约束会话中相邻项目的邻域相关表示,。计算方式如下:Lcon=0im|vs,c,i1vs,c,i+1|22.5交叉熵损失的对齐性和均匀性ppos(s,v)vspspitem首先定义会话推荐中的完全对齐和完全均匀概念17。假设正样本对 s-v 的分布为,表示项目 为会话 待预测的下一项,会话和项目的分布分别为和。(s,v)pposff(s)=f(v)f定义 1完全对齐:对于所有的,如果编码器 满足,那么编码器 是完全对齐的。f(s)s psf(v)v pitemSd1Sd1=x Rd:|x|=1df定义 2完全均匀:如果(其中)的分布和(其中)的分布是上的均匀分布,是 维单位球的表面,那么编码器 是完全均匀的。f:Rn Sd1fd考虑以下特定且广泛流行的 CE 损失形式来训练编码器,编码器 将数据映射到维的 L2 标准化嵌入。LCE=E(s,v)pposNi=0p(i)log(q(i)=E(s,v)pposp(v)log(q(v)=E(s,v)pposlog(ef(s)Tf(v)Ni=0ef(s)Tf(i)=E(s,v)pposf(s)Tf(v)+logNi=0ef(s)Tf(i)92应用科技第51卷E(s,v)ppos1+logNi=0ef(s)Tf(i)(1)p(i)svivi式中:为给定会话 下一项目为 的真实概率,q(i)为下一项目为的预测概率,q(v)为正样本v 的预测概率。ffN 根据完全对齐的定义,当且仅当 完全对齐时,满足式(1)中不等式部分的取等号条件。假设编码器 是完全对齐的,当项目数量时,归一化后的 CE 损失收敛如下:limNLCElog(N)=E(s,v)ppos1+log(Eipitemf(s)Tf(i)(2)根据文献 16 中的定理 1,如果存在完全均匀的编码器,则它们构成了式(2)中第二项的精确最小值。LTAULalignedLuniform上述分析表明,CE 损失对项目和会话表示的对齐性和均匀性进行了优化,一个完全对齐和完全均匀的编码器构成了 CE 损失的精确最小化。因此,对齐性和均匀性对于学习信息丰富的会话和项目表示是至关重要的。它促使我们为优化表征对齐性和均匀性设置一个新的损失函数,通过直接对对齐性和均匀性这 2 个属性进行优化以获得更好的推荐性能。Laligned=E(s,v)ppos|f(s)f(v)|2Luniform=logE(s,s)pse2|f(s)f(s)|2/2+logE(i,i)piteme2|f(i)f(i)|2/2LTAU=Laligned+Luniform式中 和 为超参数。由于不同的数据集具有不同的特点,通过 和 来控制需要的对齐和均匀性程度。2.6会话表示生成及预测slsg在本节将结合用户的短期偏好和整体偏好生成会话表示。根据一些已有的工作4,10,可以认为会话中的最后一个项目代表用户最近的兴趣,并将该项目的表示作为用户的短期偏好。在为用户生成整体偏好时,考虑到会话中各项目的重要性是不同的,使用软注意力计算每个项目的权重,然后根据计算出的注意权重生成整体偏好表示。sl=vTs,mi=qT(W1vs,c,m+W2vs,c,i+b)sg=miivs,c,iq RdW1W2式中:,、b 是可学习参数,用于控制项目嵌入的权重。通过对短期偏好和整体偏好的拼接进行线性变换来计算会话表示:s=W3sl;sg,W3 Rd2ddRd式中矩阵是可学习参数,用以将拼接的嵌入映射到 维空间。对会话表示和每个候选项目的嵌入进行层归一化:s=normalized(s)vi=normalized(vi)vi svi V yi归一化之后,将项目嵌入 与会话表示 相乘来为每个项目计算分数:yi=sT vi.yi使用 softmax 函数得到模型的输出:yi=softmax(yi)yi=y1,y2,yNLCE式中为所有候选项目的下一次点击概率。为了训练新模型,使用 CE 损失作为主要优化目标。LCE=|V|i=1yilog(yi)+(1yi)log(1 yi)yii式中 为真值项目 的独热编码嵌入。LconLTAULTAUGNN将前面提到的局部一致性损失和对齐均匀性损失与主要优化目标结合起来,模型的最终损失函数可以写为LTAUGNN=LCE+Lcon+LTAU采 用 随 时 间 反 向 传 播(back-propagationthroughtime,BPTT)算法来训练 TAU-GNN。3实验及分析为了评估文中提出的模型,在 3 个公开的基准数据集 Tmall、Diginetica 和 RetailRocket 上进行了实验,以探究 TAU-GNN 的推荐性能及 TAU-GNN 各部分对整体性能的贡献。此外,本文进一步探究了超参数对实验结果的影响以及对齐性、均匀性损失的实际应用价值。3.1数据处理s=v1,v2,vm(v1,v2)(v1,v2,v3)(v1,v2,vm1,vm)根据之前的工作6,20,对数据集中的会话采用了数据增强和过滤策略,即过滤掉长度为 1 的会话和出现次数少于 5 的项目。3 个数据集中,根据会话产生的时间,将最后 7d 的会话用于测试,剩余部分作为训练数据。另外,给定一个会话数据,对 3 个数据集中的每个会话序列增强并生成相应的标签,。处 理 数 据 的 详 细 信 息 如表 1 所示。第2期唐韬韬,等:基于对齐性和均匀性约束的图神经网络会话推荐方法93表1数据集统计数据集项目数量 点击次数 训练集数量 测试集数量 平均长度Tmall40728818479351268258986.69Diginetica43097982961719470608585.12RetailRocket36968710586433643151325.43由于训练数据和测试数据是按照时间进行划分,部分单会话方法13没有对训练数据集进行打乱,使得模型能够记住与测试集接近的样本,显著提升了模型的效果。然而,这种增益并非来自于模型的影响,同时,在全局图中使用这种策略会使得模型出现信息泄露问题23。为了公平起见,对所有的模型都进行了训练数据的打乱。3.2对比方法为验证本文提出的 TAU-GNN 模型性能,本文采用的对比模型如下:FPMC18:利用马尔可夫链和矩阵分解来捕捉顺序用户行为和长期兴趣。GRU4Rec2:使用多层 GRU 和基于排名的损失函数来建模用户行为序列,该模型首次将循环神经网络引入会话推荐,它既考虑了全部历史信息,也考虑了历史信息的顺序。NARM20:使用带有注意机制的混合编码器来建模用户的顺序行为,并捕获用户对给定会话的主要意图。SR-GNN6:是第一个基于 GNN 的会话推荐任务模型。它使用 GGNN 获得项目表示,然后使用注意机制进行下一个项目预测。FGNN26:采用了一个加权注意图神经网络层和一个 Readout 函数来学习项目和会话的嵌入。GCE-GNN14:将所有会话组成一个全局图,并通过全局图捕获跨会话信息,然后将全局图信息和局部图信息融合生成最终的会话表示。MTD27:以自动和分层方式联合学习会话内和会话间项目的动态转换。SGNN-HN13:通过添加星型节点解决了长距离信息传播问题,并使用高速公路网络(highwaynetwork)防止过拟合问题。S2-DHCN23:将会话数据建模为超图和线图,然后将自监督学习集成到网络的训练中。COTREC28:通过自监督图协同训练保存了完整的会话信息,实现了真实的数据增强。3.3评估指标和参数设置根据 3.2 节中的各对比方法,使用准确率PK(前 K 项中正确推荐项目的准确率,K 在本实验中分别设置为 10 和 20)和平均倒数排名MK 来评估推荐结果。MK 考虑了推荐排名的顺序,计算公式为MK=1KiZ1rank(i)式中:Z 为前 K 个推荐物品中正确推荐物品的集合,rank(i)表示物品 i 在 K 个推荐列表中的排名。d参数采用每个模型在原始文献中提到的最佳参数。在实验中,嵌入维数为,训练批大小设置为 256,邻域感知窗口大小设置为 3,L2 正则化系数 设 置 为 105,采 用 初 始 学 习 率 为 0.001 的Adam 优化器。此外,本文还设计实验研究了对齐损失系数 0.01,0.05,0.1,0.5,1,2,3和均匀性损失系数 1,2,3,4,5,6,7对模型推荐性能的影响。3.4与基准模型实验结果的对比分析表 2 给出了本文提出的 TAU-GNN 模型和对比模型在 3 个数据集上的结果。表2不同模型在 3 个数据集上的表现模型RetailRocket数据集Tmall数据集Diginetica数据集P10M10P20M20P10M10P20M20P10M10P20M20FPMC25.9913.3832.3713.8213.107.1216.067.3215.436.2022.146.66GRU4Rec38.3523.2744.0123.679.475.7810.935.8917.937.7330.798.22NARM42.0724.8850.2224.5919.1710.4223.3010.7035.4415.1348.3216.00SR-GNN43.2126.0750.3226.5723.4113.4527.5713.7238.4216.8951.2617.78FGNN43.7526.1150.9926.2120.6710.6725.2410.3937.7215.9550.5816.84SGNN-HN48.8829.2756.7029.8129.9716.6436.3017.0440.8217.9554.1918.87GCE-GNN28.0115.0833.4215.4241.1618.1554.2219.04MTD46.4127.0154.5727.5825.4714.3030.3414.3030.0316.0951.7617.15S2-DHCN46.1526.8553.6627.3026.2214.6031.4215.0540.2117.5953.6618.51COTREC48.6129.4656.1729.9730.6217.6536.3518.0441.8818.1654.1819.07TAU-GNN50.42*30.98*58.04*31.51*34.44*19.35*41.16*19.77*41.8118.49*55.03*19.41*94应用科技第51卷表 2 中最佳结果用粗体显示,次优结果用下划线显示,*表示与最佳模型相比配对 t 检验中p0.01 的统计显著性。从结果中发现,传统的机器学习方法 FPMC 的表现不如基于 RNN 的方法,这表明会话中的序列关系对推荐是有益的。同时,GRU4Rec只关注顺序信息,而 NARM 利用了顺序信息和整体偏好,因此 NARM 的结果明显优于 GRU4Rec。此外,所有基于 GNN 的方法都优于其他方法。这些基于 GNN 的模型表明,从会话构建图结构和通过图卷积更新项目表示可以有效地捕获项目之间的复杂转换。由表 2 可知,TAU-GNN 在 3 个数据集上的准确率 PK 和平均倒数排名 MK 均显著优于其他对比模型。与 SR-GNN 和 SGNN-HN 相比,TAU-GNN 模型进一步考虑了会话中不同位置项目的邻域信息。因此,它可以捕捉其他模型忽略的更复杂的序列信息,并在这 3 个数据集上相比单会话模型推荐性能获得显著提升。与 GCE-GNN 和 S2-DHCN 相比,虽然文中提出的模型没有建立全局图(它很好地模拟了项目之间的关系,但内存占用和计算成本更高),但本文提出模型的推荐性能指标上仍然优于这些模型。针对模型运行效率,对 SR-GNN、SGNN-HN、GCE-GNN、S2-DHCN、COTREC 以 及 TAU-GNN模型在 3 个数据集上训练一轮所需的平均时间进行了统计。在相同的实验环境下,使用单卡NvidiaRTXA4000 开展实验,实验结果如表 3 所示。表 3训练一轮所需时间统计s模型RetailRocket数据集Tmall数据集Diginetica数据集SR-GNN1007248635SGNN-HN358275561GCE-GNN2451147S2-DHCN13368031776COTREC19399632677TAU-GNN196178328与对完整会话建图的 SR-GNN 模型相比,TAU-GNN 针对长度大于 10 的会话仅考虑最近的 10 个交互项目进行建图;与使用了 6 层图神经网络 SGNN-HN 相比,TAU-GNN 仅使用 1 层图卷积网络。因此尽管 TAU-GNN 额外设计了学习目标,但仍然比 SR-GNN 和 SGNN-HN 高效。与构建了全局图或跨会话图的方法相比,TAU-GNN可以在更低的复杂度下取得更好的结果。特别是在规模相对较大的数据集 Diginetica 和 RetailRocket上,这些全局图模型不仅需要更长的训练时间,还需要满足更高的内存需求。在这种情况下,我们的实验设备甚至无法支持 GCE-GNN 在 Retail-Rocket 数据集上的训练。因此,TAU-GNN 相较于已有的方法,在 3 个数据集的推荐指标上均有显著的提升,并且,这些提升是建立在模型运行效率更高的基础上,证明了本文提出的模型的有效性。3.5消融实验LconLuniformLalignedLTAU为进一步评估了每个模块在 TAU-GNN 中的贡献,实验设计了几种 TAU-GNN 变体 w/oLcon,w/oLu,w/oLa和w/oLTAU,分别表示不含邻域信息感知窗口和局部兴趣一致性损失、不含均匀性损失、不含对齐损失和不含项的变体,消融实验结果如图 2 所示。54.654.5154.6554.5855.0354.254.354.454.554.654.754.854.955.055.1P20P20M20M20Diginetica 数据集w/o Lconw/o LTAUw/o Lconw/o Luw/o Law/o Luw/o Law/o Lconw/o LTAUw/o Luw/o Law/o Lconw/o LTAUw/o Luw/o Law/o LTAU19.1519.0119.3619.1819.4118.818.919.019.119.219.319.419.5Diginetica 数据集57.9157.657.9657.3258.0456.857.057.257.457.657.858.058.2RetailRocket 数据集30.9730.8631.4730.7231.5130.230.430.630.831.031.231.431.6RetailRocket 数据集(a)Diginetica 数据集上各变体模型 P20 结果(b)RetailRocket 数据集上各变体模型 P20 结果(c)Diginetica 数据集上各变体模型 M20 结果(d)RetailRocket 数据集上各变体模型 M20 结果图2消融实验结果根据图 2 可以观察到每个模块对性能都有贡献,所有变体的结果都优于 SR-GNN。TAU-GNN通过使用邻域相关表示学习模块和对齐均匀性损失来取得最佳效果,进一步证明了文中提出的方法是有利于会话推荐的。第2期唐韬韬,等:基于对齐性和均匀性约束的图神经网络会话推荐方法953.6超参数的影响系数 和 控制所需的对齐和均匀性程度,这是由每个数据集的特征决定的。为了探索每个数据集最合适的系数,我们从0.01,0.05,0.1,0.5,1,2,3范 围 内 搜 索值,从 1,2,3,4,5,6,7范 围 内 搜 索值。在不同数据集上,超参数对准确率和平均倒数排名的影响如图 3 所示。54.6554.7054.7554.8054.8554.9054.9555.0055.0555.1018.818.919.019.119.219.319.419.519.60.01 0.050.10.512357.5557.6057.6557.7057.7557.8057.8557.9057.9558.0030.931.031.131.231.331.431.531.60.01 0.050.10.5123M20P20M20P20M20P20M20P20M20P20M20P20M20P20M20P2057.7057.7557.8057.8557.9057.9558.0031.031.131.231.331.431.531.6123456754.7054.7554.8054.8554.9054.9555.0055.0519.1019.1519.2019.2519.3019.3519.4019.4519.501234567(a)Diginetica 数据集上 不同取值对指标的影响 值 值 值 值(b)RetailRocket 数据集上 不同取值对指标的影响(c)Diginetica 数据集上 不同取值对指标的影响(d)RetailRocket 数据集上 不同取值对指标的影响54.6554.7054.7554.8054.8554.9054.9555.0055.0555.1018.818.919.019.119.219.319.419.519.60.01 0.050.10.512357.5557.6057.6557.7057.7557.8057.8557.9057.9558.0030.931.031.131.231.331.431.531.60.01 0.050.10.5123M20P20M20P20M20P20M20P20M20P20M20P20M20P20M20P2057.7057.7557.8057.8557.9057.9558.0031.031.131.231.331.431.531.6123456754.7054.7554.8054.8554.9054.9555.0055.0519.1019.1519.2019.2519.3019.3519.4019.4519.501234567(a)Diginetica 数据集上 不同取值对指标的影响 值 值 值 值(b)RetailRocket 数据集上 不同取值对指标的影响(c)Diginetica 数据集上 不同取值对指标的影响(d)RetailRocket 数据集上 不同取值对指标的影响图3在不同数据集上超参数对性能指标的影响从图 3(a)和图 3(b)可以看出,随着 的增加,2 个评价指标总体上呈现出先上升后下降的趋势。对于 Diginetica 数据集,的最佳值是 1;对于RetailRocket 数据集 的最佳值是 0.1。值得注意的 是,Diginetica 数 据 集 上,取 0.1 比 取 1 时M20 指标略有增加,但会导致 P20 上的大幅降低。因此,考虑到整体性能,将 Diginetica 数据集的 值设置为 1。由图 3(d)可知,为 4 时对RetailRocket 是合适的。对于 Diginetica,由图 3(c)可知,当 的值大于 3 时,M20 的值有小幅增加,而 P20 的值有明显下降。因此,的值设置为3 对于数据集 Diginetica 是合适的。3.7对齐性均匀性损失的实用性LTAULTAULTAU为了探究是否可以将对齐性、均匀性损失应用于其他现有模型以提高推荐性能,本文设计实验将添加到 SR-GNN、SGNN-HN 和 S2-DHCN模型的原始损失函数中。通过对在 3 个数据集上使用前后的模型结果比较(表 4),探讨对齐性和均匀性损失的实用性。由表 4 可知,使用后,所有模型的结果均较原始模型有明显改善。在 2.5 节中证明了一个完全对齐和完全均匀的编码器构成了 CE 损失的精确最小化。理论分析和实验结果表明,直接对项目表示和会话表示的对齐性和均匀性进行优化,提升了会话推荐的性能。LTAU表4基模型及额外增加损失后的模型结果对比模型RetailRocket数据集Tmall数据集Diginetica数据集P10M10P20M20P10M10P20M20P10M10P20M20SR-GNN43.2126.0750.3226.5723.4113.4527.5713.7238.4216.8951.2617.78LTAUSR-GNN49.6130.0057.3830.5531.9018.6137.7718.9040.8217.8953.9918.80SGNN-HN48.8829.2756.7029.8129.9716.6436.3017.0440.8217.9554.1918.87LTAUSGNN-HN49.8029.8357.6130.3732.6619.0939.4418.5241.3918.1054.7319.02S2-DHCN46.1526.8553.6627.3026.2214.6031.4215.0540.2117.5953.6618.51LTAUS2-DHCN48.5629.4156.0729.9333.3319.1339.7119.5741.0518.1554.2719.0796应用科技第51卷4结论1)本文提出了一个项目邻域相关性表示学习模块,该模块旨在捕捉在以往方法中被忽视的项目邻域信息,使位于会话不同位置的相同项目有不同的表示。此外,本文还设计了一个额外的损失函数,以维护会话中用户局部偏好的一致性。2)通过理论推导,证明了完美对齐性和均匀性编码器构成了会话推荐任务中 CE 损失的精确最小化。基于这一发现,本文提出了一种新的学习目标,该目标更有利于这 2 个性质的实现。3)通过实验证明了项目邻域相关表示以及对齐性和均匀性损失是有效的,TAU-GNN 在 3 个公共数据集上优于其他模型。面向表示对齐性和均匀性的图神经网络(TAU-GNN)会话推荐方法考虑了以往方法中忽略的邻域信息并且引入了额外的学习目标,在运行效率和推荐性能方面有明显提升。后续可深入探究适合会话推荐的新的对齐性均匀性计算方式或将其作为主损失的可行性。参考文献:陈晋鹏,李海洋,张帆,等.基于会话的推荐方法综述 J.中文信息学报,2023,37(3):117,26.1HIDASIB,KARATZOGLOUA,BALTRUNASL,etal.Session-based recommendations with recurrent neuralnetworksC/Proceedingsofthe4thInternationalConferenceonLearningRepresentations,SanJuan:ICLR,2016:19.2TANYK,XUXinxing,LIUYong.Improvedrecurrentneural networks for session-based recommendationsC/Proceedings of the 1st Workshop on Deep Learning forRecommenderSystems.NewYork:ACM,2016:1722.3罗鹏宇,吴乐,吕扬,等.基于时序推理的分层会话感知推荐模型 J.计算机科学,2020,47(11):7379.4吴静,谢辉,姜火文.图神经网络推荐系统综述 J.计算机科学与探索,2022,16(10):22492263.5WUShu,TANGYuyuan,ZHUYanqiao,etal.Session-based recommendation with graph neura

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开