温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
新闻
推荐
系统
中的
信息
融合
Transformer_
贺隽文
本栏目责任编辑:谢媛媛本期推荐Computer Knowledge and Technology电脑知识与技术第19卷第1期(2023年1月)新闻推荐系统中的边信息融合Transformer贺隽文,邵伟,卫刚(同济大学 CAD研究中心,上海 201804)摘要:推荐系统中对多模态的数据处理方式是业界长期关注的重点,基于各类数据的特点设计模型,可以有效利用信息,从而提升推荐效率。文章针对新闻推荐系统提出SIA-Transformer结构,在传统Transformer的基础上结合了新闻的边信息。通过多组内积的形式,将单词特征与边信息特征在多头注意力层中进行交叉,提高了边信息利用率的同时,也丰富了文本特征提取的语义,使得基于SIA-Transformer的新闻文本特征提取方法获取到更多信息,从而提高了推荐的效果。文章基于微软MSN开放的大型新闻数据集MIND进行了实验,验证了模型的效果。关键词:新闻推荐系统;边信息;多模态;深度学习中图分类号:TP311文献标识码:A文章编号:1009-3044(2023)01-0004-03开放科学(资源服务)标识码(OSID):1 概述随着消费互联网的快速发展,互联网的马太效应带来了严重的信息过载问题,推荐系统在互联网平台解决信息过载问题的过程中发挥了巨大作用。以新闻推荐系统为例,通常需要基于新闻内容、用户信息以及用户的历史行为等特征,使用自然语言处理、统计机器学习、计算机视觉等技术,精准地将新闻推送给用户。面对多模态的数据,如离散型和连续型数据、文本和图像数据、图数据等,业界的常用做法是针对不同类型的数据,分别独立地提取数据特征。当独立处理各模态数据时,缺乏各模态数据之间的交互与监督,因此难以提取到各模态数据之间的关联,导致信息的损耗。个性化新闻推荐系统中通常包含新闻模型与用户模型两大模块,前者是基于内容理解技术提取新闻的内容和特点,后者则是基于用户信息与历史点击行为来建模用户的兴趣爱好。基于协同过滤的推荐算法主要是根据用户与商品交互记录来进行推荐,本质上是基于用户/商品相似度的统计方法。在新闻推荐系统中,由于新闻商品往往具有较强的时效性,因此会面临严重的商品冷启动问题。对标题、摘要等文本信息和主题、类别等边信息的利用则是缓解商品冷启动问题的主要办法,也是新闻推荐系统中优化文本特征提取的动机。1.1 相关工作现有主流的基于深度学习的新闻推荐系统通常使用自动编码器、CNN1(卷积神经网络)、RNN(循环神经网络)、Transformer来进行文本特征的提取。Okura2等引入带有弱监督的自动编码器实现文本特征提取,Zhang等3进一步使用改进的自动编码器SDAE(stacked denoising auto-encoder)作为文本特征提取器。An等4提出使用CNN网络来提取新闻标题及类别中的文本特征,并在用户兴趣建模中使用GRU(Gated Recurrent Unit)处理用户历史点击的新闻稿件特征,从而实现对用户的长短期兴趣的建模。Lee5等则使用BIGRU(Bi-directional Gated Recurrent Unit)来进行文本特征提取。Wu等6在用户兴趣建模中引入注意力机制,从而更好地聚合用户的历史点击新闻特征。Wu 等8则使用 Transformer 作为文本的特征提取器。部分模型将边信息引入了新闻商品的文本特征提取流程中,取得了更好的效果,如Wang等7在文本提取过程中引入边信息,将新闻的类别特征也视作文本与标题中的文本拼接后再输入3D卷积网络。但此方法融合边信息的方式过于简单,且仅利用了文本类的边信息。因此,面对不同类型的边信息,对现有文本提取网络进行优化改进,从而在文本特征提取过程中最大程度地发挥边信息的约束与监督作用,是本文的改进重点。2 模型结构2.1 SIA-Transformer框架如图 1 所示,SIA-Transformer 基于传统 Trans收稿日期:2022-10-16作者简介:贺隽文(1998),男,江西人,硕士,主要研究方向为推荐系统、知识图谱等;邵伟(1996),男,上海人,硕士,主要研究方向为推荐系统;卫刚(1973),男,副研究员,工学博士,主要研究方向为计算机应用、人工智能、计算机辅助设计。E-mail:http:/Tel:+86-551-65690963 65690964ISSN 1009-3044Computer Knowledge and Technology电脑知识与技术Vol.19,No.1,January20234DOI:10.14004/ki.ckt.2023.0020本期推荐本栏目责任编辑:谢媛媛Computer Knowledge and Technology电脑知识与技术第19卷第1期(2023年1月)former网络的编码层,在其基础上将边信息引入到最核心的多头注意力层中,边信息类型可以包括文本信息(如用户评论、新闻类别),图片信息(如新闻封面、知识图谱等),统一以embedding的形式输入到多头注意力层中。图1 SIA-Transformer框架2.2 边信息融合首先将多种边信息通过编码层得到稠密向量Si,然后使用全连接层将稠密向量映射为Qsi及Vsi。为了限制模型的复杂度,维持边信息输入的一致性,本文使用池化函数将各种边信息产生的Qsi及Vsi向量融合,产生融合后的边信息Qs及Vs向量,分别作用于多头注意力层的注意力权重及特征部分。Si=Embedding(Sidei)Vsi=fc(Si)Qsi=fc(Si)Qs=fsumpooling(Vs1,Vsi,Vsp)Vs=fsumpooling()Qs1,Qsi,Qsp(1)其中i 1,p,代表p种不同的边信息。2.3 边信息注意力权重传统Transformer认为,每个单词的特征表示由其他单词的V向量根据注意力权重聚合而成,注意力权重则通过由目标单词的Q向量点乘其他单词的K向量,再通过softmax归一化后得到。考虑到在不同类别的新闻文本当中,对相同单词的关注程度是不相同的,因此本文将边信息引入到多头注意力层中注意力权重的计算过程中,改良后的注意力权重计算方式如图2所示。图2 注意力权重计算流程其中Qs、Vs为先前多种边信息聚合得到的向量,wi为单词wordi的embedding表示,i 1,m。Qs分别与各单词的Ksi向量做点积,得到当前边信息语境下,单词wt对于wi注意力的纠正值ai,与原始注意力值bi求和,得到最终当前单词wt对于wi的注意力权重weighti。其中Ksi、Kwi、Qwi为单词wordi的embedding向量wi经过带激活函数的全连接层获得。Ksi=factivate(Us*wi+bs)Kwi=factivate(Uw*wi+bw)Qwi=factivate()Uq*wi+bq(2)其中Us、Uw、Uq为全连接层的参数矩阵,bs、bw、bq为全连阶层中的偏置向量,factivate为全连阶层的激活函数。ai=QsKsbi=QwtKwiweighti=softmax(ai+bidk)(3)通过在模型中使单词的语义与边信息更充分地融合,使得最终获得的单词注意力权重相比传统Transformer包含了更精准的语义。2.4 边信息融合特征边信息除了会影响单词间的相互作用外,显然还会影响单词本身的语义,例如在科技类新闻与美食资讯中,苹果很可能指代了完全不同的实体。因此,本文还将边信息作用在多头注意力层中代表单词语义的V向量上,如图3所示。其中每个单词wi的Vwi向量通过全连接层获取,通过注意力权重聚合得到单词wordt的文本特征表示Fwt,再与边信息获取的Vs向量做向量积,得到最终的文本特征表示Ft,即融合了边信息的单词语义。Vwi=factivate(Uvwi+bv)Fwt=i=1mweightiVwiFt=FwtVs(4)5本栏目责任编辑:谢媛媛本期推荐Computer Knowledge and Technology电脑知识与技术第19卷第1期(2023年1月)3 实验结果与分析本文选用微软MSN大规模数据集MIND,通过对比不同模型中分别使用传统 Transformer 与 SIA-Transformer作为文本特征提取器的效果,验证本文中方法的有效性。实验中使用新闻的一级与二级类别作为边信息,选用AUC作为模型效果指标,以经典新闻推荐模型 NPA 和 LSTUR 作为基线模型的对比结果,如表1所示。表1 对比实验AUC结果模 型NPALSTURTransformer0.6580.671SIA-Transformer0.6710.680通过实验结果可以看到,在NPA及LSTUR中,相较于Transformer,以SIA-Transformer作为文本特征提取器,使得auc指标在验证集上均取得了正向收益,说明了模型的有效性。4 结束语本文中提出的SIA-Transformer作为新闻推荐系统中的文本特征提取器,通过引入边信息到多头注意力层中,使得边信息能够更充分地约束与指引文本特征的提取,使得提取的单词特征向量具有更准确与丰富的语义,在实验中取得了较好的效果。同时,本文中的方法也存在一些问题与待改进的方向。首先,本文中只使用了新闻的一级与二级类别边信息,还有待于扩展到其他模态的边信息,从而获取到更多的信息增益,如图像信息、知识图谱实体映射关系等。另外,本文中边信息作用于注意力权重及特征融合的方式较为简单,更复杂与精巧的设计可以在将来的研究中再进一步探索。最后,提取文本特征的方法除了在Transformer的基础上进行改进以外,还可以考虑自然语言处理领域的其他最新成果,如Bert模型,如何将其他自然语言处理领域的最新成果与新闻推荐的任务结合起来优化模型,从而获取到更好的推荐效果,也是未来的研究方向之一。参考文献:1 Zhang Y,Wallace B C.A sensitivity analysis of(and practitioners guide to)convolutional neural networks for sentence classificationC/Proceedings of the Eighth International Joint Conference on Natural Language Processing.Taipei:Asian Federation of Natural Language Processing,2017:253-263.2 Okura S,Tagami Y,Ono S,et al.Embedding-based news recommendation for millions of usersC/Halifax,NS,Canada:Proceedings of the 23rd ACM SIGKDD International Conferenceon Knowledge Discovery and Data Mining,2017.New York:ACM,2017:1933-1942.3 Zhang F Z,Yuan N J,Lian D F,et al.Collaborative knowledgebase embedding for recommender systemsC/San Francisco,California,USA:Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2016.New York:ACM,2016:353-362.4 An Mingxiao,Wu Fangzhao,Wu Chuhan,et al.Neural News Recommendation with Long-and Short-term User RepresentationsJ.ACL,2019(1):336-345.5 L