基于
连接
张量
网络
多模态
多样性
推荐
算法
孟诗蓓
基于全连接张量网络的多模态与多样性推荐算法孟诗蓓1,郑睿2,常亮1,陈玉珑3,孟睿伟4,程诺41(北京师范大学人工智能学院,北京100875)2(北京师范大学数学科学学院,北京100875)3(上海交通大学,上海200240)4(中国国家博物馆,北京100006)通信作者:常亮,E-mail:摘要:在全媒体时代下,基于多模态数据的推荐具有重要意义.本文使用文本、音频、图像 3 种模态数据进行推荐,通过两个阶段进行张量融合:第 1 阶段通过 3 个平行分支对任意两个模式的相关性进行建模和融合,第 2 阶段再将 3 个分支的结果进行融合,不仅考虑了两模态之间的局部交互作用,并且消除了模态融合顺序对结果的影响;在推荐模块中,将融合特征通过堆叠降噪自编码器作为协同过滤的辅助特征进行推荐.本文所构建的推荐系统中模态融合与推荐采用端到端的训练过程.同时,为了解决推荐结果中存在的相似度高、多样性差的问题,我们基于二阶段的张量模态融合特征构建相似度矩阵,在已有推荐结果的基础上进一步精化结果,实现快速的多样性推荐.实验证明,基于本文提出的多模态融合特征的推荐模型不仅能够有效地提升推荐性能,并且能够增强推荐结果的多样性.关键词:张量网络;多模态融合;多样性推荐;堆叠降噪自编码器;协同过滤;推荐算法引用格式:孟诗蓓,郑睿,常亮,陈玉珑,孟睿伟,程诺.基于全连接张量网络的多模态与多样性推荐算法.计算机系统应用,2023,32(2):6374.http:/www.c-s- and Diverse Recommendation Algorithm Based on Fully-connected Tensor NetworksMENGShi-Bei1,ZHENGRui2,CHANGLiang1,CHENYu-Long3,MENGRui-Wei4,CHENGNuo41(SchoolofArtificialIntelligence,BeijingNormalUniversity,Beijing100875,China)2(SchoolofMathematicalSciences,BeijingNormalUniversity,Beijing100875,China)3(ShanghaiJiaoTongUniversity,Shanghai200240,China)4(NationalMuseumofChina,Beijing100006,China)Abstract:Intheall-mediaera,recommendationbasedonmultimodaldataisofgreatsignificance.Thisstudyproposesrecommendationbasedondatainthreemodalities:text,audio,andimage.Tensorfusionisimplementedintwostages:Thecorrelationbetweenanytwomodesismodeledandfusedbythreeparallelbranchesintheformerstage,andtheresultsofthethreebranchesarethenfusedinthelatterstage.Thisapproachnotonlyconsidersthelocalinteractionbetweentwomodalitiesbutalsoeliminatestheinfluenceofthemodalityfusionorderontheresult.Intherecommen-dationmodule,thefusedfeaturesareinputtothestackeddenoisingauto-encoderandarethenusedasauxiliaryfeaturesofcollaborativefilteringforrecommendation.Intherecommendationsystemconstructed,anend-to-endtrainingprocessisadoptedformodalityfusionandrecommendation.Moreover,toovercomethehighsimilarityandpoordiversityoftherecommendationresults,thisstudyalsoconstructsasimilaritymatrixwiththefusedfeaturesofthetensormodalitiesinthetwostagestofurtherrefinetheresultsonthebasisoftheavailablerecommendationresultsandtherebyachieverapid计算机系统应用ISSN1003-3254,CODENCSAOBNE-mail:ComputerSystems&Applications,2023,32(2):6374doi:10.15888/ki.csa.008940http:/www.c-s-中国科学院软件研究所版权所有.Tel:+86-10-62661041基金项目:国家重点研发计划(2019YFC1521100);国家自然科学基金(61977063);国家自然科学基金重大项目(72192821);上海市科委重大项目(21511101200)收稿时间:2022-06-20;修改时间:2022-07-08;采用时间:2022-08-15;csa 在线出版时间:2022-10-28CNKI 网络首发时间:2022-11-16SystemConstruction系统建设63diversifiedrecommendation.Theexperimentalresultsshowthattherecommendationmodelbasedontheproposedmultimodalfusedfeaturescannotonlyeffectivelyimproverecommendationperformancebutalsoenhancethediversityofrecommendationresults.Key words:tensornetwork;multimodalfusion;diversityrecommendation;stackeddenoisingauto-encoder;collaborativefiltering;recommendationalgorithm当今,随着全媒体时代的发展,一些音视频网站与应用正在逐渐盛行,例如腾讯视频、爱奇艺、TikTok、快手等,人们正生活在一个多种媒体相互作用、互为补充的社会里.这些应用的特点是:一方面,它们提供了大量的物品数据,其中包括文本、图像、音频、视频等不同媒体类型的物品信息;另一方面,这些应用的用户粘性很大程度上取决于推荐系统的好坏.因此,能够融合多类媒体和多种信息进行更加精准、更为个性化的推荐具有非常重要的意义.传统的推荐算法多使用用户历史行为信息(例如:点赞、评分、点击量等)对用户和物品的交互通过偏好程度的相似度进行建模,这种方法也被称作协同过滤算法.但随着实际的应用,这个算法一方面被认为不能够很好地解决稀疏性和冷启动的问题1;另一方面,如果加入辅助信息,能够丰富物品的表达,在引入神经网络建模时,将能够建立更多用户和物品特征的交互,使推荐系统的性能大大提高2.当前国内外学者对于推荐算法的研究中,根据辅助信息的种类,其工作可以被分为 3 大类:基于文本的推荐算法、基于视觉模态的推荐算法和基于多模态的推荐算法.文献 3,4 是基于文本信息的推荐算法,Wei 等3提出基于紧耦合深度协同过滤的推荐模型,使用改进的分解模型 Time-SVD+,并使用多个自编码器学习物品的文本特征,能够有效解决冷启动的问题.Frolov 等4提出一种集成的混合算法,扩展传统的奇异值分解方法,将交互数据和辅助的文本信息进行联合分解,同样能够很好地解决冷启动的问题.文献 57 是基于图像信息的多模态推荐算法,Lei等5提出双网深度网络用于图像的推荐,将图片和用户偏好使用两个子网络映射到同一个潜在语义空间中,形成了更有效的偏好表示和图像表示;Tang 等6对视觉推荐模型的健壮性进行研究,提出 AMR 模型,通过对抗学习生成鲁棒性更强的推荐模型,并验证了其对于图像推荐和视觉感知产品推荐的有效性;Qiu 等7提出 CausalRec 模型,通过因果推理框架仅保留有效的视觉特征,解决了现有推荐系统存在的视觉偏差问题.文献 810 是基于多模态融合的推荐算法,Oramas等8提出使用深度网络架构将文本和音频信息与用户反馈数据相结合,使用简单的多层感知机对级联特征进行融合.Sun 等9提出了一种用于融合文本与图像异构模态的紧耦合深度网络模型,网络将原始图片与文本信息作为输入,从特征提取级别开始训练,在训练过程中同时对特征提取模块和协同过滤模型进行优化,得到了较好的效果.肖庆华等10则针对互补推荐的目标,提出基于图片、文本以及评分的多模态互补物品特征提取算法:结合卷积神经网络、文本向量化、贝叶斯推断 3 种方法,提高了推荐系统的准确率,同时使用 Bandits 算法提高了推荐系统的多样性.与此同时,文本、图像与音频 3 种模态特征生成融合表征已被国内外学者广泛关注:Huang 等11提出视觉-语言的 Transformer 模型,将上述 3 种模态特征应用于跨媒体检索;Wang 等12受到人类记忆的再建构和联想性质整合启发,将 3 种模态作为自编码器的输入来解决学习多模态单词表示的问题;而 Zadeh 等13则从情感分析的角度比较了多模态协同学习和单峰学习的区别.在实际的系统应用方面,中科院自动化研究所发布了依托武汉人工智能计算中心算力研发的跨模态通用人工智能平台“紫东太初”,在该平台上,Liu 等14首次提出了视觉-文本-语音三模态预训练模型,实现了三模态间的相互转换和生成.目前,将文本、图像与音频的融合与推荐系统结合应用目前尚未得到广泛应用.而音频数据对于当今时代的推荐系统有着重要的作用,声音中所包含的环境声、人物互动的情绪语气、甚至是其中包含的背景音乐等都是非常重要的物品风格,而这些特征是文本和图像无法表征的15;并且,对于拥有多个模态的推荐系统来说,线性模型不足以表示复杂的相互关系,一次性融合所有计 算 机 系 统 应 用http:/www.c-s-2023年第32卷第2期64系统建设SystemConstruction特征将忽略复杂的局部相关性,而只考虑双线性池化时,需要先对两个模态融合,再将融合结果与第 3 个模态进行融合,其模型表达能力可能也会受到交互顺序的影响.因此,在基于多模态的方法中,探索多模态数据的异质性,提高模型的泛化能力,仍然是一个重大的挑战.本文基于上述问题,提出基于张量网络的多模态推荐算法.图像中的显著性区域和文本中的关键性单词具有较强的语义相关性16,另一方面,张量融合方法通过张量外积将输入的多个模态转化为一个高维张量,再将其映射回一个低维输出向量空间,通过这种方式能够计算不同模态元素之间的相关性,从而对跨模态之间的交互关系进行建模17,与早期融合在输入级别上简单地连接多模态特征相比,能够更有效地建立模态内部之间的交互关系18,同时又比注意力机制等复杂的网络模型更为简单有效.因此,在高维张量上进行模态融合被认为是一种有效的模态交互方式.本文提出的模型将首先在浅层的显著特征上通过 3 个分支对交互性进行两两融合建模,对于该过程中维度过高的张量使用低秩矩阵因子对其进行降维;之后将 3 个分支中的特征再次进行张量融合,得到第 2 阶段的融合特征;将二阶段张量融合后的特征输入深度协同过滤模型中,通过联合损失函数对结果进行训练.整个网络是一个端到端的训练过程,能够大大提高的模型的表达能力.近年来,量子计算引