分享
混合曲率空间用于多关系异构知识图谱链接补全_栗书敬.pdf
下载文档

ID:2369147

大小:2.01MB

页数:9页

格式:PDF

时间:2023-05-10

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
混合 曲率 空间 用于 关系 知识 图谱 链接 栗书敬
h t t p:/ww w.j s j k x.c o mD O I:1 0.1 1 8 9 6/j s j k x.2 2 0 5 0 0 1 3 5到稿日期:2 0 2 2-0 5-1 6 返修日期:2 0 2 2-0 9-1 2通信作者:黄增峰(h u a n g z f f u d a n.e d u.c n)混合曲率空间用于多关系异构知识图谱链接补全栗书敬黄增峰复旦大学大数据学院 上海2 0 0 4 3 3(l i s h u j i n g 0 0 51 6 3.c o m)摘 要 知识图谱方法与技术在人工智能领域有较高价值,其面临的一大难题是现有的知识图谱数据集中存在大量边缺失的现象,知识图谱表示学习为解决这一问题提供了解决方案。表示学习的质量取决于嵌入空间的几何形状与数据结构的匹配程度。欧氏空间一直是知识图谱表示学习的主力,而双曲和球面空间因其能够更好地嵌入新类型的结构数据而逐渐受到关注。但大多数数据的异质度较高,单一空间建模可能会导致信息失真较大。为了解决这个问题,受M u R P模型的启发,提出了用混合曲率空间来提供适合各种异质结构数据的表示,用欧氏、双曲和球面空间的笛卡尔积来构造混合空间;设计了混合空间的图注意力机制来获取关系的重要性。在知识图谱3个基准数据集上的实验结果表明,所提模型可以有效缓解异质结构嵌入常曲率低维空间导致的问题。将所提方法应用于推荐系统的冷启动问题上,相应指标均有一定程度的提高。关键词:表示学习;异构知识图谱;混合曲率空间;链接预测;空间权重中图法分类号 T P 3 9 1 M i x e d-c u r v e f o rL i n kC o m p l e t i o no fM u l t i-r e l a t i o n a lH e t e r o g e n e o u sK n o w l e d g eG r a p h sL IS h u j i n ga n dHUAN GZ e n g f e n gS c h o o l o fD a t aS c i e n c e,F u d a nU n i v e r s i t y,S h a n g h a i 2 0 0 4 3 3,C h i n a A b s t r a c t K n o w l e d g eg r a p h s(K G s)h a sg r a d u a l l yb e c o m ev a l u a b l e a s s e t i n t h e f i e l do fA I.H o w e v e r,am a j o rp r o b l e mi s t h a t t h e r ea r em a n ym i s s i n ge d g e s i nt h ee x i s t i n gKG s.KG s r e p r e s e n t a t i o n l e a r n i n gc a ne f f e c t i v e l ys o l v e t h i sp r o b l e m.T h eq u a l i t yo f r e p r e-s e n t a t i o nl e a r n i n gd e p e n d so nh o ww e l l t h eg e o m e t r yo f t h ee m b e d d i n gs p a c em a t c h e st h es t r u c t u r eo f t h ed a t a.E u c l i d e a ns p a c eh a sb e e n t h em a i n f o r c e f o r e m b e d d i n g s;h y p e r b o l i c a n d s p h e r i c a l s p a c e sg a i n i n gp o p u l a r i t yd u e t o t h e i r a b i l i t y t ob e t t e r e m b e dn e wt y p e so f s t r u c t u r e dd a t a.H o w e v e r,m o s td a t aa r eh i g h l yh e t e r o g e n e o u s,t h es i n g l e-s p a c em o d e l i n gl e a d st ol a r g e i n f o r m a t i o nd i s-t o r t i o n.T os o l v e t h i sp r o b l e m,i n s p i r e db yM u R Pm o d e l,m i x e d-c u r v es p a c em o d e l i sp r o p o s e dt op r o v i d e r e p r e s e n t a t i o n ss u i t a b l ef o rh e t e r o g e n e o u ss t r u c t u r a l d a t a.F i r s t l y,t h eD e s c a r t e sp r o d u c t o fE u c l i d e a nh y p e r b o l i ca n ds p h e r i c a l s p a c e s i su s e dt oc o n s t r u c tm i x e ds p a c e.T h e n,ag r a p ha t t e n t i o nm e c h a n i s mi sd e s i g n e dt oo b t a i nt h ei m p o r t a n c eo fr e l a t i o n s h i p.E x p e r i m e n t a lr e s u l t so nt h r e eK G sb e n c h m a r kd a t a s e t ss h o wt h a tt h ep r o p o s e dm o d e lc a ne f f e c t i v e l ya l l e v i a t et h ep r o b l e m sc a u s e db yh e t e r o s t r u c t u r a le m b e d d i n g i n l o w-d i m e n s i o n a l s p a c e sw i t hc o n s t a n t c u r v a t u r e.T h ep r o p o s e dm e t h o d i s a p p l i e d t o t h e c o l ds t a r t p r o b l e mo f r e c o m-m e n d e r s y s t e m,a n dt h ec o r r e s p o n d i n g i n d i c a t o r sh a v eb e e n i m p r o v e dt oac e r t a i ne x t e n t.K e y w o r d s R e p r e s e n t a t i o n l e a r n i n g,H e t e r o g e n e o u sk n o w l e d g eg r a p h,M i x e d-c u r v es p a c e,L i n kp r e d i c t i o n,S p a c ew e i g h t 1 引言人工智能的进一步发展离不开知识图谱技术的支撑。知识图谱在语义搜索1-2、对话生成3-4、推荐系统5-7等领域发挥着越来越重要的作用。然而,现有的基础知识库以及专业知识图谱库,都存在着大量关系的缺失,这是实现真正人工智能的一个难题。知识图谱表示学习是解决关系缺失的一道利器,目前已经开启大量的研究。知识图谱表示学习方法的研究就是用低维稠密的数学向量来表示三元组,该方法简单高效,在知识图谱链接补全任务上发挥着重要的作用。但随着数据结构越来越复杂,有必要对现有知识图谱表示学习模型进行优化。主流的知识图谱表示学习方法一般把高维稀疏的实体嵌入低维稠密的欧氏向量空间中来完成。T r a n s E8模型是知识图谱表示学习方法的突破性进展,它把知识图谱中的实体和关系首次映射到低维稠密的实值向量空间中,其思想是正确的三元组的向量满足封闭三角形,即头实体的向量和关系的向量之和约等于尾实体向量,反之亦然。虽然模型性能相比以往的方法有了很大的提升,但它在建模知识图谱多关系中的表现很差。T r a n s D9模型是T r a n s E模型的进一步发展,但它们都是在实数域内进行的操作。为了进行进一步的探索,受欧拉公式和H a r d m a d乘积的启发,研究者把数域范围从实数扩展到了复数领域,并提出了R o t a t E1 0建模在复数域的模型。但由于知识图谱中也存在着大量的层次关系,如果把这样的复杂结构数据建模到常曲率空间,则会导致信息失真过大1 1的问题。而双曲空间由于具有优良的几何性质,逐渐引起了研究者的重视。S a l a1 2引入双曲空间来平衡嵌入,S a x e n a1 3在跨语言单词嵌入工作中也引入了双曲空间。随着研究的深入,发现知识图谱中的实体存在着复杂多变的结构。如图1所示,某些区域的数据是树状的,在其他地方却是循环的,甚至是多种结构的融合。本文的目标是期望提供的空间形状与数据的几何结构相匹配,从而在知识图谱嵌入低维空间时提供更高质量的表示。图1 异质结构图示例F i g.1 E x a m p l eo fh e t e r o g e n e o u ss t r u c t u r e然而,若要利用这些空间,则面临两个关键障碍:必须执行具有挑战性的流形优化来学习曲率和嵌入;需要保证对嵌入的点进行操作时的方便性。针对上述问题,本文提出了M i x e d-C u r v e模型,即把知识图谱嵌入由多个不同空间组成的混合曲率空间中。具体流程如下:首先,用双曲、球面和欧氏空间的笛卡尔积构造混合空间;其次,引入图注意力机制来优化模型;最后,引入子空间权重参数为可训练参数,计算每个子空间在混合空间中的占比。通过这样的操作,可以为知识图谱中的多种结构找到合适的表示,节点表示可以得到更好的更新。该模型的框架如图2所示。图2 M i x e d-C u r v e框架F i g.2 F r a m e w o r kf o rM i x e d-C u r v e本文在几个常用的知识图谱数据集上进行了充分的实验,实验结果表明:(1)混合曲率模型可以很好地建模数据结构不一致的数据集;(2)与 当 前 较 为 先 进 的M u R P相 比,MR R提 升 了 约0.5%。总体而言,本文的主要贡献如下。(1)提出了一种新颖的混合曲率空间来使异质结构更好地被捕捉到,相比现有知识图谱表示学习模型,所提模型更具解释性。(2)提出了一种混合空间,用于知识图谱嵌入的框架。通过引入组成混合空间的子空间权重因子,使各子空间的占比组合达到最优。总的得分函数可以分解到各子空间上。(3)在3个数据集上的实验结果验证了M i x e d-C u r v e模型可以很好地建模异质结构数据。把模型应用到了推荐系统的冷启动问题上,加快了理论研究向工业应用的转变。2 相关工作2.1 基于平移的表示学习方法的发展平移操作的思想在其他任务中早有运用,在词向量的研究中,研究者发现,使用神经网络计算的许多单词之间呈现出线性的关系,如向量计算的结果v e c(北京)-v e c(中国)+v e c(日本)比语料

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开