基于
注意力
机制
归纳
网络
小样
关系
抽取
模型
第6 1卷 第4期吉 林 大 学 学 报(理 学 版)V o l.6 1 N o.4 2 0 2 3年7月J o u r n a l o f J i l i nU n i v e r s i t y(S c i e n c eE d i t i o n)J u l y 2 0 2 3d o i:1 0.1 3 4 1 3/j.c n k i.j d x b l x b.2 0 2 2 0 7 5基于注意力机制归纳网络的小样本关系抽取模型季泊男,张永刚(吉林大学 计算机科学与技术学院,长春1 3 0 0 1 2)摘要:针对小样本关系抽取问题,提出一种基于注意力机制的归纳网络.首先,利用归纳网络中的动态路由算法学习类别表示;其次,提出实例级别的注意力机制,用于调整支持集,并获取支持集与查询集样本之间的高级信息,进而获得与查询实例更相关的支持集样本.该模型很好地解决了训练数据不足时如何进行关系抽取的问题.在小样本关系抽取数据集F e w R e l上进行实验,得到的实验结果为:5-w a y5-s h o t情形下准确率为(8 8.3 80.2 7)%,5-w a y1 0-s h o t情形下准确率为(8 9.9 10.3 3)%,1 0-w a y5-s h o t情形下准确率为(7 7.9 20.4 4)%,1 0-w a y1 0-s h o t情形下准确率为(8 1.2 10.3 9)%.实验结果表明,该模型能适应任务并且优于其他对比模型,在小样本关系抽取中取得了优于对比模型的结果.关键词:关系抽取;小样本学习;归纳网络;自然语言处理;长短期记忆网络中图分类号:T P 3 9 文献标志码:A 文章编号:1 6 7 1-5 4 8 9(2 0 2 3)0 4-0 8 4 5-0 8F e w-S h o tR e l a t i o nE x t r a c t i o nM o d e lB a s e do nA t t e n t i o nM e c h a n i s mI n d u c t i o nN e t w o r kJ IB o n a n,Z HANGY o n g g a n g(C o l l e g e o fC o mp u t e rS c i e n c ea n dT e c h n o l o g y,J i l i nU n i v e r s i t y,C h a n g c h u n1 3 0 0 1 2,C h i n a)收稿日期:2 0 2 2-0 3-0 3.第一作者简介:季泊男(1 9 9 7),女,汉族,硕士研究生,从事自然语言处理的研究,E-m a i l:j i b n 1 9m a i l s.j l u.e d u.c n.通信作者简介:张永刚(1 9 7 5),男,汉族,博士,教授,博士生导师,从事人工智能和约束求解与优化的研究,E-m a i l:z h a n g y g j l u.e d u.c n.基金项目:国家自然科学基金(批准号:6 1 3 7 3 0 5 2;6 1 1 7 0 3 1 4;6 0 7 7 3 0 9 7)和吉林省青年科研基金(批准号:2 0 0 8 0 1 0 7).A b s t r a c t:A i m i n ga t t h ep r o b l e mo f f e w-s h o tr e l a t i o ne x t r a c t i o n,w ep r o p o s e da ni n d u c t i o nn e t w o r kb a s e do na t t e n t i o nm e c h a n i s m.F i r s t l y,w eu s e dd y n a m i cr o u t i n ga l g o r i t h mi ni n d u c t i o nn e t w o r kt ol e a r nt h ec l a s sr e p r e s e n t a t i o n.S e c o n d l y,w ep r o p o s e di n s t a n c e-l e v e la t t e n t i o n m e c h a n i s mt oa d j u s ts u p p o r t s e ta n do b t a i nh i g h-l e v e l i n f o r m a t i o nb e t w e e ns u p p o r ts e ta n dq u e r ys e ts a m p l e s,t h e r e b yo b t a i n i n gt h e s u p p o r t s e t s a m p l e s t h a tw e r em o r e r e l e v a n t t o t h eq u e r y i n s t a n c e s.T h ep r o p o s e dm o d e le f f e c t i v e l ys o l v e dt h ep r o b l e mo fh o wt oe x t r a c t r e l a t i o n s h i p sw h e nt h e t r a i n i n gd a t aw a s i n s u f f i c i e n t.T h ee x p e r i m e n t w a s c o n d u c t e d o n t h ef e w-s h o tr e l a t i o n e x t r a c t i o n F e w R e ld a t a s e t,a n d t h ee x p e r i m e n t a l r e s u l t ss h o w e da na c c u r a c yr a t eo f(8 8.3 80.2 7)%i nt h e5-w a y5-s h o t c a s e,(8 9.9 10.3 3)%i nt h e5-w a y1 0-s h o t c a s e,(7 7.9 20.4 4)%i nt h e1 0-w a y5-s h o t c a s e,(8 1.2 10.3 9)%i nt h e1 0-w a y1 0-s h o tc a s e.T h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h e m o d e lc a na d a p tt ot a s k sa n do u t p e r f o r m so t h e rc o m p a r a t i v em o d e l s,a c h i e v i n gb e t t e r r e s u l t s t h a nc o m p a r a t i v em o d e l s i nf e w-s h o tr e l a t i o ne x t r a c t i o n.K e y w o r d s:r e l a t i o ne x t r a c t i o n;f e w-s h o tl e a r n i n g;i n d u c t i o nn e t w o r k;n a t u r a l l a n g u a g ep r o c e s s i n g;l o n gs h o r t t e r m m e m o r yn e t w o r k作为自然语言处理中的一项重要任务,关系抽取的目的是对文本中给定实体对之间的关系进行分类.例如,给定一个句子“J a m e sF u n c ke 1o b t a i n e da1 s t c l a s sh o n o u r a tL i v e r p o o rU n i v e r s i t ye 2”,则该句子中的实体对J a m e sF u n c k与L i v e r p o o rU n i v e r s i t y之间的关系为e d u c a t e d-a t.传统的关系分类方法采用监督训练1-2,需要高质量的大规模标记数据才能很好地泛化.但人工标注数据耗时长,限制了模型对新类的泛化能力.为解决数据缺乏的问题,M i n t z等3提出了远程监督机制,该方法通过大型语义数据库自动获取标记数据.远程监督将实例与知识库(K B)对齐,如果实例包含知识库中存在的实体对,则它们之间的关系将对应于知识库中的实体表达关系.虽然通过远程监督获得了大规模的标注数据,但同时也导致了噪声和长尾问题,这些问题使得采用远程监督的关系抽取模型无法进行准确分类.同时,当训练数据不足时,这些模型也不能很好地泛化.为解决上述问题,研究者们提出了小样本学习问题,小样本学习任务旨在利用每个类中很少的训练样本识别新的类别,由于小样本学习任务可解决训练数据匮乏的问题,所以已引起了广泛关注.早期关于小样本学习的研究主要集中在计算机视觉领域.S a n t o r o等4和M u n k h d a l a i等5提出的方法旨在通过模型结构快速更新少量样本的参数,并构建从输入到预测值的映射函数.在多数情况下,由于参数量大,在小样本学习任务中训练普通的神经网络分类器几乎都是过拟合的.相反,一些非参数方法(k-n e a r e s tn e i g h b o r s,k-m e a n s)不需要优化参数,因此可通过元学习构建小样本学习中的端到端分类器.基于度量的方法通过测量支持集实例与查询实例之间的距离,并利用最近邻算法对它们进行分类.孪生网络(s i a m e s en e t w o r k)6先通过监督学习训练模型,再利用网络提取特征进行小样本学习.与孪生网络相比,匹配网络(m a t c hn e t w o r k)7中的支持集与查询集的编码器不同,它们将支持集样本与查询样本之间带有权重的预测值之和作为输出.原型网络(p r o t o t y p en e t w o r k)8认为每个类别都存在一个原型,即每个类别的支持样本的均值.关系网络(r e l a t i o nn e t w o r k)9将测量指标视为可学习的参数.因此,该模型训练网络学习距离度量.尽管小样本学习在计算机视觉领域发展迅速,但将小样本学习任务应用到自然语言处理任务中报道较少.由于文本的多样性和语义的复杂性,自然语言处理领域中小样本学习模型的性能不如计算机视觉领域.但因为原型网络的简单性和有效性,使得它在自然语言处理任务中得到广泛应用.H a n等1 0提出了一个用于小样本关系分类任务的数据集,采用原型网络作为其基准模型,并将数据集命名为F e w R e l.G a o等1 1使用混合注意力机制改进原型网络处理带有噪声的训练实例.考虑到支持集实例与查询实例之间的匹配信息,Y e等1 2提出了MLMAN模型以交互方式对支持与查询实例进行编码.由于每个类别少数样本之间的多样性和差异性,普通原型网络很难获得合适的类别表示,所以G e n g等1 3提出了基于动态路由算法的归纳网络,该模型可根据支持集更灵活地生成类表示.但归纳网络的关系模块使用了神经张量层1 4,其中需要通过张量参数对实例进行分类,导致当样本的关系类型较大时,模型无法获得鲁棒的泛化能力.此外,该模型未考虑支持实例与查询实例之间的相关信息,也忽略了它们之间的高级特征信息.因此,本文利用自注意力机制1 5改进归纳网络.与普通的归纳网络类似,首先,本文模型也采用双向长短期记忆(B i-L S TM)对支持集实例和查询实例进行编码,并通过自注意力机制生成所有实例的表示;其次,实例级别的注意力机制可选择与查询实例更相关的支持集实例,从而可通过归纳模块获得具有查询相关信息的类别表示.最后,通过计算类别表示与查询集实例向量之间的余弦距离对查询实例的实体对进行分类.1 任务定义本文将两个数据集Dt r a i n和Dt e s t应用于小样本关系抽取任务,这两个数据集彼此不相交且具有不同的标签空间.数据集中的数据都由一系列的实例s,e1,e2,r 组成,其中s是一个包含T个单词的句子实例,e1,e2是句子s中的两个实体,r是实体对在句子s中的关系.648 吉 林 大 学 学 报(理 学 版)第6 1卷 数据集分为支撑集和查询集两部分.小样本学习中的N-w a yK-s h o t任务是指选择N个关系类中的每个都包含K个支持实例.一般地,N和K的值都很小,本文设N=5,K=1 0.用数据集Dt r a i n训练本文模型并用Dt e s t进行测试.在训练迭代周期中,从Dt r a i n数据集中随机选择N个类,并从每个类中随机选择K个样本形成支持集S=(sik,ei1k,ei2k,rik)i=1,2,N;k=1,2,K.类似地,从选出N个类中的剩余数据中随机选择M个样本构成查询集Q=(qi,e1i,e2i,li)i=1,2,M,其中li是实例qi的标签.2 基于注意力机制的归纳网络模型 主 要 由 实 例 编 码 模 块(i n s t a n c ee n c o d e r m o d u l e)、实 例 级 别 注 意 力 模 块(i n s t a n c e-l e v e lm o d u l e)、归纳模块(i n d u c t i o nm o d u l e)和分类器(c l a s s i f i e r)四部分组成,如图1所示.图1 本文模型结构F i g.1 S t r u c t u r eo fp r o p o s e dm o d e l2.1 实例编码模块给定一个含有实体对的包含T个单词的句子x=w1,w2,wT,用B i-L S TM捕获句子的语义信息,并通过自注意力机制生成加权的句子表示.2.1.1 嵌入层对于给定句子x=w1,w2,wT 中的每个单词wi,先通过G l o V e1 6得到d维词嵌入ei,由于靠近目标实体的词通常包含与关系类型相关的有用信息,因此,Z e n g等1 7提出了用位置嵌入帮助神经网络跟踪每个词与每个实体的接近程度,本文也将位置嵌入加入到模型中提高模型的性能.对于每个单词wi,先对其与两个实体之间的相对位置关系进行编码,以获得两个dp维位置嵌入(pi1,pi2),再将其与相应的单词嵌入连接,生成最终的句子嵌入:w1,w2,wT=e1,p1 1,p1 2,et,pt1,pt2 ,wi d+2dp.(1)2.1.2 编码层在编码阶段,先用B i-L S TM作为编码器,将从嵌入层获得的句子嵌入表示为x=w1,w2,wT,输入编码器以获取隐藏层嵌入:ht=L S TM(wt,ht-1),(2)ht=L S TM(wt,ht+1).(3)然后将它们连接起来得到ht=(ht;ht).对于句子中的所有单词最终可得H=h1,h2,hT,其中h为L S TM中的参数.2.1.3 自注意力层由于句子中的每个词与实体的相关性不同,因此其所包含的有用信息也不同.本文先利用自注意力机制获得句子中每个单词与实体之间的权重,然后得到包含加权信息的最终句子表示.自注意力机制的输入是整个H,并输出权重矩阵:=S o f t m a x(Wa2t a n h(Wa1HT),(4)748 第4期 季泊男,等:基于注意力机制归纳网络的小样本关系抽取模型 其中Wa1da2u,Wa2da是权重矩阵,u是L S TM的隐藏层大小,da是超参数.最终的句子表示为以下各项的加权和:e=Tt=1tht.(5)2.2 实例级别注意力模块在小样本学习任务中,每个类的样本很少,并且由于样本之间的多样性和差异性,一个样本远离其他样本会使最终的类表示发生偏移,导致其与查询集的相关性降低,并影响最终输出.为提高模型的性能,本文提出实例级别的注意力机制,以获得与查询实例更相关的支持集实例.即支持集实例与查询实例越近,注意力权重越大.通过实例级别注意力的计算,可得加权的支持集实例表示为e=nij=1je,(6)j定义为j=e x pjnik=1e x pk,(7)j=s u m(fi n s-a t t(x),(8)x=S-Q;SQ,(9)其中:fi n s-a t t是一个全连接层;()是一个激活函数,本文选用S i g m o i d函数;是元素级的绝对值;是元素级乘法.2.3 归纳模块本文将通过上述步骤从支持集S中得到的向量e作为样本向量es,将查询集Q中的向量作为查询向量eq.该模块中最重要的一步是提取支持集中每个类的表示.归纳模块的主要目的是设计一个从样本向量esi j到类向量ci的非线性映射:esi j 2ui=1,2,N;j=1,2,Kci 2uNi=1.(1 0)在归纳模块中应用动态路由算法1 8,并设输出胶囊的数量为1.为模型能接受任意类别、任意数量(a n y-w a ya n y-s h o t)的输入,在所有支持集样本向量中应用一个权重共享矩阵.支持集中所有样本向量共享相同的变换权重Ws2u2u和偏置bs,因此该模型较灵活,可处理任何规模的支持集.每个样本预测向量的计算公式为esi j=s q u a s h(Wsesi j+bs),(1 1)其中s q u a s h是在整个向量上计算的非线性压缩函数,它使向量的方向保持不变但减小其大小.给定输入向量x,s q u a s h函数定义为s q u a s h(x)=x1+x2xx.(1 2)式(1 1)编码了较低级别样本特征与较高级别类特征之间的重要语义关系.为保证类向量自动封装该类的样本特征向量,动态路由算法被迭代地使用到模型中.在每次迭代中,该过程会动态修改连接强度,并通过“r o u t i n gS o f t m a x”确保类i及该类中所有支持样本之间的耦合系数di总和为1:di=S o f t m a x(bi),(1 3)其中bi是耦合系数的L o g i t s计算,并在第一次迭代中初始化为0.先给定每个样本预测向量esi j,每个类候选向量ci是类i中所有样本预测向量esi j的加权和:ci=jdi jesi j.(1 4)再应用一个非线性s q u a s h函数确保路由过程的向量输出长度不超过1:ci=s q u a s h(ci).(1 5)每次迭代的最后一步都通过“协议路由”方法调整耦合系数bi j的L o g i t s计算.如果生成的类候选向量具有一个样本预测向量的大标量输出,则存在自上而下的反馈,该反馈会增加该样本的耦合系数848 吉 林 大 学 学 报(理 学 版)第6 1卷 并降低其他样本的耦合系数.这种类型的调整对小样本学习场景非常有效且鲁棒性强,因为它不需要恢复任何参数.每个bi j的更新公式为bi j=bi j+esi jci.(1 6)形式上,将本文归纳方法称为动态路由归纳算法.算法1 动态路由算法.输入:支持集S中的样本向量esi j,并将耦合系数bi j初始化为0;输出:类别向量ci;步骤1)对类别i的所有样本j=1,2,K:esi j=s q u a s h(Wsesi j+bs);步骤2)在每次迭代过程中:di=s o f t m a x(bi),ci=jdi jesi j,ci=s q u a s h(ci);对类别i的所有样本j=1,2,K:bi j=bi j+esi jci;步骤3)结束迭代;步骤4)返回ci.2.4 分类器传统归纳网络1 3中的关系模块使用了神经张量层1 4,因为该神经张量层在建模两个向量之间的关系时有很大优势1 9-2 0,因此在传统归纳网络中选择它作为交互函数.但由于神经张量层中的张量参数会随着类关系类型的增加而降低输出的准确性,因此本文对传统归纳网络的关系模块进行改进.因为动态路由算法中的s q u a s h函数不会改变向量的方向,同时由于使用余弦相似度作为距离函数可使模型达到更好的效果,所以在更新类向量和查询实例向量后,使用余弦相似度计算类向量与查询向量之间的距离,可进一步计算查询实例的关系概率为P(y=riq)=e x pd(f(q),ci)Ri=1e x pd(f(q),ci).(1 7)2.5 损失函数与传统归纳网络不同,本文使用交叉熵损失函数训练模型.给定输入x及对应的真值y,损失函数可表示为L=-1M1RMqQRi=1yql o gP(riq).(1 8)3 实验及结果分析3.1 基准模型选择以下模型作为一种基准模型与本文模型进行比较.1)M e t aN e t w o r k5:其为一种具有跨任务快速泛化的架构和训练过程的模型,基于S G D的传统优化参数称为慢权重,损失梯度信息用于元信息以生成快速权重,在元网络中,将慢速权重和快速权重相结合进行预测.2)图神经网络(GNN)2 1:其为一种用于处理由节点和边组成数据的网络,目标是学习每个节点的表示,根据节点的特征、连接到该节点的边及其邻居节点进行计算.3)S NA I L2 2:其为一种将元学习视为序列到序列问题的模型,它结合了时间卷积和注意力机制,对于元学习,其可根据经验快速预测具有相似分布的新样本,与传统的循环神经网络(R NN)(如L S TM或门控循环单元(G RU)相比,S NA I L的结构更容易训练.948 第4期 季泊男,等:基于注意力机制归纳网络的小样本关系抽取模型 4)原型网络(p r o t o t y p i c a ln e t w o r k)8:其利用卷积神经网络(C NN)作为编码器生成输入的表示,每个类别的表示是该类别中所有支持实例表示的平均值,然后用距离函数对查询实例进行分类.5)P r o t o-HAT T1 1:其利用混合注意力改进了的原型网络,以处理小样本关系分类嘈杂的训练实例.3.2 数据集及实验设置下面在一个新的小样本关系分类数据集F e w R e l1 0上评估本文模型在小样本关系抽取任务中的性能.在该数据集中,先使用远程监督将文本与知识库对齐,得到句子的关系类型,然后通过人工标注过滤出标注正确的句子,得到一个没有噪声的干净数据集.最终数据集有6 4个训练关系、1 6个验证关系和2 0个测试关系,每个关系包含7 0 0个实例.数据集F e w R e l及其他关系抽取数据集的组成对比结果列于表1.表1 数据集F e w R e l及其他关系抽取数据集的组成对比T a b l e C o m p o s i t i o nc o m p a r i s o no fF e w R e l d a t a s e t a n do t h e r r e l a t i o ne x t r a c t i o nd a t a s e t s数据集#c l s#i n s t s数据集#c l s#i n s t sNY T-1 05 71 4 33 9 1S e m E v a l-2 0 1 0T a s k8966 7 4A C E2 0 0 32 41 67 7 1F e w R e l1 0 07 00 0 0 在实验中,使用N-w a yK-s h o t的4种小样本学习设置,进行两组控制实验评估本文模型:将本文模型与其他对比模型进行比较,并分析模型中模块的影响.表2列出了本文模型的超参数设置.利用G l o V e得到的词嵌入作为本文编码器的输入,并将词嵌入的维度设为5 0,本文也利用了位置嵌入,并且位置嵌入的维度设为5,将句子的最大长度设为4 0.最大相关距离是指每个单词与实体的最大距离,如果单词在实体前面,则相关距离为“-”,如果单词在实体后面则相关距离为“+”.在编码器中,设置L S TM的隐藏层u大小为1 2 8,D r o p o u t设为0.5,动态路由算法中迭代次数的值为3.本文使用S G D进行优化,并设置初始学习率为0.1.表2 本文模型的超参数设置T a b l e2 H y p e r-p a r a m e t e r s e t t i n g so fp r o p o s e dm o d e lL S TM的隐藏层大小(双向)2 5 6位置嵌入维度5词嵌入维度5 0初始学习率0.1最大相关距离4 0D r o p o u t r a t e0.5句子最大长度4 0优化算法S G D3.3 对比实验将本文模型与其他小样本学习关系分类模型进行比较,不同模型的准确度比较结果列于表3.M e t a N e t w o r k等模型最初用于计算机视觉领域,通过改变它们的编码器处理文本.G a o等1 1提出了具有混合注意力机制的模型P r o t o-HAT T解决噪声问题.在这些距离度量学习方法中,都专注于学习实例的表示并在样本级别计算距离.与这些模型相比,本文模型利用基于自注意力机制的归纳网络,可根据不同的支持实例在每次训练迭代期间调整耦合系数,从而更自适应地关注类表示.表3 不同模型的准确度比较 T a b l e3 A c c u r a c yc o m p a r i s o no fd i f f e r e n tm o d e l s%模型小样本类型5-w a y5-s h o t5-w a y1 0-s h o t1 0-w a y5-s h o t1 0-w a y1 0-s h o tM e t aN e t w o r k8 0.2 30.6 48 3.2 40.1 67 1.0 10.3 37 2.7 80.1 2GNN7 7.9 60.3 58 0.0 30.3 16 5.2 20.3 76 9.4 10.5 2S NA I L8 0.3 00.2 88 2.1 40.2 86 9.1 10.2 27 2.0 10.1 5P r o t o t y p i c a lN e t w o r k8 5.7 30.2 58 7.1 30.2 97 4.3 20.1 77 7.4 00.3 2P r o t o-HA T T8 7.1 20.1 48 8.7 80.1 87 6.7 70.2 68 0.0 30.1 9本文8 8.3 80.2 78 9.9 10.3 37 7.9 20.4 48 1.2 10.3 9 由表3可见,通过在改进的归纳网络上使用分层自注意力方案,本文模型优于其他模型,可以关058 吉 林 大 学 学 报(理 学 版)第6 1卷 注具有查询相关信息的实例,并自适应地调整类向量和查询实例.因为没有可用的测试集,所以表3中所有模型的结果都是在F e w R e l的训练集上进行训练,并在验证集上进行测试.3.4 消融实验为进一步评估本文模型,本文分析了模型各部分对性能的贡献,结果列于表4.实验去除了实例级别注意力机制,并分别改变动态路由算法中的迭代次数值.在5-w a y5-s h o t和5-w a y1 0-s h o t设置下进行实验.由表4可见,3次迭代达到了最佳性能.无论减少还是增加迭代次数,精度都会降低.这是因为当减少迭代次数时,类向量不能很好地拟合支持实例.如果迭代次数超过3次,则类向量过拟合,表明类向量无法拟合查询实例.其中,m o d e l-(i n s_a t t)表示本文模型在去掉了实例级别注意力机制后所得结果.表4中的结果还表明,实例级别注意力机制可有效提高模型的性能.实例级别注意力可以选择与查询实例更相关的支持集实例,从而可以通过归纳模块获得具有查询相关信息的类别表示.表4 本文模型在数据集F e w R e l上的消融实验结果T a b l e4 R e s u l t so fa b l a t i o ne x p e r i m e n t o fp r o p o s e dm o d e l o nF e w R e l d a t a s e t模型迭代次数5-w a y5-s h o t/%5-w a y1 0-s h o t/%M o d e l38 8.3 80.2 78 9.9 10.3 3M o d e l28 8.0 40.0 38 9.1 70.3 6M o d e l18 7.5 20.3 08 9.0 10.4 1M o d e l48 7.8 20.2 18 8.9 80.1 8M o d e l-(i n s-a t t)38 8.1 20.2 48 9.2 80.2 6 图2和图3分别为在5-w a y1 0-s h o t的设置下,在添加实例级别注意力前后支持集实例的可视化图像.随机选择支持集和查询集,并获得添加实例级别注意力前后的实例向量.由图2和图3可见,添加实例级别注意力后产生的类内实例向量得到了更好的聚合,证明了本文模型的有效性.图2 加入实例级别注意力前的样本分布F i g.2 S a m p l ed i s t r i b u t i o nb e f o r ea d d i n gi n s t a n c e-l e v e l a t t e n t i o n图3 加入实例级别注意力后的样本分布F i g.3 S a m p l ed i s t r i b u t i o na f t e ra d d i n gi n s t a n c e-l e v e l a t t e n t i o n 综上所述,本文提出了一种基于注意力机制的归纳网络,用于小样本关系抽取.首先,采用B i-L S TM对实例进行编码,并在自注意力机制后生成所有实例的表示;其次,设计实例级注意力以选择与查询实例更相关的支持实例;最后,通过测量类向量与查询实例嵌入之间的余弦距离对查询实例的实体对进行分类.实验结果表明了本文模型的有效性和鲁棒性.参考文献1 MOON E YR J,B UN E S C U R C.S u b s e q u e n c e K e r n e l sf o r R e l a t i o n E x t r a c t i o nJ.A d v a n c e si n N e u r a lI n f o r m a t i o nP r o c e s s i n gS y s t e m s,2 0 0 5,1 8:1 7 1-1 7 8.2 B UN E S C URC,MOON E YRJ.AS h o r t e s tP a t hD e p e n d e n c yK e r n e l f o rR e l a t i o nE x t r a c t i o nC/P r o c e e d i n g so f t h eC o n f e r e n c eo nH u m a nL a n g u a g eT e c h n o l o g ya n dE m p i r i c a lM e t h o d s i nN a t u r a lL a n g u a g eP r o c e s s i n g.N e wY o r k:A CM,2 0 0 5:7 2 4-7 3 1.3 M I N T ZM,B I L L SS,S NOW R,e ta l.D i s t a n tS u p e r v i s i o nf o rR e l a t i o nE x t r a c t i o nw i t h o u tL a b e l e dD a t aC/P r o c e e d i n g so ft h eJ o i n tC o n f e r e n c eo ft h e4 7 t h A n n u a lM e e t i n go ft h e A C La n dt h e4 t hI n t e r n a t i o n a lJ o i n t158 第4期 季泊男,等:基于注意力机制归纳网络的小样本关系抽取模型 C o n f e r e n c eo n N a t u r a lL a n g u a g e P r o c e s s i n g o ft h e A F N L P.S.l.:T h e A s s o c i a t i o nf o r C o m p u t a t i o n a lL i n g u i s t i c s,2 0 0 9:1 0 0 3-1 0 1 1.4 S AN T OR O A,B A R TUNOV S,B OT V I N I C K M,e ta l.M e t a-L e a r n i n g w i t h M e m o r y-A u g m e n t e d N e u r a lN e t w o r k sC/I n t e r n a t i o n a lC o n f e r e n c eo nM a c h i n eL e a r n i n g.S.l.:PML R,2 0 1 6:1 8 4 2-1 8 5 0.5 MUNKHD A L A IT,YU H.M e t a N e t w o r k sC/I n t e r n a t i o n a lC o n f e r e n c eo n M a c h i n eL e a r n i n g.S.l.:PML R,2 0 1 7:2 5 5 4-2 5 6 3.6 KO CH G,Z EME LR,S A L AKHUT D I NOVR.S i a m e s eN e u r a lN e t w o r k s f o rO n e-S h o t I m a g eR e c o g n i t i o nJ.I CMLD e e pL e a r n i n gW o r k s h o p,2 0 1 5,2:1-8.7 V I NYA L SO,B L UN D E L LC,L I L L I C R A PT,e t a l.M a t c h i n gN e t w o r k s f o rO n eS h o tL e a r n i n gJ.A d v a n c e si nN e u r a l I n f o r m a t i o nP r o c e s s i n gS y s t e m s,2 0 1 6,2 9:3 6 3 7-3 6 4 5.8 S N E L LJ,S WE R S KY K,Z EME LR.P r o t o t y p i c a lN e t w o r k sf o rF e w-S h o tL e a r n i n gJ.A d v a n c e si nN e u r a lI n f o r m a t i o nP r o c e s s i n gS y s t e m s,2 0 1 7,3 0:4 0 8 0-4 0 9 0.9 S UN GF,YAN GYX,Z HANGL,e t a l.L e a r n i n gt oC o m p a r e:R e l a t i o nN e t w o r kf o rF e w-S h o tL e a r n i n gC/P r o c e e d i n g so f t h e I E E EC o n f e r e n c e o nC o m p u t e rV i s i o na n dP a t t e r nR e c o g n i t i o n.P i s s c a t a w a y,N J:I E E E,2 0 1 8:1 1 9 9-1 2 0 8.1 0 HAN X,Z HU H,YU PF,e ta l.F e w r e l:AL a r g e-S c a l eS u p e r v i s e dF e w-S h o tR e l a t i o nC