英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
基于表示学习的知识库关系路径建模
Yankai Lin, Zhiyuan Liu, Huanbo Luan, Maosong Sun, Siwei Rao, Song Liu
1、中国北京清华大学计算机科学与技术系智能技术与系统国家重点实验室,信息科学与技术国家实验室。2、中国北京三星研发中心。
摘要
知识库的表示学习是为了将实体和关系嵌入到低维的空间中。大多数现有的方法只考虑了表示学习中的直接联系。我们认为多步骤的关系路径也包含了丰富的实体之间的推理模式,并提出了一种基于路径的表示学习模型。该模型将关系路径视为实体与表示学习实体间的翻译,并解决了两个关键的问题:(1)由于并非所有的关系路径是可靠的,我们设计了一个路径约束资源分配算法来衡量关系路径的可靠性。(2)我们用语义成分的嵌入关系来表示关系路径。真实数据集上的实验表明,与基线相比,我们的模型在知识库实现与文本关系抽取上实现了显着和持续的改善。本文的源代码可以从 https://github.com/mrlyk423/relation_extraction.上获取。
1、概述
人们最近建造了许多大型的知识库(KBs)如 Freebase,DBpedia 和 YAGO.这些KBs包含现实世界的事实,大多是在三元组的形式,例如((Steve Jobs, FounderOf, Apple Inc.)。KBs是许多诸如问答和网络搜索应用的重要资源。虽然典型的KBs规模大,通常包含成千上万的实体和关系类型,十亿的事实(三元组),但是它们远不足以包含所有。因此,许多努力已投入关系提取来丰富的KBs。
最近的研究表明,基于神经网络的表示学习方法对于实体关系的低维表示的编码是可扩展和有效的,可进一步用于提取未知关系事实。TransE(Bordes等人,2013)是一个典型的基于神经网络方法的算法,是基于实体和关系的分布式向量(即嵌入)表示。TransE的实体间的关系对应实体间嵌入的翻译,也就是说,当三元组为(h,r,t)时,h rasymp;t。因为TransE发布了1对N、N对1和N对N的关系,所以 TransH(Wang等人,2014)和TransR(Lin等人,2015)等许多算法被提出用于当涉及到各种关系时,指派一个具有不同表示的实体。尽管TransE算法在关系事实的建模方面取得成功,但TransE 算法和它的扩展仅仅考虑了实体间的直接关系。我们已知的也有多步骤的实体间的关系路径来表示它们的义关系。在KBs中,关系路径反映复杂推理模式之间的系。例如:关系路径
表示h和t之间的国籍关系,即(h ,Nationality ,t)。
在本文中,我们为了模拟KBs的表示学习的关系路径延伸了TransE算法,并提出了基于路径的TransE 算法(PTransE)。在PTransE算法中,除了直接连接相关的事实,我们还从KBs使用关系路径连接的实体对建立了三元组。如图1所示,TransE算法只考虑实体间的直接关系,例如
建立一个三(h, r,t),并优化目标h r = t。PTransE算法使用将多步骤关系路径视为实体间的连接的方法来推论 TransE算法。如图1所示的两步路径
除了在TransE中构建用于学习的三元组(h,r1,e1)和(e1 ,r2,t)之外,PTransE还构建三元组(h,r1 omicron;r2,t),并且优化目标h (r1 omicron; r2) = t ,其中omicron;是将关系r1和r2合并成统一关系路径表示的操作。
与TransE相比,PTransE在KBs中采用丰富的关系路径进行学习。有两个关键的挑战,使PTransE可以特立独行地从关系路径学习:
关系路径可靠性。不是所有的关系路径都是有意义和可靠的学习。例如,典型的一个关系路径
但实际上它不表示h和t之间的任何语义关系。因此,在我们的模型中考虑所有关系路径是不合适的。在实验中,我们发现导致许多可能的尾部实体的那些关系路径对于实体对大部分是不可靠的。在本文中,我们提出一种路径约束资源分配算法来测量关系路径的可靠性。然后,我们选择可靠的关系路径来进行表示学习。
关系路径表示。为了考虑关系路径,关系路径也应当在低维空间中表示。关系路径的语义意义直接取决于该路径中的所有关系。给出关系路径p =(r1,...,r1),我们将定义和学习二进制运算函数(omicron;)来通过递归地组成多个关系即 P = r1omicron; ... omicron; rl,获得路径嵌入 P。
通过关系路径选择和表示,PTransE通过将关系路径作为相应实体之间的翻译来学习实体和关系嵌入。在实验中,我们选择一个典型的KB Freebase 来构建数据集,并对三个任务进行评估,包括实体预测,关系预测和从文本中提取关系。实验结果表明,PTransE在所有三个任务上显著优于TransE和其他基线方法。
2、模型概述
在本节中,我们介绍基于路径的TransE算法(PTransE算法),它学习实体的表示和考虑关系路径的关系。在TransE和PTransE算法中,我们有实体集合E和关系集合R,并且学习在中对实体和关系进行编码。给定由一组三元组S = {(h,r,t)}表示的KB,其中每个三元组由两个实体h,t isin; E和它们的关系r isin; R组成。当我们的模型期望返回低能量分数时,该关系成立,否则关系不成立。
2.1、TransE和PTransE
对于每个三元组(h,r,t),TransE将该关系视为两个实体向量h和t之间的平移向量r。当(h,r,t)成立时,期望得到低分时,能量函数定义为
否则关系不成立。
TransE仅从实体之间的直接关系中学习,而忽略多步骤的相似路径,其也包含实体之间丰富的推理模式。PTransE将关系路径考虑用于表示学习。
假设存在连接两个实体 h和 t 的多个关系路径 P(h,t)= {p1,...,pN},其中关系路径 p =(r1,...,r1)表示
对于每一个三元组(h,r,t),能量函数定义为
,其中 E(h,r,t)表示关系和具有直接关系三元组的实体之间的相关性,如等式(1)中所定义。E(h,P,t)表示多级关系路径三元组的关系之间的推理相关,定义为
其中 R(p | h,t)表示给定实体对(h,t)的关系路径p的可靠性,
是归一化因子,E(h, p, t)是三元组(h,p,t)的能量函数。
对于每个三元组(h,p,t)的能量,分量R(p | h,t)涉及关系路径可靠性,并且E(h,p,t)涉及关系路径表示。我们将详细介绍这两个组件如下。
2.2、关系路径可靠性
我们提出了一种路径约束资源分配(PCRA)算法来测量关系路径的可靠性。网络上的资源分配最初是为了个性化推荐而提出的(Zhou等人,2007),并已成功用于信息检索,以测量两个对象之间的相关性(Lu和Zhou,2011)。这里我们将其扩展到PCRA来测量关系路径的可靠性。基本思想是,我们假设一定量的资源与头实体h相关联,并且将沿给定路径p流动。我们使用最终流向尾部实体t的资源量来测量路径 p 作为 h 和 t 之间有意义的连接的可靠性。
正式地,对于路径三元组(h,p,t),我们计算如下从给定路径p =(r1,...,r1)的从h到t流动的资源量。从h开始,跟随关系路径p,我们可以将流动路径写为
其中
,
对于一个任意实体 m isin;,我们将其在中的关系的其直接前导表示为。流向 m 的资源定义为
其中是遵循关系 的 的直接后继,是从实体 n 获得的资源。
对于每个关系路径p,我们将h中的初始资源设置为 (h)= 1。通过从h通过路径p递归地执行资源分配,尾部实体t最终获得指示可以很好地转换头部实体h的多少信息的资源 (t)。我们使用Rp(t)来测量给定路径 p(h,t)的可靠性,即 R(p | h,t)= (t).
2.3、关系路径表示
除了关系路径可靠性,我们还需要定义等式(2)中的路径三元组(h,p,t)的能量函数E(h,p,t)。类似于方程(1)中的TransE的能量函数,我们也将表示嵌入空间中的关系路径p。
图2 通过关系嵌入的语义组合来计算路径表示
关系路径的语义意义相当依赖于它所涉及的关系。因此,我们通过关系嵌入的语义组合来构建路径嵌入是合理的。如图2所示,路径嵌入p由BorninCity,CityInState和StateInCountry的嵌入组成。
正式地,对于路径p =(,...,),我们定义合成操作omicron;并获得路径嵌入为p = omicron;... omicron;。在本文中,我们考虑三种类型的合成操作:
加法(ADD)加法运算通过对所有关系的向量求和来获得路径的向量,其形式化为
乘法(MUL)乘法运算获得路径的向量作为所有关系的向量的累积,形式化为
加法和乘法运算都很简单,并且已经在短语和句子的语义组合中广泛研究(Mitchell和Lapata,2008)。
反复神经网络(RNN) RNN是最近的基于神经的语义构成模型(Mikolov等人,2010)。使用矩阵W实现合成操作:
其中f是非线性或相同的函数,并且[a; b]表示两个向量的级联。通过设置 = 并且在关系路径之后递归地执行RNN,我们将最终获得p = 。RNN也被用于KBs中关系路径的表示学习(Neelakantan 等人,2015)。
对于多步关系路径三元组(h,p,t),我们可以遵循TransE并将能量函数定义为E(h,p,t)= || h p - t ||。已经最小化|| h r - t || 与直接关系三元组(h,r,t)以确保r asymp; t-h,我们可以直接将(h,p,t)的能量函数定义为
当多重关系路径p与直接关系r一致时,预期为低分,否则不使用实体嵌入。
2.4、客观形式化
我们将PTransE的优化目标形式化为
在TransE之后,相对于三元组(h,r,t)和对(p,r),L(h,r,t)和L(p,r)是基于边际的损失函数:
和
其中= max(0,x)返回0和x之间的最大值,gamma;是边缘,S是存在于KB中的有效三元组的集合, 是无效三元组的集合。与无效三元组相比,目标将有利于有效三元组的较低分数。
针对(h,r,t)的无效三元组被定义为
也就是说,无效三元组集合由原始有效三元组(h,r,t)组成,其中三个分量之一被替换。
2.5、优化和细节实现
为了优化,我们采用随机梯度下降(SGD)来最小化损失函数。我们从训练集中随机选择一个有效的三元组进行学习。在实现中,我们还对嵌入h,r,t的规范实施约束。也就是说,我们设置
还有一些细节的实现将显着影响表示学习的性能,其引入如下。
反向关系加法。在某些情况下,我们对关系的反向版本感兴趣,这可能不会在KB中显示。例如,根据关系路径
我们期望推断(,国籍,)的事实。然而,在本文中,我们只考虑沿一个方向的关系路径。因此,我们加上相反的关系
对于每个关系以KB为单位。也就是说,对于每个三元组(h,r,t),我们构建另一个(t,,h)。这样,我们的方法可以将上述路径考虑为
用于学习。
路径选择限制。每个实体对通常有大量的关系和事实。枚举头部和尾部实体之间的所有可能的关系路径将是不切实际的。例如,如果每个实体平均参考超过100个关系,这在Freebase中是常见的,那么将有数十亿的4步路径。即使对于2步或3步路径,它将是耗时的考虑所有的没有限制。为了计算效率,在本文中,我们将路径的长度限制为至多3步,并考虑那些具有大于0.01的可靠性分数的关系路径。
2.6、复杂度分析
我们将表示为实体的数量,表示关系的数量,K表示向量维度。PTransE的模型参数大小为
与Tr
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[139452],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。