英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
特定于路径的知识图嵌入
Yantao Jialowast;, Yuanzhuo Wang, Xiaolong Jin, Xueqi Cheng
CAS Key Lab of Network Data Science and Technology, Institute of Computing Technology, Chinese Academy of Sciences, China
关键字:特定路径、知识图嵌入、关系路径
摘要:知识图嵌入旨在将知识图的实体,关系和多步关系路径表示为低维向量空间中的向量,并支持许多应用,例如实体预测,关系预测等。现有的嵌入方法可以学习知识的表示。 实体,关系和多步骤关系路径,这是通过最小化所有关系路径共享的一般基于边距的损失函数来实现的。 此设置无法考虑不同关系路径之间的差异。
在本文中,我们提出了一种通过最小化知识图嵌入的基于路径的特定基于余量的损失函数的嵌入方法,称为PaSKoGE。 对于每个路径,它通过对任何给定实体对的关系和多步关系路径之间的相关性进行编码,来自适应地确定其基于边际的损失函数。 PaSKoGE胜过最新方法
1.引言
知识图,例如Freebase [1]和WordNet [2],是一种图,其中具有不同类型的实体作为顶点,而实体之间的各种关系作为边缘。 这里的实体是世界上的真实物体(例如,巴拉克·奥巴马)或人脑中的抽象概念(例如,美国第44任总统)。 关系描述了两个实体之间的关系(例如,巴拉克·奥巴马(Barack Obama)是美国第44任总统,而巴拉克·奥巴马(Barack Obama)和美国第44任总统之间的关系是“是”。 两个实体以及它们之间的一种关系在知识图中形成一个三元组(例如(美国第44任总统巴拉克·奥巴马(Barack Obama)is-a)是一个三元组)。 知识图通常包含数十亿个顶点,多类型边和三元组。 因此,在诸如实体预测之类的实际应用中对此类大规模图形建模并不容易[3]。
最近,提出了一些方法将知识图的实体和关系嵌入到低维向量空间中,称为知识图嵌入[4,5]。通过优化基于边距的损失函数,它们将实体和关系表示为矢量,其中边距是一个非负数,用于将正三元与负三元分开。典型的方法包括TransE [3],TransH [5],TransR [4],HOLE [6],TransA [7,8]等。例如,TransE优化基于余量的损失函数(h,r,t) (h,r,t)(fr(h,t)-fr(h,t) M) ,其中fr(h,t)和fr(h,t)是正三元组(h, r,t)和负三元组(h,r,t)。正三元组(h,r,t)是知识图中的三元组,其中h和t是两个实体,r是它们之间的关系。通过将h替换为h,将t替换为t,可以从(h,r,t)获得负三元组(h,r,t)。 (x) = max(0,x)返回0到x之间的最大值。 M表示为不同知识图的所有三元组设置的恒定余量,其最佳值由实验确定。例如,通过使用TransE,作为Freebase [3]的子集的FB15K的最佳裕度等于1。为了适应性地为不同的知识图找到最佳的基于余量的损失函数,TransA引入了余量变化的损失函数,以便每个三元组都有自己的最佳余量。 TransA显着提高了知识图嵌入的性能。
除了实体和关系的表示外,还研究了一种基于路径的方法。通过最小化一般的基于边缘的损失函数,将实体间的多步关系路径表示为低维向量空间中的向量,这意味着基于边缘的损失函数被所有的多步关系路径共享。这里的多步关系路径是连接一系列顶点的边的集合。典型的基于路径的嵌入方法有PTransE[9]和RTransE[10]。例如,PTransE使用了一个基于边缘的损失函数,该函数将最优边缘M设为所有关系路径共享的常数,并通过对不同知识图的实验确定其最优值。例如,使用PTransE, FB15K上的最优裕度为1。虽然基于路径的嵌入方法极大地提高了实体预测和关系预测等实际应用的性能,但它们没有考虑关系路径之间的差异。例如,
Barack Obama Sasha Obama Michelle Obama连接了Barack Obama和Michelle Obama这两个实体。显然这连个实体是有配偶的关系的。以及关系路径:Barack Obama John Kerry Hillary Clinton连接了互为同事的两个实体Barack Obama和Hillary Clinton。这两个同事的关系显然不同,但它们具有相同的基于边缘的损失函数,其中边缘为1。此外,可以通过实证证明,不同知识图的基于边缘的损失函数的边缘设置是不同的。例如,对于Freebase的两个不同的子图,即, Subgraph1和Subgraph2,如第3节所述,得到了将边距分别设置为6和2时的最优嵌入性能。最重要,当执行知识图嵌入在整个知识图,利润率的具体设置,即关系路径Subgraph1和Subgraph2 opti-mal利润率分别是6和2,需要更好的结果,那些边缘的所有关系路径设置为1。
再此,我们提出了一种基于路径的知识图嵌入方法,自适应地寻找最优的基于边缘的损失函数。具体地,我们提出了一种基于路径的知识图嵌入方法,称为PaSKoGE,它通过最小化基于路径的边缘损失函数来学习实体、关系和多步关系路径的表示。也就是说,对于每个路径,它分别自适应地确定其边界。应该指出,这项任务之所以困难有两个原因。首先,在知识图中,关系路径的长度是不同的,不同长度的路径都需要确定边距。其次,在一个真实的知识图中,关系路径的数量总是巨大的。例如,在FB15K中大约有1000万个长度为2的关系路径。对于处理如此大量的关系路径,确定边距应该是很简单的。为此,我们通过对任意给定实体对的关系和多步关系路径之间的相关性进行编码,从而为任意长度的路径定义边界。此外,由于PaSKoGE的复杂性,它具有与TransE、TransA、PTransE等简单方法相同的参数数量。在标准基准上的实验证明了PaSKoGE的有效性。
论文的其余部分组织如下。在第二部分中,我们提供了一些现有的知识边缘图嵌入方法的背景。第3节研究了路径特定的边界设置对已知边图嵌入性能的影响。第4节通过最小化基于路径特定边缘的损失函数,给出了路径特定的方法。第五部分给出了实验结果。第六部分是本文的结论。
2.相关工作
经典的知识图嵌入方法将知识图的实体和关系表示为低维向量空间中的向量,方法是最小化基于边缘的损失函数,该函数使用一个称为边缘的非负数作为超参数,以很好地分离正三元组和负三元组[5]。保证金的引入在许多基于保证金的模型中是常用的,如支持向量机[11]。典型的经典嵌入方法有TransE[3]、TransH[5]、TransR[4]、非结构化方法[12、13]、结构化嵌入(SE)[14]、Seman-tic Matching Energy (SME)[12]、神经张量网络(NTN)[15]、潜在因子模型(LFM)[16、17]、RESCAL[18、19]、TransA[7、8]、HOLE[6]、TransG[20]等。例如,对于知识图中的所有三元组(h, r, t),其中r表示h与t之间的关系,TransE使用损失函数:
其中,2 为L-范数,黑体字h、r、t分别表示h、r、t的嵌入向量。三重(hrsquo;, r, trsquo;)是由(h, r, t)通过hrsquo;替换h和trsquo;替换t得到的,如果它不包含在已知边图中,则称为负三重。(x) = max(0, x)返回0到x之间的最大值。M表示边距,设为不同知识图的所有三元组共享的常数。TransE很好地应用于1- 1关系,但对于n -1、1-to-N和N-to-N关系存在问题。为了解决TransE在建模n - To - 1,1 - To - n和N-to-N关系时的问题,提出了TransH,使实体在涉及不同的映射时具有不同的分布式表示。对于关系r, TransH将关系建模为以wr为法向量的超平面上的向量r。rTransE和TransH都假定实体和关系嵌入在同一空间中。然而,一个实体可能有多个方面,而各种关系集中在实体的不同方面。为了对独立空间中的实体和关系进行建模,提出了跨空间模型。具体来说,对于每个三元组(h, r, t),实体嵌入设为,关系嵌入设为。以上三种方法对不同的知识图使用相同的边距设置,忽略了知识图的局部性。为了自适应地确定不同知识图的边界,TransA引入了一个有前途的损失函数,该函数具有灵活的边界,用Mopt(h, r, t)表示,这样每个三元组(h, r, t)都有自己的最优边界。opt这些经典方法采用实体之间的直接关系,在实践中非常容易理解。然而,它们没有考虑知识图中实体之间的多步关系路径,这表明实体之间存在更多的语义信息或结构。因此,这些方法的性能在某些情况下并不令人满意。
为了在知识图的嵌入过程中加入更多的结构化信息,提出了一种基于路径的方法来研究多步关系路径的表示。(PTransE [9], RTransE [10], COMP[21])。这些方法还最小化了基于边缘的损失函数,其中边缘由所有关系路径共享。例如,PTransE使用包含该术语的loss函数:
其中p-r是p-r的L1范数或L2范数。 p和r分别是多步关系路径p和h与t之间的关系r的嵌入向量。 rrsquo;被称为损坏的关系,使得(h,rrsquo;,t)在知识图中不是三元组。余量M被设置为所有关系路径共享的常数。 它通过使用三种类型的合成运算(即加法,乘法和递归神经网络)从其分量转换向量中获得关系路径的嵌入向量。 然而,那些基于路径的嵌入方法最终通过最小化基于全局裕度的损失函数来学习表示,该损失函数的裕度是从由不同知识图共享的固定候选集中选择的。 这也忽略了知识图之间的差异。 从第3节可以看出,确定每条路径的单个边距往往会产生更好的性能。 在本文中,我们打算提出一种基于路径的嵌入方法,以自适应地确定损失函数中任意长度的每条路径的边距,从而进一步提高知识图嵌入的性能。
3.特定路径的边界设置对性能的影响
在本节中,我们将通过实验来研究特定于路径的边界设置是否提高了知识图嵌入的性能。实验结果表明
表1 不同知识图的最优边值选择和预测性能。Partition0表示未对知识图FB15K进行分区
Knowledge graphs |
|
Margin |
|
|
|
|
|
Raw |
Filter |
Partition0 |
Whole FB15K |
1 |
51.8 |
83.4 |
Partition1 |
Subgraph1 |
6 |
52.5 |
87 |
Subgraph2 |
2 |
|||
Partition2 |
Subgraph A |
4 |
53.1 |
87.1 |
Subgraph B |
3 |
|||
Subgraph C |
3 |
|||
Subgraph D |
4 |
|||
|
Subgraph E |
1 |
|
|
知识图嵌入对边值设置的敏感性,说明了对每条路径进行自适应选择的必要性。
具体来说,我们的实验分为四个步骤。首先,将知识图以一种统一的形式划分为若干个子图;其次,利用著名的基于路径的嵌入方法PTransE学习每个子图上的实体表示、关系表示以及多步关系路径。在每个子图上,由PTransE可以找到每个子图上一般的基于边值的损失函数的最优设置,其中边值由每个子图上的所有关系路径共享。第三,利用PTransE算法学习知识图的嵌入。最后,我们使用PTransE学习整个知识图的嵌入,如果关联路径出现在其中一个子图中,则将其边缘设为第二步发现的最优边。否则,它的边缘将是在第三步中发现的。我们想看看最后两步的两个定位球是否有不同的表现。
为此,我们采用了广泛使用的知识图FB15K,它包含了1345种不同类型的关系和14951个实体。1我们把FB15K分成两个关系大小几乎相等的子图,分别用Subgraph1和Subgraph2表示,用Partition1表示。更准确地说,我们随机选择672个关系作为Subgraph1的关系。然后将与这672个关系相关的实体视为Subgraph1的实体。这样,我们在Subgraph1中找到了14585个实体。其余673关系为分项2的关系,相关实体数为14,639。可以看出,这两个子图的关系集
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[235554],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。