用图形分解和卷积匹配文章对外文翻译资料

 2022-08-27 10:05:01

英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


用图形分解和卷积匹配文章对

刘邦dagger;,迪牛dagger;,郝杰伟Dagger;,林景洪Dagger;,盐城河Dagger;,赖坤峰Dagger;,于旭Dagger;

dagger;加拿大艾伯塔省艾伯塔省阿尔伯塔大学

{bang3,dniu}@ualberta。ca

Dagger;平台与内容小组,腾讯,中国深圳

{fayewei,daphnelin,collinhe,calvinlai,henrysxu} @ tencent.com

摘要

识别两篇文章之间的关系,例如,从不同来源发表的两篇文章是否描述了同一突发新闻,对许多文档的理解任务至关重要。现有的用于建模和匹配句子对的方法在匹配较长文本时效果不佳,我们的研究体现了:与句子相比,在封闭实体之间的交互作用更加复杂。为了对文章对进行建模,我们提出了概念交互图,以概念图的形式表示一篇文章。然后我们通过一系列编码技术比较了包含相同概念顶点的句子,从而匹配获得一对文章,并通过图卷积网络聚合匹配信号。为了便于评估长文本匹配情况,我们创建了两个数据集,每个数据集由大约3万对重大新闻报道,涵盖了开放领域中的各种热门。在两个数据集上对提出的方法进行的广泛评估表明,对于自然语言匹配而言,最先进的方法有很大的改进。

  1. 引言

识别两篇文章之间的关系是一项重要的自然语言理解任务,这对新闻系统和搜索引擎至关重要。例如,新闻系统需要在互联网上聚集报道同一突发新闻的各种文章(可能以不同的措辞和叙述方式),消除冗余并形成故事情节。由于长文本具有丰富的语义和逻辑结构,因此相较于匹配一对句子或查询文章对,在信息检索中匹配一对文章是一种不同的、更具挑战性的任务。

传统的基于术语的匹配方法通过非监督度量来估计文本对象之间的语义距离,例如通过TF- IDF向量、BM25 、LDA等。这些方法在文档查询匹配、信息检索和搜索方面都取得了成功。近年来,各种各样的深度神经网络模型也被提出并用于文本匹配,它可以通过多层循环或卷积神经网络捕获自然语言中的语义依赖(特别是顺序依赖)。而现有的深度模型主要用于句子对的匹配,如释义识别、问答中的答案选择等,省略了较长的文章中出现的关键词、实体或句子之间的复杂交互。因此,文章对匹配虽然重要,但仍未得到充分的研究。

在本文中,我们将分治哲学应用于匹配一对文章,并将目前占主导地位的语言元素顺序建模的深层文本理解提升到更适合较长的文章的图形文档表示的新水平。具体来说,我们作出了以下贡献:

首先,我们提出所谓的概念交互作用图(CIG)来表示一个文档作为一个加权的概念图,其中每个概念顶点是一个关键字或一组紧密连接的关键字。文章中与每个概念相关联的句子作为对出现在另一篇文章中的同一概念进行局部比较的特征。此外,文中的两个概念点之间还通过加权边连接起来,表示它们之间的相互作用强度。CIG不仅捕获文档中的基本语义单元,而且还提供了一种方法,可以根据发现的常见概念在两篇文章之间进行锚定比较。

虽然有许多数据集用于句子匹配,但较长的文章之间的语义匹配在很大程度上是一个未被探索的领域。据我们所知,到目前为止,还不存在用于长文档匹配的带标签的公共数据集。便于评价和进一步研究文档,特别是新闻文章匹配,我们已经创建了两个标记数据集,互联网上发现的一个注释是否两个新闻文章(从不同的媒体)报道同一新闻事件,而另一个注释是否属于同一新闻故事(但不一定报道同一新闻事件)。这些文章收集了国内主要的互联网新闻提供商,包括腾讯、新浪、微信、搜狐等,内容多样,并由专业编辑进行标注。请注意,与大多数其他自然语言匹配模型相似,本文提出的所有方法也可以轻松地应用于其他语言。

通过大量的实验,我们证明了我们提出的算法在匹配新闻文章对上取得了显著的改进,相比于广泛的最新方法,包括基于术语和深度文本匹配算法。使用一对关节的相同编码或基于术语的特征表示,我们基于图形分解和卷积的方法可以分别将两个数据集的分类精度提高17。31%和23。09%。

图1:一个显示一段文本及其概念交互图表示的例子。

  1. 概念交互图

在本节中,我们展示了概念交互图(CIG),将文档表示为无向加权图,它将文档分解为句子的子集,每个子集关注于不同的概念。给定一个文档,是到岸价是图表,每个顶点在叫做一个概念,这是一个字或一组高度相关关键词在文档 。每个句子将被附加到单一概念顶点最相关,最常见的是句子提到的概念。因此,顶点将有它们自己的句子集,它们是不相交的。一对概念之间的边的权重表示这两个概念彼此之间的关联程度,可以通过各种方式确定。

作为一个例子,图1说明了我们如何将文档转换为概念交互图。我们可以使用标准的关键字提取算法,例如Tex- tRank (Mihalcea和Tarau, 2004),从文档中提取关键字Rick、Morty、Summer和Candy Planet。这些关键字进一步分为三个概念,每个概念都是高度相关的关键字的子集。将关键字分组成概念后,我们将文档中的每个句子与其最相关的概念顶点连接起来。例如,在图1中,句子1和句子2主要谈论的是Rick和Morty之间的关系,因此依附于概念(Rick,Morty)。其他句子也以类似的方式附加到顶点上。句子对概念的依附自然地将原始文档分解成多个不相交的句子子集。因此,我们用关键概念的图来表示原始文档,每个图都有一个句子子集,以及它们之间的交互拓扑。

图2 (a)说明了根据所发现的概念对齐的一对文档的CIGs构造。在这里,我们首先描述为单个文档构造CIG的详细步骤:

KeyGraph建设。给定文档D,我们首先通过TextRank提取命名实体和关键字(Mihalcea和Tarau, 2004)。然后,我们基于已发现的关键字集合构造一个关键字共现图,称为关键字图。每个关键字都是关键图中的一个顶点。如果两个关键词同时出现在同一个句子中,我们用一条边把它们连接起来。

我们可以通过执行共引用解析和同义词分析来合并具有相同含义的关键字,从而进一步改进我们的模型。但是,由于时间复杂性,我们没有应用这些操作。

概念检测(可选)。KeyGraph的结构揭示了关键字之间的联系。如果关键字的一个子集是高度相关的,它们会在KeyGraph中形成一个紧密连接的子图,我们称之为概念。在构建的关键图上应用社区检测算法可以提取概念。社区检测能够将KeyGraph Gkey分割成一组社区,其中每个社区包含某个概念的关键字。通过使用重叠社区检测,每个关键字可以出现在多个概念中。由于不同文档中概念的数量差异很大,我们利用基于中间性中心性评分的算法(Sayyadi and Raschid, 2013)来检测KeyGraph中的关键字社区。

图2:我们从两个文档构造概念交互图(CIG)并通过图卷积网络对其进行分类的方法的概述。

注意,这个步骤是可选的。我们也可以将每个关键字直接作为一个概念使用。概念检测带来的好处是减少了图中顶点的数量,加快了匹配速度,如第4节所示。

句子附件。在概念被发现之后,下一步就是用概念来分组句子。我们计算每个句子和每个概念之间的余弦相似度,其中句子和概念用TF-IDF向量表示。我们给每个句子分配的概念是最相似的句子。与文档中任何概念不匹配的句子将被附加到一个不包含任何关键字的虚拟顶点上。

边建设。为了构建揭示不同概念之间关联的边,我们将每个顶点的句子集表示为与之相连的句子集,并计算任意两个顶点之间的边权值作为它们的句子集之间的TF-IDF相似度。虽然边权值可以通过其他方式确定,但我们的经验表明,通过TF-IDF相似度构造边会生成连接更紧密的CIG。

执行两条匹配时,上述步骤将被应用到一对和的文档,如图2(a)所示。唯一的附加步骤是我们一致的香烟两篇文章的概念顶点,顶点,为每一个共同概念,合并句子集从和为当地的比较。

  1. 通过图卷积的文章对匹配

鉴于本节中介绍的两个文档和的合并CIG 。 如图2所示,我们通过匹配与每个概念相关的和中的语句集,并通过多个图卷积层将局部匹配结果聚合为最终结果,从而以“分而治之”的方式匹配一对词。

图2说明了我们的方法的整体架构,包括四个步骤:(a)代表一对文件由一个合并的是到岸价,(b)学习多视点为每个顶点概念匹配特性,(c)结构转变地方匹配特性图卷积层,和(d)聚合所在地匹配特性,得到最终结果。步骤(b)-(d)可以端到端进行训练。

编码局部匹配向量。对于合并后的CIG ,我们的第一步是为每个单独的概念学习一个适当的固定长度的匹配向量,以表示和,概念v的句子集分别来自文档和。该方法将两个文档的匹配转换为每个顶点上的句子集对匹配。具体来说,我们基于神经网络和基于术语的技术生成局部匹配向量。

孪生神经网络:我们将孪生神经网络编码器应用到每个顶点上,将的词嵌入转化为固定大小的隐藏特征向量,我们称其为匹配向量。

我们使用孪生神经网络和(两个字嵌入的序列)作为输入,并通过上下文编码成两个上下文向量层共享相同的权重,如图2所示(b)。背景层通常包含一个或多个双向LSTM (BiLSTM)或CNN与马克斯池层,层目的是捕获和中的上下文信息。

(1)

其中◦表示Hadamard积。

基于术语的相似度:我们还通过直接计算和之间基于术语的相似度,针对每个生成另一个匹配向量,基于以下5个指标:TF-IDF余弦相似度,TF余弦相似度,BM25余弦 相似度,1-gram的Jaccard相似度和Ochiai相似度。 如图2(b)所示,将这些相似性分数串联到v的另一个匹配向量中。

通过GCN进行匹配聚合局部匹配向量必须聚合为这对文章的最终匹配得分。我们建议利用图卷积网络(GCN)滤波器的能力(Kipf和Welling, 2016)在多个尺度上捕获CIG 中显示的模式。一般来说,GCN的输入是有N个顶点的图,边,权值。输入还包含一个顶点特征矩阵用表示,是特征向量的顶点。对于一对文章和,我们输入的是他们的CIG (具有N个顶点)每个顶点上的(级联)匹配向量进入GCN,使得顶点的特征向量在GCN中满足

现在让我们简要描述图2(c)中使用的GCN层(Kipf和Welling,2016)。图为,其中(在CIG中,它是顶点i和j之间的TF-IDF相似度)。 令D为对角矩阵,使,GCN的输入层为,其中包含原始顶点特征。令表示第层中顶点的隐藏表示矩阵。 然后,每个GCN层将以下图形卷积过滤器应用于先前的隐藏表示形式:

其中 ,是单位矩阵,并且是对角矩阵,使得 。它们分别是图的邻接矩阵和度矩阵。

2016-07-26

希拉里成为总统候选人

2016-07-19

特朗普成为总统候选人

总统候选人

2016-11-02

希拉里表示川普在消费女性

2016-10-08

华盛顿为自己针对女性的言论道歉

2016-10-07

华盛顿指出川普为女人发声

川普发表关于女性的讲话

2016-09-12

医生说希拉里得了重病

2016-09-11

希拉里拨打911

2016-09-14

希拉里表示自己很健康

2016-09-16

希拉里痊愈

希拉里的健康状况

2016-09-28

希拉里指控川普有逃税行为

2016-10-02

纽约时报报道了川普的逃税行为

川普偷税漏税

2016-10-29

FBI解释为什么重启“邮件门”

2016-10-28

FBI重启“邮件门”

2016-11-06

FBI表示:新邮件有风险

2016-10-30

希拉里推动FBI实施此行动

希拉里“邮件门

2016-11-09

川普被选为新总统

2016-11-08

美国民众通过投票选出新总统

投票选出新总统

2016-10-19

第三场

电视辩论

2016-10-10

第二场

电视辩论

2016-09-26

第一场

电视辩论

电视辩论

图3:故事“ 2016年美国总统大选”中包含的事件。

是在可训练权重矩阵升次层。sigma;表示激活函数,例如S型或ReLU函数。这种图卷积规则是由图上的局部频谱滤波器的一阶逼近(Kipf and Welling ,2016 )激发的,当递归应用时,可以提取顶点之间的交互模式。

最后,通过获取最后一层中所有顶点的隐藏向量的平均值,将最终GCN层中的隐藏表示合并为固定长度的单个向量(称为图形合并匹配向量),以表示。最终匹配分数将通过分类网络(例如,多层感知器(MLP)基于进行计算。

除了上述图形合并的匹配向量之外,我们还可以将其他全局匹配特征附加到上 以扩展特征集。这些额外的全局特征可以通过例如使用BERT(Devlin等人,2018 )等最新语言模型直接编码两个文档或直接计算它们基于术语的相似度来计算。但是,我们以秒显示。这种全局特征几乎无法给我们的方案带来更多好处,因为图形合并的匹配向量已经在我们的问题中充分表达了。

  1. 评估 剩余内容已隐藏,支付完成后下载完整资料


    资料编号:[405884],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。