基于注意机制的卷积神经网络的语义关系提取外文翻译资料

 2022-11-06 14:46:02

英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


基于注意机制的卷积神经网络的语义关系提取

如今,神经网络在关系分类任务中起着重要的作用。 在这个论文中,我们提出了一种新颖的基于注意的卷积神经网络结构任务。 我们的模型充分利用词嵌入,词性标签嵌入和位置嵌入信息。 词级注意机制能够更好地确定哪些部分对这两个感兴趣的实体来说,这个判决最有影响力。 这个架构能够从任务特定的标签数据中学习一些重要的功能,从而满足需求外部知识,如显式依赖结构。 SemEval-2010实验任务8基准数据集显示,我们的模型比几个最先进的神经网络模型实现更好的性能,并且可以最小化地实现竞争性能。

1介绍

在给定的上下文中分类两个实体之间的关系是自然语言处理(NLP)中的重要任务。 以下列句子为例:

珠宝和其他较小的贵重物品lt; e1gt;被锁在一个安全的lt;e2gt;或带有死栓的衣柜中。

标记的“贵重物品”和“安全”是与“Content-Container(e1; e2)“。

关系分类在各种NLP应用中起关键作用,已成为一项热门研究近年来的话题。 已经提出了各种基于机器学习的关系分类方法为了这项任务,基于人为设计的功能(Kambhatla,2004; Suchanek等,2006),或内核(Kambhatla,2004; Suchanek等人,2006)。 一些研究人员也采用了现有的已知技术事实通过遥远的监督来标注文本语料库(Mintz et al。,2009; Riedel et al。,2010; Hoffmannet al。,2011; Takamatsu等,2012)。

所有这些方法都是有效的,因为它们利用了大量的语言知识。然而,这些方法可能会受到两个限制。 首先,提取的功能或精心设计设计的内核通常源自预先存在的NLP系统的输出,这导致了传播现有工具中的错误并阻碍这些系统的性能(Bach和Badaskar,2007)。 第二,上述方法在关系提取过程中不能很好地缩放,这使得很难设计有效的任务特定功能和学习参数。

最近,神经网络模型越来越多地侧重于其最小化的能力NLP任务特征工程的努力(Collobert et al。,2011; Zheng et al。,2013; Pei et al。,2014)。此外,一些研究人员也注意到了神经网络的特征学习关系提取。 (Socher et al。,2012)介绍了递归神经网络模型来学习任意句法类型和长度的短语和句子的组合向量表示。 (曾先生et al。,2014; Xu等,2015b)利用卷积神经网络(CNN)进行关联分类。(Xu et al。,2015c)应用了长期记忆(LSTM)的复发神经网络(RNNs)沿着最短的依赖路径

我们注意到,这些神经模型都被设计为所有单词在句子中同样重要的方式,并且对句子意义的表示作出了同样的贡献。 然而,各种情况表明并不总是如此。 例如,

“导致he2i事故lt;e2gt;的he1i女人lt; e1gt;在手机上跑过了交叉点,而不停留在中位数“,其中关系类型是”因果(e2,e1)“。

显然,并不是所有的单词对语义关系的表示都有同等的贡献。 在这个句子“引起”在确定“因果”的关系中具有特殊意义,但“电话”与“因果”关系的语义相关性较小。 那么如何识别关键线索确定主要语义信息是一项重要任务。

如果有效地捕捉到与目标实体有关的单词的相关性,我们可以发现关键确定语义信息的单词。 因此,我们提出将注意机制引入到卷积神经网络(CNN)中,以提取对于句子和汇总这些信息词的表示形成一个句子向量。 我们的做法的主要贡献如下:

1.我们提出一种新颖的卷积神经网络架构,将文本段编码到其中语义表示。 与现有神经关系提取模型相比,我们的模型可以做到充分利用嵌入词,词性标签嵌入和位置嵌入

2.我们的卷积神经网络架构依赖于词级注意机制来选择关系的语义表示的重要信息。 这使得可以检测尽管输入句子的异构结构,更细微的线索,使其自动了解哪些部分与给定的课程相关。

3. SemEval-2010任务8基准数据集的实验表明,我们的模型比以前的神经网络模型获得了更好的表现,F1得分为85.9%,可以实现竞争表现,F1分数为84.3%,只需极少的功能工程。

2相关作品

各种学习范式已被应用于关系提取。如前所述,监督方法在这项任务中表现良好。在监督范式中,关系分类被认为是一个多分类问题,研究人员集中精力提取基于特征或基于内核的复杂特征。 (Kambhatla,2004; Suchanek等人,2006)转换了分类线索(如序列和解析树)成特征向量。各种内核,如卷积树核(Qian et al。,2008),子序列核(Mooney和Bunescu,2005)和依赖树内核(Bunescu和Mooney,2005)被提出来解决关系分类问题。 (Plank和Moschitti,2013)将语义信息引入到内核方法中除了仅考虑结构信息。但是,依赖手动注释,哪个生产成本昂贵,数量有限,为遥远的监管提供了动力(Mintz等人,2009; Riedel等人,2010; Hoffmann等人,2011; Takamatsu等人,2012)。

随着近来对深层神经网络兴趣的兴起,许多研究人员已经集中精力使用深层网络学习功能。在NLP中,这种方法主要基于学习分布式方法每个单词的表示,也称为嵌入词(Turian et al。,2010)。 (Socher等人提出了一种用于关系分类的递归神经网络(RNN)来学习向量句法树路径连接两个名词以确定其语义关系。 (Hashimoto等人,2013)也采用神经关系提取模型,允许显式权重重要目标任务的短语。 (Zeng et al。,2014)利用卷积深层神经网络进行提取词汇和句子级特征。这两个层次的功能被连接起来形成决赛特征向量。 (Ebrahimi和Dou,2015)在两个标记之间的依赖路径上重建了一个RNN实体。 (Xu et al。,2015b)使用卷积网络,并提出了一个排序损失函数数据清理。 (Xu et al。,2015c)利用最短依赖关系的异构信息两个实体之间的路径。 (Xu et al。,2016)提出了一种利用数据增值方法关系的方向性。

另一行研究是深度学习的关注机制。 (Bahdanau et al。,2014)提出了机器翻译任务的注意机制,也是自然语言处理中首次使用的机器翻译任务。该注意机制用于选择原始语言中的参考词在翻译之前用外语的单词。 (Xu等,2015a)采用了注意机制在图像字幕生成中,在字幕中生成单词时选择相关图像区域。注意机制的进一步使用包括释义识别(Yin et al。,2015),文件分类(Yang et al。,2016),解析(Vinyals et al。,2015),自然语言问题回答(Sukhbaatar et al。,2015; Kumar et al。,2015; Hermann et al。,2015)和图像问题回答(Linet al。,2015)。 (Wang et al。,2016)将关注机制引入依赖关系分类在模式提取的两个层次上。在本文中,我们将探讨单词级注意机制,以便在关系分类的异构语境中发现更好的模式

任务。

图1:基于注意的卷积神经网络的体系结构

3方法论

给定一组句子x1,x2,... xn和两个相应的实体,我们的模型测量概率的每个关系r。 我们提出的方法的架构如图1所示。这里,特征提取是主要组成部分,由句子卷积和基于注意的语境选择组成。特征提取后,两种向量 - 句子卷积向量和注意力上下文向量,用于语义关系分类。

句子卷积:给定一个句子和两个目标实体,卷积中性网络(CNN)用于构建句子的分布式表示。

基于注意的语境选择:使用单词级别关注选择相关词尊重目标实体

3.1句子卷积

3.1.1模型输入

词嵌入。 图2显示了我们的卷积神经网络的架构。 在这个词表示层,通过查找单词嵌入将每个输入单词标记转换成向量。(Collobert et al。,2011)报道说词嵌入从大量的未标记中学到数据比随机初始化的嵌入要好得多。 虽然通常需要一个很长时间来训练这个词嵌入,有很多免费的训练词嵌入。 一个可用字嵌入的比较超出了本文的范围。 我们的实验直接利用由CBOW模型训练的嵌入式数据,在Google新闻上达到1000亿字(Mikolov等等等,2013)。

图2:卷积神经网络的结构

定位嵌入。 在提取关系的任务中,靠近目标实体的词是通常在确定实体之间的关系方面更有信息。 类似于(Zeng et al。,2014),我们使用由实体对指定的位置嵌入。 它可以帮助CNN跟踪每个人的距离字是指头或尾部实体,其被定义为相对距离的组合当前单词到头或尾实体。 例如,

“lt;e1gt;游戏lt;/ e1gt;被封装在未打开的原始lt;e2gt;包装lt;/ e2gt;中。在这句话中,从“密封”一词到头部实体“游戏”的相对距离是2和尾部实体“包装”是#4。 根据上述规则,我们可以得到每个相对距离上述句子中的单词到每个实体。 我们首先创建实体e1的两个相对距离文件实体e2。 然后,我们使用CBOW模型在两个相对距离文件上预先设置位置嵌入(Mikolov等,2013)。 位置嵌入的尺寸设置为5。

词性标签嵌入。 我们的词嵌入是从Google新闻语料库获得的,这与关系分类语料库略有不同。 我们通过相互依赖处理这个问题输入字与其POS标签,以提高鲁棒性。 在我们的实验中,我们只使用粗粒度POS类别,其中包含15个不同的标签。 我们使用斯坦福CoreNLP工具包来获取词性标注(Manning et al。,2014)。 然后我们用CBOW模型预先嵌入嵌入在标签上,将词性标签嵌入的维度设置为10。

最后,我们连接词嵌入,位置嵌入和词性标签嵌入并将其表示为序列的向量w = [W F,pF,P OSF]

3.1.2卷积,最大池和非线性层

在关系提取方面,主要挑战之一是句子的长度是可变的,重要的信息可以出现在任何地方。 因此,我们应该合并所有本地特征并进行关系全球预测 在这里,我们使用卷积层来合并所有这些功能。 卷积层首先用句子上的长度为l的滑动窗口提取局部特征。 我们假设滑动窗口l的长度为3.然后,它通过最大池操作组合了所有局部特征以获得输入句子的固定大小的向量。 由于窗口可能在句子之外边界在边界附近滑行时,我们为句子设置了特殊的填充令牌。 它的意思是我们将所有超范围输入向量wi(i lt;1或igt; m)视为零向量。

令 2 Rk是与句子中第i个单词对应的k维输入向量。 一个长度为n的句子(必要时填充)表示为:

(1)

其中是级联运算符。 令表示字,,...,的并置。卷积操作涉及滤波器,其被应用于h字的窗口以产生一个新功能 例如,从单词的窗口生成特征

(2)

这里f是非线性函数,如双曲正切。 该过滤器适用于每个可能的句子中的单词窗口以产生特征图:

(3)

与。 然后,我们将在特征图上应用最大超时池操作,并采取最大值 = max{c}作为特征。 这个想法是捕捉最重要的功能 - 一个与最高的值 - 对于每个特征图。 这个汇总方案自然地处理变量句子长度。

3.2基于注意的语境选择

我们的注意力模型被应用到一个不同种类的场景,它由异构组成对象,即一个句子和两个实体。 所以我们试图给我们的模型确定能力对于两个感兴趣的实体,哪一部分句子是最有影响力的。 例如,

“加上lt;e1gt;死亡lt; / e1gt;和lt;e2gt;风暴lt; / e2gt;造成的破坏是一个非常这些居民的创伤经验“。这里,关系类型是“因果(e2,e1)”

在这句话中,非实体词“引起”在确定关系中具有特殊意义“因果”。 幸运的是,我们可以利用这样一个事实,即“造成”和“死亡”。 我们引入一个注意力机制来定量模拟这种语境相关性关于目标实体的话。

为了计算句子中每个单词的重量,我们需要在每个单词中输入句子和每个实体到多层感知器(MLP)。 网络结构的注意力计算如图3(a)所示。

假设每个句子都含有T字。 机智与t isin; [1,T]代表第i个句子中的单词。 与j isin;[1,2]表示第i个句子中的第j个实体。 我们连接代表的实体和词的表示以获得词t的新表示,即。它量化第t个词相对于第i个句子中第j个实体的相关程度。该相关性评分函数由MLP网络在相应嵌入之间计算机智和实体eij。 我们将相关程度命名为注意力量,的计算过程如下:

(4)

(5)

注意MLP网络的输出是。 现在我们可以得到一个归一化的重要权重通过softmax功能

(6)

我们提出的关注层的架构如图3(b)所示。 之后,我们计算句子上下文向量sij关于实体j作为基于句子i中的单词的加权和重量如下:

(7)

上下文向量可以被看作是一个固定查询“什么是信息词”

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[139447],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。