英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料
在序列和树结构上使用LSTM进行端到端关系抽取
摘要
我们提出了一种新颖的端到端神经模型来提取它们之间的实体和关系。我们的基于递归神经网络的模型,通过在双向顺序的LSTM(Long-Short Term Memory)-RNN(Recurrent Neural Network)上堆叠双向树结构的LSTM-RNN来获取词序列和依赖树子结构的信息。这让我们的模型能在单个模型中同时表示实体和具有共享参数的关系。我们进一步鼓励在培训期间检测实体,并通过实体预训练和计划抽样在关系提取中使用实体信息。我们的模型在端到端关系抽取上改进了先进的基于特征的模型,分别在ACE2005和ACE2004的F1score中分别实现了12.1%和5.7%的相对误差减少。并且我们的基于LSTMRNN的模型与名义关系分类(SemEval-2010任务8)中的最先进的基于CNN的模型(在F1分数中)相比是有优势的。最后,我们提出了关于几个模型组件的广泛消融分析。
简介
在信息提取和自然语言处理(NLP)中,提取文本中实体之间的语义关系是一项重要且需要经过充分研究的任务。传统的系统把这个任务视为两个相互割裂任务相连接的通道,即命名实体识别(NER)(Nadeau和Sekine,2007; Ratinov和Roth,2009)和关系提取(Zelenko等人,2003; Zhou等人, 2005),但最近的研究表明,实体和关系的端到端建模对于系统有好的表现非常重要(Li和Ji,2014; Miwa和Sasaki,2014),因为关系与实体信息有密切的相互作用。例如,要了解Toefting和Bolton在Toefting转移到Bolton的句子中拥有的组织关系(ORG-AFF)关系,Toefting和Bolton是Person和Organization实体的实体信息就很重要。 这些实体的提取反过来又受到上下文词的关系影响,这表示雇佣关系。 以前的联合模型采用了基于特征的结构化学习方式。实现这种端到端关系提取任务的另一种方法是通过基于神经网络(NN)的模型采用自动化的特征学习。
用神经网络表示实体之间的关系有两种方法:循环/递归神经网络(RNN)和卷积神经网络(CNN)。 其中,RNN可以直接表示重要的语言结构,即单词序列(Hammerton,2001)和组成/依赖树(Tai等,2015)。 尽管有这种表示能力,但对于关系分类任务而言,之前报告的使用基于LSTM的RNNs的性能(Xu等,2015b; Li等,2015)比使用CNNs(dos Santos et 2015)的性能差。 这些基于LSTM的系统主要包括有限的语言结构和神经架构,并没有同时为实体和关系建模。 我们能够通过基于更丰富的LSTM-RNN体系结构的实体和关系的端到端建模,对目前最新的模型进行改进,这些体系结合了互补的语言结构。
已知词序列和树结构是用于提取关系的补充信息。例如,词之间的依赖关系不足以预测source和U.S.在句子“lsquo;This is ...rsquo;,one U.S. source said”中具有ORG-AFF关系,并且上下文词所说的是这个预测所需要的。许多传统的基于特征的关系分类模型都从序列和分析树中提取特征(Zhou et al。,2005)。 然而,以前的基于RNN的模型只关注这些语言结构中的一种(Socher et al。,2012)。
我们提出了一种新颖的端到端模型来提取词序列和依赖树结构上的实体之间的关系。我们的模型允许通过使用双向顺序(从左到右和从右到左)和双向树状结构(从下到上和从上到下)的LSTM-RNN在单个模型中为实体和关系的联合建模。我们的模型首先检测实体,然后使用单个增量解码的NN结构提取检测到的实体之间的关系,并且使用实体和关系标签共同更新NN参数。与传统的增量式端到端关系提取模型不同,我们的模型进一步将两项增强模型的功能结合到了训练中:实体预训练预练实体模型,以及预定采样(Bengio等,2015),它用(不可靠)金标取代预测标签。这些增强缓解了培训早期阶段实体检测性能低的问题,并允许实体信息进一步帮助下游关系分类。
在端到端关系抽取方面,我们改进了基于最先进的基于特征的模型,其中F1分数的相对误差减少了12.1%(ACE2005)和5.7%(ACE2004)。 在名义关系分类(SemEval-2010任务8)中,我们的模型与F1评分中最先进的基于CNN的模型相比更有优势。 最后,我们还对不同的模型组件进行了比较和比较,从而得出了不同RNN结构的贡献和有效性、输入依赖关系结构、不同解析模型、外部资源和联合学习设置的一些关键发现(正反两方面)。
2相关工作
LSTM-RNN被广泛用于顺序标注,如子句识别(Hammerton,2001),语音标注(Graves and Schmidhuber,2005)和命名实体识别(Hammerton,2003)。 最近,Huang等人(2015)指出,在双向LSTM-RNN上建立条件随机场(CRF)层可以与词性标注,分块和NER中的最先进方法相媲美。
对于关系分类,除了传统的基于特征/内核的方法(Zelenko等,2003; Bunescu和Mooney,2005)之外,在SemEval-2010任务8中还提出了几种神经模型(Hendrickx等,2010),包括基于嵌入的模型(Hashimoto et al。,2015),基于CNN的模型(dos Santos et al。,2015)和基于RNN的模型(Socher et al。,2012)。 最近,徐Xu等人(2015a)和Xu等人 (2015b)表明,在基于特征/内核的系统(Bunescu和Mooney,2005)中使用的关系参数之间的最短依赖路径在基于NN的模型中也很有用。 Xu等人 (2015b)也表明,LSTM-RNN对于关系分类是有用的,但是性能比基于CNN的模型差。 Li等人 (2015)使用基本的RNN模型结构比较了基于序列和树型结构的LSTM-RNN在关系分类上的差异。
树型LSTM-RNN的研究(Tai等人,2015)将信息传播的方向从下到上固定下来,并且也不能像在类型化依赖树中那样处理任意数量的类型化子。此外,没有基于RNN的关系分类模型同时使用单词序列和依赖树信息。 我们提出了几个这样的新型模型结构和训练设置,研究同时使用双向顺序和双向树形结构LSTM-RNN来共同获取线性和依赖性上下文以提取实体之间的端到端关系。
至于端到端(联合)提取实体之间的关系,所有现有的模型都是基于特征的系统(并且没有提出基于NN的模型)。 这些模型包括结构化预测(Li和Ji,2014; Miwa和Sasaki,2014),整数线性规划(Roth和Yih,2007; Yang和Cardie,2013),卡片金字塔解析(Kate and Mooney,2010) 概率图模型(Yu和Lam,2010; Singh等,2013)。 其中,结构化预测方法在多个语料库的测试使用中是最先进的。我们提出了一种改进的,基于NN的端到端关系抽取替代方案。
图1:我们的增量解码端到端关系提取模型,具有双向顺序和双向树形结构 LSTM-RNN。
3模型
我们使用表示词序列和依赖树结构的LSTM-RNN来设计我们的模型,并在这些RNN之上执行端到端的实体之间的关系提取。图1显示了该模型的概述。该模型主要由三个表示层组成:一个词嵌入层(嵌入层),一个基于单词序列的LSTM-RNN层(序列层),最后一个基于依赖性子树的LSTM-RNN层(依赖层)。在解码过程中,我们在序列层上构建贪婪的从左到右的实体检测,并实现依赖层上的关系分类,其中每个基于子树的LSTM-RNN对应于两个检测到的实体之间的关系候选。在解码整个模型结构之后,我们通过反向传播时间(BPTT)同时更新参数(Werbos,1990)。依赖层堆叠在序列层上,嵌入层和序列层由实体检测和关系分类共享,共享参数受实体和关系标签的影响。
3.1嵌入图层
嵌入层处理嵌入表示。 和维向量和分别嵌入到单词,词性标注,依赖类型和实体标签。
3.2 序列层
序列层使用来自嵌入层的表示来表示词汇序列。 该层表示语义上下文信息并维护实体,如图1的左下部分所示。
我们用双向LSTM-RNN表示单词序列(Graves et al。,2013)。 第t个单词的LSTM单元由一组组成:输入门,遗忘门,输出门,存储单元和隐藏状态。 该单元接收n维输入向量,前一隐藏状态和存储单元,并使用以下等式计算新向量:
其中sigma;表示逻辑函数,表示单元乘法,W和U是权重矩阵,b是偏向量。 第t个单词的LSTM单元接收词的连接和词性标注嵌入的并置作为其输入向量:。 我们还将两个方向的LSTM单元的隐藏状态矢量连接起来,并将它们传递给后续图层,这两个单元对应每个单词(表示为和)作为其输出矢量。
3.3 实体检测
我们将实体检测视为序列标签任务。我们使用常用编码方案BILOU(Begin,Inside,Last,Outside,Unit)(Ratinov and Roth,2009)为每个单词指定一个实体标签,其中每个实体标签代表实体类型以及单词的位置实体。 例如,在图1中,我们将B-PER和L-PER(分别表示人类实体类型的开始和结束词)分配给Sidney Yates中的每个词,以将该词表示为PER(人)实体类型。
我们在序列层之上执行实体检测。我们采用了一个具有维隐藏层和软最大输出层的双层神经网络来进行实体检测。
这里,W是加权矩阵,b是偏差矢量。
我们以贪婪的,从左到右的方式将实体标签分配给单词(我们也尝试了波束搜索,但是这并没有表现出相较于初始实验的改进)。在这个解码过程中,我们使用单词的预测标签来预测下一个单词的标签,以便将标签相关性考虑在内。上面的NN接收序列层中相应输出的串接和前一个字的标签嵌入(图1)。
3.4 依赖层
依赖层表示依赖树中的一对两个目标词(对应于关系分类中的关系候选)之间的关系,并且负责关系的特定表示,如图1的右上部分所示。这层主要集中表示在依赖树中的一对目标词之间的最短路径(即,最不常见节点和两个目标词之间的路径),因为这些路径被证明在关系分类中是有效的(Xu等,2015A)。 例如,我们展示了图1底部Yates和Chicago之间的最短路径,并且这条路径很好地获取了它们之间关系的关键短语,即诞生于。
我们采用双向树状结构LSTM-RNN(即,自下而上和自上而下)来通过捕获目标词对周围的依赖性结构来表示关系候选。这种双向结构不仅传播来自叶节点的信息,还传播来自根节点的信息。这对于关系分类尤为重要,它利用靠近树底部的参数节点,我们的自顶向下LSTM-RNN从树顶部向这些近叶节点发送信息(与标准的自下而上LSTM-RNNs)(我们还尝试通过连接根(Paulus等,2014)来使用一个LSTM-RNN,但是在我们的初始实验中,准备两个LSTM-RNN点表现出略好的性能。)。注意到Tai等人的树形结构LSTM-RNN的两种变体(2015年)无法代表我们的目标结构,其中有不同数量的类型化子节点:子树森林LSTM不处理类型,并且N-ary 树假定固定数量的子树。因此,我们提出了一种树形结构LSTM-RNN的新变体,它为同一类型的子节点分享了权重矩阵,并且还允许可变数量的子节点。对于这个变体,我们使用以下方程计算C(t)孩子在第t个节点的LSTM单元中的维向量:
其中是一个类型映射函数。
为了查明适当的结构来表示两个目标词对之间的关系,我们尝试了三种结构选项。 我们主要使用最短路径结构(SPTree),其捕获目标词对之间的核心依赖路径,并广泛用于关系分类模型中,例如(Bunescu和Mooney,2005; Xu等,2015a)。 我们还尝试了其他两种依赖结构:SubTree和FullTree。 SubTree是目标单词对的最低共同祖先下的子树。 这为SPTree中的路径和单词对提供了附加的修饰符信息。 FullTree是完全依赖树。 这从整个句子中捕捉上下文。 虽然我们使用SPTree的一种节点类型,但我们为SubTree和FullTree定义了两种节点类型,即一种用于最短路径上的节点,另一种用于所有其他节点。 我们使用类型映射函数来区分这两种节点类型。
3.5 堆叠顺序和依赖层
我们在序列层之上堆叠依赖层(对应于候选关系),将词序列和依赖树结构信息合并到输出中。第t个字的依赖层LSTM单元接收的输入; (表示对父项的依赖类型(由于孩子的数量不同,我们对父母使用依赖关系。 依赖类型也可以合并到m(·)中,但这对初始实验没有帮助。))以及(对应于预测的实体标签)。
3.6 关系分类
我们在解码期间使用BILOU方案中检测实体的最后单词的所有可能组合,即BILOU方案中的具有L或U标签的单词,逐步建立关系候选。例如,在图1中,我们使用具有L-PER标签的Yates和具有U-LOC标签的Chicago来构建关系候选者。 对于每个关系候选者,我们实现与关系候选中的词对p之间的路径相对应的依赖关系层(如上所述),并且NN接收从依赖关系树层的输出构建的关系候选向量,并且预测其关系标签。当检测到的实体错误或者两者没有关系时,我们将一对作为负关系处理。 我们用类型和方向来表示关系标签,除了没有方向的负面关系外。
关系候选向量被构造为级联,其中是自底向上LSTM-RNN(表示目标词对p的最低共同祖先)的顶部LSTM单元的隐藏状态向量,并且是 两个LSTM单元表示自顶向下的L
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[466755],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。