利用语言特征提高神经共指分解器的泛化能力外文翻译资料

 2022-02-23 20:11:17

英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


附录A 译文

利用语言特征提高神经共指分解器的泛化能力

摘要

共指消解是文本理解的中间环节。它被用在任务和领域中,我们不一定有共同引用注释的语料库。因此,泛化对于共指消解具有特别重要的意义。然而,尽管最近的共指冲突解决程序在conll数据集上有了显著的改进,但是它们很难正确地概括为新的域或数据集。本文研究了语言特征在构建更具可推广性的共指分解器中的作用。经过验证表明,仅仅使用一组附加的语言特征,泛化只会稍微改善。然而,使用对共指消解有用的特征及其值的子集,可以大大提高泛化。由于更好的泛化,我们的系统在领域外评估(例如在wikicoref上)中实现了最先进的结果,我们的系统经过conll培训,与为该数据集设计的系统性能相当。

1 介绍

共指代解析是识别引用同一实体的不同表达式的任务。引用表达式称为“提及”。例如,“[Susan]1 sent[her]1 daughter to a boarding school”一句话包含两个相关的内容。“她”是指先前的“苏珊”的回指。

共指代信息的可用性有利于各种自然语言处理(NLP)任务,包括自动摘要、问题解答、机器翻译和信息提取。目前的共指发展几乎只针对提高康奈尔官方测试集的分数。然而,共指消解器在Conll评估集上的优越性并不一定意味着它在新的数据集上也表现得更好。例如,Clark和Manning的排名模型(2016a)、Clark和Manning的强化学习模型(2016b)和Lee等人的端到端模型。(2017)是最近的三个共指分解器,其中Lee等人的模型。(2017)表现最好,克拉克和曼宁(2016b)在康奈尔开发和测试集上表现第二。但是,如果我们在wikicoref数据集(ghaddar和langlais,2016a)上评估这些系统,这与conll在引用定义和注释方案方面的一致性,那么性能排名将是相反的。

在Moosavi和Strube(2017a)中,我们研究了共指消解中的泛化问题,发现共指消解中的共指消解与共指消解集合中的共指消解有很大的重叠。因此,在conll评估集上的较高分数并不一定意味着一个更好的共指模型。这可能是因为更好地记忆了训练数据。因此,尽管共指消解有显著的改进,但在其他应用中,共指消解的使用主要局限于简单的基于规则的系统的使用,如Lapata和Barzilay(2005年)、Yu和Ji(2016年)、Elsner和Charniak(2008年)。

本文探讨了语言特征在提高泛化水平中的作用。语言特征的结合被认为是构建更具可推广性的NLP系统的一种潜在解决方案。虽然语言特征对共指消解很重要,例如Uryupina(2007)、Bengtson和Roth(2008),但最先进的系统不再使用它们,主要依赖于单词嵌入和深层神经网络。由于最近所有的系统都使用神经网络,我们主要研究语言特征对神经共指分解器的影响。

本文的贡献如下:

–我们表明,如果我们将特征和它们的价值子集结合起来,对辨别共指关系是有益的,那么语言特征对神经共指分解器更有利。否则,使用具有全部价值的语言特征只会对性能和泛化产生轻微的影响。

–我们提出了一种有效的识别模式挖掘算法,称为EPM,用于确定(特征、值)对,这些对对于给定的任务具有信息性。我们表明,虽然EPM挖掘模式的信息性与对应模式的信息性相同,但它最适合扩展到大型数据集。

–通过改进泛化,我们在所有检查的领域外评估中实现了最先进的性能。我们在wikicoref上的领域外性能与Ghaddar和Langlais(2016b)的协同引用解析器相当,后者是专门为wikicoref设计的系统,使用其do-main知识。

2 特征在共指中的重要性

Uryupina(2007)的论文是对共指消解的语言激励特征最深入的分析之一。她考察了大量的语言特征,即字符串匹配、句法知识、语义兼容性、话语结构和显著性,并研究了它们与共指关系的相互作用。她指出,即使使用容易出错的预处理模块提取出不完全的语言特征,也会提高性能,并认为共指分解器可以也应该从语言理论中受益。她的主张基于对MUC数据集的分析。Ng和Cardie(2002),Yang等人(2004年)、Ponzetto和Strube(2006年)、Bengtson Androth(2008年)、Recasens和Hovy(2009年)也研究了特征在共指消解中的重要性。

除上述研究外,主要是关于个体特征的重要性的研究,如Bjorkeland和Farkas(2012年),Fernandes等人(2012年),Uryupina和Mos Chitti(2015年)通过结合基本功能生成新功能。bjorkeland–和farkas(2012)不使用系统方法组合功能。Fernandes等人(2012)使用熵引导特征归纳(EFI)方法(Fernan des和Milidiuacute;,2012)自动生成识别特征组合。第一步是在一个数据集上训练一个决策树,其中每个样本都包含描述一个提及对的特征。EFI方法以深度优先顺序从根目录遍历树,并递归地构建特征组合。EFI生成的每个模式都从根节点开始。因此,EFI倾向于生成长模式。决策树并不代表所有的数据模式。因此,不可能从决策树中探索所有特征组合。

Uryupina和Moschitti(2015)提出了EFI的替代方法。他们将生成特征组合的问题表述为模式挖掘方法。他们使用JacCard项目挖掘(Jim)算法(Segond和Borgelt,2011年)。它们表明,使用jim特性的分类器明显优于使用efi特性的分类器。

3 基线共参考分解器

Deep-Coref(Clark和Manning,2016a)和E2E-Coref(Lee等人,2017)是最佳的互参照分解器,E2E-Coref在Conll测试集中表现更好。Deep-Coref是一个流水线系统,即一个提及的检测首先确定候选人员及其相应功能的列表。它包含各种引用模型,包括提及对、提及排名和基于实体的模型。深岩心的提及排序模型有三个变化:(1)“排序”使用怀斯曼等人的松弛重定最大边缘训练目标。(2015),(2)“强化”是“排名”模型的一种变体,其中超参数在强化学习框架中设置(Sutton和Barto,1998),(3)“顶对”是“排名”模型的一种简单变体,使用概率目标函数,用于预训练“排名”模型。

E2E coref是一个端到端的系统,它共同建立了涉及检测和共指消解的模型。它将每个句子的所有可能的(开始、结束)单词跨度视为候选词。除了一个单一的模型,E2E核心包括五个模型的集合。

在我们的实验中,我们使用深岩心作为基线。原因是,某些已检查的功能需要知道每个提及的头部,例如头部匹配,而e2e coref提及没有特定的头部,并且使用关注机制自动确定头部。我们还观察到,如果我们将e2e coref候选跨度限制为与deep coref检测到的提及相对应的跨度,e2e coref的性能将下降到与deep-coref6相当的水平。

4 已检查的功能

所考察的语言特征包括字符串匹配、句法、浅语义和语篇特征。基于提及的功能包括:

–提及类型:正确、名义或代词

–细微提及类型:正确、明确或不确定的名词,或代词的引用形式。

–性别:女性、男性、中性、未知

-数字:单数、复数、未知

–动物:有生命的,无生命的,未知的

–命名实体类型:人员、地点、组织、日期、时间、编号等。

–依赖关系:主词与父词的增强依赖关系(Schuster和Manning,2016)

–每一次提到的第一个、最后一个、头、前后两个词的位置标签

配对功能包括:

-头部匹配:两个提及的头部相同,例如“红帽”和“帽子”

–一个提及的字符串包含在另一个提及的字符串中,例如“Maryamp;apos;s Hat”和“Mary”

–一个提及的标题包含在另一个提及的标题中,例如“Maryamp;apos;s Hat”和“Hat”

–缩写词,例如“海德堡理论研究所”和“Hits”

–兼容的预修改器:一个提及的预修改器集合包含在另一个提及的预修改器集合中,例如“她戴的红帽”和“红帽”。

–兼容7性别,例如“Mary”和“Women”

–兼容号码,例如“Mary”和“John”

–兼容的动画,例如“那些帽子”和“它”

–兼容属性:兼容的性别、数字和动物,例如“玛丽”和“她”

–最接近的前因,具有相同的头部和兼容的预修改器,例如“这本新书”和“这本书”中的“看看这本新书”。这本书是畅销书之一。”

–与悼词最接近的前因,如“john saw mary,and she was hurt”中的前因“mary”和回指“she”。

–最接近的前因,与贡品相容,是一个主题,例如“玛丽看见约翰了,但她很匆忙”中的前因“玛丽”和暗号“她”。

–最接近的前因,在贡品上是一致的,是一个对象,例如“约翰看见玛丽,她很匆忙”中的“玛丽”和“她”。

最后三个特征与Uryupina(2007)讨论的话语层面特征相似,后者是通过结合邻近性、一致性和显著性属性而创建的。她表明这些特征对解代词很有用。我们通过考虑两次提及的距离来估计接近程度。这种显著性也通过区分主客体前因来体现。我们不使用任何黄金信息。所有特征均使用斯坦福corenlp提取(Manning等人,2014年)。

5 语言特征的影响

在本节中,我们研究了在神经共指分解器(即深核分解器)中使用第4节中描述的所有语言特征的效果。我们使用muc(Vilain等人,1995年)、b3(Bagga和Baldwin,1998年)、ceafe(Luo,2005年)、lea(Moosavi和Strube,2016年)和conll评分(Pradhan等人,2014年)进行评估,即muc、b3和ceafe的F1平均值。

在Deep-Coref的“排名”和“顶级配对”模型中使用这些特性的结果如表1所示。

表1:语言特征对深层coref模型对conll开发集的影响。

“ranking”和“top pairs”行分别显示了deep-coref的“ranking”和“top pairs”模型的基本结果。“ 语言”行表示使用第4节的特征集的每个提及的排名模型的结果。小于5个值的性别、数字、ANIMacy和提及类型功能将转换为二进制功能。命名实体和POS标记以及依赖关系表示为已学习的嵌入。

我们观察到,将所有语言特征结合起来,可以弥合“顶级配对”和“排名”之间的差距。然而,它并没有明显改善“排名”。此后,我们以深层coref的“顶对”模型作为基线模型,将语言特征结合起来。

为了评估对泛化的影响,我们评估了“顶级配对”和“ 语言”8个模型,这些模型是在Conll和wikicoref上训练的(见表2)。我们观察到,对泛化的影响也不显著,即conll分数仅比“排名”提高0.5pp。

表2:wikicoref数据集上深层coref模型的域外评估。

基于一项消融术研究,虽然我们的特征集包含许多特征,“语言”对“顶对”的改进主要来自第4节中最后四个成对特征,这是精心设计的特征。

6 更好地利用语言特征

正如Moosavi和Strube(2017a)所讨论的,conll培训和评估集的核心fering提到之间有很大的词汇重叠。因此,词汇特征为解决共指关系提供了平均强信号。

对于目前高度依赖词汇特征的共指消解器而言,语言特征更为有效,还应为共指消解提供强有力的信号。

附加的语言特征不一定都能为共指消解提供信息,特别是如果

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[441604],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。