英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
机器理解与语篇关系
Karthik Narasimhan
CSAIL,MIT
Regina Barzilay
CSAIL,MIT
摘 要
本文提出了一种将语篇信息纳入机器理解应用的新方法。传统上,这些信息是使用现成的话语分析工具计算出来的。这种设计为根据目标任务的要求指导语篇解析器提供了有限的机会。相比之下,我们的模型在优化任务特定目标的同时诱导句子之间的关系。该方法使模型在训练过程中不依赖于对语篇结构的显式注解而从语篇信息中获得信息。该模型共同识别相关句子,建立它们之间的关系,并预测答案。我们在一个带有隐藏变量的观察性框架中实现了这一想法,这些隐藏变量捕获了相关的句子和训练期间未观察到的关系。我们的实验表明,语篇感知模型优于最先进的机器理解系统。
绪论
机器理解的任务是从给定的段落中自动提取答案。通常,回答问题所需的相关信息分布在多个句子中。理解这些句子之间的关系是找到正确答案的关键。考虑图1中的示例。为了回答“莎莉为什么穿上鞋子”的问题,我们需要推断“她穿上鞋子和她出去散步”是由因果关系联系在一起的。
莎莉喜欢出去。她穿上鞋子。她出去散步。[hellip;]小猫向莎莉叫了起来。莎莉向小猫挥手。[hellip;]萨利听到了她的名字。“莎莉,莎莉,回家吧,”莎莉的妈妈喊道。萨利跑回家找她妈妈。莎莉喜欢出去。
萨莉为什么穿上她的鞋子?
A)向猫小猫挥手
B)听到她的名字
C)因为她想出去
D)回家
图1:从MCTest数据集中的一段文章中摘录的示例故事[2]正确答案是斜体。
先前的工作已经证明了话语关系在相关应用中的价值,如回答问题(Jansen等人,2014年)。然而,传统上,这些方法依赖于现成的话语分析器的输出,将它们用作目标应用程序的特性。这种管道设计为根据最终任务的需求指导语篇解析器提供了有限的机会。考虑到广泛的话语框架(Mann和Thompson,1988年;Prasad等人,2008年;Wolf和Gibson,2005年),目前尚不清楚最优的话语注释集对任务的作用。此外,由于训练语料库和应用程序中使用的数据集之间的不匹配,通用的话语解析器可能会引入额外的错误。事实上,最大的话语树链接基于报纸语料库(Prasad等人,2008年;Carlson等人,2002年),其风格与机器理解语料库中使用的文本有显著差异(Richardson等人,2013年)。
本文提出了一种将语篇结构整合到机器阅读理解应用中的新方法。该模型在优化特定任务目标的同时,不使用经过外部监督数据训练的独立解析器来注释话语关系,而是诱导句子之间的关系。此设计偏向于模型,以在针对机器理解任务优化的粒度上学习关系。与一般的话语分析器不同,我们的方法还可以利用机器理解上下文中的附加信息。例如,问题类型为确定话语关系提供了有价值的线索,从而有助于学习。
我们将这些思想用一个带有隐藏变量的判别对数线性模型来实现。该模型共同识别相关句子,建立它们之间的关系,并预测答案。由于同一组句子可以产生多个问题,因此我们不将模型局限于单一的话语关系,而是在可能的关系上建立分布模型。在培训期间,我们只能获得问题和有价值的答案。由于相关句子及其关系不为人所知,我们将它们作为隐藏变量进行建模。为了引导该模型走向语言上似是而非的话语关系,我们添加了一些种子标记,它们是每个关系的典型标志。该模型不仅根据句子预测关系,而且还结合了有关问题的信息。通过分解模型组件之间的依赖关系,我们可以使用标准的梯度下降方法有效地训练模型。
我们使用最近发布的机器理解数据集评估我们的模型(Richardson等人,2013)。在这个语料库中,大约一半的问题依赖于段落中的多个句子来生成正确的答案。对于基线,我们使用此数据集上的最佳发布结果。我们的结果表明,我们的关系感知模型比单个基线高出5.7%,并且与最先进的组合系统的性能相竞争。此外,我们还发现,它预测的句子对的话语关系与人类注释家所确定的关系有相当大的重叠。
第2章 相关工作
机器理解遵循传统的问答方法,大多数机器理解方法都侧重于分析问题、候选答案和文档之间的联系。例如,Richardson等人(2013)表明单独使用单词重叠为任务提供了一个良好的起点。使用文本继承输出(Stern和Dagan,2011)和基于嵌入的表示(Iyer等人,2014)进一步改进了结果。即使这些方法在段落级别上运行,它们也不模拟句子之间的关系。例如,在他们使用递归神经网络进行事实问题解答的工作中,Iyer等人(2014)考虑多个句子时,平均句子向量元素。
一个显著的例外是Berant等人提出的方法。(2014)。他们的方法建立在对许多事件间关系(如原因和启用)进行编码的语义表示上。这些关系跨越了话语和语义连接之间的界限,因为它们中的大多数都是特定于兴趣领域的。这些关系是使用大量的手动注释以有监督的方式标识的。相比之下,我们有兴趣用最少的附加注释来提取话语关系,主要依赖于可用的问答对。因此,我们研究一组较小的基本关系,这些关系可以在没有显式注释的情况下学习。
先前工作中问答的话语分析确立了问答应用中领域独立的话语关系的价值(Verberne等人,2007年;Jansen等人,2014年;Chai和Jin,2004年)。例如,Verberne等人(2007)提出了一种答案提取技术,该技术将问题主题和答案视为修辞结构理论(RST)树中的兄弟,显著提高了为什么问题的性能。Chai和Jin(2004)认为,整合语篇处理可以显著帮助上下文问题的回答,在这个任务中,后续问题可能涉及到之前问题中的实体或概念。Jansen等人。(2014)利用话语信息提高对非事实性问题的人类书面答案的重新定位。他们用基于RST解析器的浅层话语标记和深层表达进行实验,以重新排列关于如何和为什么类型问题的答案[3]。
虽然上述方法在设计上差异很大,但它们以类似的方式合并了话语信息,将其作为特征添加到监督模型中。语篇信息通常使用基于RST(Feng和Hirst,2014)或PDTB(Lin等人,2014)等框架的语篇解析器进行计算,这些框架使用受监控数据进行培训。相反,我们的目标是学习由任务目标驱动的话语关系。这些关系的集合并没有捕捉到传统话语理论所考虑的话语表征的丰富性(Mann和Thompson,1988;Prasad等人,2008)。然而,我们在没有对语篇结构进行明确注释的情况下学习它们,并证明它们改善了模型性能。
第3章 任务描述和方法
我们专注于机器理解的任务,这涉及到根据一段文字回答问题。具体来说,让我们考虑一个文章由一组句子组成,还有一组问题每个问题也有一组答案选择。我们表示一个问题的正确答案选择,。给出了一组训练在正确答案选择的注释问题中,任务是能够在不同的中准确回答问题
图1显示了一个段落示例,以及一个问答选项。唯一(薄弱)的监督来源是培训中每个问题的正确答案选择。我们在培训期间不使用任何额外的注释。针对这一问题,我们提出了联合概率模型,该模型能够识别一个问题中的单个或多个相关句子,建立它们之间的关系,并对答案的选择进行评分。
我们探讨了三种不同的区分模式,从一个简单的用一个句子回答问题的模式,到一个推断多个句子之间关系的模式来评分答案选择。我们将模型中使用的特性的描述推迟到第3.1节。
模型1:在我们的第一个模型中,我们假设每个问题都可以用文章中的一个句子来回答。将句子作为一个隐变量,定义了一个句子的联合模型,并给出了一个问题的答案选择,一个问题
(1)
我们将联合概率定义为两个分布的乘积。第一个是给定问题的段落中句子的条件分布。这有助于确定回答问题所需的正确句子。第二部分模拟了给定问题和句子的条件概率。对于这两种成分概率,我们使用指数族的分布及其特征和相关权重:
其中是特征函数,是相应的权重向量。
我们将学习问题作为参数权重的估计,以最大化训练数据中正确答案的可能性。我们考虑软分配并将其所有值边缘化,以获得答案选择的可能性:
(3)
这导致以下正则化可能性目标最大化:
(4)
模型2:我们现在提出了一个多语种案例的模型,在这个案例中,我们使用了不止一个与问题相关的句子。考虑到数据集中的大多数问题都可以用两个句子来回答,为了计算的灵活性,我们将自己限制在句子对中。我们将新的关节模型定义为:
(5)
其中新组件也是指数族分布:
在这里,我们有三个组成部分:给出句子的条件概率,给出第二个句子的条件概率和,以及给出的答案和句子的条件概率[4]。理想情况下,我们可以考虑给定段落中所有可能的句子对。然而,为了在实践中降低计算成本,我们使用了一个句子窗口,并且只考虑彼此相距最远的句子[5]。因此,我们最大化了:
(7)
模型3:在下一个模型中,我们的目标是捕捉句子之间的重要关系。这种模式有两个新颖的方面。首先,我们考虑句子对之间关系的分布,而不是单个关系。第二,我们利用问题的线索作为语境来解决句子中的歧义与多个似是而非的关系。
我们加上一个隐变量来表示关系类型。我们将问题类型与关系类型联系起来,并将关系类型与句子之间的词汇和句法相似性联系起来。我们的关系集包含以下关系:bull;原因:事件产生的原因或者理由
bull;时间线:事件发展顺序
bull;解释:主要处理How-type类型问题
bull;其他:上述的其他关系[6]
我们现在可以通过添加相关类型来修改联合概率(5):
(8)
在
(9a)
(9b)
(9c)
额外组件是关系类型的条件分布,取决于问题。例如,这是为了鼓励模型学习为什么问题对应于因果关系。我们还为添加了额外的特性,这有助于选择基于关系的句子对。最大化的可能性目标是:
(10)
我们使用最大化可能性目标LBFGS-B(Byrd等人,1995)。我们使用自动微分法计算所需的梯度(Corliss,2002年)。
为了预测测试问题的答案,我们简单地将所有隐藏变量边缘化,并选择最大化的答案:
3.1特点
我们在模型中使用了各种词汇和句法特征。我们使用斯坦福CoreNLP工具(Manning等人,2014)对数据进行预处理。除了Qamp;A系统中常用的功能外,如unigram和bigram匹配、部分语音标签、句法功能,我们还添加了特定于模型的功能。
我们首先定义描述中使用的一些术语。实体是指代消解的名词或代词。动作指的是除辅助动词外的其他动词,如is、are、was和were。实体图是句子中实体之间的图。我们通过折叠依赖关系图中的节点并在节点之间的边缘存储任意两个实体节点之间的中间节点来创建实体图。我们将问题q中的单词称为q-单词,类似于答案a中的单词称为a-单词,而句子z中的单词称为z-单词。图2显示了一个由句子的依赖关系图构建的实体图的示例。
我们将特征分为4组(),对应于(8)中的每个分量概率。类型1和2的灵感来源于之前的问题分类/回答工作(Blunsom等人,2006年;Jansen等人,2014年)。功能类型3和4特定于我们的模型,主要处理关系类型。
图2:顶部:依赖关系图,底部:示例语句的实体图。实体为粗体,操作为斜体。
关系 |
单词表 |
因果关系的 |
因为,为什么,到期,所以 |
世俗的 |
在不久之前, 之后,期间,然后,最后,现在,现在,首先 |
解释 |
如何使用 |
表1:模型所用关系的种子标记词。
类型1():这些功能主要用于帮助模型从文章中为问题选择最相关的句子。我们添加了常用的特性,如unigram和bigram匹配、句法根匹配、实体和动作匹配、遗漏的实体/动作(在q而不再z中)和q-单词的部分覆盖在z中。此外,我们使用和的实体图q和z边缘之间的匹配。我们还有二阶特性,它们是上面提到的每个特性与疑问词(如何、什么、何
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[441639],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。