Winograd-style任务的数据集重叠分析外文翻译资料

 2022-08-27 10:05:56

英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


Winograd-style任务的数据集重叠分析

摘要

Winograd Schema Challenge (WSC)及其派生的变体已经成为常识推理(CSR)的重要基准。在大规模语料库上训练神经语言模型,WSC上的模型性能已经从偶然水平迅速发展到接近人类水平。在本文中,我们分析了在WSC风格的任务中,这些训练语料库和测试实例之间不同程度的重叠所产生的影响。我们发现,大量的测试实例与对最新模型进行(预)训练的语料库有相当大的重叠,并且当我们对重叠最小的实例评估模型时,分类精度会显著下降。基于这些结果,我们开发了KNOWREF-60K数据集,该数据集包含了从web数据中提取的60K多个代词消歧问题。KNOWREF-60K是迄今为止最大的WSC式常识推理语料库,与当前训练前语料库的重叠比例显著降低。

  1. 介绍

Winograd模式挑战的最初目的是作为一种替代图灵测试来评估自动系统的常识推理能力(Levesque et al.,2011)。举个例子:

多年来,模型一直努力超越偶然水平(Kruengkrai et al., 2014; Sharma et al., 2015; Peng et al., 2015; Liu et al., 2016).WSC任务是经过仔细控制的,因此涉及句法和语义线索的启发式方法是无效的,并且正确解析测试实例所需的常识知识使得统计系统建模特别困难。然而,最近,深层双向变压器的出现(例如,BERT(Devlin et al.,2019)、RoBERTa(Liu et al.,2019))对大量数据进行了预训练,导致了接近人类水平的性能 (Kocijan et al., 2019; Ye et al., 2019; Ruan et al., 2019).最近,各种工作重新审查了WSC的挑战,导致提出了更困难、更大的变体、数据和模型借记方法以及评估协议,以澄清模型擅长的实例类型以及它们与之斗争的实例类型。(Trichelair et al., 2019; Emami et al., 2019; Sakaguchi et al., 2020; Abdou et al., 2020).然而,关于训练前数据点的影响和作用的研究却很少。虽然最近的工作包括对WSC的预训练和测试实例之间13-gram重叠的影响进行了一些分析(Brown等人,2020),但深入研究重叠程度(以及如何定义)如何影响语言模型的性能对于揭示模型的推理和推理功能至关重要。例如,在1b)中,培训前语料库mayoccur中的有用知识实例如下:

研究模型如何利用这些训练实例,与它们与测试实例的重叠相关,可以提供关于精确重复(如果记忆可能有用)或高度相关但明确表达的知识(通过检索和类比有用)的角色和下游影响的见解。反过来,这种洞察力可以用来改进用于展示常识推理的模型的训练方法。

贡献:

在这项工作中,我们通过设计一种基于BM25(一种流行的用于文本匹配的信息检索函数,2009)的模式化来对列车测试重叠进行评分的机制来解决CSR建模中的上述问题。我们使用这种机制来根据这些重叠划分测试集实例。我们发现,当在没有重叠的子集上评估模型时,分类准确率会显著下降(根据模型、测试集和重叠程度的不同,我们会看到3%到10%之间的下降)。基于这一结果,我们开发了KNOWREF-60K数据集,包含64301个困难的代词消歧问题。它是迄今为止最大的WSC风格的常识推理语料库,与当前的训练前语料库相比,重叠的比例明显降低。

  1. 相关工作

先前关于WSC及其变体实例难度的研究包括Trichelair等人(2019)的研究,他们将数据点划分为各种有意义的子集。他们表明,当时最先进的LM集成(Trinh和Le,2018)的成功主要源于对更简单的“关联”实例的改进。类似地,Abdou等人(2020)的实验表明,模型对Winograd风格样本的语言性干扰非常敏感。已经提出了新的数据集来规避无意中容易测试实例的问题,包括Winogrande(Sakaguchi et al.,2020),一个基于RoBERTa的WSC扩展变体,以及KnowRef(Emami et al.,2019),它由没有WSC特定文体怪癖的自然出现的句子组成。考虑到最近互联网上大规模数据集在训练前神经语言模型中的流行,人们越来越担心下游任务中的测试实例可能无意中出现在训练前语料库中。这是一种数据污染。最早对普通网爬数据进行语言模型训练的作品之一,识别并移除了与其中一个评估数据集重叠的训练文档(Trinh和Le,2018)。其他工作,如GPT-2(Radford et al.,2019)和GPT-3(Brown et al.,2020),根据保守的污染阈值,特别是具有13-gram重叠的实例对CSR基准进行了事后重叠分析。他们发现这种13-gram的污染的影响可以忽略不计。另一方面,计算机视觉领域的一项最新研究发现,在一个重要的基准测试中,近似重复对测试性能有显著影响,从而提出了一个无重复且明显更困难的数据集(Barz和Denzler,2020)。据我们所知,还没有工作研究过最先进的基于变压器的模型(BERT和RoBERTa)的训练前和CSR测试实例之间不同程度的重叠的影响。任何此类调查必须包括对污染作出更精确的定义。最近开发了从CSR基准中清除简单实例的方法:例如,Sakaguchi等人(2020年)提出的测试集算法偏差减少从测试集中移除带有可利用注释工件的实例。这些技术依赖于特定模型的预先计算的神经网络嵌入,因此仅此模型可能很困难,但对于以前的或未来的模型则不太困难。正如Zellers et al.(2018)的工作和Zellers et al.(2019)的后续研究所表明的,对抗式过滤必须迭代地重新适应可能对先前过滤免疫的新模型。这样的代价可能是昂贵的。对抗性过滤和相关的借记技术也不能提供很多关于为什么某些测试实例被过滤掉的细节。我们提出的数据清除方法是可解释的和独立于模型的,可以用AFLite(Sakaguchi et al.,2020)等现有的借记算法进一步补充,以确保基准仍然具有挑战性。

3. Hunting for Overlaps

我们识别列车测试重叠的过程包括三个主要步骤:(1)将测试实例解析为其核心组件,(2)使用从解析派生的模式制定查询,以及(3)使用重叠评分机制量化列车测试对之间的重叠度。

3.1 Skeletal Representation

我们首先按照每个重要语义组件出现的顺序,将每个测试实例部分解析为每个重要语义组件的总体框架。我们使用斯坦福大学CoreNLP(Manning等人,2014)实现的句子句法分析相关规则。我们使用Emami et al.(2018)中的符号来分离WSC类实例的组件;也就是说,实例可以分为context子句和query子句,context子句引入两个相互竞争的先行词,query子句包含要解析的目标代词:

E1和E2是上下文从句中的名词短语。在WSC中,这两个是明确的。P redC是由动词短语组成的上下文谓词,它将两个先行词都与某个事件联系起来。上下文包含E1、E2和上下文谓词P redC。上下文和疑问句通常由一个语篇连接词 连接起来。查询包含目标代词P,它也被明确指定。前面或后面的P是查询谓词,P redQ,一个涉及目标代词的动词短语。在本例中,我们将清楚地处理P redC和P redQ,并将所有其他组件(E1、E2、P、 )分组为集合C中的内容词。表1显示了WSC实例的一些示例,表2显示了每个组件的句子对。

3.2Query Schematization

我们使用上面对一个实例的分析来构造一个用于检索文本语料库中相似实例的查询。特别是,我们建议的每实例查询模式是:

其中短语(Predc,PredQ,10)表示两个谓词必须在10个标记之间的距离内以相同的顺序出现,而ci是C中的内容词,可以在句子中以任何顺序出现。

这种模式化的选择源于这样一种想法,即谓词是WSC风格问题实例中最显著的组件。语料库中支持相应WSC实例解析的常识知识实例通常只显示这两个组件:例如,对于表1中的1a),一个可能的支持实例是: John couldnrsquo;t lift Melissa and she was so heavy,尽管它只与1a共享谓词(下划线)。尽管如此,内容词仍然可以提供信息,并作为可选组件包含在查询中。对于运行示例提取的查询,请参见表3。

3.3 Overlap scoring

检索函数接受与给定句子相关的查询(如上所述),并估计其与给定文档的相关性。在我们的例子中,“文档”对应于训练前语料库中的单个句子。一个流行的检索函数是BM25(Amati,2009),它是一个包含各种组件和参数的基于单词的函数包。具体来说,给定一个包含关键字q1、q2..qn的查询Q,文档D的BM25得分为:

这里,f(qi,D)是qi在文档D中的词频(words),avgdl是从中提取文档的文本集合中的平均文档长度。参数k1和b是自由的,通常在没有超优化的情况下,分别在[1.2,2.0]和as 0.75范围内选择。

我们使用BM25得分的方式有两种:

  1. 作为训练前语料库中句子与给定测试实例的重叠或关联程度的启发式度量。
  2. 作为将给定CSR测试集细分为重叠和非重叠子集的截止标准。

我们使用Python包Whoosh(Chaput,2017),它提供了索引预训练语料库、生成定制查询以及基于BM25检索函数对这些查询进行评分的方法。在我们的例子中,当查询是根据逻辑运算符定制的时,我们使用过滤器来删除不符合条件的语句。例如,如果一个文档本来会对给定的查询产生很高的相关性分数,但其谓词不在10个标记限制内出现,则根本不会被评分。

在表4中,我们提供了从训练前语料库中检索到的句子的例子,这些句子是针对不同BM25分数的给定测试实例的。定性地说,随着测试和训练前实例之间的相关性/重叠程度的增加,BM25得分有增加的趋势。在有精确拷贝的情况下,得分总是明显高于没有拷贝的情况。这表明查询模式化和基于BM25的检索这两个步骤构成了一个适当(尽管并非完美)的自动启发式方法,用于对预训练实例的相关性和潜在有用性进行排序。

4 Experiments

4.1 Existing Benchmarks

WSC (Levesque et al., 2011)原代词消歧挑战,由273道题组成。每个问题实例都是由专家手工制作的,以避免单词联想偏差,尽管Trichelair等人(2019)后来报告说,13.5%的问题仍然可能表现出这种偏差。

DPR (Rahman and Ng, 2012) DPR(Definite define Resolution Dataset)提供了1886个由本科生编写的WSC风格的问题。Trichelair等人(2019年)观察到,由于语言和数据集特定偏见的增加,数据集的挑战性可能低于原始WSC。

KnowRef (Emami et al., 2019) KnowRef引入了超过8k个WSC风格的共指消解问题,这些问题使用启发式规则从1亿个web句子(来自Reddit、Wikipedia和OpenSubtitles)中提取和过滤。

Winogrande (Sakaguchi et al., 2020) Winogrande是一个由44k个类似WSC的问题组成的大规模数据集,它的灵感来自于原始的WSC,但经过了调整以提高数据集的规模和难度。数据集构建的关键步骤是:(1)精心设计的众包程序,然后(2)通过对抗性过滤对微调的RoBERTa模型进行系统的偏差减少。

4.2 Models

BERT BERT(Devlin等人,2019)是一种预训练的神经语言模型,具有双向路径和连续隐藏层中的句子表示。我们通过使用候选答案作为定界符(Devlin et al.,2019)将输入句子拆分为上下文和选项组件来微调BERT。我们使用网格搜索进行超参数调整:学习率{1eminus; 5,3eminus; 5,5eminus; 5} ,具有三种不同随机种子的时期数{3,4,5,8},批量大小{8,16}(Sakaguch et al.,2020)。培训前语料库包括BooksCorpus(8亿单词)(Zhu et al.,2015)和English Wikipedia(2.5亿单词)。为了与Kocijan等人(2019年)的最新技术相比较,我们对DPR序列上的BERT模型进行了微调,并将该语料库作为查询重叠的额外来源。

RoBERTa

RoBERTa(Liu et al.,2019)是BERT的一个改进变体,它通过更大的批量和更长的训练,以及动态掩蔽等其他改进,增加了更多的训练数据。在许多基准测试中,RoBERTa的表现始终优于BERT。培训前语料库包括用于BERT和其他三个语料库:CC News(Nagel,2016)、Openwebtext(Gokaslan和Cohen,2019)和Stories语料库(Trinh和Le,2018)。我们在WNLI训练数据集(Wang et al.,2018)上微调RoBERTa模型,以与Liu et al.(2019)的最新模型进行比较,包括语料库作为查询潜在重叠的额外来源。

4.3 Results

在下一节中,我们报告了最新模型在CSR测试集子集上的性能,其中至少有

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[405861],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。