英语原文共 11 页
MS MARCO: 人工生成的机器阅读理解数据集
摘要
我们介绍一组大规模的机器阅读理解数据集,称之为MS MARCO。该数据集包含1,010,916个取样于Bing搜索的查询日志的匿名问题,其中每一个问题都是人为生成的答案并且有182,669个完全是人为重写的答案。除此之外,该数据集内包含了8,841,823个段落,这些段落是从Bing检索到的3,563,535个网络文档中所提取出来的,并且这些段落提供了必要的信息来组成自然语言答案。MS MARCO数据集中的每一个问题可能拥有许多答案或者一个答案都没有。使用该数据集,我们提出了三种不同难度的任务:(一)在给定一组上下文段落的情况下,预测问题是否可以被回答,并且像人们一样去提取和合成答案。(二)根据可以通过问题和段落语境理解的上下文段落,生成一个格式良好的答案(如果可能的话)。(三)最后,根据问题对一组检索到的段落进行排序。由于该数据集的大小以及其中的问题源自真实用户的搜索查询,因此将MS MARCO与其他知名的公开可用的用于机器阅读理解和问答数据集区分开来。我们相信,对于基准机器阅读理解和问答模型,该数据集的规模和现实世界性使其是非常具有吸引力的。
1 介绍
使用真实世界数据构建具有“机器阅读理解”(MRC)或开放域问答(QA)功能的智能代理是人工智能的重要目标。如果将这些能力用于自动化助理,那么开发这些功能并取得进展可能会在移动设备和智能音响上具有重要的消费者价值——比如移动设备有Cortana,Siri,Alexa或者Google Assistant,智能音响有Amazon Echo。这些设备中的许多设备严重依赖于由具有深层体系结构的神经模型驱动的语音识别技术的最新进展。与传统的web浏览器搜索页相反,日益流行的语音界面使得用户在网上使用自然语言进行问答以及信息检索变得更具有吸引力。Chatbots以及其他基于智能代理的信使在自动化业务流程同样变得越来越流行。例如,回答客户的服务请求。所有这些方案都受益于MRC框架的根本改进。然而,在户外,MRC是极具挑战性的。成功的MRC系统应该能从原始文本中学习到良好的表达方式,以及从学习到的表达方式中推理和得出结论,并且最终生成一个在形式上和内容上都正确的总结响应。
大型数据集的公共可用性在许多人工智能研究方面取得了突破性的进展。例如,ImageNet发布了150万个带有1000个对象类别的标记示例,这引发了对象分类模型的发展,这些模型在ImageNet的任务中的性能优于人类。同样,DARPA收集了20多年的大型语音数据库使深度学习模型的语音识别性能有了新的突破。最近还出现了一些MRC和QA数据集。然而,这些许多现有的数据集不足以训练具有大量参数的深度神经模型。大规模现有的MRC数据集(如果可用)通常是合成的。此外,许多这些数据集的共同特点是:问题通常由群体工作者根据提供的文本块或文档生成。相反,在MS MARCO中,问题来源与用户提交给Bing的实际搜索查询,因此可能更能代表用户希望满足的信息需求的“自然”分布,比如说智能助手。
真实世界的文本是很混乱的:它们可能包括拼写错误或缩写错误,以及语音界面的转换错误。来自不同文档的文本也可能经常包含冲突的信息。相比之下,大多数来自维基百科等的现有数据集通常包含高质量描述和文本块。真实世界的MRC系统应该在真实的数据集上进行基准测试,在这些数据集中,它们需要使混乱和有问题的输入具有鲁棒性。
最后,现有MRC任务的另一个潜在限制是,它们通常要求模型在单个实体或文本块上运行。在许多实际应用程序的设置下,回答问题所需的信息可能分布在同一文档的不同部分,甚至跨越多个文档。因此,测试MRC模型是否能够从多个段落和文档中提取信息和支撑最终答案的能力是很重要的。
在本文中,我们介绍了Microsoft MAchine Reading Comprehension(MS MARCO),这是一个大规模的真实世界阅读理解数据集,目的是解决现有MRC和QA数据集中上述的许多缺点。该数据集包括了Bing和Cortana所发布的匿名的搜索查询内容。如第3节所述,我们用分段信息注释每个问题。针对每个问题,我们提供了一组从Bing检索到的文档中提取出来的段落来回答这个问题。提取出的段落和文件可能包含回答问题所需的信息,也有可能不包含。对于每个问题,我们要求众包编辑根据检索到的段落中包含的信息来生成答案。除了生成答案外,编辑们还被要求标记包含支持信息的段落,尽管我们不强制这些注释是详尽的。编辑们可以根据提供的段落将问题标记为无法回答。我们将这些无法回答的问题包括在我们的数据集中,因为我们相信识别不充分(或冲突)信息,以至于这些信息使问题无法被回答的这样的能力对于MRC模型的发展是很重要的。我们非常鼓励编辑们使用完整的句子来形成答案。总的来说,MS MARCO数据集包含了1,010,916个问题,其中有8,841,823个配套段落是从3,563,535个Web 文档中提取的,以及有182,669个编辑生成的答案。使用此数据集,我们提出了三个具有不同难度级别的任务:
- 在给定一组上下文段落的情况下,预测问题是否可以被回答,并提取出相关信息以及整合答案。
- 根据上下文段落(尽可能)的生成一个良好格式的答案,该答案可以被问题以及上下文语境所理解。
- 根据问题对一组检索到的段落进行排序。
2 相关工作
机器阅读理解和开放域问答是一项具有挑战性的任务。为了鼓励人们更快速的进步,网络社区已经公开了一些不同的数据集和任务,供基准测试使用。我们将在本节中总结其中的一些内容。
斯坦福问答数据集 (SQuAD),由536篇文章中的107,785对问答组成,每个答案都是一个文本块。SQuAD和 MS MARCO的主要区别在于:
表1:MS MARCO和一些其他MRC数据集的比较。
数据集 |
分段 |
问题来源 |
答案 |
#问题 |
#文件 |
NewsQA |
没有 |
众包 |
词的集合 |
100k |
10k |
DuReader |
没有 |
众包 |
人为生成 |
200k |
1M |
NarrativeQA |
没有 |
众包 |
人为生成 |
46,765 |
1,572描述 |
SearchQA |
没有 |
生成 |
词的集合 |
140k |
6.9M段落 |
RACE |
没有 |
众包 |
多项选择 |
97k |
28k |
ARC |
没有 |
生成 |
多项选择 |
7,787 |
14M句子 |
SQuAD |
没有 |
众包 |
词的集合 |
100k |
536 |
MS MARCO |
有 |
用户日志 |
人为生成 |
1M |
8.8M段落,3.2m文档 |
- MS MARCO数据集比SQuAD大十倍以上,如果我们想要对大型深度学习模型进行基准测试,这是一个重要的考虑因素。
- SQuAD中的问题是根据所选定的答案块而编辑生成的,而在MS MARCO中,问题是从Bing 的查询日志中采样的。
- SQuAD中的答案由所提供的文本块组成,而MS MARCO中的答案是编辑生成的。
- 最初SQUAD只包含可回答的问题,但是这在最近一期的任务中有所改变。
NewsQA,是一个基于大约10,000个CNN新闻文章的MRC数据集,拥有超过100,000个问题和答案集合对。NewsQA任务的目标是测试MRC模型在单词匹配和释义之外的推理能力。众包编辑们根据文章标题和摘要点(由CNN提供)来创建问题,而不访问文章本身。采用4-阶收集方法来生成更具挑战性的MRC任务。相比于SQuAD的20%,超过44%的NewsQA问题需要推理和整合。
DuReader,是一个中国的MRC数据集,由百度搜索和百度知道的真实应用数据所构建,百度知道是一个社区问答网站。它包含200,000个问题以及来自1,000,000个文档的420,000个答案。此外,DuReader还提供了答案的附加说明,并将其标记为是基于事实的或是主观意见的。在每个类别中,又进一步将其分为实体、是非判断和描述性答案。
NarrativeQA,该数据集包含的是,由编辑基于电影剧本和书籍摘要所创建的问题。该数据集在包含了大约45000个问答对,超过1567个故事,并平分在书本和电影剧本之间。与NewsQA中使用的新闻语料库相比,电影剧本和书籍的集合更加复杂和多样,这使得编辑创建的问题可能需要更复杂的推理。与NewsQA和SQuAD的情况一样,电影剧本和书籍也是比新闻或维基百科文章更长的文档。
SearchQA,从美国电视智力竞赛节目《Jeopardy》中提取问题,并且将它们在谷歌上进行查询,接着从检索到的前40个文档中提取片段,而这些文档中可能包含着问题的答案。其中不包含答案的文档片段将被过滤掉,留下了超过140K问答对和6.9M片段。答案都是平均1-2个标记的文本的精简集合。相比之下,MS MARCO关注于更长的自然语言答案的生成,这些问题与Bing搜索查询相对应,而不是琐屑的问题。
RACE,包含了来自中国学生外语学习标准化考试的100,000个左右多项选择题和27,000篇文章。数据集分为:race-m,针对12-15岁的中学生提出约30,000个问题;race-h,针对15-18岁的中学生提出约70,000个问题。Lai等人声称,发表RACE时最先进的神经模型的准确度为44%。而人的最高表现是95%。
AI2 Reasoning Challenge (ARC),由艾伦人工智能研究所(Allen Institute for Artificial Intelligence)提出的7,787个小学科学的多选问题,其中每个问题通常有4个可能正确的答案。而答案通常需要课外知识或复杂的推理。除此之外,ARC提供了一个14M有关科学句子的语料库,其中包含与挑战相关的知识。但是,模型的训练不必包括也不限于该语料库。
ReCoRD,包含了从CNN/每日邮报新闻文章中提取的12,000对克洛泽式的提问。对于此数据集中的每一对,问题和段落都是从同一新闻文章中选择的,因此它们的文本重叠最小,这使它们不太可能相互解释,但至少要引用一个通用命名实体。此数据集的重点是评估MRC模型的常识性推理能力。
图 1:简化的段落选择和人工编辑的答案摘要UI
3 MS MARCO 数据集
为了生成10,916个问题和1,026, 758唯一的答案, 首先我们从Bing的搜索日志中采样查询。接着我们将筛选出该数据集中的任何非问题查询。我们使用Bing从其大型web索引中来检索每个问题的相关文档。然后,我们自动从这些文件中提取相关段落。最后, 总结上述信息,人工编辑对于包含回答问题所需的有用和必要信息的段落进行注释,并撰写成格式良好的自然语言答案。图1显示了基于web工具的用户界面,编辑器使用该工具完成这些注释和答案合成任务。在编辑注释和答案生成过程中, 我们会不断审核正在生成的数据,以确保答案的准确性和质量,并验证是否合理遵循了规则。
如前所述, MS MARCO中的问题与Bing查询日志中用户提交的查询相对应。因此, 问题表述往往是复杂的、模棱两可的, 甚至可能包含排版和其他错误。一个向Bing提出问题的例子是:“在心脏和身体细胞之间, 含氧血液是
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。