英语原文共 6 页
问答系统:一种启发式方法
摘要 - 数字信息的指数增长导致需要越来越复杂的搜索工具,如网络搜索引擎。当用户需要对自然语言问题的精确答案时,搜索引擎返回排序的文档列表并且效率较低。问题回答系统涉及下一代网络搜索引擎所需的这一关键功能,以减少通过长文档列表的艰苦搜索。提出的问答系统解决方案适用于特定的旅游领域,这是一个全球性的日常休闲活动。用户必须努力浏览这些重载网站以获取他们感兴趣的一小段信息。系统中开发的爬虫收集网页信息,该信息使用自然语言处理和针对特定关键字的过程编程进行处理。系统返回精确的短字符串答案或列表与旅游领域相关的自然语言问题,如距离,人,日期,酒店列表,堡垒列表等。
关键词:问答,自然语言,信息检索,信息提取,爬虫,令牌,种子网址
1.INTRODUCTION
万维网使用常见问题(FAQ)的静态列表来回答用户查询。在这样的列表中,人们找到他们感兴趣的问题并阅读相关答案。常见问题列表缺乏明确提问的能力,因此列表提供者不知道可能出现的各种问题。此外,在漫长而混乱的FAQ列表中查找有价值的信息对于用户来说是一项繁琐的工作。搜索引擎使用基于关键字的搜索在Web上进行文档检索。但是,关键字查询会检索大量不相关的信息。如果发布到信息系统的大多数查询是用普通人类语言陈述的问题,则普通用户会感到舒服。在这些问题中,用户可以精确地询问她想要什么。用普通英语与计算机交谈更有趣,但这不是万维网上的一项简单任务,它是一个全球互联的信息共享系统。万维网拥有大量用户,不受限制的域名以及许多在线提供的独特网址,从根本上改变了信息的共享,分发和访问方式。随着用户努力浏览可用的大量在线信息,自动问答(QA)系统的需求变得迫切。用户需要用户友好的交互系统,可以返回快速简洁的答案,并提供足够的上下文来验证答案。搜索引擎返回排名的网络链接列表,但无法向用户提供清晰的答案。质量保证系统解决了这种数字信息过载问题,以返回自然语言问题的精确答案。
QA系统的成功已经在1999年开始的文本检索会议(TREC)[1]的QA Track评估中得到了报道。质量保证体系包括三个阶段,即问题处理阶段,文档检索阶段和答复处理阶段。 问题处理阶段分析自然语言问题; 重新制定它然后确定答案类型。 文档检索阶段使用重新构造的查询通过引用在线资源来返回排序的文档列表。 答案处理阶段在返回的文档上使用提取技术以某种适当的形式呈现答案,可能与验证相关联。 问答系统的一些关键维度是:
1.提问:自然语言查询
2.答案提取的来源
3.答案:来自系统的响应
4.评估答案
5.答案的代表
A.Question:自然语言查询
在质量保证体系中,问题可以是任何自然语言问题,例如事实问题(什么,何时,何地,谁,哪个)或要求答案作为列表的问题(列出所有酒店......)或回答是或否的问题 作为答案。 使用“wh”字的大多数自然语言问题是指实体,例如“谁”指的是“人”,“何时”指的是“时间”或“日期”,“其中”指的是“位置”。 像“为什么”和“如何”这样的问题很难,因为它们需要理解不同句子之间的逻辑关系和依赖关系。 “什么”类型的问题是不明确的,因为答案类型取决于问题中的上下文。 如果QA系统可以分析问题的预期答案类型,则可以过滤出来自排序文档列表的候选答案的数量以获得精确答案。
B.答案提取的来源
答案可以从结构化数据库或半结构化数据库中提取,也可以从文档中的自由文本中提取。 可以从一组固定的文档或Web或集合来源(如百科全书)中搜索答案。 信息可以是域特定的或域独立的。 WordNet或增强词典等语义资源可用于查询重组和推断答案类型.
C.Answer:系统的响应
答案可能是长,短,列表或描述性的。答案的形式可能因预期用途和预期用户而异。例如,如果用户想要一些名称或项目,则需要列表,而理由需要更长的答案。另一方面,阅读理解测试需要简短的答案。答案类型可以从问题中推断出来,最后通过剪切和粘贴原始文档中的信息或包含答案的文档来提取。当从多个句子或文档中提取答案时,将这些片段组合以获得。
D.评估答案
评估访问QA系统返回的答案。一些问题要求简短的答案,如是/否或短串(有两个或三个单词)很容易评估。如果系统返回长答案,则需要对其进行选择。 TREC 2007 QA轨道支持仿真,列表和复杂查询。提出的问题是在博客和新闻专线上。这些问题由人类评估为五个判断:局部正确,全局正确,不正确,不精确且不受支持。
E.答案的演示
答案可能是短的,长的或带有指针或摘要的列表。质量保证跟踪(如TREC QA跟踪)提供了多种方式来呈现问题的答案。此外,该轨道对可以为问题列出的候选答案的数量施加了限制。初始TREC轨道支持候选答案列表,但稍后在轨道上限制为单个正确答案。
建议的QA系统用于旅游领域,使用爬虫我们收集了一些旅游网站的解析网页内容。然后通过标记化,停止单词删除和词干化对该Web信息进行预处理,以将它们存储在文件系统中。当用户向QA系统发出查询时,将通过标记化,停止单词删除和词干来预处理查询。从此预处理查询中标识令牌或关键字。手动开发的Token文件包含令牌和相关的答案字符串。例如,“km”,“kms”,“km”,“miles”,“meter”,“码”是“Place1和Place2之间的距离是什么”之类的问题中令牌“距离”的相关答案字符串。 。然后将这些字符串与所讨论的令牌链接,以便在收集的信息中找到答案。使用NLP和特定关键字的过程编程样式提取答案。此外,考虑单个问题的变体,例如“Place1与Place2的距离”是“距离”相关查询与“远”作为标记。
本文的其余部分按如下部分组织:第2节讨论了一些相关工作,第3节介绍了拟议系统的设计。所进行的实验结果在第4节中作为结果和讨论进行了介绍。第5节总结了工作,并提供了未来扩展工作的提示。
2.相关工作
自20世纪60年代以来,创建了各种自然语言数据库前端,对话系统和语言理解系统。大多数QA系统提供了factoid的答案并列出了问题,而有些则提供了复杂的,基于推理和描述性问题的答案。像BASEBALL [3]和LUNAR [4]这样的早期QA系统是在数据库上工作的受限域系统。 BASEBALL回答了有关美国棒球联盟年度和LUNAR QA系统的问题,回答了有关阿波罗任务返回的岩石地质分析的问题。随着TREC QA轨道的进步,出现了开放域QA系统。后来的QA系统对问题类型或用户词汇量没有限制。机器学习方法可以自动生成高性能问题分类器,这比手动分类器更灵活,因为它可以很容易地适应新域。通过使用语义更丰富的树库进行问题解析,提高了问题处理阶段中问题分类的准确性[5]。 IBM的统计问题答疑系统[6]是最大熵分类的应用,用于预测问题类型和答案类型。它从本地百科全书库中检索文档,执行查询扩展并从TREC集合中检索段落。问题分类的机器学习方法[7]报道支持向量机(SVM)优于其他分类器。 Textract [8]是一个基于域独立信息提取(IE)的自然语言QA系统,其中命名实体标记器是识别实体的重要组成部分,相关实体用于查找实体之间的预定义多个关系以生成实体的配置文件和通用事件提取提取事件,例如谁做了什么,何时,如何等.FALCON [9]重新制定问题并从WordNet的层次结构中识别答案类型。只有在存在逻辑对齐的情况下才会提取答案。 QA-LaSIE [10],LaSIE IE的修改版本被用于谢菲尔德大学TREC-9轨道开发的QA系统。 Okapi概率检索模型用于检索输入到系统的用户问题的相关段落。在语法和语义上分析问题和检索的段落以识别“寻求的实体”。系统返回五个得分最高的比赛作为回应
QA系统使用基于规则的分类器或机器学习分类器进行问题分类[11]。这个重新形成的查 询被传递到信息检索(IR)系统,该系统是获取在线信息的理想来源之一。 IR系统返回排序的文档列表。在当今的场景中使用了许多类型的IR系统协议,如矢量空间模型(VSM)[12],概率检索模型[13]和推理检索模型[14]。 QA系统进一步使用IE,IE是一种能够从相关文本中提取相关信息的技术。它使用NLP和计算语言学来分析文档中的文本,从文本中提取单个“事实”。通过推理整合这些事实以产生更大的事实或新事实,并最终将相关事实转化为所需的输出格式。有不同的IE技术[15],如模板匹配,命名实体识别(NER)和自动内容提取(ACE)。
3.建议的规则
图1描绘了所提出的QA系统的启发式方法。该系统包括以下9个主要步骤:
步骤1:用户通过语言形式的用户界面输入问题。
步骤2:此步骤涉及使用以下四个主要活动预处理用户问题:句子分段,标记化,停止词删除和词干。
句子分段检测边界并将源文本分离为句子。标记化将输入查询分成单个单词。停用词删除涉及过滤常常出现在文档中的停用词,如as,a,the等。词干词是指通过过滤掉每个词的前缀和后缀来将词减少到词根。
步骤3:这是答案提取的关键步骤,其中可以识别可能出现在用户问题中的关键字,以便有效地搜索答案。令牌文件由令牌,相关答案字符串,NLP规则组成。例如,对于问题“Place1和Place2之间的距离是多少”,令牌是“距离”,相关的答案字符串可以是“km”,“km”,“miles”等。用于检索确切答案的NLP规则是在“km”,“km”,“miles”等之前提取数值。还要考虑问题的解释。例如,上面对“距离”的查询可以有类似“距离Place2的Place1多远”这样的变化。相同的NLP规则适用于此问题。
步骤4:此步骤决定系统提供的答案的质量。选择了印度马哈拉施特拉邦普纳市附近地区的旅游网页。考虑进行实验评估的网站如下:
1.www.puneritraveller.com
2.www.punesite.com
3.www.punediary.com
4.www.tourism.virtualpune.com
5.www.pune109.com
步骤5:在该步骤中,系统的网络爬虫接受旅游域的种子URL并搜索URL的所有子链接。 Web爬虫[16]是搜索引擎的重要组成部分,但它是最脆弱的应用程序,因为它涉及与各种Web服务器的交互。如果从多个服务器并行完成许多下载,则可以减少总爬行时间。该系统的爬虫是使用Java编程语言使用广泛的多线程功能开发的。当向爬虫呈现种子URL时,它收集存储在数据库中的Web链接。
步骤6:这是实验中最关键的阶段之一,其中系统与旅游域URL的实时网页交互。系统中设计的婴儿网络爬虫能够从解析的网页中获取数据。 Java html解析器用于解析网页。仅从网页中提取人类可读数据,过滤掉诸如广告之类的冗余内容。
步骤7:使用步骤2预处理在步骤6中收集的解析数据,以移除停用词,然后将剩余词根化为其词干。然后将格式化的网页内容保存在特定位置的文件中。这些文件构成文件系统,它是答案提取的来源。
步骤8:此步骤是系统的引擎,其中处理令牌和查询关键字以使用令牌文件中设置的NLP规则获得特定问题的答案。系统使用过程编程样式来提取答案。算法1中描述了通用步骤
下面简要介绍算法中的步骤:
1)预处理Qn以获得查询词qw。
2)主矢量(Mv)构成一组令牌(q),支持令牌字(s)和相关的回答字符串(aw)。例如,Mv =(距离,远,公里,公里,公里,英里)。
3)提取所有文档(n)中的句子数(k)。
4)对于每个句子,Si识别包含主矢量(Mv)元素的句子。
5)标记句子(Simp)。
6)使用字典(Dc)识别句子中的令牌和专有名词。
7)分割答案词并从句子中提取,Simp标记为重要的答案(An)满足NLP规则(R1)。
8)计算术语重量并对答案进行排名并显示。
等式(1)为问题中的特定令牌生成主矢量。
Mv {qw, sw, aw}
qw是查询词或令牌,sw是支持查询关键字,aw是相关的答案字符串,Mv是主矢量。包含主矢量的句子用(2)表示。
N kS
(x) Mv
0 0
n是文档的总数,k是包含主矢量的句子的总数,S(x)是包含整个文档集合中的Mv的所有句子的集合。使用(3)提取问题的答案。
An limTw(Si Rl )
ik
Si是S(x)中的句子,Rl是针对特定关键字qw的NLP规则的集合,并且Tw是术语权重。例如,“距离”令牌的NLP规则是句子应该至少具有名词,相关答案关键字之一和令牌本身或者令牌的语义等价物。
4,结果和讨论
使用500份文件评估了拟议的系统。这些文档文件是通过捕获上述旅游网站的网页信息而创建的。该系统提供与旅游领域相关的自然语言问题的短字符串答案或列表。
使用最大倒数比(MRR)[1]评估系统返回的答案。在TREC 2001中提交的QA系统要求提交用户提出的问题的五个答案的排序列表。每个问题得到的分数等于发现第一个正确答案的等级的倒数,称为倒数等级(RR)。对于五个答案的排序列表,RR的值是1,1 / 2,1 / 3,1 / 4,1 / 5,0。
例如,如果第一级出现正确答案,然后RR是一对一导致得分为1.如果正确答案在第二等级上,则RR是一对
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。