问答系统基于文档检索的一种方法
Man-Hung Jong, ,
College of Computer Science, Kim Il Sung University, Pyongyang, D.P.R.K Chong-Han Ri
College of Computer Science, Kim Il Sung University, Pyongyang, D.P.R.K Hyok-Chol Choe
College of Computer Science, Kim Il Sung University, Pyongyang, D.P.R.K
Chol-Jun Hwang
Electronic Library, Kim Il Sung University, Pyongyang, D.P.R.K
摘 要
本文提出了一种利用通道的评分值来有效地检索问答系统中文档的方法。
为此,我们建议评价函数考虑每一个问题之间的距离。使用这个评估函数,我们提取了一个文档,其中包含了在最高的集合中得分的值,作为一个合适的文档。
该方法在韩国问答系统的文献检索中十分有效。
关键词:文献检索,文章检索,答疑。
1介绍
在建立一个韩国问答系统的时候,通常很重要的是通过检索一些文件来减少与问题相关的文件的数量,这是一个问题的答案,因为在一个有限的时间内,QA系统的性能应该通过搜索答案得到相应的文件,从而得到相应的文件。因此,已经提出了许多方法来检索与收集问题相关的文档。
在许多文献检索系统中,提出了应用向量spac模型(VSM)、伪反馈和潜在语义索引(LSI)的方法,这些方法常用于一般的信息检索系统。但是,这些方法不适用于QA系统中的文档检索,因为在不考虑查询条件的分布情况下,根据文档中涉及的查询条件的数量来估计适当的文档。
一般来说,它看到了较小的文本区域的查询条件出现,更合适的文档是用户的问题。
为了克服这一问题,我们引入了一个新的概念:“通道”作为一个新的检索单元,并提出了检索基于文本的文本值的方法。
这些方法将一个文档分割成一个给定大小的段落(3个句子或大约300个单词),然后使用tf-idf模型或BM25模型根据查询和段落之间的相似度来评分段落,以使文档具有最高的相似性。但是,它们的缺点是,通道的大小是固定的,所以如果尺寸太小,如果尺寸过大,密度分布不会被反映出来,那么对于长距离的查询条件就不会被覆盖。
我们定义了一个用户问题的文档的评分函数,使用段落的大小和一个方法,使用大量的段落来对文档检索中的文档进行排序。
2.使用通道的文档检索方法
大多数文献检索方法都是通过将文档分成固定大小的段落,并根据其中的大量段落检索文档。在某些情况下,这种方法的变体在[5]中被使用。
我们提出了一种基于查询词的接近性的评分函数,考虑了不同长度hs的通道和使用它的排序方法。
总结本文提出的文献检索方法如下
(1)在文件dj属于D中搜索每个查询词的出现位置。
(2)查找包含所有查询条件文档的所有可能通道,计算每一篇文章的得分,使用评估函数,考虑到查询条件之间的距离dj。
(3)将包含最高分数通道的文档输出为适合查询的文档
2.1文章选择
让查询中出现的一组查询词,如:Q q1, q2 ,. , qt 在Pd j的文档中表示查询项q的可能出现位置的集合Pdj= pd j , pd j ,. , pd j 寻找查询语句q出现在文档中的对应位置
i
查询结果对应如下所示:
因此,一系列根据关键词查询到的可能的文章的均在此系列当中。
2.2 计算文章得分
文章的得分计算使用函数来完成。
2.2.1在一篇文章中评估任意两个查询词之间的距离
然后,在关键词, qi和q j之间的距离通过使用以下函数计算通道:
Where dist(pi, pj):查询项之间的距离,qi和qj
Pi:qi在文章中的位置
Pj:qj在文章中的位置
s : s R ,表示距离重要性的参数
当两个查询术语邻里时, 该函数值为 1, 并且收敛到 0, 它们的距离越远。
2.2.1评估段落中所有查询字词的接近度
使用以下函数计算段落中所有查询字词的接近度。
即, 文档中可能的段落的分数计算如下。
- 利用段落分数进行文档检索
文档 dj 的评分按如下方式计算
di * :最适合查询的文档
* : di *最适当的段落
Omega;d j :di *文档中可能的段落
- 实验结果与分析
为了评估文件检索的性能, 使用建议的评分功能, 我们使用 3 60 标准查询和回答文件从 '韩国完整的历史' (卷 1 ~ 5) 作为测试数据。然后, 我们使用 MRR (平均对等秩) 作为一个度量, 通常用于评估的文件检索模块在 QA 系统。
表1 检索性能评价结果
- 结论
我们提出了一种利用段落评分值有效检索问答系统中的文档的方法。
为此, 我们首先提出了一种通道尺寸的判断方法, 然后提出了评价函数, 即
考虑每个问题在段落之间的接近度。并利用这个评价函数, 我们提取了一个文件, 其中涉及评分值在最高的集合, 作为一个合适的文件的问题。
该方法对韩语问答系统的文档检索非常有效。
参考文献
-
-
-
- An Introduction to Information Retrieval. Cambridge University Press Cambridge, England. Online edition(c),2009 Cambridge Up.
- Hissar, Bulgaria. Language Modeling for Document Selection in Question Answering. Proceedings of Recent Advances in Natural Language Processing, pages 716–720, 12-14 September 2011.
- Courtney Wade and James Allan. Passage Retrieval and Evaluation. CIIR Technical Report. February 2005.
- Petr Knoth, Jakub Novotny, Zdenek Zdrahal . Automatic generation of inter-passage links based on semantic similarity. Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010), pages 590–598, Beijing, August 2010
- An open domain question answering system based on improved system similarity model proceeding of the Fifth International Conference on Machine Learning and Cybernetic, Dalian,August,2006
- Michael Kaisser. Answer Sentence Retrieval by Matching Dependency Paths Acquired from Question/Answer Sentence Pairs. Proceedings of the 13th Conference of the European Chapter of the Association for Computational Li nguistics, pages 88–98, 2012.
- Hang Cui, Renxu Sun, Keya Li, Min-Yen Kan. Question Answering Passage Retrieval Using Dependency Relat ions. In Proceedings of the 28th ACM-SIGIR International Conference on Research and Development in Information Retrieval (SIGIR-05).Using Semantics for Paragraph Selection in Question Answering Systems Department to de Len guajes y Sistemas Informaticos Universidad de Alicante,2004
-
-
问题回答的波纹规则
作者: Christina Unger, Bielefeld University, Germany; Axel-Cyrille Ngonga Ngomo, University of Leipzig, Germany; Philipp Cimiano, Bielefeld University, Germany; Souml;ren Auer, University of Bonn, Germany; George Paliouras, NCSR Demokritos, Greece
审阅: Gosse Bouma, University of Groningen, Netherlands; Konrad Houml;ffner, University of Leipzig, Germany; Shizhu He, Chinese Academy of Sciences, China; Christina Unger, Bielefeld University, Germany
Dat Quoc Nguyen a,lowast;, Dai Quoc Nguyen b and Son Bao Pham c
a Department of Computing, Macquarie University, Australia
E-mail: dat.nguyen@students.mq.edu.au
b Department of Computational Linguistics, Saarland University, Germany
E-mail: daiquocn@coli.uni-saarland.de
c VNU University of Engineering and Technology, Vietnam National University, Hanoi, Vietnam
E-mail: sonpb@vnu.edu.vn
摘 要
近年来, 建立基于本体的答疑系统的新趋势。这些系统使用语义 web 信息为用户的查询生成更精确的答案。然而, 这些系统大多是为英语设计的。本文介绍了一个基于本体论的问答系统, 它以我们的知识为 KbQAS, 是越南语的第一个。KbQAS 采用了我们的问题分析方法, 系统地构建了语法规则的知识库, 将每个输入问题转换为中间表示元素。然后, KbQAS 在目标本体上采用中间表示元素, 并应用概念匹配技术返回答案。在大量的越南问题上, 实验结果表明, KbQAS 的性能在分析输入问题和检索输出应答方面具有良好的精度84.1% 和82.4%。此外, 我们的问题
全文共10572字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[13049],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。