用于地名消歧的共现模型外文翻译资料

 2022-04-28 22:48:49

英语原文共 24 页,剩余内容已隐藏,支付完成后下载完整资料


用于地名消歧的共现模型

Simon Overell*amp;Stefan Ruuml;ger*※

*英国,伦敦,伦敦帝国学院,南肯辛顿校区,计算部,多媒体和信息系统

英国,米尔顿凯恩斯,开放大学,知识媒体研究所

本文描述了基于共现信息来如何生成一个模型用于识别地名。讨论了共现模式优于传统地名录的优点,并将地名消歧问题作为案例研究。

我们首先概述模糊地名的问题。我们演示如何分析维基百科可用于生成共现模型。我们的模型的准确性与地理事实相比较;然后我们将评估将这种模型应用于自由文本中地名消除歧义的替代方法(使用GeoCLEF评估论坛)。我们通过展示如何在查询的文本和geographic parts中包含地名来提供最大平均平均精度,并概述共现模型作为更广泛领域的地理信息检索(GIR)的数据源的益处。

关键词:地理信息检索;共现;维基百科;消歧

  1. 简介

地名在整个网络和文件收藏中都很常见。当用传统的信息检索方法搜索文档语料库时,地名之间的隐含空间关系常常会被忽略。通过为文档中出现的地名构建明确的地理索引,可以捕获空间关系并用于改进结果。我们展示了如何使用维基百科来生成共现模型,以及如何使用此模型来提高我们的地理信息检索系统的平均精度。

本文结构如下。第1节引发了对独特地理索引的需求,并且定义了模糊地名的问题。第2节详细介绍了数据挖掘维基百科和地理资源的背景,第3节描述了地名消歧和共现模型。第4节概述了我们系统的结构。第5节描述了我们的共现模型的发展和评估,包括对手工基础事实的基线测试。在第6节中,我们展示了一个应用我们的同现模型进行一系列实验的案例研究,以确定哪些共现的顺序最适合自由文本中地名的消歧。在相同名称的评估论坛上对GeoCLEF语料库进行评估。最后,在第7节中,我们得出结论并确定未来工作的领域。

1.1动机

历史上,消歧已经用于时间索引。专业索引编译了两个阶段,分别是概念分析和编译成索引术语(Lancaster,2003)。在传统的信息检索中,忽略了概念分析,索引术语自动直接从文档中提取; 因此,索引术语本质上是模糊的,并且通过手动查询扩展来实现消歧。例如,用户可以逐渐将“林肯”扩展为“亚伯拉罕林肯总统”。

地理信息检索是一个更复杂的情况:消除歧义所需的信息通常是隐含的,并且位置之间存在几何关系。如果用户对英国大伦敦地区的所有相关文件感兴趣,则必须大幅度扩展以涵盖所有33个区和其中的区域。这些名字中的许多名称也会模棱两可,如切尔西,沃克斯豪尔和格林威治。出现这种扩展查询的用户会有太多的错误结果。

解决这个问题的一个办法是为文档中的每个地理词组分配一个对地理位置的引用。然后可以使用这些语义表示来构建索引,以便明确地搜索地点。

1.2地名消歧的问题的重要性

为了回答这个问题,我们估计一个简单的方法就可以达到的精度。我们首先为本文中使用的术语制定一组定义:地理定位或简称为一组坐标,代表地球表面上的点,线,多边形或一组多边形。地名是用来指代地点的短语。请注意,这是一个多对多的关系。模型是一组地名,它们被归类为位置以及它们在一组文档中出现的顺序(在本文中为维基百科)。语料库是没有关联空间元数据的文档集合(在本文中是GeoCLEF)。

设P(l)为地点l的地名集合。类似地,设L(p)为地名p所指的位置集,令| L(p)| 是它的大小。令ref(p,l)为模型中地名p对位置l的引用次数。让

L1(p),L2(p),hellip;L|L(p)|(p) (1)

是L(p)的一个枚举

Ref(p,L1(p)ge;ref(p,L2(P))ge;hellip;ge;ref(p,LL(p)(p)) (2)

请注意,L1(p)将是地名p最常使用的位置,当| L(p)| =1时,p是明确的。设N是模型中出现的所有地名的多重集,M是唯一地名的集合。设K是一组不明确的地名:模型中指向多个地点的地名;自然地| N |gt; | M |gt; | K |。 假设我们将每个地点名称归类为最常用的地点,那么正确消除歧义的地名rcorr的比例可以估算如下:

使用基于维基百科爬行的模型(稍后详细介绍),我们可以估算与地点(rcorr)正确匹配的地名比例为98.7%;当只看模棱两可的地名时,这个比例是96.8%。 人们可以很容易认为这足够准确!但是,在以下三种情况下,这个错误是显而易见的:

  1. 当一个位置正在被搜索,并且一个更常被引用的位置共享它的名字时,用户将被注入不相关的结果。为了量化这一点,我们可以计算每个参考位置l,其中地名p的存在位置更为常见,平均比率参考l的频率除以所有参考位置的频率 由p:

假设所有地点都有可能被搜索,平均而言,只有13%的文件在寻找不太常见的地点时相关。当希望在地图上显示与伦敦,安大略相关的文件时,用户界面将很快变得混乱。

  1. 第二个问题是,使用模拟位置之间关系的GIS时,此错误是累积的。假设用户正在搜索北美大陆的位置,该查询将扩展到国家,州,县和城镇;在每次扩展时,错误都会复杂化。
  2. 最后的问题是上下文影响了最重要的位置。例如,安大略省的任何当地报纸都会默认假设“伦敦”是指“伦敦,安大略省”,而不是“伦敦,英国”。一些上下文数据,无论是用统计模型隐式指定还是明确指定,都是需要的。

总之,在大多数情况下,微不足道的方法应该令人满意地执行地名消歧问题。但是,在上述某些情况下,这个错误将会非常严重。我们认为上下文地名的出现可以通过共现模型来捕获;这样的模型将允许GIR系统准确地将经常出现的地点与常见地点共享一个地名。

  1. 背景

在地理查询中,用户能够指定他们需要与位于特定区域内的位置相关的文档。 Sanderson和Kohler(2004年)分析了Excite的查询日志,以发现提交给搜索引擎的查询中有多少比例的地理术语:其样本中有18.6%的查询包含地理术语,地理术语是互联网搜索的一大部分。

地理信息检索是通过分析某种空间关系的系统来检索信息;GeoCLEF是CLEF(跨语言评估论坛)研讨会的地理轨迹,旨在测试此类系统。GeoCLEF轨道于2005年作为专门的TREC风格评估引入CLEF研讨会;这为不断增长的地理信息检索领域提供了统一的评估(Gey et al.2006)。

在我们的方法中,我们使用维基百科和盖蒂地理名称词表(TGN)作为世界知识来生成共现模型;然后可以将此模型应用于自由文本以生成明确的地理索引。

2.1词义消歧

词义消歧是近50年来一直被研究的一项任务,通常是指对文档中单词的含义(或意义)的解释。消除歧义的问题已经从包括自然语言处理,机器学习和信息检索在内的许多领域得到了解决(Ide和Ve#39;ronis 1998)。多义词在大多数语言中普遍存在,并且可以被他们的语境消除。

正确的名称解析是词义消歧的一个子集,其中专有名称在文档中被识别(通过词法处理整个文档或启发式方法),然后归类为特定的命名实体。 Wacholder等人 (1997)确定了多层次的专名歧义:第一类歧义是结构歧义,其中文本中构成名称的单词的结构是不明确的(例如,North Dakota(北达科他州)--是表示某个地方的北部吗?)。语义歧义是下一个层次,被引用的实体类型是不明确的(例如华盛顿 - 它是地名还是人?)。指称歧义是歧义的最后一个级别,被提及的特定实体是不明确的(例如剑桥 - 是英国剑桥还是马萨诸塞剑桥?)。

命名实体识别领域涉及解决结构和语义歧义的问题。在文本中的特定的名称,需要归类为人员,组织,地点或概念。正确的名称歧义与解决指称歧义有关;识别名称引用的特定实体。

有多种方法可以进行适当的名称消歧(详见3.1节的地名消歧)。Amitay等人。(2003)使用共现和关闭话题术语的集合来识别主题的背景,并比较三种产生这些术语的方法:手动法,从域相关网站中提取法和监督方法。Smith和Mann(2003)描述了一种半监督方法,用于学习不同专有名词出现的上下文。

2.2维基百科

维基百科是互联网上最大的参考网站。内容由志愿者协作撰写和更新(维基百科2007); 由于超链接和元数据的大小,变化,准确性和数量,它作为一种非常有用的资源(Kinzler 2005,Weaver et al.2006)。迄今为止,有超过200万篇文章和存根(短篇文章)(维基百科2007)。

Chris Luer将维基百科中使用的消歧技术确定为从单词到文章的映射:在维基百科中通过要求每篇文章具有唯一可猜测的名称和明确的消歧页面来实现多义词的消歧。通过重定向页面网络实现同义词的消歧(Luer 2006)。然后负责网页作者(和编辑)正确链接到他们引用的预期页面。

在地理信息检索中越来越多地使用维基百科:对于语料库生成,本体生成(Buscaldi等,2006),地名索引生成(Silva等2004,Buscaldi等2006),查询扩展(Hauff等,2006 )和地面真相世代(稍后详述)。类别和模板元数据极大地简化了文章分类;项目的“WikiProject: Geographic Coordinates”和“PlaceOpedia”目前正在进行中,允许用户在地理上标记维基百科(Wikipedia 2007,Steinberg 2007)。

3.相关工作

3.1地名消歧

地名消歧是专有名称消歧的一个分支,它们有两点不同:地点之间存在隐含的空间关系,和存在广泛的地理资源列表位置。在本节中,当我们讨论地名消歧时,我们指的是指称歧义的解决。这可以从自然语言处理中作为地名的解释来看待,也可以将机器学习视为地名的分类。来自多个领域的方法已经导致解决这个问题的多种方法,其中大多数方法适用于下面描述的类别。

3.1.1基于规则的方法。基于规则的消歧方法将简单的启发式规则应用于地名消歧。最基本的消歧规则使用专门构建的地名录,其中每个地名只有一个位置;这些默认位置是根据各种标准选择的,包括大小,人口和相对重要性(Li等,2003,Clough等,2004)。

3.1.2数据驱动的方法。数据驱动的消歧方法通常采用标准的机器学习方法来解决地名匹配问题。这些方法的问题在于它们需要大量准确的语料库, 如果存在这样的语料库,则可以应用初始方法(例如贝叶斯定理)或更复杂的方法(例如潜在语义分类)(Grossman和Frieder 2004)。

3.1.3混合(自举)方法。消除歧义的混合方法应用与数据驱动方法类似的半监督技术。比数据驱动的方法(但是,每个模糊度至少有一个例子)和额外的未注释的语料库需要更小的带注释的语料库来推断数据的进一步特征(Smith and Mann 2003,Bucher et al.2005,Leveling et al.2005)。

3.2共现

在本文中,当我们引用共现模型时,我们指的是一组文档模型,其中每个文档模型都是文档中出现的对象的有序列表。过去的实验着眼于词,n-gram和命名实体的共同出现;在我们的实验中,我们看看地名的共现。

共现模型的分析可用于多种目的:搜索引擎优化和文本中的纠错是两种常见的应用。 消歧同现最成功的应用是词义消歧。这已经成功地运用了监督和半监督技术(Yarowsky 1994,1995,Bergmair 2005)。Amitay等人(2003)描述了使用多分辨率上下文来搜索相关术语的文档的增加部分的方法。

雅罗斯基(Yarowsky,1993)提出了每个搭配假设的一种意义,说明在任何给定的情境下,多义词只有一种意义。Leidner(2004)将共现作为地名消歧的四种信息来源之一,加上启发式,语言线索以及话语和位置信息。我们在地名消歧问题中基于单个共现模型的三种数据驱动方法的应用中利用此属性。

4.系统

在我们的系统中,我们应用了地名消歧的数据驱动方法。 我们通过抓取维基百科来生成共现模型来克服缺乏注释的问题。

我们的地理信息检索系统(见图1)分为两部分:索引阶段和查询阶段。 索引阶段需要语料库和一些外部资源来生成地理和文本索引(一项缓慢的任务)。 查询阶段利用预先计算的索引实时运行。

4.1索引阶段

索引阶段由四个独立的应用程序组成:PediaCrawler首先用于抓取维基百科,以构建地名如何共现的共现模型; 然后,消歧器应用共现模型来消除用命名实体识别器从GeoCLEF语料库提取的命名实体。 消除歧义的命名实体形成地理索引; 索引器用于构建文本索引。

4.1.1 PediaCrawler.

4.1.2消歧框架。

全文共10425字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[13088],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。