摘要

基于内容的全文搜索在点对点（P2P）系统中是一个具有挑战性的问题。传统方法要么集中，要么使用洪水来确保返回结果的准确性。在本文中，我们提出了一个分散的非泛洪P2P信息检索系统pSearch。pSearch基于潜在语义索引（LSI）生成的文档语义，通过P2P网络分发文档索引。由此，减少了针对给定查询的搜索成本（针对搜索的不同节点和发送的数据），因为语义相关文档的索引可能共同位于网络中。我们还描述了有助于在节点之间更均匀地分布索引的技术，并进一步减少使用适当的索引分布访问的节点数量，以及使用索引样本和最近处理的查询来指导搜索。实验表明，通过仅搜索少量节点，pSearch可以实现与集中式信息检索系统相当的性能。对于具有128,000个节点和528,543个文档（来自新闻，杂志等）的系统，pSearch在搜索期间仅搜索19个节点并仅传输95.5KB数据，而pSearch和LSI返回的前15个文档具有91.7％的交叉点。

类别和主题描述符

C.2.4 [计算机通信网络]：分布式系统

一般条款

算法，管理，性能，设计，实验

关键词

点对点系统，信息检索，覆盖网络

介绍

根据最近的一份报告[17]，全球93％的信息都是数字形式。每年增加的独特数据

lowast;这项工作是在2002年春强在惠普实验室实习期间开始的，并于2003年在罗彻斯特大学完成。

允许将个人或教室使用的全部或部分作品的数字或硬拷贝免费授予，前提是副本不是为了利润或商业利益而制作或分发的，并且副本承担此通知并在第一页上完整引用。要以其他方式进行复制，重新发布，在服务器上发布或重新分发到列表，需要事先获得特定许可和/ 或费用。

超过一个exabyte（或1018 字节），估计会成倍增长。这种趋势需要能够同等扩展的基础架构，能够索引和搜索HTML，纯

文本，音乐和图像文件等丰富内容。另一方面，点对点（P2P）系统由于其可扩展性，容错性和自组织性而迅速普及，为以低成本构建大规模信息检索（IR）系统提供了希望。 [15]。像Google这样的搜索引擎似乎可以扩展Web内容，但公众对这些系统的实际工作方式知之甚少。在本文中，我们描述了构建基于P2P技术的自组织搜索引擎的技术，它自然地继承了许多优秀的P2P属性 - 可扩展性，容错性，低维护成本等。我们系统的基本原理适用于管理良好的稳定的环境（例如，类似Google的搜索引擎，数据中心和公司）以及更具动态性的P2P环境。

虽然近年来已经提出了许多 P2P 搜索技术[16,3,20,5,22,10]，但极少数例外[6]，其中大部分基于简单的关键字匹配，忽略了高级相关性排名由IR社区通过数十年的改进和评估设计的算法[18]。如果没有有效的排名，由流行词组成的查询可能会返回超出用户处理能力的多余文档。

本文的重点是研究将经典IR算法扩展到P2P环境中的可行性。一些IR技术（例如，Google的PageRank）利用超链接来识别重要的Web页面。然而，这种交叉引用信息在许多数字内容中不存在。因此，我们将从最流行且经过充分研究的统计IR算法，向量空间模型（VSM）和潜在语义索引（LSI）[1,7]开始，它们不依赖于交叉引用信息。VSM和LSI将文档和查询表示为笛卡尔空间中的向量，并将查询和文档之间的相似性测量为它们的向量表示之间的角度的余弦。根据[28,18,13]，VSM和LSI的变体已被主要搜索引擎如Excite采用。在实践中，组合各种IR技术以构建实用的搜索引擎。关于其他技术（例如，PageRank）如何补充我们的方法的研究是未来工作的主题。

使搜索在现有P2P系统中困难的基本问题是，就语义而言，文档是随机分布的。给定查询，系统要么必须搜索大量节点，要么用户存在丢失相关文档的高风险。为了解决这个问题，我们引入了语义覆盖的概念，这是一种逻辑网络，其中内容围绕它们的语义进行组织，使得距离（例如，路由 -

搜索查询区域

语义空间

文献

询问

图1：在语义空间中搜索。

网络中两个文档之间的跳数与它们在语义上的不同程度成正比。文档语义是使用LSI生成的。

内容可寻址网络（CAN）[19]在笛卡尔空间上提供分布式哈希表（DHT）抽象。它们允许有效存储和检索（密钥，对象）对。对象键是笛卡尔空间中的一个点。我们使用CAN通过使用文档的语义向量（由LSI生成）作为在CAN中存储文档索引的

关键字来创建语义覆盖。图1说明了语义叠加如何使搜索受益。当LSI生成文档的语义时，每个文档都被定位为（语义）笛卡尔空间中的一个点。在语义空间中关闭的文档具有类似的内容，例如文档A和B.每个查询也可以位于该语义空间中。要查找与查询相关的文档，我们只需要将查询与以查询为中心的小区域内的文档进行比较，因为区域外文档的相关性相对较

低。通过这样做，查询的搜索空间是有效地限制并保持准确性。

语义覆盖的基本思想很简单，涉及到覆盖到CAN中物理节点的映射。然而，它因许多因素而变得复杂。（1）我们将CAN 的维度设置为等于LSI语义空间的维度，通常在50到350之间。然而，CAN的“实际”维度要低得多，因为没有足够的节点来划分高维CAN的所有尺寸。沿着这些未分区的维度，搜索空间不会减少。（2）语义向量不均匀地分布在语义空间中。从语义空间到CAN的直接映射将导致跨节点的索引的不均衡分布。

（3）由于被称为维数灾难的问题，已经表明在高维空间中限

制搜索区域是困难的[26]。

我们通过利用的属性来解决这些问题

新闻，杂志等），pSearch在搜索过程中只搜索19个节点并仅传输95.5KB数据，而pSearch和LSI返回的前15个文档的交叉点为91.7％。虽然我们的原型实现不包括近年来提出的一些IR技术，但我们的评估（见7.4节）表明pSearch具有很好的改进潜力以及先进IR技术的未来发展。

在本文的其余部分安排如下。第2节提供有关IR和CAN的背景信息。第3节概述了pSearch，并强调了主要挑战。第4至6 节描述了我们应对这些挑战的解决方案。第7 节描述了pSearch的原型和我们的实验结果。相关工作在第8节中讨论。第9节总结了论文。

背景

在pSearch中，我们使用VSM和LSI [1,7]的扩展来生成语义空间，并使用CAN [19]将节点组织成叠加层。在本节中，我们将概述这些概念，以便为我们的算法描述设置阶段。

向量空间模型（VSM）

VSM将文档和查询表示为术语向量。向量的每个元素对应于文档或查询中术语的重要性。通常使用统计术语频率*逆文档频率 * IDF）方案[1]来计算元素的权重。其背后的直觉是两个因素决定了文档中术语的重要性 - 文档中术语的频率以及术语在其他文档中的频率。如果术语出现在频率较高的文档中，则该术语很可能用于区分文档与其他文档。但是，如果该术语也出现在许多其他文件中，则其重要性应予以惩罚。

在检索操作期间，根据文档向量和查询向量之间的相似性对文档进行排序，并返回具有最高相似度的文档。相似性的常用量度是矢量之间角度的余弦。一些VSM实现将术语向量X归一化为单位长度（X = 1）以便补偿文档长度的差异。形式上，给定术语向量X =（x1，x2，...，xl）和Y

=|（| y1，y2，...，yl），它们之间的相似性在等式1中定义，其中cos（X，Y）表示矢量X和Y之间的角度的余弦。请注意，X = 1且Y = 1，因为它们已经标准化。因此，相似性

仅仅是两个向量的内积。

效率和/或存储的语义空间和交易准确性

必要时开销。利用更高的重要性

对于语义向量的低维元素，我们的滚动索引方案通过旋转语

义向量来沿着更多维度划分语义空间。我们的内容感知节点引导有助于在节点之间更均匀地分布索引。使用索引样本和最近处理的查询来指导搜索，我们的内容导向搜索算法大大减少了高维语义空间中的搜索区域。

我们已经构建了一个名为pSearch的原型P2P IR系统[24]。pSearch的工作原理是将文档表示为向量，并围绕其向量表示在网络中组织内容。虽然我们的实验专注于全文搜索，但这种方法也可以应用于搜索音乐和图像文件[9]。我们的评估表明，通过仅搜索少量节点，pSearch可以实现与集中式IR系统相当的性能。对于具有128,000个节点和528,543个文档的系统（来自

潜在语义索引（LSI）

诸如VSM之类的文字匹配方案受到文档中的同义词和噪声的影响。LSI通过使用统计推导的概念指数而不是检索术语来克服这些问题。它使用奇异值分解（SVD）[1]将高维项矢量

（从VSM计算）转换为低维语义向量，方法是将前者投影到语义子空间中。语义向量的每个元素对应于文档或查询中抽象概念的重要性。与在VSM中一样，语义向量被归一化并且使用等式1来测量它们的相似性。

设d表示语料库中的文档数，t表示词汇表中的术语数。VSM 将此语料库表示为times;d矩阵A，其条目aij表示重要性

区域坐标

0-0.5

0.5-1

0.5-0.75 0.75-1

0.5-1 0.5-1

0-0.5

0.4

0.5-1

0-0.5

0.1

0-0.5

对象键

文档索引查询

pSearch引擎

图2：二维CAN。

在文件j中的术语i。假设A的等级是r。SVD将A分解为三个矩阵的乘积，A =USigma;V t ，其中U =（u1，...，ur）是一个ttimes;r 矩阵，Sigma;= diag（ sigma;1，...，sigma;r）是一个rtimes;r对角线矩阵，并且V =（v1，...，vr）是一个dtimes;r矩阵。sigma;i是A的奇异值，sigma;1ge;sigma;2ge;. ..ge;sigma;r。

C D

图3：pSearch系统概述。

示例CAN如图2所示。覆盖中有五个节点AE。每个节点在笛卡尔空间中拥有一个区域。最初C拥有右上角的整个区域。当D加入时，C分割所拥有的区域和区域的一部分被赋予D.当D想要用密钥（0.4,0.1）检索对象时，它将请求发送给E和E将请求转发给A.

LSI通过省略除了l个最大奇异值之外的所有奇异值来近

似秩r的矩阵A和具有较低秩l的矩阵Al 。设Ul =（u1，...， ul ），Sigma;l = diag（sigma;1 ，...，sigma;l ），Vl = （v1 ，...， vl）。

psearch系统概述

在pSearch中，大量机器被组织成一个

mantic overlay提供

全文共7453字，剩余内容已隐藏，支付完成后下载完整资料

资料编号：[1650]

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

以上是毕业论文外文翻译，课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

使用自组织语义覆盖网络进行点对点信息检索外文翻译资料

摘要

类别和主题描述符

一般条款

关键词

介绍

图1：在语义空间中搜索。

背景

向量空间模型（VSM）

潜在语义索引（LSI）

图2：二维CAN。

图3：pSearch系统概述。

psearch系统概述

您可能感兴趣的文章

登录

摘要

类别和主题描述符

一般条款

关键词

介绍

图1：在语义空间中搜索。

背景

向量空间模型（VSM）

潜在语义索引（LSI）

图2：二维CAN。

图3：pSearch系统概述。

psearch系统概述

您可能感兴趣的文章