英语原文共 27 页,剩余内容已隐藏,支付完成后下载完整资料
在二维和三维空间,对LP范数最大化最近邻双色反向
摘要
双色反向最近邻(BRNN)已经在空间数据库文献中被广泛研究。在本文中,我们研究一个称为MaxBRNN的相关问题:找到最大化BRNNs大小的最佳区域在二维和三维空间中的L p范数。 这样的问题有许多现实生活中的应用,包括问题找到一个新的服务器点,通过邻近度尽可能多地吸引定制的客户。一个直截了当的方法是为了对于所有可能的点来决定BRNNs这些可能的点都是不可行的,因为存在大量(或无限)可能点。 就我们所知,目前还没有解决任何二维和三维L p范数空间的MaxBRNN的算法。 基于问题的一些有趣特性,我们提出了一种称为MaxOverlap的高效算法来解决这个问题。 进行扩展实验来证明我们的算法是高效的。
关键词 空间数据库 索引 反向最邻近
这是在2009年国际超大型数据库会议上发表的论文的一个扩展版本
电子补充材料
本文的在线版本(doi:10.1007 / s00778-011-0230-1)包含可供授权用户使用的补充材料。
R.C.-W. 黄(B)·L.刘
香港科技大学,
中华人民共和国香港
电子邮件:raywong@cse.ust.hk
L. Liu
M. T.Ouml;zsu
滑铁卢大学,加拿大滑铁卢大学
A.W.-C.福
香港中文大学,香港,
中华人民共和国
P. S. Yu
伊利诺伊大学芝加哥分校,美国芝加哥
电子邮件:psyu@cs.uic.edu
Y.刘
中华人民共和国广州中山大学
电子邮件:liuyubao@mail.sysu.edu.cn
- 介绍
双色反向最近邻(BRNN)搜索作为空间数据库中的重要操作符已经被广泛研究[11,12,22]。 让P和O作为同一数据空间中的两组点。 给定一个点pisin;P,BRNN查询找到
所有的点oisin;O,那些最邻近的邻居(NN)在P中最近邻的点都是p,即不存在任何其他点prsquo; isin;P使得| o,prsquo;| lt;| o,p |。 一组点o构成p的BRNN集(或简称为BRNN),用BRNN(p,P)表示.
BRNN搜索的典型应用之一是“选择最好的服务”。 例如,我们可能希望找到更愿意根据距离来参观便利店的顾客。 图1a显示了两家便利店P(即p1和p2)和五个顾客O(即o1,o2,o3,o4和o5)的空间布局。 假设我们想知道哪些顾客对便利店感兴趣。 我们得到BRNN(p1,P)= {o1,o2}和BRNN(p2,P)= {o3,o4,o5}
接下来,考虑建立一个新的便利店p3,并且该公司试图找到一个位置来最大限度地提高将要去那里的顾客数量。假设p3设置在如图1b所示的位置。 然后,p3可以吸引两个客户,即o1和o2,它们构成p3的BRNN。 但是,假设p3的设置如图1c所示。 五个客户,即o1,o2,o3,o4和o5,在p3的BRNN中。 换句话说,p3的不同位置给了对p3感兴趣的客户的不同数量。 在这种情况下,图1c中p3的放置比图1b好。 公司应该更好地设置便利店p3,如图1c所示,而不是图1b中的位置。 问题是如何找到一个最佳位置来吸引最多的顾客.
上述问题可以表述如下:我们区分两组点O和P,其中O是客户点集合,P是服务器点集合。 所有点都在欧几里德空间中具有特定的位置。 如果一个新的点p被添加到P中,我们想要找到一个最大限度地增大p的BRNN大小的区域R(或区域)。 我们称这个问题为Max-BRNN。 MaxBRNN可以被认为是最佳的区域搜索问题。 在便利店的例子中,P对应于便利店集合,O对应于客户设置。 MaxBRNN查找区域R(或区域),使得如果在R中设置了新的便利店p,则p的BRNN的大小是最大化的。 请注意,区域R中不同位置的p具有相同的BRNN。 例如,假设R是最佳区域。 如果如图1c所示的p3的位置,d在R中,则它们具有相同的BRNN。
MaxBRNN也可以应用于传统的BRNN应用[12]。 服务地点规划问题和基于简介的营销是两个例子。 我们的有动力的范例是服务位置规划问题,其中便利店被视为服务,目标是找到一个地点开一个新的便利店,可以吸引尽可能多的顾客。 其他服务地点规划应用可能会设置咖啡店,快餐店,银行ATM,加油站和无线路由器。
BRNN上的大多数现有作品都侧重于找到给定点p的BRNN。 这些技术对MaxBRNN的天真适应可以找到所有可能的布局的BRNN。 但是,这种适应是不可行的,因为数据空间中存在大量(或无限)数量的布局。 此外,它不能概括客户感兴趣的区域。当每个点具有相同的BRNN集合时MaxBRNN返回单个区域,。 然而,天真的改编会返回很多具有相同BRNN集的点(在相应的地区)。由于不同点的输出(即BRNN集合)相同,在这种适应中的计算涉及很多冗余操作。
对于二维欧氏空间的L2范数,没有有效的MaxBRNN算法。 只有一个与我们密切相关的工作[4],它解决了二维空间中L2范数的MaxBRNN,并给出了一个运算时间为O()其中gamma;(| O |)是| O |上的函数 并且是Omega;(| O |)。 由于运行时间在| O |方面是指数函数,因此该算法在数据集大小方面不具可扩展性。
除日常应用外,MaxBRNN还适用于某些紧急时间表(例如自然灾害,突发性重大事件和军事应用)。 在像中国大地震等大规模自然灾害中,安置救援或救援工作的供应/服务中心非常重要。 在像美国总统竞选这样的重大事件,为了安全布置警力也很重要。 在军事应用中,为气体和食物设置一些临时仓库至关重要。 这些应用涉及道路网络或物理运输距离,因此根据情况,空间可以是二维的或三维的,并且可以在L1范数,L2范数,或其他度量空间中选择。
空间数据库文献中使用了不同的度量标准。 一个流行的是L2范数,我们用它来说明我们的问题。 但是,可能在其他度量空间发现有用的应用程序。 特别是,特别是,已经使用了不同次序的Minkowski或L p-norm度量。 其中,L1和L2规范可能是空间数据库中最重要的指标[17]。 据我们所知,没有任何算法可以用其他Mindowski度量来解决MaxBRNN。
在基于简历的营销[12]中,一家公司希望建立一项新的服务,如汽车销售或股票销售服务,同样,它希望最大限度地增加对此服务感兴趣的客户数量。 在这里,每个客户端点都被视为客户端首选项,而每个服务器点被视为服务。 在汽车应用中,有如下一些数据
- 一辆汽车的乘客座位数(2)汽车的发动机容量(3)货量。在股票应用程序中,维度可以是股票的不同合适股票,例如回报,波动率和每日周转率。由于汽车通常会有多个维度,因此这个问题将涉及n维度量空间。在n维空间中还有其他应用程序,其中nge;1。另一个这样的应用程序是文档储存库,其中每个客户端点是 由给定作者写的文档,而每个服务器点是由其他作者编写的文档。 在这个应用程序中,一些作者想编写一个可以吸引其他作者关注的文档(由于类似的主题兴趣)。在信息检索(IR)领域,文档通常被视为包含许多特征属性的高维向量。 某些要素属性可以是主题相关性的不同级别,例如“空间数据库”,“图形查询”和“隐私”。 在IR中研究的相似性度量也基于距离函数。 因此,我们注意到有一些重要的应用可以受益于MaxBRNN在不同度量空间和n维空间中的应用nge;1。据我们所知,在三维空间中没有研究MaxBRNN的作品。
在 本文中,我们要解决这三个问题。 我们提出了一种称为MaxOverlap的替代算法,该算法在1阶或更高阶的任意Minkowski度量中求解MaxBRNN,并且在最大已知算法的L2范数空间中更有效地求解MaxBRNN。 MaxOver -lap找到在可以考虑k的L2范数空间中给出O()时间的BRNN最大尺寸的区域 作为比| O |小得多的整数。 与上述算法[4]相比,我们的算法效率更高
直观地说,MaxOverlap更高效,因为它利用了区域到点转换的原理。它将最优区域搜索问题转化为最优点搜索问题。在点搜索问题中,MaxOverlap不是搜索空间中所有可能的点,而是可以搜索有限数量的点并有效找到最佳点。最后,它可以将它找到的最优点映射到原始问题中的最优区域。由于点搜索问题中考虑的点数总数有限(更具体而言,最多为2k | O |)区域搜索问题中区域的数量在| O |方面是满意的,MaxOverlap比现有算法[4](它主要依赖于区域)更有效率。我们的实验结果表明,MaxOverlap比指数时间算法对250个元组的数据集执行速度快1,000,000倍。我们的算法在0.1秒内运行,但指数时间算法在该数据集上运行超过1天。
我们还扩展MaxOverlap来处理三维空间,并证明它和处理二维空间一样处理他们。 这是第一次尝试解决ngt; 2的更为普遍的n维空间问题。但是,如何解决ngt; 3的问题留待将来工作。
本文的其余部分安排如下。 第2节在二维空间中给出了L2范数的MaxBRNN问题。 第3节描述了这个问题的算法MaxOverlap并分析了它的性能。 第4节和第5节描述了MaxOverlap如何扩展到一阶或更高阶的任何Minkowski度量以及三维空间。 第6部分通过对实际数据进行大量实验来评估所提出的技术。 第7部分回顾了以前的工作,并与我们的建议进行了比较。 第8节总结了该文件的未来工作方向。
2问题定义
假设我们在空间D中有一组服务器点P(例如,图1a中的便利店)。 我们在同一个空间还有另外一组客户点。 我们用| p,o |来表示D中pisin;P和oisin;O之间的距离函数。 在本文中,我们正在研究的距离函数是一个度量(即它满足三角不等式)。 在下文中,为了说明起见,我们首先假设度量是L2-范数度量,并且要考虑的维度是2.在Sects中。 在图4和图5中,我们分别讨论对任何度量空间和三维空间的扩展。
每个客户点o是与权重w(o)相关联的不同位置,其对应于位置o处的客户端的数量。 例如,o是住宅地产,w(o)是该地产的客户总数。 将wmax =maxoisin;Ow(o)定义为客户点(或位置)处客户的最大数量。
我们将一个区域定义为空间D中的任意形状。例如,图2a显示了两个客户点的空间布局,即o1和o2,以及两个服务器点,即p1和p2。在图2a中,R1,R2和R3是三个区域
图二:具有相同双色反向最近邻的不同区域
定义一(连贯地区)如果对于任何两个可能的新服务器点p和prsquo;,区域R被认为是连贯的BRNN(p,Pcup;{p})= BRNN(prsquo;,Pcup;{prsquo;})
一致的区域R包含具有相同的双色反向最近邻的所有可能的点p。 例如,如果我们开始一个新的服务器点p,如图2b所示,BRNN(p,Pcup;{p})= {o1,o2}。 同样,开始一个新的服务器点prsquo; 在另一个位置如图2c所示有RNN(prsquo;,Pcup;{prsquo;})= {o1,o2}。 图2d显示了我们开始一个新的服务器点prsquo;rsquo; 在另一个可能的位置,并且我们有BRNN(p lsquo;rsquo;,Pcup;{p lsquo;rsquo;})= {}。
由于R1中的任何两个可能的点(例如,图2b中的p和图2c中的prsquo;)具有相同的双向反向近邻,所以R1是一个连贯的区域。 同样,R2是一个连贯的区域。 然而,R3不是一个连贯的区域,因为存在两个可能的新点p(图2b),而prsquo;rsquo; (图2d),使得BRNN(p,Pcup;{p})ne;= BRNN(p lsquo;rsquo;,Pcup;{p lsquo;rsquo;}})
因为一个连续的区域R包含所有可能的新的服务器点p具有相同的双色反向最近邻,我们将R的影响集[12]定义为R中任意可能点p的双色反向最近邻。这个集合表示所有对p感兴趣的客户点。
定义2(影响集/价值)
给定一个一致的区域R,我们定义R的影响集合,表示为BRNN-R(R),成为BRNN(p,Pcup;{p}),其中p是R内的任意可能点.R的影响值 ,表示为I(R),等同于
例如,由于R1是连贯的区域,BRNN-R(R1)= {o1,o2}。 类似地,对于另一个连续的区域R2,BRNN-R(R2)等于{o1,o2}。 当w(o1)= w(o2)= 1时,I(R1)= I(R2)= 2。
如果Rrsquo;中所有的区域都在R里面,则称R覆盖Rrsquo;。 例如,在图2a中,R2覆盖了R1
在图2a中,除了R2之外,还有其他任意的连续区域覆盖了R1。 表示所有可能的任意一致的区域是没有意义的。 因此,我们定义了如下一个最大一致的区域。
定义3(最大一致区域)当且仅当不存在另一个一致区域Rrsquo;时,一致区域R被认为是最大一致区域。 其中(1)Rrsquo;ne;R,(2)Rrsquo;覆盖R (3)BRNN-R(R)= BRNN-R(R)
在图2a中,区域R1不是最大一致区域,因为在BRNN-R(R1)= BRNN-R(R2)中存在覆盖R1的另一个一致区域R2。
在MaxBRNN中,我们希望返回最大一致区域R而不是任何
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[24604],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。
您可能感兴趣的文章
- GIS矢量地图的鲁棒水印方案外文翻译资料
- 中国相似地理位置发达地区房价影响因素的差异——以西安高新区和沣渭新区为例外文翻译资料
- 集成数据在城市土地利用变化时空动态监测的应用——以印度金奈都市为例外文翻译资料
- 全球地表水及其长期变化的高分辨率制图外文翻译资料
- 造成沿海大型城市内涝灾害的主要因素识别——以中国广州为例外文翻译资料
- 基于SFPHD框架的中国快速城市化地区城市生态系统健康综合评价方法外文翻译资料
- 基于绿地演变的未来城市地表热岛强度的多情景模拟预测外文翻译资料
- 中国大陆272个城市地面和冠层城市热岛强度的长期趋势外文翻译资料
- 与孟加拉湾热带气旋有关的中国低纬度高原远距离降雨事件外文翻译资料
- 新丰江水库流域GPM IMERG降水产品评价及水文效用研究外文翻译资料