英语原文共 36 页,剩余内容已隐藏,支付完成后下载完整资料
最大化双色反近邻研究的新方法
摘要:最大化双色反近邻(MaxBRNN)是双色反近邻(BRNN)的一种变体,其目的是找寻一个最佳位置将双色反近邻的范围最大化。这个难题有许多现实应用比如预估位置和基于轮廓的销售。最出名的最大化双色反近邻的算法是最大化重叠。在这篇文章中,我们研究最大化双色反近邻问题并且提出当使用欧几里得距离时,一个名为最大化分割的方法适用于两个空间范围,然后,我们将这个算法扩展应用于最大化双色反近邻问题的变形,比如,别的度量空间下以及三维空间下的双色最大化反近邻。最后,我们在真实和人为的数据集下进行实验来比较提出的算法和现存的算法。这个实验结果可以来查证我们提出的算法的有效性。
关键词:空间数据研究,反近邻,双色反近邻
- 介绍
近邻搜寻【18】对于给定的查询点中可以找到就其他点而言更近的数据空间中的数据点,反近邻搜素找到并将查询点作为最邻近的点。反近邻搜索是由科恩 [13,14]等人提出的,并且在数据库集中已经进行了广泛的研究,反近邻搜索有两种类型【13】,单色和双色反近邻。在单色反近邻的情况下,所有的点都是相同的类型。已知查询点p,如果不存在另一个数据对象orsquo;,使得|o, orsquo;| lt; |o, p|(|.|表示距离),那么点o被认为是点p的反近邻。在双色反近邻的情况下,有两种不同类型的点集O和P,点oisin;O是点pisin;P的反近邻,如果不存在别的点prsquo;isin;P,使得|o, prsquo;| lt; |o, p|,那么O中所有的点都对应是P中点的反近邻,这个称为双色反近邻。
假设点集O和P分别对应一组客户和一组便利店,假设客户更乐意根据距离去一家便利店,图1a显示了两个商店的空间位置:p1和p2,以及五个客户:o1,o2,o3,o4,o5,然后我们就有,双色反近邻(p1, P) = {o1, o2, o3} 和双色反近邻(p2, P) = {o4, o5}。
假设我们想要建立一个新的便利店p3,我们该如何确定p3的位置?直观的说,p3可以放置在不同的位置,比如图一的b,c,d。在图1b中,有双色反近邻(p3, P) = {o1, o2, o3},图1c中,有双色反近邻(p3, P) = {o1, o2, o3, o4, o5},图1d中,有双色反近邻(p3, P) ={o1, o2, o3, o4, o5}。基于顾客会依据距离去便利店的假设,p3中最大的双色反近邻意味着我们可以吸引最大的顾客数量。因此,p3在图1c,d中是有竞争力的,他们是在空间中特殊的点/位置。一般来说我们可以用一个区域来代替一些特殊的点,为建立新的便利店而寻找一个区域,这种问题被称为最大双色反近邻(MaxBRNN) [26]。在MaxBRNN问题中[26,27] ,我们假设在欧几里德空间,O和P中所有点都有一个特定的位置。如果在P中添加新的点p,MaxBRNN问题就是要找到像R这样的最大区域,使得p被放置到R中时,p的双色反距离最大。
最大化双色反近邻是双色反近邻的变体,在BRNN搜索中存在的大量应用程序同样适用于MaxBRNN搜索,比如两个很传统的例子:预估位置和基于轮廓的销售 [33,40],图1c中的例子可以被看作是新便利店的位置规划应用程序,是一种需要尽可能多吸引客户的服务。在[26,27]中反映的MaxBRNN问题,也适用于其他紧急应用,比如自然灾害,突发事件,军事应用。
对于MaxBRNN问题,存在两种解决方案,其一为[4],这个解的时间复杂度是指数级的,另一个解决方案是最大化重叠,显示于[26],就目前所掌握的来看,最大化重叠算法[26]是该问题的最佳解决方案。最大化重叠算法的关键思想如下。最大化重叠找到使用NLC的最佳区域,最优区域可由多个NLC交点表示,最大化重叠是MaxBRNN问题的第一种多项式时间算法。最大化重叠的时间复杂度是O(|O|log|P| m2|O| m|O|log|O|),其中m是整数并且表示最多可能相交的NLC数。
我们观察到的运行时间和存储成本的最大重叠算法在某些情况下变大。例如,在实验中,当| O | = 180K,| P | = 360k,和M的值大约是2000时,最大重叠算法需要超过1小时 (大约4500秒)。然而,在一些急救应用如在中国地震,我们经常需要为maxbrnn搜索迅速地供应/服务快速响应救援或救济工作中心。另一方面,在许多移动应用程序中,我们经常只有在移动设备如iPhone和PDA运行maxbrnn有限记忆搜索。出于这样的应用,我们的目标是实现更高效的maxbrnn搜索,这将需要较小的执行时间和存储空间。在本文中,我们提出了一个新的方法为maxbrnn搜索maxsegment。我们提出的方法不仅可以 加快maxbrnn搜索也减少了maxbrnn搜索存储成本。
具体来说,我们提出了一个高效的算法,其时间复杂度为maxsegment 优于maxoverlap。在本文中,我们证明了运行时间复杂度。该maxsegment算法是O(| O |log| P | M | O | log m | O |log| O |)。这种算法的有效性的主要原因是我们变换了最优区域。搜索问题的二维空间在一维空间的搜索空间是比搜索空间明显缩小最优区间搜索问题二维空间。转换后,我们可以使用平面扫掠法。有效地找到最优区间。最后,可以利用最优区间找到 原二维空间中的最优区域。
此外,对maxsegment存储比maxoverlap小得多,因为maxoverlap需要存储一个笨重的重叠表占用O(| O | m)空间,但maxsegment不。在本文中,我们表明了maxsegment算法的存储成本O(| RP | M)在Rp表示R *储存成本为点集和P. The树[ 1 ] main storage cost of the MaxSegment algorithm is to store R*-tree for point sets O and P. 我们的贡献可概括如下。(1)为maxbrnn问题提出了一种新的算法被称为maxsegment 使用L2范数的二维空间的maxsegment算法比较在算法的运行时间和存储方面的maxoverlap算法效率成本高。(2)我们还为maxsegment算法进行扩展。第一个扩展是扩大我们的maxsegment算法等maxbrnn问题。第二延伸是延长maxsegment算法其他度量空间。第三个扩展是扩大我们的maxsegment算法的三维数据空间。所有扩展算法类似的算法框架的基本maxsegment算法发展原始maxbrnn问题。(3)我们进行了实验比较maxsegment算法与著名的真实和合成数据集上的maxoverlap算法。实验结果表明我们提出的方法的效率。
本文的其余部分组织如下。第2节回顾相关工作。第3节给出了问题定义,包括一些基本概念和现有算法分析。第4节描述了我们所提出的算法在二维空间的时候maxsegment 使用L2范数。第5节提出了我们的扩展算法的一些变化maxbrnn问题。第6节通过与算法的比较,对算法进行了评估。现有著名的算法maxoverlap真实和合成数据集上的。第7节总结了本文的未来工作。
2相关工作
BRNN搜索最初是在[ 13 ]提出并已在空间数据库中进行了广泛的研究。不同于在搜索[ 15,20,22,32 ]现有的研究中,MaxBRNN发现一个最佳区域不只是一个点。由于一个最优区域可能包含无穷数点,如何表示和找到这样一个最佳区域是一个具有挑战性的 maxbrnn问题。类似的,对L2空间的MaxBRNN问题研究于[ 4 ]提出了指数时间复杂度的解。一个扩展版本[ 4 ]在[ 3 ]中出现了类似的结果。此外,[ 9 ]中的算法找到一个最优解。 位置代替L1范数空间的最优区域。最著名的解决方案的maxbrnn问题是在运行时间方面的maxoverlap算法[ 26 ]。在一些情况下,该maxoverlap算法比[ 4 ]算法快100000倍。一些新的结果,如对maxoverlap算法在三维空间的延伸,是[ 27 ]提议的[ 26 ]的扩展版本。 在本文中,基于maxoverlap算法,提出了一种改进的方法为maxbrnn问题maxsegment。不同于maxoverlap算法,这将maxbrnn问题转化为一个点的搜索问题,maxsegment算法 将maxbrnn问题转化为最优圆弧搜索问题。如图所示,算法在某些情况下,实验的maxsegment算法比MaxOverlap快60倍以上。特别是,在合成数据集| O | = 180K,|P| = 360K,maxsegment算法的运行时间约为70 s,maxoverlap算法约4500s,maxsegment算法比maxoverlap算法的存储成本也明显变小。特别是,在上面描述的相同的合成数据集中, 对maxoverlap存储到maxsegment存储的比例大约是3。
如图所示5.1maxbrknn的问题,这是一个变化的MaxBRNN问题,考虑k近邻而不是客户点最近的邻居。在maxbrknn问题,我们假设每个客户(顾客)有相同点访问k最近的服务器点(便利店)的概率。最近,作者们[ 39 ]研究了广义maxbrnn问题在客户端点可能有不同的概率来访问不同的服务器,同时一个服务器点假设有不同的客户点目标集。
类似的最优位置搜索问题也在[ 5 ]和[ 35 ]张等中进行了研究。[ 35 ]提出了最小距离最优位置查询,找到一个位置,最大限度地减少建立新站点时,在这个位置从每个客户点到最近服务器点的平均距离。红衣主教和郎耳满[ 5 ]提出寻找新的服务器站点的位置, 这个位置可以最小化这个新服务器站点和任何服务器之间的最大距离。客户点与这些问题不同的是,我们的问题是寻找一个最优的区域而不是一个位置。
还有其他相关的研究耀等人。[ 34 ]研究反向近邻图.在[ 28 ]中,空间匹配考虑如何有效地分配每个客户(即客户机指向)其/最近的服务器提供者(即服务器点),其相应的容量为 它能提供的最大客户数。廉和陈[ 16 ]提出了一些处理不确定数据下概率反向最近邻查询技术。康等[ 11 ]和stanoi等人[ 19 ]研究动态数据库中的反向最近邻查询。陶等人[23.24]研究反向最近邻搜索度量空间中任意维。夏和张[ 31 ]吴等人[29,30 ]等[7,8]Emrich等人[ 10 ] 连续反向最近邻搜索的监控问题研究。这些问题重点研究不同场景下的空间搜索,如图形数据、不确定数据和动态数据。与这些工作不同,我们的问题适用于静态数据。此外,张和 阿尔哈伊[36,37]研究的相似性搜索和反向最近邻查询在高维的度量空间。在[ 25,38 ],对k-reverse近邻的概念也用数据聚类。基于位置的搜索服务[ 12,21 ]也和我们的问题有关。
3问题的定义
3.1基本概念
我们给出了两种不同类型的点集o(客户端点集)和P(服务器点集)。每个 O和p的点在欧氏空间D中有一个特定的位置(例如,便利店)。在图1中。每个客户oisin; O点与体重有关,w(O),指一个区域的客户数定义为D空间中的任意形状。也可以看作是空间中的一组点。我们说一个区域r覆盖另一个区域。区域r如果区域r中的每个点出现在r区域,同样地,我们说一个区域r,如果曲线/直线上的每一点都出现在区域r中,则覆盖曲线/直线。
定义3.1,一个区域R如果以下条件成立:forall;P,Prsquo;isin;R,P,Prsquo;notin;P,BRNN(P,Pcup;{ p }) =BRNNcup;{ prsquo;,Pcup;{ p })。
定义3.2给出一个一致的区域r,r的影响值被表示为i(r),i(r)=sum;Oisin;brnn_r(R)W(O),brnn_r(R)=brnn(P,Pcup;{ p }),在p表示r中任意新的服务器点时。
定义3.3给出一个一致的区域r,我们说R是一个极大一致区域,如果不存在另一个一致的区域r满足以下条件:(1)R sub; Rrsquo;(2)brnn_r(R)= brnn_r(Rrsquo;)。
定义3.4给定一组P的服务器分一组客户点的maxbrnn问题是找到最大一致区域r,如果设置了一个新的服务器点p在r中,r的影响值最大化。
在图2a中,R1、R2和R3是三个不同的区域。在图2b中,R1是一致的。 因为R1区任何新的点如P3都具有相同的应用服务器上设置。明确地,brnn_r(R1)= { O1、O2、O3、O4、O5 }。类似地,如图2C所示,R2是一致的。因为在R2任何新的服务器点区域如P4具有相同的应用设置。明确地,brnn_r(R2)= { O1、O2、O3、O4、O5 }。如图2b,D所示,P3和P5在区R3和他们有不同的应用设置。P5的应用是{ O1,O2,O3 }和BRNN P3 { O1、O2、O3、O4、O5 }。因此R3不是一致的区域。在图2a中,因为R1在内部 R2不是最大一致区域。如果没有其
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[24608],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。
您可能感兴趣的文章
- GIS矢量地图的鲁棒水印方案外文翻译资料
- 中国相似地理位置发达地区房价影响因素的差异——以西安高新区和沣渭新区为例外文翻译资料
- 集成数据在城市土地利用变化时空动态监测的应用——以印度金奈都市为例外文翻译资料
- 全球地表水及其长期变化的高分辨率制图外文翻译资料
- 造成沿海大型城市内涝灾害的主要因素识别——以中国广州为例外文翻译资料
- 基于SFPHD框架的中国快速城市化地区城市生态系统健康综合评价方法外文翻译资料
- 基于绿地演变的未来城市地表热岛强度的多情景模拟预测外文翻译资料
- 中国大陆272个城市地面和冠层城市热岛强度的长期趋势外文翻译资料
- 与孟加拉湾热带气旋有关的中国低纬度高原远距离降雨事件外文翻译资料
- 新丰江水库流域GPM IMERG降水产品评价及水文效用研究外文翻译资料