英语原文共 14 页,剩余内容已隐藏,支付完成后下载完整资料
帕累托前沿作业执行和在混合云中数据传输时间
Javid Taheri ,Albert Y. Zomaya ,Howard Jay Siegel, Zahir Tari
摘要
本文提出了一种解决方案,计算帕累托前沿的工作执行和在混合云中数据传输时间。基于云应用程序的性质,认为工作需要很多来自公共或私有云的数据文件。例如,基因探针可以用来识别各种感染的药物,如细菌,病毒等。一个病人的DNA(私人数据)与正常序列(公共数据)和不同的数据大小的繁重计算任务是这个过程的关键。这种文件具有不同的特性,这取决于它们的性质,并且可以被允许复制或不在云中。文件可能大到复制(大数据),其他人可能是小到足以复制,但它们不能被复制,因为它们包含敏感信息(私人数据)。展示工作以及它们需要的数据在混合云所需的传输时间与执行时间之间的关系,我们这个问题的第一个模型是一个双目标优化问题,然后提出了一种粒子群优化(PSO)算法,这里称为PSO-ParFnt,找到相关的帕累托前沿。研究表明:是有发展前景的,并为这个复杂的问题提供新的答案。
关键词:大数据;私有数据;云爆发;粒子群算法;帕累托前沿
1.绪论
云计算是一种面向服务的计算模式,具有明显的革命性的计算。通过它的许多服务:基础设施即服务(IaaS)、平台即服务(PaaS),和软件即服务(SaaS)以及一些对最近添加的数据库服务和存储作为服务。大量的应用领域有杠杆等服务,提供各种基于云的解决方案。由于这样的转变,和传统的网格或集群系统相比,数据已经产生,并消耗在高得多的速度。可扩展的作业调度和数据库管理系统为中央处理器密集型工作负载,以及数据密集型应用程序,从而成为当前云基础设施的一个重要组成部分。
大数据是另一个原因,为什么许多计算必须进行外部对一个人的私有云。虽然大数据的定义还没有完全统一,但它始终是一个用来描述大量的非结构化或半结构化的数据,通常在百万兆字节秩序和超越,从一个或多个源创建。大数据的定义通常是使用下面的“4-Vrsquo;s”:量、品种、速度、和变异。体积指的是大的数据量;多样性是指一个由许多来源组成的数据集,而这可能是非结构化的;速度指的是数据速率变化的过程;而变异性指的是,有时它几乎是不可能预测明天的信息价值。所有这些都意味着,计算必须通常执行的数据所在的地方,数据量也进一步限制了它的大数据,有时没有复制策略。然而,从安全的角度来看,组织可能仍然决定复制大数据对他们的私有云进行进一步的分析,因为他们可能无法容忍这种大规模的传输从公共云到其私人基础设施的延误。
从调度的角度来看,提供解决方案,考虑所有上述的限制(即安全的私人数据和大数据的大小),并有效地执行批处理的混合动力(私有云)云是远远超过原来的数据依赖的作业调度问题的网格。事实上,这样的解决方案必须考虑的数据文件,除了在调度决策的云计算能力,但也有一些非常大的数据文件在一个系统的隐私和不寻常的大小。由于在处理复杂的限制,这些额外的困难,最简单的解决方案是,提出了许多这样的混合动力系统的调度程序通常是过度简化生产速度最快。
仔细的检查许多已经提出的调度后,我们发现没有适当的调查是有史以来混合云发现工作和需要交付的转移时间的执行时间之间的相互关系进行(缓存或复制)自己所需要的数据,当数据规模较大。网格之前的调查表明,这两个目标往往互相矛盾,最大限度地减少通常导致损害其他。对于前充足的,最大限度地减少了作业的执行时间,需要调度作业的云计算核心,而最大限度地减少数据传输时间需要调度工作的云,所需的数据已驻留。
我们还意识到,大多数这样的技术通常是量身定制的,无论是最大限度地减少工作的执行时间,或在一个系统中的所有数据文件的传输时间,同时考虑这两个例外。我们也意识到这是不可能测量的真实表现这样的算法迁移到云时,不知道他们的最优(无论是理论或计算)调度方案。PSO-ParFnt技术是我们设计来解决这个问题,因为它的设计计算找到混合云的帕累托前沿,揭示在不同的情况下不同的算法的性能。所有的程序可能需要云的一些或全部的过程,爆破可以直接从PSO-ParFnt结果利于平衡他们的工作和必须转移到从云数据量的执行时间。天文学的应用如蒙太奇,如DNA序列的生物信息学中的应用,和气候应用建模是与自然界的许多应用中。
本文提出了一种方法来模拟这种复杂的关系,并分析其权衡。为此,我们首先的问题建模为一个双目标优化问题,然后使用我们提出的粒子群优化(PSO)计算的权衡帕累托前沿方法。帕累托方面的情况下,我们的案例研究,然后与几个已经提出的混合调度算法验证我们的计算帕累托前沿的质量,和验证了几个已经提出的解决方案,通过测量距离计算的帕累托方面的质量。
这项工作安排如下,第2节强调了相关工作之后,所提出的方法在第3节。第4节详细说明帕累托前计算的解决方案。第5节概述仿真设置和细节的模拟研究的结果。第6节分析结果,并总结了重要的结果。最后,第7节总结我们的工作,并强调未来的研究方向。
2.相关的工作
本文的工作是密切相关的云计算的三个主要方面:大数据传输的复杂性,数据隐私,和调度数据相关的工作在混合云。由于全面的文献回顾,为每一个这些主题超出了这项研究的范围,我们提供了足够的细节,在每一个方面,涉及直接相关的问题,我们提出的解决方案。
大数据:信息技术、大数据由数据集,通常生长过大,成为复杂的处理利用现有的数据库管理工具;捕获、存储、搜索、共享、分析和可视化是其中一些众所周知的问题。尽管面临许多挑战,大数据合并的趋势仍然在继续,因为它有可能提供更深入的分析,以检测业务趋势,预防疾病,打击犯罪,和其他人。数据集是不断增长的规模,因为它们通常来自各种来源,如无处不在的信息传感移动设备,航空遥感技术(遥感),软件日志,摄像头,麦克风,无线射频识别器,无线传感器网络。其结果是,世界上的技术存储信息的能力大约每40个月翻一番。随着这种趋势,数据库的要求也大大不同于一个组织到另一个组织。Greenplum 是这样的数据库,重点是提供非常快速的数据加载到其他应用程序的一个例子。从概念上显示了不同的数据文件系统如何根据它们的结构和缩放能力进行分类。随着容量需求的增加,在扩大规模的存储系统,磁盘的后面增加一个已经存在的存储控制器;向外扩展系统,完整的存储元素添加到系统中。松散的结构和规模的架构是必不可少的,并有利于大数据的举措。
私人数据:富士通在十月进行了一项全球调查,在2010研究消费者的态度和对他们的个人数据在云中的关注。调查显示,尽管消费者对云计算产生的机会感到兴奋和好奇,但他们也对数据隐私和共享数据的风险深表关注。有了正确地定义为“个人数据”在云法律研究。至于是否包含匿名的,加密的数据库仍然是严重的问题,和零散的数据传输或存储仍应被视为“担保的非盈利的”。由于这一点,许多服务供应商,如金融机构,更不喜欢使用云爆发的风险,对他们的数据造成不稳定的安全性。
数据感知的作业调度:对于文件依赖性,特别是数据密集型的工作,调度不仅涉及计算问题,而且还需要数据管理来访问所需的数据文件。数据复制技术已经存在了许多年,例如,以方便可访问性的工作数据。当然,云也可以从有效算法的使用效益管理数据在突发或匿名计算时计算在公有云私有。由于网格和云有许多潜在的概念,许多算法在网格中复制数据,可以很容易地扩展到云中的工作。
六个主要类别的副本策略,提出了在文献可以很容易地部署云,它们是,(1)没有复制,(2)最好的客户端,(3)级联,(4)普通高速缓存,(5)缓存加级联,和(6)快速蔓延。在没有复制策略时,数据文件不被复制或缓存,它们总是被下载后重新寻找。在最好的客户端策略中,数据文件被复制在存储节点上,该节点具有最高的文件请求数。在级联中,一旦在特定的时间间隔中超过某个阈值的数据文件,它被复制到最好的客户存储。在普通的缓存中,每一个客户端请求一个文件也存储它的副本。在缓存加级联,纯缓存和级联同时执行。在快速传播,数据文件是主动复制的存储节点和客户端之间的路径。同时,一些技术已经被提出,不仅复制数据也安排工作网格节点;以下四类算法已经确定:(1)JobRandom,(2)JobLeast-Loaded,(3)JobDataPresent,(4)JobLocally。在JobRandom,工作是随机分布在计算节点。在JobLeast-Loaded,工作计划用最少的队列长度的节点;即,随着工作等待运行数量最少。在JobDataPresent,工作计划或者已经有了所需的数据节点或可以下载他们在与别人的比较快。在JobLocally,每个工作都是运行在集群的地方提出要下载的数据量。
在此基础上,下面的调度系统是可能的最全面的网格/云的调度,并且建立工作分配和复制数据文件。数据密集型和网络感知(戴安娜)调度是作为基于真实的吉尔达和网格系统CMS。在这种方法中,工作首先被评估,以确定其执行类别。对于数据密集型的应用,工作迁移到计算节点(中枢神经系统)的最小访问时间(下载),他们所需的数据文件。对于计算密集型的工作,另一方面,数据文件迁移/复制到存储节点(SNS)与最小接入(上传)的时间依赖的工作。在这两种情况下,决策是基于:(1)容量的SNS,(2)速度和中枢神经系统/处理器的计算机的数量,及(3)网络连接的SNS和中枢神经系统。BestMap ,使用两个替代机制来迭代减少作业的执行时间,和减少通过复制所有数据文件的交货时间。与戴安娜不同的是,BestMap不分类的工作,但总是试图和最适合的CN或锡安排工作或复制相关的数据文件在每一阶段。JDS-BC 是解决上述问题的一种启发式方法。JDS-BC使用的信息已经预定的工作,或复制数据文件的决策调度或复制当前工作或数据文件。JDS-BC,这是基于蜂群优化技术、模型工作的蜜蜂和中枢神经系统的蜂巢。在这里,在安排任何工作,计划工作报告其收到的“benefit”从一个给定的配置。这样的好处是这样设计的,同时平衡调度作业执行时间和降低所有数据文件的整体交付时间。变色龙,也被称为触发器,目标的中枢神经系统,可以开始执行直接去工作;即,它总是将工作到中枢神经系统,可以开始执行他们比别人更快。虽然变色龙/触发器最初不调度过程中考虑数据文件的下载时间,它总是复制数据文件时的调度工作提供更快的上传时间他们。
图1,定位为大数据时代的数据库
3.准备工作
本节总结了一些初步的信息,以更好地解释我们的方法。我们首先在数学上定义了所述的双目标优化问题。这是一个解释的粒子群优化技术之前,详细说明我们如何使用它在我们的方法。最后,帕累托前沿曲线的数学定义。
3.1框架
在这项工作中,我们试图将尽可能多的功能,从以前的方法和设计的临提出的框架组成的异质性:(1)私有云,(2)公共云存储云,(3)存储云,(4)互连网络,(5)调度,(6)用户,(7)工作,(8)数据文件。私有云被认为是独立的,不共享信息,每一个私有云有足够的计算能力和存储能力来执行本地的工作,并存储它的私人数据。公共云计算和存储能力,可以使用私有云计算出来的计算。私有云还可以将数据复制到公有云,以提高对数据的访问。存储云没有计算能力,只能提供数据的公共/私有云。
3.2问题陈述
数据感知的调度(DAJS),灵感来自电网,是一个双目标优化问题被定义为分配工作的CCS和复制数据文件的同时尽量减少工作的整体执行时间以及所有数据文件的传输时间依赖的工作 。因为这两者的目标通常是独立的,在许多情况下甚至是相互冲突的,最大限度地减少一个目标通常会导致其他的结果。例如,实现较低的执行时间需要调度工作的云与更自由的核心,而实现较低的传输时间要求使用链接在一个系统中的更高的带宽。其他类似的方法,我们也认为,如果在CC的几项工作,需要相同的数据文件,数据文件的请求将被下载一次,然后存储在本地存储(缓存)为进一步的要求。
3.3粒子群优化算法
粒子群优化算法是一个最著名的自然激发技术,找到最佳的解决方案的复杂问题。粒子群优化算法源于以下2个概念:(1)群智能通常观察到的人口为基础的动物,如鸟类,以实现全球利益,如寻找食物来源;(2)进化计算几个解决方案相结合,以产生更高质量的。在粒子群算法,多解(粒子)的一个给定的问题通常是随机生成的初始化的“swarm”;然后,逐次迭代粒子群,努力提高自己的素质走向更好的颗粒/解决方案已经发现或者其他粒子。
图2.帕累托前沿曲线
4.粒子群优化算法寻找DAJS的帕累托前沿
4.1概述
本节提供了算法的细节,即粒子群优化算法,为一批数据相关的工作与自己所需要的数据在混合云的迁移时间的执行时间到帕累托面前。因为原始PSO算法优化设计的一个目标,我们认真的修改,使其适合我们的具体需求来解决双目标DAJS问题。同时,获得分布均匀的帕累托前沿在我们DAJS问题目标,我们设计了几个群共同探讨帕累托前沿曲线的不同部分。每个群独立工作,并定期交换粒子与其他群。一个DAJS问题的帕累托前沿是基于所有粒子的工会所有群的计算。
4.2随机生成的颗粒
要初始化群,我们首先需要设计粒子能够代表所有可能的解决方案的问题。在粒子群优化算法,每个颗粒由两部分工作和数据文件。第一部分是代表每个作业必须执行的地方;第二部分确定每个数据文件的副本位置。
4.3群
由于问题的复杂性,我们决定设计几个群协同工作,寻找所需的帕累托前。我们进行的各种实验表明具有多个不拥挤的群与个人的目标是比一个单一的拥挤的人找到帕累托上述DAJS前沿。这些实验也表明为表示DAJS问题特别是单群可不均匀地探索所需的帕累托前面的所有部分。因此,我们观察到,大多数颗粒团聚体针对特定地区的帕累托前沿,而其他部分被严厉地忽视。
图3.PSO-ParFnt的过程
4.4 粒子群算法优化周期
执行初始化粒子群算法主要优化。在这个步骤中,这是重复的一个预定义的迭代次数,颗粒的所有群的第一个,然后用来寻找帕累托前面。组合的
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[153789],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。