大数据分析:调查外文翻译资料

 2022-10-27 10:54:51

英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料


大数据分析:调查

摘要

大数据时代即将到来。但传统的数据分析可能无法处理这么大的数据量。现在出现的问题是,如何开发一个高性能的平台,有效地分析大数据,以及如何设计一个合适的挖掘算法,从大数据中找到有用的东西。为了深入讨论这个问题,本文首先简要介绍了数据分析,其次是大数据分析的讨论。一些重要的开放问题和进一步的研究方向,也将为下一步的大数据分析。

关键词:大数据,数据分析,数据挖掘

绪论

随着信息技术的迅速普及,大多数数据都是在互联网上诞生的,同时也在互联网上进行交流。根据李曼和瓦里安[ 1 ]估计,存储在数字媒体设备的新数据已经超过92% 2002,而这些新的数据的大小超过五字节。事实上,分析大规模数据的问题并不是突然发生的,但是在那里已经有好几年了,因为数据的创建通常比从数据中找到有用的东西更容易。即使计算机系统比上世纪三十年代的速度要快得多,但大规模的数据还是由我们今天拥有的计算机所分析的一种应变。

针对大规模数据分析的问题,提出了一些有效的方法,如采样、数据压缩、基于密度的方法、基于网格的方法、分和征服、增量学习和分布式计算等2种方法。当然,这些方法都在不断地提高数据分析过程中的运营商的性能,其中1种方法的结果表明,在手的有效的方法,我们可以在一个合理的时间分析的大型数据。的降维方法(例如,主成分分析;主成分分析法)是一个典型的例子,旨在减少输入数据量,加快数据分析的过程。减少数据聚类的数据计算的另一种方法是采样[ 4 ],也可以用来加快数据分析的计算时间。

虽然计算机系统和互联网技术的进步,见证了穆尔定律在几十年来计算硬件的发展,但当我们进入大数据时代时,处理大规模数据的问题仍然存在。这就是为什么小鱼等。[ 5 ]指出大数据无法处理和处理的数据是最新的信息系统或方法,因为数据在大数据时代将不仅变得太大,要加载到一台机器,它也意味着最传统的数据挖掘方法或数据分析开发的集中数据分析过程可能无法直接应用到大数据。除了数据规模的问题,兰尼的[ 6 ]提出了(也叫3Vs的著名定义)来解释什么是“大数据量、速度和品种。3Vs的定义意味着,数据量大,数据会迅速的生成和数据将在多个类型的存在,被从不同的来源,分别。后来的研究[ 7 3Vs 8 ]指出,定义是不足以解释我们所面临的大数据。因此,增加了对大数据的有效性、准确性、有效性、价值、变异性、场地、词汇和模糊性,对大数据进行了补充说明。

数据输入

数据提取,数据清理,数据集成,数据转换,数据压缩算子可以被视为数据分析的预处理过程[ 20 ]试图从原始数据中提取有用的数据(也被称为主要数据)和细化,以便它们可以被用于以下数据分析。如果数据是重复的,不完整的,不一致的,嘈杂的,或异常值,那么这些操作符必须清理它们。如果数据太复杂或太大,处理不到,这些操作符也会尽量减少它们。如果原始数据有错误或遗漏,这些操作符的作用是识别它们并使它们一致。可以预期的是,这些运营商可能会影响分析的结果发现,不管是正面的还是负面的。综上所述,本系统的解决方案通常是减少数据加速KDD的计算时间的复杂性和提高分析结果的准确性。

数据分析

由于数据分析中负责从数据中发现隐藏的模式/规则/信息,在这个领域的大多数研究者使用的术语数据挖掘描述他们如何完善“地”(即原始数据)为“金块”(即,信息或知识)。数据挖掘的方法[ 20 ]不限于数据问题的具体方法。事实上,其他技术(例如,统计或机器学习技术)也被用来分析数据多年。在数据分析的早期,采用统计方法对数据进行分析,以帮助我们了解我们所面临的情况,如民意调查或电视节目收视率。类似于统计分析,数据挖掘的具体方法也试图从收集的数据中理解的含义。

在数据挖掘问题,提出了一些特定于域的算法也被开发。一个例子是Apriori算法[ 21 ]这是一个专为关联规则问题的有效算法。虽然大多数数据挖掘问题的定义是简单的,计算成本是相当高的。为了加快数据挖掘操作的响应时间,机器学习的启发式算法[ 22 ],[ 23 ]和[ 24 ],分布式计算是单独使用或与传统的数据挖掘算法为解决数据挖掘问题的更有效的方法。一个著名的组合可以在[ 25 ]发现,奎师那和Murty试图结合遗传算法和k-均值获得更好的聚类结果比k-均值本身并。

大数据分析

现在,需要分析的数据不仅是大的,但它们是由各种数据类型,甚至包括流数据[ 67 ]。大数据具有“海量、高维、异构、复杂、非结构化、不完全、有噪声、错误等”的特点,可以改变统计和数据分析方法。虽然大数据使我们能够收集更多的数据来寻找更多有用的信息,但事实是,更多的数据并不一定意味着更多有用的信息。它可能包含更多的不明确或异常的数据。例如,用户可以有多个帐户,或一个帐户可能被多个用户使用,这可能会降低采矿结果的准确性[ 69 ]。因此,一些新的问题,数据分析,如隐私,安全,存储,容错,和质量的数据[ 70 ]。

大数据可以由手持设备、社交网络、物联网、多媒体和其他许多具有体积、速度和变化特征的新应用所创建。其结果是,整个数据分析,必须重新审视从以下观点:

从成交量看––thinsp;,输入数据的泛滥是我们需要面对的是因为它可以使数据分析的第一件事。不同于传统的数据分析,对无线传感器网络数据分析,Baraniuk [ 71 ]指出,大数据分析的瓶颈将从传感器处理、通讯、传感数据的存储,如图6所示。这是因为传感器可以收集更多的数据,但当上传这样大的数据到上层系统,它可能会造成瓶颈无处不在。

此外,从速度的角度看,实时或数据流的数据带来了大量的数据,在一个短的时间内进入数据分析,但设备和系统可能无法处理这些输入数据。这种情况类似于网络流分析,我们通常无法镜像和分析我们所能收集的一切。

从品种的角度来看,因为输入的数据可以使用不同的类型或有不完整的数据,如何处理它们也带来了另一个问题,数据分析的输入运营商。

大数据输入

系统无法处理的大量数据问题不是一个全新的研究课题,事实上,它出现在一些早期的方法[ 2,21,72 ],例如,营销分析,网络流量监测,基因表达分析,天气预报,甚至天文学分析。这个问题仍然存在于大数据分析,因此,预处理是一个重要的任务,使计算机,平台和分析算法能够处理的输入数据。

大数据分析框架和平台

各种解决方案已被用于大数据分析可分为[ 82 ]为(1)处理/计算:Hadoop [ 83 ],NVIDIA CUDA [ 84 ],或推特风暴[ 85 ],(2):泰坦或HDFS存储,和(3)分析:mlpack [ 86 ]或象夫[ 87 ]。虽然存在商业产品的数据分析[ 86 - 83 ],大多数传统的数据分析的研究都集中在设计和开发的有效和/或有效的“方法”,从数据中找到有用的东西。但当我们进入大数据时代,目前大多数的计算机系统将不能够一次处理整个数据集的所有;因此,如何设计一个好的数据分析框架或平台,如何设计分析方法都是重要的事情,对于数据分析过程。在这一节中,我们将简要介绍数据分析框架和平台,然后对它们进行比较。

在框架和平台的研究

我们可以很容易地找到工具和平台,由知名组织。云计算技术被广泛应用于这些平台和框架,以满足计算能力和存储的巨大需求。如图7所示,大部分作品在KDD大数据可以被移动到云系统加快响应时间或增加存储空间。随着这些作品的推进,在一个合理的时间内处理和分析大数据已变得不那么遥远。由于基础功能来处理和管理的大数据,逐渐发展,因此,数据科学家现在不必照顾一切,从原始数据收集到数据分析,他们自己如果使用现有的平台或技术来处理和管理数据。数据科学家现在可以多关注寻找有用的信息从数据甚至认为这项任务通常是像大海捞针。这就是为什么最近的一些研究试图提出有效的和有效的框架来分析大数据,尤其是在找到有用的东西。

大数据分析方法综述

在这一部分讨论大数据分析分为输入、分析、输出映射KDD的数据分析过程。对于输入(参见“大数据输入”)和输出(见“大数据分析”)的大数据,在大数据时代提出的几种方法和解决方案(见“数据输入”)也可用于大数据分析,在大多数情况下。

然而,数据科学家需要面对的输入和输出仍然存在一些新的问题。我们提到的“大数据输入”的一个典型例子是,该瓶颈不仅将在传感器或输入设备,它也可能出现在其他地方的数据分析[ 71 ]。虽然我们可以采用传统的压缩和采样技术来处理这个问题,他们只能解决问题,而不是完全解决问题。类似的情况也存在于输出部分。虽然可以用来评估的性能的框架,平台,甚至数据挖掘算法,在大数据时代,仍然存在一些新的问题,如信息融合不同的信息来源或信息积累的不同时间。

针对具体问题的大数据分析算法挖掘算法

因为大数据的问题已经出现了近十年,在[ 106 ],风扇和BiFET指出,“大数据”[ 107 ]和“大数据挖掘”[ 108 ]的首次提出是在1998,分别。大数据和大数据挖掘几乎同时出现在同一时间解释,从大数据中发现的东西将是本研究领域的主要任务之一。数据挖掘算法在数据分析中也发挥着重要的作用,在大数据分析方面,在计算成本,内存需求,和精度的最终结果。在这一节中,我们将简要讨论从分析和搜索算法的角度来解释其重要性的大数据分析。

在大数据时代的聚类算法,传统的聚类算法将变得更加有限,因为它们通常需要所有的数据是相同的格式,并被装入相同的机器,以便找到一些有用的东西,从整个数据。虽然分析大规模和高维数据集的问题已经吸引了许多来自不同学科的研究人员在上个世纪,和几个解决方案[ 2,109 ]提出了近年来,大数据的特点仍然带来了一些新的数据聚类问题的挑战。其中,如何降低数据复杂度是大数据聚类的重要问题之一。在[ 110 ],shirkhorshidi等人。将大数据聚类分为两类:单机聚类(即采样和降维的解决方案),和多机集群(并行MapReduce解决方案)。这意味着,传统的还原性解决方案也可以使用在大数据时代,因为数据分析的过程中所需的复杂性和内存空间将减少使用采样和降维方法。更准确地说,采样可以被视为减少了数据分析的过程中输入的“量”,而降维可以被视为“精简的整个数据集”,因为不相关的尺寸将被丢弃之前的数据分析过程进行了。

机器学习的大数据挖掘

潜在的机器学习的数据分析,可以很容易地发现在早期文献[ 22,49 ]。不同的数据挖掘算法设计的具体问题,机器学习算法可以用于不同的挖掘和分析问题,因为它们通常采用“搜索”算法所需的解决方案。由于大多数机器学习算法可以用来找到一个近似的解决方案的优化问题,他们可以采用最数据分析问题,如果数据分析问题,可以制定一个优化问题。例如,遗传算法,机器学习算法之一,不仅可以用来解决聚类问题[ 25 ],它也可以用来解决频繁模式挖掘问题[ 33 ]。机器学习的潜力,不仅仅是解决KDD数据分析运营商不同的挖掘问题;它还具有提高KDD的其他部分的性能潜力,如输入操作符[ 72 ]特征约简。

最近的一项研究表明,一些传统的挖掘算法,统计方法,预处理的解决方案,甚至是图形用户界面的已应用到几个代表性的工具和平台的大数据分析。结果清楚地表明,机器学习算法将是大数据分析的重要组成部分之一。在使用当前的机器学习方法的大数据分析的问题之一是类似于那些最传统的数据挖掘算法,它是专为顺序或集中计算。然而,最可能的解决方案之一是使他们的工作进行并行计算。幸运的是,一些机器学习算法(例如,人口为基础的算法),可以基本上被用于并行计算,这已经证明了数年,如并行计算版本的遗传算法[ 122 ]。不同于传统的遗传算法,如图9a所示,岛屿模型遗传算法的种群,一个的并行遗传算法,可以分为不同的亚群,如图9b所示。这意味着亚群可以分配给不同的线程或计算机节点并行计算,通过对GA。简单的修改

结论

在本文中,我们回顾了从传统的数据分析到最近的大数据分析。从系统的角度,KDD过程作为研究框架,概括为三个部分:输入、分析、输出。从大数据分析框架和平台的角度,讨论的重点是面向性能和结果导向的问题。本文从数据挖掘问题的角度,对数据挖掘和数据挖掘算法进行了简要介绍,包括聚类、分类和频繁模式挖掘技术。为了更好地理解大数据带来的变化,本文的重点是KDD的数据分析平台/框架,数据挖掘。讨论的开放问题,最终结果,安全性和隐私,然后讨论了解释,我们可以面对的开放问题。最后但并非最不重要的是,要帮助观众找到解决方案,欢迎新时代的大数据,可能的高影响研究趋势给出如下:

为计算时间,所有的并行计算是毫无疑问是大数据做数据分析工作的重要发展趋势之一,因此云计算技术Hadoop,和地图的减少将发挥重要作用的大数据分析。处理的基于云平台的计算资源,尽可能快地完成数据分析任务,调度方法是另一个未来趋势。

使用有效的方法来减少输入,比较,计算时间采样,和各种还原的方法将大数据分析技术中发挥重要作用。由于这些方法通常不考虑并行计算环境,如何使它们在并行计算环境下工作将成为未来的研究方向。类似于输入,数据挖掘算法也面临着相同的情况,我们在前面的章节中提到,如何使他们在并行计算环境下工作将是一个非常重要的研究趋势,因为有丰富的研究结果对传统的数据挖掘算法。

如何从大数据中找到一些数据,以及如何显示我们从大数据分析中获得的知识,也将是另一个重要的未来趋势,因为这两者的研究结果将决定是否数据分析可以实际工作的现实世界的方法,而不仅仅是一个理论的东西。

从外部和相关知识资源中提取信息的方法,以进一步加强大数据分析,到现在为止,在大数据分析中不是很流行。但是,将信息从不

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[153783],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。