英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料
大数据挖掘研究
摘要:数据已经成为各个经济、行业、组织、企业、职能和个人的重要组成部分。大数据是用于识别大型数据集的一个术语,通常其大小比典型的数据库要大。大数据引入了独特的计算和统计挑战。在工程和科学的大部分领域,大数据目前都有延伸。由于大数据的数量之多、速度之快、种类之繁,所以可以使用数据挖掘,有助于从庞大的数据集中提取有用的数据。本文介绍了HACE定理,它描述了大数据革命的特征,并从数据挖掘角度提出了一个大数据处理模型。
关键词:大数据,数据挖掘,HACE定理,结构化和非结构化。
一、简介
大数据指的是大量的结构化数据和非结构化数据,这些数据遍布了整个组织。如果这些数据被正确使用,将会产生有意义的信息。大数据包括大量的数据,需要大量的实时处理。它提供了两个空间,一个用于发现新价值,并从隐藏的价值中了解深入的知识,另一个用于有效管理数据。数据库是一个与数据相关的逻辑上有组织的集合,可以方便地管理、更新和访问。数据挖掘是从数据库或其他存储库中存储的大量数据中发现有趣的知识(如关联、模式、更改、异常和重要结构)的过程。
大数据包括3V的特征。它们是大量(volume)、高速(velocity)和多样(variety)。大量意味着每秒生成的数据量。数据是静态的,它的规模特征也是众所周知的。高速是数据生成的速度。大数据应该有高速数据,社交媒体产生的数据就是一个例子。多样意味着可以采取不同类型的数据,例如音频、视频或文档。它可以是数字、图像、时间序列、数组等。
数据挖掘是广泛用于一系列科学学科和业务场景。一些值得注意的例子:管理、机器学习贝叶斯-伊恩推理、知识获得专家系统、模糊逻辑、神经网络和遗传算法。在日常业务场景的例子:包括航空公司、数据库营销面板数据的研究和创造,基于定制的贸易出版物为数百种不同的用户数据用户组。Piatetsky-Shapiro与相关学术人员在99年提供一个详细的进一步的使用领域的概述。是另一个国际米兰——毛利分析美国东部时间在数据挖掘领域的研究。现代成本会计的帮助下软件公司可以对个人所得税进行多维分析物品。由于大量引用(e.g.产品客户托马、销售渠道、区域)和需要的对象的数量检查控制器需要方法自动识别数据模式。在这种情况下,这些模式的组合属性值(e . g。“DIY商店”和“力量训练”)以及(e . g .毛利率)措施。一个公司,开发数据挖掘程序必须也考虑到大量数据参与。即使在一个中型公司是很常见的,成百上千项流入每月损益表。基于案例的推理(CBR)是其中之一数据最小的有趣的例子荷兰国际集团(ING)和机器学习在一起。CBR组件尝试跟踪当前问题的问题已经解决了过去。帮助桌子,协助澄清的问题客户有购买产品,是一个实际的使用类型的过程。尽管一些公司使用帮助台支持他们的电信电话热线,其他人给他们定制-人通过远程数据的直接访问转移。可以非常价值——数据挖掘在这种情况下,因为它巩固聚集在成千上万的信息关键的发现——个人历史病例老年男性。这种方法的优点是较短的过程,寻找先例可以用来回答当前客户的问题。
数据挖掘从不同的角度分析数据,并将其汇总为有用的信息,可用于商业解决方案和预测未来趋势。数据挖掘(DM)也称为数据库中的知识发现(KDD),或者知识发现和数据挖掘,是为关联规则等模式自动搜索大量数据的过程。它应用了统计学、信息检索、机器学习和模式识别等方面的许多计算技术。数据挖掘仅在短时间内从数据库中提取所需的模式。根据要挖掘的模式类型,可以将数据挖掘任务分为汇总、分类、聚类、关联和趋势分析。
有许多不同类型的方法分析和分类数据。一些常见的方法包括聚类分析、贝叶斯推理和归纳学习。可以使用聚类分析基于数值以及措施概念聚类的形式。数据挖掘系统的结构天生是非常不同的,当然这些都很常见的:因为分析方法,识别和分析模式,是系统的核心。因为输入可以包括组件原始数据等信息数据字典、知识的使用场景中,或缩小用户条目搜索过程。因为输出包含发现措施,规则或信息在一个适当的形式呈现给用户,纳入系统作为新知识或集成成一个专家系统。不论在其传统的形式还是概念聚类,聚类分析试图分裂或合并一组数字基于误码率的对象组接近这些对象之间的存在。集群分组以便有大的对象之间的相似之处类以及大型之间的异同不同的类的对象。不管的缩放级别对象变量,有多种方法衡量相似性和区别的距离。基本的例子包括欧几里得(即平方根总平方差异)和曼哈顿差异(即绝对的总和个体差异变量)。在我们可以检查指标,名义以及不同数据集的混合距离测量,并因此从大数据分析方法中获益。
在包括物理、生物和生物医学等许多科学和工程领域在内的所有领域,大数据都有延伸和广泛的应用。
二、大数据挖掘
一般而言,大数据是指大量数据的集合,这些数据来自互联网、社交媒体、商业组织、传感器等各种来源。我们可以借助数据挖掘技术来提取一些有用的信息。这是一种从大量数据中发现模式以及描述性、可理解的模型的技术。
容量是数据的大小,大于PB和TB。规模和容量的增加使得传统的工具难以存储和分析。在预定的时间段内,应该使用大数据挖掘大量数据。传统的数据库系统旨在解决少量的结构化和一致性的数据,而大数据包括各种数据,如地理空间数据、音频、视频、非结构化文本等。
大数据挖掘是指通过大数据集来查找相关信息的活动。为了快速处理不同来源的大量数据,使用了Hadoop。Hadoop是一个免费的基于Java的编程框架,支持在分布式计算环境中处理大型数据集。其分布式文件系统支持节点之间的快速数据传输速率,并允许系统在发生节点故障时不中断运行。它为分布式数据处理进行MapReduce,用于结构化和非结构化数据。
三、大数据特征——HACE定理
我们有大量的异构数据。数据之间存在复杂的关系。我们需要从这些庞大的数据中发现有用的信息。
让我们想象一下,一个盲人被要求画大象的场景。每个盲人收集到的信息可能会认为躯干像墙,腿像树,身体像墙,尾巴像绳子。盲人们可以相互交换信息。
图1:盲人和大象
其中的一些特征包括:
1.具有异构及不同来源的海量数据:大数据的基本特征之一是大量的异构数据和多样数据。例如,在生物医学世界中,个人用姓名、年龄、性别、家族病史等来表示,用于X射线和CT扫描图像和视频。异构是指同一个体的不同表现形式,多样是指用各种特征来表示单一信息。
2.具有分布式和非集中式控制的自治:来源是自治的,即自动生成;它在没有任何集中控制的情况下生成信息。我们可以将它与万维网(WWW)进行比较,其中每台服务器都提供一定数量的信息,而不依赖于其他服务器。
3.复杂且不断演化的关系:随着数据量变得无限大,存在的关系也很大。在早期阶段,当数据很小时,数据之间的关系并不复杂。社交媒体和其他来源生成的数据具有复杂的关系。
四、工具:开放源码革命
Facebook、雅虎、Twitter、LinkedIn等大公司受益于开源项目,并为之做出贡献。在大数据挖掘中,有许多开源计划。其中最受欢迎的是:
ApacheMahout:主要基于Hadoop的可扩展机器学习和数据挖掘的开源软件。它实现了广泛的机器学习和数据挖掘算法:聚类、分类、协同过滤和频繁模式。
R:为统计计算和可视化设计的开源编程语言和软件环境。R是由在新西兰奥克兰大学的Ross Ihaka和Robert Gentleman在1993年开始设计的,用于统计分析超大型数据集。
MOA:流数据挖掘开源软件,可以实时进行数据挖掘。它具有分类、回归、聚类和频繁项集挖掘和频繁图挖掘等实现。它始于新西兰怀卡托大学机器学习小组的一个项目,以WEKA软件著称。流框架为使用简单的根据XML来定义和运行流过程提供了一个环境,并能够使用MOA、Android和Storm
SAMOA:这是一个新的即将推出的分布式流挖掘软件项目,它将S4和Storm与MOA结合在一起。
Vow pal Wabbit:在雅虎启动的开源项目。研究并继续在微软研究院设计一个快速的、可扩展的、有用的学习算法。VW能够从大量特征数据集中学习。在进行线性学习、通过并行学习时,它可以超过任何单机网络接口的吞吐量。
五、大数据的数据挖掘
数据挖掘是通过分析不同来源的数据从而发现有用的信息的过程。数据挖掘包含多种算法,分为4类。他们是:
1.关联规则
2.聚类
3.分类
4.回归
关联用于搜索变量之间的关系。它用于搜索经常访问的项目。总而言之,它建立了对象之间的关系。聚类发现数据中的组和结构。分类处理将未知结构关联到已知结构。回归找到一个函数来模拟数据。
不同的数据挖掘算法有:
类别 |
算法 |
关联 |
Apriori, FP growth |
聚类 |
K-Means, 期望值 |
分类 |
决策树,SVM |
回归 |
多元线性回归 |
表1.算法的分类
数据挖掘算法可以转化为基于并行计算的MapReduce算法。
大数据 |
数据挖掘 |
这是现在世界上的一切。 |
这是旧的大数据。 |
数据的规模较大。 |
数据的规模较小。 |
涉及大型数据集的存储和处理。 |
可以找到有趣的模式。 |
大数据是大型数据集的术语。 |
数据挖掘是指通过大数据集寻找相关信息的活动。 |
大数据是资产。 |
数据挖掘是提供有益结果的处理程序。 |
大数据取决于管理集的组织的能力,以及传统上用于处理和分析数据的应用程序的功能。 |
数据挖掘指的是涉及相对复杂的搜索操作的活动。 |
表2.大数据和数据挖掘的不同之处
六、大数据挑战
面对大数据的挑战很困难。数量每天都在增加。网络连接设备的速度在增加。种类也在不断扩大,而组织采集和处理数据的能力是有限的。
以下是处理大数据时面临的挑战:
1.数据采集和存储
2.数据传输
3.数据管理
4.数据分析
5.数据可视化
据了解,大数据挖掘面临的挑战分为3层。
第一层是数据挖掘算法的设置。第二层包括
1.信息共享和数据隐私。
2.域和应用知识。
第三层包括多个信息源的局部学习和模型融合。
3.从稀疏、不确定和不完全的数据中挖掘。
4.挖掘复杂和动态数据。
我们可以通过下面一张图片来简单了解一下它的组织和构成形式:
图2:大数据挑战的阶段
由于数据量较大,通常从不同数据源挖掘数据是很繁琐的。大数据存储在不同的地方,采集这些数据将是一项繁琐的任务,应用基本的数据挖掘算法将成为其障碍。接下来我们需要考虑数据的隐私。第三种情况是挖掘算法。当我们将数据挖掘算法应用于这些数据子集时,结果可能不那么准确。
七、未来预测
研究人员和从业人员在未来几年中将面临一些挑战:
分析架构:尚不清楚分析系统的最佳架构应该如何同时处理历史数据和实时数据。一个有趣的建议是Nathan Marz的Lambda架构。Lambda架构通过将问题分解为三个层次:批处理层、服务层和速度层,解决任意数据任意函数的实时计算问题。它将同一系统的Hadoop集成到批处理层,Storm集成到速度层。该系统的特性是:鲁棒性和容错性、可升级、通用性和可扩展性,允许临时查询、最小维护和调试。
统计学意义:获得重要的统计结果非常重要,而不要被随机性所愚弄。正如Efron在他的关于大规模推论的书中解释的那样,马上回答庞大的数据集和数以千计的问题会很容易出错。
分布式挖掘:许多数据挖掘技术都不是微不足道的。为了实现某些方法的分布式版本,需要进行大量的实践和理论分析,以提供新的方法。
时间演化数据:数据可能会随着时间推的移而发生演化,因此重要的是大数据挖掘技术应该能够适应并在某些情况下首先检测到演化。例如,数据流挖掘领域对此任务提供了非常强大的技术。
压缩:处理大数据所需的空间容量非常重要。有两种主要方法:压缩,我们不放弃任何数据,或者抽样,选择更有代表性的数据。使用压缩技术,我们可能需要更多的时间和更少的空间,所以我
全文共5715字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[752]
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。