英语原文共 24 页,剩余内容已隐藏,支付完成后下载完整资料
大数据分析:概念、技术和应用
内容摘要:
我们已经进入大数据时代。组织正在捕获、存储和分析具有高容量、高速度和多样性的数据,这些数据来自各种新来源,包括社交媒体、机器、日志文件、视频、文本、图像、RFID和GPS。这些来源已经使传统关系数据库管理系统的能力捉襟见肘,并催生了大量新技术、新方法和新平台。大数据分析的潜在价值是巨大的,越来越多的研究清楚地证明了这一点。大数据分析取得成功的关键包括明确的业务需求、强有力的承诺赞助、业务和IT战略之间的协调、基于事实的决策文化、强有力的数据基础设施、正确的分析工具以及熟练使用分析的人员。由于正在分析的数据类型以及如何使用这些数据的范式转变,大数据可以被视为新一代的第四代决策支持数据管理。尽管大数据的商业价值很大,尤其是对谷歌和Facebook这样的在线公司来说,但如何使用大数据引起了人们对隐私的严重关注。
I.简介:
大数据和分析是大众媒体和商业媒体的热门话题。《纽约时报》、《华尔街日报》和《金融时报》等出版物上的文章,以及《超级脆断者》[·艾尔斯》( 2007年)、《竞争分析》[·达文波特和哈里斯》( 2007年)和《工作中的分析》[·达文波特、哈里斯和莫里森》( 2010年)等书籍,传播了大数据和分析的潜在价值。
如今,许多组织正在收集、存储和分析大量数据。这种数据通常被称为“大数据”,因为它的体积、收集的速度以及形式的多样性。大数据正在创造新一代决策支持数据管理。企业正在认识到这些数据的潜在价值,并正在部署技术、人员和流程来利用这些机会。从大数据中获取价值的关键是使用分析。收集和存储大数据创造的价值很小;这只是数据基础设施。为了创造价值,决策者和组织过程必须对其进行分析并使用结果。
大数据和分析是交织在一起的,但分析并不新鲜。许多分析技术,如回归分析、模拟和机器学习,已经存在多年。甚至分析非结构化数据(如电子邮件和文档)的价值也已被充分理解。新的是计算机技术和软件的进步、新的数据源(如社交媒体)和商业机会的结合。这种融合创造了当前大数据分析的兴趣和机会。它甚至催生了一个新的实践和研究领域,称为“数据科学”,包含了从大数据中挖掘意义的技术、工具、技术和流程。
大数据正在创造新的就业机会,并改变现有的就业机会。Gartner [ 2012 ]预测,到2015年,支持大数据的需求将在全球创造440万个IT工作岗位,其中190万个在美国。每创造一个IT工作岗位,就会在IT之外创造另外三个工作岗位。大数据也对能够分析和使用大数据的人产生了很高的需求。McKinsey Global Institute年的一项研究预测,到2018年,仅美国就将面临140,000至190,000名具有深度分析技能的人,以及150万名分析大数据并做出决策的经理和分析师的短缺,这些人分别是[曼尼卡、崔西、布朗、布钦、多布斯、罗克斯伯格和拜尔斯,2011]。由于公司正在寻找具有大数据技能的人,许多大学都在提供新课程、证书和学位课程,为学生提供所需的技能。IBM等供应商正在通过他们的大学支持项目来帮助教育教师和学生。
在高层次上,大数据分析对组织成功的要求与[·威廉姆斯将军2004年对商业智能( BI )的要求相同。然而,在更深层次上,有许多细微差别是重要的,需要进入大数据分析的组织加以考虑。例如,必须考虑组织文化、数据架构、分析工具和人员问题。信息技术( IT )专业人员特别感兴趣的是用于存储和分析大数据的新技术、平台和方法。它们不是你母亲的BI架构[沃森,2012]。
政府和公司能够整合来自众多来源的个人数据,并了解你做了什么,去了哪里,你的朋友是谁,以及你的偏好是什么。尽管这导致了更好的服务(以及公司的利润),但也引起了隐私问题,[克莱蒙斯、威尔逊、巴尼特、金和马特,2014]。对于像Facebook和谷歌这样的大数据公司可以用他们收集的数据做什么,几乎没有法律限制。
在本教程中,我们首先考虑大数据的性质和来源。接下来,我们将了解分析的历史、各种分析以及它们如何与大数据一起使用。星巴克、雪佛龙、美国Xpress和Target被用来说明大数据分析的各种用途。目前的研究正在记录大数据的好处,并为大数据的使用提供了令人信服的论据。讨论并说明了大数据成功的要求,包括建立明确的业务需求;有坚定的赞助;业务和分析策略之间的一致性;基于事实的决策文化;强大的数据基础设施;正确的分析工具;以及擅长使用大数据分析的用户、分析师和数据科学家。特别关注存储和分析大数据的技术、平台和方法。还探讨了大数据使用中的隐私问题。
II.什么是大数据:
从进化的角度来看,大数据并不新鲜。20世纪90年代创建数据仓库的一个主要原因是存储大量数据。那时,万亿字节被认为是大数据。1万亿字节是领先的数据仓库供应商,用于在客户的数据仓库达到万亿字节时识别客户。如今,Teradata拥有超过35家客户,如沃尔玛和Verizon,数据仓库的规模超过1pb。eBay每分钟捕获一万亿字节的数据,并维持超过40pb的数据,是世界上最大的公司。
那么什么是大数据?一个观点是,大数据是比传统关系数据库管理系统( RDBMSs )更容易处理的不同类型的数据。一些人认为10tb是大数据,但是随着组织收集、存储和分析更多数据,任何数字定义都可能会随着时间的推移而改变。
另一个有用的观点是将大数据描述为具有高容量、高速度和高多样性——鲁森[2011]:
- 高容量—数据量或数量
- 高速—创建数据的速率
- 高多样性—不同类型的数据
简而言之,“大数据”意味着有更多的大数据,它来得更快,形式也更多。
这两种观点都反映在以下定义中: [米尔斯、卢卡斯、伊拉克奥蒂斯、拉普、卡尔森和
Perlowitz,2012;Sicular,2013年] :
大数据是一个术语,用于描述大容量、高速度和/或高多样性的数据;需要新的技术和技巧来捕获、存储和分析它;并用于增强决策,提供洞察力和发现,支持和优化流程。
重要的是要明白,今天被认为是大数据的东西在弗兰克斯[2012]看来不会那么大。许多数据源目前尚未开发,或者至少没有得到充分利用。例如,可以捕获、存储和分析每个客户的电子邮件、客户服务聊天和社交媒体评论,以更好地理解客户的情绪。Web浏览数据可以捕捉每一次鼠标移动,以便更好地了解顾客的购物行为。射频识别( RFID )标签可以放置在每一件商品上,以评估每一件商品的状况和位置。图1显示了大数据的预计增长。
图1:大数据的指数增长(来源: Palfreyman,2013年)
作为参照系,一万亿字节可以容纳1000本大英百科全书。10tb可以存放国会图书馆的印刷藏书。一个petabyte可以容纳大约2000万个装满文本的四门文件柜。存储相同数量的数据大约需要5亿张软盘。详见www.whatsabyte.com。
III.大数据的来源:
大数据有很多来源。例如,网站上的每一次鼠标点击都可以被记录在web日志文件中并进行分析,以便更好地理解购物者的购买行为,并通过动态推荐产品来影响他们的购物。Facebook和Twitter等社交媒体来源产生了大量评论和推文。这些数据可以被捕获和分析,以了解,例如,人们对新产品介绍的看法。智能仪表等机器会生成数据。这些仪表持续不断地传送关于电力、水或气体消耗的数据,这些数据可以与客户共享,并与定价计划相结合,以激励客户将一些能源消耗,例如洗衣服,转移到非高峰时间。有大量的地理空间(例如,GPS )数据,例如由手机创建的数据,这些数据可以被像Four Square这样的应用程序用来帮助你了解朋友的位置,并从附近的商店和餐馆接收报价。图像、语音和音频数据可用于安全系统中的面部识别系统等应用。
IV.大数据分析
存储的数据本身不会产生商业价值,传统数据库、数据仓库以及Hadoop等存储大数据的新技术也是如此。然而,一旦数据被适当存储,就可以对其进行分析,这可以创造巨大的价值。各种分析技术、方法和产品已经出现,特别适用于大数据,如内存分析、数据库分析和设备(所有这些都将在后面讨论)。
什么是分析?
认识到术语分析没有得到一致使用是有帮助的;它至少以三种不同但相关的方式被使用,[沃森,2013]。理解分析的起点是探索其根源。20世纪70年代,决策支持系统( DSS )是第一批支持决策的系统,[鲍尔,2007]。DSS开始被用作应用程序和学术学科的描述。随着时间的推移,额外的决策支持应用程序如行政信息系统、在线分析处理( OLAP )和仪表板/记分卡变得越来越流行。然后在20世纪90年代,Gartner的分析师霍华德·德累斯顿推广了商业智能一词。典型的定义是“BI是一个广泛的应用程序、技术和流程类别,用于收集、存储、访问和分析数据,以帮助企业用户做出更好的决策”,[沃森,2009,p.491]。有了这个定义,BI可以被视为所有支持决策的应用程序的总括术语,这就是工业上以及越来越多的学术界对BI的解释。商业智能是从决策支持系统演变而来的,人们可以认为分析是从商业智能演变而来的(至少在术语方面)。因此,分析是数据分析应用的总括术语。BI也可以被视为“获取数据”(进入数据集市或仓库)和“获取数据”(分析存储的数据)。对分析的第二种解释是,它是BI的“获取数据”部分。第三种解释是分析是使用“火箭科学”算法(例如机器学习、神经网络)来分析数据。这些不同的分析通常不会引起太多的混乱,因为上下文通常会让意思变得清晰。从决策支持系统到商业智能再到分析,如图2所示。
图2 :从决策支持系统到商业智能再到分析
不同类型的分析
区分三种分析很有用,因为这种差异对大数据分析所使用的技术和架构有影响。某些类型的分析在某些平台上比在其他平台上执行得更好。
描述性分析,如报告/OLAP、仪表板/记分卡和数据可视化,已经广泛使用了一段时间,是传统BI的核心应用。描述性分析是向后看(像汽车的后视镜)并揭示发生了什么。然而,一个趋势是将预测分析的结果,如未来销售预测,包括在仪表板/记分卡上。
预测分析表明了未来会发生什么(比如透过汽车挡风玻璃)。预测分析的方法和算法,如回归分析、机器学习和神经网络已经存在了一段时间。然而,最近,像SAS Enterprise Miner这样的软件产品使它们更容易理解和使用。它们还被集成到特定的应用程序中,例如用于活动管理。营销是许多预测分析应用的目标;这里的目标是更好地理解顾客及其需求和偏好。
有些人还提到探索性或发现性分析,尽管这些只是预测性分析的其他名称。当使用这些术语时,它们通常指的是在以前不知道的大数据中找到关系。分析新数据源(即大数据)的能力为洞察创造了更多机会,对于拥有大量客户数据的公司尤其重要。
黄金路径分析是一种新的有趣的预测或发现分析技术。它涉及分析大量行为数据(即,与人们的活动或行为相关的数据),以识别预示顾客行为的事件或行为模式,如不续签手机合同、关闭支票账户或放弃电子购物车。当一家公司可以预测一种行为时,它可以说情,或许可以提出一个提议,并可能改变预期的行为。
预测分析告诉你会发生什么,指令性分析建议你做什么(像汽车的GPS指令)。规定性分析可以确定最佳解决方案,通常用于稀缺资源的分配。它也在学术界研究了很长时间,但现在在实践中发现了更广泛的应用。例如,对于拥有“易腐”商品的组织来说,使用数学规划来进行收入管理越来越普遍,例如出租汽车、酒店房间和航空座位。例如,Harrah娱乐公司,一个使用分析的领导者,多年来一直使用收入管理来进行酒店房间定价。
组织通常从描述性分析向预测性分析转变。描述这一进展的另一种方式是:发生了什么?为什么会这样?会发生什么?我们怎样才能做到这一点?这种进展通常见于各种商业智能和分析成熟度模型[埃克森,2004]。
V.大数据实例
让我们考虑几个使用大数据分析的公司的例子。这些例子说明了大数据的不同来源的使用以及可以执行的不同类型的分析。
星巴克推出新咖啡产品
星巴克正在推出一种新的咖啡产品,但担心顾客会觉得它的味道太浓。咖啡推出的那天早上,星巴克监控博客、推特和利基咖啡论坛讨论组来评估顾客的反应。到凌晨,星巴克发现,尽管人们喜欢咖啡的味道,但他们认为它太贵了。星巴克降低了价格,到最后所有负面评论都消失了。
将这种快速反应与一种更传统的方法进行比较,即等待销售报告的到来,并注意到销售令人失望。下一步可能是运行一个焦点小组来发现原因。也许在几周内,星巴克会发现原因,并通过降低价格来应对。
雪佛龙石油钻井
墨西哥湾的每一次钻井失误,雪佛龙都要花费1亿美元以上。为了提高发现石油的机会,雪佛龙公司分析了50tb的地震数据。即便如此,找到石油的几率也在五分之一左右。2010年夏天,由于英国石油公司的海湾漏油事件,联邦政府暂停了所有深水钻井许可。雪佛龙公司的地质学家抓住了计算能力和存储容量进步带来的机会,改进了他们已经很先进的计算机模型。通过这些改进,雪佛龙公司将成功钻井的几率提高到了近1 / 3,从而节省了大量成本。
在美国Xpress监控卡车
美国Xpress是一家运输公司。它的出租车不断地传送900多条与卡车状况及其位置相关的数据,[沃森和伦纳德,2011]。这些数据存储在云中,并以各种方式进行分析,信息被传递给不同的用户,从司机到高级管理人员,在i
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[429255],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。