ChallengesandOpportunities withBig Data
AcommunitywhitepaperdevelopedbyleadingresearchersacrosstheUnited States
ExecutiveSummary
The promise of data-driven decision-making is now being recognized broadly, and there is growing enthusiasm for the notion of ``Big Data.rsquo;rsquo; While the promise of Big Data is real -- for example, it is estimated that Google alone contributed 54 billion dollars to the US economy in 2009 -- there is currently a wide gap between its potential and its realization.
Heterogeneity, scale, timeliness, complexity, and privacy problems with Big Data impede progress at all phases of the pipeline that can create value from data. The problems start right away during data acquisition, when the data tsunami requires us to make decisions, currently in an ad hoc manner, about what data to keep and what to discard, and how to store what we keep reliably with the right metadata. Much data today is not natively in structured format; for example, tweets and blogs are weakly structured pieces of text, while images and video are structured for storage and display, but not for semantic content and search: transforming such content into a structured format for later analysis is a major challenge. The value of data explodes when it can be linked with other data, thus data integration is a major creator of value. Since most data is directly generated in digital format today, we have the opportunity and the challenge both to influence the creation to facilitate later linkage and to automatically link previously created data. Data analysis, organization, retrieval, and modeling are other foundational challenges. Data analysis is a clear bottleneck in many applications, both due to lack of scalability of the underlying algorithms and due to the complexity of the data that needs to be analyzed. Finally, presentation of the results and its interpretation by non-technical domain experts is crucial to extracting actionable knowledge.
During the last 35 years, data management principles such as physical and logical independence, declarative querying and cost-based optimization have led, during the last 35 years, to a multi-billion dollar industry. More importantly, these technical advances have enabled the first round of business intelligence applications and laid the foundation for managing and analyzing Big Data today. The many novel challenges and opportunities associated with Big Data necessitate rethinking many aspects of these data management platforms, while retaining other desirable aspects. We believe that appropriate investment in Big Data will lead to a new wave of fundamental technological advances that will be embodied in the next generations of Big Data management and analysis platforms, products, and systems.
We believe that these research problems are not only timely, but also have the potential to create huge economic value in the US economy for years to come. However, they are also hard, requiring us to rethink data analysis systems in fundamental ways. A major investment in Big Data, properly directed, can result not only in major scientific advances, but also lay the foundation for the next generation of advances in science, medicine, and business.
ChallengesandOpportunities withBig Data
1.Introduction
We are awash in a flood of data today. In a broad range of application areas, data is being collected at unprecedented scale. Decisions that previously were based on guesswork, or on painstakingly constructed models of reality, can now be made based on the data itself. Such Big Data analysis now drives nearly every aspect of our modern society, including mobile services, retail, manufacturing, financial services, life sciences, and physical sciences.
Scientific research has been revolutionized by Big Data [CCC2011a]. The Sloan Digital Sky Survey [SDSS2008] has today become a central resource for astronomers the world over. The field of Astronomy is being transformed from one where taking pictures of the sky was a large part of an astronomerrsquo;s job to one where the pictures are all in a database already and the astronomerrsquo;s task is to find interesting objects and phenomena in the database. In the biological sciences, there is now a wellestablished tradition of depositing scientific data into a public repository, and also of creating public databases for use by other scientists. In fact, there is an entire discipline of bioinformatics that is largely devoted to the curation and analysis of such data. As technology advances, particularly with the advent of Next Generation Sequencing, the size and number of experimental data sets available is increasing exponentially.
Big Data has the potential to revolutionize not just research, but also education [CCC2011b]. A recent detailed quantitative comparison of different approaches taken by 35 charter schools in NYC has found that one of the top five policies correlated with measurable academic effectiveness was the use of data to guide instruction [DF2011]. Imagine a world in which we have access to a huge database where we collect every detailed measure of every students academic performance. This data could be used to design the most effective approaches to education, starting from reading, writing, and math, to advanced, college-level, courses. We are far from having access to such data, but there are powerful trends in this direction. In particular, there is a strong trend for massive Web deployment of educational activities, and this will generate an increasingly large amount of detailed data about students performance.
It is widely believed that the use of information technology can reduce the cost of healthcare while improving its quality [CCC2011c], by making care more preventive and personalized and basing it on more extensive (home-based) continuous monitoring. M
剩余内容已隐藏,支付完成后下载完整资料
大数据的挑战与机遇
由美国领先研究人员开发的社区白皮书
执行摘要
数据驱动决策的承诺现在得到了广泛的认可,人们对“大数据”这一概念的热情也越来越高涨。虽然大数据的前景是真实的,但据估计,谷歌在2009年为美国经济贡献了540亿美元——目前它的潜力和实现之间存在着巨大的差距。
大数据的异构性、规模性、时间性、复杂性和隐私问题阻碍了可以从数据中创造价值的所有阶段的进展。在数据获取过程中,问题就会立即开始,数据海啸需要我们做出决策,目前是一种特别的方式,关于要保留哪些数据和丢弃哪些数据,以及如何存储我们所保存的正确的元数据。多的数据今天不是在结构化的格式;狂轰滥炸,推特和博客是弱结构化的文本,图片和视频是结构化的存储和显示,而不是语义内容和搜索:将这些内容转换为结构化的格式供以后分析是一个重大的挑战。当数据与其他数据相关联时,数据的价值就会爆炸,因此数据集成是价值的主要创造者。由于目前大多数数据都是在数字格式中生成的,因此我们有机会和挑战,即影响创建的创建,以方便以后的链接,并自动链接先前创建的数据。数据分析、组织、检索和建模是其他基本的挑战。在许多应用程序中,数据分析是一个明显的瓶颈,这都是由于基础算法的可伸缩性不足,以及需要分析的数据的复杂性。最后,由非技术领域专家对结果及其解释进行介绍,是提取可操作知识的基础。
在过去的35年里,数据管理原则,如物理和逻辑的独立性、声明性的查询和基于成本的优化,在过去的35年里,导致了一个数十亿美元的产业。更重要的是,这些技术进步使第一轮商业智能应用程序得以实现,并为今天的大数据管理和分析奠定了基础。与大数据相关的许多新挑战和机遇,需要重新考虑这些数据管理平台的许多方面,同时保留其他可取的方面。我们相信,对大数据进行适当的投资将会带来一波新的“大数据”技术进步,这些技术进步将体现在下一代的大数据管理和分析平台、产品和系统中。
我们认为,这些研究问题不仅是及时的,而且有可能在未来数年为美国经济创造巨大的经济价值。然而,它们也很困难,要求我们以基本的方式重新思考数据分析系统。对大的da-ta的重大投资,不仅可以取得重大的科学进展,而且还能为科学、医学和商业的下一代发展奠定基础。
大数据带来的挑战和机遇
1.介绍
今天我们被大量的数据所淹没。在广泛的应用领域,数据正以前所未有的规模被收集。以前基于猜测的决策,或者是经过精心构建的现实模型,现在可以基于数据本身做出决策。如此大的数据分析现在几乎驱动着我们现代社会的方方面面,包括移动服务、零售、制造业、金融服务、生命科学和物理科学。
科学研究已经被大数据的[CCC2011a]彻底改变了。“斯隆数字天空调查”2008年已经成为世界各地天文学家的中心资源。天文学的领域正在从一种天文学家的工作中得到很大的转变,一种是天文学家的工作,而天文学家的任务是在数据库中寻找有趣的物体和现象。在生物科学领域,现在有一种将科学数据存入公共存储库的传统,也有建立公共数据库供其他科学家使用的传统。事实上,有一个完整的生物形式的学科,主要用于对这些数据的分析和分析。随着技术的进步,尤其是随着下一代测序技术的出现,可获得的经验性数据集的数量和数量呈指数级增长。
大数据不仅有可能对研究领域产生革命性的变化,也有可能对教育[CCC2011b]进行改革。最近,纽约35所特许学校采取的不同方法进行了详细的定量比较,结果发现,五大政策中的一项与可衡量的学术有效性相关联,那就是利用数据来指导2011年的教学。想象这样一个世界,我们可以访问一个庞大的数据库,收集每个学生的学术表现的详细指标。这些数据可以用来设计最有效的教育方法,从阅读,写作,数学,到高级的,大学水平的,课程。我们还远没有对这样的数据进行处理,但是在这个方向上有强大的趋势。特别地,大规模的教育活动将会有一个强大的趋势,这将会产生越来越多的关于学生表现的详细数据。
人们普遍认为,信息技术的使用可以降低医疗保健成本,同时提高医疗质量,通过更加广泛的(基于家庭的)持续监测,提高医疗质量。麦肯锡估计,仅在美国,[McK2011]每年就可节省3000亿美元。
同样,有说服力的情况下为城市规划的大数据值(通过高保真地理数据的融合),智能交通(通过详细分析和可视化的生活和道路网数据),环境建模(通过传感器网络无所不在地收集数据)[CCC2011d],节能(通过un-veiling使用方式)、智能材料(通过新材料基因组计划),计算社会科学(快速新方法越来越受欢迎,因为获得数据的成本大大降低)[LP 2009],金融系统性风险分析(通过web的合同为分析发现金融实体)之间的依赖关系(FJ 2011), 国土安全(通过分析社交网络和可能的信息的金融交易),计算机安全(通过对已登录的信息和其他事件的分析,被称为安全信息和事件管理(SIEM))等等。
2010年,企业和用户存储的新数据超过了13个艾字节;这是美国国会图书馆数据的5万倍以上。根据麦肯锡实验室最近发布的一份报告,全球个人定位数据的潜在价值估计为7000亿美元,最终用户的产品开发和装配成本可能会下降50%。麦肯锡预测,大数据在就业方面也会产生同样巨大的影响。在美国,需要有14万至19万名具有“深入分析”经验的员工;此外,150万经理需要具备数据读写能力。毫不奇怪,最近PCAST的一份关于网络和IT研发的PCAST2010的报告指出,大数据是“研究前沿”,可以“加速各种优先事项的进展”。“即使是受欢迎的新闻媒体现在也对大数据的价值表示赞赏,因为它在经济学人2011年、纽约时报2012年和全国公共广播[NPR2011a]、[NPR2011b]等报道中得到了广泛的报道。
虽然大数据的潜在益处是真实的,而且是显著的,并且已经取得了一些初步的成功(比如斯隆数字天空调查),但是仍然存在许多技术上的挑战,必须解决这些问题才能充分认识到这一潜力。当然,数据的庞大规模是一个主要的挑战,也是最容易被识别的。然而,还有其他的。行业分析公司喜欢指出,不仅在数量上有挑战,而且在多样性和速度上也有挑战,而且公司不应该只关注第一个问题。通过多样性,它们通常意味着数据类型、表示和语义解释的异构性。根据速度,它们指的是数据到达的速率和它必须被执行的时间。虽然这三个方面很重要,但是这个简短的列表没有包括隐私和可用性等额外的重要需求。
对大数据的分析涉及多个不同的阶段,如下面的图所示,每个阶段都引入了挑战。不幸的是,许多人只关注分析/建模阶段:虽然这一阶段至关重要,但在没有数据分析管道的其他阶段的情况下很少使用。即使在分析阶段,也受到了很多关注,但在多个用户的程序并发运行的多tenanted集群环境中,存在着很低的复杂性。许多重大挑战超出了分析阶段。例如,大数据必须在上下文环境中进行管理,这可能是嘈杂的、异构的,不包括预先的模型。这样做会提高追踪出处的需要,并处理不确定性和错误:对于成功至关重要的主题,但在与大数据相同的呼吸中很少提及。相似的,对数据分析管道的问题通常不会提前提出。我们可能需要根据数据找出好的问题。这样做需要更智能的系统,也需要更好地支持与分析管道的用户交互。事实上,我们现在有一个很大的瓶颈,那就是我们有能力去问那些数据的问题,并在2012年进行分析。我们可以通过支持与数据相关的3个层次来大大增加这个数字,而不是所有的数据都需要深入的数据库专业知识。解决诸如此类的问题的解决方案将不会来自于对行业的渐进式改进,如行业可能自行发展。相反,它们要求我们从根本上重新思考我们如何管理数据分析。
对大数据的分析涉及多个不同的阶段,如下面的图所示,每个阶段都引入了挑战。不幸的是,许多人只关注分析/建模阶段:虽然这一阶段至关重要,但在没有数据分析管道的其他阶段的情况下很少使用。即使在分析阶段,也受到了很多关注,但在多个用户的程序并发运行的多tenanted集群环境中,存在着很低的复杂性。许多重大挑战超出了分析阶段。例如,大数据必须在上下文环境中进行管理,这可能是嘈杂的、异构的,不包括前期模型。这样做会提高追踪出处的需要,并处理不确定性和错误:对于成功至关重要的主题,但在与大数据相同的呼吸中很少提及。类似地,对数据分析管道的问题通常不会提前提出。我们可能需要根据数据找出好的问题。这样做需要更智能的系统,也需要更好的支持与分析管道的用户交互。事实上,我们现在有一个很大的瓶颈,那就是我们有能力去问那些数据的问题,并在2012年进行分析。我们可以通过支持与数据相关的3个层次来大大增加这个数字,而不是所有的数据都需要深入的数据库专业知识。解决诸如此类的问题的解决方案将不会来自于像行业本身那样的对商业的不断增长的改进。相反,它们要求我们从根本上重新思考我们如何管理数据分析。
幸运的是,现有的计算技术可以应用于至少某些方面的大数据问题。例如,关系数据库依赖于逻辑数据独立性的概念:用户可以考虑他们想要计算什么,而系统(由熟练的工程师设计这些系统)决定如何有效地计算它。类似地,SQL标准和关系数据模型提供了一种统一的、功能强大的语言来表达许多查询需求,并且在原则上允许客户在供应商之间进行选择,在竞争中进行竞争。我们面临的挑战是,将之前系统的这些健康特性结合起来,为大数据的许多新挑战设计新颖的解决方案。
2.处理管道中的阶段
2.1数据采集和记录
大数据不是凭空产生的:它是由一些数据生成源记录下来的。例如,考虑我们感知和观察我们周围的世界的能力,从一个老年人的心率,到我们呼吸的空气中的毒素,到计划中的平方公里阵列望远镜,它将产生每天100万兆字节的原始数据。类似地,科学实验和模拟可以很容易地产生今天的拍字节数据。
这些数据中有很多都是没有兴趣的,而且可以通过对这些数据进行过滤和压缩。其中的一个挑战是如何定义这些过滤器,使它们不会丢弃有用的信息。例如,假设一个传感器读数与其他传感器有很大的不同:它很可能是由于传感器存在缺陷,但是我们如何确定它不是一个值得关注的工件呢?此外,这些传感器收集的数据通常都是在空间上和时间上相关的(例如:在同一路段上的交通传感器)。我们需要研究数据减少的科学,可以智能地将原始数据处理成用户可以处理的大小,而不必在大草堆中丢失。此外,我们需要“在线”分析技术,可以动态地处理这些流数据,因为我们不能先存储,然后再减少。
第二个巨大的挑战是自动生成正确的元数据来描述记录的数据以及记录和测量数据的方式。例如,在科学实验中,可能需要对特定的实验条件和过程进行相当详细的描述,以便能够正确地解释结果,并且重要的是,这些元数据是通过观测数据记录下来的。元数据获取系统可以最小化记录元数据的人工负担。另一个重要的问题是数据来源。除非这些信息可以通过数据分析管道进行解释和传递,否则在其出生时记录有关数据的信息是没有用的。例如,一个步骤的处理错误可以使后续分析无效;有了适当的出处,我们可以很容易地识别依赖于此步骤的所有后续处理。因此,我们需要研究来生成合适的元数据,以及通过数据分析管道传输数据和元数据的数据系统。
2.2信息提取和清洗
通常,所收集的信息不会以一种格式进行分析。例如,考虑医院里的电子健康记录的集合,包括来自几位医生的转录的诊断,来自传感器和测量的结构化数据(可能有一些相关的不确定性),以及像x射线这样的图像数据。我们不能以这种形式保留数据,并且仍然有效地分析它。相反,我们需要一个信息提取过程,从底层源提取所需的信息,并以适合分析的结构化形式表示。正确地完成这一任务是一项持续的技术挑战。请注意,这些数据还包括图像,将来还包括视频;此类提取通常是高度依赖的(例如:你想从核磁共振成像中提取出的东西与你从恒星照片中提取出来的东西非常不同,或者是一张监控照片)。此外,由于无处不在的监控摄像头和GPS的普及,手机、相机和其他便携设备的普及程度高、高保真度高,而且轨迹也很好。也可以提取空间中的移动数据)。
我们习惯于认为大数据总是告诉我们真相,但事实远非如此。例如,患者可能选择隐藏危险行为,而护理人员有时可能会误诊一种情况;患者可能也不准确地回忆起药物的名称,甚至是他们曾经服用过的药物,导致他们的医疗记录(历史部分)丢失。现有的数据清理工作假定对有效数据或良好理解的错误模型有良好的约束;对于许多新兴的大数据域,这些不存在。
2.3数据集成、聚合和表示
考虑到大量数据的异构性,仅仅记录数据并将其放入存储库是不够的。例如,考虑一系列科学实验的数据。如果我们只是在一个存储库中有一堆数据集,那么任何人都不可能找到,更不用说重用这些数据了。有了足够的元数据,就有了一些希望,但即便如此,由于实验细节和数据记录结构的差异,挑战仍然存在。
数据分析要比简单地定位、识别、理解和引用数据更具挑战性。要进行有效的大规模分析,所有这些都必须以一种完全不合理的方式发生。这就要求在数据结构和语义上的差异,用计算机可以理解的形式表示,然后“机械地”可解析。在数据集成中有一组强大的工作可以提供一些答案。但是,要实现自动化的无错误差异解析,需要大量额外的工作。
即使对于只依赖于一个数据集的简单分析,仍然存在一个重要的数据库设计问题。通常,存储相同信息的方法有很多。某些设计在某些方面会比其他的设计更有优势,也可能有其他目的的缺点。例如,在生物信息学数据库的结构中,有大量的信息,其中包含了大量类似的实体,例如基因。数据库设计现在是一门艺术,在企业上下文中被高收入的专业人员小心翼翼地执行。我们必须让其他专业人员,如专业领域科学家,来创建有效的数据库设计,要么通过设计工具来帮助他们在设计过程中,要么完全放弃设计过程,并开发技术,以便在缺乏智能数据库设计的情况下,能够有效地使用数据库。
2.4查询处理、数据建模和分析lt;
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[484416],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。