大数据在海洋观测中的应用:机遇与挑战外文翻译资料

 2023-04-01 15:48:25

英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料


大数据在海洋观测中的应用:机遇与挑战

摘 要

海洋观测在海洋勘探中起着至关重要的作用。 随着信息技术的指数级增长和海洋观测技术的进步,海洋科学正在进入大数据时代。海洋观测一般为基于多个平台的集合,它通过传感设备在适当的时空尺度上对海洋相关数据进行采样。这些平台收集的数据有助于回答一系列的基础和应用研究问题。由于海洋观测数据的体积巨大、类型多样、持续测量和潜在用途较大,它是一种典型的大数据,即海洋大数据。传统的以数据为中心的基础设施不足以应对海洋科学中出现的新挑战。本文讨论了在数据存储、数据计算和分析阶段解决海洋大数据挑战的一些可能的新策略。一个地质例子说明了海洋大数据的重要应用。最后,我们强调了海洋大数据中的一些挑战和关键问题。

1、介绍

海洋覆盖了地球表面的三分之二以上。表层海洋中的浮游植物通过光合作用产生了地球上一般的氧气。全球变暖产生的90%热量已被海洋吸收。不管我们住在哪里,海洋都在影响着我们的生活。然而,95%以上的海洋资源仍然没有被充分开发和利用。这就需要了解海洋的方方面面以及它的生态系统与地球大气层、陆地、冰、海底和生命的复杂联系,其中对人类重要的是不仅要增进对我们星球的了解,而且要帮助确保社会的长期发展,并帮助指导人类管理社会环境。

当今海洋学正在从一门基于船只的远征科学发展为一门分布式科学,基于观测的方法,促进长期时间序列和提供交互式功能,以实现实时使用数据流进行实验。多源海洋观测数据正在以以前所未有的规模和速度收集和存储。根据Gartner对大数据的定义,海洋观测数据具有3V(体积、速度和多样性)的特征。因此,海洋观测数据可以看作是一种典型的大数据,即海洋大数据。

这些数据必须以原始格式存储、解析、校准和处理,以便质量控制,然后进行分析,并进一步衍生到其他产品中,譬如视觉化。由于海洋大数据的独特性,它们超越了常规系统可以达到的处理和分析能力。这种情况已经造成数据库和可扩展基础设施等传统技术面临了新的挑战。当前涉及大数据的研究主要关注如何更有效地发现和理解如此大量的数据。调查的关键问题包括基础设施、存储和分析、安全等。

2、数据采集

据采集阶段,配备了用于从海洋中收集原始数据的种传感器的海洋观测站。本节将介绍一些具有代表性的海洋观测平台和海洋数据采集项目

2.1、海洋观测平台:

观测台是一系列平台的集合,能够携带传感器到达目的地并且收集特定时空尺度上的数据。这些平台包括船舶、卫星和一系列欧拉和拉格朗日系统。

——几个世纪以来,船舶一直是海洋学家的主要工具,并将在可预见的未来继续存在,这是基础设施的核心部分。船只的能力在站位保持和动态定位方面有了显著改善,并且具备了多波束和侧扫声纳系统。

——卫星是现代世界上最重要的海洋技术创新。它们是了解各种海洋过程和变化的新工具,卫星数据揭示了十年时间尺度上的陆-气-海相互作用新的趋势,改善了以前仅使用现场观测数据无法访问的现象。

——具有高带宽和持续供电的海底光电电缆是在海洋中提供持续观测的潜在手段。海底电缆成功地运用于研究广泛的主题,如海底地震活动,海啸、海底动力学、海岸上升流生态系统生产力等。

——漂流器和浮子是被动的、电池供电的拉格朗日平台,分别用于创建洋流和海洋属性的地表和地下地图。

——系泊系统提供了在海底和海面之间的固定深度部署传感器的方法。它们提供高频固定位置地下数据,以便协助船舶、自动水下航行器和卫星遥感。

——滑翔机是一种基于浮力的自动水下航行器,能够将垂直运动转化为水平运动的推进力。并且由于功率非常低,在消费方面,滑翔机可以在大时空尺度上提供数据。

——自动水下航行器(AUV)为水下航行提供了必要的灵活性海洋观测,因为它们允许传感器在水中三维移动。他们可以系统地、概括性地调查特定线路的面积和/或体积。和滑翔机一样,水下机器人负责将数据和任务信息传递到海岸。

2.2、海洋观测项目:

通过卫星在海洋中进行长期观测的梦想已经持续探索了二十多年。许多国家和组织都为建立全球、区域或本地海洋观测系统,通过使用各种平台的船上的多个传感器。接下来,我们介绍几个国家或国际用于长期海洋观测的项目。

——Argo是一个全球阵列,由3000多个自由漂浮的剖面浮标组成,从地表上部2000米处的无冰全球海洋和中等深度洋流收集高质量的温度和盐度剖面。这首先允许持续监测上层海水的温度、盐度和大海流速,这项部署始于2000年,国家计划需要每年提供大约800个用以维护Argo阵列。大规模的全球阵列已经成为海洋观测系统的主要组成部分。它建立在其他上层海洋观测网络的基础上。它是全球用于所有海洋数据同化模型和分析的数据集观测地下水的唯一来源

——加拿大海洋网络(ONC),维多利亚大学的倡议,在美国运营着世界领先的海王星和金星有线海洋观测站实际上位于加拿大西海岸的东北太平洋。它的目标是为加拿大科学家提供科学和技术处理良好海洋管理和负责任的海洋使用信息。ONC有线观测收集数据,可以帮助科学家和领导人做出关于沿海地震和海啸、气候变化、沿海地区管理、养护和海洋安全的决策。

——海洋观测计划(OOI):是美国国家科学基金会资助的综合基础设施项目,有科学驱动的平台和测量物理、化学、地质和生物特性的传感器系统,以及从海底到海气界面的过程。OOI通过近实时数据访问建立一个交互式、全球分布的传感器网络改变了人类的研究,增强我们解决关键问题的能力,如气候变化、生态系统可变性、海洋酸化和碳循环,收集到的海洋数据将被传输到数据存储基础设施,以供进一步使用处理和分析。长期持续的多源数据采集导致

数据的快速扩展和复杂性。它在存储和存储方面带来了巨大的挑战。存储在数据中心的数据集来自许多位于遥感或原位平台上的不同传感器。优化系统需要考虑到存储能力、响应速度、元数据和某些类型的数据存储在关系数据库中,其他一些类型的数据存储在文件中。 通常情况下,数据类型的参数范围很广,但数据不太多,例如由于营养素、污染物和任何其他样本测量值都存储在关系数据库中。然而,参数很少但数据量巨大的数据类型,例如CTD、ADCP和图像传感器存储在二进制、ASCII或图像文件中。其中文件系统是高级应用程序存储机制的底层,是文件系统的基础。许多公司和研究人员都有自己的解决方案以便满足不同的大数据存储需求。例如,谷歌的GFS就是一个例子--可扩展的分布式文件系统,支持大规模、分布式、数据密集型。HDFS和Kosmosf是开放源代码的衍生产品。微软开发了Cosmos来支持其搜索和广告业务。而Facebook利用Haystack存储大量小尺寸照片。但是这些传统的关系数据库无法满足所有由海洋大数据带来的不同类别和某些大规模的挑战。NoSQL数据库正在成为用于大数据存储的核心技术。NoSQL数据库具有灵活的模式,操作简单和易于复制、简单的API、最终的一致性以及对大容量数据的支持等优点。

3、数据存储

本节将介绍基于不同数据的三个主要NoSQL数据库,它包括模型、键值数据库、面向列的数据库和面向文档的数据库。

  • 键值数据库:键值数据库建立在一个简单的数据模型上,数据存储在与键值相对应的位置。每一个密码都是独一无二的,用户可以根据输入键查询的值。这种数据库的特点是简单的结构和现代键值数据库具有更高的可扩展性和更短的存储时间,但是查询响应时间比关系数据库长。在过去几年中,许多关键价值数据库似乎受到亚马逊Dynamo系统的推动。
  • 面向列的数据库:面向列的数据库存储和处理数据根据列而不是行。并且列和行都是分段的多个节点以实现可扩展性。许多面向列数据库主要的灵感是来自谷歌的BigTable。BigTable的基本数据结构是具有稀疏、分布式和持久存储的多维序列映射。映射的索引包括行键、列键和时间戳,以及映射中的每个值的映射是一个未分析的字节数组。
  • 面向文档的数据库:与键值存储相比,文档存储可以支持更复杂的数据表单。由于文件不遵循严格的模式,所以不需要进行模式迁移。此外,键值对仍然可以保存的。MongoDB、SimpleDB和CouchDB是三个文档存储系统。MongoDB将文档存储为二进制JSON(BSON)对象。每个文档都有一个ID字段作为主键。SimpleDB中的数据被组织成不同的域,在这些域中可以存储、获取、保存和询问数据。域包括不同的属性和项目的名称/值对集。数据在Apache中,CouchDB被组织成由以下字段组成的文档:键/名称和值,作为JSON对象存储和访问。每个文档都有一个唯一的标识符,为了优化应用程序性能,数据中心不仅可以扩展其规模,还可以改变系统架构,特别会关注存储和检索大型数据的数据集更快。由于访问存储在辅助设备中的数据非常耗时,因此,高性能应用程序不太可能使用基于磁盘的系统架构(如Hadoop和GFS。值得注意的趋势是内存数据库的增长和在数据中心采用闪存SSD[28]。内存数据库主要依赖于用于数据存储的DRAM主存储器。它们是比磁盘优化更快的典型数据分析查询中的数据库。具有更简单数据模型的新数据库(通常被称为“NoSQL”或“NewSQL”)对于那些不需要丰富的RDBMS功能。这些系统提供了卓越的可扩展性和优质的低响应时间。不断增加的主存容量促进了内存数据库系统的发展。例如,CedCom将数据缓存在主存储器,它结合了仅缓存存储器体系结构的功能(COMA)和Hadoop的结构原理。斯坦福大学的云目标是完全使用DRAM构建集群级存储系统。

4、数据计算与分析

由于其多源性、海量性、异构性和动态性的特点,分布式环境中涉及的应用程序数据是最重要的,而大数据的特点是在PB上进行计算,甚至具有复杂计算过程的EB级数据。因此,利用高效分析和挖掘分布式数据的并行计算基础设施。

4.1计算模型:

大数据处理的关键目标:在本节中,我们将介绍一些用于大数据分析的代表性计算基础设施、方法和工具。

大数据通常存储在数百甚至数千台商业服务器中。因此,传统的并行模型,如消息传递接口(MPI)和开放式多处理(OpenMP)可能不足以支持如此大规模的应用并行程序。最近,一些人提出了有效的并行编程模型以提高NoSQL的性能,缩小与关系数据库的性能差距。因此,这些模型已成为分析海量数据的基石。

——MapReduce是一个简单但功能强大的大型应用程序编程模型,通过计算使用大量商用PC集群来实现自动化并行处理和分发。在MapReduce中,计算模型只有两个函数,即Map和Reduce。Map函数处理输入键值对和生成中间键值对。然后,MapReduce将组合与同一个键相关的所有中间值,并将它们传输到Reduce函数。用户只需编写这两个函数即可开发并行应用程序。

——Dryad是一个用于处理数据的通用分布式执行引擎粗粒度数据的并行应用。Dryad的运营结构是一个有向无环图,其中顶点表示程序,边表示数据频道。Dryad对集群中的顶点执行操作,并通过数据通道。在操作过程中,逻辑操作图中的资源会自动映射到物理资源。Dryad允许顶点使用任意数量的输入和输出数据,而MapReduce只支持一个输入和输出集。

——Pregel促进了大型图形的处理,例如网络、工作图和社交网络服务的分析。计算任务由顶点和有向边构成的有向图。构建图表时该程序进行迭代计算,这被称为超级步骤,其中包括全局同步点设置到算法完成和输出完成。

4.2、数据分析:

数据分析是大数据价值链的最后也是最重要的阶段,目的是提取潜在的有用价值并提供建议或决定。然而,数据分析是一个广泛的领域,它经常发生变化,而且非常非常复杂。许多传统的数据分析方法仍然可以用于大型数据分析,如聚类分析、因子分析、相关分析、回归分析、A/B测试、统计分析、数据挖掘等一些大数据分析方法可以用来加速从数据中提取关键海量数据信息。目前,大数据的主要处理方式包括Bloom过滤、哈希、索引、Triel、并行计算等。对于海洋数据分析应用,数据挖掘是一种基本的提取方法用来提取自海量数据的隐藏、未知但潜在有用的信息和知识,

不完整、嘈杂、模糊和随机的数据。2006年,IEEE国际数据挖掘系列会议(ICDM)确定了十种最有影响力的数据挖掘算法[36],包括C4。5,k-均值,支持向量机,先验,EM,PageRank,AdaBoost,kNN,Bayes和CART。这十种算法包括分类、聚类、回归、统计学习、关联分析和链接挖掘,所有这些都是数据挖掘研究和开发中最重要的课题。适应海洋观测大数据的多源、不确定、动态,现有的数据挖掘方法应该可以在很多方面扩展。

并行处理已经成为设计高效数据处理的主流,作为能够以分布式并行方式处理数据的平台,提高数据处理的吞吐量。MapReduce是最具代表性的范例。大数据分析的现代研究主要集中在使用MapReduce编程范式和Hadoop生态系统,给出了许多可以部署在基于云的分布式环境中的DBMS,如Pig和Hive。算法并行化后,传统的分析软件工具将具有大数据处理能力。Das等人集成做出了一个开源统计软件分析工具,以改善传统分析工具可扩展性差的缺点。深度集成将数据计算推进到并行处理,从而实现对数据的强大深度分析功能Hadoop。标准Weka是一种开源的机器学习和数据挖掘工具,可以仅在限制为1-GB内存的单机上运行。韦格纳等人集成Weka和MapReduce,以突破限制,充分利用MapReduce群集上处理超过100 GB数据的并行计算。近年来,从大数据中提取有价值的信息和深刻的知识已经成为许多学科的迫切需要。由于其在许多领域的影响很大,已经开发了更多用于大数据分析的系统和分析工具,例如阿帕奇·马霍特、摩阿、萨摩亚和沃帕尔·瓦比特开发的工具。

5、海洋大数据的应用

lt;

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[588118],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。