Future Generation Computer Systems ( ) –
Contents lists available at ScienceDirect
Future Generation Computer Systems
journal homepage: www.elsevier.com/locate/fgcs
Big Data analytics and Computational Intelligence for Cyber–Physical Systems: Recent trends and state of the art applications
Rahat Iqbal a,b,*, Faiyaz Doctor a,c, Brian More a,d, Shahid Mahmud a, Usman Yousuf a
a Interactive Coventry Limited, Coventry University Technology Park, Puma Way, Coventry, CV1 2TT, United Kingdom
b Faculty of Engineering, Environment amp; Computing, School of Computing, Electronics and Mathematics, Coventry University, Priory Street, Coventry, CV1 5FB, United Kingdom
c School of Computer Science and Electronic Engineering, University of Essex, Wivenhoe Park, Colchester CO4 3SQ, United Kingdom
d Coventry University Enterprise Ltd, Coventry University Technology Park, Puma Way, Coventry, CV1 2TT, United Kingdom
h i g h l i g h t s
- We highlight the importance of Big Data in modern life and economy.
- We investigate the benefits of computational intelligence techniques in big data analytics.
- We present a data modelling methodology called Hierarchical Spatial–Temporal State Machine.
- We explore the potential of the powerful combination of Big Data and Computational intelligence.
- We identify a number of areas where novel applications in real world problems can be developed.
a r t i c l e i n f o
Article history:
Received 22 November 2016
Received in revised form 7 October 2017 Accepted 12 October 2017
Available online xxxx
Keywords:
Big Data
Big Data analytics Cyber–Physical Systems Computational Intelligence CI and CPS applications HSTSM
a b s t r a c t
Big data is fuelling the digital revolution in an increasingly knowledge driven and connected society by offering big data analytics and computational intelligence based solutions to reduce the complexity and cognitive burden on accessing and processing large volumes of data. In this paper, we discuss the importance of big data analytics and computational intelligence techniques applied to data produced from the myriad of pervasively connected machines and personalized devices offering embedded and distributed information processing capabilities. We provide a comprehensive survey of computational intelligence techniques appropriate for the effective processing and analysis of big data. We discuss a number of exemplar application areas that generate big data and can hence benefit from its effective processing. State of the art research and novel applications in health-care, intelligent transportation and social network sentiment analysis, are presented and discussed in the context of Big data, Cyber–Physical Systems (CPS), and Computational Intelligence (CI). We present a data modelling methodology, which introduces a novel biologically inspired universal generative modelling approach called Hierarchical Spatial–Temporal State Machine (HSTSM). The HSTSM modelling approach incorporates a number of soft computing techniques such as: deep belief networks, auto-encoders, agglomerative hierarchical clustering and temporal sequence processing, in order to address the computational challenges arising from analysing and processing large volumes of diverse data to provide an effective big data analytics tool for diverse application areas. A conceptual cyber–physical architecture, which can accommodate and benefit from the proposed methodology, is further presented.
copy; 2017 Elsevier B.V. All rights reserved.
Introduction
Corresponding author at: Interactive Coventry Limited, Coventry University Technology Park, Puma Way, Coventry, CV1 2TT, United Kingdom.
*
E-mail addresses: r.iqbal@interactivecoventry.com, r.iqbal@coventry.ac.uk (R. Iqbal), dr.faiyaz@interactivecoventry.com, fdocto@essex.ac.uk (F. Doctor), BMore@cad.coventry.ac.uk (B. More), sm@interactivecoventry.com (S. Mahmud), usman.yousuf@interactivecoventry.com (U. Yousuf).
https://doi.org/10.1016/j.future.2017.10.021
0167-739X/copy; 2017 Elsevier B.V. All rights reserved.
The importance of big data in the information economy and to the modern way of life is widely acknowledged. This ever-growing impact can be summarized in the statement that lsquo;lsquo;data is the new oilrsquo;rsquo; or as IBMrsquo;s Chief Executive Officer recently added: lsquo;lsquo;Big Data is the new oilrsquo;rsquo; [1]. Just as oil has been instrumental in fuelling the industrial revolution in the 20th century so big data is now fuelling an ever evolving 21st century digital revolution.
2 R. Iqbal et al. / Future Generation Computer Systems ( ) –lt;
全文共30050字,剩余内容已隐藏,支付完成后下载完整资料
大数据分析和网络物理系统的计算智能:最新趋势和最先进的应用
摘要
大数据通过提供大数据分析和基于计算智能的解决方案来减少访问和处理大量数据的复杂性和认知负担,从而在日益增长的知识驱动和互联社会中推动数字革命。在本文中,我们讨论大数据分析和计算智能技术的重要性,这些技术应用于从众多联网的机器和提供嵌入式和分布式信息处理功能的个性化设备中产生的数据。我们提供了适用于大数据有效处理和分析的计算智能技术综合调查。我们讨论了一些可生成大数据的示例应用领域,并因此可从其有效处理中受益。在大数据,网络物理系统(CPS)和计算智能(CI)的背景下,介绍和讨论了最先进的研究和在保健,智能交通和社交网络情感分析中的新应用。我们提出了一种数据建模方法,该方法引入了一种称为分层空间 - 时间状态机(HSTSM)的新型生物启发式通用生成建模方法。 HSTSM建模方法结合了许多软计算技术,例如:深层信念网络,自动编码器,凝聚层次聚类和时间序列处理,以解决分析和处理大量不同数据产生的计算挑战,来为不同的应用领域提供高效的大数据分析工具。进一步提出了一个概念性的网络物理结构,它可以适应并从所提出的方法中受益。
- 介绍
大数据在信息经济和现代生活方式中的重要性已被广泛认可。 这种不断增长的影响可以归纳为一句话:“数据是新的石油”或者IBM首席执行官最近补充的一句话:“大数据是新的石油”[1]。 正如石油在20世纪推动工业革命中发挥的作用一样,大数据正在推动21世纪不断演变的数字革命。
大数据可以由五个V来定义:数据量,速度,多样性,准确性和价值密度[2]。
- 数据量是指每秒创建和存储的大量数据。数据的规模可以打到Zettabytes或Brontobytes。例如,由社交媒体,工业生产线制造汽车仪表板等产生的大数据。
- 速度是指大数据创建,流式传输和聚合的速度,以及大数据移动的速度。例如,大数据在数秒内从社交媒体移动到社交媒体,以及以毫秒为单位处理光学字符识别(OCR)或银行交易的生产线速度。
- 多样性是指收集的各种类型的数据。所创建的数据可以是结构化的,半结构化的或非结构化的,这很难用传统的方法进行处理。无法将数据分类到常规关系数据库中,例如社交媒体(例如照片,文本消息)和工业生产线(例如传感数据)生成的大数据。
- 准确性是指所创建数据的混乱或可信度。由于数据的多样性和容量,它可能会变得很混乱,并且包含很多噪音。
- 价值密度是指对大数据提供有意义的见解。例如,分析汽车行业的大数据以发现导致故障的数据模式。
大数据分析是指用于检查和处理大数据的技术,以便揭示隐藏的底层模式,识别关系,并揭示有关所调查的应用程序环境的其他见解。
最初的大数据革命始于欧洲核子研究中心的基础物理实验,现在已发展为开发用于气候预测,天气预报和地震学的复杂数据驱动模型。在计算超级计算机上花费24小时计算原子核数据的计算时间已经一去不复返了,现在笔记本电脑需要几分钟甚至几秒钟的时间。大数据现在通过数百个业务卫星传输,全球定位精确度预计将在几年内达到40厘米。
硬件和软件技术的最新进展使得大数据采集成为可能。这些数据可以从包括电子邮件和在线交易,多媒体信息(如音频,视频和图片),包含健康记录和其他信息的大型数据库等大量不同来源收集。另外,可以在用户与诸如帖子,状态更新等的社交媒体交互的过程中捕获信息,从用户的搜索查询或点击模式导出的数据,从可穿戴设备捕获的诸如心率,皮肤传导性等生理数据传感器,从我们与移动设备的交互中获取和提取的数据,嵌入式智能家居内的人工制品,来自生产机器和工业机器人的数据,科学研究和其他来源[3]。从上文可以清楚地看出,在现代社会中,数据正在以更快的速度产生[4]。
大量信息的潜在利用率已经推动大数据和大数据分析成为现代研究团体,现代企业和政府的中心焦点,[5]努力实现在智能城市[6]和数字医疗[7]等各种应用环境下可能出现的大量新应用领域和机遇。因此,这种丰富的知识和信息所带来的好处可以以多种方式影响研究,包括:通过提供症状来确定有关疾病,流行病和现代健康问题的症状和模式,从而促进医学进步;或帮助创建科学领域的大型地面实况数据库,例如情感分析,这些分析迫切需要大量的数据,以便成功地创建人类影响模型和有效的行为识别技术。构成现代经济的企业也可以大大受益于大数据和大数据分析,因为他们可以利用用户与社交网络[8]或智能设备交互产生的数据来识别用户对产品的偏好,认识到客户的不满之处,或了解竞争与合作组织之间的关系,从而创造更好,更具吸引力的产品和服务,或改善与现有客户之间的关系。
如今,在平台上生成了大量个性化和情境化的信息,例如延伸到可穿戴设备的社交网络,数百万人在其中交流并表达自己的意见和情绪。先进的大数据分析和计算智能技术的发展使智能计算机化解决方案的开发能够借助基于社交和行为数据的情感分析。
情感分析旨在通过自动识别用户的感受,包括他们的评估和情感状态来改进产品和服务[9]。获得更多细微的客户偏好和需求见解将为现代组织和企业提供超越其竞争优势的关键优势[10]。例如,从电子通讯中收到的大数据可以用来使员工在工作场所变得更有激情。正如Hirsch所说[1],大数据“正在成为重要的企业资产,重要的经济投入以及新商业模式的基础”[1]。企业和组织可以通过部署诸如云计算服务之类的技术从大数据中受益,这些服务可以满足大数据分析的存储和处理要求[11]。在Chang和Will的工作中,通过使用适当的实验设置和度量标准,提出并实现了一种比较非云到云存储的均衡方法。从团队的实验结果来看,与使用非云系统的情况相比,使用云方法时,执行时间,预期执行时间与实际执行时间之间的一致性以及效率都有显着的性能提升[12]。如今,网络物理云系统(CPS)已经成为最先进的基于云的体系结构,这些体系结构在广泛的应用中得到了应用。 CPS可以被定义为分层体系结构,其中设备位于物理层需要与网络层中的计算和通信资源进行通信和安全交易。这些复杂的交互包括一些大数据相关的操作,例如传感,存储和处理大量异构数据。因此,从安全性和能源管理等关键方面有效处理这些操作是非常具有挑战性的。由于在CPS环境下执行各种敏感交易(例如销售和购买能源),安全性至关重要。有效的能源管理也是CPS公认的研究挑战,CPS对提供的服务以及环境都有重大影响。CPS研究可以从智能计算智能和大数据分析技术中获益,从而解决当今这些挑战。
大数据分析还可以帮助政府为公民提供更好的服务。大数据可以帮助政府改进医疗和公共交通等关键部门,从而帮助塑造更高效的现代社会。例如,大数据分析和计算智能技术能够为具有挑战性的问题提供智能解决方案,如健康冲击预测,或优化州政府向人群提供的公共交通服务。
为了充分利用大数据分析在日益增长的知识驱动型社会中的优势,有必要开发解决方案,以降低在嵌入式硬件和基于软件的访问和处理这些大量数据时的复杂性和认知负担数据分析[13,14]。由于实时应用程序的实施变得越来越复杂,因此巨大的挑战源于现实世界中大数据的使用。这种复杂性来源于各种与数据相关的因素。一个因素是数据集可能具有的较高维度,因此增加了处理和分析数据的难度。这些高维数据参数与这些系统的行为和特定结果之间的相互作用,相互关系和因果效应通常太过复杂,不能被用户分析和理解。另外,数据可以从不同的来源和输入通道累积,由于需要同步的各种信号输入以及需要同时分析的各种数据类型,使得在线处理非常苛刻。此外,收集的数据通常由多种类型的输入组成,由于各种不精确性,不确定性或数据缺失(例如,传感器故障或不准确)等原因,这些输入也不总是精确或完整。此外,高速存储,数据处理和相应分析结果的检索在现实生活中有着固有的需求。应该考虑的另一个因素是用于大数据分析的方法应以可解释的方式从数据中提取知识。部署用于执行此任务的计算技术应使数据中存在的基础模式对希望利用和理解它们的人员透明。最后,需要进行在线适应的技术,以便以用户友好和计算上可行的方式将语境和用户特定要素纳入其设计和决策机制中。所有上述因素都应该反映在用于处理和分析大数据的计算和机器学习技术中,以便构建成功的应用程序和模型[15]。
本文的其余部分安排如下。第2节讨论大数据分析的计算智能。第3节介绍了我们提供解决数据驱动问题的新方法。第4节介绍了应用数据驱动方法的应用领域的几个例子。第5部分总结论文。
- 大数据分析的计算智能
机器学习(ML)方法用于对数据进行建模和关联建模,以便发现关系并根据看不见的数据/事件进行预测。 ML方法包括监督学习(从标记数据学习),无监督学习(发现数据中的隐藏模式或提取特征)和强化学习(在动态情况下的目标导向学习)(Mitchell,1997)。因此,ML方法也可以分为:回归技术,聚类方法,密度估计方法和降维方法。这些方法的非穷举性例子是:决策树学习,关联规则学习,人工神经网络,深度学习支持向量机,聚类和贝叶斯网络。
计算智能(CI)是ML方法的一个子类
其中设计了模拟人类信息处理和推理机制的算法来处理复杂和不确定的数据源。 CI技术形成了一套自然启发的计算方法和技术,这些技术已经开发用于解决复杂的实际数据驱动问题,数学和传统建模无法工作,因为:高度复杂性,不确定性和过程的随机性。模糊逻辑(FL),演化算法(EA)和人工神经网络(ANN)组成了核心CI方法的三个组成部分,这些方法已经被开发用于处理这类日益增长的现实世界问题。
FL是处理不精确和不确定数据的既定方法[16]。 FL为定性数据和自适应控制提供了一种近似推理和建模方法[17,18],该方法基于使用语言量词(模糊集合)表示不确定的实词,数据和用户定义的概念以及人类可解释的模糊规则,可以用于推理和决策。 EA是基于随机系统建模的自然选择过程[19]和遗传算法,遗传编程和群智能优化算法等[20],(Poi,2008),[21]等方法可用于优化复杂的现实世界的系统和过程。最后,人工神经网络能够从经验数据中提取特征并进行学习[22]并基于模仿动物和人类大脑中神经元的并行处理和数据表示结构。神经网络是一个由基本元素(人造神经元)组成的相互连接的组合体,广义而言,它们类似于我们大脑中存在的神经元。神经网络的分析能力隐藏在连接这些基本元素的权值中。这些权重是通过适应或通过从训练数据中学习获得的[23]。
CI技术的组合可用于从数据中提取洞察力和含义,提供集成解决方案,可将其应用于各种应用领域。这些解决方案应该适应离线和在线,硬件和软件数据处理和控制要求,这些要求可以进一步优化到与领域相关的约束和动态。因此,这些方法可用于为各种工业和商业应用提供有效的多用途智能数据分析和决策支持系统,其特点是大量模糊或复杂的信息需要分析以支持运营和成本有效的决策[24]。
2.1深度学习与大数据分析
在大数据分析中,越来越需要准确识别影响输出的数据中的重要特征,并确定输入变量在给定时间点的空间关系以及输入之间的因果关系或时间关系超时变化的参数。通过有效的模型识别来自这些数据源的模式,可以用来准确预测系统在正常运行条件下应该如何运行,并能够检测异常情况。深度学习算法通过提供有效的生物启发式计算建模技术,通过从各种感官输入和信号中提取多级表示,从而解决语音感知和对象识别等任务,引起了越来越多的关注[25-29]。这些方法可以提供手段来模拟具有显著维度的大规模数据以及序列建模任务的空间和时间相关性。深度学习(DL)方法基于如图2所示的使用具有多个隐藏层的ANN的原理。这允许非监督(自下而上)训练产生感知数据的更高级表示,然后可以用于基于标准监督训练算法训练分类器(自上而下)[30]。特征学习方法基于监督方法,如深度神经网络,卷积神经网络(CNN)和递归神经网络以及深度信任网络和CNN等无监督技术,并提供深层架构,将本地接受领域的结构元素权重和池化,旨在模仿在动物视觉系统中发现的简单和复杂的皮层细胞的处理[31]。
最近的审查研究强调了大数据分析中利用深度学习技术的潜力[32,33]。在Tolk等人的工作中。作为建模方法的深度学习潜力和作为发现数据相关性的手段得到了强调。基于对最近应用的全面回顾,研究人员认为大数据和深度学习有可能提供新一代的建模和仿真应用[32]。 Chen等人的工作也讨论了DL方法处理数据量巨大的情况的能力。 [33]。这项工作证明了深度学习方法在解决大数据分析问题中的关键作用。
在应用优化和增强的深度学习技术以分析和处理大数据方面,最近有许多研究案例。更具体地说,在Zaidi等人的研究中,研究人员提出了一种深度学习算法,可以调整深度学习算法以指定模式的深度,并且这为大量数据实现了显着的性能准确性被认为是与其他国家的最先进的研究竞争[34]。在Alsheikhal, [35]这项研究解决了大量数据产生的非常艰巨的挑战,这些数据可以通过移动设备收集。该团队将深度学习作为移动大数据分析技术进行探索,并为Apache Spark提供可扩展的学习框架。从实验结果可以看出,团队的框架使深度学习模型的学习过程速度显着提高,深度学习模型由大量的隐含层和参数组成。在Lv等人的研究中,研究人员应用了一种深度学习技术,考虑到空间和时间的相关性,以便利用大数据来预测交通流量,从而实现高性能[36]。在Chung等人的论文中。它表明,深度神经网络在模式识别任务中表现出非常高的性能,然而它们在计算上的代价比较昂贵,因为它们需要训练时间,在某些情况下,与其他方法相比,它们可以增加10倍[37]。更具体地说,研究利用数据并行无Hessian优化算法对深度神经网络训练进行了研究。在大规模语音任务上计算出的实验结果表明,在不降低准确性的情况下,显着提高了性能,从而允许在适当的时间内利用大数据进行深度神经网络训练。
2.2大数据分析的模糊逻辑
从各种可能受噪音影响的来源累积的数据的性质对大数据分析造成了挑战。这些数据集具有很高的不确定性,并含有大量
全文共7426字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[15070],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。