利用大数据进行交通流量预测:深度学习外文翻译资料

 2022-08-10 15:46:24

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


利用大数据进行交通流量预测:深度学习

摘要:准确及时的交通流信息对于智能交通系统的成功部署至关重要。过去几年交通数据呈爆炸式增长,我们真正进入了交通大数据时代。现有的交通流预测方法主要使用浅层交通预测模型,在实际应用中仍有许多不足之处。这种情况促使我们重新思考基于大流量数据的深度架构模型的交通流预测问题。本文提出了一种新的基于深度学习的交通流预测方法,该方法考虑了交通流的时空相关性。使用堆叠自动编码器模型来学习通用的交通流特征,并以贪婪的分层方式训练它。据我们所知,这是第一次使用自动编码器作为构建块来表示用于预测的交通流特征的深度体系结构模型。此外,实验结果表明,所提出的方法对于交通流量预测具有优越的性能。

关键词:深度学习,堆叠自动编码器(SAEs),交通流量预测。

Ⅰ.介绍

对于个体旅客、商业部门和政府机构来说,及时准确的交通流量信息是目前迫切需要的[1]。它有可能帮助道路使用者做出更好的出行决策,缓解交通拥堵,减少碳排放,提高交通运行效率。交通流量预测的目的是提供交通流信息。随着智能交通系统的快速发展和部署,交通流量预测越来越受到人们的重视。它被认为是成功部署ITS子系统的关键因素,特别是先进的旅客信息系统、先进的交通管理系统、先进的公共交通系统和商用车辆操作。

交通流量预测在很大程度上取决于从各种传感器收集的历史和实时交通数据,包括感应回路、雷达、摄像机、移动全球定位系统、众包、社交媒体等。随着传统的交通传感器的普及和新兴的交通传感器技术的出现,交通数据呈爆炸式增长,我们已经进入了大数据交通时代。交通管控正变得越来越以数据为导向[2],[3]。虽然已经有许多交通流量预测系统和模型,但大多数都使用浅层交通模型,仍有一定不足。这启发我们重新思考基于如此丰富的交通数据的深度架构模型的交通流预测问题。

近年来,深度学习作为一种机器学习方法,引起了学术界和工业界的广泛关注[4]。它已成功地应用于分类任务,自然语言处理、降维、目标检测、运动建模等[5]-[9]。深度学习算法利用多层体系结构或深度架构,从最低层次到最高层次提取数据的固有特征,发现数据中大量的结构。由于交通流过程本质上是复杂的,深度学习算法可以在缺乏先验知识的情况下表征交通特征,对交通流预测具有良好的性能。

本文提出了一种基于深度学习的交通流预测方法。在这里,一个堆叠的自动编码器(SAE)模型被用来学习通用的交通流特征,并以分层贪婪的方式训练它。据作者所知,这是第一次使用SAE方法来表示交通流特征进行预测。模型中考虑了时空相关性。仿真结果表明,该方法具有较好的预测性能。

本文的其余部分组织如下。第二部分回顾了对短期交通流量预测的研究。第三部分提出了基于自动编码器作为交通流预测的构建块的深度学习方法。第四部分讨论了实验结果。结论意见载于第五节。

Ⅱ.文献综述

长期以来,交通流量预测一直被认为是智能交通系统的关键组成部分之一。在过去的几十年里,人们开发了许多交通流量预测模型来帮助交通管控,提高运输效率,包括路线规划和车辆路线信号协调。交通流的演变可以被认为是一个时间和空间的过程。交通流预测问题可以表述为:设Xt为交通网络中第t个观测位置第t个时间间隔内的观测交通流量。给定观测到的交通流数据的序列{Xti},i=1,2,...,m,t=1,2,...,问题是预测某一预测层Delta;的时间间隔(t Delta;)的交通流量。

早在20世纪70年代,就采用了自回归综合移动平均(ARIMA)模型来预测短期高速公路交通流量[10]。从那时起,来自不同领域的研究人员提出了各种各样的交通流量预测模型,如交通工程、统计、机器学习、控制工程和经济学。以往的预测方法可以分为三类:即参数技术、非参数方法和模拟。参数模型包括时间序列模型,卡尔曼滤波模型等,非参数模型包括k近邻(k-NN)方法、人工神经网络(ANNs)等。仿真方法使用交通仿真工具来预测交通流量。

基于时间序列的交通流量预测方法是一种广泛应用的交通流量预测方法。Levin和Tsao应用Box-Jenkins时间序列分析预测高速公路交通流量在所有预测中[11],ARIMA(0,1,1)模型是最具统计学意义的。Hamed等人将ARIMA模型应用于城市主干道路交通量预测[12]。ARIMA的许多变体被用于提高预测精度,如Kohonen ARIMA(KARIMA)[13]、子集ARIMA[14]、具有解释变量的ARIMA(ARIMAX)[15]、向量自回归移动平均(ARMA)和时空ARIMA[16]和季节性ARIMA(SARIMA)[17]。除了类似ARIMA的时间序列模型外,其他类型的时间序列模型也被用于交通流量预测[18]。

由于交通流的随机性和非线性性质,研究人员在交通流预测领域中非常重视非参数方法。Davis和Nihan使用了k-NN方法应用于短期高速公路交通预测,并认为k-NN方法的性能与线性时间序列方法有可比性,但不优于线性时间序列方法[19]。Chang等人提出了一种基于k-NN非参数回归的动态多区间交通流量预测模型[20]。El Faouzi开发了一个自回归函数的核平滑器,用于做短期交通流量预测,其中应用了功能估计技术[21]。Sun等人采用局部线性回归模型进行短期交通预测[22],提出了一种基于贝叶斯网络的交通流预测方法[23]。在[24]中提出了一种用于短期交通流预测的在线学习加权支持向量回归(SVR)方法。建立了多种预测交通流的神经网络模型[25]-[34]。

为了获得自适应模型,一些研究探索了混合方法,其中他们结合了几种技术。Tan等人提出了一种基于移动平均(MA)的交通流预测聚合方法、指数平滑ES模型、ARIMA模型和神经网络模型。利用MA、ES、ARIMA模型获得三个相关时间序列是神经网络在聚合阶段的基础[35]。Zargari等人开发了不同的线性遗传程序ming、多层感知器和模糊逻辑(F L)模型来估计5分钟和30分钟的交通流量[36]。Cetin和Comert将ARIMA模型与期望最大化和累积算法相结合[37],提出了一种基于自适应混合模糊规则的城市交通流建模与预测方法[38]。

除上述方法外,卡尔曼滤波方法[39],[40]、随机微分方程[41]、基于在线变化点的模型[42]、2型FL方法[43]、变化的极大混合模型[44]、模拟[45]和动态交通分配[46]、[47]也应用于预测短期交通流量。

交通流量预测模型的比较研究已被文献报道。线性回归、历史平均值、ARIMA和SARIMA在[48]中进行了评估,得出结论是,这些算法在正常运行条件下表现良好,但对外部系统的变化响应不佳。SARIMA模型与非参数回归预测方法在[49]中进行了评价,结果表明,所提出的启发式预测生成方法提高了非参数回归的性能,但与SARIMA模型不相等。在[50]中对多元状态空间模型和ARIMA模型进行了比较,结果表明多元状态空间模型的性能优于ARIMA模型。Stathopoulos和Karlaftis[50]还指出,不同的模型特异性适合于一天中不同的时间段。Lippi等人[51]比较了SVR模型和SARIMA模型,他们得出结论,当在最拥堵的时段进行预测时,所提出的的季节性支持向量回归器具有很高的竞争力。Chen等人[52]报告了不同聚合时间尺度下ARMA、ARIMA、SARIMA、SVR、贝叶斯网络、ANN、k-NN、Naive I和Naive II模型的性能结果,分别设置在3、5、10和15min。一系列的研究致力于神经网络和其他技术的比较,如历史平均、ARIMA模型和SARIMA模型[53]-[55]。有趣的是,可以发现非参数技术明显优于简单的统计技术,如历史平均和平滑技术,但存在矛盾,是否非参数方法能产生更好的结果或类似的结果,统计方法的高级形式SARIMA对短期交通流量预测的详细评述见[56]和[57]。

综上所述,由于ITS对实时交通流信息的需求越来越大,大量的交通流预测算法已经被开发出来,它们涉及到不同的学科的各种技术。然而,很难说在任何情况下,一种方法明显优于其他方法。其中一个原因是所提出的模型是用少量单独的具体交通数据建立的。而交通流预测方法的精度是基于所收集的时空交通数据中嵌入的交通流特征。此外,总的来说,神经网络具有良好的预测能力和鲁棒性。

虽然神经网络的深层体系结构可以学习比浅层网络更强大的模型,但现有的基于神经网络的交通流预测方法通常只有一个隐含层。基于梯度的训练算法很难训练出层次较深的神经网络。自Hinton等人的突破以来,深度学习的最新进展使深度架构的训练变得可行。[58]这些结果表明,深度学习模型在某些领域具有与最先进的方法相比的优越或可比的性能。本文探讨了一种基于SAEs的交通流预测深度学习方法。

Ⅲ.方法

本文介绍了一种SAE模型。SAE模型是一种自动编码器,是一种著名的深度学习模型。它使用自动编码器作为构建块来创建一个深度网络[59]。

  1. 自编码

自动编码器是试图再现其输入的NN,即目标输出是模型的输入。图1给出了一个自动编码器的例子,它有一个输入层,一个隐藏层和一个输出层。给定一组训练样本{x(1), x(2), x(3),...},其中 x(i) isin; Rd,自动编码器首先根据(1)输入x(1)至隐藏层y(x(i))然后再根据(2)将y(x(i)再输入重建的z(x(i)),如下所示:

y(x) = f(W1x b) (1)

z(x) = g (W2y(x) c) (2)

其中W1为权值矩阵,b为编码偏置向量,W2为解码偏置矩阵,c为解码偏置向量,在本文中我们为f(x)和g(x)考虑了逻辑s型函数1/(1 exp(minus;x))。

通过最小化重构误差L(X,Z),我们可以得到模型参数,设为theta;,其中

与自动编码器有关的一个严重问题是,如果隐藏层的大小与输入层相同或更大,则此方法可能会了解特性函数。然而目前的实践表明如果非线性自动编码器的隐藏单位比输入多或者有其他的限制,比如强加的稀疏约束,这就不是一个问题[60]。当稀疏约束加入到目标函数中,自编码器就变成了一个稀疏自编码器,它考虑了隐藏层的稀疏表示。为了实现稀疏表示,我们将稀疏约束下的重构误差最小化

其中gamma;是稀疏项的权值,HD为隐藏单元的数量,rho;为稀疏参数,通常是一个很小的接近

于0的值, 隐藏单元j在训练集上的激活。Kullback–Leibler

(KL)散度定义为如果,那么。它为编码提供了稀疏性约束。反向传播(BP)算法可以用来解决这个优化问题。

  1. SAEs

通过堆叠自动编码器来创建SAE模型,通过将在下面的层上找到的自动编码器的输出作为当前层的输入来形成一个深度网络[59]。更清楚地考虑到有层的SAEs,第一层被训练为自动编码器,训练集作为输入。在获得第一个隐藏层后,第k个隐藏层的输出作为 第k 1个隐藏层的输入。这样,多个自动编码器就可以分层堆叠。如图2所示。

要使用SAE网络进行交通流预测,我们需要在顶层添加一个标准预测器。在本文中,设置了一个逻辑回归层来监控交通流的预测。SAES加上预测器构成了交通流预测的整个深层体系结构模型。如图3所示。

C.训练算法

将BP方法与基于梯度的优化技术相结合,可以直接训练深度网络。不幸的是,众所周知,以这种方式训练的深层网络性能很差。最近,Hinton等人开发了一种贪婪的无监督学习算法,可以成功的训练深度网络。采用贪婪逐层无监督学习的算法的关键是以自下而上的方式对深层网络进行逐层预训练,在预训练阶段之后,使用BP进行微调,自上而下地调整模型的参数,同时获得更好的效果。训练程序以[58]和[59]中的工作为基础,具体如下:

  1. 以训练集为输入,通过最小化目标函数,将第一层训练为自动编码器。
  2. 将第二层训练为自动编码器,将第一层的输出作为输入。
  3. 像2)中那样迭代所需层数。
  4. 使用最后一层的输出作为预测层的输入,随机或通过有监督的训练初始化其参数。
  5. 用BP法对各层参数进行有监督的微调。

算法1(训练SAEs)总结了这一过程。

给定训练样本X和所需的隐藏层数l,

步骤1)预训练SAE

——设置稀疏权重gamma;,稀疏参数rho;,随机初始化权重矩阵和偏置向量。

——贪婪分层训练隐藏层。

——将第k个隐藏层的输出作为第k 1个隐藏层的输入,对于第一个隐藏层,输入是训练集。

——通过最小化目标函数查找第k 1个隐藏层的编码参数。

步骤2)全网微调

——随机或监督培训初始化。

——使用基于梯度优化技术的BP方法自上而下的方式改变整个网络的参数。

Ⅳ.实验

  1. 数据描述

将所提出的深层体系结构模型应用于从Caltrans性能测量系统(PEMS)数据库收集的数据中,作为一个数值例子。每隔30s就会从超过15000个独立的探测器上收集一次交通数据,这些探测器部署在加利福尼亚州的高速公路系统中[61]。采集到的数据每隔5分钟对每个检测器站进行汇总。本文采用2013年头三个月工作日收集的交通流量数据进行实验。选取头两个月的数据作为训练集,其余一个月的数据作为测试集。对于具有多个检测器的高速公路,将不同检测器收集的交通数据汇总起来,得到该高速公路的平均交通流量。请注意,在所有高速公

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[238475],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。