英语原文共 8 页
IET智能运输系统
研究文章
LSTM网络:一种用于短期流量预测的深度学习方法
ISSN 1751 - 956 x
2016年8月10日收到修改后的2016年12月15日接受于2017年1月7日E-First 2017年2月24日doi: 10.1049/iet-its.2016.0208
www.ietdl.org
郑兆1,陈威海1,吴兴明1,陈春云2,刘景蒙1
1北京航空航天大学自动化科学与电气工程学院,北京,中华人民共和国;2新加坡国立大学机械工程系,新加坡,新加坡
电子邮件:whchenbuaa@126.com
摘要:短时交通预测是智能交通系统的核心问题之一。准确的预测结果可以使通勤者选择合适的出行方式、出行路线和出发时间,对交通管理具有重要意义。为提高预测精度,开发一种更有效的交通数据分析方法是可行的。近年来大量的交通数据和计算能力的出现,促使我们通过深度学习的方法提高短期交通预测的准确性。提出了一种基于长短时记忆(LSTM)网络的流量预测模型。与传统的预测模型不同,LSTM网络通过一个由多个存储单元组成的二维网络来考虑交通系统的时空相关性。通过与其他典型预测模型的比较,验证了所提出的LSTM网络具有较好的性能。
1介绍
随着社会经济的发展,大城市的车辆数量急剧增加,现有的路网容量已无法承载这么多的车辆。为了缓解交通拥挤的状况,可以考虑两种方法。一是通过增加现有道路的车道数来扩大路网的总容量。然而,这既需要额外的土地,又需要在基础设施上花费大量的开支,而这在许多城市地区往往是行不通的。另一种方法是使用各种交通控制策略,以便有效地利用现有的道路网络。这种方法不需要太多的开支,而且在大多数情况下是可行的,因此在现实中更实用。控制策略往往涉及短期交通预测技术,预测潜在的拥堵,从而诱导人们选择更合适的出行路线,从而缓解交通拥堵。因此,准确的短期交通预测对交通控制至关重要,成为智能交通系统(ITS)不可或缺的一部分。
不同与传统交通预测,短期流量预测只预测Delta;t的交通流在不久的将来,在Delta;t从几分钟到几十分钟不等。受基础设施的限制,早期的研究缺乏实时获取交通信息的检测设备,短期的交通预测仅仅依赖于有限的历史交通数据。因此,预测结果往往与实际交通数据有明显的偏差。如果能够及时了解更多的实时交通信息,包括交通量、车速、道路养护、交通控制等,预测结果将更加可靠。幸运的是,随着交通基础设施和数据传输技术的进步,一个交通信息网络正在形成,可以实时监控各种交通信息,现在可以轻松获取大量的交通数据。这些庞大的交通数据有助于更准确的交通预测。因此,如何利用海量交通数据提高预测精度成为近年来研究的热点[1-3]。
近几十年来,人们提出了许多数据分析模型来解决短期交通预测问题,包括历史平均和平滑法[4,5]、统计回归法[6,7]、基于交通流理论的方法[8,9]和机器学习技术[10,11]。这些预测方法可以分为两类,即参数方法和非参数方法。在参数化方法中,自回归综合移动平均模型(ARIMA)被广泛认为是构建交通预测模型的一个公认框架。在过去的几十年里,人们已经完成了许多与ARIMA相关的工作。早在20世纪70年代,Levin和Tsao就运用Box-Jenkins时间序列分析对高速公路交通流进行预测,他们发现ARIMA(0,1,1)模型是最具统计意义的[12]。Hamed等人在同一时期将ARIMA模型应用于城市主干道[13]的交通流量预测。其他一些改进的方法如Kohonen-ARIMA、子集ARIMA和向量自回归ARIMA也用于短期交通预测[14-16]。ARIMA在理论和实践上都被证明是有效的,并逐渐成为新开发的预测模型比较的基准。参数化方法在交通呈现规则变化时可以取得较好的预测效果,但在交通呈现不规则变化时预测误差明显。为了解决这一问题,交通流预测领域的非参数方法也受到了研究者的重视,如非参数回归[17]、神经网络预测[18]、支持向量机(SVM)[19]、Kaman滤波等[20,21]以及这些算法的结合[22-27]。Li和Liu提出了一种基于改进粒子群优化算法[28]的改进预测方法。Kuang和Huang建立了径向基函数(RBF)神经网络预测模型[29]。Li等人建立了短期交通流量预测[30]的预测模型组合。Wang等人提出了一种改进的贝叶斯组合模型[31]。Xie等人提出了一种用于短时交通量预测的小波网络模型[32]。综上所述,为了满足ITS对实时交通流信息日益增长的需求,开发了大量的交通流预测算法,涉及不同学科的各种技术。
近年来,在现有的道路网络上部署了大量的交通传感器,产生了大量具有高时间分辨率的交通数据。与此同时,“数据爆炸”问题越来越受到人们的关注,由于维数的诅咒,用传统的参数逼近方法来处理这些数据是一个挑战。传统的交通预测方法大多局限于在有限的数据中搜索浅层关联,而不能深入挖掘深层关联和隐含的交通信息。面对现代ITS中海量的交通数据,使用传统的方法无法保证准确的预测。因此,迫切需要新的技术来处理深层次的大数据。
随着人工智能的发展,深度学习方法应运而生。交通预测逐渐转向计算智能方法,基于深度学习方法的短期交通预测已成为[34]的新趋势。深度学习理论可以通过分布式计算解决维数问题的诅咒。与传统的浅层学习结构相比,深度神经网络能够利用分布式和层次化的特征表示[35]对深度复杂非线性关系进行建模。到目前为止,深度学习在计算机视觉、语音识别和自然语言处理领域取得了许多成功。在深度学习理论的指导下,提出了多种神经网络变量来辅助交通预测。典型的例子包括前馈神经网络[36]、RBF神经网络[37]、频谱基神经网络[38]和递归神经网络[39]。其中,RNN被广泛认为是一种适合于捕捉交通流时空演化的方法。然而,以往的研究证明,传统的RNNs不能捕捉到长期的进化过程,并且由于梯度的消失和梯度的爆炸,训练滞后5-10分钟的RNN被证明是困难的。为了解决这一问题,本研究将长短时记忆[40]网络应用于短时流量预测。与传统的RNNs相比,LSTM网络能够在较长的时间跨度内捕获时间序列的特征。因此,利用LSTM网络进行流量预测可以获得更好的性能。
本研究的贡献在于三个方面。首先,提出了起点与终点的关联矩阵(ODC), ODC矩阵表示路网中不同路段之间的关联关系。其次,提出了一种层叠连接的多层LSTM网络用于交通预测,该网络的两个维度直接表示了交通预测的时空相关性。第三,ODC矩阵作为参数,通过全连接层和向量生成器,在LSTM网络中为存储单元生成新的时间序列,这与目前最先进的方法不同。通过比较研究,验证了该预测模型的鲁棒性。
本文的其余部分组织如下。第二部分对现有的交通预测文献进行了综述。第3节介绍了该方法,并从5个部分解释了所提出的LSTM网络模型的体系结构。第4节给出了基于交通数据集的实验结果,并与传统的预测方法进行了比较。最后,对全文进行了总结和展望。
2相关工作
自20世纪70年代初以来,短时交通预测一直是ITS及相关研究的重要组成部分。它涉及到根据当前和过去的交通信息对未来从几分钟到可能几个小时的预测。在早期,人们的兴趣主要集中在开发方法上,这些方法可用于为诸如体积、密度、速度和旅行时间等交通特征建模,然后产生预期的交通条件,这些方法可被视为经典方法,例如元胞自动机。后来,数据驱动方法的应用成为了文献的主题,研究人员提出了各种各样的算法和预测模型,其中大部分是参数化方法。随着交通数据量的增长,传统的方法在交通条件不规则、道路设置复杂以及数据集结构和非结构都很丰富的情况下,往往存在不足。因此,基于智能的计算方法,包括神经网络和贝叶斯网络,模糊和进化技术,以及各种各样的深度学习方法,近年来受到重视。
近年来,一些具有代表性的研究已成功应用于交通预测,取得了较好的效果。Huang等人提出了一种具有多任务学习[35]的深度信念网络。他的研究对交通流预测的深层架构网络算法进行了批判性的回顾,并将多任务回归层用于无监督特征学习。Lv等人对大数据下的交通流预测进行了综述,提出了一种深度学习方法,利用堆叠式自动编码器(SAE)模型学习通用的交通流特征,并以贪婪的分层方式[41]进行训练。这两项代表性研究均采用了深度学习技术,但时空相关性不明显。自RNN提出以来,基于RNN变体的研究已经有很多,其中有代表性的研究是由Ma等人[42]进行的。他的研究试图将深度学习理论扩展到大规模交通网络分析中。利用深度受限的玻尔兹曼机和RNN结构,建立了基于真实交通数据集的交通拥挤演化模型,并对其进行了预测。由于RNN在面对长期时间序列时表现出不足,LSTM自然被认为是一种改进的方法。2015年,Ma等人利用LSTM网络有效地捕获了非线性流量动态[43]。在他的研究中,LSTM网络由三层组成,其中隐含层由记忆块组成,通过适当的训练方法,LSTM网络可以自动确定最优时滞,与现有文献相比,这是一个很有前景的创新。
不同于上述的深度学习方法,本文基于存储单元构建了一个多层连接LSTM网络的级联,并通过全连接层和向量生成器将ODC矩阵集成到LSTM网络中。ODC矩阵包含了路网中不同环节的时空关联关系,有助于LSTM网络捕捉交通流演化特征。提出的LSTM网络的两个维度直接表示时间轴和空间轴。与现有的交通预测方法相比,该方法具有较好的预测精度,同时满足实时性要求。
3方法
短期交通预测是一种时空复杂性问题。下一时刻的预测结果基于当前状态和已有知识,包括目标路网之间的相互作用。本文采用分层结构处理海量的交通数据,结合LSTM网络的时空相关性,得到了可靠的预测结果。所提出的短期交通预测模型是基于现有的技术,包括IOVs、相关分析、RNNs等。本节将解释该方法的细节。
3.1车联网
充足的交通数据是准确预测交通的基础,IOVs可以为我们提供海量的交通数据。IOVs是一个庞大的信息网络,包括车辆位置、车速、行驶路线等信息。通过全球定位系统、射频识别装置、多传感器、摄像头和互联网技术,可以及时收集到各种交通数据信息。然后根据收集到的交通信息进行数据分析。在过去的几年里,大量的交通传感器已经部署在所有现有的道路网络上,动态交通信息可以很好地监测,这验证了IOVs的良好前景。虽然IOVs还处于起步阶段,但已有的海量交通数据已经可以帮助我们做出更准确的交通预测。
图1 RNN的结构
图2 LSTM存储单元的设计
3.2时空相关性
在交通预测过程中,时空相关性是一个必须考虑的因素。时间相关性指的是当前交通流量的相关性和过去的交通流量时间跨度(时间域),而空间相关性是指目标路段的交通流量的相关性及其上游和下游路段在同一时间间隔(即空间域)。为了增强路网内的时空相关性,利用ODC矩阵来定义不同观测点之间的相关性。设目标路网中有m个观测点;那么ODC矩阵的大小为mtimes;m,可以表示为
在式中Cr是相关分析函数, 是一个向量,代表在i个间隔观察到的交通状态,可以用,其中 (1 jle;le;m) 表示在i个时间间隔第 j观察点的交通数据。在ODC( t,Delta;t)中元素表明i个观测点的贡献系数j观测点的时间跨度|iminus;j |times;Delta;t。本文用相关分析函数Cr表示
时间序列X(t)表示第 i个观测点的交通数据和Y (t Delta;T)表示在 j观测点的流量数据,结果是这两个位置的相关系数。
可以看出,ODC矩阵随着时间的推移是动态的。观察时间t和时间跨度Delta;T共同确定ODC矩阵的元素。ODC矩阵将作为LSTM网络的输入参数。
3.3递归神经网络
在传统的神经网络中,相邻层之间只有完整的连接,而层内节点之间没有连接相同的层。这种类型的网络在处理时空问题时可能会出现故障,因为时空网络中节点之间总是存在交互作用。与传统网络不同的是,RNN中的隐藏单元接收到的反馈是从以前的状态到现在的[44]状态。图1给出了一个基本的带有延迟线的RNN结构,在时域内展开了两个时间步长。
在这种结构中,输入向量被一次一个地输入到RNN中,而不是像传统的网络结构那样使用固定数量的输入向量。此外,该体系结构可以利用到目前为止所有可用的输入信息。此外,还可以根据实际情况确定神经网络的深度。可以看出,最终的输出不仅依赖于当前的输入,还依赖于之前隐藏层的输出。
图1中RNN的数学模型可以由下式表示
其中是输入变量、 是权重矩阵, 是偏差向量,sigma;和g 是sigmoid的函数。是临时变量,ô是预期的输出。代价函数设置为
其中是实际输出。因此,t 1处的输出是t 1处的输入与历史数据的联合函数。RNN模拟序列数据的相关性,网络的深度为时间跨度。然而,由于存在消失梯度和爆炸梯度问题,随着时间跨度的增大,RNN模型的精度下降,影响最终的输出。
3.4 LSTM存储器单元的结构
LSTM网络是一种特殊的RNN。LSTM网络将隐层作为一个存储单元,可以在短期和长期处理时间序列内的相关性。本文的存储单元结构如图2所示。存储单元位于单元的中心,用红色圆圈表示。输入为已知数据,输出为预测结果。内存单元中有三个门,即输入门、遗忘门和输出门,用绿色圆圈表示。此外,单元的状态由St表示,每个门的输入为预处理数据Xt和存储单元St - 1的前一状态。
图2中的蓝点代表乘法,虚线代表前一状态的函数。基于信息流的内存结构
lt;
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。