英语原文共 17 页
深度学习法的短期交通流量预测
Nicholas G. Polson,Vadim O. Sokolov
摘要
我们开发了一种深度学习模型来预测交通流量。主要贡献是开发一种结构,该结构结合了使用正则化和tanh层序列拟合的线性模型。预测交通流量的挑战是由于自由流动,故障,恢复和拥堵之间的转换导致的急剧非线性。我们证明了深度学习架构可以捕获这些非线性时空效应。第一层识别预测变量和其他层模型非线性关系之间的时空关系。 我们说明了I-55州际公路上的道路传感器数据方法,并预测了两次特殊事件中的交通流量; 芝加哥熊队的足球比赛和极端的暴风雪赛事。两种情况都有急剧的交通流量状况变化突然发生,我们展示了深度学习如何提供精确的短期交通流量预测。
关键词:交通流量;深度学习;趋势过滤;稀疏线性模型
- 介绍
1.1交通流预测
可以从地下环路探测器或GPS探测器获得交通流速的实时时空测量。商业交通数据提供商,如Bing地图(Microsoft Research,2016),依赖于交通流量数据和机器学习预测每个路段的速度。 实时(15-40分钟)预测使旅行者能够选择更好路线和管理机构管理运输系统的能力。 深度学习是机器学习的一种形式它通过利用高维集合中的依赖性来提供良好的交通流量短期预测在解释变量中,我们捕获了大规模网络中出现的交通流量中的尖锐不连续性,提供了一个基于稀疏模型和丢失的变量选择方法。
本文的目的是模拟经常性和非经常性交通拥堵模式中的非线性时空效应。 这些是由于施工区的条件,天气,特殊事件和交通事故造成的。 量化旅行时间的不确定性需要实时预测。 交通管理人员使用基于模型的预测来规范坡道计量,应用速度协调,并将道路收费作为缓解拥堵策略进行规范; 然而,一般公众会根据出发时间和旅行路线选择来调整旅行决定。
深度学习预测拥挤传播给出了瓶颈定位,并且可以提供准确的40分钟对经常性和非经常性交通状况的天数进行预测。 深度学习还可以包含其他数据源,例如天气预报和警方报告,以产生更准确的预测。我们在两个特殊事件中说明了我们的交通流量方法; 芝加哥熊队的足球比赛和极端的暴风雪赛事。
为了执行变量选择,我们开发了分层稀疏向量自回归技术(Dellaportas等,2012; Nicholson等,2014)作为第一个深层。 预测选择然后进行返回(Hinton和Salakhutdinov,2006)。 深度学习模型将交通流中的尖锐不连续性建模为具有仿射参数的单变量非线性激活函数的叠加。 我们的程序是可扩展的,并且估计遵循传统的优化技术,例如随机梯度下降。
本文的其余部分概述如下。第1.2节讨论了与现有工作的联系。1.3节回顾了深度学习的基本原理。第2节开发了用于预测交通流量的深度学习预测器。 第3节讨论了交通流量数据的基本特征,并说明了我们研究芝加哥I-55交通流量的方法。最后,第4节总结了未来研究的方向。
1.2 与现有研究的联系
短期交通流量预测在交通文献中有着悠久的历史。深度学习是一种机器可以将学习视为包含传统神经网络的嵌套分层模型。 Karlaftis和Vlahogianni(2011)提供了传统神经网络方法的概述,(Kamarianakis等,2012)显示该模型训练计算成本昂贵,频繁更新令人望而却步。另一方面,深度学习使用dropout可以找到一个可以经常实时更新的稀疏模型。有几种分析方法交通流建模(Anacleto等,2013; Blandin等,2012; Chiou等,2014; Polson和Sokolov; Polson和Sokolov,2015年; Work et al。,2010)。这些方法在过滤和状态估计方面可以很好地执行。需要注意的是他们很难在大型网络上实施。已经证明贝叶斯方法对于处理大规模交通网络状态估计问题是有效的(Tebaldi和West,1998)。 Westgate等人(2013)讨论使用嘈杂GPS的救护车旅行时间可靠性,用于路径行驶时间和个别路段行驶时间分配butions。 Anacleto等。 (2013)提供了一个动态贝叶斯网络来模拟外部干预技术,以适应修改突然改变交通变量的情况。
Smith和Demetsky(1997)比较了用于交通预测的统计和机器学习方法。 Sun等人(2006)提供了贝叶斯网络算法,其中计算给定道路上的交通状态的条件概率,给定道路网络上的拓扑邻居的状态,得到的联合概率分布是高斯的混合。 Horvitz等人提出了用于估算旅行时间的贝叶斯网络。 最终成为商业产品,导致了交通数据公司Inrix的启动。 吴等人(2004提供了一种机器学习方法支持向量机(SVM)(Polson和Scott,2011)来预测旅行时间,并且Quek等人(2006)提出了一种模糊神经网络方法来解决交通数据中的非线性问题。 Rice和van Zwet(2004)认为,未来的旅行时间与当前估计的条件之间存在线性关系,并使用时变系数回归模型来预测旅行时间。
Tan等人(2009)和Van Der Voort等人(1996)研究了用于交通预测的综合自回归滑动平均值(ARIMA)和指数平滑(ES)。提出Kohonen自组织映射作为初始分类器。Van Lint(2008)致力于实时参数学习,并使用扩展卡尔曼滤波器提高预测质量。Ban等人(2011)提出了一种基于GPS探测器测量的行进时间数据来估计受控交叉口处的队列长度的方法。该方法依赖于检测行程时间数据中的不连续性和斜率的变化。 Ramezani和Geroliminis(2015)将交通流冲击波分析与数据挖掘技术相结合。奥斯瓦尔德等人(2000)认为非参数方法比参数模型产生更好的预测,因为它们能够更好地捕获空间-时间关系和非线性效应。Vlahogianni等 (2014)提供了关于短期交通预测的文献的最新评论。
目前的文献中没有涉及几个问题(Vlahogianni等,2014)。首先,使用数据驱动方法在网络级别进行预测。数据驱动方法可能优于基于交通流方程的方法有两种情况。估计边界条件是一项具有挑战性的任务,即使在依赖环路探测器作为交通传感器的系统中,通常也不会安装在斜坡上。缺少数据问题通常使用数据插补(Muralidharan和Horowitz,2009)或弱边界条件(Strub和Bayen,2006)来解决。我们的结果表明,数据驱动方法可以有效地预测流量而无需从斜坡进行边界测量。另一种基于物理学方法的挑战来自于他们对城市主干道建模的能力有限。例如乔等人(2001)显示分析方法无法提供良好的预测。另一个挑战是确定流动模式中的时空关系,Vlahogianni等(2014年)进一步讨论。数据驱动方法为交通流的物理定律提供了灵活的替代方案。
挑战在于进行模型选择和残留诊断(Vlahogianni等,2014)。可以通过使损失函数正则化并使用交叉验证来选择最佳惩罚权重来解决模型选择。为了解决这个问题,当我们指定深度学习模型时,我们构建如下的体系结构。首先我们使用正则化向量自回归模型来执行预测器选择。然后,我们的深度学习模型使用一系列激活函数解决变量(速度测量)之间的非线性和非平稳关系的问题。
Breiman(2003)描述了机器学习与传统统计方法之间的权衡。机器学习已得到广泛应用(Ripley,1996),并且在交通模式识别方面表现得尤为成功。例如,用于交通应用的浅层神经网络(Chen和Grant-Muller,2001),使用基于资源分配网络(RAN)的存储器高效动态神经网络,其中单个隐藏层具有高斯径向基函数激活单元。 Zheng等(2006)开发了几个单隐层网络,产生了15分钟的预测。开发了两种类型的网络,一种具有tanh激活函数,另一种具有高斯径向基函数。使用贝叶斯因子组合了几个预测,贝叶斯因子动态计算每个模型的优势比。 Van Lint等(2005)提出了一种状态空间神经网络和多假设方法,它依赖于同时使用几种神经网络模型(van Hinsbergen et al,2009)。作为神经网络输入的星期几和时间在Ccedil;etiner等人提出(2010年)。我们的工作与Lv等人密切相关(2015),这表明深度学习可以有效地进行交通预测。使用堆叠自动编码器来学习交通数据中的空间-时间模式,其中训练通过贪婪的分层方式执行,Ma等人(2015)提出了一种用于行进速度预测的循环结构,长期短期记忆神经网络(LSTM)。我们的方法建立在此基础上,通过显示更深层隐藏层的额外优势以及用于变量选择的稀疏自回归技术
1.3深度学习
深度学习通过一系列半仿射非线性变换来学习高维函数。深层体系结构是按图形组织的。 图的节点是单元,通过链接连接以将在原点计算的激活传播到目标单元。 每个链路具有确定连接的相对强度和符号的权重,并且每个单元将激活函数应用于所有加入的激活的加权和。 给出激励函数,例如硬阈值,S形函数或tanh。一类特定的深度学习模型使用有向无环图结构称为前馈神经网络。 关于这个主题的文献很多;,早期作品之一包括(Bishop,1995; Haykin,2004)。深度学习允许非线性函数的有效建模,参见Poincare和Hilbert的原始问题。深隐藏层的优点是高维输入变量,x = 1times;1; ...;xpTHORN;是激活函数是单变量的,这隐含地要求为每个层l指定隐藏单元数n1。Kolmogorov-Arnold表示定理(Kolmogorov,1956)为深度学习提供了理论动机。该定理表明n个变量的任何由f(X)定义的连续函数都可以表示为g j和h ij是连续函数。这种表示结果意味着可以使用求和和函数组合的运算来表示任何连续函数。对于神经网络,它意味着n个变量的任何函数都可以表示为具有一个隐藏层和2n 1个激活单元的神经网络。定理和神经网络表示之间的区别在于函数h ij不一定是仿射函数。许多研究都集中在如何找到这样的基础上。在他们的原创作品中,Kolmogorov和Arnold以建设性的方式发展功能。 Diaconis和Shahshahani(1984)描述了特定类型输入函数的投影追踪函数。
由y(x)表示的深度学习预测指标采用输入向量并通过不同的抽象层输出y,这些抽象层采用分层预测器,通过组合L非线性半仿射变换。 具体而言,深度学习架构如下。
其中f是由下定义的半激活规则:
这里N l表示第1层的单元数.需要从训练数据中学习权重w和偏移b. 通过单变量半仿射函数的组合来执行高维映射F的数据维数减少。 设z1表示第l层隐藏的特征,x = z 0。 最终输出是响应y,可以是数字或分类。在许多情况下,存在潜在的概率模型,用p表示。这导致优化问题给出的训练问题。
深度学习的一个关键优势是衍生信息r可通过链规则以封闭形式获得。通常,添加由k定义的正则化惩罚,以引入偏差方差分解以提供良好的样本外预测性能。可以使用样本外交叉验证技术来选择最佳正则化参数k最小二乘公式的一个优点是它导致了一个凸的,虽然不平滑的优化问题。有效的算法(Kim等,2007)存在解决这些问题,即使对于高维情况也是如此。与我们现在探索的非线性多元非参数模型有很强的联系。在传统的统计框架中,非参数方法试图使用由以下表达式定义的函数族来近似未知映射F。
函数f被称为基函数,并且起到功能空间基础的类似作用,即它们被选择为给出好的在某些情况下,k实际上形成空间的基础,例如傅里叶和小波基。 多变量基函数通常使用单个变量的函数构造。 四个例子是径向函数,脊函数,核函数和指标函数。
这里j通常被选择为钟形函数。脊函数,内积和非线性单变量函数的组合,可以说是最简单的非线性多变量函数之一。 两种最流行的神经网络构造为径向或脊函数的组合。另一组基函数是傅立叶级数,主要用于时间序列分析。 通过使用以有限支持为基础的多项式函数,也可以导出样条近似。基于岭的模型可以有效地表示具有少量参数的高维数据集。我们可以将深度特征(隐藏层的输出)视为输入数据到较低维空间的投影。深度学习者可以处理维数的限制,因为岭函数确定输入空间中的方向,其中方差非常高。这些方向被选为全局方向,代表数据中最重要的模式。这种方法类似于其他经过充分研究的技术,如投影追踪(Friedman和Tukey,1974)和主成分分析。
- 深度学习交通量预测
在给定直到时间t的测量值的情况下,令x为时间t h处的交通流速度的预测。 我们的深度学习流量架构看起来像
为了模拟交通流量数据x,我们使用由给定的预测变量x
这里n是网络上的位置数(环路检测器),x是时间t的位置i处的截面交通流速度。 我们使用vec来表示矢量化变换,它将矩阵转换为列矢量。 在我们稍后在3.1节中审查的申请中,我们使用了21个路段(即n = 21),这些路段跨越连接芝加哥西南郊区和中央商务区的主要走廊的十三英里。 所选长度与当前几个运输走廊管理部署一致(TransNet,2016)。
我们的层次构建如下:
正如我们稍后在实证研究中所展示的那样,深度学习者可以有效地解决数据中的非线性问题。
在数据中找到时空关系的问题是预测选择问题。图1显示了芝加哥I-55高速公路13英里长的交通流量的时空图。可以在下游和上游方向的交通拥堵传播中看到明确的时空模式。预测器选择问题需要算法来查找稀疏模型。那些依赖于在损失函数中添加丢失项。 Nicholson等人(2014)最近的一篇综述考虑了几种突出的标量正则化项来识别稀疏向量自回归模型。
我们的方法是开发分层线性向量自回归模型,以识别数据中的时空关系。我们考虑在以下模型中找到稀疏矩阵A的问题:
然后,使用在第一层找到稀疏线性模型的结果选择的预测变量来构建深度学习模型。 为了找到最佳网络(结构和权重),我们使用了H2O包中实现的随机梯度下降(SGD)方法。 类似的方法可以在Python的Thea
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。