将KOHONEN映射与ARIMA时间序列相结合预测交通流的模型
摘要
本文介绍了一种短期交通预测的混合方法——KARIMA方法。该技术使用Kohonen自组织映射作为初始分类器,每个级别都有一个与之相关的独立调整的ARIMA模型。使用六边形的Kohonen地图布局简化了定义类的问题。与单个ARIMA模型或反向传播神经网络相比,分类任务和功能近似的明确分离极大地提高了预测性能。通过在法国高速公路的半小时和一小时的视野中产生交通流量的预测来证明该模型。性能类似于其他分层模型所展示的性能,但所需类的数量要小得多(通常在2到4之间)。由于类的数量很少,因此可以得出该算法易于重新训练,以便跟踪交通流量的长期变化,并且还被证明是易于转移的。
- 引言
交通流量的短期预测是交通控制和信息系统的重要组成部分。 通过对半小时或一小时流量的有效估计,需要采取行动。通过提前采取正确的行动,可以避免或者减少拥堵。 因此在这个问题上我们花费不少精力进行研究,提出了各种不同的算法。这些包括卡尔曼滤波器,Okutani和Stephanedes(1984)和光谱分析,Nicholoson和Swann(1974)以及下面提到的技术。本文所述受到两个先前对三种不同交通流量预测技术的比较研究的启发:克拉克等人(1993)和柯比等人(1994)。所涉及的方法是反向传播神经网络,Box-Jenkins ARIMA模型和ATHENA方法(Danech-Pajouh和Aron,1991)。 第三种方法使用分层统计方法,采用数学聚类技术将数据分组并为每个群集分别调整线性回归模型。研究结果表明,ATHENA优于其他两种方法,特别是随着预测范围进一步扩展到未来。然而,ATHENA方法非常复杂,只需一个地理预测点就需要多达192个不同的集群。因此它被视为一种“强力”方法,需要调整大量参数。这些方法通常是有效的,但是存在困难。例如,重新训练以响应物理系统的变化或转移到另一个站点是一个费力的过程。 在更哲学的层面上,蛮力方法不会很好帮助我们对问题的整体理解,此时更普遍的解决方案是更可取的。然而,ATHENA方法清楚地显示了分层模型的优点,其数值性能优于反向传播网络和ARIMA模型。因此决定试验类似的模型结构为ATHENA方法,但具有不同的子组件。特别是,我们希望通过使用更复杂的预测模块来探索减少所需群集数量的可能性。借此我们希望创建一种更通用的方法,在两层之间实现更好的平衡。
- 数据
所有案例中使用的数据与ATHENA项目中使用的数据相同,源自法国四个高速公路站点的探测器。主要地点位于博纳(Beaune),三条支线高速公路沿着高速公路汇合。 每个支线高速公路都有一个探测器位置。 汇聚点上游30公里。 三个上游测量点位于Avallon,Baume-les-Dames和Langres(图1)。
历史流量数据汇总在整个车道上,平均超过半小时。 Beaune流量的预测是针对未来半小时和一小时的视野进行的,用于预测数据前一小时的流量通过将两个半小时数据点相加来汇总到每小时数据。 1984年至1989年7月和8月的数据用于训练模型。 还提供了包含1990年7月和8月数据的测试数据集。并且这是仅用于研究的最后阶段,以验证所生产的最佳模型。
为了与限制使用一般表述的ATHENA问题进行准确比较,所选数据格式的基本原理在本文中是不精确的。
- 在周末和周末聚集数据集
如第2节所述,经典的ARIMA(p,d,q)模型用于计算预测,其中:
p 自回归项的数量
d 差异项的数量
q 移动平均数
图1 数据收集点的地理关系。
在这种情况下,模型不包含差异条款。 ARlMA(p,d,q)模型的一般方程如下:
其中:
时刻t的时间序列预测y
) 系数(通过拟合模型确定)
零均值白噪声过程(并形成移动平均项)
系数(通过拟合模型确定)
通过将,和y分别扩展为系数和变量的向量,可以容易地将该等式扩展为多变量。 在问题域的上下文中,这是通过将来自三个上游点的数据作为输入变量来完成该模型。对于本文讨论的所有模型,使用了多变量程序。有关ARIMA模型的完整报道,读者可参考Box和Jenkins(1976)。
使用时间因素手动完成聚类。最初,我们将数据集分为7月和8月,因为8月是法国的主要假日季节,因此与其他月份相比,有不同的交通流量模式。由于我们认为流量模式在周末和工作日之间有所不同将数据集分为周末和工作日。对于每个数据集,开发了统计预测模型以查看总体情况两个独立模型的表现是整个星期单个模型的改进。
最初,使用三个选项(预测范围 - 半小时或一小时、月份-七月或八月、一周的天数-整周,周末或工作日)的所有可能组合,从1984-1989数据中创建了12个新数据集。
为了避免边缘效应,周五最后五次半小时或每小时的流量测量被用作周末数据集的引导输入。工作日数据集使用相同的原理。此时星期日流量的最后五个半小时值或每小时值被添加到数据集中。
对于每个数据集,比较了许多不同配置的ARIMA模型的结果。 用自回归参数(p)和移动平均参数(q)的一系列值进行了实验。为了选择一个特定数据集的最佳模型,使用了诸如Akaike的信息标准和自动相关函数之类的诊断。通常,发现对于数据集具有最佳结果的模型具有I和4之间的p值以及q的值0或2。SAS是用于估计模型参数的软件。
为每个数据集创建的最佳模型的结果显示为错误分布。为了便于比较,在工作日/周末的单独模型的情况下,误差分布被组合成单个分布。结果列于表1中。
从这些误差分布可以得出通过在工作日和周末使用两个单独的模型来预测流量对于整周的模型结果几乎没有或没有改善。同样可看出,8月份实现良好的预测绩效更加困难,因为在节日期间由于事故,往往会出现更加极端的拥堵。
为了进一步比较将这些结果中的一些作为直方图和ATHENA模型的结果进行绘制。为此,我们将7月和8月的每小时预测结果合并为一个整体分布,以类似的方式结合工作日/周末结果(图2)。
表1 使用时间因素进行手动聚类的错误分布
很明显ATHENA方法更好。虽然没有使用足够的集群并且通过进一步细分(例如峰值/非峰值等)来改善性能,但是大幅增加群集的数量,将朝着“蛮力”方向发展而导致与ATHENA方法略有不同。因此我们所需要的不是更多的集群,而是一种目前为止使用过那些简单集群方法更好的集群方法。
- 神经网络
4.1 基于神经网络的研究
几个小组已经提出神经网络作为短期交通预测的可能方法:Dougherty等(1993),Dougherty和Cobbett(1994),Smith和Demetsky(1994)和Dochy等(1995年)。通常采用的方法是使用多层前馈网络(通常也称为反向传播网络)来实现最近过去和未来流的流之间的广义映射。很明显这种方法只是部分有效,引入一些关于统计方法的证据,如线性回归和ARIMA,但其性能通常比ATHENA方法更差(Kirby等,1994)。这个一般规则的一个例外是Dochy(1995)等人报道的工作,即再次使用Beaune数据集但应用反向传播网络。性能与ATHENA极具竞争力。 然而,这项工作沿着与ATHENA方法相同的“强力”线进行,通过使用大量单独调谐的神经网络一天的不同时间,也很可能会受到上面列出的问题影响。
图2 ATHENA和ARIMA的比较。
我们提出了一种神经网络和统计模型协同工作的方法,而不是在寻找预测交通流量的最佳方法时成为竞争对手。然后在已经讨论的分层结构内使用神经网络来聚类数据,并且对于由神经网络形成的每个聚类,然后开发统计ARIMA模型。
为了全面覆盖神经网络的主题,读者可以参考Hassoun(1995)。
4.2 Kohonen网络
选择用于聚类数据的神经网络类型是Kohonen自组织图(Kohonen,1995)。 到目前为止,在运输部门中使用这种范例非常罕见(Dougherty,1995)。 这种选择有三个原因:强化学习非常适合分类问题、我们需要一个无人监督的网络、Kohonen地图为用户提供了良好的视觉反馈。自组织地图只有两层:线性输入层,然后通过加权连接全部连接到地图本身(图3)。当呈现输入数据的向量时,刺激地图中的每个神经元。具有最高活动度的神经元被授予“获胜者”状态并且其连接权重增加。目前为止这似乎与许多其他范例相同。
图3 Kohonen地图的结构
然而,使SOM范式与大多数其他范例不同的是,地图中神经元的空间关系很重要。当神经元被宣布为“胜利者”时,该神经元的某个影响半径内的神经元(其邻域函数)也会增加其连接权重(尽管小于胜者)。这种技术鼓励高活跃神经元的分组发展,并且人们发现在同一空间分组中刺激那些神经元的输入数据向量在某些情况下往往有相似的趋向。因此,通过解释在地图上观察到的分组,可以执行数据的聚类。这个一般方案有很多变化,不熟悉SOM范式的神经网络从业者将在文献中认识到用于优化其他类型网络的原则。例如,人们可以开始训练具有大面积影响的网络并逐渐减小其大小,这显然需要动态邻域功能。人们还可以扩展学习方案,以主动减少位于影响区域边缘的那些神经元的权重,以尝试和锐化分组的边缘。这被称为“墨西哥帽子”邻里功能。人们还可以尝试许多不同大小和布局的地图:一个不限于二维地图。 但是,两种基本的二维拓扑结构是最常用的配置(图4):一个矩形的神经元格子(每个神经元有4个最近的邻居)、一个六角形的神经元格子(每个神经元有6个最近邻居)。
图4 替代地图拓扑。
五、结合广场KOHONEN地图和ARIMA模型
使用NeuralWorks Professional II Plus软件包进行初始实验,这仅支持具有神经元的矩形网格布局的自组织映射,在这些试验中,自组织图具有20times;20个节点的尺寸。
制作包含16个变量的矢量的初始试验数据集,并将其用作自组织图的输入。 预测仅在半小时内完成。每个向量包含以下数据项:四个站点最近的半小时流量测量、流量与先前流量值的差异、表示半小时的时间变量(范围从0到47)、七个二进制变量,每个变量指示一周中的不同日期。
训练好的地图展示了七个非常强的星团(图5)。对数据的检查显示,来自一周中每一天的载体模拟不同的簇。我们得出结论,星期几的二元变量占主导地位作为地图的输入。由于我们希望找到更复杂的聚类标准,因此创建了一个新的数据集,其中二进制变量表示省略了星期几(留下9个变量的向量)。使用此数据集生成的地图显示了两个大型集群和一个较小的集群(图6)。这个结果并没有明显反映任何特定的输入变量,因此聚类在某方面有效。通过简单地将地图分成16个相等的正方形来完成解释的初始尝试。针对16个方格中的每一个训练单独的ARIMA模型。再次为每个预测模块尝试了不同的ARIMA配置。 12个ARIMA(p,O,q)模型,p值介于1和5之间,q值考虑1到3之间。使用先前描述的相同诊断确定最佳模型。
图5 聚类以星期几变量为主
一些模型的性能证明是好的,另一些则很差。为了确定整个模型的性能,累计每个模型的误差分布,以给出整个数据集的误差分布。表2列出了此错误分布。
图6 最后尝试使用方形Kohonen地图
当使用分为工作日和周末的数据集将这些结果与模型的结果进行比较时(参见表1),可以看出性能较差。
表2 使用16个子方块进行聚类时的错误分布
因为这个实验的结果不如预期,所以尝试了另一种方法。总数据集分为三个独立的数据集: 一个数据集包含地图上高度活跃的坐标的所有数据行,一个数据集包含具有中等活动坐标的所有数据行,另一个包含坐标在地图上不太活跃的所有数据行。再次,对于每个数据集ARIMA(p,O,q)模型。误差分布(表3)表明这些模型的总体性能甚至比子方形聚类更差。
表3 按活动强度进行聚类时的错误分布
结论是使用16个相等大小的网格选择的数据生成的模型的性能优于通过活动水平分离的数据。然而,使用这两个标准的结果仍然很差,因此没有尝试预测一小时的视野。我们的结论是用手动识别集群,易于利用空间关系,这是首先使用自组织映射的存在理由。然而这是不可能的,因为非常多的神经元都记录了中等水平的活动。虽然这些神经元占“赢家”的很大比例,但无法提高该组的预测性能。
六、结合六角形KOHONEN地图和ARIMA模型
为了提高性能,尝试使用六边形贴图作为方形网格的替代方案。六边形地图的一个主要优点是更容易解释(Kohonen,1995),群集应该如何定义的问题有望解决。因为(在撰写本文时)NeuralWorks不支持六边形地图,所以找到了另一种软件包:SOM__PAK,可以从赫尔辛基理工大学免费获得。这个软件的一个有趣的功能就是它计算每次训练迭代时的加权量化误差。因此,即使学习是无人监督的,也可以看到网络的收敛。
使用的自组织映射有15行,每行20个节点。每行偏离前一行,以给出六边形结构,这在拓扑上类似于抵消电影院中备用排座椅的概念。
我们再次以半小时的预测期开始,并尝试各种不同的输
英语原文共 12 页
资料编号:[5933]
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。