对公共交通用户在持续数周活动序列中模式的推断外文翻译资料-外文翻译网

本科毕业设计（论文）

外文翻译

对公共交通用户在持续数周活动序列中模式的推断

作者： Gabriel Goulet-Langlois, Haris N.Koutsopoulos, Jinhua Zhao

国籍：美国

出处： Transportation Research Part C: Emerging Technologies

摘要：像伦敦那样公共交通网络密集的城市，固然会提供给游客迥然不同的出行模式。符合城市居民多样的化的生活方式，各种活动和旅途也在一天甚至多天内以多样化的序列组合在一起。从个性化的消费者资讯，到改良的出行需求模型，了解过境用户之间的这种异质性，与公共交通服务机构的许多核心应用有关。在本次研究中，我们基于每个用户持续多周的活动序列的纵向表现对乘客的异质性进行研究，所需数据均来自智能卡刷卡数据。我们提出了一种研究方法，即通过对这种现象施加影响，从而找到有着相似活动序列结构的用户群体。这种研究方法被应用到来自伦敦公共交通网络的大量样本个体中（样本数n=33026），在这份样本中，每位乘客的出行痕迹在一段持续四周的活动序列中得到体现。应用程序显示出11个群体，每个群体均表现出明显的序列结构特征。针对一小部分用户（样本数n=1973）获取到的社会人口统计信息被结合到智能卡交易数据中，以分析所识别的模式和人口统计特征（包括乘客年龄，职业，家庭组成以及收入和车辆持有情况）之间的关联。分析表明，用户的人口统计属性与专门从车费交易中确定的活动模式之间存在着显著的联系。

关键词：出行行为；智能卡数据；活动序列；用户聚类；公共交通；数据挖掘

介绍

不同的城市及其所提供的不同机遇，反映在大型城市交通网络中乘客多种多样的出行模式中。除了传统的朝九晚五的上班族，各种各样的非工作例程和非常规工作例程(例如，受轮班工作、多职业或自营职业的影响)使公共交通（PT）用户的活动模式形成体系。然而这些不同的活动模式通常在日常生活中被考虑，跨多天和多周的活动序列可能会揭示用户之间的重要差异。基于这些差异对用户进行分段有助于更好的了解公共交通旅客群体。为特定用户群体定制乘客资讯，以进行有针对性的差旅需求管理活动(Halvorsen，2015)，从而根据沿着交通网络不同区域出行的乘客类型进行服务规划，对过境用户的多样性认知能够提供给人们改善乘客体验和服务供应的机会。

探索多周活动和旅行序列中的异质性需要对用户进行纵向观察。同时，常规调查数据包含有关用户活动模式的多方面的详细信息(目的、位置等)，他们的成本通常不允许他们对大样本的用户观察较长的时间。相反，智能卡交易数据提供了关于大量用户公共交通出行的连续信息流。此信息可用于部分推断并分析每个用户的一般活动模式的某些组成成分(Lee和Hickman，2014年；Kusakabe和Asakura，2014年)。Pelletier等人(2011年)在智能卡数据的研究综述中进行了这样的分析。

与这项研究特别相关的是，一些研究侧重于对使用智能卡的公共交通用户的出行模式数据进行分割。Ortega-Tang(2013)定义了20个不同的聚类变量，涉及出行频率、出行时间、起讫点出行分布矩阵对、活动持续时间、票价类型和公共交通方式的选择，以通过K-medoids算法，确定8种不同的用户分类。由此产生的8组人被归纳为四类：非排他性通勤者、排他性通勤者、通勤者、非通勤者和休闲旅行者。重点关注旅行规律，Ma等人 (2013年) 在北京频繁地观察同一用户一周内的出行信息（包括行程登车时间、公共汽车路线序列和公共汽车站序列），定义了用户行程特征。根据每个用户的出行天数和具备已定义的频繁出行特征的天数，使用k-means 聚类算法定义了5个不同规则级别的聚类。类似于Ma等人(2013年)，Kieu等人(2014年)专注于澳大利亚昆士兰东南部的公共交通用户的平日出行，确定了时间规律性和空间规律性的衡量标准。他们主观地定义了结果分布的类别边界，并标识了四类群体：无规律性乘客、常规OD对乘客、习惯性时间点乘客，还有常规的OD和时候性乘客。最后，莫伦西等人(2007)在其早期工作中，使用k-Means方法定义了加拿大的加蒂诺公共汽车上车时间的典型模式。

虽然这些作者的工作强调了智能卡交易数据在旅行模式分类中的潜力，但这些方法在捕捉每段行程发生的顺序方面是有限的。这些研究忽略了随时间推移的多段行程的组织，其中使用的聚类变量都来自于乘客行程的标量聚合。

去除用户出行模式中完全标量的表示，El Mahrsi等人（2014年）使用一个以小时为周期的向量来表示所观察到的每个用户出行时间。通过比较用户在一周中的每一天开始行程的时间，他们确定了16组以周为尺度的时间格局。虽然他们的方法保留了一周内小时的顺序，但它依赖于聚合多个星期的数据来计算每小时的平均行程数。因此，它也忽略了行程序列的组合顺序，淡化了与行程有关的所有地理信息。

关于乘客活动模式的重要信息通过这种聚合丢失。正如Hagerstraand(1970)所描述的，并且符合基于行程理论的活动戒律，某些活动模式包括按“不可置换”序列排列的活动和行程。活动模式不仅由活动的属性和活动所组成的行程来定义，而且还由这些活动的组织顺序来定义。提取这些顺序可能会使原本明确的特定乘客类别的序列结构变得模糊。

这项研究围绕两个目标进行。首先，我们的目标是开发一种利用智能卡数据来识别具有相似的多周活动序列的用户集群的方法。这一研究方法会提供一种途径来调查乘客之间的异质性，随着时间的推移，这种途径可以通过连续收集的车费交易数据系统地加以应用。

其次，通过在伦敦公交系统中大规模应用这一方法，我们旨在对广泛的公交网络用户之间的异质性进行实证分析。其次，通过在伦敦公交系统中大规模应用这一方法，我们旨在对广泛的公交网络用户之间的异质性进行实证分析。这一目标的重点是描述每个集群中包含的活动序列的基本结构，并探索与每个模式相关的社会人口属性。

根据这些目标，这项工作的贡献是双重的。从方法论的角度出发，我们基于每个用户的纵向活动序列提供了一种新的出行模式表示方法，并综合了普及运算和数据挖掘方法来从这些序列中识别发展趋势。从实证的角度，我们分析并揭示了伦敦公共交通用户异质性的本质。我们还通过将个人用户的社会人口数据与智能卡记录相结合，提供了从单独的出行轨迹中识别出的模式与社会人口属性之间的重要关联的证据。本文的其余部分组织如下：第2节为该方法的概述，第3节介绍了这一方法在伦敦用户群体中的应用。最后，对本文的工作进行了总结，并对本文的不足之处进行了讨论。

方法论

纵向活动序列的表示

在这项研究中实施的方法的核心是每一个体旅行模式的表示。为了保持行程和多天组织的活动之间的联系，每个用户都被表示为一个时间序列，这个时间序列是由智能卡数据推断得出的。图1说明了两个这样的序列，每种序列与不同的个体相关联。沿x轴的每一列都表示一天，涵盖一段时长为4周的分析阶段。一天中的时间在y轴上表示。不同的颜色表示不同的活动位置，显示了两个用户的两种对比形式。第一个特征是在工作日的8：00到16：00之间在绿色区域进行长时间的活动，晚上和早上在红色区域度过。第二个特点是在红色地点停留的时间占很大比例，被分散在4个星期期间的较短时长的活动打断。虽然所有乘客的行程在某种程度上是独特的，但在这类序列的结构方面，个体之间存在着相似之处。例如，使用公共交通工具(PT)在传统的朝九晚五的时间表上通勤的用户可能会遵循与第一个序列类似的模式。

图 1两个示例活动序列

由于智能卡数据不提供有关活动目的明确信息，仅捕获PT行程，因此只允许根据用于访问活动的站点和站点的位置部分重建纵向活动序列。我们提出了一种从智能卡数据中部分推断活动序列的方法，该方法分为两个步骤。首先，每个人访问的站点被聚集在与不同活动地点相匹配的用户特定的区域中。然后从连续行程的起始区和目的地区域推断用户的活动序列。通过这些序列，相对于Ortega-Tang(2013)、Ma(2013年)等人和Kieu等人(2014年)使用的标量聚合度量，根据序列的底层结构总结了每个用户的行程。

定义用户区域

设X_u={x₁,x₂,hellip;,x_nu}为被用户u访问过的行程起始或目的地的站点集合，n_u表示被用户访问的可辨别的地点数量。由于乘客可以使用不同的停靠点或站点访问相同的活动位置(例如，取决于一天中的时间、一周中的某一天或之前的位置)，因此停靠点和站点按k_u地理用户区域进行分组。定义一个区域集A_u={A₁,A₂,hellip;,A_i,hellip;,A_ku}，用于指示用户u，则有：A_isube; X_uforall;A_iisin;A_u.使用具有完全距离的分层聚类为每个用户u定义了一组单独的区域集A_u.(Day和Edelsbrunner，1984)。

如算法1所述，通过迭代合并两个最近的区域，直到两个区域之间的最小距离d大于或等于预定义的阈值距离D，区域也就被定义出来了。两组停靠点(站点)之间的距离A_i和A_j是通过以下方法衡量的：

(1)

(2)

其中d(x_l, x_m)表示两站之间的欧几里得距离，t_l,m是用户被观测到的在x_l和x_m之间的出行次数，T_u是用户u完成的行程总数，tau;是预定义的参数。用户经常出行的站点很可能与不同的活动相关联。因此，参数tau;用于确保不把特定的两个站点（或停靠点）组合在同一用户区域中，用户的很大一部分行程都在这样的特定站点间进行。“最大距离阈值”(Maximum Distance Threshold D)可确保编组在同一区域中的所有站点和站点之间的间距不超过预定义的可行走距离。

算法 1聚合式阶层分群法

推断纵向活动序列

为了重建如图1所示的活动序列，可将与用户区域对应的活动状态分配给以用户行程为边界的每个间隔。为了做到这一点，每个人的行程都是按时间顺序安排的，每一次旅程都是按顺序考虑的。对于每段行程i，分别使用相邻行程的目的地和起始区（i-1和i 1）来推断活动状态，如下所述。这一方法可以使用明确记录行程起点和目的地的任何智能卡数据实施，或使用车辆定位数据间接推断(Chu和Chapleau，2010年；Munizaga和Palma，2012年；Gordon等人，2013年)。对于这项研究，Gordon等人提出了用于重建行程算法(2013)。

如果当前行程i是与行程i-1在同一天开始的，或者是在行程i-1的后一天开始的，则通过比较行程i-1的目的地和行程i的开始位置，建立从i-1的结束时间到i的开始时间的用户活动状态。如果i-1的目标区域与i的起始区域相同，则推断其为活动状态。如果区域不同，则用户在间隔期间使用非PT模式在两个区域之间移动。
如果当前行程i开始的时间晚于行程i-1之后的一天，或者如果行程i是用户完成的第一次行程，则根据当前已完成行程开始的一天到行程i从起始位置开始的时间推断用户的位置。
如果当前行程在与行程i 1在同一天结束，或在行程i 1的前一天结束，当行程i 1被视为当前行程时，则可以从行程i的结束到行程i 1的开始，根据1中的说明推断出用户位置。
如果当前行程在行程i 1的前一天结束，或者如果行程i是用户完成的最后一次行程，则通过行程i的结束到那一天结束能够推根据行程i的目的地推断出用户位置。

因此，用户完成的所有行程都可以链接到一系列间隔中，其特征是活动状态与用户的区域、开始时间和结束时间保持一致。行程i的起点与行程i-1的目的地不匹配的间隔被分配状态-1，表示用户在间隔期间使用非PT模式在两个区域之间活动。用户在PT行程中的间隔被分配为状态-2。在某些时间间隔内，信息可能不足以对用户的位置做出任何推断。这包括未观察到行程的天数，或数据发布导致丢失起点和目的地的间隔。这些间隔被分配为状态0。

表1汇总了每个可能的活动状态的值。值低于1的状态表示无法用于推断其用户区域的间隔。0以上的状态表示成功推断用户区域的间隔。一旦在分析期间推断出用户的活动状态，就会根据在每个区域花费的时间对用户区域进行排序。因此，区域1总是与推断出的用户花费时间最多的区域保持一致。除此顺序外，状态的数值不包含任何特定的序数刻度。

聚类分析

为了根据用户在多个星期内的活动组织情况对其进行集群，被推断出的活动序列被离散为一系列有限时间仓(例如1h时间仓)。这类似于将每个个体的活动序列建模为一个

剩余内容已隐藏，支付完成后下载完整资料

英语原文共 16 页，剩余内容已隐藏，支付完成后下载完整资料

资料编号：[273075]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

对公共交通用户在持续数周活动序列中模式的推断外文翻译资料

介绍

方法论

纵向活动序列的表示

定义用户区域

推断纵向活动序列

聚类分析

您可能感兴趣的文章

登录

注册

找回密码

介绍

方法论

纵向活动序列的表示

定义用户区域

推断纵向活动序列

聚类分析

您可能感兴趣的文章