基于各城市共享单车数据分析的交互式可视化分析外文翻译资料

 2022-04-28 22:31:25

英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料


基于各城市共享单车数据分析的交互式可视化分析

摘要

共享单车计划正在逐渐成为城市交通的替代或互补模式。在本文中,我们探讨了一个交互式基于Web的可视化分析应用程序用于比较两者之间的使用模式的效用。

不同的共享单车计划,向我们展示了在用户人口统计和出现特征方面的可调节的波动性,揭示了城市中乘客之间的差异。我们还执行派系检测和基于Louvain模块化的社区检测,以揭示不同情况下高连通性的区域。我们的工作利用ST-分类流动模式的手段。最后,利用来自共享单车组织的公开数据,我们进行了一些结构数据过滤器,算法和可视化的实验。这项初步工作展示了交互式可视化分析的重要性,在既定的共享单车系统之间可能会有所帮助,为今后的研究或政策制定提出框架问题。

类别和主题描述

H.2.8[数据库应用]:数据挖掘

关键词

共享单车,社区检测,可视化,可视化分析

  1. 介绍

自行车份额计划是城市内部交通日益普遍的模式。2013年4月,美国共有26个共享单车计划,预计随后两年将增加一倍,因为许多城市正在调查此选项的原因有很多,共享单车可以提供传统交通工具的替代方案,或者更可能的是,这是解决从公共交通站点到最终目的地的“最后一公里问题”的补充服务。此外,共享单车系统可能有助于缓解汽车拥堵并减少污染,但相对较少的研究已经完成,以评估它们在这些领域的实际影响。用户受益包括通勤时间可能缩短10%;和一个更健康的生活方式,最近一项调查伦敦周期租赁计划对健康状况影响超过半数的研究,数百万的用户报告称,残疾调整寿命年度有显著减少,特别是对于男性和年长参与者。这些潜在的好处促进了最近在美国推广自行车份额可行性研究和促进自行车骑行政策。

为确保此类企业的成功,研究现有公共自行车计划的运作以识别改善自行车份额计划实施的有效性的功能是有用的。例如,中国自行车份额计划的比较显示,政府主导的投资,自行车道和技术先进的设备大大提高了自行车份额计划的性能。将公共自行车提供给未登记的用户可以增加所采取的旅行次数,并在对接站之间引入新的流动模式,而与预留仅供用户使用的系统相比。研究还提出了许多与特定站点有关的变量(邻近土地利用,人口密度,过境距离,距离中央商务区的距离,自行车道和自行车基础设施)以及城市内的变量(车站密度,天气,人口统计,对骑行的态度)影响着骑自行车的人数。

尽管共享单车使用模式和趋势是必须的,各个城市之间差异较大,文献中比较研究相对较少。然而,公共分析双向自行车项目可能会带来有脚趾的见解,可用于改进或扩大现有服务或为新计划制定规划决策。进一步分析,非技术人员无法获取自行车网络研究中的分析。本文旨在通过基于Web的交互式可视化分析应用程序来解决这些需求,以同时探索美国多个城市的共享单车数据。具体而言,我们专注于根据日期,时间,旅程持续时间和用户数据等过滤条件使用模式来检测网络中的子社区。我们使用最大派系检测来识别共享单车网络中最相互关联的部分,以及基于模块化的社区检测来查找子社区。另外,我们使用ST-DBSCAN对相似行程进行聚类是该算法的一个新的应用。城市规划者可能能够利用这种工具来改善自行车基础设施和确定目标地区,以及共享单车系统的人口统计。

  1. 相关工作

自行车被看作是一种成本效益、生态友好和健康的城市交通模式,因此众多的研究努力试图确定城市人口采用自行车的因素。通过调查进行了大部分工作,例如Dill和Carr使用跨美国50个城市的人口普查数据来统计分析骑自行车上班的人数与城市密度或平均人口年龄之间的相关性。然而,随着现代共享单车系统的出现,停靠站的自动化数据收集使自行车运输的定量评估成为可能。早期对共享单车系统的研究主要通过关注从车站占用数据中提取时空活动模式来表征系统行为。其中一些研究始于将对接站基于其时间占用情况分组成组。Froehlich、Neumann和Oliver是一批分析自行车份额使用率的人,并试图用他们的结果来推断城市潜在的人类流动模式。Kaltenbruuner等人认识到这种研究有可能改善现有共享单车项目的性能。进行了类似的研究,以利用台站的开采活动周期来生产台站占用的短期预测。Vogel等人也通过拾取和返回活动配置文件来聚集站点,并试图通过检查站点的行为来说明由此产生的聚类的行为。事实上,许多研究都有试图确定影响对接站活动的因素,揭示了对站的复杂依赖性密度、人口密度、邻近公共交通、海拔高度、邻近企业和工作密度。

与这些关注单一共享单车系统的研究相反,Orsquo;Brien等人分析了来自世界各地的38个系统,基于时间使用模式开发了共享单车系统的分类。这项工作还包括根据系统属性(例如车站数量,系统紧凑比率,工作日和周末使用高峰数量等)对全球自行车份额进行等级聚类。这项研究突出了绘图的价值,共享单车系统之间的比较,以深入了解城市和系统特定参数的影像。到目前为止,所讨论的文献大多分析的是使用车站占用的数据。然而,这排除了检查特定车站对之间联系的可能性,这可以更准确地测量自行车流量。Borgnat等人能够获得旅行记录的数据,并且对里昂共享单车系统功能进行了广泛的探索性研究。在全系统范围内,他们在该计划中模拟了研究的受欢迎程度、天气、节假日和一周中某天的总租金数量的影响。此外,旅行数据的可用性使他们给予分层模块化的社区检测和Kmeans聚类,以在某些高活动时间基于权重对边缘进行分组。因此,旅行数据的可用性要求使用图论算法来探索网络属性并拓宽站点“群组”的概念。在我们的工作中,我们已经实施用于此目的的聚类检测、社区检测和ST—DBSCAN对聚类相似路线的新应用。

近年来,许多共享单车组织已经将车站和行车数据作为数据可视化挑战的一部分公之于众。这表明共享单车供应商对清晰呈现数据分析结果的需求日益增加,这个问题迄今为止,从信息可视化和可视化分析社区收到的关注度相对较低。即使简单地观看电视台之间的行程也是具有挑战性的,因为节点之间的大量可能的链接和站点的不均匀地理分布可能导致视觉混乱。由于视觉显著性引起的误导性印象,伍德已经开发出伦敦共享单车系统所采取行程的交互式可视化,试图最大限度地减少视觉混乱造成的后果,通过以增加频率的顺序绘制曲线,从而使得被重叠遮挡的链接极少发现。作者最近使用了可视化来检查关于伦敦共享单车系统使用情况的具体问题,如通勤者或男性和女性用户所做的旅程。因此,很显然,交互性和灵活的查询可以促进各种与使用相关的问题的探索。

我们的工作通过带来这些文献,将这些研究的许多方面结合起来,创建针对自行车计划管理者和研究人员的可视化分析工具。我们相信,使用各种数据过滤器的交互式应用程序将促使界面用户快速提出感兴趣的问题。我们通过增加过滤数据的视觉呈现以及执行社区检测、集团检测和旅程聚类的选项。使得该应用程序具有并排布局以便于在多个城市之间进行比较。

  1. 数据采集

许多共享单车组织已经将他们记录的一些系统数据作为数据可视化竞赛的一部分公开提供。我们从三个这样的组织获得了车站和行程数据:波士顿的Hubway,华盛顿的Capital Bikeshare和芝加哥的Divvy。数据包括车站信息和行程日志。前者包含站点ID、名称、坐标和容量,其中日志记录出发站、目的站、自行车结账、返回时间、出行时间和用户信息。在芝加哥,注册用户占芝加哥旅行的53%,波士顿有记录的旅行占64%,华盛顿有80%。数据被清理并输入到SQLite数据库中。

  1. 算法

使用适用于日期,一天中的时间,旅程持续时间,用户类型,年龄和性别的过滤器,可以选择行程数据的子集并构建有向图或网络。其中节点是站点、边是车站之间的路线和边缘权重对应于站与站之间发生的行程次数。随后,我们将可以应用各种图论理论算法到这个网络来研究它的连通性。

4.1最大集合检测

选择最大集合检测来确定给定行程数据的一部分的网络的最大互联部分。将加权有向图结构转换为带权无向图,变权重低于最小流量阈值的便是专注于高频连接。我们然后找到高流量图的最大集合。这种计算可能有助于确定是否服务于一个紧密团结的小社区的核心小组,并且在这座城市内包含一个自给自足的地区。

4.2 Louvain模块化优化

贪婪的模块性优化方法(Louvain算法)被用于执行社区检测,以便找到不一定行程完美派系但仍然高度连接的站组。首先,Louvain方法通过本地优化模块化来寻找“小”社区。然后它聚合属于同一个社区的节点,并建立一个新的网络,其节点是社区。这些步骤重复进行,直到达到最大模块化程度,并生成社区层次结构,选择这种方法是为了找到比一般网络连接更多的站点群,存在隐藏的子社区。

4.3 ST-DBSCAN

我们选择ST-DBSCAN来聚类相似的行程,因为它能够将时间和其他非空间数据特征合并到基于密度的空间聚类中。DBSCAN算法的核心是使用邻居来定义密度。在我们的实施中,ST-DBSCAN在执行聚类之前利用空间(行程的地理位置)和时间(行程的开始和结束时间)信息来查找“相似”行程。这种方法的目的是通过将一组相邻站之间的行程分组来提取一致的流模式,发生在大致同一天的同一时间。

5 可视化

我们创建了一个可视化工具,用于比较不同城市间自行车使用模式。为了达到这个目的,设计了一个应用程序,以便于并排显示两张地图的各种滤镜,使用户可以调整他们需要比较的项目的哪些方面。站点由指定这些圆圈的大小与在该站点开始或结束的旅程数量相对于所示出的总次数成正比。圆圈的颜色将传入和传出行程的比率进行编码,“水槽”型站点的颜色更为红色,“源”型站点的颜色更蓝。点击一个站点可以显示数据和便捷在这里开始和结束。我们有三个算法和一个站点活动查看器面板的单独面板。

图1:可视化工具:左列包含可视化组件和过滤器之间切换的选项卡。

地图和站点标记在Leaflet中实施,这是一个用于地图创建的开源Javascript库。单独的地图图块由StamenDesign提供(免费用于非商业用户)。D3的缩放功能用于确定单个路径的颜色和宽度。过滤小部件和逻辑是通过JQuery和JQuery UI的混合实现的。具体而言,JQuery UI提供了一个日历小部件和范围缩放器,帮助用户选择日期和时间间隔。一旦通过小部件选择了筛选参数,它们就会通过JQueryAJAX调用发送到服务器,并在那里传递给相关的Python脚本。结果以JSON格式发送给客户端进行可视化。

6 实验与讨论

在设计我们的可视化工具时,我们决定专注于以最简单的方式对结果进行最简单的解释,从而为我们的算法提供可视化的简单表示。我们的目的是让人民更深入地了解我们考虑采用我们的方法的城市作为工具,同时试图限制误解的可能性。为此,我们的可视化基于主要形状,颜色和大小,文本仅限于点击鼠标时可用的工作站详细信息。我们的工具的四个组件具有单独的可视化:每个算法一个、探索性分析一个、以保持单个组件的重点。在应用可视化对应关系之前,应归属于不同的组成部分,我们测试了波士顿、华盛顿特区和芝加哥共享单车系统提供的可视化数据。

6.1探索性分析:波士顿的深夜车手

我们为我们的工具开发了一个探索性分析组件,使用户能够使用我们的过滤和可视化功能查找或考虑数据中的模式。在这个组建中,一个圆圈表示地图上的每个站点。其半径对应于此站的行程数。我们在行程总数上使用对数缩放来确定确切的半径大小。颜色表示每个工作站的传入和传出旅程的比率作为梯度。所有来港旅行的车站将为红色,而所有出站旅程的车站将为蓝色。黑色分配给所有没有车站的行程。我们在这里研究深夜使用波士顿旅行共享单车程序来演示如何将过滤器应用于数据的能力可以帮助识别亚群之间的系统使用趋势。这种特殊情况对于希望促进系统管理的项目主管具有真正的意义。

图2:波士顿男子(左)和女子(右)骑自行车者在晚上10点到凌晨4点之间的旅行。

图3:ST-DBSCAN适用于波士顿和华盛顿特区,早上7点到8点(上图)和下午5点和下午6点(下图)。

作为深夜旅行选择的安全可靠性。首先,时间过滤器用于选择晚上10点到凌晨4点之间的行程。接下来,应用用户过滤器来选择注册用户进行的旅行,为其提供人口统计信息。最后,我们可以在性别过滤器中指定“男性”或“女性”,以确定使用中是否存在差异模式,可能是由于深夜的安全问题。

图2显示,与男性骑车人相比,女性骑车人此时有更多未使用的车站,并且与男性骑车者相比具有更鲜明的流动模式(红色和蓝色节点更多,混合节点更少)。女性车手的旅行次数也少得多:151次旅行与男性骑车者626次旅行相比。了解为什么男性和女性的自行车运动模式如此广泛地消沉可能会引起项目总监的兴趣,以增加他们的系统对女性车手的可及性。

6.2 ST-DBSCAN

图3显示了ST-DBSCAN在早上和和傍晚应用于波士顿和华盛顿特区的旅行聚类的结果。由此产生的颜色编码旅行聚类允许用户识别旅行流程中的模式,并理解发生的旅行的不同“类型”。在这两个城市,晚上有更多的流量与早上相比。此外,与一天中特定时间相关的流量很容易区分,如波士顿北站和金融区之间的流量(蓝色群集在上午7-8点)和华盛顿特区市中心与北部住宅区之间的流量(绿色群集在7-8am)。

6.3Louvain

图4:在波士顿和华盛顿特区出游的Louvain算法的结果。

我们代表Louvain提供的站点聚类,其匹配的节点颜色表示通用聚类成员。该算法允许用

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[464946],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。