英语原文共 13 页,剩余内容已隐藏,支付完成后下载完整资料
基于社会媒体数据的城市旅游区提取与分析
摘 要 一个城市作为一个旅游目的地,通常由多个旅游景点组成,如自然风景区或文化风景区。这些景点在城市空间中的分布有一些特定的形式:在某些地区聚集,在其他地区分散。众所周知,用户在一个城市组织旅游,不仅要根据不同景点之间的距离,还要根据时间限制、费用、兴趣、不同景点之间的相似性等因素。因此,用户的旅游可以帮助我们更好地了解城市范围内不同景点之间的关系。本文提出了一种从社交媒体数据中检测旅游者时空行为的方法框架,并将其用于城市旅游区的提取和分析。我们相信,这一城市空间分区将为城市规划、旅游设施提供、风景区建设等领域做出重大贡献。选取中国典型的旅游城市黄山作为实验区。
关键词 旅游 社交媒体 时空行为
1.导论
研究城市旅游目的地的空间结构一直被认为是旅游研究的重要课题(Pearce,1998)和城市旅游规划的内容(Dredge,1999)。根据旅游空间系统理论(Gunn和Var,2002),旅游目的地(作为一个城市)由旅游景点和相关基础设施组成。旅游景点是旅游者参观的主要诱因,是指个体旅游者或旅游者认为能够满足其一个或多个特定休闲相关需求的特定场所的物理或文化特征。这些特征可能是自然环境(如气候、文化、植被或风景),也可能是特定的位置(如剧院表演、博物馆或仪式活动)。相关基础设施为游客提供各种服务,包括交通、住宿、餐饮、娱乐等。旅游景点及其周边相关基础设施被称为旅游区(Dredge,1999;Pearce,2001),可被视为游客的主要活动区。众所周知,旅游者的整个旅行过程通常包含连续的几天。在大多数情况下,每天的路线以居住场所开始和结束(Shoval、McKercher、Ng和Birenboim,2011),而中间节点通常由餐厅、旅游景点、加油站、商店等组成,以满足其基本和娱乐需求(David A.Fennell,1996;B o B McKercher、Wong和Lau,2006;Rebollo和拜达尔,2003年)。此外,时间和交通等限制(Lau和McKercher,2006;Page和Connell,2014)以及游客的个人偏好(Bob McKercher等人,2006)和对旅游目的地的知识限制也会影响他们的日常旅游日程。这些因素综合在一起,使旅游者的日常旅游线路相对全面、集中。根据定义,旅游区是由多个节点组成的城市空间集中区域,这些节点“可能能够满足各种旅游需求和期望”(Dredge,1999;Pearce,2001)。因此,我们认为,旅游者的日常旅游路线应该主要与单一的旅游区重叠,并有助于在城市空间中识别旅游区。缺乏适当的旅游活动数据是旅游研究的主要限制因素(Pearce,1979,2001;Lew和McKercher,2002)。然而,进入数字时代(Shoval and Isaacson,2007)后,位置感知设备的普及和社交网络服务(SNS)的发展,使得以用户为中心的个体时空行为及其上下文信息的获取成为可能,这些行为具有长时间序列、海量、高精度等特点。这些信息可以帮助地理学家了解用户在城市空间内的时空行为模式及其与城市环境的相互作用,从而填补旅游研究数据不可用的空白(Cranshaw、Schwartz、Hong和Sadeh,2012;Wood等人,2013;Liu、Liu、Gao、Gong、Kang、Zhi、Chi和Shi,2015年)。
在本研究中,我们引入一种新的资料驱动方法,透过旅游者的整体旅游行为来撷取和分析城市的旅游区结构。中国黄山市因其在旅游市场上的知名度而被选为研究区。第二节回顾了旅游者时空行为研究和社会媒体研究的相关工作。第三节详细介绍了本文所使用的数据和方法。第四节介绍了我们的方法在黄山市研究区的应用。第五节讨论我们的工作和今后需要做的工作。
2.相关工作
Pearce在文章中总结了城市旅游的空间分析可以从三个尺度进行,从而形成城市旅游的综合图景(Pearce,2001)。在城市空间层面,城市被视为“分析的焦点或单元”(Pearce,2001),通常社会经济数据和综合数据被用于研究单个城市的某些特定旅游方面(Lew,1992;Shoval等人,2011;Baležentis等人,2012;Pons,Salamanca和Murray,或旅游流等多个城市之间的关系(Oppermann,1994、1995;Yan,2004;White and White,2007;Xing zhu and Qun,2014;McKercher et al.,2006)。在旅游地层面上,城市空间中不同旅游地内部或不同旅游地之间的旅游者时空活动研究因其规模较小而相对容易进行(Shoval和Isaacson,2007)。数据收集方法,如问卷调查、摄像机记录、全球定位系统(GPS)和陆基跟踪系统,都被用来收集信息,以分析、解释和模拟用户的运动模式(Hartmann,1988;Keul和Kuhberger,1997;Itami等人,2003;Orsquo;Connor等人,2005;刘和麦克尔,2006年;卢和麦克尔,2006年;爱德华兹和格里芬,2013年)。在旅游区层面上,旅游并不是一成不变的,而是集中在城市空间的特定区域。对城市旅游业的详细分析需要集中在子结构中,以便全面了解城市不同部分的模式、过程和相互关系。本研究属于旅游区划分的范畴(Pearce,2001)。在这一层面上,我们进行了一些定性研究(Teo and Huang,1995;Savage,Huang,amp;Chang,2004;Pearce,1998),根据旅游区的功能来识别和解释旅游区。对旅游区规模的研究,也是我们工作的尺度,有助于我们深入了解城市次旅游区的功能,有助于弥合城市空间研究与旅游地研究之间的鸿沟。然而,旅游区研究的难点在于要求旅游者的时空活动数据既详细又丰富。不幸的是,传统的数据采集方法如电话调查或对旅游者时空行为的现场调查的局限性可能会耗费时间和精力(Shoval和Isaacson,2007)。这限制了区域尺度上的城市空间研究。进入数字时代后,位置采集技术发展迅速,产生了大量廉价易获取的数据(Lu和Liu,2012),如手机记录、GPS数据、消费记录、SNS数据和VGI(志愿地理信息)(Goodchild,2007)。这些数据详细地描述了人类的时空行为,为我们加速旅游研究提供了巨大的机遇。首先,数字数据工具已经在一些旅游行为研究中得到了测试或验证。Cheng,Caverlee,Lee和Sui(2011)探索了社交媒体在描述用户时空活动方面的许多潜在应用:通过大量地理标记的twitter数据,他们计算出了个人的移动长度、旋转半径、检测到的个人的家位置的模式,并讨论了可能影响这些活动的因素用户移动性。Wood、Guerry、Silver和Lacayo(2013)使用Flickr数据作为他们的数据源,对全球836个娱乐场所的访问率进行了估算,在与每个场所的官方统计数据进行比较后,他们得出结论:“众包信息确实可以作为经验性访问率的可靠代理。”,Roose、Mark和Silm(2008)将爱沙尼亚的被动移动定位数据与同一时间的传统住宿统计数据进行了比较,发现这两个数据集的相关性达到0.99,证明移动定位数据对于描述用户的聚集时空行为具有很高的精度。Hawelka等人。(2014)使用twitter数据对国际旅行者进行了类似的研究;他们验证了“地理位置的twitter是全球移动行为的代理。
近年来,一些研究城市结构和旅游行为的工作也利用这些数字数据进行。Asakura和Iryo(2007)通过对移动定位数据的聚类分析,发现了旅游者行为的一些拓扑特征。Donaire、Camprubiacute;和Galiacute;(2014)根据Flickr数据中的旅行摄影发现了不同类型的摄影师。翟等人。(2015)从社交媒体数据中揭示了餐馆在城市中的受欢迎程度。Liu等人。通过引入异地手机用户空间互动模式分析,改进了城市空间用地分类。根据兴趣点(POI)和社交媒体登记数据,Cranshaw等人。(2012)实施城市区域空间划分,研究城市“社会动态”。袁、郑、谢(2012)利用同一类型的数据探讨了城市不同区域的主要功能。Hollenstein和Purves(2015)使用用户生成的Flickr数据探索了美国各地城市的“核心区域”和“边界”,whileHu等人。(2015)提取城市空间中吸引人们注意的感兴趣区域。尹、曹、韩、罗、黄(2011)提取不同城市Flickr用户的常见旅游轨迹。城市空间内的旅游目的地热点也通过社交媒体数据检测出来(Crandall、Backstrom、Huttenlocher和Kleinberg,2009;Liu、Sui、Kang和Gao,2014;Garciacute;a-Palomares、Gutieacute;rrez和Miacute;nguez,2015;Zhou、Xu和Kimmons,2015)。
与相关研究不同的是,我们的方法是利用用户的地理微博序列及其时空特征来代替单一的地理微博进行旅游区检测。我们的结果将透露更多信息。
3.数据和方法
3.1研究地区
本文选取了中国东南部安徽省典型的旅游城市黄山市作为研究区(图1、a)。黄山市的主要收入来源是旅游产品。黄山市气候宜人,四季分明,自然人文景观数不胜数,每年吸引游客3000万人次,几乎是当地人口的20倍(147万,2013年)。
黄山市以著名的风景名胜区黄山命名,或字面翻译为黄山,并列为长城和著名的兵马俑作为中国最吸引人的旅游景点之一(图1,b)。在休宁县的西北部,还有一座山名叫旗云(字面意思是“云高山”)。齐元山不像黄山那么有名,主要是吸引当地的游客。安徽省最大的人工湖太平湖也位于黄山市以北。关于黄山的这些地标的信息可以看表1
图1.黄山市概况。黄山市在中国的位置。副图。黄山市七县及黄山市地标。
除了自然景观外,黄山市的许多人文景观每年也吸引着来自世界各地的数百万游客。特别是西递和宏村古村落,已有数百年的历史。惠州古镇位于黄山市区东北约20公里处,历史悠久,一日游吸引众多游客。从图1、图b可以看出,黄山市的风景名胜区分布在黄山市周围,而其火车站和国际机场均位于黄山市屯溪县市区(在中国,“市”的行政级别高于“县”,通常一个城市由几个县组成)。因此,屯溪县在这里扮演着游客中心服务区的角色。在接下来的章节中,我们将详细介绍我们提取和分析城市旅游区的方法。总体而言,我们的方法包括四个步骤:(1)收集研究区域的社交媒体数据,包括POI数据、用户简介数据和地理微博(lon-lat-coordinate微博)数据;(2)提取用户与旅游相关的地理微博,并对其进行日常组织;(3) 将城市空间划分为网格,应用社区检测算法寻找强关联网格;以及(4)利用模式分析方法提取和解释城市旅游区。我们的研究工作流程如图2所示。
图2.旅游模式分析的工作流程
3.2.新浪微博数据
在本研究中,我们利用新浪微博收集的社交媒体数据来研究黄山市市民的旅游行为。新浪微博自2009年成立以来是中国最受欢迎的社交网站之一(郭、李、涂,2011)。我们通过新浪微博的应用编程接口(api)实现了一个爬虫来检索三种类型的数据,即POI数据、用户简介数据和用户地理微博数据。
3.2.1POI数据
对黄山市境内所有POI数据进行了反演。POI的每条记录都包含POI id、title(name)、address(text form)、lon lat坐标、category code、category name、check-in用户数、check-in微博数等属性。表2显示了POI数据的示例。新浪微博正式为其POI数据提供了两层分类架构(记录在分类领域):第一层包括14个类别,涵盖购物服务、专卖店、加油站、户外旅游、其他位置等最常见的场所类型。第二层将第一层划分为268个子类别,为每个POI提供更详细的描述。在这样的层次结构下,与旅游相关的poi大多包含在“户外旅游”(一级)中,包括国家级风景名胜区、寺庙、世界遗产、滑雪场、动物园等子类别。事实上,也有一些poi在数据集中被网站归类为“未知”。为了提高数据的准确性,我们手动查看这些记录,并根据它们的名称和位置选择所有与旅游相关的poi。经过人工过滤和校正,最终得到1264个直接旅游相关poi。这些poi占黄山市poi的5.7%(18458条记录)。图3为黄山市旅游业相关poi及其他poi分布图。
图3.黄山市poi分布
图4.黄山市2012年7月1日至2013年7月1日地理微博及其点密度分布
图5.用户一天发布地理微博统计
3.2.2用户配置文件数据
最近(在一年时间内)在POI登记的用户的配置文件可以通过POI检索。用户简介数据包括用户信息的详细信息,如注册地点、性别、好友数量、关注者数量、发布的微博数量、账号创建时间。
3.2.3黄山市地理微博
一旦在第二步获取用户信息后,可以通过API检索用户的地理微博。地理微博有两种类型:签到和非签到。如果在用户发布微博时打开GPS模块,将记录用户当前位置的lon-lat坐标,此微博将成为地理微博。在此
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[235317],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。