英语原文共 13 页,剩余内容已隐藏,支付完成后下载完整资料
中国房价的时空分析—基于大数据角度
Shengwen Li1 amp; Xinyue Ye2 amp; Jay Lee2,3 amp;
Junfang Gong1 amp; Chenglin Qin4
摘要:近十年来,随着中国经济和城市化的迅速发展,我国的房地产行业也相应的快速发展。 然而城市和农村之间经济发展失衡以及这两个地区房价的过度增长和波动引起了人们的极大注意。这些问题已经成为区域经济研究的重点,如何有效且精准的预测成为研究的一个重点和主要争议。
目前,在金融市场上,根据人口流动变化和城市化进程的发展趋势,许多案例研究了
引起房地产价格波动的机理。然而,很少有案例是通过分析大数据来检验时空动力学如何引起房价波动的。本论文使用的数据来自于中国的网络房地产平台{sofang.com},我们调查了在大数据背景下房价波动的时空趋势。本文利用空间数据分析和建模技术实现以下目标:1、确定微观角度上房价波动的空间分布;2、探索市场上居住所有权的时空动力学;3、检测房价是否存在地理差异。我们分析的结果揭示了大都市地区房价的时空格局,展示了大数据及分析手段的作用。
引言
从1978年至今,中国城市化快速发展,许多城市的发展模式是以多中心土地利用和发展相应住房市场为特征。中国快速的城市化进程推动了住房市场的发展,使得住房需求不断增加。同时,房价的不稳定问题也称为一个社会焦点,在许多方面对中国社会发展产生了影响。 Jim和Chen于2006年探讨了环境因素对广州住宅价值的影响,环境因素包括窗户朝向、绿色空间景观、楼层高度、小区绿化和水体以及交通噪音。Huang和Yin认为,自然水资源对房产价值的有着极大影响。2010年,Chen等人利用时间序列和横截面数据研究了房价的决定因素,认为急速的经济发展和城市化促进了住房市场的发展,房价的飞涨在许多城市都有体现。2013年,Barros等人对中国69个城市的房价的时间序列进行了研究,以观察中国可能存在的人为膨胀的房地产市场。房价的时空动态已经成为地理学家和经济学家关注的热门研究领域。
尽管从不同角度研究社会大数据的论文越来越多,但它们很少用于现实研究。即使考虑到通货膨胀,中国城市的经济增长速度也令人印象深刻。应该注意的是,在中国经济成功背后,许多城市也面临严峻的挑战:经济增长和潜在的不平衡导致社会不公,因为基础设施水平,附近市场,自然资源,人口因素,政策等原因导致沿海内陆城市发展的差异。这些问题相关的数据可能很大,而且内容也很复杂,并会不断增长。目前,中国住房市场分析由于数据不全而受到阻碍,因为数据只能从传统的统计年鉴中获得,而传统的统计年鉴只提供汇总的数据。
分析我国城市住宅价格的时空变化仍有一定的限制。不同的城市有不同的地方法律法规,比如对每个人可以购买房屋数量的限制,以及与购买房屋所缴纳的税收政策。此外,城市之间的经济和政治差异也导致了中国不同地区房价的地理差异。微观层面(城市内部)的房价研究为避免政治和经济偏见带来的影响提供了机会。利用微观层面的数据来探测房价的时空动态,不仅有助于人们了解城市土地利用的空间结构,而且有助于揭示城市发展的原理。人们普遍认为,位置是房价的主要决定因素。但是,房价的变化在多大程度上可以用它们的位置来解释,到现在为止还没有从大数据的角度进行实证检验。
在本论文中,我们讨论了如何应用地理空间分析方法来分析武汉房价的大社会数据。我们在这项研究中使用的数据涵盖了中国在线房地产平台(sofang.com)中所有与住宅相关的帖子。过去10年,我们专注于武汉的帖子。本文的主要研究对象是武汉住宅销售价格的大数据分析和地理效应。此外我们还讨论了价格如何在微观层面上导致不同的方向变化。本文的统计分析和实证结果对其他城也市具有启示,同时,在很大程度上也适用于其他发展中国家的城市。
随着时间的推移,城市逐渐在人们的互动中逐渐形成(Jiang and Miao 2014)。住房市场的扩张反映了中国城市的发展。基于大社会数据的住房市场分析通常采用自下而上的数据收集方法。由政府自上而下收集和维护的传统地理数据通常是抽样和汇总的,因此他们往往是小尺寸和粗略的内容。另一方面,从互联网上获得的新数据是海量的,并且是基于个人信息的。由于通过这种方式收集的数据量很大,因此被称为“大数据”。例如,社交媒体已经成为许多人日常生活中的完善交流机制。传统的城市分析通常是自上而下的,由当政府强制执行。或通过社交媒体收集城市社区之间的虚拟互动,以其原始的形式和内容来反映城市系统动态的真实情况。通过移动设备连接到的无处不在互联网也将我们的城市环境转变为混合空间,在这里,社会互动和交流模式通过物理、数字或两者的混合空间进行。这些社区推动的社会服务使人们能够在日常生活中利用当地和全球社区的集体智慧。
本文运用空间数据分析与建模技术要达成一下目标:第一,从微观层面识别价格的空间分布;第二,探索市场住宅物业的时空动态;第三,检测房价随着空间变化的趋势。
数据采集和分析方法
数据搜集和处理
随着互联网和手机的普及,找房已经从过去的“口耳相传”演变为通过搜索房地产网站和在微博上发布信息。中国有几个房地产门户网站,如www.fang.com、house.sina.com.cn、www.xinhuanet.com/house、www.fcmhw.com、www.house365.com、www.fdc.com.cn和www.anjuke.com。这些网站吸引了不同数量用户的使用,证明了这类工具的广泛使用。
其中,搜房控股有限公司(简称:房网)是中国最领先的、规模最大的房地产互联网门户网站。这一排名是独立市场研究机构DCCI (http://www.dcci.com.cn)发布的。通过该网站,为中国快速增长的房地产和家居改善行业提供营销、电子商务、上市等增值服务(Newswire 2015)。到2015年1月,活跃的PC和移动用户超过8200万。其网站和数据库包含了中国350多个城市的房地产相关内容,几乎囊括了所有主要城市近10年来建造的所有房地产。该网站记录了每一处住宅物业的位置、销售历史和要价。这些信息为我们提供了利用大数据分析房地产市场时空趋势的机会。
网站上的数据可以使用爬虫技术或通过网站官方发布的应用程序编程接口(API)获得。一般而言,API是获取相关网站数据的首选。但这种访问通常是有限制的。例如,特定时间段内的数据数量或API调用数量是有限的。这是避免由于大量数据下载而导致的过载来保持服务器的良好性能。或者,网站所有者希望保护其利益不受竞争对手的影响。即使有这些限制,web爬行也为我们提供了一种可行的方法来从网站获取数据,而且成本很低。Fang.com没有提供允许数据检索的API。但它提供了一个网页,可以在地图上浏览所有的居民区。此外,每个城市在房网上都有一系列的网页,列出房地产的详细信息,如开发商、房屋状况、总面积、价格历史等。为了下载这些信息,我们开发了一个网络抓取工具来检索这些数据。这个网页抓取工具首先从网页中提取出一个城市的新建区及其位置。之后,可以提取每个地区每栋房子的历史价格清单。
以中国中部城市武汉为例,过去10年里(2005年1月1日~ 2015年1月31日)共有4638套新住宅单元,挂牌价格为7752元。在获取数据的同时,我们还使用社交媒体数据来评估这些房地产市场及其周边地区的活跃程度。新浪微博一直是中国最大的社交媒体。它类似于Twitter和Facebook,大约30%的中国互联网用户使用它,其市场渗透率与Twitter在美国的市场渗透率类似。截至2013年12月,微博月活跃用户达1.291亿,日活跃用户约6140万。2013年12月,新浪微博上的帖子数估计超过28亿。新浪微博为开发者提供了api,方便用户在微博中扩展应用。虽然可以通过新浪微博的搜索API来收集数据,但是在获取数据细节和数据量方面存在局限性。因此,我们设计了一种替代方案。首先,我们将整个研究区域分割成小部分。每个单元的单元大小在经度上是0.04°,在纬度上是0.04°。然后重复部署搜索API,从武汉最低的边界框所在的纬度到最高的经纬度增加0.4°。搜索半径设定为3.2公里,覆盖整个研究区域。这使我们能够在每小时内获取每个单元的中心位置。通过这种方式,每次部署搜索API所获得的数据都不会超过API的限制,避免了对地理细节和数据量的收集限制。最后,根据文章的标识符删除重复的文章。没有地理标记的数据也从收集的数据中删除。应用上述程序,共收集到武汉地区2天(2014年6月10日和6月11日)66688条地理标记记录。
分析方法
房价变化的空间格局比简单的波浪扩散模型更复杂。因为我们现在有了互联网,它改变了房价的变化方式,从以前只由当地条件或通过有限的关系网来决定,到现在不受当地决定因素的影响。因此,对房价变动的空间扩散过程的研究,需要超越住房市场扩张趋势的传统方法,进入一维s形扩散曲线。
为了更好地说明房价变化的潜在集群模式,我们使用了自然城市和头尾断裂(Jiang 2013)的概念。“自然城市”一词指的是地理事件在空间上集中的地点,例如社交媒体用户个体位置聚集的聚集体斑块(Jiang and Miao 2014)。在某些地理事件的空间格局中,头尾断裂被称为事件发生频率较低的位置。在头尾断裂的情况下,地理事件只发生在低频率位置中,这些位置会被突出显示,以表明其发生的不可能的性质(Jiang 2013)。由于住宅小区的价格分布是偏态的,便宜的住宅单元要比非常贵的住宅单元多,所以我们采用了头尾折来强调住宅小区的高房价集群。它揭示了自然城市的结构和动态的新见解(江和苗2014)。
我们采用了采用最近邻分析法分析地理现象的空间格局(Lee and Wong 2001)。它计算了地区房价的各个时空分析与其最近点之间的平均距离,并将其与完全空间随机性分布的期望值进行比较。最近邻指数R可以计算为:
。
R的值可以从0(对于完全聚集的点模式)到1(对于随机分布的点模式),到2.15(对于空间规则的点模式)(Rossbacher 1986)。Lee等(2014)为了对空间扩散过程进行估计,采用最近邻比和回归曲线估计的方法对空间扩散过程进行建模,从而发现和区分扩散过程的主要特征。
我们采用地理加权回归(GWR, Brunsdon et al. 1998)的方式推导回归系数,揭示了自变量与因变量之间关系的方向和强度。在使用地理加权回归的方法时,在空间上并没有保持不变。因此,我们需要计算局部回归系数来显示这些关系如何随空间变化。即使数据生成过程中的潜在外生变量不相关,局部回归系数也可能是共线的(Wheeler和Tiefelsdorf, 2005;Lu et al. 2014)。地理加权回归被广泛应用于各种研究中,如生态系统服务(Hu et al. 2015)、颗粒物(Chu et al. 2015)、犯罪模式(Cahill and Mulligan 2007)等。我们使用GWR只是为了探究模型中因变量和自变量是如何在空间上发生变化的。我们不认为本研究的GWR中包含的自变量代表了所有可能的影响因素。我们使用这种分析方法作为工具只是来揭示独立变量和因变量之间的关联的地理差异。
空间分析
空间模式分析
我们对研究区域房地产市场中的所有住宅物业进行了地理编码,如图1a所示。所有位于武汉市的公共街道地图(http://www.openstreetmap.org)上的点或POI(更新于2015年4月29日)均在图1b中进行了说明,以供参考。
图1a和图b的中心部分是武汉的主城区,长江从中心穿过。
图1a和图b显示了住宅市场的空间集群确实存在,并且大部分住宅市场位于主城区。在图中还可以看到一些次级集群。房地产开发往往是城市扩张的先导,往往是在城市行政边界扩张的前缘。图1中的两幅地图非常相似,反映了图1a中的住房市场和图1b中的城市发展。它们高度密地交织在一起。
Figure 1 过去10年住宅物业在市场上的分布情况。b从开放街道地图的兴趣点分布
核密度估计是一种估计随机点集概率密度函数(PDF)的非参数方法,在GIS中已成为一种广泛使用的分析方法(Rosenblatt 1956)。利用ArcGIS 10对市场上的住宅物业进行核密度估计(图2a)。其中,搜索半径设置为2000 m,单元大小设置为200 m。
图2a显示了从市中心开始的梯度分布。图中显示,住房市场的集中度降低了,因为其位置越来越远离城市核心。对开放街道地图POI进行了相同参数基础上的相似估计,并进行了地理编码,如图2b所示。从图2a可以看出,城市中心所提供的城市功能虽然是一个重要的因素,但并不是导致房价变动的唯一决定因素
Figure 2 过去10年市场上住宅物业的密度面。b密度面的兴趣点来自开放街道地图
空间价格动力学
武汉每个小区的住宅单元在不同的日期都有一系列独立的价格。这些价格通过移动平均线来创造一个持续的房价平滑趋势。考虑到住房单元的销售并不是在一个固定的时间间隔内发生的,因此需要时间插值来为每个住房单元或每个住宅物业创建一个一致的时间剖面。时间内插是通过将每个月的房价设置为该月之前最近的销售价格来完成的。例如,如果一个住宅物业在2008年4月25日以20万美元出售,而在2010年5月18日又以25万美元出售,那么2008年4月至2010年5月期间的所有月房价将设定为20万美元。从2010年6月开始,每月房价将定为25万美元。
为了分析房价变化的空间格局,我们比较了2005年1月175套住宅、2010年1月229套住宅和2015年1月465套住宅的价格。我们使用ArcGIS中的反距离加权插值方法(IDW)来确定住房市场如何在水平(空间上)扩展,以及这些地区的房价如何随时间增长。将IDW过程的输出单
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[236907],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。