英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
基于支持向量机算法研究影响商业住房价格的因素
摘要:伴随着中国房地产的逐渐成熟,城市房价越来越可以反应市场需求的变化,以及商业房的社区价值也正在变得明显。我们国家的许多学者已经做了很多关于影响城市商业房价格的因素的研究,相关的论文数量急剧增加。这些学者的研究成果为解决我国城镇房价变化问题提供了宝贵的财富。但是由于大量的文献,巨大的信息埋没在图书馆中,难以被充分利用。文本挖掘技术已经被广泛关注,近几年在人文社科领域长足发展。不过,通过文本挖掘技术来获得影响商业住房的研究结果几乎没有。在这片论文中,现有学者的研究成果将通过基于支持向量机的文本挖掘算法进行挖掘,以进一步充分利用现有研究成果以及提供稳定房价的参考。
- 引言
从1998年开始,伴随大量的政策实行,房地产行业在体制改革中成为一个新的经济增长点,,房地产市场和产业迎来一个新阶段的发展。随后,大量像二手房买卖免税的政策优惠政策开始引进。房屋建造加速,房地产经济快速发展,二手房买卖开始活跃起来。经过12年的发展,中国的房地产市场体系已经逐步提升,市场机制也越来越稳固。但是在总体环境较好的情况下,“过热”和“寒冬”现象交替出现。自2009年起,我国的住房销售和住房价格经历了从下降到低速增长再到爆炸式增长状态。尽管政府在2009年第二阶段已经开始推出强制性严格的规制政策,但是一线和二线城市的房价依然很高。因此我们国家的许多学习和做了许多关于影响城市商品房房价的研究,有关此问题的论文数量也开始快速增长。在CNKI中输入关键字“住宅价格”和“影响因素”查找相关论文,得到692个结果,相关论文的数量每年都有增长。这些学者的研究为解决城镇房价变化的问题提供了宝贵的财富。然而由于论文数量的巨大,大量有价值的数据沉没在图书馆中,不能得到有效的利用。数据挖掘技术已经被广泛关注,近几年在人文社科领域得到了长足的发展。但是通过数据挖掘技术来获得影响城镇商品房的因素的研究几乎没有,现有的结果是通过对部分文献的人工研究得出的。
罗平等利用系统动力学模型对影响房价的因素进行了综合性的研究,得到了很好的模拟结果。沈悦,刘宏宇分析以及定性的阐述了房价与家庭收入、GDP和其他宏观经济因素之间的关系。陈东强和宋佳凤对征收的物业税、住房转让所得税以及契税影响房价的不同方式,做出了细致的分析。王江明,高铁梅用1995年至2002年的数据分析居民收入、价格和利率弹性对住宅需求和供给函数的影响,但是没有给出这些因素之间的关系。绍斐波,张鑫利用特征价格模型从微观视角分析了影响住宅价格的因素,发现例如像离市中心的距离、房地产成本、容积率以及教育层次是影响房价的主导因素。张继同,兰昊利用广义脉冲对应分析法分析影响住房价格的因素,得出利率和购房首付率对住房价格有巨大的影响。
然而,这些结果广泛的分散在半结构化或者非结构化的文学文本中,并以自然语言表达,因此不可以被系统直接加工。Salton,G,Wong等提出向量空间模型可以将自然语言转化为向量空间来对文本数据进行处,Aabjornsen和Heidi等提出通过结构化单词库来提取特征词,以及利用特征词方法对不同文本进行分类。Arenas-garcia, J, perez-cruz, F利用支持向量机的方法对论文进行分类并且获得成功。本篇文章通过向量空间模型建立了一个对城市商品房有影响因素的词库,利用支持向量机方法对相关文本进行分类,识别目前学者的研究成果中发现的对城镇商品房价格有影响的因素。
- 关于影响城镇房价因素的文本挖掘方法
从目前相关论文中提取出城市商品房价格的影响因素,笔者采取下面四个步骤:(1)从CNKI下载的论文中人工提取关键词,建立“因素字典”。(2)通过向量空间模型建立文本特征向量。(3)使用文本特征向量作为输入训练文本分类器。(4)选择置信度高的文本,提取相关意见。
图1. 城市商业住房价格影响因素挖掘流程图
2.1获得文本以及构建“因素字典”
中国商品房的价格变化特征是在中国特定背景之下呈现出来的,并且从传统结构向工业化结构过渡的特征也不同于其他国家。并且,中国关于城镇商品房房价的研究主要是中国学者完成的,因此本篇文章选取的文本主要是汉语文本。当下,CNKI是最综合性的中文论文数据库搜索引擎,包括中文期刊全文数据库、中文博士学位论文全文数据库、中文优秀硕士学位论文全文数据库、中文报纸全文数据库、中文重要会议文献全文数据库等,因此本文利用CNKI来搜索相关论文。搜索“房价”和“影响因素”作为关键词的论文,获得692篇。在这些论文中,从692篇中选出200篇作为训练样本,提取出关键词作为“因素字典”
在提取关键字的过程中,由于中文不像英语一样有固定的空间,所以相关的文本应当首先分段成单词。本篇文章首次通过R语言来分割词语,然后再建立“因素字典”。具体步骤如图所示:
图2. “因素字典”构建过程
2.2.文本的向量表示
在本片论文中,用向量空间模型将文本表示为特征向量。其基本原理是将文本作为一个包括一系列正交向量组成的多维向量空间D,每一个正交向量都可以表示为相应的归一化特征向量。
V(d)={ (1)
在公式(1)中,代表提取出的关键字,V(d)代表文本向量,n代表向量的维度。每个文本中的关键字对应一个权值,其中isin;D,gt; 0。如果notin;,则=0.通过向量表示的方法可以将文本表示为相应的权特征向量。
(2)
本篇论文用TF/IDF来计算文本的权向量。
TF/IDF(=TF( (3)
在公式(3)中,表示特征词,代表包含的文本,TF (是中出现的次数,|D|为训练文本编号,是包含特征字的文本数量,TF/IDF( 是特定文本中对应的特殊单词的权重。但通过式(3)得到的高频词权重值会抑制低频词的权重值,所以,获得的权重值需要进行标准化和加工,即:
(4)
本文将城市商品住宅价格影响因素的文本向量化表示过程如图4所示:
图3. 文本的向量过程
2.3.训练分类
文本挖掘中使用了大量的文本分类机器学习算法,常用的有朴素贝叶斯定理、k近邻分类(K-Nearest Neighbor classification, kNN)、支持向量机(SVM)、C4.5等,本篇文章经过对比各种方法之后选择了支持向量机(SVM)和R语言实现分类。R语言的函数包e1071提供libSVM接口。使用e1071函数SVM()可以得到与libSVM和write函数相同的结果。本文选择高斯径向基函数并应用分类器训练,并优化内核函数的两个重要参数C和gamma;。SVM分类器的训练流程如图5所示。
图4. 训练分类流程图
支持向量机是一种基于统计学习的机器学习算法,它通过构造最优超平面对向量进行分类。让D作为训练集,D={(,),(,)···(,)},xisin;,yisin;{ 1,minus;1}。 1和-1代表两个不同的类别。支持向量机的最优解方程是(w*x) b=0,分类判别式是:
[(w*) b]1,i=1,2,hellip;k (5)
令(5)式成立的向量为支持向量,(w*)是一个内积。对于最优超平面,其解决函数就是根据特定的示例找到最优解向量w和偏移量b,并尽量减少重量成本函数phi;(w)。
phi;(w)=/2 (6)
在公式(6)中,使用拉格朗日乘子0,(i=1、2、hellip;k)将问题转化为目标函数。L()=-1/2(*) (7)
在公式(7)中,=0,0C,C是惩罚因子。假定=(,,,hellip;,)是问题的解,则w和b的最佳解决方案如下:
= (8)
=* (9)
是支持向量,分类函数如下:
f(x)=sgn{} (10)
在公式(10)中返回值为正1的话,f(x)为正值。如果返回值为负一,f(x)为负值,原理如图6所示。
2.4确定C和gamma;的交叉验证的最优值
CV(交叉验证)也称为循环估计,是一种将数据样本分割成更小子集的有效方法。其基本思想是将原始数据(数据集)分为训练集和验证集,首先利用训练集对分类器进行训练,然后利用验证集对训练模型进行检验,作为最佳的性能指数(C和gamma;)的计算分类器(支持向量机)。
- 试验结果
3.1实验结果及评价指标
本文选取正确率a和召回率r作为房价影响因素的文本分类评价指标。
a= (11)
r= (12)
TP表示属于这个类别并被正确分类的文档的数量;D代表全部文档的数量;FP表示属于这一类别但分类不正确的文档数量;本文对不同维度的文本向量结果进行了比较和分析,结果如表1所示。
表1.文本分类评价指标
维度 |
准确率a |
召回率r |
20 |
0.851 |
0.864 |
30 |
0.865 |
0.863 |
40 |
0.889 |
0.889 |
50 |
0.872 |
0.871 |
从表1中可以看出,当维度大于30时,准确率和召回率均大于0.86。本文选择chi;2统计数据中的前30名的关键字。这些词大多是关于城市生活质量的,城镇经济实力,居民收入、消费结构、居住质量、交通条件、教育投资、社会保障、医疗卫生、生活与健康、公共安全、生活环境、文化、休闲、就业、国内生产总值、人均国内生产总值等,这些关键词很好的描述影响城市住房价格的因素。
3.2.优化分类器参数和分类结果
基于支持向量机的文本分类算法的主要目的是确定算法的两个参数,即C和gamma;。在本文中,我们比较当C和gamma;取不同的值文本分类的正确率,最后,我们确定当C等于5和gamma;等于0.0525,正确分类率是0.900。
3.3.城市商品住宅价格影响因素的提取与评价
分析文本的内容最常见的方法就是在文章中提取关键字并分析其出现的频率,在文章中,频率可以反应文本中的重要性。总的来说,越重要的词语在文章中出现的越频繁。词提取后,做出视觉云,不同主题词出现的频率可以更加直观和清晰。笔者从CNKI下载的有关城市商品住宅价格影响因素的论文中随机选出85篇,分类器共收集相关文献53篇。通过语义分割和词频处理,提取出城市住宅价格影响因素,利用R语言的云工具箱绘制词云,获得城市商品房的影响因素云。
- 总结
本文提出了一种基于文本挖掘和支持向量机理论的城市住宅影响因素分类识别方法,通过构建数据词典来降低文本向量维度,并且利用TF-IDF来降低特征词的维度,从而获得文本向量。对于支持向量机的训练分类,根据初始样本训练找到支持向量来确定决策函数。
在本文中,利用支持向量机对住宅价格分类效果良好,结果表明,该方法能够识别房价影响因素的相关文本。它可以充分利用分散的半结构化和非结构化文本数据,为房价调控提供重要参考,促进我国房地产的健康发展。然而针对城市商品住宅价格文本分类后是人为的提取因素,如何通过文本挖掘技术自动提取相关视图还需要进一步研究。
- 参考文献
[1] 郑思齐,曹杨,刘宏宇,城市价值决定城市房价——对我国35个城市房价的实证研究[D]。2007. 8
[2] 张博,商品房价格的空间分布与城市价值——以沈阳中旅为例[J],价格理论与实践。2006(10),49-50
[3] 任红,温家宝,林光明。“城市价值决定价格”的论证分析与宏观调控建议[J],建设经济。2007.(08),22-26
[4] 李惠普,城市住宅价格与城市价值关系
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[240675],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。
您可能感兴趣的文章
- GIS矢量地图的鲁棒水印方案外文翻译资料
- 中国相似地理位置发达地区房价影响因素的差异——以西安高新区和沣渭新区为例外文翻译资料
- 集成数据在城市土地利用变化时空动态监测的应用——以印度金奈都市为例外文翻译资料
- 全球地表水及其长期变化的高分辨率制图外文翻译资料
- 造成沿海大型城市内涝灾害的主要因素识别——以中国广州为例外文翻译资料
- 基于SFPHD框架的中国快速城市化地区城市生态系统健康综合评价方法外文翻译资料
- 基于绿地演变的未来城市地表热岛强度的多情景模拟预测外文翻译资料
- 中国大陆272个城市地面和冠层城市热岛强度的长期趋势外文翻译资料
- 与孟加拉湾热带气旋有关的中国低纬度高原远距离降雨事件外文翻译资料
- 新丰江水库流域GPM IMERG降水产品评价及水文效用研究外文翻译资料