基于R语言的上海房价预测模型_第1页
基于R语言的上海房价预测模型_第2页
基于R语言的上海房价预测模型_第3页
基于R语言的上海房价预测模型_第4页
基于R语言的上海房价预测模型_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于R语言的上海房价预测模型摘要:利用R语言优秀的统计计算和统计制图特点,对多元统计模型进行分析。本文建立的模型主要是讨论上海商品房房价问题。考虑到商品房经济始于1998年,且可供查找的数据截止到2011年,故本文的数据来源于1998-2011年的上海统计年鉴和国家统计局。在本文中主要讨论影响上海商品房房价的因素及各个因素对于房价的影响作用,考虑到房地产不同于一般的消费品,它不仅提供居住的功能,带来收租收益,发生价值增值,而且对人的行为有重要的影响,因此,在进行预测自由贸易下的房价时,本文主要从人均生产总值、人均可支配收入、商品零售价格指数、常住人口、住房竣工面积、住宅投资总额、居民居住消费价格指数7个方面来考虑对于商品房房价的影响。本文在建模型时,先通过R软件拟合商品房房价与时间的非线性回归模型,再利用7个自变量与因变量商品房价多元线性关系,并进行逐步回归,得到最优回归模型。最后将时间的非线性回归模型与影响因素的多元线性模型预测值进行比较,给出2012、2013、2014年的房屋价格,其中2012年与2013年可与实际进行对比,进而评价模型的好坏。关键词:R语言 非线性回归多元线性回归 价格预测模型 显著性检验第一章 分析软件R语言简介R语言是属于GNG系统的一个自由、免费、源代码开放的软件,是一个用于统计计算和统计制图的优秀工具。主要用于统计分析、绘图的语言和操作环境。R本来是由来自新西兰奥克兰大学的Ross Ihaka和Robert Gentleman开发(也因此称为R),现在由“R开发核心团队”负责开发。R是基于S语言的一个GNU项目,所以也可以当作S语言的一种实现,通常用S语言编写的代码都可以不作修改的在R环境下运行。R的语法是来自Scheme。R的源代码可自由下载使用,亦有已编译的可执行文件版本可以下载,可在多种平台下运行,包括UNIX(也包括FreeBSD和Linux)、Windows和MacOS。R主要是以命令行操作,同时有人开发了几种图形用户界面。R的功能能够通过由用户撰写的套件增强。增加的功能有特殊的统计技术、绘图功能,以及编程介面和数据输出/输入功能。这些软件包是由R语言、LaTeX、Java及最常用C语言和Fortran撰写。下载的执行档版本会连同一批核心功能的软件包,而根据CRAN纪录有过千种不同的软件包。其中有几款较为常用,例如用于经济计量、财经分析、人文科学研究以及人工智能。第二章 商品房房价与时间的非线性模型2.1 数据准备本文从研究影响房地产价格的因素入手,鉴于国家在1998年出台停止福利分房,进而促进了的商品房的自由贸易,故数据始于1998年,且上海统计年鉴可查的到2011年年鉴,故通过综合国家统计局及上海市年鉴1998年2011年的房地产相关数据,最后筛选出如下可能影响未来房地产价格走势的变量,本文取定七个因素:人均生产总值;:人均可支配收入;:商品零售价格指数;:常住人口;:住房竣工面积;:住宅投资总额;:居民居住消费价格指数;: 上海商品房房产均价数据如下:tyx1x2x3x4x5x6x71998302125206877341521527.001963.51404.96113.619993176270711093240401567.001731.55378.82105.920003326300471171838951608.601724.02443.90103.320013659317991288338401668.331743.9466.71102.320024007339581325037901712.971880.5584.51100.020034989384861486737541765.842280.79694.30101.120046385448391668337881834.983270.43922.61101.620056698496481864537671890.262819.35936.36102.920068237548582066837741964.112746.8854.15102.9200710292620402362338652063.582843.62853.13104.5200813411669322667540712140.651899.4871.52102.5200915800691652883840482210.281522.07922.8196.6201019276760743183841172302.661415.441232.96103.5201124595825603623042842347.461581.031403.13105.42.2 建立非线性模型首先对y画出关于时间t的散点图,对应的R语言程序为:X=read.csv(E:2.csv)attach(X)plot(t,y)得到图一:由散点图可知,初步认为与成指数关系,利用R语言进行拟合检验。对指数函数两边取自然对数得:,令则可将其化为一元线性函数对取对数并进行一元线性回归的R语言程序为:y1=log(ym)a1=log(a)reg=lm(y1t)summary(reg)得到结果如下:则可知常数项=-3.281e+02 变量系数= 1.681e-01得到回归方程如下:将得到的值为3.220924e-143,得到关于的指数方程为:将得到的曲线与原散点图进行对比,R语言程序为:a1= -3.281e+02 a=exp(a1) b= 1.681e-01 yy=a*exp(b*t) plot(t,ym) lines(t,yy)得到如图:2.3 回归方程的检验对系数进行显著性检验,由结果可知,的均方误差为6.608e-12,的均方误差为3.296e-15,而和的P值均小于0.05,拒绝原假设,即认为与之间存在指数关系。对方程进行检验,残差的标准差为4.972e-14,而相关系数1,P值小于0.05,效果明显,故拒绝原假设,即认为与之间存在指数关系。第三章 影响房价的多因素的多元线性回归模型3.1 模型的建立: 上海商品房房产均价;:人均生产总值;:人均可支配收入;:商品零售价格指数;:常住人口;:住房竣工面积;:住宅投资总额;:居民居住消费价格指数;则建立这7个变量关于的多元线性回归模型:式中: 为未知参数,为随机误差,且认为服从的分布。对于式中未知参数的估计采用最小二乘法,求相关系数,并做显著性检验,通过二者表明模型建立的是正确的。3.2 模型的求解为了确定商品房销售价格与各变量之间的关系,分别作出与的散点图,R语言的程序如下:plot(X)得到散点图如下:利用程序cor(X)得到相关矩阵并整理得:y t 0.9195056y 1.0000000x1 0.9533447x2 0.9792964x3 0.6385694x4 0.9490735 x5 -0.3246709 x6 0.9005302 x7 -0.1598100并分别对与的相关性进行检验,检验的程序为attach(X)下列对象被屏蔽了from X (position 3): t, x1, x2, x3, x4, x5, x6, x7, ymcor.test(ym,x1) cor.test(ym,x2) cor.test(ym,x3) cor.test(ym,x4) cor.test(ym,x5) cor.test(ym,x6) cor.test(ym,x7) 得到如下的七个结果: 综合以上的结果,可知,在的条件下,和的与的相关性较差,其他五个变量与的相关性较好,故进行多元线性回归时,可考虑将和两个因素排除在外。首先对七个变量建立多元回归方程的R语言程序为:reg1=lm(ymx1+x2+x3+x4+x5+x6+x7) summary(reg1)得到如下结果:将结果整理得:估计值标准差t值P值0-4.725e+041.975e+04-2.3930.053841-4.246e-012.239e-01-1.8970.1066521.259e+003.204e-013.928 0.00773 *35.876e+002.104e+002.792 0.03148 *49.312e+001.086e+010.8570.4241351.630e-016.739e-010.2420.8169163.758e+001.788e+002.1020.0803178.121e+018.101e+011.0030.35479对系数进行显著性检验,由结果可知,在条件下,均拒绝原假设,认为具有很好的效果,但是的P值均大于0.05,故不能拒绝原假设,认为这些变量效果不明显,可以认为这些系数为零。对方程进行检验,残差的标准差为420,而相关系数= 0.9962,P值小于0.05,效果明显,故拒绝原假设,即认为与各个变量之间存在线性关系。根据P值,选择剔除一个变量,对回归模型进行优化,故剔除,则reg2=lm(ymx1+x2+x3+x4+x6+x7) summary(reg2)得到如下结果: 对系数进行显著性检验,由结果可知,剔除后,变的效果显著,要保留,分析原因,可能是因为数据偏差太大,对回归方程造成影响偏差过大。但是变量的P值均大于0.05,故不能拒绝原假设,认为这些个的影响效果不明显,可以认为这些系数为零。 对方程进行检验,残差的标准差为390.7,而相关系数= 0.9967,P值小于0.05,效果明显,且效果要好于上一次回归的结果。故拒绝原假设,即认为与剔除后的变量之间存在线性关系。根据P值的大小,选择剔除变量,继续对回归模型进行优化则R语言程序:reg3=lm(ymx1+x2+x3+x6+x7) summary(reg3)得到如下结果: 继续剔除,Reg4=lm(ymx1+x2+x3+x6) summary(reg4)得到如下结果:对结果整理得:估计值标准差T值P值0-3.136e+043.535e+03-8.8739.59e-06 *1-2.538e-015.395e-02-4.7050.00111 *21.126e+001.287e-018.7501.07e-05 *36.916e+008.896e-017.7742.78e-05 *64.538e+009.577e-014.7380.00106 *对系数进行显著性检验,由结果可知,在条件下,均拒绝原假设,认为具有很好的效果。对方程进行检验,残差的标准差为375.7而相关系数= 0.9969,P值小于0.05,效果明显,故拒绝原假设,即认为与各个变量之间存在多元线性回归关系。3.3模型的总结通过三次逐步回归,则最终得到最优的多元线性模型为:从该模型分析可知,在所选的因素中,:人均生产总值;:人均可支配收入;:商品零售价格指数; :住宅投资总额等因素被保留了下来,而:常住人口;:住房竣工面积; :居民居住消费价格指数被剔除,特别是和本应该对房价产生直接影响,通过分析可知,上海市住房竣工面积并不是逐年增加或减少等的规律性变化,呈现无规律性,这导致它在作为影响因素发挥的作用大大减小,而为何也被剔除,在我的能力范围内,分析认为可能是因为其随时间变化缓慢造成的。第四章 房价预测及模型的对比评价4.1指数方程预测房价故本文共得到两个预测模型及其预测值为:关于的指数方程为:对进行预测的R语言程序为:tt=2012:2014yy=a*exp(b*tt)yy三年的预测值为:20122013201424765.3329298.7534662.034.2多元线性回归预测房价关于影响因素的多元线性回归模型: 在国家不出台政策的条件下,我们假设7个自变量按照符合实际的增长率增长,依次求出未来三年的各项数据。自变量增长率2012年2013年2014年人均生产总值10%9081699897.6109887.4人均可支配收入10%3985343838.348222.1商品零售价格指数2%4369.74457.14546.2住宅投资总额7%1501.351606.441718,89带入回归方程,则可得多元线性方程预测的三年房价的值为:20122013201427499.3530763.2434245.124.3 预测模型的对比评价通过收集实际数据,与两个预测模型进行对比,可对预测的结果进行评价得到结果如下:两个模型预测房价与实际房价的对比:201220132014实际房价2569129537(截止到5月)无时间指数模型预测值24765.3329298.7534662.03与实际的偏差比例3.6%6.6%无多因素回归模型预测值27499.3530763.2434245.12与实际的偏差比例6.5%4.2%无则可知,指数模型和多因素线性回归模型均得到较好的预测值,预测偏差均非常小。根据房价时间模型,房价将随着时间呈指数增长之势,因此必须出台相关政策,有效抑制房价增长。根据多元线性模型,房价与各个自变量的正负相关性就是各个变量前系数的正负。要抑制房价的增长,可以通过使系数为正的自变量增长率减少,系数为负的自变量增长率增加来达到目的。比如可以通过中央人民银行对于贷款利率的增加,减少投资者的过度投机行为,使土地拍卖价格降低,直接降低房屋成本,同时贷款利率的增加减少了房地产商的贷款,使房地产商资金面收紧,迫使其降价卖出现有房屋,已达到回笼资金偿还原来贷款的目的。总 结 学习的心得是:学习一个软件,并将其应用于实践,可以快速提高软件的应用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论