基于R语言的上海房价预测模型_第1页
基于R语言的上海房价预测模型_第2页
基于R语言的上海房价预测模型_第3页
基于R语言的上海房价预测模型_第4页
基于R语言的上海房价预测模型_第5页
免费预览已结束,剩余16页可下载查看

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于R语言的上海房价预测模型摘要:利用R语言优秀的统计计算和统计制图特点,对多元统计模型进行 分析.本文建立的模型主要是讨论上海商品房房价问题.考虑到商品房经济始于1998年,且可供查找的数据截止到2021年,故本文 的数据来源于1998-2021年的?上海统计年鉴?和国家统计局.在本文中主要讨 论影响上海商品房房价的因素及各个因素对于房价的影响作用,考虑到房地产不同于一般的消费品,它不仅提供居住的功能,带来收租收益,发生价值增值,而 且对人的行为有重要的影响,因此,在进行预测自由贸易下的房价时,本文主要 从人均生产总值、人均可支配收入、商品零售价格指数、常住人口、住房竣工 面积、住宅投资总额

2、、居民居住消费价格指数7个方面来考虑对于商品房房价的 影响.本文在建模型时,先通过R软件拟合商品房房价与时间的非线性回归模型, 再利用7个自变量与因变量商品房价多元线性关系, 并进行逐步回归,得到最优 回归模型.最后将时间的非线性回归模型与影响因素的多元线性模型预测值进行 比较,给出2021、2021、2021年的房屋价格,其中 2021年与2021年可与实际 进行比照,进而评价模型的好坏.关键词:R语言 非线性回归多元线性回归 价格预测模型 显著性检验第一章分析软件R语言简介R语言是属于GNG系统的一个自由、免费、源代码开放的软件,是一个用 于统计计算和统计制图的优秀工具.主要用于统计分析、

3、绘图的语言和操作环境. R本来是由来自新西兰奥克兰大学的 Ross Ihaka和Robert Gentleman开发也因 此称为R,现在由“R开发核心团队负责开发.R是基于S语言的一个GNU 工程,所以也可以当作S语言的一种实现,通常用S语言编写的代码都可以不 作修改的在R环境下运行.R的语法是来自SchemeR的源代码可自由下载使用,亦有已编译的可执行文件版本可以下载, 可在 多种平台下运行,包括UNIX 也包括FreeBSD和Linux、Windows和MacOS. R主要是以命令行操作,同时有人开发了几种图形用户界面.R的功能能够通过由用户撰写的套件增强.增加的功能有特殊的统计技术、 绘

4、图功能,以及编程介 面和数据输出/输入功能.这些软件包是由R语言、LaTeX、Java及最常用C语 言和Fortran撰写.下载的执行档版本会连同一批核心功能的软件包,而根据 CRAN纪录有过千种不同的软件包.其中有几款较为常用,例如用于经济计量、 财经分析、人文科学研究以及人工智能.第二章商品房房价与时间的非线性模型2.1数据准备本文从研究影响房地产价格的因素入手,鉴于国家在1998年出台停止福利分房,进而促进了的商品房的自由贸易,故数据始于1998年,且上海统计年鉴可查的到2021年年鉴,故通过综合国家统计局及上海市年鉴1998年2021年的房地产相关数据,最后筛选出如下可能影响未来房地产

5、价格走势的变量,本文取定七个因素:X1 :人均生产总值;X2 :人均可支配收入;X3 :商品零售价格指数;X4 :常 住人口; 毛:住房竣工面积;:住宅投资总额;X7:居民居住消费价格指数; Ym:上海商品房房产均价数据如下:tYx1x2x3x4x5x6x71998302125206877341521527.001963.51404.96113.619993176270711093240401567.001731.55378.82105.920003326300471171838951608.601724.02443.90103.320013659317991288338401668.3317

6、43.9466.71102.320024007339581325037901712.971880.5584.51100.020034989384861486737541765.842280.79694.30101.120046385448391668337881834.983270.43922.61101.620056698496481864537671890.262819.35936.36102.920068237548582066837741964.112746.8854.15102.9200710292620402362338652063.582843.62853.13104.52021

7、13411669322667540712140.651899.4871.52102.5202115800691652883840482210.281522.07922.8196.6202119276760743183841172302.661415.441232.96103.5202124595825603623042842347.461581.031403.13105.42.2 建立非线性模型首先对y画出关于时间t的散点图,对应的R语言程序为:X=read.csv("E:2.csv")attach(X)plot(t,y)得到图一:1998tm y2000200220042

8、00620212021由散点图可知,初步认为ym与t成指数关系,利用R语言进行拟合检验.对指数函数ymaebt两边取自然对数得:lnymln a bt ,令ylnym,aln a那么可将其化为一元线性函数 ya1 bt Xt ym取对数并进行一元线性回归的R语言程序为:y1=log(ym)a1=log(a)reg=lm(y1-t)summary(reg)得到结果如下:/ R ConsoleCall: Im(formula 二 yl 廿 t)Re siduals:HinIQ3.Max.395e-L3 -1.057e-lOSe-1525,832e-lCoefficients:Estimate Sc

9、d. Error t value Pr (> | r. |) (Intercept -3-ZSlcfOZ t1.681&-01Signif. codes:0 * *Residual stanaard error; Multiple R'3quared; F-3tati3tic: 2.e+27 on6.605e-123.29fie-15-i.?65e+135.039e+13贝U可知常数项ai=-3.281e+02<2e-16 <2e-16 ir0.050.14.972亡-14 on 12 degrees £ freedom1,R-squared;11

10、and 13 DE p-value: < 2< 2e-16变量系数b= 1.681e-01得到回归方程如下:yi328.1 0.1681t将a ea1得到a的值为3.220924e-143得到ym关于t的指数方程为:ym (3.220924e 143) *exp(0.1681* t)将得到的曲线与原散点图进行比照,R语言程序为:a1= -3.281e+02a=exp(a1)b= 1.681e-01yy=a*exp(b*t)plot(t,ym)lines(t,yy)得到如图:t2.3 回归方程的检验对系数进行显著性检验,由结果可知,出的均方误差为6.608e-12, b的均方误差为3

11、.296e-15,而诩和b的P值均小于0.05,拒绝原假设,即认为ym与t之间 存在指数关系.对方程进行检验,残差的标准差为4.972e-14,而相关系数R2 1, P值小于0.05,效果明显,故拒绝原假设,即认为 ym与t之间存在指数关系.第三章 影响房价的多因素的多元线性回归模型3.1 模型的建立ym:上海商品房房产均价;X1 :人均生产总值;X2:人均可支配收入;X3 : 商品零售价格指数;x4 :常住人口; x5 :住房竣工面积;X6:住宅投资总额;X7: 居民居住消费价格指数;那么建立这 7个变量关于ym的多元线性回归模型:ym 01X12X23X34X45X56x67X7式中:0,

12、 1, 3, 4, 5, 6, 7为未知参数,为随机误差,且认为 服从N(0, 2)的分布.对于式中未知参数的估计采用最小二乘法,求相关系数R2,并做显著性检验,通过二者说明模型建立的是正确的.3.2 模型的求解为了确定商品房销售价格与各变量之间的关系,分别作出ym与Xi的散点图,R语言的程序如下:plot(X)得到散点图如下:t=1=ft iy4 .A #«.产- .二一x1二二3-川x2K 二':;一: 一*.1x3 11 * 1 *一打二'x4仁* i *"*< 1 一;* t*/ * I *x5-. 一*< *广* . 产. P* <

13、; *.丁.一F «* «4 *it*.VI.11 1 | 1 1 1 11998 2002 2006 20211 1 1 p 1 130000 50000 700001 111113800 4000 420011|150025005000150002500010000 20000 300001600200000500200 5300 006102044008001200100 105 110利用程序cor (X)得到相关矩阵并整理得:yt0.9195056y1.0000000x1 0.9533447x2 0.9792964x3 0.6385694x4 0.9490735x

14、5 -0.3246709x6 0.9005302x7 -0.1598100并分别对ym与xi的相关性进行检验,检验的程序为attach(X)以下对象被屏蔽了 from X (position 3):t, x1, x2, x3, x4, x5, x6, x7, ymcor.test(ym,x1) cor.test(ym,x2) cor.test(ym,x3) cor.test(ym,x4) cor.test(ym,x5)cor.test(ym,x6) cor.test(ym,x7)得到如下的七个结果:Peaz:son 1 s product-rrcTT.ent corTelation的匚a;xl

15、 and ymt: - 10.9396P df - 12r p-value - 1.34Ce-07alterzanve hypothesis: true carrelatian zlb not Eq二己二 to 0 95 r匚ubitc cartidence interval;sair.plff;cer0.9533447Pearson'5 prduct-raoment coizelationdat a : x2 and ya. r = 16.75B2, df = 12r p-value = 1.OS7e-O9 aluemacive hypothesis: true ear re.Lav

16、i on is not etyjal 二0 0 95 percent coTif idence interval :0.334Q3S0 0.9936094 & sr lira tea t cor0.百 4Pearsen 1 s 电工巴巴:ju七一itcirt电力telatifindata:x3 日门日 ymt - 2.874fl, df . 12-V41US - 0.01397 a.lt&r fta.tj.ve a thesis :eerr&lstion is »白; 巨白:立 1 ta 09S pezrcent conf id&nce in-terv

17、al :0t163321 0.873273Ssample estimates:co*0.Pearscn1 s prodLJctruonient ccrieZaticnda&a; and ym t - 10.4353f df - 12, r-value - 2.256e-07 alternative hypothesis: trae corielatzio"二巴 二匚二 eqaal to 095 percent confidence interval: 0.8429S83 0.9B41004 saiuple:GOI 0.9490735Fearscn ' s ploduc

18、t-iEoirent conelatior;data: x5 and ym r = -1.1891, di = 12, p-valne = 0.2574 alterristive tiypotbesis :七工口£ ccnelation ia not: etjual tc 0 95 percent confidence interval:-0.72957170.24S"11sample estjjr.aces: car -0.3246709Pearson1 s product.-moirent ccrrelaEiondata : xfi and tit t = 7.1747

19、r df = 12r p-value = 1.125e-05 alternative hypothesis: true correlation is not eqaal to 0 95 percent confidence interval: 0.708502 0.963037sairple estiirates1 : cor0.3005302Pear5on, s p ro du Gt; -mome e z coxieiatiandata; x7 and ym t = -0,5OS, df = 12 p-value = 0.5S52 alternative hj/perh&sis :c

20、orrelation is not ecJ-al te 09S juercent conf idence ZLnteival : -0.63642570,4051205二in;匚on; cor -0.15931综合以上的结果,可知,在0.05的条件下,X5和X7的与ym的相关性较差,其他五个变量与ym的相关性较好,故进行多元线性回归时,可考虑将X5和X7 两个因素排除在外.首先对七个变量建立多元回归方程的 R语言程序为:reg1=lm(ymx1+x2+x3+x4+x5+x6+x7)summary(regl)得到如下结果:胜 R Ccnsole 二二二二31|在力匕11 总=yu * kL 4

21、h2 -k x3 44 nS + xE + *71Rs i口8,口 :Hin LQ Mt-dian 3Q kax-SIS-7 -J 32.1177,374 P3 e*t xe i = Tir s:Sslia ze目匚L Errcrr val LieF-(>K| J| tnzerceC'L>-4.725e*041. &5e-t-C4T .3 S30.0S564 .£1T J 乂士e2,239?-01-1心号0,106S5*21.359=*00304e-013.9280.00773 *x35487«e+O0?,104e+CO2.7睚0.031

22、1; *N9.312e-50L.OBCetOl0,057OH 2413x5l<30e-016<739c-Cl0,2i,20.B16E3Eg3-<"56c90l,7°8c+C02.1Q2ooeoai .z78,121c-+01a,ici=:+ci.1,0030.3579Sigaxf - codies: 3(jooi i* 0.01 '* 口 ,0.1 41 1fkesxa'jal stidira ezrcr:与33 2n 6 dMree? c± £r«edaaMui"ipie R-irquix*d: 0

23、.Adjured R-iquire: O.fA62F->a*iscxc: 4日m on 7 an曰 Q D?p p-vnii:*! 7. S£e«-Q3将结果整理得:情计值标准差t值P值B 0-4.725e+041.975e+04-2.3930.05384Bi-4.246e-012.239e-01-1.8970.10665021.259e+003.204e-013.9280.00773 *B 35.876e+002.104e+002.7920.03148 *49.312e+001.086e+010.8570.4241351.630e-016.739e-010.2420

24、.8169163.758e+001.788e+002.1020.0803178.121e+018.101e+011.0030.35479对系数进行显著性检验,由结果可知,0, 2, 3, 6在 0.05条件下,均拒 绝原假设,认为具有很好的效果,但是 1, 4, 5, 7的P值均大于0.5,故不能 拒绝原假设,认为这些变量效果不明显,可以认为这些系数为零.对方程进行检验,残差的标准差为420,而相关系数R2= 0.9962, P值小于0.05,效果明显,故拒绝原假设,即认为 ym与各个变量之间存在线性关系.根据P值,选择剔除一个变量,对回归模型进行优化,故剔除 治,那么reg2=lm(ymx1

25、+x2+x3+x4+x6+x7)summary(reg2)得到如下结果:Call:forEiuiLai . ym * xl 4 m2 4 h3 4 a 1 + x6h7)Residuals:Min 1.Mhdiozi 3ft Hgx1 -223.7 125.8 163.3 325后Coef 5 iGiisn&s;EsViXMiteStd. Erxoxt valys(iDtcrcept)一弓号CM3 .6 95134-3.2130.014671 .xl7.31杷-Cl-3.011D.D1S525 *izoze+ao5. 356D.D00561 *X35,7se+aoJ,C35eTOO3.

26、033D.D19D26 *XS7,707e+Q00,3540,357311工m.Deoe+coJUESeTOQD,DL1I9D *XT7-599e+Cll7 .WEWR-QlOl fiD.333265Q .001 n0,01 .年'0,05Q,1 JResidtuaLl ssannard error:,7 on 7 degrees de i工mmdoiTMultiple R-squared: 0.9982, Adjased R-sqnjaredl: 0.99l F-statisuic: 654,2 or and 7 DTr rs-vsalue: 2,938e-09留,分析原因,可能是由

27、于X5数据偏差太大,对回归方程造成影响偏差过大.但 是变量4, 7的P值均大于0.05,故不能拒绝原假设,认为这些个的影响效果不 明显,可以认为这些系数为零.对方程进行检验,残差的标准差为 390.7,而相关系数R2= 0.9967, P值小于 0.05,效果明显,且效果要好于上一次回归的结果.故拒绝原假设,即认为 ym与 剔除X5后的变量之间存在线性关系.根据P值的大小,选择剔除变量x4,继续对回归模型进行优化那么 R语言程序:reg3=lm(ymx1+x2+x3+x6+x7)summary(reg3)得到如下结果:展 R Console| oCall: ym « xl - k;

28、+ x3 + x6 + x7)Re siduals 工Win IQ Median 35 Max-«33,20 -113.62SS.36 209.25 335,1EstjLiLeteStd. Errort valuePr(y|rl>(Intercept -3.13Se+O43.53e4-03-E .2.Se-05Xl-2 ffB2 9e-Ol.2ile-02-3,90?a.004502* *1.22Oe+oa二.997&-01 . 1090,000287A" * itXJ5.0816+00:,B32e+003,1250,014115*,133e+O01.131e

29、+Q03,5.0.008Q7/ XT3.B56C+O16.llle+010.631a,5156lBSignif. codea: 0 '*f0.001 、CL 01 1,0,05 3 RaslduBl vzand&rd errer: 38en Sof fx*edamMultiple R-squared: 0.998 Adjusted R-squared: 0*S96" F-statistic: 791*9 on 5 tnd 3 DFf p-valuti 1.458e-10继续剔除X7 ,Reg4=lm(ymx1+x2+x3+x6)summary(reg4)得到如下结果:

30、R R Consde一zaii:Ini (tcrnula = yn xl 4 x2 4- m3 -3.ejsxdual: Kxn上 Medj.ezL3© Mm-C32-02 =75.SI96.54 2D5.2S 35D.33*aef f icienc.Biiimte Stdi E工工白工 e value11 |)(Intexcepe) -3 »136e+Ci45a395t-02la257e-01fta577«-Qla b3 -4,7053/7507 d 4,136g 占“皿O.OClll l»D7e-05 2.78»-0S0,0'2GK

31、 鸟 r " wW*彳*AlKZH3*6-2.53Se-C1 l.lZoetOO fi 16*400 4.513*400SignifywDJess 0A.0.001 0.01 n* 0>05 3r Q" 1 '勺誉写icJual3厂河 Hfl 种 Td TTCT:375.1 89 dPUTPPS !1 f丁翼.rlgmMultipl*R-squarl: 0.电07乌干捐d R=»qviSTed:口;qqqF-atatis;in; 1061 or 4gd G DHp-value;5.072e-12对结果整理得:情计值标准差T值P值B 0-3.136e+

32、043.535e+03-8.8739.59e-06 *口-2.538e-015.395e-02-4.7050.00111 *021.126e+001.287e-018.7501.07e-05 *B 36.916e+008.896e-017.7742.78e-05 *B 64.538e+009.577e-014.7380.00106 *对系数进行显著性检验,由结果可知,0, 1, 2, 3, 6在0.05条件下,均拒绝原假设,认为具有很好的效果.对方程进行检验,残差的标准差为 375.7而相关系数r2 = 0.9969, P值小于0.05,效果明显,故拒绝原假设,即认为ym与各个变量之间存在多元

33、线性回归关 系.3.3 模型的总结通过三次逐步回归,那么最终得到最优的多元线性模型为:ym31360 0.2538* 为 1.126* x2 6.916* x3 4.538* %从该模型分析可知,在所选的因素中, “:人均生产总值;X2:人均可支配 收入;X3:商品零售价格指数;X6:住宅投资总额等因素被保存了下来,而 X4: 常住人口; X5:住房竣工面积;X7:居民居住消费价格指数被剔除,特别是 X4和X5本应该对房价产生直接影响,通过分析可知,上海市住房竣工面积并不是逐 年增加或减少等的规律性变化,呈现无规律性,这导致它在作为影响因素发挥的 作用大大减小,而X4为何也被剔除,在我的水平范

34、围内,分析认为可能是由于其 随时间变化缓慢造成的.第四章 房价预测及模型的比照评价4.1 指数方程预测房价故本文共得到两个预测模型及其预测值为:ym关于t的指数方程为:ym (3.220924e 143) *eXp(0.1681* t)对汴进行预测的R语言程序为:tt=2021:2021 yy=a*eXp(b*tt)yy三年的预测值为:20212021202124765.3329298.7534662.034.2 多元线性回归预测房价ym关于影响因素的多元线性回归模型:ym31360 0.2538* x1 1.126* x2 6.916* x3 4.538* x6在国家不出台政策的条件下,我们假设7个自变量根据符合实际的增长率增 长,依次求出未来三年的各项数据.自变量增长率2021 年2021 年2021 年人均生产总值10%9081699897.6109887.4人均可支配收入10%3985343838.348222.1商品零售价格指数2%4369.74457.14546.2住宅投资总额7%1501.351606.441718,89带入回归方程,那么可得多元线性方程预测的三年房价的值为:20212021202127499.3530763.2434245

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论