


版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、一 问题描述1.设定问题与收集数据影响一个地区人均消费水平的因素有很多,例如,一个地区的GDP该地区人均可支配收入,该地区的教育水平,以及地区人口增长变化情况等,下面我们选取6个解释变量研究 地区人均消费水平,解释变量分别为:x1地区生产总值,x2人口自然增长率,x3高等学校在 校学生数,x4农林牧渔业总产值,x5卫生机构人员数,x6人均可支配收入。选取了 2014年 省统计年鉴中1990年到2013年的历年数据,以地区人均消费水平为因变量,以如上 6 个自变量作多元线性回归。数据如下戦护離丄匚每就就翳莉职进躺1彌7Q6.14B90, ffi11.402*2481 n1201431忍*_imR
2、UM16.31a. so2朗19511431338251点1m935.62yn. 2?9.30対613565.62136556禺_1993瓯(816D4卿66). 691阳1砂_15M!fNl. 4119040.259嚥15S18O_19951圉01 那,219.9041社1诃17醐J. a帅41,2 牝 32miim2即“3,241, fl_B.TD4辺财1,395.(3181587V111飓Z2辄业1 駅 (94M351,45i 131ST1G0测ire2 3砒3,阑 126M811JU85305J?5U7J200025弘状4 9凰»5.1D95,5651_4戏5223328CV
3、352011215躍19讽11MTQ1,谢9ami脚20(22914.39界25.013.9D152, ?54151.53278330揶20(3,203.365, 333.1911Dlayoe1J34.49S3623M6B2肌$旣20t, 3?9.63180215,213;25:2B363179L63120054J30.0B 3E5.102应STf19B2阿帕竝叭8,3862N64.5OU0煦埶4512点2【0Wk熾MT廻OD2也Ila JJS9Tf56o3rS7MT1函MB6jGT2.002.3&聊13曲20400248豳2NS溯S11,102J2m3屜91师8133920108,1
4、02.001135,4323331 册24,081,81舸1M61201193.00a, 025, £82耶&调6£93題50131TJ9!M2H230.0&23, B72,80? 9Tmi rll331,5195,433,125O6E20,3072013国轩5.00见 260. rr3.003?M0b5,620.26鲫5爲3682.阐述理论由经济理论知,地区GDP地区人均可支配收入,高等学校在校学生数(代表教育水平),农 林牧渔业总产值(代表基础消费品供应水平),卫生机构人员数(医疗水平),以及人口自然 增长率(人口变化水平)是影响各省 GDP勺主要因素。
5、通常情况下,除了人口自然增长率以外 的其余5个解释变量与人均消费水平呈正相关关系, 而人口自然增长率则呈负相关关系。 在这 里,将人均消费水平作为被解释变量,其余 6个变量作为解释变量,建立 x1,x2,.,x6 与y 的多元线性回归模型。二处理数据1.多元回归分析(1) 画散点图>setwd("D:/R-3.2.3/data")>mydata<-read.csv("book2.csv",header = T)> plot(mydata)rn.T-由上图,可以看到y与除X2以外的其余解释变量呈正相关,与X2呈负相关,与我们的分 析
6、一致,还可以看到,解释变量本身存在相关性,可能存在多重多线性。L-匚产匚1«(2) 将数据标准化与求其相关系数>mydata_scale<-scale(mydata)>mydata_scale_cor<-cor(mydata_scale)>hist(mydata_scale_cor,xlab = "cor")Histogram of mydata_scale_corAau nba)LLcor由相关系数的频率直方图可知,大部分相关系数在0.91之间,相关性很强,作回归分析 较为合理。(3) 得到线性拟合模型mydata_scale<
7、;-as.data.frame(mydata_scale)tlm<-lm(yx1+x2+x3+x4+x5+x6,data=mydata_scale)summary(tlm)得到:Call :In (formula =y xl -Kx2 + x3 + x4+ x5 + x6, data=ruydatascal e)Re5"i dual 5 Iwiniqriedi anMax-0.049S10 -0.0173090.0040290.0158660,063060coeffncientsaEsrlmareSTd. Errort valuePr(>|r|)(zrtercept)-6
8、.C8Ce-176.628e-O3Q. 000l.oatjQooxl了'29S电011.83Ce-Ql3, 97 5C.00097B* *x2'5.403C-022.6B4e-02-2. 013(h 060207x3-1.737C-014.461e-02-3.8940.001168w *X41.189C-017.482e-021. 5890.130528X57.577e-024.757e-021 6770.111903X咱1.969e-011.891C-O11.0410. 312467signif< sda; 0 1! 0.001 n0.01 c"0*05 !
9、0-1 ( ! 1R史sidual standard error : 0.03247 on 17 degr电电占 of freedomMui亡p2 R-squard :0.9Q89F-staTlsTlc:3653 On 6 and 17 DF, p-value: < 2.2e-16未通过由上表看到,F值=3633, P值=2.2*10X6,说明回归方程整体显著,但是x2,x4,x5,x6 T检验,并且系数不是整体显著,故应当得继续优化该模型。(4) 逐步回归tstepv-step(tlm) #逐步回归Start: AIC=-165.84y xl + x2 +十 x4 + x5 +Dfsu
10、m of sqRSSAIC-x&1OQQ 0E41Q. (U3430-17.72-xd10.00058170.013947-166.81<none>0.013366-165.84-xZ1000282780 016193-163.23-x510.003&5210. 017218-161.76-xl10 01967400.033040-146,11-xS10.02022770.033593-145. 72Df <nane> -x21-x鼻1-x31-xl1Sum of Sq0.0039310 00 5 9210, 024 8660.284415RSS0013
11、965 0.01789600丄否00 3SB510.29S380AIC -16S,?82 -1&4.829 -1&2 299 -146 238-97,299通过逐步回归法,剔除x6,x4两个变量,得到最优模型summary(tstep):Call :1 m(formula = y xl + m2 + x3 + 科5* data = mydata_scale)Resi dual s:coeffi cl errs:srd. Errort valueRr(>k|)E5tima匸亡(inter匚Ept)4.231e-185,534C-030 Q001.0000xl9+196e-0
12、1d 675e-0219 671心.30e-14曲旨firx2-6.044e-022.613e-D2-2.3130. 0321-1.9126-013.2875-02-S. 8161_ 33&-O5*住左k52.1fi3e-017.693e-022- S3B0.0105Ml nIQ Median-0.039765 -0.015554 -0.0011743QCL 018759Max0.063174signlf. codes:00.0010*01 - *T 0, OSResidual standard error: 0.02711 on 19 degrees of freedom rulrl
13、ple R-squared:09994 t Adjuied R-squared:0.999 3F-statlstlc: 7818 on 4 and 19 df, p-value: < 2. 2e-16dropl(tstep)Step: ATC=-167.72y - xl + x2 + >3 + x4 + x5DfSum of 5qR55AIC-x410. 0005350.013965-16S. 78<none>0 013450167 72-x510. 004 2460.017676-163-13-x216 004 271CL 017700-153, 09-X31002予
14、工石5Q038794-1442石-Xl10.1920120.205442-1CM_ 26STEP;Zfiy - Xl + X2 -F X3 4- X5single term deletionsDfSum of SqRSSAIC<none>0.Q159G5-168.782X110.2844150.29838D-97.299X210.0039310,017896-164,829x310.0248660.036S31-146,236x510.005921G.019886-162.299Model:y - Kl + X2 + X5tlm<-lm(yx1+x2+x3+x5,data=m
15、ydata_scale)summary(tlm)call:Im (formula = yxl + x2 + x? * x51 data = nyd at a_s c a.1 e)Residuals:Min1q Median如Max-0,039765 -0.015554 -0,001174 Q.01B759 Q.QC5174coefficients;Std * Errort val uePr(>|t|)Estimate(intercept)4.231-185. 534e010, 0001,0000xlg.iece-oi4.67Se0215.6714.30C-14x2-6.C44e-O22.
16、613e022MUG.O321*x3-1.126-01A 2S7e0202-5.S161.33e-O5x52.1B3C-O1了.93e2. 8S80.0105它signify codes:0 *1 0.001 L*' 0,010.05 "”' 0.1 * J 1Residual standard rror:打.02711 on 19 degrees of freedomMultiple R-squared:0.5554 s Adjusted R-squared:0.5S&SF-statistnc:781S on 4 and 19 DF, p-value; &l
17、t; 2,2e-16可以看到,剩余的x1,x2,x3,x5都通过了 T检验P值最大的为x2=0.0321,但也满足小于0.05,所以都是高度显著,回归方程即:y=4.231e-18+9.196e-01*x1-6.044e-02*x6-1.912e-01*x3+2.183e-01*x5(5) 多重共线性library(car)vif(tlm) #多重共线性mea n(vif(tlm)xlx2x3x4x5>6S42.1757228. 5934946.40663141.21757216.74B44864.33035由上表看到,解释变量的VIF值的均值为359.912 ,远大于10,说明存在较强
18、的多重共线 性,其中 x1,x2,x3,x4,x5 ,x6 的 VIF 值都大于 10,x6=884.33035 为最大。下面逐一剔除VIF值大于10的解释变量,从最大的x6开始剔除,直到剩余所有解释变量 的VIF值小于10即可得到最终回归模型。tlm<-lm(yx1+x2+x3+x4+x5,data=mydata_scale) # vif(tlm)剔除x6xlxBx4x595.8L67521.8118234*96770 108.02054207.33712由上表看到,VIF值大于10 的为 x1,x2,x3.x4,x5.其中x5最大,故剔除x5。tlm<-lm(yx1+x2+x3
19、+x4,data=mydata_scale) #剔除x5vif(tlm)xlX2x3x464.9180528.819842 28.469293 96.4B9227由上表看到,VIF值大于10的解释变量为x1,x3,x4,其中x4最大,故剔除x4tlm<-lm(yx1+x2+x3,data=mydata_scale) # 剔除 x4vif(tlm)由上表看到,VIF值大于10的解释变量为x3,故剔除x4由上表看到,所有解释变量都小于 10,说明此模型不存在强多重共线性,可以作为最终 回归模型。tlm<-lm(yx1+x2,data=mydata_scale)summary(tlm)3
20、QMax0.031560.06911Coefficients;(Intercept) -3.869e-17 xlx29.662e-01 4. 500e-02Std.8.784e-Q31.295e-021.295e-020,00074.608-3.475Pr(>ltD1. 00000< 2e-16 *0.00226 *signif.cades:0,0010.01 *! 0.05! 0.1 * * 1Residual srandaird error: 0.Q4 3O3 on 21 degrees of freedomMultiple R-squared: 0.9983a Adjuste
21、d R-squared: 0.9981 f-statistic: 6200 on 2 and 21 df, p-value: < 2.2e-16由上表看到,所有的解释变量都小于10, R方=0.9983 , F值=6200。最后得到的最终回归模型为:Y=-3.869e-17+9.662e-01*x1-4.5e-02*x22.主成分分析:mydata.prv-pri ncomp(mydata,cor=TRUE)summary(mydata.pr,loadi ngs=TRUE)结果如下:importance of components: comp. 1 2. 5594594 0.535S33
22、2 0. 9358332standard devlati on proportlon of var5ance cumu'lari ve Proport i oncomp* 20.634784 60.05756450.9533977comp.3 0.17933472 0.004S9442 0.9979209Comp,40” 09 5 796793 0.0013110040.599303090comp_ 50.0618153487 0.000545S768 0.999fl48968call:1 m(formu 1 a = y xl + x2 F dara = mydaTa_scal e)R
23、esiduals:MinIQ Median-0.07378 -0.041420.01867St andard devn afi onProportlon of variance cumuT at I ve Proport ii onComp. 6Comp. 70.0275896640 l_671524e-O2 0. (XWllll丄91 3- 991418C-O5O.9999600853 1.000000+00L oadi ngs :yComp.1 CQinp. 2 Comp. 3 匚omp.4Gomp.5Ccmp» 60 51BComp, 7O, &19-0.332-0.SOS0. 3080. 110X1-Q,JSL-0.32Q 12?Qt 2200. 20£02石呂-O, 742xZ0. 334-0306Q43弓-0,214-0.310-250-Q S31CL 1S30.1346 200X4-O.337-0.175-CL 84 30. 2 51-6 201x5-0.理0903-6 132x6-0-3S8-0.1840,4310.120-6 759O. 187前两个主成分累积贡献率已经达到99
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 航班接送出租车租赁合同
- 仓库品质管理培训
- 尘推的正确使用方法培训
- 集团入职培训教材
- 肢体活动不利康复护理
- 脑血管介入手术后的护理
- 自己的事情自己做健康教案
- 2025秋湘教版(2024)七年级上册地理课件 5.2.2 降水 世界降水的分布 气候信息的表示方法
- 行政办公区域消防设施检查管理规定
- 2025年国际关系与外交政策考试试卷及答案
- 2025年外卖平台合作配送合同范本
- (北师大版)初中数学七年级下册 期末测试 (含答案)
- 广西钦州市2023-2024学年高一下学期期末考试 英语 含解析
- 技术标编制培训
- 2025广西壮族自治区博物馆讲解员招聘3人高频重点提升(共500题)附带答案详解
- TSG 51-2023 起重机械安全技术规程 含2024年第1号修改单
- 配电室巡检培训
- 项目部组织安排
- 妊娠期非产科手术麻醉管理
- 武警防暴队形课件
- DB21T 3163-2019 辽宁省绿色建筑施工图设计评价规程
评论
0/150
提交评论