




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、一.问题描述1.设定问题与收集数据 影响一个地区人均消费水平的因素有很多,例如,一个地区的GDP,该地区人均可支配收入,该地区的教育水平,以及地区人口增长变化情况等,下面我们选取6个解释变量研究地区人均消费水平,解释变量分别为:x1四川地区生产总值,x2人口自然增长率,x3高等学校在校学生数,x4农林牧渔业总产值,x5卫生机构人员数,x6人均可支配收入。选取了2014年四川省统计年鉴中1990年到2013年的历年数据,以四川地区人均消费水平为因变量,以如上6个自变量作多元线性回归。数据如下2. 阐述理论由经济理论知,地区GDP,地区人均可支配收入,高等学校在校学生数(代表教育水平),农林牧渔业
2、总产值(代表基础消费品供应水平),卫生机构人员数(医疗水平),以及人口自然增长率(人口变化水平)是影响各省GDP的主要因素。通常情况下,除了人口自然增长率以外的其余5个解释变量与人均消费水平呈正相关关系,而人口自然增长率则呈负相关关系。在这里,将人均消费水平作为被解释变量,其余6个变量作为解释变量,建立x1,x2,.,x6与y的多元线性回归模型。二 处理数据1. 多元回归分析 (1)画散点图>setwd("D:/R-3.2.3/data")>mydata<-read.csv("book2.csv",header = T)> plo
3、t(mydata)由上图,可以看到y与除X2以外的其余解释变量呈正相关,与X2呈负相关,与我们的分析一致,还可以看到,解释变量本身存在相关性,可能存在多重多线性。(2)将数据标准化与求其相关系数>mydata_scale<-scale(mydata)>mydata_scale_cor<-cor(mydata_scale)>hist(mydata_scale_cor,xlab = "cor")由相关系数的频率直方图可知,大部分相关系数在0.91之间,相关性很强,作回归分析较为合理。(3) 得到线性拟合模型mydata_scale<-as.d
4、ata.frame(mydata_scale)tlm<-lm(yx1+x2+x3+x4+x5+x6,data=mydata_scale) summary(tlm) 得到: 由上表看到,F值=3633,P值=2.2*1016,说明回归方程整体显著,但是x2,x4,x5,x6未通过T检验,并且系数不是整体显著,故应当得继续优化该模型。(4)逐步回归tstep<-step(tlm) #逐步回归通过逐步回归法,剔除x6,x4两个变量,得到最优模型summary(tstep):drop1(tstep)tlm<-lm(yx1+x2+x3+x5,data=mydata_scale) sum
5、mary(tlm) 可以看到,剩余的x1,x2,x3,x5都通过了T检验。P值最大的为x2=0.0321,但也满足小于0.05,所以都是高度显著,回归方程即:y=4.231e-18+9.196e-01*x1-6.044e-02*x6-1.912e-01*x3+2.183e-01*x5(5) 多重共线性library(car)vif(tlm) #多重共线性mean(vif(tlm)由上表看到,解释变量的VIF值的均值为359.912,远大于10,说明存在较强的多重共线性,其中x1,x2,x3,x4,x5,x6的VIF值都大于10,x6=884.33035为最大。下面逐一剔除VIF值大于10的解释
6、变量,从最大的x6开始剔除,直到剩余所有解释变量的VIF值小于10即可得到最终回归模型。 tlm<-lm(yx1+x2+x3+x4+x5,data=mydata_scale) #剔除x6vif(tlm)由上表看到,VIF值大于10的为x1,x2,x3.x4,x5,其中x5最大,故剔除x5。tlm<-lm(yx1+x2+x3+x4,data=mydata_scale) #剔除x5vif(tlm)由上表看到,VIF值大于10的解释变量为x1,x3,x4,其中x4最大,故剔除x4。tlm<-lm(yx1+x2+x3,data=mydata_scale) #剔除x4vif(tlm)由
7、上表看到,VIF值大于10的解释变量为x3,故剔除x4。 由上表看到,所有解释变量都小于10,说明此模型不存在强多重共线性,可以作为最终回归模型。tlm<-lm(yx1+x2,data=mydata_scale)summary(tlm)由上表看到,所有的解释变量都小于10,R方=0.9983,F值=6200。最后得到的最终回归模型为:Y=-3.869e-17+9.662e-01*x1-4.5e-02*x22. 主成分分析:mydata.pr<-princomp(mydata,cor=TRUE)summary(mydata.pr,loadings=TRUE)结果如下:前两个主成分累积贡献率已经达到99.34%,因此取前两个主成分降维。可以得到:Y1=-0.381*x1+0.334*x2-0.381*x3-0.387*x4-0.390*x5-0.388*x6 Y2=-0.352*x1-0.806*x2+0.250*x3-0.175*x4-0.184*x6y表示人均消费水平,x1四川地区生产总值,x2人口自然增长率,x3高等学校在校学生数,x4农林牧渔业总产值,x5卫生机构人员数,x6人均可支配收入;所以可以得到因子和各个原变量的关系为:y=0.899f1+
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025安徽池州市青阳县选聘县属国有企业高级管理人员工作考前自测高频考点模拟试题及答案详解(考点梳理)
- 2025江苏泰州学院招聘专职辅导员和专任教师17人考前自测高频考点模拟试题及答案详解(名校卷)
- 2025河南安阳市殷都区殷墟文物保护志愿者招募考前自测高频考点模拟试题及一套答案详解
- 2025黑龙江齐齐哈尔市建华区建设街道公益性岗位招聘1人考前自测高频考点模拟试题及答案详解(夺冠系列)
- 2025江苏南通市公安局招聘警务辅助人员66人模拟试卷及参考答案详解
- 2025年第八届“人才·南平校园行”活动暨光泽县紧缺急需医疗人才引进考前自测高频考点模拟试题附答案详解(典型题)
- 2025河南开封国禹运营管理有限公司招聘园区转运中心工作人员10人考前自测高频考点模拟试题及参考答案详解1套
- 2025国网物资有限公司第二批高校毕业生录用人选的考前自测高频考点模拟试题及1套完整答案详解
- 2025湖南长沙高新区中心幼儿园和馨园招聘教师2人模拟试卷附答案详解(考试直接用)
- 2025陕西安康市汉阴县道路运输管理所驾驶员招聘77人笔试历年参考题库附带答案详解
- 2024年中小学学生防范电信网络诈骗知识竞赛题库及答案
- 煤炭供应方案投标文件(技术方案)
- HZS60混凝土搅拌站的技术改造及重油改造
- NB-T10859-2021水电工程金属结构设备状态在线监测系统技术条件
- 《电力行业数字化审计平台功能构件与技术要求》
- 医院培训课件:《和谐医患关系的建构与医疗纠纷的应对》
- 《肺癌基础知识课件》
- 水泥行业发展的现状分析
- 会计继续教育《政府会计准则制度》专题题库及答案
- 安全生产应急处置卡模板(常见事故)
- 学校食堂食材配送服务方案(肉类、粮油米面、蔬菜水果类)
评论
0/150
提交评论