利用R讨论影响人均消费水平的因素_第1页
利用R讨论影响人均消费水平的因素_第2页
利用R讨论影响人均消费水平的因素_第3页
利用R讨论影响人均消费水平的因素_第4页
利用R讨论影响人均消费水平的因素_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一 问题描述 1 设定问题与收集数据 影响一个地区人均消费水平的因素有很多 例如 一个地区的 GDP 该地区人均可 支配收入 该地区的教育水平 以及地区人口增长变化情况等 下面我们选取 6 个解释变量 研究地区人均消费水平 解释变量分别为 x1 四川地区生产总值 x2 人口自然增长率 x3 高等学校在校学生数 x4 农林牧渔业总产值 x5 卫生机构人员数 x6 人均可支配收入 选 取了 2014 年 四川省统计年鉴 中 1990 年到 2013 年的历年数据 以四川地区人均消费水 平为因变量 以如上 6 个自变量作多元线性回归 数据如下 2 阐述理论 由经济理论知 地区 GDP 地区人均可支配收入 高等学校在校学生数 代表教育水平 农林牧渔业总产值 代表基础消费品供应水平 卫生机构人员数 医疗水平 以及人口 自然增长率 人口变化水平 是影响各省 GDP 的主要因素 通常情况下 除了人口自然增 长率以外的其余 5 个解释变量与人均消费水平呈正相关关系 而人口自然增长率则呈负相关 关系 在这里 将人均消费水平作为被解释变量 其余 6 个变量作为解释变量 建立 x1 x2 x6 与 y 的多元线性回归模型 二二 处理数据处理数据 1 多元回归分析 1 画散点图 setwd D R 3 2 3 data mydata plot mydata 由上图 可以看到 y 与除 X2 以外的其余解释变量呈正相关 与 X2 呈负相关 与我们的 分析一致 还可以看到 解释变量本身存在相关性 可能存在多重多线性 2 将数据标准化与求其相关系数 mydata scalemydata scale corhist mydata scale cor xlab cor 由相关系数的频率直方图可知 大部分相关系数在 0 9 1 之间 相关性很强 作回归分 析较为合理 3 得到线性拟合模型 mydata scale as data frame mydata scale tlm lm y x1 x2 x3 x4 x5 x6 data mydata scale summary tlm 得到 由上表看到 F 值 3633 P 值 2 2 10 16 说明回归方程整体显著 但是 x2 x4 x5 x6 未通 过 T 检验 并且系数不是整体显著 故应当得继续优化该模型 4 逐步回归 tstep step tlm 逐步回归 通过逐步回归法 剔除 x6 x4 两个变量 得到最优模型 summary tstep drop1 tstep tlm lm y x1 x2 x3 x5 data mydata scale summary tlm 可以看到 剩余的 x1 x2 x3 x5 都通过了 T 检验 P 值最大的为 x2 0 0321 但也满足小 于 0 05 所以都是高度显著 回归方程即 y 4 231e 18 9 196e 01 x1 6 044e 02 x6 1 912e 01 x3 2 183e 01 x5 5 多重共线性 library car vif tlm 多重共线性 mean vif tlm 由上表看到 解释变量的 VIF 值的均值为 359 912 远大于 10 说明存在较强的多重共 线性 其中 x1 x2 x3 x4 x5 x6 的 VIF 值都大于 10 x6 884 33035 为最大 下面逐一剔除 VIF 值大于 10 的解释变量 从最大的 x6 开始剔除 直到剩余所有解释变 量的 VIF 值小于 10 即可得到最终回归模型 tlm lm y x1 x2 x3 x4 x5 data mydata scale 剔除 x6 vif tlm 由上表看到 VIF 值大于 10 的为 x1 x2 x3 x4 x5 其中 x5 最大 故剔除 x5 tlm lm y x1 x2 x3 x4 data mydata scale 剔除 x5 vif tlm 由上表看到 VIF 值大于 10 的解释变量为 x1 x3 x4 其中 x4 最大 故剔除 x4 tlm lm y x1 x2 x3 data mydata scale 剔除 x4 vif tlm 由上表看到 VIF 值大于 10 的解释变量为 x3 故剔除 x4 由上表看到 所有解释变量都小于 10 说明此模型不存在强多重共线性 可以作为最终 回归模型 tlm lm y x1 x2 data mydata scale summary tlm 由上表看到 所有的解释变量都小于 10 R 方 0 9983 F 值 6200 最后得到的最终回归模型为 Y 3 869e 17 9 662e 01 x1 4 5e 02 x2 2 主成分分析 mydata pr princomp mydata cor TRUE summary mydata pr loadings TRUE 结果如下 前两个主成分累积贡献率已经达到 99 34 因此取前两个主成分降维 可以得到 Y1 0 381 x1 0 334 x2 0 381 x3 0 387 x4 0 390 x5 0 388 x6 Y2 0 352 x1 0 806 x2 0 250 x3 0 175 x4 0 184 x6 y 表示人均消费水平 x1 四川地区生产总值 x2 人口自然增长率 x3 高等学校在校学生数 x4 农林牧渔业总产值 x5 卫生机构人员数 x6 人均可支配收入 所以可以得到因子和各个 原变量的关系为 y 0 899f1 0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论