




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、薮北京航堂就太大拳 /BEIHANGUNIVERSITY 数理统计 (课程大作业1) 逐步回归分析 学院:机械工程学院 专业:材料加工工程 日期:2014 年 12 月 7 日摘要:本文介绍多元线性回归分析方法以及逐步回归法,然后结合实际,以我国 1995-2012年的财政收入为因变量,选取了8个可能的影响因素,选用逐步回归 法对各影响因素进行了筛选分析,最终确定了其“最优”回归方程。 关键字:多元线性回归逐步回归法财政收入SPSS 1 引言 自然界中任何事物都是普遍联系的,客观事物之间往往都存在着某种程度的关联关系。为了研究变量之间的相关关系,人们常用回归分析的方法,而回归分析是数理统计中一
2、种常用方法。数理统计作为一种实用有效的工具,广泛应用于国民经济的各个方面,在解决实际问题中发挥了巨大的作用,是一种理论联系实践、指导实践的科学方法。 财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。财政收入是衡量一国政府财力的重要指标,政 府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财 政收入的充裕状况。 本文将以回归分析为方法,运用数理统计工具探求财政收入与各种统计指标之间的关系,总结主要影响因素,并对其作用、前景进行分析和展望。 2 多元线性回归 2
3、.1多元线性回归简介 在实际问题中,某一因素的变化往往受到许多因素的影响,多元回归分析的任务就是要找出这些因素之间的某种联系。由于许多非线性的情形都可以通过变 换转化为线性回归来处理,因此,一般的实际问题都是基于多元线性回归问题进行处理的。对多元线性回归模型简要介绍如下: 如果随机变量y与m(m22)个普通变量”?2Xm有关,且满足关系式: y=:0,桂:mXm.; E名=0,D名=仃2(2.1) 其中,432Pm产2是与X1,X2Xm无关的未知参数,齿是不可观测的 随机变量,N(0产 IN)。 式(2.1)为m元理论线性回归模型,其中P。,再,比Pm为回归系数, Xi,X2Xm为回归因子或设
4、计因子。Pi(i=1,2,m)实际上反映了因子 Xi(i=1,2,,m)对观测值y的作用,因此也称由(i=1,2,m)为因子 X(i=1,2,,m)的效应 通过对回归系数由(i=1,2,m)进行最小二乘估计后,可以得到m元经验回归方程为: ?=?0ZX?2乂2?mXm (2.(2) 也称式(2.2)为m元线性回归方程。咒为回归常数,也称回归系数,凡因2着称为回归系数。 2.2逐步回归法 在多元线性回归分析中,由于有多个自变量,回归自变量的选择成为建立回归模型的重要问题。通常,一方面,为获取全面信息总希望模型中包括的自变量尽可能多;另一方面,考虑到获取很多自变量的观测值的费用和实际困难,则希 望
5、模型中包含尽可能少而且重要的变量。因此,人们常根据某种规则对自变量进 行筛选。本次选用的方法是逐步回归法。 1)回归效果的显著性检验 y与变量X1,X2Xm线性相关的密切程度可以用回归平方和U在总平方和Lyy R2=土为样本决定系数。在多元线性回归的实际应用中,用复相关系数来表示Lyy 回归方程对原有数据拟合程度的好坏。显然0MR21,其越接近1,回归方程拟合程度越高。 2)偏F检验 检验某个自变量对y的影响是否显著的正规方法是偏F检验。 设原回归方程(全模型)为: 尸?0?X1号X2彳Xy彳XN1X1%Xm 去掉变量 Xi后的新回归方程(减模型)为: ?二3ZxiZx2?iXi彳Xi1,?m
6、Xm 全模型的复相关系数的平方为R2,减模型的复相关系数的平方为R2,定义 R:=R2-R2o若AR;几乎为零,则说明x对y没有显著影响,反之则表示x对y有其它变量不可替代的显著影响。 中所占的比例来衡量。称 检验假设: H0:R2=0;H1:.R::0 当H。为真时,检验统计量为 lRi2?:八 Fi=2=-F(1,n-m-1) (1-R2)/(n-m-1)S2 对于给定显著性水平a,由样本计算出Fi的值, 若Fi之Fi也(1,n-m-1),则拒绝H。,说明x对y有显著影响,应在减模型中引入自变量x;反之则应剔除x,使之成为减模型。 偏F检验通常被用作变量筛选的依据。 逐步回归法中就是对各变
7、量采用偏F法进行检验的。 3)逐步回归法的步骤 逐步回归法的基本思想是:将变量逐个引入,引入条件是该变量的偏F检验是显著的。同时,每引入一个新变量后又对老变量逐个检验,将变得不显著的变量从回归模型中剔除。 具体步骤如下: 1、对m个自变量分别与y建立回归模型夕=f?,十片0)为,对它们分别计算 E,得Fi中最大的那个值,比如口 (I)如果 F1F 进,则计算结束,即 y 与所有自变量均线性无关; (H)如果 FL1之 F 进,则引入 XL1,建立回归方程 夕川1)+甲 Xi(2 2、建立y与自变量子集xL1,Xi(i#Li)的二元回归模型 (2.4) 以式(2.4)为全模型,式(2.3)为减模
8、型求Fi值,并取得Fi中最大的那个值,比 如说 FL2。 (1如果 FLlr wMitn- (8) (1)财政收入与国内生产总值散点图;(2)财政收入与人口数散点图; (3)财政收入与能源生产总量;(4)财政收入与农作物总播种面积散点图; (5)财政收入与货运量散点图;(6)财政收入与出口总额散点图; (7)财政收入与进口总额散点图;(8)财政收入与建筑业总产值散点图 图 1 财政收入与各种因素散点图 由于多元逐步回归分析方法是一种多元线性回归方法,指标变量若呈非线性关系则会影响模型精度。所以首先判断因变量和自变量是否存在非线性关系。从 图1可以看出,人口数X2与财政收入Y之间大致呈指数关系,
9、而农作物总播种面积X4与财政收入Y之间的线性关系很不显著,都是可以首先剔除的变量。其余变量错误!未找到引用源。都与财政收入Y具有线性作用且正相关,需要通过逐步分析方法进行进一步的显著性判断。 线性回归的结果及分析 利用统计数据建立回归模型,用SPSS软件的线性回归分析功能,得到以下数据。由表3可以看出货运量、国内生产总值和能源生产总量这三个自变量经过逐步回归过程被选择进入了回归方程。被选择的判据是变量进入回归方程的F 的概率不大于0.05,被剔除的判据是变量进入回归方程的F的概率不小于0.10。lgMOXiTr Kixciaxoj 迹总翻 rojjnivr- SfiHHsuxa7HKU00iK
10、HCOUiI包时弧 望就业总产越 表 3 输入/移去的变量 模型 输入的变量 移去的变量 方法 1 货运量(万吨 步进(准则: F-to-enter 的概率=.100)。 2 国内生产总值 (亿元) 步进(准则: F-to-enter 的概率=.100)。 3 能源生产总量 (万吨) 步进(准则: F-to-enter 的概率=.100)。 a.因变量:财政收入 表4显示三个模型的拟合情况,模型3的复相关系数R=1.000,可决系数 R2=0.999,调整可决系数为0.999,估计值的标准差为916.74710,可见模型3的拟合度较高。 表 4 模型汇总 模型 R R2 调整 R2 标准估计的
11、误差 1 .999a .998 .998 1615.37929 2 1.000b .999 .999 1163.51991 3 1.000c .999 .999 916.74710 a.预测变量:(常量),货运量(万吨) b.预测变量:(常量),货运量(万吨),国内生产总值(亿元) c.预测变量:(常量),货运量(万吨),国内生产总值(亿元),能源生产总量(万吨) d.因变量:财政收入(亿元) 从表5中看出方差分析结果可以看出,三个模型的F值检验Sig值远小于0.01,可见,最终模型的整体线性关系是成立的。 表 5ANOVAd 模型 平方和 df 均方 F Sig. 1 回归 2.044E10
12、 1 2.044E10 7832.197 .000a 残差 41751204.003 16 2609450.250 总计 2.048E10 17 2 回归 2.046E10 2 1.023E10 7556.322 .000b 残差 20306678.791 15 1353778.586 总计 2.048E10 17 3 回归 2.047E10 3 6.823E9 8117.999 .000c 残差 11765953.531 14 840425.252 总计 2.048E10. 17 a.预测变量:(常量),货运量(万吨) b.预测变量:(常量),货运量(万吨),国内生产总值(亿元) c.预测变
13、量:(常量),货运量(万吨),国内生产总值(亿元),能源生产总量(万吨)d.因变量:财政收入(亿元) 如表6所示,包含的是进入模型的变量,主要描述模型的参数估计值,以及每个变量的系数估计值的显著性检验和共线性检验。结果模型中所有变量系数的 t检验Sig值都接近或小于0.01,说明这些系数都显著的不为0,因此,最终的回归方程应当包含货运量、国内生产总值和能源生产总量这三个自变量,且方程拟和效果很好。 表 6 系数 模型 非标准化系数 标准系数 t Sig. B 标准误差 试用版 1 (常量) -39148.932 958.303 -40.852 .000 货运量(万吨) .038 .000 .9
14、99 88.500 .000 2 (常量) -26904.767 3152.897 -8.533 .000 货运量(万吨) .022 .004 .568 5.233 .000 国内生产总值 (亿元) .103 .026 .432 3.980 .001 3 (常量) -15515.418 4351.514 -3.566 .003 货运量(万吨) .015 .004 .385 3.731 .002. 国内生产总值 (亿元) .176 .031 .737 5.744 .000 能源生产总量 (万吨) -.060 .019 -.124 -3.188 .007 表 6 系数 模型 非标准化系数 标准系数
15、 t Sig. B 标准误差 试用版 1 (常量) -39148.932 958.303 -40.852 .000 货运量(万吨) .038 .000 .999 88.500 .000 2 (常量) -26904.767 3152.897 -8.533 .000 货运量(万吨) .022 .004 .568 5.233 .000 国内生产总值 (亿元) .103 .026 .432 3.980 .001 3 (常量) -15515.418 4351.514 -3.566 .003 货运量(万吨) .015 .004 .385 3.731 .002 国内生产总值 (亿元) .176 .031 .
16、737 5.744 .000 能源生产总量 (万吨) -.060 .019 -.124 -3.188 .007 a.因变量:财政收入(亿元) 如表7所示,给出的是所有未进入最终模型的变量检验信息,由t检验的Sig 值都大于0.1,这些变量对模型的贡献都不明显,所以它们都不包含在最终方程中。 表 7 排除的变量 Model BetaIn t Sig. 偏相关 共线性统计量 容差 1 国内生产总值 (亿元) .432a 3.980 .001 .717 .006 能源生产总量 (万吨) .043a .926 .369 .233 .061 出口总额(亿元) .066a 1.929 .073 .446
17、.092 进口总额(亿 元) .076a 1.828 .088 .427 .064 建筑业总产值 (亿元) -.051a -.195 .848 -.050 .002 2 能源生产总量 (万吨) -.124b -3.188 .007 -.649 .027 出口总额(亿 元) -.049b -1.117 .283 -.286 .034 进口总额(亿 元) -.037b -.779 .449 -.204 .030 建筑业总产值 (亿元) .319b 1.660 .119 .406 .002 3 出口总额(亿元) .073c 1.478 .163 .379 .016 进口总额(亿 元) .101c 2
18、.111 .055 .505 .014 建筑业总产值 (亿元) .188c 1.142 .274 .302 .001 a模型中的预测变量:(常量),货运量(万吨) b.模型中的预测变量:(常量),货运量(万吨),国内生产总值(亿元) c 模型中的预测变量:(常量),货运量(万吨),国内生产总值(亿元),能源生产总量(万吨)d.因变量:财政收入 表 8 残差统计量 极小值 极大值 均值 标准偏差 N 预测值 5652.1587 116279.0000 38679.2983 34698.46056 18 残差 -1919.03113 1378.36218 .00000 831.93444 18 标
19、准预测值 -.952 2.236 .000 1.000 18 标准残差 -2.093 1.504 .000 .907 18 a.因变量:财政收入(亿元) 43N A Au3b u3b u_u_ Histogram 标准化残差的P-P图通过比较样本残差分布与假设的正态分布是否相同来检 验残差是否符合正态分布,所有残差点都分布在对角的直线附近,说明残差的正态性假设基本成立。 NormalP-PPlotofRegressionStandardizedResidual DependentVariable:财政收入 心07 0 Z2012/O2011 1.0 qoqod 30p0K*dxd 30p0K*
20、dx山 19 1006 20i 2000 1997 o.o 2002 oo 2Q0S 011995 /20090 rIT-r 0.00.2Q,40.60.B1,0 ObservedCumProb 图3标准P-P图 60000.00 年份 O1自 由sL1906 1997Oigsa 1999O2000 2001 2002口2003O2004 .?2QD5 200502007 200602009:2010O2011 2012 QOQQO1oaooo3 口口 QQQ StandardizedResidual 从图4的的财政收入与其标准化残差散点图中可以看到,所有观测量随机地落 在垂直围绕i2的范围内,预测值与标准化残差值之间没有明显的关系,所以回归方程应该满足线性关系与方差齐性的假设且拟和效果较好。 最优回归方程 由以上多元回归分析可得各个分量的影响关系,从而得出最优”方程为: Y=-15515.418+0.176X1-0.060X3+0.015X5 其中R2=0.999,F=8117.999 X1代表国内生产总值,X3代表能源生产总量,X5代表货运量 代入2011年数据,可得 Y2011=-15515.418+0.176473
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 包车费合同范本
- 富宁商标转让合同范本
- 新入职员工通识培训考试题附答案
- 入学教育心得体会范文12篇
- 执法司法面试题目及答案
- 生态主题公园:2025年沉浸式体验设计与环境融合报告
- 历届托福考试试题及答案
- 2025年山西中小学教师招聘考试模拟试题及答案
- 2025年山西教师资格证考试真题(附答案)
- CN222961424U 一种微生物采样装置 (济南市食品药品检验检测中心(济南市药品不良反应和医疗器械不良事件监测中心))
- IP授权使用合作协议书范本
- 铁路运输融资创新-洞察分析
- 安全法律知识培训课件
- 顶管工程监理规划
- 妊娠合并地中海贫血护理
- 2025年汽车零部件企业公司组织架构图职能部门及工作职责
- 机械加工质量控制计划
- 《水利工程质量》课件
- 《市场营销岗位介绍》课件
- 《电子收费系统E》课件
- 2024年全国《考评员》专业技能鉴定考试题库与答案
评论
0/150
提交评论