sas人均消费水平的回归分析_第1页
sas人均消费水平的回归分析_第2页
sas人均消费水平的回归分析_第3页
sas人均消费水平的回归分析_第4页
sas人均消费水平的回归分析_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数理统计 课程论文 题目:运用 SAS 软件对我国人均消费支出的统计分析1我国城镇居民人均消费支出的回归分析摘要:本文基于城镇居民平均消费水平,做多元线性回归模型。首先,做 的回归模型,以及对齐进行回归诊断。结果发现4321x,y关 于回归方程显著,但是截距, 不是显著的,且 的系数与实际情42x, 4x况不符合,并且变量间存在共线性,且数据中存在异常点。接着,对删除异常点的数据做回归分析,接着对不同的自变量组合做回归分析并做逐步回归,确定最优的自变量组合。最后用最优的自变量组合结合去除异常点的数据做回归分析,残差分析,确定回归模型。最后得到最优的回归方程为 ,决321062.8xxy定系数 等于 0.9996。2R关键词:回归分析、残差分析、逐步回归、回归诊断、城镇居民平均消费水平1、引言城镇居民消费水平是指居民在物质产品和劳务的消费过程中,对满足人们生存、发展和享受需要方面所达到的程度。通过消费的物质产品和劳务的数量和质量反映出来。本问题要求通过收集整理数据,掌握对城镇人均消费支出的影响因素, 利用 SAS 软件进行多元回归分析,求出回归方程,进行统计检验(包括回归方程的显著2性检验,回归系数的显著性检验)以及残差的检验;然后进行估计和预测。2、数据来源、指标阐述、及相关信息本问题所涉及的指标变量有一下五项:1:城镇居民平均消费水平(y)。2:城镇居民平均可支配收入(x1)。居民可支配收入=城镇居民家庭总收入-交纳所得税-个人交纳的社会保 障支出3:城镇居民人均国内 GDP(x2)。4:城镇居民消费价格指数(x3)。5:城镇居民家庭恩格尔系数(x4)。恩格尔系数是食品支出总额占个人消费支出总额的比重上述所有数据均来自于中国统计年鉴网(/kns55/index.aspx) 数据的时间范围为(1978-2012) 。其中城镇居民消费价格指数,以 1978 年为基 100 计算。年份 城镇居民平均消费水平 人均可支配收 入 人均国内生产总 值 城镇居民消费价格指数 城镇居民家庭恩 格尔系数%1978 405.0 343.4 381.2 100.0 57.5 1979 425.0 405.0 419.3 101.9 57.2 1980 489.0 477.6 463.3 109.5 56.9 1981 521.0 500.4 492.2 112.3 56.7 1982 536.0 535.3 527.8 114.5 58.6 1983 558.0 564.6 582.7 116.8 59.2 1984 618.0 652.1 695.2 120.0 58.0 1985 765.0 739.1 857.8 134.2 53.3 1986 872.0 900.9 963.2 143.6 52.4 1987 998.0 1002.1 1112.4 156.3 53.5 1988 1311.0 1180.2 1365.5 188.6 51.4 1989 1466.0 1373.9 1519.0 219.4 54.5 1990 1596.0 1510.2 1644.0 222.2 54.2 1991 1840.0 1700.6 1892.8 233.6 53.8 1992 2262.0 2026.6 2311.1 253.7 53.0 1993 2924.0 2577.4 2998.4 294.5 50.3 1994 3852.0 3496.2 4044.0 368.1 50.0 1995 4931.0 4283.0 5045.7 430.0 50.1 1996 5532.0 4838.9 5845.9 467.8 48.8 1997 5823.0 5160.3 6420.2 482.3 46.6 1998 6109.0 5425.1 6796.0 479.4 44.7 1999 6405.0 5854.0 7158.5 473.2 42.1 2000 6850.0 6280.0 7857.7 477.0 39.4 2001 7161.0 6859.6 8621.7 480.3 38.2 32002 7486.0 7702.8 9398.1 475.5 37.7 2003 8060.0 8472.2 10542.0 479.8 37.1 2004 8912.0 9421.6 12335.6 495.6 37.7 2005 9593.0 10493.0 14185.4 503.5 36.7 2006 10618.0 11759.5 16499.7 511.1 35.8 2007 12130.0 13785.8 20169.5 534.1 36.3 2008 13653.0 15780.8 23707.7 564.0 37.9 2009 14904.0 17174.7 25607.5 558.9 36.5 2010 16546.0 19109.4 30015.0 576.8 35.7 2011 18750.0 21809.8 35197.8 607.4 36.3 2012 21119.7 24564.7 38420.4 623.8 36.2 三、多元线性回归理论基础3.1 多元线性回归的概念设自变量 的观测值 及因变量 对应的观测值 满px,,21 ipix,21 yiy足关系式 niyipjiji ,10 式中, 是相互独立且都服从正态分布,21n 的 随 机 变 量 。2,0N根据最小二乘法,由 n 个观测值 确定参数ipiyx,21后,得到公式的估计值, 210210 pp bb 及的 估 计 值及 称为多元线性回归方程。建立多元线性回归方程的过程以及对jjxb10y回归方程与回归数所做的显著性检验,称为多元线性回归分析或多元线性回归。,则pjjipi xbx 1021 y, , 记带 入 多 元 线 性 回 归 方 程如 果 将 iyi与之间的偏差平方和 ni pjjiniiiyQ2102b由 正 规 方 程 组 。可 得 到 多 元 线 性 回 归 的pjbj ,10通过解正规方程组,即可以算出 求出回归方程。,210pbb及3.2 回归方程的显著性检验4与一元线性回归方程相类似,多元线性回归方程的总平方和 SST 也可以分解为剩余平方和 SSE 和回归平方和 SSR,即SST=SSR+SSE式中,pjjyniiyii lbSRlT112而 ,2,1 因 此pjyxlinijijjy SRlEy如果 SSR 的数值较大, SSE 的数值便比较小,说明回归的效果好。如果 SSR 的数值较小,SSE 的数值便比较大,说明回归的效果差。理论上已经证明:当原假设 成 立 时 , 并 且,为 02100HHp,1,222 pnSESRnST且 SSR 与 SSE 相互独立, ,1/pFSEF的 无 偏 估 计 量 。为 221pnMSE因此,给出显著性水平 ,即可进行回归方程的显著性检验。3.3 回归系数的显著性检验一个多元线性回归方程显著,并不表示方程中的每一个自变量对因变量 的影响都是重要的。因此为了对 的重要程度作出pjx,21y jx比较与检验,有必要找出一个与 有关的统计量。jb由于 各 都服从正态分布,所以的 线 性 函 数 ,是 随 机 变 量 nj yb,21 jy也 服 从 正 态 分 布 , 且j 1,0, 22NcbbDbEjjjjjjj 式中, 列 的 元 素 。行 第阵 的 逆 矩 阵 中 第是 正 规 方 程 组 的 系 数 矩 jcj5还可以证明, 相 互 独 立与 SEbj当原假设 分 布 , 推 出服 从成 立 时 , 由并 且为 102200 pnSEHj 11/ ,/2pntpnSEcbt FFjjj jjj ,因此,给出显著性水平 ,即可进行回归常数 的显pjbb,20与 回 归 系 数著性检验,得到各个 是否显著的结论。jb3.4 多元线性回归的估计与预测与一元线性回归方程类似,多元线性回归方程的应用也包括点预测和区间预测等内容。当 时jpp xbyxx 01j0000201 , 且统计量 - N(0, (1+ +00,bEjEj 0y2n1( )( )) ),式中, 为正规方程组的逆矩阵中第 k 行pkjkc1kx0jjx0kjc第 j 列的元素,因此,当 n 比较大, 与 , . 与 比较接近时,01x2p0x的方差比较小,用 预测 的效果比较好。0y0y作区间预测时,统计量1)(1(100 pntxxcnMSEtpkj jjkk式中,MSE= ,由置信水平 1- 求出 P =1- 中的临界值pn )1(tpn)1(t后,若记 )(1()(t 100pkj jjkkxxcnMSEpn则 P =1-,0y6( )便是 的预测区间,而 为区间0y, opyxx时00201,.,x的半径。当 n 比较大, 比较接近时,p与与与 02010.,.MSEnt)1(四、模型的计算与求解4.1 根据数据,首先通过 SAS 作图分别观察 的线性关系。4321,xy与data keche.kchg;set keche.kecheshuju;symbol i=rl v=star;proc gplot; plot y*x1;/*观察y 与x1的线性关系*/proc gplot; plot y*x2;/*观察y 与x2的线性关系*/proc gplot; plot y*x3;/*观察y 与x3的线性关系*/proc gplot; plot y*x4;/*观察y 与x4的线性关系*/run;(图一: 的线性关系)4321,xy分 别 于通过作图观察发现, 21x和与 有 很 好 的 线 性 关 系 ,7。的 线 性 关 系 却 不 是 很 好与但 43x4.2做 的回归分析与回归诊断,4321xy关 于4.2.1做 的多元线性回归关 于data keche.kchg;set keche.kecheshuju;symbol i=rl v=star;proc reg;model y=x1 x2 x3 x4/tol vif collin r;*建立y与x1-x4的多元回归;run;a)(表一)通过上表可以知道回归方程式是显著的( )01.P并且 的 解 释 效 果好 。 达 到说 明 此 模 型 拟 合 情 况 很决 定 系 数 %94.94.02R8(表二)由上表可得回归方程 4321 80.296.500 xxy 但是根据实际情况人均消费水平应该与城镇居民家庭恩格尔系数成反比,但是此处的系数 为正数,所以此回归方程不符合实际,不采用。4但是通过上表关于各个参数的显著性检验发现,在 的 水 平 下1.0不是显著的。, 420在上述情况下,求得的回归方程不够精简,存在不显著的变量。b)(表三)上表对回归方程做回归诊断,检验各个变量之间的共线性问题。假设k为条件指数,若10,则认为没有多重共线性;1030,则认为存在中等程度或较强的多重共线性;30,则认为存在严重的多重共线性。从上表的第三、四可以发现条件指数比较大,说明变量间存在严重的共线性,并且从偏差比例可以猜测 之间存在共线性。此时需要调整变量使降低其共线性。421,xc)9。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。(表四)上表依据残差表对回归方程做回归诊断,检验各个观测值中是否存在异常点。其中学生残差和COOK D统计量用来观察每

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论