回归分析课程设计_第1页
回归分析课程设计_第2页
回归分析课程设计_第3页
回归分析课程设计_第4页
免费预览已结束,剩余7页可下载查看

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、应用回归分析课程设计指导书一、课程设计的目的( 1)巩固应用回归分析的理论知识,掌握其思想精髓;( 2)运用回归分析研究方法,加强解决实际问题的能力;( 3)熟练使用 spss 软件对数据进行回归分析。二、设计名称: 研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值x2( 亿元 ) 、居民非商品支出x3(亿元)的关系三、设计要求(1)正确运用 spss软件对数据进行处理(2)正确分析数据,尝试选择不同的模型拟合数据(3)课程设计中,遇到问题要翻阅课本去努力解决问题(4)要有耐心,对于模型的显著性和回归系数都要进行检验(5)认真并独立完成四、设计过程(1)思考课程设计的目的,寻找来源真

2、实的数据(2)上网搜集并整理数据资料(3)根据数据确定研究对象(4)应用统计软件来处理数据信息(5)选择通过各种检验的线性模型(6)写出相应的实验报告,并对结果进行分析五、设计细则(1)搜集数据阶段,数据不能过于繁杂,也不能太少;(2)做课程设计前,认真看书和笔记,及平时的实验报告,掌握丰富的理论;(3)有耐心,不紧不慢;要细心,一丝不苟;(4)写报告书时,语言简洁易懂又不失完整,尤其操作过程要正确完整,要清楚明了。分析结果要正确与实际问题背景相符。六、说明(1)书写报告时,有些特殊的数学符号需要利用 Mathtype (公式编辑器)这款小软件进行编辑;(2)有些 spss输出表格不整齐,需要

3、导出在 Excel 中,然后在复制到 word 文档里;( 3) 认真仔细的完成课程设计课程设计任务书姓名课程名称设计时间设计名称设计要求设计思路与设计过程计划与进度XXX学 号00000000班 级09 统计应用回归分析课程性质统计学2011 年 11 月 1 日2011 年11 月15 日研究货运总量 y(万吨)与工业总产值 x1(亿元)、农业总产值 x2(亿元 )、居民非商品支出 x3(亿元)的关系(1)正确运用 spss软件对数据进行处理(2)正确分析数据,尝试选择不同的模型拟合数(3)课程设计中,遇到问题要翻阅课本去努力解决问题(4)要有耐心,对模型的显著性和回归系数要进行检验(5)

4、认真并独立完成思路:(1)建立一个回归方程后, 要检验方程显著性和回归系数的显著性(2)将理论应用到实际问题中去过程:(1)思考课程设计的目的,寻找来源真实的数据(2)上网搜集并整理数据资料(3)根据数据确定研究对象(4)应用统计软件来处理数据信息(5)选择通过各种检验的线性模型(6)写出相应的实验报告,并对结果进行分析(1)11 月 1 日-11 月 3 日,思考准备研究课题。(2)11 月 4 日-11 月 7 日,确立课题,搜集数据。(3)11 月 8 日-11 月 13 日,分析处理数据,编写课程设计报告书。(4)11 月 13 日-11 月 15 日,检查报告是否完整正确并装订成册任

5、课教师意见说明(1)对 Word 文档进行编辑的时候,有些特殊的数学符号需要利用 Mathtype(公式编辑器)这款小软件进行编辑。(2)有些 spss输出表格不整齐,需要要到处在 Excel 中,然后在复制到 word 文档里设计名称 : 研究货运总量 y(万吨)与工业总产值 x1(亿元)、农业总产值x2(亿元 )、居民非商品支出 x3(亿元)的关系日期:2011年 11月13 日(1) 设计内容: 研究货运总量 y(万吨)与工业总产值 x1(亿元)、农业总产值x2(亿元 )、居民非商品支出x3(亿元)的关系。 数据见表如下:编货运总量 y(万工业总产值x1(亿农业总产值 x2(亿居民非商品

6、支出x3(亿号吨)元)元 )元)1160.0070.0035.001.002260.0075.0040.002.403210.0065.0040.002.004265.0074.0042.003.005240.0072.0038.001.206220.0068.0045.001.507275.0078.0042.004.008160.0066.0036.002.009275.0070.0044.003.2010250.0065.0042.003.00( 1) 计算出 y,x1,x2,x3 的相关系数矩阵;( 2) 求 y 关于 x1,x2,x3 的三元线性回归方程;( 3) 对所求的得方程做拟

7、合优度检验;( 4) 对回归方程做显著性检验;( 5) 对每一个回归系数做显著性检验;( 6) 如果有的回归系数没有通过显著性检验,将其剔除,重新建立回归方程,再作回归方程的显著性检验和回归系数的显著性检验;( 7) 求出每一个回归系数的置信水平为 95%的置信区间;( 8) 求标准化方程;设计目的与要求:目的:(1)巩固课本上学到的知识,提高处理实际问题的能力;(2)掌握对多元线性回归问题的模型选择;(3)对软件输出的结果要学会分析要求:(1)熟练使用 spss 软件对回归数据进行模型拟合;(2)认真独立完成设计环境或器材、原理与说明:设计环境和器材:计算机, Minitab 软件,课本,笔

8、记设计原理与说明:( 1) 多元回归分析中,检验回归系数是否为 0 的时候,先用 F 检验,考虑整体回归系数,再对每个系数是否为零进行 t 检验( 2) t 检验:原假设: H 0 : j0, j 1,2,., p统计量: t jjc jj1n1其中ei2npi 1n p 1n( yiyi )2 为回归标准差i 1当原假设 H 0 j :j0 成立时,构造的 t j 统计量服从自由度为n-p-1 的 t分布。给定显著性水平,查出双侧检验的临界值t。当 t jt时拒绝22原假设 H 0 j :j0 ,认为j 显著不为零。自变量 x j 是对 y 的线性效果是显著的;当t jt时接受原假设 H 0

9、 j :j0 ,认为j 显著为零。自2变量 x j 是对 y 的线性效果不显著的( 3)F 检验对线性回归方程显著性的另一种检验是 F检验,F 检验是根据平方和分解式,直接从回归效果检验方程的显著性。平方和分解式是n_n_n( yiy)2( yiy) 2( yi yi )2i 1i 1i 1n_其中,( yiy)2称为总平方和,简记为 sst 或 Lyy ,SST表示 Sumof Squaresi 1for Total。n_i 1( y iy) 2称为回归平方和,简记为SSR或 S回 ,R 表示 Regressionni 1( yiyi ) 2 称为残差平方和,简记为SSE或 S残 ,E 表示

10、 Error因此平方和分解式可以简记为SST=SSR+SSE原假设: H0 :12.p0统计量:FSSR/ pSSE/(np1)当原假设 H 0 成立时,构造的F 统计量服从自由度为( p,n-p-1 )的 F 分布。给定显著性水平。当 F值 大于临界值 F( p, n p 1)时,拒绝原假设 H 0 ,认为回归方程显著。方差分析表方差来源自由度平方和均方F 值P 值回归pSSRSSR pSSRP( FF值) P值p残差np 1SSESSESSEp 1)(n p 1)(n总和n1SST( 4)拟合优度拟合优度用于检验回归方程对样本观测值的拟合优度。在多元线性回归中,决定系数为 R 2 SSR1

11、SSESSTSST样本决定系数 R 2 的取值在0,1 区间内, R 2 越近 1,表明回归拟合的效果越好; R2 越接近 0,表明回归拟合的效果越差。与F 检验相比, R 2 可以清楚直观的反应回归拟合的效果,但是并不能作为严格的显著性检验。( 5)复相关系数称RR2 SSR SST为 y 关于 x1 , x2 ,., x p 的样本复相关系数。在两个变量的简单相关系数中,相关系数没有正负之分, 而复相关系数表示的是因变量 y 对全体自变量之间的线性关系,它的符号不能由某一个自变量的回归系数的符号来确定, 因而复相关系数都取正号。( 6)多重共线性多元线性回归方程模型中有一个基本假设,就是要

12、求设计矩阵( X) =p+1,即要求 X 中的列向量之间线性无关,如果存在不全为X 的秩 rank0 的 P+1个数c0 ,c1,., cp ,使得c0c1xi1c2 xi 2.c p xip0,i1,2,., n则自变量x1 , x2 ,., xp 之间存在着多重共线性。多重共线性的诊断:(方差扩大因子法)对自变量做中心标准化,则 X*'X *( rij )为自变量的相关阵。记'C(cij )( X * X * ) 1 称其主对角线元素( variance inflation factor,VIF)。VIF jc jj为自变量x j的方差扩大因子当 VIF j10.就说明自变

13、量 x j 与其他自变量之间有严重的多重共线性,且这种多重共线性可能会过度的影响最小二乘估计值。设计过程(步骤)或程序代码:(1)打开 SPSS软件,导出数据(2)分析相关双变量相关变量:y,x1, x2,x3确定(3)分析回归线性回归( 因变量 :y; 自变量: x1,x2 ,x3)确定(4)分析相关双变量相关变量:y,x1, x2确定(5)分析回归线性回归( 因变量 :y; 自变量: x1,x2 )确定(6)分析 - 回归 - 线性回归(因变量: y;自变量: x1,x2, x3;统计量 :选中共线性诊断;继续) -确定(7)分析 - 回归 - 线性回归(因变量: y;自变量: x1,x2

14、,x3;保存:预测值:未标准化;残差:未标准化;预测区间:均值,置信水平为95%;继续) - 确定设计结果与分析(可以加页 ) :( 2)相关性yx1x2x3yPearson 相关性1.556.731 *.724 *显著性(双侧).095.016.018N10101010x1Pearson 相关性.5561.113.398显著性(双侧).095.756.254N10101010x2Pearson 相关性.731 *.1131.547显著性(双侧).016.756.101N10101010x3Pearson 相关性.724 *.398.5471显著性(双侧).018.254.101N101010

15、10*.在 0.05 水平(双侧)上显著相关。( 3)输入移去的变量模型输入的变量移去的变量方法1a. 输入x3, x1, x2a. 已输入所有请求的变量。模型汇总模型RR 方调整R方标准估计的误差1.898 a.806.70823.44188a.预测变量: (常量 ), x3, x1, x2。复相关系数 R=0.898,决定系数 R2 =0.806 ,由决定系数看回归方程高度显著。Anovab模型平方和df均方FSig.1回归13655.37034551.7908.283.015 a残差3297.1306549.522总计16952.5009a.预测变量 :( 常量 ), x3, x1, x

16、2。b. 因变量 : y由方差分析表可以知道, F=8.283, P值 =0.015,表明回归方程高度显著,说明 x1,x2,x3 整体上对 y有显著的线性影响。系数 a非标准化系数标准系数模型B标准 误差试用版tSig.1(常量)-348.280176.459-1.974.096x13.7541.933.3851.942.100x27.1012.880.5352.465.049x312.44710.569.2771.178.284a. 因变量 : y1. 回归方程为 :y348.280 3.754 x1 7.101x2 12.447 x32. 回归系数的显著性检验 : 自变量 x2 对 y

17、有影响,其中 x3 的 P 值 =0.284 。因此,这个模型通过了显著性检验但没有通过回归系数的检验,自变量x3 对因变量y 不显著,所以下一步要剔除不显著的回归系数x3,重新建立回归模型.( 4)相关性yx1x2yPearson 相关性1.556.731 *显著性(双侧).095.016N101010x1Pearson 相关性.5561.113显著性(双侧).095.756N101010x2Pearson 相关性*.1131.731显著性(双侧).016.756N101010*.在 0.05 水平(双侧)上显著相关。( 5)输入移去的变量模型输入的变量移去的变量方法1x2, x1 a. 输

18、入a. 已输入所有请求的变量。模型汇总模型RR方调整R 方标准估计的误差1.872 a.761.69224.08112a.预测变量 : ( 常量 ), x2, x1。Anovab模型平方和df均方FSig.1回归12893.19926446.60011.117a.007残差4059.3017579.900总计16952.5009a.预测变量 :( 常量 ), x2, x1 。b. 因变量 : y系数 a非标准化系数标准系数模型B标准 误差试用版tSig.1(常量)-459.624153.058-3.003.020x14.6761.816.4792.575.037x28.9712.468.676

19、3.634.008a. 因变量 : y实验分析:1. 复相关系数 R=0.872,决定系数 R 2 =0.761 ,由决定系数看回归方程高度显著。2. 由方差分析表可以知道, F=11.117,P值 =0.007 ,表明回归方程高度显著,说明 x1,x2 整体上对 y有显著的线性影响。3. 回归系数的显著性检验,自变量 x1,x2 对 y 有影响,其中 x1 的 P 值 =0.037 最大。4。标准化回归方程为 :y459.624 4.676 x1 8.971x2综上所诉,这个回归模型即通过了方程显著性检验, 也通过了回归系数显著行检验,所以次模型是有效的( 6)系数 a非标准化系数标准系数共

20、线性统计量模型B标准 误差试用版tSig.容差VIF1(常量)-348.280176.459-1.974.096x13.7541.933.3851.942.100.8251.211x27.1012.880.5352.465.049.6871.455x312.44710.569.2771.178.284.5861.708a. 因变量 : y从上图可知,次模型中,自变量 自变量 x1,x2,x3 的多重共线性的 VIF 统计量的值都很小,小于 10,说明建立的回归模型不存在多重共线性问题。(7)残差统计量 a极小值极大值均值标准 偏差N预测值175.4748292.5545231.500038.9520610标准 预测值-1.4381.567.0001.00010预测值的标准误差10.46620.19114.5263.12710调整的预测值188.3515318.1067240.183549.8391410残差-25.1975933.22549

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论