




已阅读5页,还剩29页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
陈振坤 2015020141 多元线性回归例6.1.1 某市场分析员进行一项研究,分析一地区居民的每月家庭消费支出(y)与每月家庭收入(x)之间关系的性质。从该地区随机抽选的16个家庭组成一个样本,得出的数据列于表6.1.1中(单位:元)。每月家庭消费支出在表中被视为因变量,因为这个变量势必随着每月家庭收入的变化而变化。表6.1.1 每月家庭消费支出与每月家庭收入的数据序号yx序号yx1255645309324449522369459211022853426319333294114831994244565815012420061345428177301329143827623322624143629722871630183915298859808381655381617052544解:(1)画散点图如下:图1-1 散点图从图中可以大致看出,每月家庭消费支出与每月家庭收入存在线性关系。(2)正态性检验:Q-Q图:图1-2 Q-Q图Q-Q图中散点主要落在线条周围,所以每月家庭消费支出大致服从正态分布。表1-1 分布参数估计表Estimated Distribution Parameters每月家庭消费支出Normal DistributionLocation3162.69Scale1030.096The cases are unweighted.正态检验:SPSS过程:Analyse-nonparametric tests-1 sample K-S test-选择normal。结果分析:表1-2 单样本K-S检验One-Sample Kolmogorov-Smirnov Test每月家庭消费支出N16Normal Parametersa,bMean3162.69Std. Deviation1030.096Most Extreme DifferencesAbsolute.112Positive.102Negative-.112Kolmogorov-Smirnov Z.448Asymp. Sig. (2-tailed).988a. Test distribution is Normal.b. Calculated from data.从上表可以看出,样本容量为16,均值为3162.69,标准误差为1030.096,K-S统计量为0.448,P值为0.9980.05,所以在0.05的置信水平下,接受原假设,从而每月家庭消费支出服从正态分布。(3)回归模型:SPSS过程:analyse-regression-linear。结果分析:图1-3 标准化残差散点图从图1-3中可以看到,标准化后的回归预测值和残差值均在(-2,2)的范围内,残差满足同方差假定。表1-3 变量进入方式表Variables Entered/RemovedaModelVariables EnteredVariables RemovedMethod1每月家庭收入b.Entera. Dependent Variable: 每月家庭消费支出b. All requested variables entered.从表1-3可以看出,我们采用enter的方法进行线性回归。表1-4模型总结表Model SummaryModelRR SquareAdjusted R SquareStd. Error of the Estimate1.938a.880.872368.958a. Predictors: (Constant), 每月家庭收入从表1-4可以看出,线性回归模型的相关系数R=0.938,决定系数=0.880,调整后的决定系数=0.872,估计的标准误差为368.958.表1-5ANOVA 表ANOVAaModelSum of SquaresdfMean SquareFSig.1Regression14010659.110114010659.110102.921.000bResidual1905820.32814136130.023Total15916479.43715a. Dependent Variable: 每月家庭消费支出b. Predictors: (Constant), 每月家庭收入从表1-5可以看出,回归模型的方差总和为14010659.110,自由度为1,均方差为14010659.110,F统计量为102.921,P值为0.0000.05,所以在0,05的置信水平下,回归方程显著。表1-6 系数表CoefficientsaModelUnstandardized CoefficientsStandardized CoefficientstSig.BStd. ErrorBeta1(Constant)946.184237.1553.990.001每月家庭收入.424.042.93810.145.000a. Dependent Variable: 每月家庭消费支出从表1-6可以看出,每月家庭收入的t统计量为10.125,P值为0.0000.05,所以在0.05的置信水平下,接受原假设,从而每月家庭消费支出服从正态分布。(3) 回归模型分析:SPSS过程:analyse-regression-linear-将因变量y选入dependent variable,将两个自变量x1,x2选入independent variable,并在plots选项中将ZRESID选入y,将ZPRED选入x。结果分析:残差图:图2-4 标准化残差散点图从图2-4中可以看出,标准化后的残差值在(-2,2)之间,所以残差符合同方差假定。回归分析:表2-2变量进入方式表Variables Entered/RemovedaModelVariables EnteredVariables RemovedMethod1土质指数, 所施肥料b.Entera. Dependent Variable: 产量b. All requested variables entered.从表2-2中可以看出,模型的因变量为产量,自变量为土质指数、所施肥料。使用的方法为enter,将变量一次性全部输入。表2-3模型归纳表Model SummarybModelRR SquareAdjusted R SquareStd. Error of the Estimate1.990a.980.9751.215a. Predictors: (Constant), 土质指数, 所施肥料b. Dependent Variable: 产量从表2-3中可以看出,复相关系数R=0.990,说明产量与土质指数、所施肥料之间的强正相关性。复决定系数=0.980,调整后的复决定系数为0.975。估计的标准误差为1.215。表2-4ANOVA表ANOVAaModelSum of SquaresdfMean SquareFSig.1Regression512.5712256.286173.688.000bResidual10.32971.476Total522.9009a. Dependent Variable: 产量b. Predictors: (Constant), 土质指数, 所施肥料从表2-4可以看出,回归模型的总方差为512.571,自由度为2,均方差为256.286,F统计量为173.688,P值=0.0000.01,所以在0.01的置信水平下,回归方程显著。表2-5系数表CoefficientsaModelUnstandardized CoefficientsStandardized CoefficientstSig.BStd. ErrorBeta1(Constant)-30.5755.031-6.078.001所施肥料1.041.191.4825.457.001土质指数.839.132.5626.364.000a. Dependent Variable: 产量从表2-5中可以看出,所施肥料变量的t统计量为5.457,P值为0.0010.01,土质指数变量的t统计量为6.364,P值为0.0000.01,所以在0.01的置信水平下,不接受原假设,回归系数显著,即不全为0。由于回归方程显著,回归系数也显著,所以线性回归模型成立,根据系数表中的数据得到如下线性方程:其中,表示所施肥料,表示土质指数,表示产量估计值。表示所施肥料每增加一个单位,对应的谷物产量就会增加1.041个单位,表示土质指数每增加一个单位,对应的谷物产量就会增加0.839个单位。模型的其他方法:1、stepwise法Stepwise的方法中变量有进有出,当probability=0.1时将变量剔除。(1) 残差图图2-2-1 标准化后的残差图从图2-2-1中可以看出,标准化后的残差值的散点落在(-2,2)之间,所以残差满足同方差假定。(2)回归分析表2-2-1 变量进入表Variables Entered/RemovedaModelVariables EnteredVariables RemovedMethod1土质指数.Stepwise (Criteria: Probability-of-F-to-enter = .100).2所施肥料.Stepwise (Criteria: Probability-of-F-to-enter = .100).a. Dependent Variable: 产量从表2-2-1中可以看出,土质指数和所施肥料都是=0.05的,所以两个变量逐个输入模型中。表2-2-2 模型归纳表Model SummarycModelRR SquareAdjusted R SquareStd. Error of the Estimate1.947a.896.8832.6052.990b.980.9751.215a. Predictors: (Constant), 土质指数b. Predictors: (Constant), 土质指数, 所施肥料c. Dependent Variable: 产量从表2-2-2中可以看出,只输入了土质指数变量的情况下,相关系数为0.947;当土质指数和所施肥料都输入模型中后,对应的复相关系数为0.990,略大于0.947,相关程度增强。表2-2-3 ANOVA表ANOVAaModelSum of SquaresdfMean SquareFSig.1Regression468.6241468.62469.072.000bResidual54.27686.785Total522.90092Regression512.5712256.286173.688.000cResidual10.32971.476Total522.9009a. Dependent Variable: 产量b. Predictors: (Constant), 土质指数c. Predictors: (Constant), 土质指数, 所施肥料从表2-2-3中可以看出,当只输入土质指数变量时,回归方程的P值为0.0000.01,方程显著。当土质指数和所施肥料都输入到模型中时,P值为0.0000.01,回归方程依然显著。表2-2-4系数表CoefficientsaModelUnstandardized CoefficientsStandardized CoefficientstSig.BStd. ErrorBeta1(Constant)-19.1859.815-1.955.086土质指数1.414.170.9478.311.0002(Constant)-30.5755.031-6.078.001土质指数.839.132.5626.364.000所施肥料1.041.191.4825.457.001a. Dependent Variable: 产量从表2-2-4中可以看出,当只输入土质指数时,回归系数的t统计量为8.311,P值为0.0000.01,回归系数显著。当土质指数和所施肥料都输入到模型中时,对应的t统计量分别是6.362、5.457,对应的P值分别为0.0000.01,0.0010.01,所以在0.01的置信水平下,不接受原假设,所以回归系数都显著。由于回归方程和回归系数都显著,所以我们可以得到如下回归方程:其中,-30.575是常数项,表示所施肥料每增加一个单位,对应的谷物产量就会增加1.041个单位,表示土质指数每增加一个单位,对应的谷物产量就会增加0.839个单位。结果与Enter方法一致。2、 Forward方法:Forward法中的变量时逐个进入模型中,当满足probability=0.05时,变量输入模型中。(1) 残差图图2-3-1 标准化残差散点图从图中可以看出,残差落在(-2,2)之间,满足同方差假定。(2) 回归分析表2-3-1 变量进入表Variables Entered/RemovedaModelVariables EnteredVariables RemovedMethod1土质指数.Forward (Criterion: Probability-of-F-to-enter = .050)2所施肥料.Forward (Criterion: Probability-of-F-to-enter = .050)a. Dependent Variable: 产量从表2-3-2中可以看出,土质指数和所施肥料都=0.05,所以两个变量将会逐个输入到模型中。表2-3-2 模型归纳表Model SummarycModelRR SquareAdjusted R SquareStd. Error of the Estimate1.947a.896.8832.6052.990b.980.9751.215a. Predictors: (Constant), 土质指数b. Predictors: (Constant), 土质指数, 所施肥料c. Dependent Variable: 产量从表2-3-2中可以看出,只输入了土质指数变量的情况下,相关系数为0.947;当土质指数和所施肥料都输入模型中后,对应的复相关系数为0.990,略大于0.947,相关程度增强。表2-3-3 ANOVA表ANOVAaModelSum of SquaresdfMean SquareFSig.1Regression468.6241468.62469.072.000bResidual54.27686.785Total522.90092Regression512.5712256.286173.688.000cResidual10.32971.476Total522.9009a. Dependent Variable: 产量b. Predictors: (Constant), 土质指数c. Predictors: (Constant), 土质指数, 所施肥料从表2-3-3中可以看出,当只输入土质指数变量时,回归方程的P值为0.0000.01,方程显著。当土质指数和所施肥料都输入到模型中时,P值为0.0000.01,回归方程依然显著。表2-3-4系数表CoefficientsaModelUnstandardized CoefficientsStandardized CoefficientstSig.BStd. ErrorBeta1(Constant)-19.1859.815-1.955.086土质指数1.414.170.9478.311.0002(Constant)-30.5755.031-6.078.001土质指数.839.132.5626.364.000所施肥料1.041.191.4825.457.001a. Dependent Variable: 产量从表2-2-4中可以看出,当只输入土质指数时,回归系数的t统计量为8.311,P值为0.0000.01,所以在0.01的置信水平下,回归系数显著。当土质指数和所施肥料都输入到模型中时,对应的t统计量为6.364、5.457,对应的P值分别为0.0000.01,0.0010.05,所以在0.05的置信水平下接受原假设,即认为中风风险服从正态分布。(3)回归模型分析一、Enter方法SPSS过程:analyse-regression-linear。将因变量y选入dependent variable,将三个自变量选入independent variable。结果分析:绘制残差散点图如下:图3-5标准化残差散点图从残差散点图中可以看出,标准化后的残差值落在(-3,2)之间,所以残差满足同方差假定。表3-2 变量进入表Variables Entered/RemovedaModelVariables EnteredVariables RemovedMethod1编码后吸烟状况, (收缩)血压, 年龄b.Entera. Dependent Variable: 中风风险b. All requested variables entered.从表3-2可以看出,因变量为中风风险,自变量分别为编码后吸烟状况,收缩血压,年龄。使用的方法为Enter。表3-3 模型归纳吧Model SummarybModelRR SquareAdjusted R SquareStd. Error of the Estimate1.935a.873.8505.757a. Predictors: (Constant), 编码后吸烟状况, (收缩)血压, 年龄b. Dependent Variable: 中风风险从表3-3可以看出,复相关系数R=0.935,说明中风风险与三个自变量的相关程度很强。复决定系数为0.873,调整后的复决定系数为0.850。表3-4ANOVA表ANOVAaModelSum of SquaresdfMean SquareFSig.1Regression3660.74031220.24736.823.000bResidual530.2101633.138Total4190.95019a. Dependent Variable: 中风风险b. Predictors: (Constant), 编码后吸烟状况, (收缩)血压, 年龄从表3-4中可以看出,回归方程的F统计量为36.823,P值为0.0000.05,所以在0.05的置信水平下,回归方程显著。表3-5系数表CoefficientsaModelUnstandardized CoefficientsStandardized CoefficientstSig.BStd. ErrorBeta1(Constant)-91.75915.223-6.028.000年龄1.077.166.6976.488.000(收缩)血压.252.045.5535.568.000编码后吸烟状况8.7403.001.3022.912.010a. Dependent Variable: 中风风险从表3-5中可以看出,年龄、收缩压、编码后吸烟情况的系数对应的t统计量为6.488、5.568、2.912,对应的P值分别为0.000、0.000、0.010,均小于0.05,所以在0.05的置信水平下不接受原假设,回归系数显著,即自变量的系数不全为0。回由于归方程显著,回归系数也都显著,所以我们可以得到如下的回归方程:其中,表示中风风险的估计值,分别表示年龄、收缩血压、编码后吸烟状况。1.077表示年龄每增加一岁,中风风险就会增加1.077%;0.252表示收缩血压每增加一个单位,中风风险就会增加0.252%;8.740表示吸烟人群的中风风险要比不吸烟人群的中风风险大8.740%。2、 stepwise方法(1) 、残差散点图图3-2-1 残差散点图(2) 数据分析表3-2-1 变量进入表Variables Entered/RemovedaModelVariables EnteredVariables RemovedMethod1编码后吸烟状况.Stepwise (Criteria: Probability-of-F-to-enter = .100).2年龄.Stepwise (Criteria: Probability-of-F-to-enter = .100).3(收缩)血压.Stepwise (Criteria: Probability-of-F-to-enter = .100).a. Dependent Variable: 中风风险从表3-2-1中可以看出,模型的因变量为中风风险,stepwise方法将编码后吸烟状况、年龄、收缩血压逐个输入到模型中。表3-2-2 模型归纳表Model SummarydModelRR SquareAdjusted R SquareStd. Error of the Estimate1.680a.463.43311.1822.793b.628.5859.5723.935c.873.8505.757a. Predictors: (Constant), 编码后吸烟状况b. Predictors: (Constant), 编码后吸烟状况, 年龄c. Predictors: (Constant), 编码后吸烟状况, 年龄, (收缩)血压d. Dependent Variable: 中风风险从表3-2-1中可以看出,只有编码后吸烟情况的相关系数为0.680,正相关程度较强;考虑了编码后吸烟状况、年龄之后,复相关系数为0.793,相关程度增强;同时考虑了编码后吸烟状况、年龄、收缩血压后,复相关系数为0.935,相关程度很强。表3-2-3 ANOVA表ANOVAaModelSum of SquaresdfMean SquareFSig.1Regression1940.45011940.45015.520.001bResidual2250.50018125.028Total4190.950192Regression2633.38821316.69414.371.000cResidual1557.5621791.621Total4190.950193Regression3660.74031220.24736.823.000dResidual530.2101633.138Total4190.95019a. Dependent Variable: 中风风险b. Predictors: (Constant), 编码后吸烟状况c. Predictors: (Constant), 编码后吸烟状况, 年龄d. Predictors: (Constant), 编码后吸烟状况, 年龄, (收缩)血压从表3-2-3中可以看出,只考虑编码后吸烟状况时,回归方程的P值为0.0010.01,回归方程显著;考虑了编码后吸烟状况、年龄之后,回归方程的P值为0.0000.01,回归方程显著;考虑了编码后吸烟状况、年龄、收缩血压后,回归方程的P值为0.0000.01,回归方程显著。表3-2-4系数表CoefficientsaModelUnstandardized CoefficientsStandardized CoefficientstSig.BStd. ErrorBeta1(Constant)17.1003.5364.836.000编码后吸烟状况19.7005.001.6803.940.0012(Constant)-28.08616.707-1.681.111编码后吸烟状况14.3964.695.4973.066.007年龄.689.250.4462.750.0143(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年学法普法知识试题库与答案
- 心境障碍患者的护理试题及答案
- 2025年注射相关感染预防与控制培训考核试题(含答案)
- 2025年四川国家公务员行测考试真题及答案
- 2025客户个人信息保护专题培训试题及答案
- 标准眉型技法课件
- (2024)食品安全练习题库及答案
- 查看课件时间
- 柜面业务无纸化培训课件
- 染色打样实训课件
- 执法办案培训课件
- 气候变化对水资源供需关系的动态演变分析
- 行政执法培训课件
- 老年人吸入性肺炎护理
- 春季儿童增高课件
- 环卫公司人员管理制度
- 线束考试试题及答案
- CJ/T 3085-1999城镇燃气术语
- 停产报告管理制度
- DB31/T 636.2-2015会议经营与服务规范第2部分:会议场所服务机构
- 云南二级建造师b证试题及答案
评论
0/150
提交评论