版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
SPSS-回归-多元线性回归模型案例解析!(一)
多元线性回归,主要是研究一个因变量与多个自变最之间的相关关系,跟一元回归原理
差不多,区别在于影响因素(自变量)更多些而已,例如:一元线性回归方程为:
丫=0o+o】x+£
亳无疑问,多元线性回归方程应该为:
Y=0O+0E+#2必+…+4%+£
上图中的xl,x2,xp分别代表''自变量二p截止,代表有P个自变量,如果有''N组样本,
那么这个多元线性回归,将会组成一个矩阵,如下图所示:
记〃组样本分别是(看“2,…,X炉,%),(,=L2,…⑼,令
那么,多元线性同归方程矩阵形式为:Y=xp+E.
其中:£代表随机受差,其中随机误差分为:可解释的误差和不可解释的误差,
随机误差必须满足以下四个条件,多元线性方程才有意义(一元线性方程也i样)
1:服成正太分布,即指:随机误差£必须是服成正太分别的随机变量。
2:无偏性假设,即指:期望值为0
3:同共方差性假设,即指,所有的随机误差变量方差都相等
4:独立性假设,即指:所有的随机误差变最都相互独立,可以用协方差解释。
今天跟大家一起讨论一下,SPSS--多元线性回归的具体操作过程,下面以教程教程数据
为例,分析汽车特征与汽车销化:量之间的关系.通过分析汽车特征跟汽车销化:量的关系,
建立拟合多元线性回归模型。数据如下图所示:
1salesresaletypepriceengine_shcrsepowwheelbaswidthlengthcurt
16919163600215001.8140101.2673172.4
39.38419.875028.4003.2225108170.3192.9
14.114182250322251069706192.0
858829725042.00035210114.671.4196.6
20.39722255023.9901.8150102668.2178.0
1878023555033.950282001087761192.0
uao39.000062.0004.2310113.0M.O198.2
19,74702699025170107.36841760
9.23128675033.4002.8193107.3685176.0
17.52736125038.90028193111.4709188.0
91.56112475021.9753.1175109.0727194.6
39.35013.740025.3003.8240109.0727196.2
2785120190031.9653.8205113.87472068
83.25713.360027.8853.8205112.273.5200.0
63.72922525039,8954.6275115.374.5207.2
15.94327100044.4754.6275112275.0201.0
6.53625725039.6654.6275108075.5200.6
110103.0200107.470.31948
14.785•146.2255.7255117.577.0201.2
145,51992500132602211510416791809
135.12611,225016.5353.1170107.069.4190.4
24,62910310018,890311751075725200.9
42.59311.525019.3903.4180110.572.7197.9
点击''分析〃一回归一线性一进入如下图所示的界面:
展线性回归
因变量©):__________________________
aa厂冢[manufact]|夕Log-transformedsales[Insales]
如Model[modell
块1的1-
夺新车售价(单位:..
6侔后二手车售价…【下一张M
dVehicletype[type]
自变量Q):
"Priceinthousand...
dVehicletype[type]不
夕Enginesize[engi...
「"I6Priceinthousands[price]
"Horsepower[hor...
-----6Enginesize[engine_s]
"Wheelbase[whe...
6车宽(width]
方法M):逐步
6车长[length]
/车净重[curb_wgt]
(------1选择变量(£):
/Fuelcapacity[fue...
6耗油量:迈科[mpg]L^Jii%
6CooksDistance[...个案标签(£):
"95%LCIforlnsa...|Priceinthousands[price)
695%UClforInsa...WLS^M(H):
/95%LClforInsa...
[确定J粘贴(Bj重置取消||邈
将''销售量"作为''因变量〃拖入因变量框内,将''车长,车宽,耗油率,车净重等10个自变
量拖入自变量框内,如上图所示,在''方法〃旁边,选择''逐步〃,当然,你也可以选择其它
的方式,如果你选择''进入"默认的方式,在分析结果中,将会得到如下图所示的结果:(所
有的自变量,都会强行进入)
输入/相去的变量b
模型输入的变量移去的变量方法
1耗油量:迈科,输入
车上,Pricein
thousands,
Vehicletype,
车宽,Engine
size,Fuel
capacity,
Wheelbase,
车净重,
Horsepower
a.已输入所有谙求的变量。
b,因变量:Log-transformedsales
如果你选择
''逐步〃这个方法,将会得到如卜.图所示的结果:(将会根据预先设定的叩统计量的概率值进
行筛选,最先进入回归方程的''自变量"应该是跟''因变量〃关系最为密切,贡献最大的,如
下图可以看出,车的价格和车轴跟因变量关系最为密切,符合判断条件的概率值必须小于
0.05,当概率值大于等于0.1时将会被剔除)
输入/移去的变量a
摸型输入的变量移去的变量方法
1Pricein步进(准则:F-
thousandsto-enter的概
率<=.050,
F-to-remove
的慨率>=.
100)。
2Wheelbase•步进(准则:F-
to-enter的概
率<=.050,
F-to-remove
的祗率>=.
100)。
a.因变量:Log-transformedsales
''选择变量
(E)”框内,我并没有输入数据,如果你需要对某个''自变量〃进行条件筛选,可以将那个自
变量,移入''选择变量框”内,有一个前提就是:该变量从未在另一个目标列表中出现!再
点击''规则〃设定相应的''筛选条件〃即可,如下图所示:
点击''统计量"弹出如下所示的框,如下所示:
在''回归系数〃下面勾选''估计,在右侧
勾选〃模型拟合度”和〃共线性诊断''两个选项,再勾选''个案诊断〃再点击''离群值〃一般默认
值为、'3〃,(设定异常值的依据,只有当残差超过3倍标准差的观测才会被当做异常值)
点击继续。
提示:
共线性检验,如果有两个或两个以上的自变量之间存在线性相关关系,就会产生多重共线
性现象。这时候,川最小二乘法估计的模型参数就会不稳定,回归系数的估计值很容易引
起误导或者导致错误的结论。所以,需要勾选''共线性诊断〃来做判断
通过容许度可以计算共线性的存在与否?容许度TOL=1-RI平方或方差膨胀因子
(VIF):VIF=1/1-RI平方,其中RI平方是用其他自变量预测第I个变量的复相关系数,显
然,VIF为TOL的倒数,TOL的值越小,VIF的值越大,自变量XI与其他自变量之间存在
共线性的可能性越大。
提供三种处理方法:
1:从有共线性问题的变量里删除不重要的变量
2:增加样本品或重新抽取样本。
3:采用其他方法拟合模型,如领回归法,逐步回归法,主成分分析法。
再点击''绘制〃选项,如下所示:
上图中:
DEPENDENT(因变量)ZPRED(标准化预测值)ZRESID(标准化残差)DRESID(剔除
残差)ADJPRED(修正后预测值)SRSID(学生化残差)SDRESID(学生化剔除残差)
一般我们大部分以''自变量〃作为X轴,用''残差〃作为Y轴,但是,也不要忽略特殊情况,
这里我们以''ZPRED(标准化预测值)作为女”轴,分别用''SDRESID(血生化剔除残差)”
和''ZRESID(标准化残差)作为Y轴,分别作为两组绘图变量。
再点击〃保存''按钮,进入如下界面:
预测直残差
□未标准化乜)口未标准化变)
B标准化(R)71标准化(A)
巴调节Q)□学生化@)
[均值预测值的S.E.(E)删除&)
学生化己删除(目
-距离影响统计量
匚MahalanobisSgS(H)□D18eta(B)
✓CooK距离(K)□标准化DfBeta(Z)
杠杆值(g)□DfFit(F)
预测区间---------------□标准化DfFit(T)
□协方差比率包)
网均值率)叫单值Q)
置信区间(£)951%
系数统计
匚创建系数统计(2)
⑥创建新数据集(A)_____________________
数据集名称(。):
©写入审散据文件印)
[文件(L)..J
将模型信息输出到XML文件
__________]]浏览⑭)…)
(V包含协方差矩阵Q9
[继续]取消帮助:
如上图所示:勾选''距离〃卜面的''cook距离〃选项(cook距离,主要是指:把一个个案从计
算回归系数的样本中剔除时所引起的残差大小,cook距离越大,表明该个案对回归系数的
影响也越大)
在''预测区间〃勾选''均值〃和''单值〃点击''继续〃按钮,再点击”确定按钮,得到如下所示的分
析结果:(此分析结果,采用的是''逐步法〃得到的结果)
模型汇总c
标准估计的误
模型RR方调整R方差
1.552a.304.3001.115534
2.655b.430.4221.013572
a,预测变量:痹量),Priceinthousands。
b预测变量:爆量),Priceinthousands,Wheelbase。
c因变量:Log-transformedsales
Anovac
模型平坪和df均方FSig.
1回归81.720181.72055.670.000a
残差186.6621501.244
总计268.383151
2回归115.311257.65656.122.000b
残差153.0721491.027
总计268.383151
a.预测变量:(常量),Priceinthousands0
b.预潮变量:潦量Priceinthousands.Wheelbase*
c.因变量:Log-transformedsales
已排除的变量c
共线性统计量
模型BetaIntSig.偏相关容差VIF最小容差
1Vehicletype.251a3.854.000.301.9981.002,998
Enginesize,342a4.128.000.320.6111.636.611
Horsepower257a2.062.041.167.2933.417.293
Wheelbase.356a5.718.000.424.9881.012.988
军宽.24"3.517.001.277.8921.121.892
车长.308a4.790.000.365.9761.025.976
车净重.346」4.600.000.353.7221.385.722
Fuelcapacity266a3.687.000.289.8201.219.820
耗油量:迈科-.1981-2.584.011-.207.7581.319.758
2Vehicletype.129b1.928.056.157.8351.197,827
Enginesize.145b1.576.117.128.4452.246.445
Horsepower.028b.229.819.019.2563.910.256
车宽-.025b-.275.784-.023.4702.126,470
车长027b.237.813.020.2903.448.290
车净重.105b1.028.306.084.3652.741.365
Fuelcapacity.002b.024.981.002.4432.259,443
耗油量:迈科,014b.164.870.014.5591.790.559
a.模型中的预测变量:(常量),Priceinthousands。
b.模型中的预潮变量“常量Priceinthousands,Wheelbase*
c.囱变量:Log-transtormedsales
系颤3
非标准化系数标准系数共线性统计量
模型B标准误差试用版tSig.容差VIF
1(常量)4684.19424,090,000
Priceinthousands-051.006-.552-8.104.0001.0001.000
2(常量)-18221.151-1.583.116
Priceinthousands-055.006-.590-9.487,000.9881.012
Wheelbase061.011.3565.718.000.9881.012
a.因变叠Log-transformedsales
共线牲诊断&
方差比例
Pricein
模型维数特征值条件索引(常量)thousandsWheelbase
111.8851.000.06.06
2.1154.051.94.94
212.8471.000.00.02.00
2.1504.351.01.97.01
3.00333.412.99.00.99
a.因变量:Log-transfcrmedsales
残差统计量2
।极小值~极大值-rnM~标准偏差।~NI
图表
直方图
回归标准化残差
散点图
因变量:Log-transformedsales
82.6
O
71.02
O
701限平错格80563516.98
18.145
O
25.45
O
回归标准化预计值
SPSS一回归一多元线性回归结果分析(二)
,最近一直很忙,公司的潮起潮落,就好比人生的跌岩起伏,眼看着一步步走向衰弱,却
无能为力,也许要学习''步步惊心〃里面''四阿哥〃的座右铭:''行到水穷处”,〃坐看云起时:
接着上一期的''多元线性回归解析〃里面的内容,上一次,没有写结果分析,这次补上,
结果分析如下所示:
结果分析1:
输入/移去的变量a
摸型输入的变量移去的变量方法
1Pricein步进(准则:F-
thousandsto-enter的概
率<=.050,
F-to-remove
的慨率>=.
100)。
2Wheelbase•步进(准则:F-
to-enter的概
率<=.050»
F-to-remove
的祗率>=.
100)。
a.因变量:Log-transformedsales
由于开始选择
的是''逐步〃法,逐步法是n向前〃和''向后〃的结合体,从结果可以看出,最先进入''线性回归
模型〃的是''priceinthousands"建立了模型1,紧随其后的是''Wheelbase”建立了模型2,
所以,模型中有此方法有个概率值,当小于等于0.05时,进入''线性回归模型〃(最先进入
模型的,相关性最强,关系最为密切)当大于等0.1时,从''线性模型中”剔除
模型汇总c
标准估计的误
摸型RR方调整R方差
1.552a.304.3001.115534
2.655b.430.4221.013572
a.预测变量:(常量),Priceinthousands。
b,预测变量(常量),Priceinthousands,Wheelbase。
c.因变量:Log-transformedsales
Anovac
模型平充和df均方FSig.
1回归81.720181.72065.670.000a
残差186.6621501.244
总计268.383151
2回归115.311257,65656.122,000b
残差153.0721491.027
总计268.383151
a.顼测变量:(常量),Priceinthousands。
b瓶蒯变量,常量),Priceinthousands.Wheelbase♦
c.因变量:Log-transformedsales
结
果分析:
1:从''模型汇总〃中可以看出,有两个模型,(模型1和模型2)从R2拟合优度来看,模
型2的拟合优度明显比模型1要好一些
(0.422>0,300)
2:从、'Anova”表中,可以看出、'模型2"中的''回归平方和“为115.311,''残差平方和〃为
153.072,由于总平方和二回归平方和+残差平方和,由于残差平方和(即指随即误差,不可
解释的误差)由于''回归平方和〃跟''残差平方和“几乎接近,所有,此线性回归模型只解释
了总平方和的一半,
3:根据后面的"F统计量〃的概率值为。为0,由于O.OOvD.Ol,随着''自变量〃的引入,其显
著性概率值均远小于0.01,所以可以显著地拒绝总体gI归系数为。的原假设,通过
ANOVA方差分析表可以看出''销售量〃与''价格〃和''轴距〃之间存在着线性关系,至于线性关
系的强弱,需要进一步进行分析。
已俳除的变量C
并线性统计量
模型BetaIntSig.偏相关容差VIF最小容差
1Vehicletype.251a3.854.000,301.9981.002,998
Enginesize.34234.128.000,320.6111.636,611
Horsepower.257a2.062.041.167.2933.417.293
Wheelbase•356&5.718.000,424.9881.012.988
车宽・24炉3.517.001.277.8921.121.892
车长,308a4.790.000.365.9761.025.976
车净重.346」4.600.000.353.7221.385.722
Fuelcapacity.2bba3.M.UUU.289.82U1.21a.82U
耗油量:迈福-.198a-2.584.011-.207.7581.319.758
2Vehicletype.129b1.928.056.157.8351.197,827
Enginesize.145b1.576.117,128.4452.246.445
Horsepower.028b.229.819.019.2563.910.256
车宽-.025b-.275,784-.023,4702.126,470
车长.027b.237.813,020.2903.448.290
车净重.105b1.028.306.084,3652.741.365
Fuelcapacity.002b.024.981,002.4432.259,443
耗油量:迈科.014b.164.870.014.5591.790.559
a.模型中的预测变量:(常量),Priceinthousands。
b.模型中的预涮变量:(常量iPriceinthousands,Wheelbase。
c.因变量:Log-transformedsales
结果分析:
1:从''己排除的变量〃表中,可以看出:''模型2〃中各变量的T检的概率值都大于、'0.05"所
以,不能够引入''线性回归模型〃必须剔除。
系虢
非标准化系数标准系数共线性统计量
模型B标准误差试用版tSig.容差VIF
1(常量)4.684.19424,090,000
Priceinthousands-.051.006-.552-8.104.0001.0001.000
2(常量)-1.8221.151-1.583.116
Priceinthousands-.055.006-.590-9.487.000.9881.012
Wheelbase.061.011.3565.718.000.9881.012
a.因变基Log-transformedsales
从''系数屋表中可以看出:
1:多元线性回归方程应该为:销售量=-1.822-0.055*价格+0.061*轴距
但是,由于常数项的sig为(0.116>0.1)所以常数项不具备显著性,所以,我们再看后面
的''标准系数〃,在标准系数一列中,可以看到''常数项"没有数值,已经被剔除
所以:标准化的回归方程为:销售量=-0.59*价格+0.356*轴距
2:再看最后一歹『共线性统计量〃,其中''价格〃和''轴距"两个容差和、'vif都一样,而且VIF
都为1.012,且都小于5,所以两个自变量之间没有出现共线性,容忍度和
膨胀因子是互为倒数关系,容忍度越小,膨胀因子越大,发生共线性的可能性也越大
共线牲诊断a
方差比例
Pricein
模型维数特征值条件索引(常量)thousandsWheelbase
111.8851.000.06.06
2.1154.051.94.94
212.8471.000.00.02.00
2.1504.351.01.97.01
3.00333.412.99.00.99
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 IEC 61300-1:2022+AMD1:2024+AMD2:2025 CSV EN Fibre optic interconnecting devices and passive components - Basic test and measurement procedures - Part 1: General and guidance
- 2025年高职环境工程技术(水污染治理工程)试题及答案
- 【初中 生物】细胞通过分裂而增殖课件-2025-2026学年北师大版生物七年级上册
- 房颤消融术后复发再干预策略
- 成本效用分析中终点的选择策略
- 成本标杆的动态调整策略
- 2026年国学知识竞赛试题库及答案
- 能源设备供应合同
- 慢阻肺患者呼吸康复与健康生活方式整合方案
- 2026年产品安装调试条款协议
- 配电红外测温课件
- 江苏省2025年普通高中学业水平合格性考试历史试卷(含答案详解)
- 小学阶段人工智能在激发学生学习动机中的应用研究教学研究课题报告
- 2025年山西大地环境投资控股有限公司社会招聘116人备考题库及完整答案详解一套
- 民爆三大员培训题库及答案
- 小学苏教版科学三年级上册(2024新教材)知识点梳理及2025秋期末测试卷及答案
- T-CESA《人工智能管理能力成熟度模型》
- 2025年门诊部工作总结及2026年工作计划
- 2025四川绵阳市江油星乙农业投资集团有限公司招聘26人考试笔试备考试题及答案解析
- 《马克思主义基本原理概论》习题库完整版
- (2025年)昆山杜克大学ai面试真题附答案
评论
0/150
提交评论