高级统计_多元回归.ppt_第1页
高级统计_多元回归.ppt_第2页
高级统计_多元回归.ppt_第3页
高级统计_多元回归.ppt_第4页
高级统计_多元回归.ppt_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多元回归,1. 回归模型的拟合度,简单回归,从散点图开始有助我们对变量间的关系有一个形象化的了解。 如何对变量间的关系进行更准确的描述? 线性回归 画出回归线 哪条直线是最优拟合?,回归线,拟合的程度怎样?,残差,从点到线的离差可代表拟合的程度,(残差)Residuals,作回归线,使离差的平方和为最小 离差 = y 观测值- y 预测值 叫做 Least-squares regression 回归方程 y = a + bx IGRAPH /VIEWNAME=Scatterplot /X1 = VAR(salbegin) TYPE = SCALE /Y = VAR (salary) TYPE

2、= SCALE /COORDINATE = VERTICAL /FITLINE METHOD = REGRESSION LINEAR LINE = TOTAL,好的模型,残差很小,R2=0.89,一般的模型,R2=0.35,残差较大,差的模型,R2=0.002,这里的直线基本不能描述数据,2. 多元回归的方法(method),多元回归的方法(method),方法间的区别在于如何处理相关的自变量重叠部分的方差,即用何原则确定变量进入方程的次序 标准回归或同时回归:Enter 逐步回归:Stepwise 层次回归:hierarchical,标准回归,亦称同时回归(simultaneous) 重叠部

3、分对R2有贡献,但不分配到任何一个自变量中 与其他自变量重叠区域大的自变量的相对重要性可能被忽视,逐步回归:Stepwise,在分析的每一阶段,与因变量有最大偏相关的自变量被加在模型上。 变式 Forward Backward remove 拟合度最优,用于探索性回归 最好 n 20 IV 慎推广,须交互验证,层次回归:hierarchical,研究者根据理论假设确定次序,定义block 因果顺序在前的,先进入方程 欲考察的重要变量或者放在前,或放在最后 应选择 statistics R square change,3. 多元回归的数据要求,多元回归的数据要求 (1),因变量应为等距/等比型变

4、量。 在实际操作中,如果有足够的水平,顺序型变量也可。如果因变量 是命名型,则须用判别分析或 logistic regression。 自变量应为等距/等比型变量。在实际操作中,顺序型变量也可。命名型若为 2水平 (dichotomies) 可直接用。命名型若为多水平, 可先转换为 dummy variables。 因变量与自变量的关系应为线性。如果变量间关系是曲线的, 但具单调性 (递增或递减), 可通过转换达成线性。 如果是 U 型线,需特殊转换处理。 尽管自变量间彼此可以有相关, 其相关不可接近完全线性。否则称为 multicollinearity。,多元回归的数据要求 (2),被试数目

5、与自变量数目的比率为10:1 (根据不同情况在20:1至5:1 的范围中);被试数目 100 没有 非常值 (Outliers) 没有 Multicollinearity,多元回归的统计前提,3个前提: 因变量残差正态分布 残差与 预测值呈线性关系 在因变量预测值的所有水平上,残差的方差相等 散点图:纵轴为因变量的预测值(ZPRED),横轴为残差(ZRESID),残差图,残差图告诉我们回归线在不同变量水平的拟合程度,残差图提供的重要信息,残差的系统分布提示有未被解释的系统性方差,自变量增大时,残差增大。,变量间的关系不是线性的,Multicollinearity,Statistics. Col

6、linearity diagnostics 任何两个自变量间的相关在 .70以上, Collinearity 就会出现。 Tolerance .5, 提示Collinearity,多重共线性的含义 自变量之间高度相关,互相削弱了各自对y的边际影响 回归方程整体显著,但各个自变量都不显著 多重共线性的检验 方程的确定系数很高,且y于各自变量的相关系数也很高,但自变量的回归系数均不显著 两个自变量情形时,自变量之间相关系数很高,多各自变量时,某一自变量可以被其他自变量线性表出 方程的确定系数很高,但每一自变量的偏确定系数很小,说明变量之间可能存在高度的线性关系 容限度(tolerance)、方差膨

7、胀因子(VIF) 多重共线性的解决办法(对于样本确定的情况) 去掉与y相关程度较低,而与其他自变量高度相关的变量 去掉可以被其余自变量线性表出的变量,多重共线性及其解决办法,命名型转换为 dummy variables,新建n-1个dummy variables,取0或1的值 为避免multicollinearity,须去掉一个作为标准的变量,通常是频次最多的 注意对缺失值的处理,通过转换生成线性关系,因为线性回归是处理数据的快捷方式 如果数据是非线性的, 有时会通过转换生成线性关系 Explore提供的散点图可帮助识别有效的转换方式 中度正偏态 - 平方根转换 高度正偏态 - 对数转换 J 型分布 - 倒数转换 负偏态 -先以一常数减之,变为正偏态,4. 报告回归分析的结果,回归分析最基本的结果输出,所有自变量总共解释多少方差? - R2adj. R2adj = 1 - (1-R2)(N-n-1)/(N-1) R2adj 75% 很好 ; 50-75% 不错; 25-50% 一般; 25% 不够 所有自变量总共与因变量有无显著关联? - F 虚无假设是 所有自变量与因变量均无关联。. 当其他自变量保持恒定时,每一自变量与因变量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论