多元回归分析的精辟分析spss.doc_第1页
多元回归分析的精辟分析spss.doc_第2页
多元回归分析的精辟分析spss.doc_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 利用OLS(ordinary least squares)来做多元回归可能是社会学研究中最常用的统计分析方法。利用此法的基本条件是应变项为一个分数型的变项(等距尺度测量的变项),而自变项之测量尺度则无特别的限制。当自变项为类别变项时,我们可依类别数(k)建构k-1个数值为0与1之虚拟变项(dummy variable)来代表不同之类别。因此,如果能适当的使用的话,多元回归分析是一相当有力的工具。 , d: ! S( 1 d8 B / S( B7 B7 6 P& D 2、 多元回归分析主要有三个步骤:5 G7 M5 K T5 dz. p I8 N 第一、利用单变项和双变项分析来检视各个准备纳入复回归分析的变项是否符合OLS线性回归分析的基本假定。 ! G: Z( R4 R# C3 x 选定回归模式,并评估所得到的参数估计和适合度检定(goodness of fit)。2 L! 2 Z3 o, A$ J* g 在我们认真考虑所得到的回归分析结果前,应做残余值(residuals)之诊断分析(diagnosis)。但通常我们是先确定回归模式之设定(specification)是否恰当后,才会做深入之残余值分析。 f3 ?) % F9 P( K1 t1 i! g 3 F! v, D! G- W1 3、 回归分析的第一步是一一检视每个即将纳入回归分析模式的变项。首先,我们必须先确定应变项有足够的变异(variability),而且是接近常态分配(回归系数的估计并不要求应变项是常态分配,但对此估计做假设测定时,则是要求残余值应为常态分配。而应变项离开常态分配的状态很远时,残余值不是常态分配的可能性增大)。其次,各自变项也应该有适当的变异,并且要了解其分配之形状和异常的个案(outlying cases;outliers)。7 t% + K3 y2 Y9 P% o7 n1 - Y 我们可用直方图(histogram)和Normal P-P(probability plot)图等来测定应变项是否拒绝其为常态分配的假设,以及是否有异常之个案。同样的,我们可用直方图和其它单变项之统计来检视各个自变项之分配形状、程度,以及异常个案等。 ) 1 M& & B; r) ?5 _ x9 Q: J5 n在SPSS中,我们可用Analyze内的Descriptive Statistics中的Explore来得到上述之统计和图。 8 l* xJ$ r( R9 n6 x. GX2 a( Q- s. i* wM% : ?( z 4、 做双变项相关之分析之主要目的是检视变项间之关系是否为线性关系(linearity)和是否为共线性(collinearity)之情况。最基本的作法是看双变项之相关矩阵。如果应变项与自变项间之关系很弱或比自变项间之相关弱的话,就应质疑所设定之多元回归模式是否适当。9 A9 I6 e- o, 0 : F- W 检视自变项与应变项间是否为线性关系的基本作法是看双变项间之散布图(scatter plot)。进阶且比较好的作法是在控制其它自变项后,再看某一自变项与应变项间之部分线性关系(partial linearity)。线性关系是回归分析重要的假定,而且指的是自变项与应变项间之部份线性关系。我们并不用太关心自变项间是否为线性关系,但如对自变项间关系之设定有误时,也会导致我们对虚假关系不适当的控制和解释上的错误。# N9 o# G8 m8 0 N- W 探索自变项与应变项间部分线性关系的方式是在控制其它自变项后,逐一检视某一自变项及进一步加入此自变项之平方后,看看两个回归模式间是否达显著之差异。如果是的话,则此自变项与应变项间之关系并不是线性关系。当发现自变项与应变项间并非线性关系时,除了将该自变项之平方加入回归分析的方法外,也可将该自变项做对数转换(log transformation),例如我们常将个人之收入做对数转换之处理。究竟如何处理是适当的,是以理论为基础。 ) r, V) 9 e4 p在SPSS中,我们可用Analyze内之Correlate中的Bivariate及Graphs中的Scatter来得到双变项之相关矩阵及散布图。部份线性相关之检视则需用到Transform内的Compute来建构一个变项的平方,然后用Analyze内之Regression中的Linear来检视。3 k8 A- j; / I0 i4 D( Y: b6 Pv . f: j4 X, _7 i- r7 c5、 在决定回归分析的模式后,我们应进一步检视自变项间是否有多元共线性(multicollinearity)的问题,也就是自变项间是否有高度相关的问题。如果自变项间高度相关的话,会影响到对回归系数之假设测定。我们可以用因素分析来检查自变项间是否有多元共线性,或者是逐一将某一自变项(当成为应变项)和所有其它自变项做多元回归分析。 9 a/ t J; b: M8 m l) h( P在以SPSS做回归分析时,我们也可在其Statistic之选项中选择partial correlation与collinearity之统计。SPSS所提供之collinearity的统计包括Tolerance、VIF(variance inflation factor)和Condition Index等。这些统计是有关连性的。如Tolerance与VIF就是互为倒数,如果是Tolerance越小,就表示该自变项与其它自变项间之共线性越高或几乎是其它自变项的线性组合。 s4 0 x$ f& Q& g4 l& T$ O3 k! p g + X; O$ n4 N 6、 如果自变项是类别的变项,我们可以将这些类别一一建构成为虚拟变项。依照类别数目(k),我们只需建构k-1个虚拟变项即可。如性别有两类,因此我们只需建构一个男性的虚拟变项。如果受访者为男性,则其男性变项为1,如为女性,则其男性变项为0。同理,如果一个类别变项有四类,如台湾地区别是分成北、中、南、东等四区,则我们可将此类别变项建构成中部、南部及东部等三个虚拟变项。当受访者是在北部时,其在此三虚拟变项的值会都是0。至于将那个类别做为参考类别(reference category),也就是不建构为虚拟变项的类别,通常是次数最多的类别。我们也可依理论或研究假设的需要,来考虑是将那个类别做为参考类别。& p$ O: t: G h+ 1 p* X 当我们将这些虚拟变项纳入回归模式后,个别虚拟变项的回归系数(如果达统计显著的话),就是此虚拟变项所代表之类别与参考类别间在截距上的差距。如果我们假设此类别变项对应变项的影响,不只是在截距上的不同,且会有不同的斜率,也就是与另一自变项间有交互作用(interaction),我们可以进一步将虚拟变项与此另一自变项相乘而成另一新变项(如男性受教育年数)。我们可将原来的两个自变项及此新变项一起纳入回归分析中。如果此新变项之回归系数达显著的话,则其意义是与虚拟变项相乘之自变项(如受教育年数)对应变项的影响会因虚拟变项所代表的类别不同(如性别)而有不同的斜率(即影响力)。例如当受教育年数对收入的影响,男性比女性来得大时,则回归分析结果可能一方面表现在男性此一虚拟变项的正向系数达显著,表示在受同样教育年数的条件下,男性的起薪比女性高,另一方面也表现在男性受教育年数之正向系数达显著,表示男性每年受教育对收入的回报大过女性。 ) X. f0 h; 9 K3 X/ D& ?此外,当我们假设自变项与应变项的关系为型时,或是应变项会随自变项之数值增大而变化趋缓时,我们就可建构一自变项的平方,将此自变项及其平方一起纳入,如果此平方的变项达显著,则我们可知此自变项对应变项的影响不是直线性的。 ) w( D5 I0 ! 4 J 3 d l/ N9 c5 b) V3 e S2 J* j7、在完成以上之基础工作后,而且发现没有问题或将问题做了适当的处理后,我们就可开始做多元回归的分析。* o+ I/ r/ B; D/ i: x6 T5 R 检视多元回归分析之结果的步骤是先检视整体模式之适合度(goodness of fit)。这是看回归分析结果之ANOVA表中之F test是否达到显著。如果是的话,我们可说此模式在母群体之R2不是0,或自至少有一个自变项对应变项有解释力。R2(或纳入自变项数目做了调整后之adjusted R2)的意义是所有自变项解释了多少比例之应变项的变异量。 - 4 y6 n6 h$ B/ E- 在检视完整体模式之解释力后,下一步是逐一检视各自变项之斜率(slope),也就是回归系数是否达到显著(即测定其是否为0之虚无假设)。这是要看每一自变项回归系数的T-test及p值(通常应至少小于0.05)。如果某一自变项之系数达显著水平的话,则其意义是在控制其它自变项的情况下,此一自变项对应变项之独特影响力(unique effect)为何。另一说法是,自变项每增加一个测量时用的单位,会改变多少应变项测量时之单位。我们可代入此自变项一个数值(如此变项之平均数),然后计算在此数值和B(unstandardized coefficient)乘积,这乘积就是此自变项在此数值时,应变项的数值有多大。1 ?7 7 b, u: L) U2 f* e 如果我们要知道和其它自变项比较,那一个自变项对应变项之独特影响力比较大,则我们是要看Beta(standardized coefficient)或部分相关系数(看此比较好)。 & l/ A0 f% m) y) If8 L3 z! s! / L Q 8、如果我们的回归分析是建立在一个因果模式上,那我们可进行阶层式回归分析(hierarchical regression)。看我们研究的焦点为何,我们可逐一将自变项加入回归模式中,然后看不同阶段之回归模式的整体解释力和各个自变项解释力的变化。. C- w$ o& f& RT& x U 1 Q g4 r7 n6 p8 |9、严谨的回归分析是要进一步对residuals做检视后,才报告分析所得到之结果。残余值是指每个个案将其自变项之数值代入回归模式中计算在应变项之预测值,然后将实际观察到之值与此预测值相减后所得到之残余。对残余值之诊断主要有两项:6 T/ ?4 N& g# _k- p7 a4 . J! , 9 Influence diagnosis:此诊断要看的是有无一些异常的个案可能对回归模式的估计造成不当之的影响,并膨胀standard errors。特别是当样本数较小时,我们要当心此可能性。在SPSS的回归分析之Save的选项中,可将标准化处理后之残余值(standardized residuals)储存起来。SPSS也会将标准化之残余值大于3的个案之ID报告出来。如果此类个案数目不多的话(依机率,每一百个标准化之残余值中会有5个残余值之z值大于2),那我们就可说是没有异常个案影响回归模式估计的问题。 & X e- i- 4 m Normality与hetroskedasticity:OLS回归分析假定在pre

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论