卡方检验与相关回归.doc_第1页
卡方检验与相关回归.doc_第2页
卡方检验与相关回归.doc_第3页
卡方检验与相关回归.doc_第4页
卡方检验与相关回归.doc_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

卡方检验本讲涉及的卡方检验(同上一讲的拟合优度检验有所不同)要用于推断两个或多个总体率、构成比是否有差别;两个分类变量间是否存在关联等;两个等级变量间是否存在线性趋势。通常我们作卡方检验只用到了Crosstabs命令中极少部分的功能。Crosstabs:例如某医生用两种药物治疗十二指肠溃疡,问两种药物疗效是否不同,数据间胃溃疡.sav:Rows框用于选择行变量;Columns框用于选择列变量;Layer指的是分层分析,将分层变量选入Layer框中,在同一层中的变量使用相同的设置,而不同层中的变量分别使用各自层的设置。如果要让不同的变量做不同的分析,则将其选入Layer框,并用Previous和Next设为不同层。Display clustered bar charts复选框显示复式条图。Suppress table复选框禁止在结果中输出行列表(主要用于表格过于巨大时为了节省空间)。Exact选项含义同前Statistics对话框,用于定义所需计算的统计量。接着要在statistics中定义如何分析,以及如果相了解两变量间关联应该如何选关联指标:Chi-square复选框:计算Pearson c2值。请注意作卡方检验时一定要满足总例数与理论数足够大的要求 ,系统会在卡方检验表格下提示有多少格子的理论数小于5Correlations复选框:计算行、列两变量的Pearson相关系数(主要用于行、列变量都是计量资料的两变量相关分析,并计算Pearson关联系数r又称为r)和Spearman等级相关系数(主要用于分析行、列变量均为等级变量,计算Spearman等级相关系数又称为秩相关系数rs或又称为rs)。*比如两正态变量间的Pearson相关系数可以用crosstab过程计算,只要将correlations勾上即可 在列联表的分析中,除了计算卡方值外,有时还要了解行列变量间的关联密切程度;SPSS为我们提供了针对行列变量均为无序分类(Nominal)、等级变量(Ordinal)的列联表关联程度的衡量指标: Nominal表示是否分析两个分类(通常指无序分类)变量间关联性,其下可计算4个指标:1)Contingency coefficient复选框:即列联系数,在分析行列变量间关联性时使用;其值为界于01之间(但是如果行列数较少比如仅有2行2列,该系数最大只能到0.707;而四行四列则可以达到0.87,所以它的大小除了放映两个变量间的关联性还和表格的维度有关,因此该指标较少用于不同维度列联表间关联性比较);该系数越大表示两变量间关联性越大,反之则较小。2)Phi and Cramers V复选框: f(Phi),仅仅在四格表c2检验中使用,界于01之间,反映行与列变量间的关联性大小;如果超过两行或两列,则关联系数可以用Cramers V 表示,v,它同样界于01之间。在四格表中这两个系数相同。3)Lambda复选框:又称为Goodman & Kruskals lambda(l),表示用某个变量预测另外一个变量时能够减少估计错误概率的大小。其值为1时表明自变量预测应变量时能够100的减少估计错误,也就意味着它们间的联系极为密切;为0时表明自变量预测应变量差时不会减少任何估计错误,看来它们间不存在什么联系。该系数通常情况下不是对称的(即用行变量估计列变量、用列变量估计行变量两种情况下误差减少的概率不一定相同),所以系统还会给出一个对称的系数值。在与此同时系统还将提供Goodman & Kruskals tau(t),该系数同样是不对称的,它的含义同l,都表示用某个变量预测另外一个变量时能够减少估计错误概率的大小,只不过计算的过程不太相同而已。4)Uncertainty coefficient复选框:该系数与Lambda同属于误差概率减少指标(Proportion Reduction of Error),又称UC 或 Theils U(不确定系数),反映用某一个变量估计另外一个变量时能够减少其估计误差的大小;其值接近1时表明后一变量的信息很大程度来自前一变量,其值接近0时表明后一变量的信息与前一变量无关。其计算步骤较为繁琐。以上所有系数的计算可以参考SPSS中的Algorithm文件夹中的Crosstabs.pdfOrdinal选择是否输出反映两个有序分类变量相关性的指标:1)Gamma复选框:又称为Goodman & Kruskals Gamma(g),其原理是分别计算列联表中分类一致(concordant,P)以及不一致(discordant,Q)的对比数,计算(P-Q)/(P+Q)即为伽马值。如果一致的对比数大于不一致的,则伽马值为正值,表示在某一个变量的取值随着另一个变量有增大的倾向,两者存在正相关;如果一致的对比数小于不一致的,则伽马值为负值,表示在某一个变量的取值随着另一个变量有减小的倾向,两者存在负相关;而如果如果一致的对比数等于不一致的,则伽马值为0,表示在某一个变量的取值与另一个变量的取值没有关联。伽马值是对称的。但是伽马值没有考虑等秩(tie)的对比数,所以下面有三个指标用于解决这个问题。2)Somersd复选框:g以及下面介绍的t-b、t-c的计算过程中不区分自变量与因变量,因而它们是对称的;该系数的计算过程中假设行或列上的一个变量为自变量,Somers d = (P-Q)/(P+Q+T),P、Q的含义同上,T为以因变量中等秩的对子数;其含义的解释同伽马值。3)Kendalls tau-b复选框:该值的含义与伽马几乎相同,不同的是他对列联表中的等秩(tie)的情况进行校正;t-b,P、Q的含义同上,TR为以行变量中等秩的对子数,TC为以列变量中等秩的对子数;t-b界于-11之间;其含义的解释同伽马值,同时它也是对称的。我们通常所说的Kendall相关系数就是指它。4)Kendalls tau-c复选框:该值的含义与伽马几乎相同,不同的是他对列联表的行数或列数进行校正,而且还使用了总例数进行校正;t-c2m(P-Q) / N2(m-1),P、Q的含义同上,N为总例数,m为行数或列数中较小的一个。t-c界于-11之间,其含义的解释同伽马值,同时它也是对称的。 Nominal by Interval复选框,列出了Eta(h)值供选择;所谓的Nominal by Interval是指一个变量为等间距的等级变量(该变量通常是数值型变量,通过一定标准划分为等距的等级;比如每个人的吸烟量原先是离散型数值变量,通过一定的标准划分为0、5、10、15、2025几个等级),另外一个变量为无序分组;系统会给出两个h值,分别为行变量作为因变量以及列变量作为因变量的情况。h2的含义见Compare means中的Means过程。Kappa复选框:计算Kappa(k)值,即内部一致性系数 ,衡量两次分类结果间的一致性如果;如果该值大于0.75,表示一致性较好;小于0.4则意味着一致性较差,介于两者之间则一致性一般。它仅仅适用于行列变量属性相同,而且行列数相等时。Risk复选框:计算比数比OR值(相对危险度RR的估计值) McNemanr复选框:进行McNemanr检验,如果资料采用配对设计(如配对四格表),分析时需要将其勾上;但是不会计算出卡方值,因为它是根据二项分布的原理计算出来的精确概率值。Cochrans and Mantel-Haenszel statistics复选框:计算c2M-H统计量(流行病学研究中常用的分层c2,主要用于当数据中存在混杂因素时通过计算分层卡方值可以消除分层因素的影响),同时系统还会给出总的调整OR值(ORM-H);该复选框下方的Test common odds ration equal用于设定无效假设中的OR值,默认为1(无关联)。以上所有系数的计算可以参考SPSS中的Algorithm文件夹中的Crosstabs.pdfCells对话框,用于定义列联表单元格中需要计算的指标;Counts复选框组:是否输出实际观察数(Observed)和理论数(Expected); Percentages复选框组:是否输出行百分数(Row)、列百分数(Column)以及合计百分数(Total); Residuals复选框组:选择残差的显示方式,可以是实际数与理论数的差值A-T(Unstandardized)、标化后的差值(Standardized),或者由行列合计值校正的标准化残差(Adj. Standardized)。Format用于选择行变量是升序还是降序排列。完成设定后点击OK,系统提交结果:该表为RC表,列出了实际频数、理论频数、A-T、构成比等指标该表为卡方检验的最终结果;最上一行为Pearson卡方值,第二行为进行连续性校正后的卡方值,由于本例中并没有理论数小于5的情况,所以看Pearson卡方即可;Likelihood Ratio为似然比卡方值,它与Pearson卡方相似(其思想详见教科书Logistic回归模型的假设检验),目前认为它比Pearson卡方更稳定同时使用限制也较宽松,所以可以参考,通常情况下两者相差无几;Linear-by-linear association为对双向有序且属性不同的RC表计算线性趋势,Pearson卡方值为总卡方值,该行计算的卡方就是教科书上计算的c2回归。综上所述可以认为两种方法结果不同。如果有三组或三组以上比较,系统并没有提供两两比较的程序,需要通过dataselect cases中选择相应的比较组进行两两比较,同时要对检验水准作以下校正:双变量(线性)回归与相关一、双变量相关(Correlate-Bivariate)SPSS的相关分析功能被集中在Statistics菜单的Correlate子菜单中,他一般包括以下三个过程: Bivariate过程 此过程用于进行两个/多个变量间的参数/非参数相关分析,如果是多个变量,则分别给出两两相关的分析结果。这是Correlate子菜单中最为常用的一个过程,下面的讲述也以该过程为主。 Partial过程 如果需要进行相关分析的两个变量其取值均受到其他变量的影响,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的相关系数,这种分析思想和协方差分析非常类似。Partial过程就是专门进行偏相关分析的。 Distances过程,用于表示统计量间的相似性或不相似性(即距离)从而为进一步的聚类分析提供参考线索;所以该过程实际上是在进行聚类、多维尺度分析前所采用的预分析过程。Bivariate:研究者想了解8名正常儿童的尿肌酐含量与其年龄间的关系,数据见相关.sav:在原始数据中既有正常儿童的数据也有大骨节病儿童的数据,相关分析前最好对两个变量作散点图以了解它们间大致的关联态势:可以看到的确不论是正常儿童还是大骨节病儿童年龄和尿肌酐间都存在线性趋势;由于我们仅仅要分析正常儿童,所以先通过dataselect cases,选择分组变量取值为2的观察对象(正常儿童)。Variables框用于选入需要进行相关分析的变量,至少需要选入两个。先将年龄与尿肌酐选入。Correlation Coefficients用于选择需要计算的相关分析指标: Pearson 选择进行积差相关分析,即最常用的参数相关分析,并计算Pearson相关系数r(要求双正态分布);Kendalls tau-b 计算Kendalls等级相关系数 t-b;Spearman复选框 计算Spearman相关系数rS,即最常用的非参数相关分析(秩相关)。Test of Significance为用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,一般选双侧检验。Flag significant correlations用于确定是否在结果中用星号标记有统计学意义的相关系数,一般选中。此时P0.05的系数值旁会标记一个星号,P钮可利用该按钮进行权重最小二乘法的回归分析。单击该按钮会扩展当前对话框,出现WLS Weight框,在该框内选入权重变量即可。(该法的原理和前面统计描述explore中提供的M-estimator很相似)接下来要定义计算的统计量:Regression Coefficients复选框组:定义回归系数的输出情况,选中Estimates可输出回归系数B及其标准误,t值和p值,还有标准化的回归系数beta;选中Confidence intervals则输出每个回归系数的95%可信区间;选中covariance matrix则会输出各个自变量的相关矩阵和方差、协方差矩阵(该选项只有在多元回归时才会有结果)。以上选项默认只选中Estimates。 Residuals复选框组:用于选择输出残差信息,可选的有Durbin-Watson残差序列相关性检验(该统计量的取值从0到4;如果参差间相互独立的话,则该值在2附近,所以该选项也可以用于分析回归分析的条件是否被满足)、超出规定的n倍标准误的残差列表(系统默认为3倍,该选项用于观察回归中可能出现的异常点,通常这些点的残差较大)。 Model fit复选框:模型拟合过程中进入、退出的变量的列表,以及一些有关拟合优度的检验,复相关系数R,决定系数R2和调整的R2,标准误及方差分析表。 R squared change复选框:显示模型拟合过程中R2、F值和p值的改变情况。 Descriptives复选框:提供一些变量描述,如有效例数、均数、标准差等,同时还给出一个自变量间的相关矩阵(由于本例中只有一个自变量,所以相关矩阵相当于两变量的相关分析)。 Part and partial correlations复选框:显示自变量间的相关、部分相关和偏相关系数。 Collinearity diagnostics复选框:给出一些用于共线性诊断的统计量,如特征根(Eigenvalues)、方差膨胀因子(VIF)等(该选项只有在多元分析过程使用)。以上各项在默认情况下只有Estimates和Model fit复选框被选中。为了考察线性回归的使用条件是否被满足,我们选择勾上Durbin-Watson统计量;同时为了观测是否有极端值存在,将casewise-diagnostics勾上,极端值定义为2倍标准离差(根据无效假设,残差的总体均数为0,残差经过Z标化后,应该满足标准正态分布,那么Z值超过2的可能性应该很小,所以将标准离差的倍数定为2)。Plot对话框,可绘制的有标准化残差的直方图和正态分布图,应变量、预测值和各自变量残差间两两的散点图等,这些图形主要用于回归诊断。Save对话框中可以对预测值系列(predicted values)、残差系列(residuals)、距离系列(Distances)、预测值可信区间系列(Prediction intervals)、波动统计量系列(Influence statistics)等选项;事实上这些统计量特别是Distances、Prediction intervals、Influence statistics中的统计量常用于自变量中极端值或强影响点的判断。其具体的判断标准大致如下:Mahalanobis:马氏距离,如果较大则该记录可能为离群值或强影响点。Cooks:如果该值超过1,则该记录可能为离群值或强影响点。Leverage values:杠杆值,如果超过 2变量数/样本含量 ,则该记录可能为强影响点。Difference in b:如果去除该记录后回归系数变化大,则该记录可能为强影响点。Standardized DfBeta

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论