spss软件相关分析1.doc_第1页
spss软件相关分析1.doc_第2页
spss软件相关分析1.doc_第3页
spss软件相关分析1.doc_第4页
spss软件相关分析1.doc_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

两变量间相关关系的测量方法在物理类文献中见到判断相关的方法比较单一,不如社会学那么丰富。尽管有不少相关系数以前并未遇到,但也在整理的过程中同时学习。下面是自己整理的两变量间相关关系的测量方法。难免疏漏,请各位加以修正补充。一、相关关系 事物之间的联系大致可以分为两类,一类是确定性关系,变量之间存在着一一对应的关系,即函数关系;另一类是不完全确定的关系,两个变量之间存在着相互依赖、相互影响的关系,却不是严格的一一对应关系,称为相关关系。相关关系反映的是变量之间是否存在联系亦即联系的程度。确定性关系与相关关系之间往往无法截然区分,一方面,由于测量误差等随机因素的影响,确定性关系在现实中往往通过相关关系表现出来;另一方面,当人们对客观事物的内部规律了解得更深刻时,相关关系又有可能转化为确定性关系。二、变量类型 依据测量尺度,在社会科学研究中一般将变量分为定类变量、定序变量和定距变量三大类(此外,还有“定比变量”,社会科学研究不作区分)。它们之间的关系是从定类变量开始,后一个变量比前一个变量的层次高,后一个变量除具有前一个变量的特征外,还具有自己的特点。 定类变量:变量的取值仅仅只有类别属性之分,例如性别,没有大小、优劣之别。在社会调查研究活动中,凡是涉及到类型划分社会现象均属于定类变量。 定序变量:变量的取值除了有类别属性之分外,还有等级或次序的区别,例如教育程度,态度量度。凡属于等级或次序上有区别的变量均为定序变量。 定距/定比变量:变量的取值除了具有类别、次序区别之外,还有类别之间、序列之间的标准化距离的变量。变量的值之间可以比较大小,两个值的差有实际意义。在对社会现象的调查研究中,凡是可以用固定标准测量的、可以划分出距离的变量,均属于定距变量。 其中,定距/定比变量的区别:定距变量0,不表示“没有”,因此这一测量类型所得出的数据在数学运算上只能进行加、减运算,而不能做乘除等运算;定比变量0,表示“没有”,即有一个有实际意义的零点(绝对零点),因此,定比变量除了可做加减运算,又能做乘除运算。(但两者在SPSS中没有太大的区别)。分 类定 义举 例数学特征定类变量按照对象的某种特征划分类别性别科目、定序变量按照对象的某种特征,把类别按顺序、等级排列评价等级、定距变量对象不仅可按特征排序,而且还可以测量序列间的距离年龄工资、;、;、(定比变量还包括、) 对研究变量的不同特征遵循如下的分类方法:定类变量 要求变量的特征分类具有可辨别性,且不同类别应无同一性的性质。定序变量要求变量的特征与属性可以排序或分等级。定距变量要求测量单位具有相等的意义,且没有绝对意义的“零点”。定比变量要求测量单位具有相等的意义,且有一个绝对意义的“零点”。三、基本方法(一)绘制散点图(略)(二)计算相关系数 对不同类型的变量数据,应采用不同的相关系数来度量。1定类变量定类变量(1)-Phi系数 描述22数据相关程度最常用的一种相关系数 对于一个具体的22维列联表 X1 X2 Y1 a b Y2 c d (2)C系数,也称列联系数列联表是观测数据按两个或更多属性(定类变量)分类时所列出的频数(或概率)表。 当一张表格超过2维时,Phi的值不一定是在0-1之间,为了获得0Phi1,皮尔逊建议用列联系数 C的最高限取决于行数和列数,一般达不到上限1。 (3)Cramers V系数 V的最高上限可以达到1。 PRE(减少误差比例测量法,Propoctionate reduction in error)数值的意义:就是用一个现象(如变量X)来预测另一个现象(如变量Y)时能够减除百分之几的误差。 PRE=(E1E2)/E1 E1:当不知道X变量去估计Y变量时所产生的误差(全部误差) E2:知道X变量再去估计Y变量产生的误差 E1E2为剩余的误差 Lambda和Tau-y 系数都是具有PRE性质的系数 (4) Lambda()系数这种相关测量法也叫做Cuttmans coefficient of predictability,它的基本的逻辑是计算以一个定类变量的值来预测另一个定类变量的值时,如果以众值作为预测的准则,可以减除多少误差。消减的误差再全部误差中所占的比例越大,表示两个变量之间相关的程度越大。分为:对称形式用于测量两个变量间的关系是对等的,即无自变量与因变量之分。简写成系数。 非对称形式测量两个变量间的关系有自变量与因变量之分。简写成y(x为自变量,y为因变量) 一般来说,系数在01之间取值,值越大表明相关程度越高。 Lambda相关测量法是以众数作为预测的工具,没有考虑其他的条件。如果众数都出现在频数分布表的某一行或某一列时,Lambda系数将等于0,但并不说明X和Y一定完全无关。同时,这也说明Lambda系数测量X 、Y的相关水平是较为粗糙的一种方法。因此社会学研究中有时采用Goodman和 Kruskal的 Tau-y系数。(5) Goodman and Kruskal的Tau-y系数 这个系数的敏感度高于Lambda系数,但只适合于分析不对称的关系,属于不对称相关测量法,要求两个定类变量中有一个是自变量,有一个是因变量。Tau-y系数的值介于01之间,具有消减误差比例的意义,这个系数的特色是在计算时会包括所有的边缘次数和条件次数。 在那么多相关系数中,在进行研究时,一般选择哪一个比较好? 在定类定类关系中,如果是不对称关系,最好选择用的是Tau-y,如果是对称的关系,则最好选择用的是Lambda系数,Phi、C、V系数没有消减误差比例的意义,而且假定两个变量之间的关系是对称的。在这三个系数中,由于V不受表的大小的影响,因此用得比较多,也比较适合于进行社会学研究。三、基本方法(一)绘制散点图(略)(二)计算相关系数 对不同类型的变量数据,应采用不同的相关系数来度量。常用的I行J列表格Y(因变量)X(自变量) 1 2 j J1 n11 n12 n1j n1Jn12 n21 n22 n2j n2Jn2i ni1 ni2 nij niJniI nI1 nI2 nIj nIJnI总和 n1 n2 nj nJ1定类变量定类变量 22表格的相关度量 以卡方为基础的量度(1)-Phi系数在相关度量法中不采用拟合优度卡方是因为拟合优度卡方过分依赖于样本数大小。将卡方除以n针对样本量n进行修正就是系数: ,或者 变量X和Y的边缘分布的变异影响的大小。在其他数值保持不变的情况下,边缘分布越不平衡,值越小。当一个或两个边缘分布非常偏斜的时候,较不敏感的量度方法可能是更好的选择。是一个对称量度系数,对的计算并不依赖于哪个变量是因变量。 IJ表格的相关量度法 当I和J都大于2时,随I和J的增加而增大,因此没有上限,这样系数间就缺乏了比较。部分因为这个原因,统计学家提出了许多新的修正系数。这些修正系数全都是对称的,并且当变量是统计独立时等于零。然而,最大的两个缺点是,它们通常不能获得它们的最大值,并且取值范围在0和1.0之间很难解释。(2)C系数,也称列联系数列联表是观测数据按两个或更多属性(定类变量)分类时所列出的频数(或概率)表。 当一张表格超过2维时,Phi的值不一定是在0-1之间,为了获得0Phi1,皮尔逊建议用列联系数当列联表中两个变量不相关时,C=0,若两个变量相关时,则C 随着I和J的变化而变化,但0C1。C0且越接近1,表明X、Y两变量正相关的程度越高;0.8可认为相关程度较高。当配对数据出现同分对时,对a的计算公式作如下校正,校正后的相关系数记作b: 其中:Tx表示变量X方向的全部同分对数; Ty表示变量Y方向的全部同分对数。当同分对很多时,可先做成等级的列联表,此时Kendall等级相关系数为: 其中m是等级列联表中行数和列数中的较小者,即m=min(I,J)。 Kendall tau在本质上与Spearman R 一样。从统计效力上来说,两者是不相上下的。不过因为所构成的逻辑及计算的方程不同,因此Spearman R 与 Kendall tau 数值大小是不一致的,Siegel and Castellan (1988)将两种方法的关系用不等式表达如下:-13Kendall tau 2Spearman R1 更为重要的是,Kendall tau 与 Spearman R 内涵有着不同的解释:Spearman R 可认为是排序变量的普通Pearson 时间效应相关系数,而 Kendall tau 是概率。具体地说是两变量实际数据处于相同顺序的概率与处于不同顺序的概率差别。 当数据中包含许多一致性的观察对象时,Gamma 统计量优于Spearman R 或 Kendall tau。从本质上来讲,Gamma 与Spearman R 或 Kendall tau是相同的;从解释与计算的角度上讲,Gamma与Kendall tau 更为相似,简言之 Gamma 也是一种概率,具体地说,通过计算两变量排序一致的概率减去排序不一致的概率再除以减去一致性概率而得到的,因此Gamma 与Kendall tau基本上一致,只是Gamma 明确地考虑了数据一致性问题。3定距变量定距变量 测量两个定距变量相关系数的最常用指标是皮尔森(Pearson)相关系数(r)。(要求N50而且两个变量的分布应近似于正态分布。) (常见,所以略) 需要注意极端值。极端值是非典型、不常出现的观察值。由于回归线不是由最小距离和,而是由最小距离平方和决定的,极值对回归线的斜率和相关系数的值的大小都会有很大的影响。只要有一个极值就能够改变回归线的斜率和相关系数。不言而喻,不能仅仅根据相关系数值而妄下结论。(所以在进行相关分析前先考察其散点图) 偏相关分析 在诸多相关的变量中,剔除了(控制了)其中的一个或若干个变量的影响后,两变量之间的相关关系。偏相关的概念,在管理科学、经济科学等社会科学中有着广泛的应用;而且,正确地使用它,对正确地得出相应的结论至关重要。 剔除了一个变量Z的影响后,两个变量X、Y之间的偏相关系数是 式中, 是普通样本相关系数。4定类变量定距变量 两个变量中,自变量为定类变量,因变量为定距变量时,采用相关比率来测量两者间相关程度。(又称eta2系数E2) 式中,n是样本观察值总数;ni是自变量X的每组观察值数目, ;yi是因变量的数值;是第i组因变量均值;为因变量均值。5定类变量定序变量 对一个定类变量例如性别,与一个定序变量例如收入水平关系的分析:(1)用theta系数(),专门测量定类变量与定序变量间关系有无和强度,非对称关系,并且不具有消减误差比例的含义(2)采用系数和Tau-y系数,即将定序变量作为定类变量处理。6定序变量定距变量 处理一个定序变量例如教育水平,与一个定距变量如年均收入之间的关系,采用二种办法:(1)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论