第七章相关分析_第1页
第七章相关分析_第2页
第七章相关分析_第3页
第七章相关分析_第4页
第七章相关分析_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第七章第七章 相关分析相关分析n一、相关的意义一、相关的意义n二、积差相关二、积差相关n三、等级相关三、等级相关n四、四、质与量相关质与量相关n五、品质相关五、品质相关一、相关的意义一、相关的意义n1、相关的概念、相关的概念n2、 相关系数相关系数n 相关的概念相关的概念n两变量之间不精确、不稳定的变化关系称为相关两变量之间不精确、不稳定的变化关系称为相关关系。它与函数关系的区别就在于两个变量值不关系。它与函数关系的区别就在于两个变量值不是一一对应得那样精确、稳定。是一一对应得那样精确、稳定。n 两个变量之间的变化关系,既表现在变化方向上,又两个变量之间的变化关系,既表现在变化方向上,又表现在

2、密切程度上。表现在密切程度上。n 从变化方向来看,两个变量间有以下几种关系:从变化方向来看,两个变量间有以下几种关系:n(1)正相关:两个变量的变化方向一致,即一个变量值)正相关:两个变量的变化方向一致,即一个变量值变大时,另一个变量也随之变大;反之,亦然。变大时,另一个变量也随之变大;反之,亦然。n(2)负相关:两个变量的变化方向相反,即一个变量值)负相关:两个变量的变化方向相反,即一个变量值变大时,另一个变量值随之变小;反之,亦然。变大时,另一个变量值随之变小;反之,亦然。n(3)零相关:两个变量值变化方向无一定规律,即一个)零相关:两个变量值变化方向无一定规律,即一个变量值变大时,另一个

3、变量做无规律的变化。变量值变大时,另一个变量做无规律的变化。关于散点图关于散点图n如果观察所获得的资料是两个变量的成对如果观察所获得的资料是两个变量的成对n数据,那么每一对观察值都可以用直角坐数据,那么每一对观察值都可以用直角坐n标系中的一个点标系中的一个点(x , y)来表示,来表示,n个对象个对象n的观察结果就可以用的观察结果就可以用n个散点来表示。这就个散点来表示。这就n是描绘双变量分布状况的散点图。是描绘双变量分布状况的散点图。散点图(一)散点图(一)智商1301201101009080身高170160150140身高身高(厘米)(厘米)145143150156148160154141

4、155148150158智商智商(分)(分)1001109012010010511098102908998散点图(二)散点图(二)智商1301201101009080成绩10090807060成绩成绩(分)(分)859075908485807580756468智商智商(分)(分)1001109012010010511098102908998画散点图X4 5 6 7 8Y1 4 3 5 6 X4 5 6 7 8 Y3 5 4 2 1X1 2 3 4 5 Y1 2 3 4 5 X1 2 3 4 5Y5 4 3 2 1X1.5 1.8 2.8 2.8 3.5Y2 3 1.5 4 2.8相关系数n用来

5、描述两个变量相互之间变化方向及密切程度的数字特征量称为相用来描述两个变量相互之间变化方向及密切程度的数字特征量称为相关系数。一般,样本相关系数用关系数。一般,样本相关系数用r表示。表示。n相关系数的取值范围是在相关系数的取值范围是在-1到到+1之间,之间,-1r1。n“+”“-”号表示变化方向。号表示变化方向。“+”表示变化方向一致,即正相关。表示变化方向一致,即正相关。“-”表示变化方向相反,即负相关。表示变化方向相反,即负相关。nr的绝对值表示两个变量之间的密切程度(即强度)。的绝对值表示两个变量之间的密切程度(即强度)。n注意注意:n1.相关系数仅仅是一个比值。它不是由相等单位度量而来的

6、,不等距,相关系数仅仅是一个比值。它不是由相等单位度量而来的,不等距,也不是百分比,因此,不能直接作加、减、乘、除运算。也不是百分比,因此,不能直接作加、减、乘、除运算。n2.相关系数只能描述两个变量之间的变化方向及密切程度,并不能揭相关系数只能描述两个变量之间的变化方向及密切程度,并不能揭示两者之间的内在本质联系。示两者之间的内在本质联系。n3.存在相关的两个变量,也不一定存在因果关系。存在相关的两个变量,也不一定存在因果关系。二、积差相关二、积差相关n1、积差相关的概念、积差相关的概念n2、积差相关的使用条件、积差相关的使用条件n3、积差相关系数的公式、积差相关系数的公式n4、总体相关系数

7、的区间估计、总体相关系数的区间估计n5、相关的显著性检验、相关的显著性检验n6、相关系数差异的显著性检验、相关系数差异的显著性检验积差相关的概念积差相关的概念n当两个变量都是正态连续变量,而且两当两个变量都是正态连续变量,而且两者之间呈线性关系时,表示这两个变量者之间呈线性关系时,表示这两个变量之间的相关称为积差相关。之间的相关称为积差相关。积差相关系数的公式2222222)()(/)(/)(/)(1)(2 YYnXXnYXXYnrnYYnXXnYXXYrZZnrSnSYYXXrYXYX或者用原始公式计算:数:用标准分数计算相关系定义公式:计算相关系数X4 5 6 7 8Y1 4 3 5 6

8、X4 5 6 7 8 Y3 5 4 2 1X1 2 3 4 5 Y1 2 3 4 5 X1 2 3 4 5Y5 4 3 2 1X1.5 1.8 2.8 2.8 3.5Y2 3 1.5 4 2.8n0.904n-0.7n1n-1n0.196积差相关的使用条件积差相关的使用条件n1、两个变量都是由测量获得的连续性数据。、两个变量都是由测量获得的连续性数据。n2、两个变量的总体都呈正态分布,或接近正态分布,至少是单峰对称、两个变量的总体都呈正态分布,或接近正态分布,至少是单峰对称分布。分布。n3、必须是成对的数据,而且每对数据之间相互独立,即每对分数与其、必须是成对的数据,而且每对数据之间相互独立,

9、即每对分数与其他对子没有关系,相互独立。他对子没有关系,相互独立。n4、两个变量之间呈线形关系。这可由散点图来做初步分析。、两个变量之间呈线形关系。这可由散点图来做初步分析。n5、要排除共变因素的影响。、要排除共变因素的影响。n6、样本容量要、样本容量要30,计算出的积差相关系数才具有有效意义。,计算出的积差相关系数才具有有效意义。n例例偏相关偏相关n偏相关(偏相关(partial correlation),也称纯相关或净相关,指在计算两个连续),也称纯相关或净相关,指在计算两个连续变量变量X1与与X2的相关时,将第三个变量的相关时,将第三个变量X3或其他多个变量的影响,即或其他多个变量的影响

10、,即r13和和r23予以排除之后,予以排除之后,X1与与X2这两个变量之间的纯净相关,用符号这两个变量之间的纯净相关,用符号r12.3表示,点号表示,点号左边的两个下标代表要求计算偏相关的两个变量,点号右边的下标表示要消左边的两个下标代表要求计算偏相关的两个变量,点号右边的下标表示要消除其影响的变量。除其影响的变量。n偏相关的公式如下:偏相关的公式如下:)1)(1 (2232132313123 .12rrrrrr偏相关之例一(将学历(将学历XL作为控制变量,对儿童智商作为控制变量,对儿童智商IQ与母亲年龄与母亲年龄NL作偏相关分析)作偏相关分析)n对对12名儿童的智商名儿童的智商IQ、出生时母

11、亲的年龄、出生时母亲的年龄NL,以及母亲的,以及母亲的文化程度(接受正规教育的年限文化程度(接受正规教育的年限学龄)学龄) XL这三个变量这三个变量进行调查的结果如下表:进行调查的结果如下表:abcdefghijklIQ788294959697102 105 106 108 114 122NL202122252726282730323232XL699121212151616191922nr=0.934nr 12.3=0.0887偏相关系数的“阶数”n一阶偏相关系数一阶偏相关系数只控制了一个只控制了一个“第三变量第三变量”;n二阶偏相关系数二阶偏相关系数控制了两个控制了两个“第三变量第三变量”;

12、n。n控制变量可以不止一个,而控制变量的数目就是偏相关系数控制变量可以不止一个,而控制变量的数目就是偏相关系数的阶数。的阶数。n不难理解,两列变量之间的简单相关系数是零阶的不难理解,两列变量之间的简单相关系数是零阶的“偏相关偏相关系数系数”,也就是说,它是在没有控制任何条件的情况下考察,也就是说,它是在没有控制任何条件的情况下考察两种现象之间的相互联系。两种现象之间的相互联系。n偏相关分析作为一种统计分析的手段,可以帮助我偏相关分析作为一种统计分析的手段,可以帮助我们们“透过现象看本质透过现象看本质”,更加深入地把握事物之间,更加深入地把握事物之间相互联系的证据。相互联系的证据。n偏相关分析既

13、可以帮助我们辨别虚假的偏相关分析既可以帮助我们辨别虚假的“伪相关伪相关”,也可以帮助我们发现被掩蔽了的也可以帮助我们发现被掩蔽了的“真相关真相关”。偏相关分析之例二(将工龄将工龄GL作为控制变量,对工资作为控制变量,对工资GZ与学历与学历XL作偏相关分析作偏相关分析。)abcdefghijklGZ800900100020001500220027003000280035001500950GL2141010201021202514XL161916161212191616162212nr=0.038(p0.05)nr 13.2=0.8177 (p0.01)练习n下表是20名学生某次期末考试的语文、数

14、学、外语三门课的成绩,试求剔除了语文成绩之后,20名学生的数学成绩与外语成绩的偏相关系数。编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20语文 91 88 83 70 84 92 78 87 82 77 66 69 74 93 86 84 77 73 89 71 数学 85 92 86 66 87 88 74 81 91 78 62 71 77 90 94 82 73 69 88 83 外语 93 92 81 64 84 91 72 80 85 73 64 67 62 88 84 78 61 74 85 62 n语文与数学:0.827n

15、语文与外语:0.900 n数学与外语:0.787积差相关例题积差相关例题成绩成绩(分)(分)859075908485807580756468智商智商(分)(分)1001109012010010511098102908998773. 08223. 78788. 812644)(YXSnSYYXXr总体相关系数的区间估计n1、样本相关系数的抽样分布n 只有当总体相关系数=0时,样本相关系数的抽样分布才接近正态(严格来说, =0时样本相关系数r的分布为t分布)。当总体相关系数0时,样本相关系数的抽样分布呈偏态,概率分布函数较为复杂。n 将相关系数做转换:n n那么无论总体相关系数是否等于零,样本Z的

16、抽样分布都近似地服从于正态分布。Zr的标准误是:n 2、置信区间的确定:)11ln(21rrZr31nSrZ99. 0)3158. 23158. 2(95. 0)3196. 13196. 1(nZZnZPnZZnZPrrrr相关的显著性检验之一:H0:=0的检验n如前所述,当总体相关系数=0时,样本相关系数r的抽样分布为t分布。此时样本相关系数标准误的估计值是n n检验统计量为:n自由度:n-2。 在实际应用中,通常是直接查积差相关系数显著性临界值表来断定r是否显著。n例:212nrSr212rnrSrtr例:n12名初二学生的智商与身高情况登记如下表。能否认为学生的智商确实与身高有关(身材矮

17、小者较聪明或者相反)?身高(厘米)145143150156148160154141155148150158智商(分)1001109012010010511098102908998著。经检验,相关系数不显267. 0r相关的显著性检验之二:H0:=0的检验n虚无假设意指:在总体中两个变量之间存在某种程度的线性相关,而样本的相关系数r0是由于抽样的偶然误差。n n检验统计量为:n例:31nZZZr例n据称EPT与TOFEL两种测验的相关高达0.80。随机抽取的40名被试,两个测验成绩的相关系数r=0.75,据此能不能否定总体=0.80?n解:查表:r=0.75时,Zr=0.973n =0.80时,

18、Z=1.099n 。否定总体相关名被试的观察结果不能根据,所以保留虚无假设,因为计算检验统计量:80. 04096. 10.766Z766. 03401099. 1973. 031Z05. 0ZnZZr相关系数差异的显著性检验(一)n1、独立样本(r1和r2分别由彼此独立的被试得到)之间样本相关系数差异的显著性检验n例:从某省随机抽取的103名高考考生中,男56人,女47人。男生数、理两科成绩的相关系数r1=0.83,女生数、理两科成绩的相关系数r2=0.76。数、理两科成绩的相互关系是否存在显著的性别差异?n解:31312121nnZZZrr96. 1941. 034713561996. 0

19、188. 131312121nnZZZrr相关系数差异的显著性检验(二)n2、同组被试两个相关系数差异的显著性检验n这里只介绍同组被试的三个测验,两两相关系数之差的显著性检验。检验的虚无假设是:H0:12=13,检验统计量为:n检验统计量t的自由度df=n-3。n例:以某一权威测验X1为效标考查新编制的两套外语测验X2、X3 的有效性。在容量n=303的标准化样本中,求得三个测验的两两相关系数分别是:r12=0.62;r13=0.51;r23=0.70。新编制的两个测验的效度是否有显著的差别?n解:)1)(3()21 (2232313122232132121312rnrrrrrrrrt异。编测

20、验的效度有显著差拒绝虚无假设。两个新显著性水平上所以在因为根据01.0,60.2164.3,60.2,3003303164.3)1)(3()21(201.0232313122232132121312tdfrnrrrrrrrrt三、等级相关三、等级相关n1、斯皮尔曼等级相关、斯皮尔曼等级相关n2、肯德尔和谐系数、肯德尔和谐系数斯皮尔曼等级相关斯皮尔曼等级相关n1、概念及适用范围、概念及适用范围n当两个变量值以等级次序排列或以等级次序表示时,两个相应总体并不当两个变量值以等级次序排列或以等级次序表示时,两个相应总体并不一定呈正态分布,样本容量也不一定大于一定呈正态分布,样本容量也不一定大于30,表

21、示这两个变量之间的,表示这两个变量之间的相关,称为等级相关。相关,称为等级相关。n2、相关系数的计算、相关系数的计算n等级相关系数的显著性检验方法与积差相关的相同。等级相关系数的显著性检验方法与积差相关的相同。n例例。为各列变量相同等级数写为成对数据的数目,小上面公式中,其中,相关的方法:有相同等级时计算等级nnnCCNNynnCCNNxyxDyxrNNDryyxxRCRN12) 1(,1212) 1(,12,2) 1(612322322222222例成绩(分)成绩(分) 859075908485807580756468智商(分)智商(分) 10011090120100105110981029

22、08998成绩等级成绩等级3.51.591.553.56.596.591211智商等级智商等级6.52.510.516.542.58.5510.5128.5D-3-1-1.50.5-1.5-0.54.00.51.5-1.502.5D2912.250.252.250.25160.252.252.2506.25差不多而其中,853. 0143124261) 1(61850. 01415 .1392421415 .1392212) 12(212) 12(212) 12(212) 12(212) 1(,14121432121212125 . 312) 13( 312) 12(212) 12(212)

23、12(212) 1(, 5 .1395 . 31435 . 312121212,22222222222223322222233222222NNDryxDyxrnnCCNNynnCCNNxyxDyxrRRCyyxxRC成绩成绩(分)(分)859075908485807580756468智商智商(分)(分)1001109012010010511098102908998肯德尔和谐系数肯德尔和谐系数n1、概念及使用范围、概念及使用范围n 当多个(两个以上)变量值以等级次序排列或以等级次序表示,描述这几个变量之间当多个(两个以上)变量值以等级次序排列或以等级次序表示,描述这几个变量之间一致性程度(即相关

24、)的量,称为肯德尔和谐系数。它常用来表示几个评定者对同一组学一致性程度(即相关)的量,称为肯德尔和谐系数。它常用来表示几个评定者对同一组学生学习成绩等级评定的一致性程度或同一个评定者对同一组学生的学习成绩用等级先后评生学习成绩等级评定的一致性程度或同一个评定者对同一组学生的学习成绩用等级先后评定多次之间的一致性程度。定多次之间的一致性程度。n2、相关系数的计算、相关系数的计算n例例为相同等级的数目其中,有相同等级的情况:其中,无相同等级的情况:nnnTTKNNKSSrNRRSSNNKSSrRWRRW,12)(121)(,)(1213322232例N=7 赵赵 钱钱 孙孙 李李 周周 (k=5)

25、 R Ri i R Ri i2 2萧亚轩萧亚轩1 1 1 1 1 1 1周杰伦周杰伦1 1 1 1 1 1 1 S.H.E1 1 1 1 1 1 1 蔡依琳蔡依琳1 1 1 1 1 1 1陈奕迅陈奕迅1 1 1 1 1 1 1潘玮柏潘玮柏1 1 1 1 1 1 1王王 菲菲1 1 1 1 1 1 1四、质与量相关四、质与量相关n1、点二列相关点二列相关n2、二列相关、二列相关点二列相关点二列相关n1、概念及适用范围、概念及适用范围n 当两个变量其中一个是正态连续性变量,另一个是真正的二分名义变量当两个变量其中一个是正态连续性变量,另一个是真正的二分名义变量时,表示这两个变量之间的相关,称为点二

26、列相关。时,表示这两个变量之间的相关,称为点二列相关。n2、相关系数的计算、相关系数的计算n例例pqSXXrtqppb例n14名男女学生某项技能测验的成绩如下表名男女学生某项技能测验的成绩如下表,试计算该技能测验成绩与试计算该技能测验成绩与性别的相关系数性别的相关系数.男男 1女女 011111111000000总总和和成绩成绩X7968354628643677179.2,12214030.1)285.0(1214285.0120:285.0737403.283.400.605.0220tdfrnrtHpqSXXrpbpbtqppb点二列相关的应用点二列相关的应用 用于对测验项目的区分度进行检

27、验。用于对测验项目的区分度进行检验。n有一是非式选择测验,每题选对得有一是非式选择测验,每题选对得2分,共有分,共有50题,满分题,满分100分。下表所列为分。下表所列为20名学生在该测验中的总成绩及第名学生在该测验中的总成绩及第5题的选答情况。问这道题与测验总分的相题的选答情况。问这道题与测验总分的相关程度如何?关程度如何?学号学号 总分总分 第第5题题学号学号 总分总分 第第5题题1 84 对对2 82 错错3 76 错错4 60 错错5 72 错错6 74 错错7 76 错错8 84 对对9 88 对对10 90 对对 11 78 对对12 80 错错13 92 对对14 94 对对15

28、 96 对对16 88 对对17 90 对对18 78 错错19 76 错错20 74 错错785. 05 . 05 . 066 . 88 .744 .88pqSXXr66 . 8S, 8 .74X4,.88X, 5 . 02010q, 5 . 02010pS5X5X5q5p1010520Ntqppbt qpt qp则:根据题意得:准差为所有学生总成绩的标绩题学生的总分的平均成为答错第绩题学生的总分的平均成为答对第题学生的比率为答错第题学生的比率为答对第设人,人,答错的题答对的,第解:已知点二列相关与二列相关n相同之处: 都可用于计算题目的区分度。n区别:适用数据不同。n 点二列相关中的二分变

29、量是真正的二分变量,不是正态分布的;n 二列相关中的二分变量是由正态分布的连续性测量数据人为转化来的。使用点二列相关和二列相关的总原则: 如果不是十分明确观测数据的分布形态是否为正态分布,这时,不管观测数据代表的是一个真正的二分变量,还是一个基于正态分布的人为二分变量,都应选用点二列相关。n只要有任何疑问,选用点二列相关总是较好的选择。n在实际的研究当中,二列相关很少使用。练习n问下表中成绩与性别是否有关?被试 1 2 3 4 5 6 7 8 9 10性别 男 女 女 男 女 男 男 男 女 女成绩 83 91 95 84 89 87 86 85 88 92 二列相关二列相关n1、概念及适用范

30、围、概念及适用范围n 当两个变量都是正态连续变量,其中一个变量被人为地划当两个变量都是正态连续变量,其中一个变量被人为地划分成二分变量,表示这两个变量之间的相关,称为二列相关。分成二分变量,表示这两个变量之间的相关,称为二列相关。n2、相关系数的计算、相关系数的计算n例例YpqSXXrtqPb例例成绩成绩(分)(分)859075908485807580756468智商智商(分)(分)1001109012010010511098102908998二分智商二分智商1212122121111525. 21212512739024. 01785. 0)1(Z785. 039024. 012512782

31、23. 78514.75npqYrYpqSXXrbtqpb显著性检验:五、品质相关五、品质相关n两个变量都是按质划分成几种类别,表示这两个变量之间的关系称为品两个变量都是按质划分成几种类别,表示这两个变量之间的关系称为品质相关。质相关。n1、四分相关、四分相关n(适用于两个变量都是连续变量,(适用于两个变量都是连续变量,n且每一个变量都被认为地划分为两种类型。)且每一个变量都被认为地划分为两种类型。)n2、相关相关n(适用于两个变量都是真正的二分变量)(适用于两个变量都是真正的二分变量)n3 3、列联相关、列联相关n(当数据属于(当数据属于R RC C表的计数资料,表的计数资料,n欲分析二因素之间的相关程度,就要用列联相关)欲分析二因素之间的相关程度,就要用列联相关))1180cos(bcadrot)()()(dcdbcababcadr22NC相关分析小结(一)相关分析小结(一)n1 1、相关分析就是用一个指标来反映

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论