第5章 两个样本和多个样本的相关分析.ppt_第1页
第5章 两个样本和多个样本的相关分析.ppt_第2页
第5章 两个样本和多个样本的相关分析.ppt_第3页
第5章 两个样本和多个样本的相关分析.ppt_第4页
第5章 两个样本和多个样本的相关分析.ppt_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第5章两个和多个样本的相关分析,参数统计的关联性分析,参数统计中衡量两个定量变量之间线性相关程度的常用指标是皮尔逊(Pearson)相关系数,也称积距相关系数或动差相关系数(离差相乘)。相关系数的定义公式是:,参数统计的关联性分析,1.提出假设:H0:;H1:0,2.计算检验的统计量:,3.确定显著性水平,并作出决策。,相关系数非常高的样本也有可能来自无相关关系的总体。为了排除这种情况,需要对相关系数进行显著性检验。检验的步骤是:,这一检验在零假设成立且两个变量服从正态分布的情况下得出的。,皮尔逊相关系数的局限性,皮尔逊相关系数及其显著性检验是建立在数据变量为定量且服从正态分布的前提下。若这一前提不成立,则结果不可信或是错误的。此时需要非参数方法。皮尔逊相关系数只能用来度量两个变量的线性相关性,不能用来度量两者的相关性。例,已知X,Y,g(X)是X的单调函数,则有:X和Y的接近时,Y和g(X)的可能接近于。,皮尔逊相关系数,错误!,变量:连续型正态分布线性关系,连续数据(Pearson积矩相关系数不讲):Kendall秩相关检验Spearman秩相关检验偏秩相关Kendall评定协和系数,本章主要内容,5.1Spearman秩相关检验,Spearman秩相关是利用斯皮尔曼等级相关系数测定变量间等级相关程度的一种非参数统计相关分析方法。,5.1.1基本思路与检验步骤,设x,y是抽自两个不同总体X,Y的样本,其观察值为,将它们配对形成;如果将各自排序,分别评出在两个顺序样本中所在位置的名次(称为秩),记作,得到n对秩:n对秩可能完全相同,也可能完全相反,或者不完全相同。,可见,当X与Y完全相关时,记作。其中,可以用来度量x和y的相关程度:越大,x与y之间的相关越不完全。由于可正可负,直接用测度相关会缩小之间的差值,故用来反映的差值大小;但既受不一致程度的影响,也受观察值个数n的多少之影响。为了准确度量x和y的相关程度,我们用的最大值去除,则得到了一个相对测量指标,称为等级相关系数,记为R。的最大值反映了x与y之间完全负相关,它等于:,检验步骤:(1)建立假设:或或(2)计算检验统计量:斯皮尔曼等级相关系数是测定两个样本相关程度的重要指标:式中:,的取值范围在-1到+1之间。0为正相关,0.8为相关程度越高。(3)做出决策:当时,拒绝;当,不能拒绝。是临界值(书中记为),它是根据样本观测之个数n、备择假设(单或双侧)以及给定的显著性水平查Spearman秩相关系数检验临界值表查得。,注意:1:遇到打结的情况时,如果x或y打结不多,可以用平均秩解决;如果打结过多(超过全部数据的1/5),在计算时需要加上校正因子(公式略)。2:当n为大样本时,近似服从正态分布N(0,1)。单侧:P()=;双侧:2P()=2。,5.1.2应用,某班15名学生的数学成绩与统计学成绩如下表所示:,试分析学生的数学成绩和统计学成绩的相关性()。,解:(1):提出假设:(2):计算检验统计量(3):作决策所以拒绝,可以在5%的显著性水平下认为数学成绩与统计学成绩存在正相关关系。又因为,两者呈高度正相关,相关程度达82.5%。,5.1.3练习,在一次跳水比赛中,有2名裁判员给运动员的评分引起了争议。下表列出了他们给12名选手的评分情况。试在5%的显著性水平下对这两名裁判员在本次比赛中的评分进行相关分析。,5.2Kendall秩相关检验,这种方法与Spearman秩相关检验一样,也是利用秩来研究两个变量之间的相关程度,只是考虑问题的角度不同而已。,7.2.1基本思路与检验步骤,对于n对配对数据,现分别评出x与y两个数列的秩,然后将x的n个数据的秩按自然顺序排列,再考察x的秩与y的秩的一致性。如果两个秩次由小到大排列,则称为一个一致对,记作+1;否则成为非一致对,记作-1。由于x的秩次是按照自然序列由小到大排列的,因此x的观察值每两个秩之间都是一致对。,例如,对于样本数据(10,6),(8,12),(11,7),(9,8)而言,x与y的秩为:X的秩:R3142Y的秩:S1423将x的秩按自然顺序排列,四对秩的顺序变为:X的秩:R1234Y的秩:S4312,x与y的一致对和非一致对的数目计算:,在x的秩按自然顺序排列时,y的一致对最大数目产生于y的秩也按自然顺序排列的情形,此时它等于。所以,用y的一致对数目与最大可能一致对数目相比较,可以测定x与y的相关程度。,Y的一致对数目与最大可能一致对数目之比为:Y的非一致对数目与最大可能一致对数目之比为:当y的秩完全按自然顺序排列时,(1)式的值为1,(2)式的值为0;当y的秩完全与x的秩相反时,(1)式的值为0,(2)式的值为1。为测定两组秩之间的相关程度,定义的相关系数取值范围从-1到+1。,Kendall秩相关系数的定义公式为:,令,则Kendall秩相关系数公式为:如果x与y有完全相同的评秩,则,表明x与y完全正相关;如果x与y有完全相反的评秩,则,表明x与y完全负相关。一般认为,两组秩次相关程度较高。,Kendall秩相关系数的概率解释,对于对配对数据两两比较,将会出现三种情形,即:和谐、不和谐和同分的概率分别记为,且有:对于连续数据,一般有,肯德尔系数的被定义为:前面计算公式就是这一公式的一个估计。,检验步骤:(1)建立假设:或或(2)计算检验统计量(3)作决策当或时,拒绝;当或时,不能拒绝。注:一般的表只是当k或为正的情况。在k0,且,所以拒绝,可以认为总体数学成绩与统计学成绩之间确实存在正相关关系。,练习,1.10个国家和地区1999年的国际化程度和国际竞争力排名情况如下表所示:试分析国家化程度与国际竞争力的相互关系(),2.美国阿尔塔郡的市长对每年一次的美男子比赛感兴趣。比赛按5个方面来评选参赛者:容貌,知识,才能,体形和音质。市长想知道这5个方面(变量)之间有无联系。比赛之后,他得到了7位参赛选手的容貌和才能的得分(见下表),试分析容貌是否和才能有关。参赛者编号容貌才能15012248103304044713520506254574020,3.试根据下列资料分析驾校训练场模拟驾驶考试的成绩与在公路上的实地驾驶考试的成绩之间是否相关。12名学员两次考试的结果学员编号模拟考试实地路考197942606135248487855777668987779758989799492108380117471127372,若有结时,用估计就会低估。这时需要修正公式。对于一个有个相同观测值的结情形,共有个对子,显然一个修正可以如下:,5.2.3有结修正与大样本近似,式中,是x中打结观察值的个数(结长);是y中打结观察值的个数。,解:计算对子的原则是相同的不计入。,当n40时,可以视为大样本,用正态分布逼近:,大样本近似,5.3偏秩相关,当研究两个样本的相关性时,可能计算出来的相关系数并不直接反映两个样本间存在真正的或直接的关系。这种相关性是因为两个样本都和第三个样本有关系而产生的。这个问题在参数统计中是通过偏相关解决的,在非参数统计中也可以用偏相关的测算方法处理。本节介绍Kendall偏秩相关系数。,5.3.1基本思路,若X、Y与第三个样本Z有关,即由于Z的变化对X、Y之间的关系有影响,则考察去掉Z的影响,仅仅研究X、Y之间的相关就是偏相关。在统计上,偏相关就是保持Z恒定下X、Y之间的相关。若有三个样本X、Y、Z,每个样本有n个数据,且都至少是在定序尺度上测量,则根据Kendall秩相关系数的定义,表示X与Y之间的秩相关程度,表示X与Z之间的秩相关程度,表示Y与Z之间的秩相关程度。Kendall偏秩相关系数:,是Z不变时X与Y之间的相关系数,其取值范围是-1到+1之间,但它的抽样分布迄今未知,因而无法对其进行显著性检验。5.3.2应用例社会上普遍认为:取得学士学位以后在工作中继续研究生课程的学习很重要,也就说在职继续学习比单纯地学院式学习更有意义。今调查了7个人的年龄、花在继续学习上的时间以及月收入情况,得到下列数据。试根据上述资料分析收入与继续受教育程度的相关性。,序号年龄(岁)继续学习时间(小时)月收入(千元)(Z)(X)(Y)140182.523502.033061.5436152.4541243.0645302.8748452.9,解:对于要分析研究的收入与继续学习的关系,在调查中增加了年龄,这可以看作是第三个样本。分析收入与继续学习的关系,可以利用上表资料计算相关系数。虽然表中数据均为定比尺度测量,但样本数目较少,不符合参数统计中计算积相关系数的要求,且对总体不做任何假设,采用非参数统计方法中的Kendall秩相关系数较为合适。,X061518243045Y2.01.52.42.53.02.82.9y=5+5+4+3+0+1+0=18xy=4(18)/7(7-1)-1=0.7143根据n=7,=0.7143,查表可得到,p近似等于0.015,对于0.05的显著性水平来讲,p值足够小,因此数据拒绝不相关的零假设,表明收入与继续学习的时间存在相关。由于=0.7143,表明两者的相关程度不算高。但考虑到收入可能受年龄的影响,继续学习的时间也会受到年龄的影响,因而应排除年龄因素的影响,计算偏秩相关系数。,为此,先要计算和。将X依次排序,得到Z的排列及相应的相关系数:X061518243045Z35303640414548uxz=5+5+4+3+2+1+0=20=40(20)/7(7-1)-1=0.9048将Y依次排序,得到Z的排列及相应的相关系数:Y1.52.02.42.52.82.93.0Z30353640454841uyz=6+5+4+3+1+0+0=19=4(19)/7(7-1)-1=0.8095,所以,与比较相差甚远。仅仅是一个很小的数值,以至无法做出存在相关的结论。但它与共同使用可以说明收入与继续学习的时间,在年龄因素的影响下存在一定的相关。除了年龄的影响外,两者之间几乎没有什么联系。,5.4Kendall协同系数检验,检验问题:H0:对于不同个体的评判是否随机或不相关。H1:对于不同个体的评判是正相关的或一致的。Kendall协同系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论