两个样本和多个样本的相关分析演示文稿_第1页
两个样本和多个样本的相关分析演示文稿_第2页
两个样本和多个样本的相关分析演示文稿_第3页
两个样本和多个样本的相关分析演示文稿_第4页
两个样本和多个样本的相关分析演示文稿_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

两个样本和多个样本的相关分析演示文稿当前第1页\共有44页\编于星期四\16点优选两个样本和多个样本的相关分析ppt当前第2页\共有44页\编于星期四\16点参数统计的关联性分析参数统计中衡量两个定量变量之间线性相关程度的常用指标是皮尔逊(Pearson)相关系数,也称积距相关系数或动差相关系数(离差相乘)。相关系数的定义公式是:当前第3页\共有44页\编于星期四\16点参数统计的关联性分析1.提出假设:H0:;H1:02.计算检验的统计量:3.确定显著性水平,并作出决策。

相关系数非常高的样本也有可能来自无相关关系的总体。为了排除这种情况,需要对相关系数进行显著性检验。检验的步骤是:

这一检验在零假设成立且两个变量服从正态分布的情况下得出的。当前第4页\共有44页\编于星期四\16点皮尔逊相关系数的局限性皮尔逊相关系数及其显著性检验是建立在数据变量为定量且服从正态分布的前提下。若这一前提不成立,则结果不可信或是错误的。此时需要非参数方法。皮尔逊相关系数只能用来度量两个变量的线性相关性,不能用来度量两者的相关性。例,已知X,Y,g(X)是X的单调函数,则有:X和Y的接近0时,Y和g(X)的可能接近于1。当前第5页\共有44页\编于星期四\16点皮尔逊相关系数错误!!!变量:连续型正态分布线性关系当前第6页\共有44页\编于星期四\16点连续数据(Pearson积矩相关系数不讲):Kendall秩相关检验Spearman秩相关检验偏秩相关Kendall评定协和系数本章主要内容当前第7页\共有44页\编于星期四\16点5.1Spearman秩相关检验

Spearman秩相关是利用斯皮尔曼等级相关系数测定变量间等级相关程度的一种非参数统计相关分析方法。

当前第8页\共有44页\编于星期四\16点基本思路与检验步骤

设x,y是抽自两个不同总体X,Y的样本,其观察值为,将它们配对形成;如果将各自排序,分别评出在两个顺序样本中所在位置的名次(称为秩),记作,得到n对秩:

n对秩可能完全相同,也可能完全相反,或者不完全相同。

当前第9页\共有44页\编于星期四\16点当前第10页\共有44页\编于星期四\16点

可见,当X与Y完全相关时,,记作。其中,可以用来度量x和y的相关程度:越大,x与y之间的相关越不完全。由于可正可负,直接用测度相关会缩小之间的差值,故用来反映的差值大小;但既受不一致程度的影响,也受观察值个数n的多少之影响。为了准确度量x和y的相关程度,我们用的最大值去除,则得到了一个相对测量指标,称为等级相关系数,记为R。的最大值反映了x与y之间完全负相关,它等于:

当前第11页\共有44页\编于星期四\16点检验步骤:(1)建立假设:

或(2)计算检验统计量:斯皮尔曼等级相关系数是测定两个样本相关程度的重要指标:式中:当前第12页\共有44页\编于星期四\16点

的取值范围在-1到+1之间。>0为正相关,

<0为负相关;=+1为完全正相关,=-1为完全负相关;当越接近1,表示样本之间的相关程度越高;越接近于0,表示样本之间的相关程度越低。一般认>0.8为相关程度越高。(3)做出决策:当时,拒绝;当,不能拒绝。是临界值(书中记为),它是根据样本观测之个数n、备择假设(单或双侧)以及给定的显著性水平查《Spearman秩相关系数检验临界值表》查得。当前第13页\共有44页\编于星期四\16点注意:1:遇到打结的情况时,如果x或y打结不多,可以用平均秩解决;如果打结过多(超过全部数据的1/5),在计算时需要加上校正因子(公式略)。2:当n为大样本时,

近似服从正态分布N(0,1)。单侧:P()=;双侧:2P()=2。当前第14页\共有44页\编于星期四\16点应用

某班15名学生的数学成绩与统计学成绩如下表所示:试分析学生的数学成绩和统计学成绩的相关性()。

当前第15页\共有44页\编于星期四\16点解:(1):提出假设:(2):计算检验统计量(3):作决策所以拒绝,可以在5%的显著性水平下认为数学成绩与统计学成绩存在正相关关系。又因为,两者呈高度正相关,相关程度达82.5%。

当前第16页\共有44页\编于星期四\16点练习

在一次跳水比赛中,有2名裁判员给运动员的评分引起了争议。下表列出了他们给12名选手的评分情况。试在5%的显著性水平下对这两名裁判员在本次比赛中的评分进行相关分析。

当前第17页\共有44页\编于星期四\16点5.2Kendall秩相关检验

这种方法与Spearman秩相关检验一样,也是利用秩来研究两个变量之间的相关程度,只是考虑问题的角度不同而已。

当前第18页\共有44页\编于星期四\16点7.2.1基本思路与检验步骤

对于n对配对数据,现分别评出x与y两个数列的秩,然后将x的n个数据的秩按自然顺序排列,再考察x的秩与y的秩的一致性。如果两个秩次由小到大排列,则称为一个一致对,记作+1;否则成为非一致对,记作-1。由于x的秩次是按照自然序列由小到大排列的,因此x的观察值每两个秩之间都是一致对。

当前第19页\共有44页\编于星期四\16点例如,对于样本数据(10,6),(8,12),(11,7),(9,8)而言,x与y的秩为:

X的秩:R3142Y的秩:S1423将x的秩按自然顺序排列,四对秩的顺序变为:

X的秩:R1234Y的秩:S4312当前第20页\共有44页\编于星期四\16点x与y的一致对和非一致对的数目计算:在x的秩按自然顺序排列时,y的一致对最大数目产生于y的秩也按自然顺序排列的情形,此时它等于。所以,用y的一致对数目与最大可能一致对数目相比较,可以测定x与y的相关程度。当前第21页\共有44页\编于星期四\16点Y的一致对数目与最大可能一致对数目之比为:

Y的非一致对数目与最大可能一致对数目之比为:当y的秩完全按自然顺序排列时,(1)式的值为1,(2)式的值为0;当y的秩完全与x的秩相反时,(1)式的值为0,(2)式的值为1。为测定两组秩之间的相关程度,定义的相关系数取值范围从-1到+1。

当前第22页\共有44页\编于星期四\16点Kendall秩相关系数的定义公式为:

,则Kendall秩相关系数公式为:

如果x与y有完全相同的评秩,则,表明x与y完全正相关;如果x与y有完全相反的评秩,则,表明x与y完全负相关。一般认为,,两组秩次相关程度较高。当前第23页\共有44页\编于星期四\16点Kendall秩相关系数的概率解释对于n对配对数据两两比较,将会出现三种情形,即:和谐、不和谐和同分的概率分别记为,且有:对于连续数据,一般有,肯德尔系数的被定义为:

前面计算公式就是这一公式的一个估计。当前第24页\共有44页\编于星期四\16点检验步骤:(1)建立假设:或或(2)计算检验统计量(3)作决策当或时,拒绝;当或时,不能拒绝。注:一般的表只是当k或为正的情况。在k<0时,由对称性,取绝对值查表即可。当前第25页\共有44页\编于星期四\16点5.2.2应用

根据节中的例子,用Kendall秩相关检验法分析学生数学成绩与统计学成绩的相关性。

解:(1)建立假设(2)计算检验统计量

当前第26页\共有44页\编于星期四\16点当前第27页\共有44页\编于星期四\16点(3)做出决策根据n=15,,查《Kendall检验临界值表》,得。因为S>0,且S>,,所以拒绝,可以认为总体数学成绩与统计学成绩之间确实存在正相关关系。当前第28页\共有44页\编于星期四\16点练习

1.10个国家和地区1999年的国际化程度和国际竞争力排名情况如下表所示:试分析国家化程度与国际竞争力的相互关系()当前第29页\共有44页\编于星期四\16点2.美国阿尔塔郡的市长对每年一次的美男子比赛感兴趣。比赛按5个方面来评选参赛者:容貌,知识,才能,体形和音质。市长想知道这5个方面(变量)之间有无联系。比赛之后,他得到了7位参赛选手的容貌和才能的得分(见下表),试分析容貌是否和才能有关。参赛者编号容貌才能

15012248103304044713520506254574020当前第30页\共有44页\编于星期四\16点

3.试根据下列资料分析驾校训练场模拟驾驶考试的成绩与在公路上的实地驾驶考试的成绩之间是否相关。

12名学员两次考试的结果学员编号模拟考试实地路考

197942606135248487855777668987779758989799492108380117471127372当前第31页\共有44页\编于星期四\16点若有结时,,用估计就会低估。这时需要修正公式。对于一个有m个相同观测值的结情形,共有个对子,显然一个修正可以如下:有结修正与大样本近似式中,是x中打结观察值的个数(结长);是y中打结观察值的个数。当前第32页\共有44页\编于星期四\16点解:计算对子的原则是相同的X不计入。XY顺序对反序对0.9100920.9104631.0961001.3113161.5106441.6102211.6104211.6104211.6109211.6115031.7113011.8113012.298003824当前第33页\共有44页\编于星期四\16点当n>40时,可以视为大样本,用正态分布逼近:大样本近似当前第34页\共有44页\编于星期四\16点5.3偏秩相关

当研究两个样本的相关性时,可能计算出来的相关系数并不直接反映两个样本间存在真正的或直接的关系。这种相关性是因为两个样本都和第三个样本有关系而产生的。这个问题在参数统计中是通过偏相关解决的,在非参数统计中也可以用偏相关的测算方法处理。本节介绍Kendall偏秩相关系数。当前第35页\共有44页\编于星期四\16点5.3.1基本思路若X、Y与第三个样本Z有关,即由于Z的变化对X、Y之间的关系有影响,则考察去掉Z的影响,仅仅研究X、Y之间的相关就是偏相关。在统计上,偏相关就是保持Z恒定下X、Y之间的相关。若有三个样本X、Y、Z,每个样本有n个数据,且都至少是在定序尺度上测量,则根据Kendall秩相关系数的定义,表示X与Y之间的秩相关程度,表示X与Z之间的秩相关程度,表示Y与Z之间的秩相关程度。Kendall偏秩相关系数:当前第36页\共有44页\编于星期四\16点

是Z不变时X与Y之间的相关系数,其取值范围是-1到+1之间,但它的抽样分布迄今未知,因而无法对其进行显著性检验。

5.3.2应用例社会上普遍认为:取得学士学位以后在工作中继续研究生课程的学习很重要,也就说在职继续学习比单纯地学院式学习更有意义。今调查了7个人的年龄、花在继续学习上的时间以及月收入情况,得到下列数据。试根据上述资料分析收入与继续受教育程度的相关性。

当前第37页\共有44页\编于星期四\16点序号年龄(岁)继续学习时间(小时)月收入(千元)

(Z)(X)(Y)140182.523502.033061.5436152.4541243.0645302.8748452.9解:对于要分析研究的收入与继续学习的关系,在调查中增加了年龄,这可以看作是第三个样本。分析收入与继续学习的关系,可以利用上表资料计算相关系数。虽然表中数据均为定比尺度测量,但样本数目较少,不符合参数统计中计算积相关系数的要求,且对总体不做任何假设,采用非参数统计方法中的Kendall秩相关系数较为合适。当前第38页\共有44页\编于星期四\16点X

061518243045Y2.01.52.42.53.02.82.9

uy=5+5+4+3+0+1+0=18

τxy=[4(18)]/[7(7-1)]-1=0.7143根据n=7,τ=0.7143,查表可得到,p近似等于0.015,对于0.05的显著性水平来讲,p值足够小,因此数据拒绝不相关的零假设,表明收入与继续学习的时间存在相关。由于τ=0.7143,表明两者的相关程度不算高。但考虑到收入可能受年龄的影响,继续学习的时间也会受到年龄的影响,因而应排除年龄因素的影响,计算偏秩相关系数

。当前第39页\共有44页\编于星期四\16点为此

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论