非参数统计学讲义(第五章)讲稿2.doc_第1页
非参数统计学讲义(第五章)讲稿2.doc_第2页
非参数统计学讲义(第五章)讲稿2.doc_第3页
非参数统计学讲义(第五章)讲稿2.doc_第4页
非参数统计学讲义(第五章)讲稿2.doc_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

非参数统计学讲义第五章 相关和回归1 引言所谓相关,是指两组或两组以上观察结果之间的连带性或联系。换句话说,也就是各组观察结果所反映的特性之间有关系。如几个亲生兄弟间的智商与出生顺序有关系,受教育程度与性别有关系,出生率X和文盲率Y之间的关系等等。在实际问题的研究中,人们常常想知道两组或两组以上的观察结果是否有联系,同时也想知道联系的程度如何。前面的统计检验能够在一定的显著性水平上,确定各组观察值的关系是否存在。相关方法被用来度量两个或更多变量之间的线性关系的强度,是回归分析的基础。在数理统计学中,我们使用相关系数定义变量X和变量Y之间的相关性。 度量了总体样本点在标准差线周围的聚集程度,详见笔记P38。 对于样本,来说,Pearson相关系数为 如果在这个样本中的n个观察值独立,则r是的渐近无偏估计;如果它又是二元正态分布,则r是的ML估计。为了检验,可以选取统计量结论:Pearson相关系数度量的是一种线性关系,而我们所要介绍的非参数的Spearman秩相关系数和Kendall 相关系数实际上度量的是一种形式的相依联系,或是更广义的单调关系。因此相关的概念被推广,不仅指线性相关,而泛指相依或联系。2 两个样本的相关分析一、 等级相关等级相关(Rank Correlation)也称作级序相关,用于两个至少是定序尺度测量的样本问相关程度的测定研究背景1 基本方法两个样本X、Y,其观察数据可以配对为,。将排序后评秩,其秩记作U,与相对应的秩为;同样,排序后评秩,秩记作V,与相对应的秩为。这样得到的n对秩,可能每一对完全相等,也可能不等。由于每一样本都是n个数据评秩,因此与的取值都是从1到n。X、Y的秩可能完全一致,即对于所有的i来说,有,表51是完全一致的评秩结果。X、Y的秩可能完全相反,表52是完全相反的评秩结果。如果X、Y完全相关,应该对于所有的i有,即0。因此,与之差可以用来度量X、Y的相关程度。定义表5-1 完全一致的评秩X的秩Y的秩1122n1n1nn表5-2 完全相反的评秩X的秩Y的秩1n2n1n12n1则两组秩完全相关时,(i1,2,n)应该为零。越大,X、Y之间的相关越不完全。但由于可正可负,直接用测度相关,会出现正负抵消,而不能真实反映与差值的大小,所以宜采用,即 (5.3)式的这个秩差值平方和的大小既受到n的多少的影响,又受到两组秩不一致程度的影响,因此,采用相对的测量指标有利于说明X、Y的相关程度。因为的最大值反映X、Y完全不相关的情况,所以,用(5.3)式除以的最大值,可用来评价X、Y之间秩的差值是否与完全不相关时接近。若实际计算的与X、Y完全不相关情况下的接近,那么两个样本的相关程度较低,若实际计算的与最大值的比越小,则两个样本的相关程度越高。的最大值即X、Y间完全不相关情况下的秩差值平方和,可以根据表52所列的数据计算。因为这是X、Y完全不相关的评秩结果。的最大值为 (5.4)式的中括号内最后一项,当n为奇数时是22;n为偶数时是12。(5.3)式除以(5.4)式得到 (5.5)式的取值从0到1。根据表5-1中的数据计算(5.5)式值为0,表5-2中的数据计算的(5.5)式值为1,即X、Y的秩完全一致时,(5.5)式的值为0,X、Y的秩完全不一致时,(5.5)式的值为1。测度两个样本等级相关程度可以象参数方法一样,定义等级相关系数作为标准。斯皮尔曼的等级相关系数(Spearman coefficient of rank correlation)是测定两个样本相关强度的重要指标。其计算公式为 斯皮尔曼相关系数也写为,在有下标注以s是为表明这个相关系数r不是积矩相关的简单相关系数,而是等级相关的Spearman相关系数。注:由于(5.6)式与(5.5)式不同,所以,R的取值从一1到十1,表明X、Y完全相关,R十l为完全正相关,R一1为完全负相关。越接近于l,表明相关程度越高,反之,越接近于零,表明相关程度越低,R0为完全不相关。R0为正相关,R0为负相关。通常认为为相关程度较高。Spearman秩相关系数检验临界值查表可得,P198。存在打结时,Spearman统计量要作相应修正。在大样本时,可用正态近似作检验。2 应用【例5-1】经济发展水平和卫生水平之间的相关分析对某地区12个街道进行调查,并对经济发展水平和卫生水平按规定的标准打分,评定结果如表54。表5-4 某地区经济水平与卫生水平得分街道号经济水平卫生水平街道号经济水平卫生水平182867848028778878773606598075498881094965756411858568990126870分析:将表54中定距尺度测量的分数,按从小到大的顺序排等级,得到表55的结果。对两个定序尺度测量的样本进行相关分析,可以采用等级相关系数测定。必要的计算过程如表55所列。根据(56)式可得由于R0888l08,所以该地区的经济发展水平和卫生水平存在着正相关关系,相关程度较高,为8881。表5-5 某地区经济水平与卫生水平得分街道号经济水平(U)卫生水平(V)D=U-VD2169-3929639312-1141210245312461011-1177700845-1195411101112-111188001223-11合 计323 同分处理当观察值是评的分数时,可能在同一个样本中出现相同的评分,如成绩都是80等等。同分的秩仍旧是等于几个同分值应有秩的平均值。如果同分的比例不大,它们对秩相关系数及的影响可以忽略。但若同分的比例较大,则计算只时应加入一个校正因子。对于X的同分校正因子为,Y的同分校正因子为。于是斯皮尔曼秩相关系数的计算公式为: 式中,u是X中同分的观察值数目,v是Y中同分的观察值数目。【例5-2】经济发展水平和卫生水平之间的相关分析某地区对24个区县进行调查,并对经济发展水平和卫生水平按规定标准评分,结果如表56。分析:将表56的评分转换为秩次,从高往低排序,同分的秩取平均值,结果见表57。根据公式5.6计算由于经济水平和卫生水平的评分中均有同分,应采用校正因子修正。利用5.7式计算修正的R为对比两个R值可知,由于同分的观察值数目占观察值总数目的比例不是很大,因而校正后的R与校正前的R变化不大。但是,校正前的只略大于校正后的R,这说明同分对只的影响虽然很小,但同分的影响是夸大R值。因此。在X、Y中至少有一个存在大量同分时,应进行校正。表5-6 经济水平与卫生水平评分区县编号经济水平(X)卫生水平(Y)区县编号经济水平(X)卫生水平(Y)192561368552907014676639071156559487761664585816917615068068186054779621959438777020554597664214634107663224232117454233930126865243831表5-7 经济水平与卫生水平的秩次区县编号X的秩次(U)Y的秩次(V)D=U-VD21114-1316922.53.5-1132.520.50.254413955500666007711-416883.54.520.2599.590.50.25109.510-0.50.25111116.5-5.530.251212.584.520.251312.515-2.56.25141477491515123916161339171718-11181816.51.52.25191920-11202019112121210022222200232324-1124242311合计347.004 R的显著性检验利用相关系数及其修正的公式计算的R值,是抽自两个总体的样本数据计算的结果,从这一相关系数的大小,可猜测总体的秩相关系数是否与零有显著差异,但是否为真,应进行假设检验。对R的显著性检验正是为了回答这一问题。检验可以仅研究两个总体是否存在相关,也可以分别研究相关的方向,即是正相关,还是负相关。针对研究问题的不同,可以建立不同的假设组。双侧检验H0:不相关H1:存在相关单侧检验H0:不相关 H0:不相关H+:正相关 H:负相关为对假设作出判定,所需数据至少是定序尺度测量的。根据前式计算出R值。当时,在附表中,依据n和R查找相应的概率P。表58是判定指导表。表5-8 R显著性检验判定指导表备 择 假 设P-值H+:正相关R的右尾概率H:负相关R的左尾概率H1:存在相关R的较小概率的2倍若,则按(58)式计算Z。Z统计量近似服从正态分布,可在正态分布表中查找相应的P值。 【例5-3】对例53作显著性检验分析:由于例53中未指明相关的方向,只需检验是否相关,因而建立双侧备择:H0:不相关H1:存在相关利用提供的数据计算的R值为08491,每个样本数据n为24。在附表中n24时;双侧检验的概率为0002。显然,R0849l。因此,概率P0002,数据拒绝H0,表明经济水平和卫生水平确实存在相关关系。二、 Kendall 相关检验Kendall秩相关即肯德尔秩相关,与等级相关一样,也是用于两个样本相关程度的测量,要求数据至少是定序尺度的。它也是利用两组秩次测定两个样本问相关程度的一种非参数统计方法。1 基本概率协同(concordant,一致):在样本和样本中,如果,则对子与协同;如果,则对子与不协同。2 基本方法n个配对数据,分别抽选自X、Y,X、Y都至少是可以用定序尺度测量的。将X的n个数据的秩按自然顺序排列,则Y的n个秩也相应地发生变动。例如,X、Y的秩分别为X24351Y34152将x的秩按自然顺序排列后,X、Y的秩则为下面的形式X12345Y23145由于X的秩次已经按自然顺序由小到大排列,因此,X的观察值每两个之间都是一致对。考察Y的秩次情况,第一个秩为2,第二个为3,因为2小于3,是按自然顺序增加,因此,这是一个一致对。再考察2和1,因为2大于1,不是按自然顺序增加排列,所以这是一个非一致对。依次考察下去,凡一致对记作十l,非一致对记作一1。考察结果如表59所示。表5-9 R显著性检验判定指导表Y的数对分 数总 和2,318个2,1-12个2,412,513,1-13,413,511,411,514,51在X的秩评定完全按自然顺序排列时,Y的秩对所能给予的最大的评分,应是也完全按自然顺序排列的秩对的评分,即每一数对的评分均为十1。这样,在X、Y的评秩完全一致的情况下,最大可能的评分总数应是一个组合,如在上例中是,即从5个里选2个的组合数。一般情况,n个观察值对两两秩对之间评分,最大可能的总分为。以实际的评分与最大可能总分相比,可以测定两组秩之间的相关程度。若以U表示Y的一致对数目,V表示Y的非一致对数目,则一致对评分与最大可能总分之比为 非一致对评分与最大可能总分之比为 当Y的秩对完全按自然顺序排列时,(5.9)式的值为1,(5.10)式的值为0;而当Y的秩对全部为非一致对时,(5.10)式的值为1,(5.9)式的值为0。为测定两组秩之间的相关程度,定义的相关系数从一1到十1,因此,Kendall秩相关系数为 若记SU一V,则Kendall秩相关系数为 这里的Kendall秩相关系数T是Tau的缩写,也常写作。Tl,表明两组秩次完全正相关;T一1,表明两组秩次间完全负相关。一般,可以为相关程度较高。NOTE:该定义式实质为概率,;详见笔记P40S和T等价;S的计算;小样本时,可以查表;大样本时,可以作正态近似:。存在打结时,进行同分的处理。3 应用【例5-4】利用例5-2的数据资料分析经济水平和卫生水平的相关程度分析:根据表55的评秩结果进行秩次重新排列,将经济水平的秩次按自然顺序排列,得表510的结果。由表可以计算得到2、3、1、5、4、9、7、8、6、11的一致对数目根据(511)式计算有由表可以计算出非一致对的数目V为V1十1十1十3十1十1十1十1=10根据(512)式计算有若根据(513)式计算,也可以得到同样的结论。T0697008,表明经济水平与卫生水平相关程度不够高。Kendall秩相关系数也可以用于定距尺度测量的数据,数据不必评秩,而直接比较大小得到一致对或非一致对的数目。表5-10 经济水平和卫生水平秩的排序街道编号经济水平的秩卫生水平的秩街道编号经济水平的秩卫生水平的秩312777122311885312968456101195410111216941210注:也可以按照原始资料进行排序,比较大小,从而进行判定。4 同分的处理当两个样本中无论哪一个或者两个均有同分观察值时,仍采用通常的办法,将每一个同分观察值的秩记作其应有秩的平均值。由于同分的影响,也需要对了计算公式中的分母进行校正。在同分情况下,(5.13)式应变为 式中,u是X中同分观察值的数目,u是X中同分观察值的数目。u,v仍分别表示X、Y的每一同分组中同分观察值的数目。表5-11 两个裁判员的秩的评分X的数对Y的数对分 数总 和1,2.52,3.515个加1,2.52,3.513个减1,4.52,1-11,4.52,512.5,2.53.5,3.502.5,4.53.5,1-12.5,4.53.5,512.5,4.53.5,1-12.5,4.53.5,514.5,4.51,505 T的显著性检验与Spearman秩相关系数R一样,Kendall秩相关系数T的显著性也应进行检验。这一检验实际上是检验两个总体的相关是否真实存在,是正相关或是负相关,从而说明以T的大小反映相关程度的高低是可信。如果研究关心的是相关是否确实存在,而不考虑相关的方向,则应建立双侧备择,假设组为H0:不相关H1:存在相关若关心的是相关的方向,则应建立单侧备择,假设组为H0:不相关 H0:不相关H+:正相关 H:负相关为对假设作出判定,所需数据至少是定序尺度测量的。通过对数据求出一致对或非一致对数目,可以按照计算公式算出Kendall秩相关系数T。(1)小样本时,可以查表给出尾概率,T的抽样分布中附表中给出。表5-12 T显著性检验判定指导表备 择 假 设P-值H+:正相关T的右尾概率H:负相关T的左尾概率H1:存在相关T的较小概率的2倍(2)大样本时,可作正态近似 由于Z近似正态分布,故可以查标准正态分布表找到相应的尾概率。三、 等级相关系数R和Kendall秩相关系数T的比较1相同点两个相关系数的检验都要求数据至少是在定序尺度上测量;都是计算秩相关系数,用以测度两个相关样本之间的相关程度;它们的取值都是在1到1之间;2不同点R和T的数值即使对于同一组数据也是不同的,多数情况下,R的绝对值大于T的绝对值;虽然R和T都使用了资料中同量的信息,但由于两者具有不同的基础尺度,R利用的是秩差,而T利用的是秩的顺序,即一致对和非一致对,因此,不能将它们的数值加以比较,以说明相关程度的高低。T的解释比起R来更容易。两个观察的数对,当时,总有,称为顺序一致对,若对于每个,都有,则为不一致对。T的准确意义是:一致对数目与非一致对数目之差占全部可能数对的比重。3 k个样本的相关分析前面一章研究的是n个对象或个体的两组秩之间相关的度量,在实际问题中,往往还涉及n个对象或个体的几组秩评定之间的相关。对于至少是定序尺度测量的k个配对样本的数据,或k次试验得到的数据,其秩评定间的相关,可以采用Kendall秩评定协同系数度量。本章主要介绍两种Kendall秩评定协同系数:完全秩评定协同系数和不完全秩评定协同系数。一、 完全秩评定的Kendall协同系数完全秩评定的Kendall协同系数(Kendall Coefficient of Concordancefor ComPlete Rankings)用于是组秩评定间相关程度的测定,即多组秩之间关联程度的测定。1 基本方法若被分析的数据是定序尺度测量的,那么n个数据,即n个对象或个体,可以分别给予某一个秩,在这一组数据内所有的秩次和即等级和为如果有k组秩,那么这k组秩的秩次总和就是。例如3个消费者分别给6种牌号电冰箱的质量评等级,结果如表514。表中最后一行是每一种牌号电冰箱的秩和,总的秩和为。这也就是最大可能的秩次和。这时,对于每一个观察对象或个体来说,平均的秩次和应为表5-14 消费者给冰箱质量评定的秩消费者冰箱A冰箱B冰箱C冰箱D冰箱E冰箱F116325421564233632541秩和()8141111118即为k(n十1)2。如果(jl,2,n)表示每一观察对象或个体的实际秩和,那么,与k(n十1)2越接近,表明对第j个观察对象或个体的秩评定越接近平均秩;二者相差越远,远离平均秩。由于与k(22十1)2的差值可正可负,因此,在分析时应采用差值的平方和。定义差值的平方和为S,即 在k组秩评定完全一致时,各个观察对象或个体的秩和与平均秩和的离差平方和,是最大可能的离差平方和。由于k组秩评定完全一致时,各观察对象或个体的秩和分别为k,2k,nk,如表514,如果3位消费者对6种牌号电冰箱的质量看法一致,那么他们会给出相同的秩。这时,被认为质量最好的电冰箱将得到3个秩1,它们的秩和Rj1十1十13k。被认为质量第二的,秩和Rj2十2十262k。最差的电冰箱秩和将是Rj6十6十618nk。也就是说,当k组秩评定之间完全一致的时候,Rj应是k,2k,nk。因此,最大可能的离差平方和为 实际偏差平方和与最大可能偏差平方和之比,在一定程度上能反映k组秩评定间的一致性,即协调程度。(5.16)式除以(5.17)式得到Kendall完全秩评定协同系数W。 W的取值在0到1之间。若W=0,表明k组秩之间不相关;若W=1,表明k组秩之间完全相关,即完全一致。由于k2时,k组秩评定不可能完全不一致,也就是说,只有当k2时,秩评定一致和非一致是对称相反的,而k2,对称性不再存在,因此,W取值不可能为负。为方便实际计算,(5.18)式还可以写成下面的形式 NOTE:在m组秩的评定完全一致时,该离差平方和是最大可能的离差平方和,实际上,个体的秩和分别为:k,2k,nk。最大可能的离差平方和为:完全评秩的协同系数W,实际表达了实际偏差平方和和最大可能偏差平方和之比,在一定程度上反映了k组评秩之间的一致性,即协同程度。当W=0时,表明k组秩之间不相关;若W=1,表明k组秩之间完全相关,即完全一致。在作检验时,W统计量和S统计量都有表可查;当大样本时,有2 应用【例5-8】裁判组整体评分效果的相关分析在某次业余歌手大赛上,6名裁判员组成的裁判组,对10名参赛歌手的评分等级如表515。表5-15 裁判员对歌手评定的等级歌手编号裁判员A裁判员B裁判员C裁判员D裁判员E裁判员F11111152237583354626949754106545365866647727329102487101034191082997108988310分析:裁判组由6名裁判组成,要评价6名裁判整体评分效果,实际上是评价裁判组整体评分的一致程度。由于这是6个配对样本,且每一个观察对象即参赛歌手全部都有秩,所以是6个样本完全秩评定协调程度的考察,应采用完全秩评定的Kendall协同系数。表5-16 裁判员对歌手评定的等级歌手编号1101002287843321024441168153196163210247309008351225945202510462116合 计33011840表516是Rj计算表。由于k6,n10,按(5.19)式有一般来说,W的值越接近于l,表明k组秩评定之间的一致程度越高;W值越接近于0,则k组秩评定之间的一致程度就越低。这里,W06865,不算很大,表明裁判组6名裁判员对10名参赛歌手水平的意见一致程度不是很高。3 同分的处理详见易丹辉编非参数统计方法与应用P134。当存在同分时,(5.17)变为(5.18)和(5.19)的分母变为校正后的Kendall完全秩评定协同系数W为4 W的显著性检验对W显著性的检验,是为了对总体间是否存在真实的相关关系作出判定。由于是k个样本,只能建立双侧备择,假设组为H0:不相关H1:存在相关为了对假设作出判定,需要容量均为n的k个样本数据至少是在定序尺度上测量的,每一观察值都能有相应的秩。检验统计量因样本的大小而有所不同。当样本的观察值n较小时,采用的检验统计量为S。 当样本观察值数目n较大时,采用Q统计量。 小样本时,检验统计量S在H0为真时的抽样分布,可以参见附表。大样本时,可以查卡方分布表得到其相应的尾概率的值。【例5-9】对上例的W值进行显著性检验分析:因为在这个问题中,nl0,k6,所以应利用W值计算统计量Q,根据(5.21)式计算得到根据自由度dfn一l9,显著性水平,在方分布中查找得到1692。由于Q131976l692所以数据在5的水平上不能拒绝H0,表明6名裁判员所作的秩评定彼此不相关。二、 不完全秩评定的Kendall协同系数在实际问题中,往往会遇到这样的情况,如在参赛的10名歌手中,只评出6名排等级;在对几种消费品质量评级时,消费者只评出其中最满意的3种等等。这时,不是所有配对样本的每个观察值都被分配等级,也就是秩的评定不完全。研究这种情况下,裁判员评分效果的一致程度,消费者对产品质量满意的一致程度等,不能采用上节所述的Kendall协同系数,而应采用本节介绍的不完全秩评定的Kendall协同系数。1 基本方法若被分析的数据是k个组,即k个样本,每组均含有n个观察值,对每组观察值评定的秩不是n个而是m个,且mn,则构成不完全秩评定的情况,可以考虑采用不完全秩评定的Kendall协同系数,但在使用时,通常有这样的限制,即对于m,n,k以及来说,应该是匹配的,即满足下式。 式中,是配对样本被比较的次数。例如,3个消费者对3种牌号的彩电质量评等级,若3种脾号的彩电仅一次被比较,则1。(5.22)式是不完全秩评定的Kendall协同系数运用的一个假设,称作平衡假设。m、n、k之间不是能够完全任意的。如对于4个观察对象的一个配对比较,n4,m2,当l时,要求k6;若2,则k12,也就是说,当有4名参赛歌手比赛时,按不完全秩评定的设计,从中评出2名给予等级,那么一次比较时,需要6名裁判员,若两次被比较,则需要12名裁判员。一般情况下,、m、n、k的取值如表517。表5-17 、m、n、k的取值表knm133216421773110522443263221242当分析的数据符合上述条件时,可以得到一个k行和n列的表。在每一行中,只有m个秩,在每一列中,有km/n个秩。对于每一行来说,秩和为l十2十十mm(m十1)2,由于有k行,因此,所有的秩和为km(m十1)2。对于n列来说,平均每列的秩和为km(m十1)2n。若每列的实际秩和记作Rj(j1,2,n)那么,实际秩和与平均秩和的差值大小也可以用作判定协调性程度。由于实际秩和与平均秩和之差可正可负,因而,仍采用差值平方和。定义S为 当k组秩的评定完全一致时,S就是 这也就是实际秩和与平均秩和差值平方和的最大可能值。因此,将(5.23)式与(5.24)式相比,可以用来度量k组秩评定之间的协调性或一致性。这就是不完全秩评定的Kendall协同系数,也记作S。其计算公式如(5.25)式和(5.26)式。 如果mm和k,那么(5.25)式和(5.26)式就是(5.18)式。W值在0到1之间。W为0,表明k组秩评定之间不相关;W为1,表明k组秩评定之间完全相关,即完全一致。由于k2时,秩评定的一致和非一致不是对称的,因而,W取值不可能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论