非参数统计学讲义相关与回归_第1页
非参数统计学讲义相关与回归_第2页
非参数统计学讲义相关与回归_第3页
非参数统计学讲义相关与回归_第4页
非参数统计学讲义相关与回归_第5页
已阅读5页,还剩16页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

个人资料整理 仅限学习使用非参数统计学讲义主讲:统计系 袁靖第五章 相关和回归§1 引言所谓相关,是指两组或两组以上观察结果之间的连带性或联系。 换句话说,也就是各组观察结果所反映的特性之间有关系。如几个亲生兄弟间的智商与出生顺序有关系,受教育程度与性别有关系,出生率X和文盲率Y之间的关系等等。在实际问题的研究中,人们常常想知道两组或两组以上的观察结果是否有联系,同时也想知道联系的程度如何。前面的统计检验能够在一定的显著性水平上,确定各组观察值的关系是否存在。相关方法被用来度量两个或更多变量之间的线性关系的强度,是回归分析的基础。在数理统计学中,我们使用相关系数定义变量X和变量Y之间的相关性。corr(X,Y)cov(X,Y)1(0.1>var(X)var(Y)对于样本(X1,Y1),(X2,Y2),,(Xn,Yn)来说,Pearson相关系数为1X)(YiY)(XiX)(YiY)rn(Xi(0.2>1(XiX)2(YiY)2(XiX)2(YiY)2n如果在这个样本中的n个观察值独立,则r是的渐近无偏估计;如果它又是二元正态分布,则r是的ML估计。为了检验H0:0,H1:0,可以选取统计量trn2~t(n2)1r2结论:Pearson相关系数度量的是一种线性关系,而我们所要介绍的非参数的Spearman秩相关系数rs和Kendallτ相关系数实际上度量的是一种形式的相依联系,或是更广义的单调关系。因此相关的概念被推广,不仅指线性相关,而泛指相依或联系。2两个样本的相关分析一、 等级相关等级相关(RankCorrelation>也称作级序相关 ,用于两个至少是定序尺度测量的样本问相关程度的测定研究背景1度量了总体样本点在标准差线周围的聚集程度,详见笔记 P38。个人资料整理 仅限学习使用1.基本方法两个样本X、Y,其观察数据可以配对为(X,Y),(X,Y),,(X,Y)。将x,x,,x排序后1122nn12n评秩,其秩记作U,与xi相对应的秩为Ui(i1,2,,n);同样,y1,y2,,yn排序后评秩,秩记作V,与yi相对应的秩为Vi(i1,2,,n)。这样得到的n对秩(U1,V1),(U2,V2),,(Un,Vn)可能每一对完全相等,也可能不等。由于每一样本都是n个数据评秩,因此Ui与Vi的取值都是从1到n。X、Y的秩可能完全一致,即对于所有的i来说,有Ui=Vi,表5—1是完全一致的评秩结果。X、Y的秩可能完全相反,表5—2是完全相反的评秩结果。如果X、Y完全相关,应该对于所有的i有Ui=Vi,即Ui—Vi=0。因此,Ui与Vi之差可以用来度量X、Y的相关程度。定义DiUiVi表5-1完全一致的评秩X的秩Y的秩1122n-1n-1nn表5-2完全相反的评秩X的秩Y的秩1n2n-1n-12n1则两组秩完全相关时,Di<i=1,2,,n)应该为零。Di越大,X、Y之间的相关越不完全。但由于n测度相关,会出现正负Di可正可负,直接用DiDi抵消,而不能真实反映Ui与Vi差值的大小,所以宜i1nDi2,即采用i1nnDi2(UiVi)2(0.3>i1i1<5.3)式的这个秩差值平方和的大小既受到n的多少的影响,又受到两组秩不一致程度的影响,因此,采用相对的测量指标有利于说明X、Y的相关程度。因为Di2的最大值反映X、Y完全不相关的情况,所以,用<5.3)式除以Di2的最大值,可用来评价X、Y之间秩的差值是否与完全不相关时接近。若实际计算的Di2与X、Y完全不相关情况下的(UiVi)2接近,那么两个样本的相关程度较低,若实个人资料整理 仅限学习使用际计算的Di2与Di2最大值的比越小,则两个样本的相关程度越高。Di2的最大值即X、Y间完全不相关情况下的秩差值平方和,可以根据表5—2所列的数据计算。因为这是X、Y完全不相关的评秩结果。Di2的最大值为(n1)2[(n1)2]2[2(n1)]2(1n)22[(n1)2(n3)2]n(n21)/3(0.4><5.4)式的中括号内最后一项,当n为奇数时是22;n为偶数时是12。<5.3)式除以<5.4)式得到Di23Di2n(n21)/3n(n2(0.5>1)<5.5)式的取值从0到1。根据表5-1中的数据计算<5.5)式值为0,表5-2中的数据计算的<5.5)式值为1,即X、Y的秩完全一致时,<5.5)式的值为0,X、Y的秩完全不一致时,<5.5)式的值为1。测度两个样本等级相关程度可以象参数方法一样,定义等级相关系数作为标准。斯皮尔曼的等级相关系数(Spearmancoefficientofrankcorrelation>是测定两个样本相关强度的重要指标。其计算公式为R6Di21(0.6>n(n21)斯皮尔曼相关系数也写为rs,在有下标注以s是为表明这个相关系数r不是积矩相关的简单相关系数,而是等级相关的Spearman相关系数。注:①由于<5.6)式与<5.5)式不同,所以,R的取值从一1到十1,R1表明X、Y完全相关,R=十l为完全正相关,R=一1为完全负相关。R越接近于l,表明相关程度越高,反之,R越接近于零,表明相关程度越低,R=0为完全不相关。R>0为正相关,R<0为负相关。通常认为R0.8为相关程度较高。Spearman秩相关系数检验临界值查表可得,P198。③存在打结时,Spearman统计量要作相应修正。④在大样本时,可用正态近似作检验。Zrsn1nN(0,1)2. 应用【例5-1】经济发展水平和卫生水平之间的相关分析对某地区 12个街道进行调查,并对经济发展水平和卫生水平按规定的标准打分,评定结果如表 5—4。表5-4某地区经济水平与卫生水平得分街道号经济水平卫生水平街道号经济水平卫生水平182867848028778878773606598075个人资料整理 仅限学习使用498881094965756411858568990126870分析:将表5—4中定距尺度测量的分数,按从小到大的顺序排等级,得到表5—5的结果。对两个定序尺度测量的样本进行相关分析,可以采用等级相关系数测定。必要的计算过程如表5—5所列。根据<5—6)式可得R6Di2163210.11190.888111)12(12n(n221)由于 R=0.888l>0.8,所以该地区的经济发展水平和卫生水平存在着正相关关系,相关程度较高,为88.81%。表5-5某地区经济水平与卫生水平得分街道号经济水平<U)卫生水平<V)D=U-VD2169-3929639312-1141210245312461011-1177700845-1195411101112-111188001223-11合计323.同分处理当观察值是评的分数时,可能在同一个样本中出现相同的评分,如成绩都是80等等。同分的秩仍旧是等于几个同分值应有秩的平均值。如果同分的比例不大,它们对秩相关系数及的影响可以忽略。但若同分的比例较大,则计算只时应加入一个校正因子。对于X的同分校正因子为u(ui3ui)12,Y的同分校正因子为v(vi3vi)12。于是斯皮尔曼秩相关系数的计算公式为:n(n21)6Di26(uv)Rn(n21)(0.7>n(n21)12u12v式中,u是X中同分的观察值数目,v是Y中同分的观察值数目。【例5-2】经济发展水平和卫生水平之间的相关分析某地区对24个区县进行调查,并对经济发展水平和卫生水平按规定标准评分,结果如表5—6。分析:将表5—6的评分转换为秩次,从高往低排序,同分的秩取平均值,结果见表5—7。根据公式5.6计算个人资料整理 仅限学习使用R6Di21634710.15090.8491121)24(2421)n(n由于经济水平和卫生水平的评分中均有同分,应采用校正因子修正。利用5.7式计算修正的R为Rn(n21)6Di26(uv)24(575)6(347)1/2(1612)n(n2n(n21)0.84901)12u12v24(575)1624(575)12对比两个R值可知,由于同分的观察值数目占观察值总数目的比例不是很大,因而校正后的R与校正前的R变化不大。但是,校正前的只略大于校正后的R,这说明同分对只的影响虽然很小,但同分的影响是夸大R值。因此。在X、Y中至少有一个存在大量同分时,应进行校正。表5-6经济水平与卫生水平评分区县编号经济水平<X)卫生水平<Y)区县编号经济水平<X)卫生水平<Y)192561368552907014676639071156559487761664585816917615068068186054779621959438777020554597664214634107663224232117454233930126865243831表5-7经济水平与卫生水平的秩次区县编号X的秩次<U)Y的秩次<V)D=U-VD21114-1316922.53.5-1132.520.50.254413955500666007711-416883.54.520.2599.590.50.25109.510-0.50.25111116.5-5.530.251212.584.520.251312.515-2.56.25141477491515123916161339171718-11个人资料整理 仅限学习使用181816.51.52.25191920-11202019112121210022222200232324-1124242311合计347.004. R的显著性检验利用相关系数及其修正的公式计算的 R值,是抽自两个总体的样本数据计算的结果,从这一相关系数的大小,可猜测总体的秩相关系数是否与零有显著差异,但是否为真,应进行假设检验。对 R的显著性检验正是为了回答这一问题。检验可以仅研究两个总体是否存在相关,也可以分别研究相关的方向,即是正相关,还是负相关。针对研究问题的不同,可以建立不同的假设组。双侧检验H0:不相关H1:存在相关单侧检验H0:不相关

H0:不相关H+:正相关

H-:负相关为对假设作出判定,所需数据至少是定序尺度测量的。根据前式计算出

R值。当

n

30时,在附表中,依据

n和

R查找相应的概率

P。表

5—8是判定指导表。表5-8

R显著性检验判定指导表备择假设H+:正相关H-:负相关

P-值R的右尾概率R的左尾概率H1:存在相关

R的较小概率的

2倍若n

30,则按

<5—8)式计算

Z。Z

统计量近似服从正态分布,可在正态分布表中查找相应的

P值。Z Rn 1(0.8>【例5-3】对例5—3作显著性检验分析:由于例 5—3中未指明相关的方向,只需检验是否相关,因而建立双侧备择:H0:不相关H1:存在相关个人资料整理 仅限学习使用利用提供的数据计算的

R值为

0.8491,每个样本数据

n为

24。在附表中

n=24

时;双侧检验R 0.608的概率为

0.002。显然,

R=0.849l>

R

0.608。因此,概率

P<0.002,数据拒绝

H0,表明经济水平和卫生水平确实存在相关关系。二、Kendallτ相关检验Kendall秩相关即肯德尔秩相关,与等级相关一样,也是用于两个样本相关程度的测量,要求数据至少是定序尺度的。它也是利用两组秩次测定两个样本问相关程度的一种非参数统计方法。1.基本概率协同<concordant,一致):在样本X(X,X2,,X)和样本Y(Y,Y2,,Y)中,如果1n1n(XjXi)(YjYi)0,则对子(Xi,Yi)与(Xj,Yj)协同;如果(XjXi)(YjYi)0,则对子(Xi,Yi)与(Xj,Yj)不协同。2.基本方法n个配对数据(X1,Y1),(X2,Y2),,(Xn,Yn)分别抽选自X、Y,X、Y都至少是可以用定序尺度测量的。将X的n个数据的秩按自然顺序排列,则Y的n个秩也相应地发生变动。例如,X、Y的秩分别为X24351Y34152将x的秩按自然顺序排列后,X、Y的秩则为下面的形式X12345Y23145由于X的秩次已经按自然顺序由小到大排列,因此,X的观察值每两个之间都是一致对。考察Y的秩次情况,第一个秩为2,第二个为3,因为2小于3,是按自然顺序增加,因此,这是一个一致对。再考察2和1,因为2大于1,不是按自然顺序增加排列,所以这是一个非一致对。依次考察下去,凡一致对记作十l,非一致对记作一1。考察结果如表5—9所示。表5-9R显著性检验判定指导表Y的数对分数总和2,318个+2,1-12个-2,412,513,1-13,413,511,411,514,51个人资料整理 仅限学习使用在X的秩评定完全按自然顺序排列时,Y的秩对所能给予的最大的评分,应是也完全按自然顺序排列的秩对的评分,即每一数对的评分均为十1。这样,在X、Y的评秩完全一致的情况下,最大可能的评分总数应是一个组合,如在上例中是 C52 10,即从 5个里选 2个的组合数。一般情况, n个观察值对两两秩对之间评分,最大可能的总分为 Cn2。以实际的评分与最大可能总分相比,可以测定两组秩之间的相关程度。若以U表示Y的一致对数目, V表示Y的非一致对数目,则一致对评分与最大可能总分之比为U2U(0.9>Cn2n(n1)非一致对评分与最大可能总分之比为V2V(0.10>Cn2n(n1)当Y的秩对完全按自然顺序排列时,<5.9)式的值为1,<5.10)式的值为0;而当Y的秩对全部为非一致对时,<5.10)式的值为1,<5.9)式的值为0。为测定两组秩之间的相关程度,定义的相关系数从1到十1,因此,Kendall秩相关系数为T4U1(0.11>n(n1)T14V(0.12>n(n1)若记S=U一V,则Kendall秩相关系数为T2S(0.13>n(n1)这里的Kendall秩相关系数T是Tau的缩写,也常写作τ。T=l,表明两组秩次完全正相关;T=一1,表明两组秩次间完全负相关。一般T0.8,可以为相关程度较高。NOTE:①该定义式实质为概率,1T1;详见笔记P40②S和T等价;③S的计算;④小样本时,可以查表;大样本时,可以作正态近似:18N(0,1)。Zkn(n1)(2n5)⑤存在打结时,进行同分的处理。3. 应用【例5-4】利用例 5-2的数据资料分析经济水平和卫生水平的相关程度分析:根据表 5—5的评秩结果进行秩次重新排列,将经济水平的秩次按自然顺序排列,得表 5—10的结果。由表可以计算得到 2、3、1、5、4、9、7、8、6、11的一致对数目个人资料整理 仅限学习使用U1099773433156根据<5—11)式计算有T4U145610.6970n(n1)12(121)由表可以计算出非一致对的数目V为V=1十1十1十3十1十1十1十1=10根据<5—12)式计算有T4V14100.30300.697011n(n1)12(121)若根据<5—13)式计算,也可以得到同样的结论。T=0.6970<0.8,表明经济水平与卫生水平相关程度不够高。Kendall秩相关系数也可以用于定距尺度测量的数据,数据不必评秩,而直接比较大小得到一致对或非一致对的数目。表5-10经济水平和卫生水平秩的排序街道编号经济水平的秩卫生水平的秩街道编号经济水平的秩卫生水平的秩312777122311885312968456101195410111216941210注:也可以按照原始资料进行排序,比较大小,从而进行判定。4. 同分的处理当两个样本中无论哪一个或者两个均有同分观察值时,仍采用通常的办法,将每一个同分观察值的秩记作其应有秩的平均值。由于同分的影响,也需要对了计算公式中的分母进行校正。在同分情况下,<5.13)式应变为TS(0.14>Cn2uCn2v式中,uCu2,u是X中同分观察值的数目,vCv2,u是X中同分观察值的数目。u,v仍分别表示X、Y的每一同分组中同分观察值的数目。表5-11两个裁判员的秩的评分X的数对Y的数对分数总和1,2.52,3.515个加1,2.52,3.513个减1,4.52,1-11,4.52,512.5,2.53.5,3.50个人资料整理 仅限学习使用2.5,4.53.5,1-12.5,4.53.5,512.5,4.53.5,1-12.5,4.53.5,514.5,4.51,505.

T的显著性检验与Spearman秩相关系数

R一样,Kendall

秩相关系数

T的显著性也应进行检验。这一检验实际上是检验两个总体的相关是否真实存在,是正相关或是负相关,从而说明以

T的大小反映相关程度的高低是可信。如果研究关心的是相关是否确实存在,而不考虑相关的方向,则应建立双侧备择,假设组为H0:不相关H1:存在相关若关心的是相关的方向,则应建立单侧备择,假设组为H0:不相关 H0:不相关H+:正相关 H-:负相关为对假设作出判定,所需数据至少是定序尺度测量的。通过对数据求出一致对或非一致对数目,可以按照计算公式算出Kendall秩相关系数T。<1)小样本时 (n 30),可以查表给出尾概率, T的抽样分布中附表中给出。表5-12T显著性检验判定指导表备择假设P-值H+:正相关T的右尾概率H-:负相关T的左尾概率H1:存在相关T的较小概率的2倍<2)大样本时(n30),可作正态近似3Tn(n1)SZ5)(0.15>2(2nn(n1)(2n5)/18由于Z近似正态分布,故可以查标准正态分布表找到相应的尾概率。三、等级相关系数R和Kendall秩相关系数T的比较1.相同点①两个相关系数的检验都要求数据至少是在定序尺度上测量;②都是计算秩相关系数,用以测度两个相关样本之间的相关程度;③它们的取值都是在-

1到+1之间;2.不同点①R和

T的数值即使对于同一组数据也是不同的,多数情况下,

R的绝对值大于

T的绝对值;②虽然

R和

T都使用了资料中同量的信息,但由于两者具有不同的基础尺度,

R利用的是秩差,而利用的是秩的顺序,即一致对和非一致对,因此,不能将它们的数值加以比较,以说明相关程度的高个人资料整理 仅限学习使用低。③T

的解释比起

R来更容易。两个观察的数对

(x

i,yi),(xj,yj),当

xi

xj时,总有

yi

yj

,称为顺序一致对,若对于每个

xi

xj,都有

yi

yj,则为不一致对。

T的准确意义是:一致对数目与非一致对数目之差占全部可能数对的比重。四、 偏秩相关详见易丹辉教材§3 k个样本的相关分析前面一章研究的是n个对象或个体的两组秩之间相关的度量,在实际问题中,往往还涉及或个体的几组秩评定之间的相关。对于至少是定序尺度测量的k个配对样本的数据,或数据,其秩评定间的相关,可以采用Kendall秩评定协同系数度量。本章主要介绍两种

n个对象k次实验得到的Kendall秩评定协同系数:完全秩评定协同系数和不完全秩评定协同系数。一、完全秩评定的Kendall协同系数完全秩评定的 Kendall协同系数(KendallCoefficient ofConcordanceforComPleteRankings>用于是组秩评定间相关程度的测定,即多组秩之间关联程度的测定。1.

基本方法若被分析的数据是定序尺度测量的,那么

n个数据,即

n个对象或个体,可以分别给予某一个秩,在这一组数据内所有的秩次和即等级和为1 2

n n(n

1)/2如果有

k组秩,那么这

k组秩的秩次总和就是

kn(n 1)/2。例如

3个消费者分别给

6种牌号电冰箱的质量评等级,结果如表

5—14。表中最后一行

Rj

是每一种6牌号电冰箱的秩和,总的秩和为

kn(n1)/2

3(6)(6

1)/2

63

Rj

。这也就是最大可能的秩次j 1和。这时,对于每一个观察对象或个体来说,平均的秩次和应为

[kn(n

1)/2]/n表

5-14

消费者给冰箱质量评定的秩消费者

冰箱

A

冰箱

B

冰箱

C

冰箱

D

冰箱

E

冰箱

F1

1

6

3

2

5

42

1

5

6

4

2

33

6

3

2

5

4

1个人资料整理 仅限学习使用秩和1411111188<Rj)即为k(n十1>/2。如果Rj(j=l,2,,n>表示每一观察对象或个体的实际秩和,那么,Rj与k(n十1>/2越接近,表明对第j个观察对象或个体的秩评定越接近平均秩;二者相差越远,远离平均秩。由于Rj与k(22十1>/2的差值可正可负,因此,在分析时应采用差值的平方和。定义差值的平方和为S,即n1)/2)2(0.16>S(Rjk(n1在k组秩评定完全一致时,各个观察对象或个体的秩和与平均秩和的离差平方和,是最大可能的离差平方和。由于k组秩评定完全一致时,各观察对象或个体的秩和分别为k,2k,,nk,如表5—14,如果3位消费者对6种牌号电冰箱的质量看法一致,那么他们会给出相同的秩。这时,被认为质量最好的电冰箱将得到3个秩1,它们的秩和Rj=1十1十1=3=k。被认为质量第二的,秩和Rj=2十2十2=6=2k。最差的电冰箱秩和将是Rj=6十6十6=18=nk。也就是说,当k组秩评定之间完全一致的时候,Rj应是k,2k,,nk。因此,最大可能的离差平方和为n1)/2]2k2n1)/2)2k2n(n2[jkk(n(j(n1)/12(0.17>j1j1实际偏差平方和与最大可能偏差平方和之比,在一定程度上能反映k组秩评定间的一致性,即协调程度。<5.16)式除以<5.17)式得到Kendall完全秩评定协同系数W。W12Sn[Rjk(n1)/2]2k2n(n21)12k2n(n21)(0.18>j1W的取值在0到1之间。若W=0,表明k组秩之间不相关;若W=1,表明k组秩之间完全相关,即完全一致。由于k>2时,k组秩评定不可能完全不一致,也就是说,只有当k=2时,秩评定一致和非一致是对称相反的,而k>2,对称性不再存在,因此,W取值不可能为负。为方便实际计算,<5.18)式还可以写成下面的形式nR2j3k2n(n1)212Wj1(0.19>k2n(n21)NOTE:①在m组秩的评定完全一致时,该离差平方和是最大可能的离差平方和,实际上,个体的秩和分别为:k,2k,,nk。②最大可能的离差平方和为: k2n(n2 1)/12③完全评秩的协同系数 W,实际表达了实际偏差平方和和最大可能偏差平方和之比,在一定程度上反映了k组评秩之间的一致性,即协同程度。个人资料整理 仅限学习使用④0 W 1。当W=0时,表明k组秩之间不相关;若 W=1,表明k组秩之间完全相关,即完全一致。⑤在 作 检 验 时 ,W 统 计 量 和 S 统 计量都 有 表 可查; 当 大 样本 时, 有Q k(n 1)W 12S 2(n1)kn(n 1)2. 应用【例5-8】裁判组整体评分效果的相关分析在某次业余歌手大赛上,6名裁判员组成的裁判组,对10名参赛歌手的评分等级如表5—15。表5-15裁判员对歌手评定的等级歌手编号裁判员A裁判员B裁判员C裁判员D裁判员E裁判员F11111152237583354626949754106545365866647727329102487101034191082997108988310分析:裁判组由 6名裁判组成,要评价 6名裁判整体评分效果,实际上是评价裁判组整体评分的一致程度。由于这是6个配对样本,且每一个观察对象即参赛歌手全部都有秩,所以是6个样本完全秩评定协调程度的考察,应采用完全秩评定的Kendall协同系数。表5-16裁判员对歌手评定的等级歌手编号RjRj21101002287843321024441168153196163210247309008351225945202510462116合计33011840表5—16是Rj计算表。由于k=6,n=10,按<5.19)式有nRj23k2n(n1)2123(36)(101)(101)2Wj112(11840)k2n(n21)10(36)(1021)0.6865一般来说,W的值越接近于 l,表明k组秩评定之间的一致程度越高; W值越接近于 0,则k组秩评个人资料整理 仅限学习使用定之间的一致程度就越低。这里, W=0.6865,不算很大,表明裁判组 6名裁判员对 10名参赛歌手水平的意见一致程度不是很高。3. 同分的处理详见易丹辉编《非参数统计—方法与应用》 P134。4. W的显著性检验对W显著性的检验,是为了对总体间是否存在真实的相关关系作出判定。由于是 k个样本,只能建立双侧备择,假设组为H0:不相关H1:存在相关为了对假设作出判定,需要容量均为 n的k个样本数据至少是在定序尺度上测量的,每一观察值都能有相应的秩。检验统计量因样本的大小而有所不同。当样本的观察值

n较小时,采用的检验统计量为

S。n

nS

(Rj

k(n

1)/

2)2

Ri2

3k2n(n 1)2(0.20>j 1

j 1当样本观察值数目 n较大时,采用 Q统计量。Qk(n1)W12S2(n1)(0.21>kn(n1)小样本时,检验统计量 S在H0为真时的抽样分布,可以参见附表。大样本时,可以查卡方分布表得到其相应的尾概率的值。【例5-9】对上例的W值进行显著性检验分析:因为在这个问题中,n=l0,k=6,所以应利用W值计算统计量Q,根据<5.21)式计算得到Qk(n1)W6(101)(0.2444)13.1976根据自由度df=n一l=9,显著性水平0.05,在方分布中查找得到2=16.92。由于Q=13.1976<2=l6.92所以数据在 5%的水平上不能拒绝 H0,表明6名裁判员所作的秩评定彼此不相关。二、不完全秩评定的Kendall协同系数在实际问题中,往往会遇到这样的情况,如在参赛的 10名歌手中,只评出 6名排等级;在对几种消费品质量评级时,消费者只评出其中最满意的 3种等等。这时,不是所有配对样本的每个观察值都被分配等级,也就是秩的评定不完全。研究这种情况下,裁判员评分效果的一致程度,消费者对产品质量满意的一致程度等,不能采用上节所述的 Kendall协同系数,而应采用本节介绍的不完全秩评定的 Kendall个人资料整理 仅限学习使用协同系数。1. 基本方法若被分析的数据是 k个组,即 k个样本,每组均含有 n个观察值,对每组观察值评定的秩不是 n个而是m个,且 m<n,则构成不完全秩评定的情况,可以考虑采用不完全秩评定的 Kendall协同系数,但在使用时,通常有这样的限制,即对于 m,n,k以及λ来说,应该是匹配的,即满足下式。n(n 1) km(m 1)(0.22>式中,λ是配对样本被比较的次数。例如, 3个消费者对 3种牌号的彩电质量评等级,若 3种脾号的彩电仅一次被比较,则 λ=1。<5.22)式是不完全秩评定的 Kendall协同系数运用的一个假设,称作平衡假设。m、n、k之间不是能够完全任意的。如对于 4个观察对象的一个配对比较, n=4,m=2,当λ=l时,要求 k=6;若λ=2,则k=12,也就是说,当有 4名参赛歌手比赛时,按不完全秩评定的设计,从中评出2名给予等级,那么一次比较时,需要6名裁判员,若两次被比较,则需要12名裁判员。一般情况下,λ、m、n、k的取值如表5—17。表5-17λ、m、n、k的取值表λknm133216421773110522443263221242当分析的数据符合上述条件时,可以得到一个 k行和n列的表。在每一行中,只有 m个秩,在每一列中,有 km/n个秩。对于每一行来说,秩和为 l十2十十 m=m(m十1>/2,由于有 k行,因此,所有的秩和为 km(m十1>/2。对于n列来说,平均每列的秩和为 km(m十1>/2n。若每列的实际秩和记作 Rj(j=1,2,,n>那么,实际秩和与平均秩和的差值大小也可以用作判定协调性程度。由于实际秩和与平均秩和之差可正可负,因而,仍采用差值平方和。定义 S为nkm(m1)]2S[Rj(0.23>j12n当k组秩的评定完全一致时,S就是2n(n21)(0.24>12这也就是实际秩和与平均秩和差值平方和的最大可能值。因此,将 <5.23)式与<5.24)式相比,可以个人资料整理 仅限学习使用用来度量k组秩评定之间的协调性或一致性。这就是不完全秩评定的Kendall协同系数,也记作S。其计算公式如<5.25)式和<5.26)式。W12S(0.25>2n(n21)Wn[Rjkm(m1)/2n]2122n(n2(0.26>j11)如果m=m和λ=k,那么<5.25)式和<5.26)式就是<5.18)式。W值在0到1之间。W为0,表明k组秩评定之间不相关;W为1,表明k组秩评定之间完全相关,即完全一致。由于k>2时,秩评定的一致和非一致不是对称的,因而,W取值不可能负。为实际计算的方便,<5.25)式和<5.26)式可以写成<5.27)式的形式。12S12R2j3k2m2(m1)2nn12Rj23k2m2(m1)2/nWj1(0.27>2n(n21)2.应用【例5-10】消费者对彩电质量评价的一致性分析7种不同牌号的彩电质量检验,不要求消费者对每一种牌号的彩电都给出秩,只要求不大于3个。因而,m=3,n=7。如果每对彩电仅一次被比较,因而有λ=1。需要的消费者数目,可以从(5—21>式中计算得到n(n1)1(7)(71)7k1)3(31)m(m表5-18消费者对彩电质量可能的评秩消费者编号彩电A彩电B彩电C彩电D彩电E彩电F彩电G1***2***3***4***5***6***7***表5-19消费者对彩电的秩评定结果消费者编号彩电A彩电B彩电C彩电D彩电E彩电F彩电G112321323321个人资料整理 仅限学习使用4231513262137132合计3597846即需要有

7名消费者来评定。表

5—18

是一种满足要求的设计表格。表中的

*号表示那种牌号的彩电被消费者评秩。由于

m=3,n=7,k=7,所以表中每一行有

m=3个秩,表中每一列有

km/n=7(3>/7=3个秩。经过消费者评秩,结果如表

5—19。分析:由于这是不完全的秩评定,设计要求符合 (5—21>式的平衡假定,可以采用不完全秩评定的Kendall协同系数,分析消费者对彩电质量评价的一致性。根据<5.27)式有12S12(32529272824262)3(72)(32)(31)2/712(280)3024336W33617(721)这是W的最大值,表明 7个消费者对彩电质量的看法完全一致。在不完全的秩评定中,同分也是可能出现的,因为数据可以由定距尺度的评分转换为定序尺度的秩。但是,目前没有比较简单的校正公式,因此,计算 Kendall协同系数时,仍旧采用 <5—24)式,<5—25)式或<5.27)式。3. 显著性检验对于不完全秩评定的 Kendall协同系数,也可以进行显著性检验。建立的假设组为H0:不相关H1:存在相关为对假设作出判定,需要 k个样本的数据至少是定序尺度测量的,并能够根据前面的公式分别计算出S、W。利用S、W按照<5.28)式、<5.29)式计算得到检验统计量Q。统计量Q近以于自由度df=n—l的卡方分布。因此,可以根据卡方分布对原假设作出相应的判断。(n21)WQ(0.28>m112S(0.29>n(m1)【例5-11】利用例5-10的数据作显著性检验分析:在例 5-10中,λ=1,m=3,n=7,W=1,将各个数值代入 <5.28)式得到个人资料整理 仅限学习使用Q(n21)W1(721)112m131自由度df=n一1=6,在卡方分布表中,H0为真时,Q是12出现的概率P略大于0.05,因为当概率为0.05时,2=12.59。由于这个P是近似的值,因而,可以在显著性水平0.05上拒绝H0。况且,W的值为最大可能值l,拒绝H0是合乎逻辑的。4.多重比较若P值很小,以至于H0被拒绝,也就是k组不完全的秩评定之间存在相关,那么,有必要比较这k组秩之间是否有重大的不同,可以运用多重比较技术来研究这一问题。第j列的秩和Rj除以该列的秩数目km/n,是第j个对象的平均秩,比较n个对象的k个不完全组的秩之间有无明显不同,可以利用各个对象的平均秩比较,也可以利用各列秩和的差值比较。对于任意两个列等级和(Ri,Rj)1ijn,它们的差值在1一水平下,满足<5.30)式或<5.31)式RiRjZkm(m21)6(n1)(0.30>RiRjZn(m1)(0.31>6表明n个对象间秩评定没有重大的不同;而若大于<5.30)式或<5.31)式的右侧,表明这是有重大不同的数对。<5.30)式、<5.31)式中的 Z,可以查找相应的正态分布表求得。【例5-12】对例5-10的各组秩进行比较分析:在例 5-11中,由于 P值不够大,拒绝了 H0,即各组不完全秩评定间没有差别的零假设被拒绝。在这个前提下,可以进行多重比较。由表 5—19所得到的各列秩和可知,消费者对 7种牌号彩电质量的评价最好的为 A,最差的为 C。根据秩和由少到多排列,消费者对 7种彩电质量满意程度依次为:A、F、B、G、D、E、C。取显著性水平 =0.10,由于 n=7,可得 P=n(n一1>/2=21,查多重比较的临界值 Z表,得到2.823,代入<5—30)式,得到Ri

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论