SAS讲义 第三十课Spearman等级相关分析_第1页
SAS讲义 第三十课Spearman等级相关分析_第2页
SAS讲义 第三十课Spearman等级相关分析_第3页
SAS讲义 第三十课Spearman等级相关分析_第4页
SAS讲义 第三十课Spearman等级相关分析_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三十课Spearman等级相关分析、秩相关的Spearman等级相关分析前面介绍了使用非参数方法比较总体的位置或刻度参数,我们同样也可以用非参数方法 比较两总体之间相关问题。秩相关(rank correlation)又称等级相关,它是一种分析七和七等 级间是否相关的方法。适用于某些不能准确地测量指标值而只能以严重程度、名次先后、反 映大小等定出的等级资料,也适用于某些不呈正态分布或难于判断分布的资料。设R和Q分别为%和七各自在变量X和变量7中的秩,如果变量X与变量7之间存在 着正相关,那么X与7应当是同时增加或减少,这种现象当然会反映在(,七)相应的秩(R,Q)上。反之,若(R,Q)具有同步

2、性,那么(,y)的变化也具有同步性。 i ii ii i因此(30.1)d = X (R Q )2i=1i =1具有较小的数值。如果变量X与变量7之间存在着负相关,那么X与7中一个增加时,另 个在减小,d具有较大的数值。既然由(,七)构成的样本相关系数反映了X与7之间相 关与否的信息,那么在参数相关系数的公式,(X, 7)中以R和Q,分别代替%和七,不是同样地反映了这种信息吗?基于这种想法,Charles Spearman秩相关系数r (R, Q)应运而生:(30.2) (R-1 &)(Q上 W) 2(R住R )2(Q: 1 & )2 / i n i i n ir (R,Q)与r(X,7)形式

3、上完全一致,但在r (R, Q)中的秩,不管X与7取值如何,总是只 取1到n之间的数值,因此它不涉及X与7总体其他的内在性质,例如秩相关不需要总体具 有有限两阶矩的要求。由于,1 =如=1 + 2 + + =粉 TOC o 1-5 h z i=1i=1r 2 =q 2 = 12+ 22+ . + n 2 = n(n +1)(2n + Di i6i=1i=1因此公式(30.2)可以化简为 TOC o 1-5 h z HYPERLINK l bookmark19 o Current Document 16 (R - Q )216d2sn(n2 -1)n(n2 -1)显然在r = q,时,秩相关系数

4、匚到达最大值+1。又因为(R Q )2 =R2 +Q2 2RQ = n(n +1)(2n + 1) 2RQi iiii i3/ /而RQ在每对R + Q = n +1时到达最小值,最小值求法为 i ii i (n +1)2 =r: +q;+2rQ,所以最小的RQ为i in(n +1)2 n(n +1)( 2n +1)26最大的 (R 一 Q )2为i i2n(n + 1)(2n +1).、n(n 2 1)n(n +1)2 =33故秩相关系数气的最小值为12=1。在原假设r,和q,不相关的情况为真时,即秩相关系数为0时,r的期望值u ,为0,样本的方差为1 r2s 2 =s(30.4)rsn 2

5、自由度为n 2且分布关于零点对称。当n 10时,气的样本分布可以标准化为近似的t分布t = r = r 一0 = r e t (n - 2)s,1 r 2s: 1 r2(30.5)nis例30.1某公司想要知道是否职工期望成为好的销售员而实际上就能有好的销售记录。为 了调查这个问题,公司的副总裁仔细地查看和评价了公司10个职工的初始面试摘要、学科成 绩、推荐信等材料,最后副总裁根据他们成功的潜能给出了单独的等级评分。二年后获得了 实际的销售记录,得到了第二份等级评分,见表30.1中的第1到4列所示。统计问题为是否 职工的销售潜能与开始二年的实际销售成绩一致。表30.1职工的销售潜能与销售成绩的

6、秩相关分析职工编号潜能等级R i销售成绩成绩等级Q id = R - Qd 2124001112436031137300524412956-525562807-11633504-11710200100089260811982209-11105385239Z d 2 =i44Spearman秩相关系数(R,Q)的计算过程见表4.10中的第5到6列所示,最后计算结果r = 1 - 6 di = 1 - 6(44) = 0.7333sn(n2 -1)10(100 -1)表明潜能与成绩之间是较强的正相关,高的潜能趋向于好的成绩。秩相关系数r (R,Q)原假 设为0的t检验统计量为t = 0.7333

7、= 3.051 - (0.7333)2查表自由度为8, t=3.05的双侧尸0.0158。在0.05显著水平上,t分布的上临界点为2.30,由 于3.052.30,所以拒绝秩相关系数为0的原假设,接受潜能与成绩之间存在秩相关。二、Corr相关过程Corr相关过程用于计算变量之间的相关系数,包括Pearson(皮尔逊)的乘积矩相关和加 权乘积矩相关。还能产生三个非参数的关联测量:Spearman的秩相关,Kendall的tau-b和 Hoeffding的相关性度量D。该过程也可以计算偏相关等一些单变量的描述性统计量。1. Corr过程说明proc corr过程一般由下列语句控制:proc cor

8、r data=数据集选项;var变量列表;with变量列表;partial变量列表;weight变量;freq变量;By变量列表;run ;proc corr语句调用corr过程,且是唯一必须的语句。如果只使用proc corr这一条的语句, 过程计算输入数据集中所有数值变量之间的相关系数。其余语句是供选择的。proc corr语句的选项。伊=数据集名产生含有Pearson相关系数的一个新数据集。“旃=数据集名产生含有Spearman等级相关系数的一个新数据集。以叱=数据集名产生含有Kendall Tb相关系数的一个新数据集。“功=数据集名产生含有Hoeffding D统计量的一个新数据集。p

9、earson 求计算通常的pearson乘积矩相关系数,是缺省值。hoeffding 求计算并输出Hoeffding的D统计量。kendall 求计算并输出Kendall t b相关系数。spearman求计算并输出Spearman等级相关系数。vardef=df I weight I wgt I wdf 定计算方差时的除数:df (自由度 n-1), weight或wgt (权重之和),n (观察数),wdf (权重之和一1)。缺省值为 fcov计算协方差-方差矩阵。sscp 一求输出平方和与交叉积和。csscp 一求输出偏差平方和与交叉积和。阮$4数值一一对每个变量输出指定个数的绝对值最大

10、的相关系数。noprint止所有打印输出。noprob 止输出同这些相关有联系的显著性概率。nosimple对原始数据执行标准方差分析。rank 求按绝对值从高到低的次序对每个变量输出相关系数。nocorr制Pearson相关的计算及输出。nomiss 带有某一变量缺失值的观测值从所有计算中除去。nosimple不输出每个变量的简单描述性统计量。var语句该语句列出要计算相关系数的变量。例如var a b c;则计算a和b, a和c, b和c三对变 量之间的相关系数。with语句为了得到变量间的特殊组合的相关系数,该语句和var语句联合使用。用var语句列出的 变量在输出相关阵的上方,而用wi

11、th语句列出的变量竖在相关阵左边。例如var a b;with x y z; 则生成x和a,y和a, z和a, x和b,y和b,z和b。partial 语句为了计算Pearson偏相关,Spearman偏秩相关,Kendall偏tau-b,用该语句给出偏出去(即 固定)的变量名。weight 语句为了计算加权的乘积矩相关系数,用该语句给出权数变量名。该语句仅用于Pearson相关。freq语句当规定freq语句时,输入数据集中的每个观察假定代表n个观察,其中n是该观察中freq 变量中的值。观察的总数规定为freq变量值的和。by语句使用by语句能够获得用by变量定义的分组观察的独立分析结果。

12、实例分析、例30.1的SAS程序如下:data study.persons ;input x y ;y=400-y;cards;400 43607 3001 2956 280350 102009 2608 2205 385;proc corr data=study.persons spearman;var x;with y;run;程序说明:建立输入数据集persons,要注意实际数据所表示的等级次序大小与SAS系 统中自动给出的等级次序大小的不同。输入变量X,获得从1到10的数据,表示潜能等级从 最高到最低,而输入变量y,获得从最大销售额400到最小销售额220,转换销售成绩等级应 该是从高

13、到低,即从1到10。但在SAS系统中把销售成绩数值从小到大按等级值从1到10 给予。因此需要颠倒变量x或变量y中数值大小的次序,本程序用最大销售额400减去原来 的销售额实现次序颠倒,即语句y=400y。等级相关与一般参数相关一样仍然调用corr过程, 只需要在选择项中指定为何种等级相关,我们选择计算spearman秩相关系数。var语句列出 要计算相关系数的第一个变量X,with语句必须要与var语句联合使用,列出的要计算相关系 数的第二变量y。主要结果见表30.2所示。Correlation Analysis1 WITH Variables: Y1 VAR Variables: XVariableYXN1010Simple StatisticsMeanStd DevMedian95.00000067.905163102.5000005.5000003.0276505.500000Minimum 0 1.000000Maximum200.00000010.000000Spearman Correlation Coeffici

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论