sas讲义 第二十八课wilcoxon秩和检验_第1页
sas讲义 第二十八课wilcoxon秩和检验_第2页
sas讲义 第二十八课wilcoxon秩和检验_第3页
sas讲义 第二十八课wilcoxon秩和检验_第4页
sas讲义 第二十八课wilcoxon秩和检验_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二十八课 Wilcoxon 秩和检验 一、 两样本的 Wilcoxon 秩和检验 由 Mann,Whitney 和 Wilcoxon 三人共同设计的一种检验,有时也称为 Wilcoxon 秩和检 验,用来决定两个独立样本是否来自相同的或相等的总体。如果这两个独立样本来自正态分 布和具有相同方差时,我们可以采用 t 检验比较均值。但当这两个条件都不能确定时,我们 常替换 t 检验法为 Wilcoxon 秩和检验。 Wilcoxon 秩和检验是基于样本数据秩和。先将两样本看成是单一样本(混合样本)然后 由小到大排列观察值统一编秩。如果原假设两个独立样本来自相同的总体为真,那么秩将大 约均匀分布在两个样本中,即小的、中等的、大的秩值应该大约均匀被分在两个样本中。如 果备选假设两个独立样本来自不相同的总体为真,那么其中一个样本将会有更多的小秩值, 这样就会得到一个较小的秩和;另一个样本将会有更多的大秩值,因此就会得到一个较大的 秩和。 设两个独立样本为:第一个 的样本容量为 ,第二个 样本容量为 ,在容量为x1ny2n 的混合样本(第一个和第二个)中, 样本的秩和为 , 样本的秩和为 ,21n xxWy 且有 2)1(21nWyx (28.1) 我们定义 )(11x (28.2)2)(2ny (28.3) 以 样本为例,若它们在混合样本中享有最小的 个秩,于是 ,也是 可x 12)1(nWx xW 能取的最小值;同样 可能取的最小值为 。那么, 的最大取值等于混合样本yW2)(nx 的总秩和减去 的最小值,即 ;同样, 的最大取值等于y )1()(ny 。所以,(28.2)和(28.3)式中的 和 均为取值在 0 与2)1()(n1W2 的变量。当原假设为真时,所有的 和 相当于2121)()()( nixiy 从同一总体中抽得的独立随机样本, 和 构成可分辨的排列情况,可看成一排 个球随ixiy n 机地指定 个为 球另 个为 球,共有 种可能,而且它们是等可能的。基于这样分1nx21nC 析,在原假设为真的条件下不难求出 和 的概率分布,显然它们的分布还是相同的,这1W2 个分布称为样本大小为 和 的 Mann-Whitney-Wilcoxon 分布。12n 一个具有实际价值的方法是,对于每个样本中的观察数大于等于 8 的大样本来说,我们 可以采用标准正态分布 来近似检验。由于 的中心点为 ,根据(28.2)式, 中心点z121nxW 为 )(2)(2111 nn (28.4) 的方差 从数学上可推导出xW212)(2n (28.5) 如果样本中存在结,将影响到公式(28.5)中的方差,按结值调整方差的公式为 )1)()( 21213212 nnjj (28.6) 其中 第 j 个结值的个数。结值的存在将使原方差变小,这是一个显然正确的事实。标准化 后 为xW )1,0()(12)( 5.0)(5.0 212321221 NnnWz jxx (28.7) 其中分子加 0.5 或减 0.5 是为了对离散变量进行连续性修正,对于 大于 0 减 0.5 修正,xW 对于 小于 0 加 0.5 修正。xW 例 28.1 某航空公司的 CEO 注意到飞离亚特兰大的飞机放弃预定座位的旅客人数在增加, 他特别有兴趣想知道,是否从亚特兰大起飞的飞机比从芝加哥起飞的飞机有更多的放弃预定 座位的旅客。获得一个从亚特兰大起飞的 9 次航班和从芝加哥起飞的 8 次航班上放弃预定座 位的旅客人数样本,见表 28.1 中的第 2 列和第 4 列所示。 表 28.1 放弃预定座位的旅客人数及统一秩值 航班 亚特兰大( 组)x芝加哥( 组)y 上海财经大学经济信息管理系IS/SHUFE Page 3 of 7 次数 放弃人数 统一编秩 放弃人数 统一编秩 1 11 5.5 13 7 2 15 9 14 8 3 10 3.5 10 3.5 4 18 12 8 1 5 11 5.5 16 10 6 20 13 9 2 7 24 16 17 11 8 22 15 21 14 9 25 17 秩和 xW96.5 yW56.5 如果假定放弃预定座位旅客人数的总体是正态分布且有相等的方差,我们可以采用两样 本比较的 t 检验。但航空公司的 CEO 认为这两个假设条件不能满足,因此采用非参数的 Wilcoxon 秩和检验。将 组与 组看成是单一样本进行编秩,见表 28.1 中的第 3 列和第 5y 列所示。 ,最小值是 8 秩值为 1,最大值是 25 秩值为 17,有两个结值 10 和 11,两个 10 平 均分享秩值 3 和 4 为 3.5,两个 11 平均分享秩值 5 和 6 为 5.5。如果两组放弃预定座位的旅 客人数是相同的,那么我们期望的两组秩和 和 大约是相同的;如果两组放弃预定座xWy 位的旅客人数是不相同的,那么我们期望的两组秩和 和 也是非常不相同的。xy 注意到 9, 8, =96.5, =56.5, 两组放弃预定座位旅客人数的分布1n2xy:0H 是相同的。标准正态分布 值的计算结果为z451.)89)(122)89)(5.0)(5.6z 如果设定显著水平 0.05,我们知道标准正态分布在 0.05 显著水平时,上临界值为 1.645,下临界值为1.645,由于 1.4451.645,所以得到是相同的结果,不能拒绝原假设。 另外,要特别注意的是由于在连续型分布中随机地抽出 个样本,几乎极少可能存在有n 些值相等的情况,但在社会经济中有很多离散变量,很可能存在数值相同的情况,即样本中 存在着“结” 。我们处理“结”的方法采用分享平均秩,但当大量“结”存在时,将可能直 接影响 的方差,因此需要把(28.5)式中的方差修正为(28.6)。但在手工计算和结值不多的xW 情况下,常使用未修正方差来简化计算,因为与修正方差的计算结果比较只存在一些小差异, 大多数情况下不影响最终的推断结果。 二、 单因子非参数方差分析的 npar1way 过程 单因子非参数方差分析的 npar1way 过程是分析变量的秩,并计算几个基于经验分布的 函数(EDF )和通过一个单因子分类变量的响应变量确定的秩得分的统计量。秩的得分计算 分成四种:Wilcoxon 得分、中位数得分、Savage 得分和 Van der Waerden 得分。然后再由秩 得分计算简单的线性秩统计量,由这个秩统计量可以检验一个变量的分布在不同组中是否具 有相同的位置参数,或者在 EDF 检验下,检验这个变量分布在不同组中是否分布相同。秩 得分的统计量也可以先用 proc rank 过程计算秩得分,然后用 proc anova 过程分析这些秩得 分而得到。 1. 四种不同的秩得分计算 用以下公式定义的统计量 )(1iniRaCS (28.8) 称为线性秩统计量。其中 是第 个观察的秩, 是秩得分, 是一个指示向量(由 0i i iC 和 1 组成) ,它表示了第 个观察所属的类, 是观察的总数。npar1way 过程的四种不同的n 秩得分计算为:)(iRa 1) Wilcoxon 得分 在 Wilcoxon 得分中 =)(iRai (28.9) 它对 Logistic 分布的位置移动是局部最优的。在计算两样本情况下的 Wilcoxon 秩和统计量 时,过程对零假设下的渐进标准正态分布的 z 统计量进行一个连续的+0.5 和0.5 校正。 2) Median 得分 Median 得分又称为中位数得分。当观察的秩大于中位点时,中位数得分为 1,否则为 0,即 2/)1(1)(nRaii当0Rii当 (28.10) 对于双指数分布,中位数得分是局部最优。 3) Van der Waerden 得分 Van der Waerden 得分简称为 VW 的得分。它是对正态分布的次序统计量的期望值的近 似,即 =)(iRa)1/(F1ni (28.11) 上海财经大学经济信息管理系IS/SHUFE Page 5 of 7 其中 函数是标准正态的累积分布函数的反函数,这个得分对正态分布是最优的。)(F1x 4) Savage 得分 Savage 得分是指数分布的次序统计量的期望值。减去 1 使得得分以 0 为中心,既 =)(iRa)/(1iin (28.12) Savage 得分在指数分布中比较尺度的不同性或在极值分布中的位置移动上是最优的。 2. npar1way 过程说明 proc npar1way 过程一般由下列语句控制: proc npar1way data=数据集 ; class 分类变量; var 变量列表; by 变量列表 ; run ; 为了使用 proc npar1way,必须要 proc 和 class 语句。其余语句是供选择的。 1) proc npar1way 语句的选项 anova对原始数据执行标准方差分析。 edf计算基于经验分布函数(EDF)的统计量,如 Kolmogorov- Smirnov、Cramer-Von Meses、Kuiper 统计量。 missing把 class 变量的缺失值看作一个有效的分类水平。 median执行一个中位数得分分析。对于两样本产生一个中位数检验,对于更 多样本产生一个 Brown-Mood 检验。 savage执行一个 Savage 得分分析。该检验适用于数据服从指数分布的组间比 较。 vw执行一个 Van der Waerden 得分分析。这是一个通过应用反正态分布累积 函数得到近似的正态得分。对于两个水平情况,这是一个标准 Van der Waerden 检验。 wilcoxon对数据或 Wilcoxon 得分进行秩分布。对于两个水平,它与 Wilcoxon 秩和检验一样;对于任何数量的水平,这是一个 Kruskal-Wallis 检验。对于两样本情况, 该过程使用一个连续的校正。 2) class 语句 class 语句是必需的,它指定一个且只能一个分类变量。该变量用来标识数据中的各个类。 Class 语句变量可以是字符型或数值型。 3) var 语句 var 语句命名要分析的响应变量或自变量。如果省略 var 语句,过程分析数据集中除 class 语句指定的数据变量外的所有数值型变量。 4) by 语句 一个 by 语句能够用来得到由 by 变量定义的几个观察组,并用 proc npar1way 过程分别 进行分析。当一个 by 语句出现时,过程希望输入的数据集已按 by 变量排序。 三、 实例分析 例 28.1 的 SAS 程序如下: data study.noshows ; do group=1 to 2; input n; do i=1 to n; input x ; output; end; end; cards; 9 11 15 10 18 11 20 24 22 25 8 13 14 10 8 16 9 17 21 ; proc npar1way data=study.noshows wilcoxon; class group; var x; run; 程序说明:建立输入数据集 noshows,数据的输入和成组 t 检验相同,先输入本组数据 的总数,然后输入组中每个数据。分组变量为 group,共有两组取值为 1 和 2。输入变量为 x,存放每组中的数据。过程步调用 npar1way 过程,后面用选择项 wilcoxon 要求进行 wilcoxon 秩和检验。要注意,如果两组样本是配对样本,应该使用配对 t 检验或 wilcoxon 符 号检验,因为使用 wilcoxon 秩和方法,将损失配对信息。class 语句后给出分组变量名 group, var 语句后给出要分析的变量 x。主要结果见表 28.2 所示。 表 28.2 用 npar1way 过程进行 Wilcoxon 秩和检验的输出结果 结果说明:组 1 和组 2 的秩和(Sum of Scores)分别为 96.50 和 56.50。原假设(组 1 和 组 2 的总体分布相同)为真时,期望秩值(Expected)分别为(96.50+56.50)9/(9+8) =81.0 和(96.50+56.50)8/(9+8)=72.0,标准差(Std Dev)按公式(28.6)计算为 10.3795614。每组平均得分(Mean Score)分别为 96.50/9=10.7222222 和 56.50/ 8=7.0625000。 Wilcoxon 两样本秩和统计量(较小的秩和)S = 56.5000,正态近似检验统计 量 Z = 1.44515(连续性修正因子为 0.5,加在分子上),正态分布的双尾 p 值之和为 N P A R 1 W A Y P R O C E D U R E Wilcoxon Scores (Rank Sums) for Variable X Classified by Variable GROUP Sum of Expected Std Dev Mean GROUP N Scores Under H0 Under H0 Score 1 9 96.5000000 81.0 10.3795614 10.7222222 2 8 56.5000000 72.0 10.3795614 7.0625000 Average Scores Were Used for Ties Wilcoxon 2-Sample Test (Normal Approximation) (with Continuity Correction of .5) S = 56.5000

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论