第7章基于秩次的非参数检验.doc_第1页
第7章基于秩次的非参数检验.doc_第2页
第7章基于秩次的非参数检验.doc_第3页
第7章基于秩次的非参数检验.doc_第4页
第7章基于秩次的非参数检验.doc_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于秩次的非参数检验1. 问题的提出前面学习了连续型资料两组样本均数差异的假设检验方法:小样本用t检验,条件是变量服从正态分布和方差齐;大样本用标准正态分布的Z检验。如果是小样本,变量的分布不清,或者已知不服从正态分布或经变量转换后仍不服从正态分布时,如何检验两个样本或多个样本均数差异的统计学意义呢?需要一种不依赖于分布假定的检验方法,即非参数检验。2. 基本概念前面介绍的检验方法首先假定分析变量服从特定的已知分布(如正态分布),然后对分布参数(如均数)作检验。这类检验方法称参数检验(parametric test)。今天介绍的检验方法不对变量的分布作严格假定,检验不针对特定的参数,而是模糊地对变量的中心位置或分布位置作比较。这类检验称非参数检验(nonparametric test),由于其对总体分布不作严格假定,所以又称任意分布检验。(distribution-free test)非参数检验的优点:a.不受总体分布的限制,适用范围广。b.适宜定量模糊的变量和等级变量。c.方法简便易学。缺点:如果是精确测量的变量,并且已知服从或者经变量转换后服从某个特定分布(如正态分布),这时人为地将精确测量值变成顺序的秩,将丢失部分信息,造成检验功效能下降。基于秩次非参数检验(秩和检验)的基本思想假设变量X有观察值1.1, 1.3, 1.7, 4.3, 11.4显然这变量不服从正态分布,观察值间差异较大,既不对称,标准差也较大。但如果将变量作转换,变成秩变量Y=1,2,3, 4,5,则分布对称了,观察值间的差异也均匀了,标准差也减小了。然后对这秩分布的中心位置(中位数)作检验,这就是秩和检验。7.1 配对样本的符号秩检验(Wilcoxon signed rank test)例7.1 为研究出生先后的孪生兄弟间智力是否存在差异,12对孪生兄弟测试的结果见表7.3。表7.3 12对孪生兄弟测试结果对子号兄的得分弟的得分得分差秩次对子号兄的得分弟的得分得分差秩次186882377765-12-10271776789190-1-1.537776-1-1.597065-5-5.546864-4-4107180995919655.5118881-7-8672720-128772-15-11T+=24.5,T-=41.5符号秩检验的分布理论:假定有4个差值,如果H0成立时,这4个差值有同等的概率取正值或负值,即每个值取正值的概率等于1/2。4个差值每种组合发生的可能性就是:。所有可能的秩和情况和T*的分布见表7.1。表7.1 n4时所有可能秩和情况和T*的分布正差数的秩次负差值的秩次正秩和T+负秩和T-检验统计量T*概率P1,2,3,4-10000.06252,3,419110.06251,3,428220.06251,2,437330.12503,41,27331,2,346440.12502,41,36441,42,35550.12502,31,45551,32,44640.125041,2,34641,23,43730.125031,2,437321,3,42820.062512,3,41910.0625-1,2,3,401000.0625如果零假设成立,观察的结果应该服从这分布,即出现极端的可能性很小。如果真是出现小概率,那么我们对零假设的真实性产生怀疑,拒绝零假设。表 7.2 Wilcoxon 符号秩检验的判断原则双侧检验单侧检验(1)单侧检验(2)检验假设H0:Md(d)0H0:Md(d)0H0:Md(d)0H1:Md(d)0H1:Md(d)0H1:Md(d)0统计决策:小样本查表法若T*Ta/2(n),则拒绝H0若T-Ta(n), 则拒绝H0若T+Ta(n),则拒绝H0大样本正态近似法若ZZa/2 , 则拒绝H0若ZZa , 则拒绝H0若ZZa, 则拒绝H0当研究例数较大时(n50),秩和T的分布近似正态分布,可以用正态分布理论作假设检验。这时正态分布的均数和标准差分别等于:mTn(n1)/4 检验的公式为:具体计算步骤:a. 建立检验假设:H0: 中位数为零; H1:中位数不等于零;=0.05b. 编秩、计算秩和:差数为零不参加编秩,相同差值求平均秩。分别求正号和负号的秩和,取绝对值小的为T。c. 确定概率:查附表10,在n=11时,T0.05=11。现24.511,故p0.05。7.2 两独立样本的秩和检验(Wilcoxon rank sum test) 例7.2 在缺氧条件下,观察4只猫与12只兔的生存时间(分),结果见表7.5。试判断猫、兔在缺氧条件下生存时间的差异是否具有统计学意义。这是生存时间资料,一般不服从正态分布,样本也较小,需考虑用非参数检验-秩和检验。秩和检验的基本思想:两组观察值共有n例,设例数较少的组有n1例,按观察值大小顺序分别编秩为1,2,n。如果零假设成立,观察的结果有较大的可能出现分布在中间的结果。如果极端的结果出现,则可能零假设不成立,我们就拒绝零假设。表7.5 缺氧条件下猫与兔的生存时间(分)比较猫兔生存时间秩次生存时间秩次生存时间秩次生存时间秩次259.5151216281234151522172813441716323830144618174259.5351646191952711n1=5T1=78.5n2=14T2=111.5当样本较大时,秩和的分布近似正态分布,可以用正态分布理论作假设检验。这时正态分布的均数和标准差分别等于: mT*n1(n1)/2 检验公式为:具体计算步骤:a. 建立检验假设:H0:Md1Md2,即两总体分布位置相同;H1:Md1Md2,即两总体分布位置不同;=0.05b. 编秩和计算秩和:两组混合编秩,有相同值求平均秩(仅有同组相同值可忽略)。当n1n2时,取较小样本的秩和为检验统计量T*R1;当n1n2时,取秩和较小者为检验统计量T*min(R1,R2)。本例求例数较少组的秩和T*=78.5。c. 确定概率:T值在表中两数字值之间时,p值大于相应界值,反之则小于。n15,n214,n2-n19,查附表11,TL0.0122,TU0.0178,T*TU0.01,P0.01,故拒绝H0,可认为猫、兔在缺氧条件下的生存时间的中位数不相等。7.3 多个样本分布位置相同的假设检验1.完全随机化设计资料分布位置的假设检验(Kruskal- Wallis test)表7.7不同吸烟习惯母亲的新生儿体重(kg)出生体重xij相应秩次rijABCDABCD2.72.93.33.5347112.43.23.63.625.512.512.52.23.23.43.715.59143.43.499ni4343Ri151537.537.5计算步骤:a. 建立检验假设: H0:k个总体中位数相等;H1:k个总体中位数不等;=0.05。b. 计算统计量:各组混合编秩。如不同组间出现相同值,求平均秩。计算各组的秩和。如果H0:成立,第i组秩和的期望(总体均数)与方差分别为: 在此基础上建立检验统计量:当H0成立时,该检验统计量近似服从自由度为(k-1)的c2分布。为简化运算,由上式推导出如下公式:校正:c. 确定概率和判断结果:自由度(df)=4-1=3,查2值表得2 0.05(3) =7.815,p0.05,故拒绝零假设,说明不同吸烟习惯对新生儿体重有影响。2.随机化区组设计资料分布位置的假设检验(Friedman test)与配对设计的思想一样,为控制某些因素对试验效应的混杂影响,可以在设计时,将试验对象配成组,再随机地分配处理因素给每组中的各个对象,这种设计称随机化区组设计。 对于随机化区组设计资料,考虑k个处理组的分布差异时,可采用由M. Friedman在符号检验基础上扩展的秩和检验,称为Friedman检验(Friedman test)。令xij为第i区组(i1,2.b)、第j处理组(j1,2.k)的个体观察值,数据按区组(b行)与处理组(k列)排列如表7.8。表7.8 随机化区组设计的资料格式区组处理组12.k1x11x12.x1k2x21x22.x2kbxb1xb2.xbk 其检验假设为 H0:k个处理组效应的中位数相等; H1:k个处理组效应的中位数不全相等。 进行Friedman检验时,首先在每区组(行)内将观察值按其数值由小到大排秩,然后再按处理组(列)求秩和,最后产生一个综合区组内差异的检验统计量。 令rij为第i区组、第j处理组观察值xij所对应的秩次,因为每一区组(行)内有k个从1到k的整数秩,所以任何区组(行)的秩和为 令Rj为第j处理组的秩和,即Rj,故总秩和为 当H0成立时,第j列秩和的期望与方差分别为 , 大样本时,统计量 N(0,1) 取其加权和, 近似服从自由度为(k-1)的分布,通过与分布界值的比较便可作出判定。 与K-W检验统计量的情况相似,可导出计算式 例7.4 三批甘蓝叶样本分别在甲、乙、丙、丁四种条件下测量核黄素浓度,试验结果如表7.9所示。问四种条件下的测量结果的差异是否具有统计学意义?表7.9 甘蓝叶核黄素浓度测量值(/g)批次测量条件甲 乙 丙 丁127.2(2)24.6(1)39.5(4)38.6(3)223.2(1)24.2(2)43.1(4)39.5(3)324.8(2)22.2(1)45.2(4)33.0(3)Rj54129解 (1) 建立检验假设 H0:四种测量条件下的测量结果的中位数相等; H1:四种测量条件下的测量结果的中位数不全相等。 (2) 将同一批的四个测量结果由小到大排秩,持平数据取平均秩次。将各秩次列于相应测量值旁边的括号内。 (3) 计算与各测量条件相应的(列向)秩和Rj,记于表7.9的最后一行。 (4) 代入(7.19)式,计算统计量。b3,k4, (5) 确定P值并判断结果。a0.05,7.815。c2,P0.05,故拒绝H0,可以认为四种条件下测量结果有统计学意义。 3.k组秩均值的多重比较 无论是用K-W检验,还是用Friedman检验,当拒绝零假设时,并不能直接判断k组中哪些组间差异具有统计学意义,为此需进行组间的多重比较(multiple comparison)。 对于完全随机设计资料,令和分别为欲比较的第i组与第j组样本的平均秩。平均秩差数的绝对值用表示,则其平均秩差数的方差为 式中n为k组的总样本含量,ni,nj分别为第i组与第j组样本含量。其检验假设为 H0:第i组与第j组中位数相等; H1:第i组与第j组中位数不等。用正态近似法,其检验统计量为 然后将Zij值与标准正态分布的界值比较。设共有c个Zij,即总共进行c次比较。则用a/c作检验水准。 例7.5 仍以例7.3出生体重数据(见表7.7)为例,四个吸烟组平均秩分别为: 15/43.75,15/35.0,37.5/49.375,37.5/312.50 本例主要考虑不吸烟组的平均秩与另外三组平均秩的比较,共有三个比较对,即c3。若a0.05,则限定每一个Z检验第I类错误概率不超过0.05/30.0167,由标准正态分布获得该多重检验

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论