第九讲和第十讲 统计1107班 王凤娇 翻译.doc_第1页
第九讲和第十讲 统计1107班 王凤娇 翻译.doc_第2页
第九讲和第十讲 统计1107班 王凤娇 翻译.doc_第3页
第九讲和第十讲 统计1107班 王凤娇 翻译.doc_第4页
第九讲和第十讲 统计1107班 王凤娇 翻译.doc_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

STA333第九讲检验配对数据:Wilcoxon符号-秩检验9.1 Wilcoxon符号-秩检验我们回顾一下猴子数据:例:猴子的刺激。一位生理学家希望知道猴子更喜欢大脑区域A的刺激还是大脑区域B的刺激。在该实验中,14只猴子被教导要按下两个按钮。当灯亮起时,压在按钮1总是导致区域A的刺激;压在按钮2总是导致区域B的刺激。学习按按钮后,猴子再测试15分钟,在这段时间内记录压两个按钮的频率。频率越高,喜欢这种刺激的程度越高。数据显示在下面。每只猴子被测试两次,因此这是一个成对数据的例子。该数据的形式是(X,Y)对。样本按钮1 (X) 按钮2(Y)123456789101112131420 4018 2524 3814 275 3126 2115 3229 3816 259 1825 3230 2835 3312 29 我们已经在上一讲中做了这些数据的符号检验。符号检验一个明显的问题是它丢弃了很多关于数据的信息。它考虑到了差异的方向,但不是每对数之间的差的大小。 99页在这一点上,我将讨论另一种方法,使用配对样本比较两个群体。这种新的方法称为Wilcoxon符号-秩检验,它不是一个基于二项分布的检验,所以我们将不得不考虑有点不同的东西。Wilcoxon符号-秩检验是可用于在同一受试者重复测量的配对样本的另一个非参数检验。不同于符号检验,它考虑到(至少在一定程度上)测量的幅度。试验的性质假设在一个区间尺度上,我们有n对测量值(X1,Y1),(X2,Y2),.,(Xn,Yn)的随机样本。区间尺度测量是考虑测量值之间的距离有意义的一种测量。令Di= Xi- Yi,每对的不同分数(就像在符号检验)。假设。要试验的假设与在第8讲的符号检验是相同的,即我们是在比较两个群体真实的中位数Mx和My :H0 :Mx = My 与 Ha :Mx My (双侧检验) Mx My (上尾检验) Mx My是真实的,它将会导致看到很多的组都是Xi Yi ,因此更多的组的Di 0。所以,较大的秩差将趋于正,最终我们将会看到V的值增加了。l 同样的观点也可用于进行下尾检验和双边检验。检验统计量V的原分布。(只是一个提醒:这不是二项分布)。V的抽样分布可以通过查看标记(+)和(-)的可能的排列来获得,然后计算每一个可能的排列的与标记(+)有关的秩和。如果原假设H0为真,那么每一个标记(+)和(-)的可能的排列很可能相等。101页课堂练习。假设我们有n=4(X,Y)对不打结的秩,所以我们得到四个唯一的Di。发现V的完整的原假设分布:与正得分有关的秩和。p值。根据定义,任何假设检验的p值是证明作为实际样本中观察到的样本至少违背H0(并接受Ha)的可能性大小。在这种情况下,p值将是来自V的原假设分布的一些可能性。我们将用R计算它。然后,我们可以在一些预先确定的显着性水平下比较它。假设。1 样本是随机的。2 样本是连续的。3 差的分布是对称的。102页9.2问题,问题:处理打结和零假设2基本上确保所有的观察值将是唯一的,即在任何地方都没有重复值。但是当然,人们四舍五入的值,使用独立尺度,等等。这就是真实的世界。因此,如果连续性的假设是错误的,是否存在Di 为零的值,或者绝对值Di 打结?另外还有两种方式,违反连续性假设会影响结果:l 蒙混的零。我们所谓的在符号检验的情况下的零点蒙混(因为它是相当虚假的)使在符号-秩检验的情况下更有意义。在Wilcoxon符号-秩检验中,Di= Xi -Yi为零的值,差异应该得到尽可能小的绝对值,因为零的绝对值小于任何其他数字。我们不妨给他们零秩,从零开始计数,而不是一。他们对秩和的统计量V没有什么贡献。l 打结的秩。前面问题的处理情况,其中单个值给了一对完全相同的值。但第二类错误导致一个不同的问题:如果我们有两个单个值Di 打结?(看看猴子数据:这种情况是相当普遍存在的。)在这种情况下赋予秩并不是问题:如前所述,习惯上,以下列方式处理打结的秩:将打结的秩平均后在赋予它们,如果不打结就不用了。举例来说,如果你有两个打结的得分占据位置3和4,将它们的秩均记为3.5。将占据7,8,9位置的三个打结的得分对应的秩记为8。这是处理打结数据较好的方法,因为不论是否存在打结的得分,固定的得分数目的秩和将会是相同的。事实上,R 固有的功能可以完成这些: d rank(d)1 1.0 3.5 3.5 2.0然而,主要的问题是打结得分的出现会使V的原假设分布改变。因为这个,检验的p值或许会改变。这有可能会改变测试的结果,慎重考虑很重要的!练习(你自己)。和以前一样,假设我们有n=4(X,Y)对数,但不同的是在第3和4位置的观测值之间有一个打结的数,因此对应的秩也就变成了1,2.5,2.5,4。找出这个例子中V的原假设分布,看看它的原假设分布与没有打结秩的例子的不同。103页9.3用R做Wilcoxon符号-秩检验我们可以用R中的附件软件包exactRankTests调用wilcox.exact()命令实施正确的Wilcoxon符号-秩检验。你必须先下载并安装这个附加到你的R安装才能使用它。请参见第1.3节以了解更多信息。你只需要安装一次,然后你就能很好的使用它。例:猴子的刺激。假设为:H0 :Mx = My 与 Ha :Mx MyMx 是按按钮1的真实中位数,My 是按按钮2的真实中位数。原假设基本上指出按按钮之间没有偏好,但符号-秩检验指出这种假说在中位数的差异。 x y library(exactRankTests) wilcox.exact(x, y, paired=TRUE, alternative=two.sided)Exact Wilcoxon signed rank testdata: x and yV = 6, p-value = 0.001465alternative hypothesis: true mu is not equal to 0用(exactRankTests)库命令加载包到当前R会话。在第四行上面运行双侧检验。检验统计量的值为V =6,双侧备择的p值为0.0014。由于p值 # NOT RECOMMENDED! wilcox.test(x, y, paired=TRUE, alternative=two.sided)Wilcoxon signed rank test with continuity correctiondata: x and yV = 6, p-value = 0.003854alternative hypothesis: true location shift is not equal to 0Warning message:In wilcox.test.default(x, y, paired = TRUE, alternative = two.sided) :cannot compute exact p-value with ties至少它会警告你它搞砸了,但它至少给出了一个搞砸的结果!104页9.4一些评论以下是有关Wilcoxon符号-秩检验的一些观察,你应该知道:1. 运行Wilcoxon符号-秩检验得出的结论比符号检验分析相同数据得出的结论更具说服力。因为Wilcoxon符号-秩检验比符号检验的功效更大。为什么功效更大呢?因为它相比符号检验利用了更多的信息。但是请注意,利用秩而不是得分本身也会丢弃一些信息(如成对t-检验一样)。下面就来看看这三个相互竞争的过程:t-检验(参数)符号检验(第8讲)符号-秩检验l 利用实际的数字,包括大小和符号l 稳健性低(崩溃点为0%)l 完全忽略了数字的大小,只用自己的标志(即“正数和负数的不同?”)l 稳健性高(崩溃点为50%)l 同时利用的大小和符号,但不利用的数字的实际大小,只是秩的大小l 稳健性适中(崩溃点为29.3%)2. 对称性。我们增加了得分差对称性假设这一过程(这不是符号检验的假设)。这有两层含义:a. 如果分布是对称的,均值和中位数是一致的,因为两者刚好都位于分布的中间(在对称线)。因此,加入对称的假设意味着有关中位数也是平均数的任何推论都是有效陈述。b. 增加了对称性假设的第二个影响是需要测量的尺度从有序的区间改变了。在有序尺度测量中,只需要区分基本的谁大谁小。没必要知道离中位数最远的值,比如观测值位于中位数两侧时。如果对称性假设是有意义的,离中位数距离的测量也是有意义的,因此,两个观测值之间的距离也是有意义的测量。结论是,尺度测量不仅仅是有序的测量,更是区间的一种测量。c. 编码。有时在实践中,人们会使用数值编码尺度给有序的数值得分(例如,“在一个尺度从0到10.”)。用这样的距离来对数值编码并不罕见,就像在一个区间上测量一样。105页3. 什么.? 你可能会奇怪,为什么R的wilcox.test()函数做了错误的事情,而wilcox.exact()函数做了正确的事情。我的猜测是因为错误的wilcox.test()函数已经存在了数年,并使用数十年的老观念。这是传统。然而,wilcox.exact()使用的想法是近期的研究。它可能最终取代其他的功能,但必须等待一段时间。4. 大样本近似。为什么使用近似时,计算机可以准确地做到这一点?好了,因为即使一台计算机有一个困难时期(如果不是不可能的时间)试图做到这一点正是为了真正大的n。究其原因是因为它是一个艰巨的任务设法推测的V所有可能分配标志(+)和(-)的大n。所以,当n50,wilcox.exact()默认使用中心极限定理渐近近似的p值: x y wilcox.exact(x, y, paired=TRUE, alternative=less)Asymptotic Wilcoxon signed rank testdata: x and yV = 8287, p-value = 0.01573alternative hypothesis: true mu is less than 0106页下面是STA333的前一个学期完成的从比较奥利奥口味测试中得到的数据。用它和R运行Wilcoxon符号-秩检验,看看在普通奥利奥饼干和低脂奥利奥饼干之间的口味测试的评估是否有差别。样本 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19普通 3 7 5 7 8 10 9 6 10 5 9 8 8 8 6 5 6 8 7低脂 6 4 8 8 6 6 5 4 7 7 5 7 6 6 8 7 4 6 5107页STA333第十讲检验配对数据:McNemars检验10.1相关的比例我们现在考虑(最终)二项分布检验的最终变动。在这其中,成对的数据是二分类的,也就是说,它是在类别响应,其中一个可以被分为两个类别之一的形式。这些分类通常是及时测量同一个体的两个点来判断观点或状态是否发生改变。下面是一个例子:例:奥巴马支持率。盖洛普组织随机执行的跟踪调查,同一个人在不同的时间接受调查来评估他们是否改变了对一些政治或社会问题的看法。在选举结束和2009年的经济刺激方案通过后立即随机抽取60人接受调查关于他们支持或不支持奥巴马。两次调查的结果于下表中给出。后期经济刺激计划调查支持不支持总计支持794150944不支持86570656总计8807201600选举后调查是否有足够的证据得出结论,随着经济刺激法案的通过,奥巴马的支持率已经显著下降?检验采用=0.05。在下一节奠定了一些基础知识过后,我们会回到这个问题。109页10.2检验的基本结构McNemar检验评估两个相关比例的显著性差异,例如这两个比例在基于同一试验样本或者配对样本的情况下可能被找到。用一些数据来解释。假设100个受试者分别评估两个二分类变量A和B,如果这两个反应的时序影响是相关的,定义A为之前的反应,B为之后的反应。该结果可能会显示出将有问题变量那些受试者编码为1的属性,那些为0的则不显示该属性。这里有一些虚假的数据来加以说明:对于变量B受试者的反应10总计1255300155570总计4060100对于变量A受试者的反应在这个例子中,样本的边缘比例是pA= 30/100 =0.30,pB= 40/100 =0.40。换句话说,30的受试者显示由变量A定义的特性,40显示了变量B定义的特性。一般化。我们可以从上面的例子中概括计数的结构,如下所示:对于变量B受试者的反应10总计1aba+b0cdc+d总计a+cb+dn=a+b+c+d对于变量A受试者的反应McNemars检验探讨,从该表的边缘总和得出比例之间的差异:pA=(a+b)/npB=(a+c)/nMcNemars检验的问题是:比例pA和pB 是真值吗?并且答案必须考虑一个事实,即两个比利是不独立的。为什么呢?因为pA和pB的相关性都会被表格左上单元格所诱导。换句话说,n个受试者样本之外的一个受试者对变量两A和B都做出了反应。110页McNemars检验的核心观点在两个方面:1. pA和pB差异的完全减少,无论是代数上地还是概念性地,都是在表中的非对角线单元b和c之间的差异。2. b和c属于n=b+c,p=0.5的二项分布。换句话说,精确的原假设分布检验H0:pA=pB 服从二项分布(b+c,0.5)。(你知道为什么吗?)详情假设。感兴趣的参数是pA和pB,真正的群体比例在两个不同的时间A和B感兴趣的反应。假设被认为是H0:pA = pB 与 Ha:pA pB (下尾检验)H0:pA = pB 与 Ha:pA pB其中pA是奥巴马紧随选举之后真正的支持率,pB是奥巴马紧随经济刺激方案通过的真正的支持率。我们这些参数的点估计值表明,可以观察到在他的支持率样本中有一个4的下降:pA=794+1501600=0.59 pB=794+861600=0.55这有统计学意义吗?准确地回答这个问题,我们认识到,如果原假设H0:pA = pB 是真的,那么“改变”观点的150 + 86 = 236人本应该平均分布在那些从支持到反对(表计算单元b)和那些从反对到支持(表格单元c)。“平等”分配意味着我们本来期望这些计算单元每个都是236/2 = 118。目前,我们看到b中数据(150)比在原假设是真的情况下我们本来期望的更多。所以,我们可以计算p值的检验如下:P值 =作为实际样本中观察到的样本至少接受Ha的可能性大小,给出真实的H0= P(X 150) 当 X Bin(236, 0.5)我们知道如何得到它,即R: 1 - pbinom(149, 236, 0.5)1 1.857968e-05112页精确的p值是0.00001857,所以我们安全地拒绝H0。有显著证据表明,奥巴马在全体居民的支持率因为刚刚在大选后已经下降。 大样本的近似解。正确的假设检测是和以前一样:H0:pA = pB 与 Ha:pA pB我们可以利用R的mcnemar.test()功能来运行大样本近似检验。请记住,这只是检验双侧的选择,所以我们需要将给出的p值除以2,以得到正确的p值。我们需要先输入所有的计数表的R矩阵。我这样做下面,复制出表格,然后运行mcnemar.test()功能: rate.bo rate.bo2nd Survey1st Survey Approve DisapproveApprove 794 150Disapprove 86 570 mcnemar.test(rate.bo, correct=FALSE)McNemars Chi-squared testdata: rate.boMcNemars chi-squared = 17.3559, df = 1, p-value = 3.099e-05 给定的p值是双侧选择的方案。如果奥巴马的支持率已经下降(单侧选择),我们的检验是严格寻找的,给出的p值除以2:P值 = 0.00003099/2 = 0.000015495这是非常接近的二项分布来获得精确的p值。同样,我们拒绝H0。 113页10.4 pA-pB 的一个置信区间我们可以用一个置信区间来估计pA和pB之间差距的大小。这比一个单独的假设检验结果有更多的信息。只有当样本容量n大到要用大样本近似统计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论