




免费预览已结束,剩余18页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章 单 样 本 问 题我们开始系统地学习非参数统计方法。首先从最简单的,也是最基础的单样本情况着手研究。即我们的第二章,单样本问题,对应与课本上的第三章和第四章,另外还有补充的内容。本章主要内容: 1符号检验 2Wilcoxon符号秩检验(单一样本或两配对样本) 3CoxStuart趋势检验 4关于随机性的游程检验具体介绍:本章主要内容分四部分,首先开始学习最经典的非参数方法符号检验。这一部分主要是关于中位数和分位数的检验问题和置信区间,中位数实际是1/2分位数,我们把它们分开讲,主要是希望可以先了解简单的中位数的情况,再过渡到一般的分位数情况,而且中位数的检验也是比较独立感兴趣的部分,例如:“人均收入”,“平均房价”;研究分位数的实例,比如:研究北京市市民的收入为多少才算是“最富的20”范围等等。第二部分内容是Wilcoxon符号秩检验,对象是单一样本或两配对样本,我们学过成对样本的检验(正态的t检验),当时是将两成对样本作差,观察它们的差值,将其视为新的样本,所以两配对样本实际上就是单一样本。Wilcoxon符号秩检验主要是检验总体中位数,它是符号检验的改进,引入秩,从而比符号检验利用了更多的样本信息。但Wilcoxon符号秩检验要求总体服从对称分布,在此条件不易满足的情况下,符号检验还是有效些!第三部分是CoxStuart趋势检验,即我们希望通过对数据的分析,判断其对应的实际问题有没有增长或减少的趋势。例如,人口有无增长趋势,机场的旅客吞吐量有无增长或降低的趋势,通过病患人数判断疫情是否得到控制,或者还在进一步的发展等等。这是对回归分析的一个补充。最后一个部分是随机性的游程检验。也就是数据的随机性检验,例如,通过编程,可以让计算机随机生成数据,但生成的数据是不是随机的呢?我们可以通过随机游程检验来判断。这些分位数检验,数据的发展趋势检验,数据的随机性检验,都没有简单的参数方法与之对应,所以在这些情况下,非参数方法是有绝对优势的!第一节 符号检验符号检验(sign test)是非参数统计中最古老的检验法。最早可追溯到Arbuthnot于1710年一项有关伦敦出生的男婴性别比是否超过1/2。这个报告可能是第一个公开出版的非参数检验的报告,它考察了伦敦82年来每年的出生记录,并比较了每年出生的男性和女性的数目,将记录的数目用于假设检验,在本课程中我们会介绍这个结果。符号检验虽然是简单的非参数方法,但是最经典的非参数统计,体现了非参数统计的基本思想。符号检验主要包括两个问题: (1)中位数的符号检验; (2)分位数的符号检验。这实际上是一个问题,即分位数检验。刚才说过,把中位数单独拿出来讲有其独立的意义。提问:我们为什么不是检验均值呢?这是因为:均值和中位数都可以表示数据的中心位置,在参数统计中,总体的中心位置常用总体的均值表示,所以检验中心位置就是检验均值,例如正态的;而在非参数统计中,总体的中心位置常用总体中位数表示,也就是检验总体中心位置就是检验其中位数。关于这点,可以这样理解:均值和中位数相比,第一,均值不一定存在,但中位数一定存在,且可能不唯一。参数统计中,一般假设总体是正态的,其均值一定存在!而在非参数统计中,分布未知,均值是否存在也未知。第二,在总体分布对称,且均值存在的条件下,均值和中位数是相等的。在参数统计,且假设总体服从正态分布时,因正态分布对称,所以检验其均值即相当于检验其中位数!关于均值和中位数的进一步的知识,可参见课本P13P15。先看一个例子,即课本P28例3.1。例2.1 某市劳动和社会保障部门的资料说明,1998年高级技师的年收入的中位数为21700元。该市某个行业有一个由50名高级技师组成的样本。这些高级技师的年收入如下:略经计算,这50名高级技师年收入的中位数为23276,超过了全市高级技师年收入的中位数21700。那么,在总体中该行业高级技师的年收入的中位数是否比全市高级技师的年收入的中位数高?显然,这个假设检验问题的原假设和备择假设分别为: , 符号检验操作很简单。将每一个样本数据与21700相比较,然后计算有多少个样本数据比21700大,本例有32个样本数据大于21700。一般来说,在原假设下,即中位数为21700时,比21700大和比21700小的样本数据应该差不多是一样的,但现在比21700大的样本多于比21700小的样本,这就说明总体中该行业高级技师的年收入的中位数要大于21700。(一)中位数的符号检验问题的一般提法如下:设样本独立同分布,总体为。符号检验对于总体的分布仅作这样的假设:。由此可见,。如果总体服从连续型分布,这个假设必定成立。由给定数据,对总体的中位数进行假设检验。A原假设和备择假设有以下三种情况: (1) , (2) , (3) , B检验统计量 等价于: ,则当原假设成立时,服从参数为和1/2的二项分布,即。或者,检验统计量取为 等价于: ,则当原假设成立时,服从参数为和1/2的二项分布,即。所以H0成立时,和同分布,可从中任选一个作为检验统计量。注意到,实际上是,就是因为假设。C p值 令,表示由样本算出来的检验统计量的值。(1) , ,或 解释:因为备择假设是中位数比大,也就是说:若备择假设成立,则有多于半数的样本数据要比大,即此时大于样本量的一半。所以越大就越接受备择假设,拒绝原假设;相应就是越小就越接受备择假设,拒绝原假设。(2), ,或解释:因为备择假设是中位数比小,也就是说:若备择假设成立,则有多于半数的样本数据要比小,即此时大于样本量的一半。所以 越大就越接受备择假设,拒绝原假设;相应就是越小就越接受备择假设,拒绝原假设。(3), 或。D解释符号检验的由来。从这里我们也可以看出来这类检验之所以叫符号检验,是因为它选取的检验统计量是利用样本和原假设中位数的差的正负个数来定的,且只用到了样本与原假设中位数之差是正负的信息!E. 回到实例3.1假设检验: , , 取水平,所以拒绝原假设,接受备择假设,认为该行业高级技师的年收入的中位数大于21700。注:实际问题中可能有某一些观察值正好等于,这时有以下两种处理方法:方法之一,舍去这些值,并相应减少样本容量的值;(minitab用的这种)方法之二,修正的表达式为: (二)分位数Q的检验问题。分位数的符号检验又称为广义符号检验。分位数检验问题的一般提法:样本独立同分布,总体为。广义符号检验对于总体的分布仅作这样的假设:设为总体的分位数,且,由此可见,。如果总体服从连续型分布,这个假设必定成立。A原假设和备择假设的三种情况: (1) , (2) , (3) , B检验统计量 等价于: 则H0成立时,服从参数为和的二项分布,即。或者, 等价于:则在H0成立时,服从参数为和的二项分布,即。注意:在分位数检验中,两个检验统计量的分布是不同的,但仍有,就是因为假设。可从和中任选一个作为检验统计量。从分布来看,选择比较方便些。Cp值 令,表示由样本算出来的检验统计量的值。(1),或解释:若成立,则说明有更多的数比大,所以越大越拒绝。(2), ,或解释:若成立,则说明有更多的数比小,所以越小越拒绝。(3), 或 。D实例2.2下面是世界上71个大城市的花费指数按递增次序排列如下:1: 27.8 27.8 29.1 32.2 32.7 36.4 36.5 37.5 37.7 38.8 41.9 45.213: 45.8 46.0 47.6 48.2 49.9 51.8 52.7 54.9 55.0 55.3 55.5 58.2 60.826: 62.7 63.5 64.6 65.3 65.3 65.3 65.4 66.2 66.7 67.7 71.2 71.7 73.939: 74.3 74.5 76.2 76.6 76.8 77.7 77.9 79.1 80.9 81.0 82.6 85.7 86.252: 86.4 89.4 89.5 90.3 90.8 91.8 92.8 95.2 97.5 98.2 99.1 99.3 100.065: 100.6 104.1 104.6 105.0 109.4 122.4 可以假定这个样本是从世界许多大城市中抽样而得到的。所有大城市的指数组成了总体。两个问题为: (1)样本中位数是否大于64? (2)样本下四分位数是否小于64?解答:(1)中位数检验。对应的假设检验为:, , 这里,。 或 因此,可以对于显著性水平,拒绝原假设,即中位数应该大于64。(2)分位数检验对应的假设检验为:,同样,。 或 因此对于显著性水平,拒绝原假设,即下四位点应该小于64。(三)符号检验的置信区间主要介绍中位数的置信区间1定义:对于显著性水平为的中位数的双边符号检验,不会使原假设被拒绝的那些点的集合,即的水平为的接受域。注:也就是说中位数的置信区间对应于双边检验的接受域。对于上述双边检验,刚才讨论过它们的检验统计量及其分布,还有值等等,所以给出它的原假设的接受域并不难,一般求法如下:以检验统计量为例。2. 一般求法:给出双边假设检验 ,的水平为的拒绝域,即: 或,其中为不大于的整数,则接受域为: 。 现在的问题,这个接受域是以的形式给出的,而我们想要得到中位数的置信区间,所以还差了一点。这就是下面我们要讨论的问题。问题:如何进一步将接受域转化为用样本表示的的置信区间?将样本按从小到大的顺序排列为。关键看和的意义。如果,则;,则。如果,则;,则。看要倒过来看,比较麻烦,所以判断要容易一些。先看拒绝域的一部分:,即。则时,接受,所以当时,。再看拒绝域的另一部分,即,则时,接受。 所以当时,。综上所述,的置信区间为,若取样本的值为置信区间的端点,则为。对于中位数的置信区间,因为其符号检验对称,和的地位是一样的,所以求其置信区间比较方便,关于分位数的置信区间,我们知道和的分布不一样,所以它的求法比较麻烦,在此略去不讲。(四)符号检验在定性数据分析中的应用前提:若定性数据只取两个值,就可以使用符号检验对它进行统计分析。例2.3 (课本上对应例3.2)某项调查询问了2000名青年人。问题是:“你认为我们的生活环境是比过去更好、更差还是没有变化?”有800人觉得“越来越好”,有720人觉得“一天不如一天”,有400人表示“没有变化,一直如此”,还有80人说不知道。根据调查,你是否相信,在总体中认为“我们的生活环境比过去好”的人比“认为我们的生活环境比过去更差”的人多?我们的处理方法是:我们只关心回答“我们的生活环境比过去好”的人和“认为我们的生活环境比过去更差”的人,这样的人一共有1520人,即样本容量,令p表示回答“我们的生活环境比过去好”的人在这个总体中所占的比例。所以该问题的假设检验为: , 如何取统计量呢?利用符号检验的思想,用符号“”表示回答“我们的生活环境比过去好”。用符号“”表示回答“我们的生活环境比过去更差”。这即为取两个值的定性数据。检验统计量则表示值为“”样本数据的个数。本例中。由于“”出现的概率为,所以。本例中,在原假设下,。计算值,。注:此处有连续修正的概念需要讲解。因为较大,所以我们用二项分布的正态近似来计算值,正态近似的公式为: ,即 。另外一种计算值的方法就是 这两种结果不相等,其原因就在于二项分布是离散型分布,正态分布是连续型分布。所以在离散型分布用连续型分布近似时,要作连续型修正,按英国统计学家F. Yates在1934年提出的,设,则Yates连续型修正为 , , 。取连续修正之后的值近似为0.021366586,位于以上两个值之间。第二节 Wilcoxon符号秩检验符号检验利用了样本与原假设中心位置的差的符号来进行检验,但它没有利用这些差的大小,如果可以把这些差的大小都考虑进去,利用了更多的信息,则检验会更有效。这节课,我们就介绍处理单样本问题的另一种方法Wilcoxon符号秩检验。Wilcoxon符号秩检验(Wilcoxon signed-rank test )是非参数统计中符号检验法的改进,它不仅利用了观察值和原假设中心位置的差的正负,还利用了差的值的大小的信息。虽然是简单的非参数方法,但却体现了秩的基本思想。例2.4 下面是10个欧洲城镇每人每年平均消费的酒量(相当于纯酒精数)(单位:升)。数据已经按升幂排列。 4.12 5.18 7.63 9.74 10.39 11.92 12.32 12.89 13.54 14.45人们普遍认为欧洲各国人均年消费酒量的中位数相当于纯酒精8升,也就是。由数据算得的中位数为11.16。因此,我们的检验设为: ,先描述操作步骤:(1)先计算每个样本值和原假设中的值之差,即。(2)考虑这些差的绝对值并将绝对值从小到大排序,从而求出这些绝对值的秩。(3)再计算比8大的样本对应的绝对值的秩之和,如果这个和比较大,我们就拒绝原假设,接受备择假设。直观解释为什么要这么做,如下: 计算各样本数据与8的差及其差值绝对值的秩:样本数据4.125.187.639.7410.3911.9212.3212.8913.5414.45与8的差值-3.82-2.72-0.371.742.393.924.324.895.546.45差值绝对值的秩54123678910若差值为“”的较多,而且正值的绝对值较大,则说明差值的中位数比0大,即样本数据的中位数比8大。此时对应的绝对值的秩之和也较大。至于这个秩和要多大才拒绝原假设将在后面详细讨论。问题一般提法: 假定样本来自分布连续对称的总体,在此假定下总体的中位数等于均值。问题主要是检验中位数,即原检验为,相对于各种单双边的备择假设。注:(1)总体对称的假设是Wilcoxon符号秩检验所特有的,符号检验没有这种假设。假定分布对称将有助于理论上给出Wilcoxon符号秩检验统计量的分布!(2)在总体分布对称的假设下,即假设总体的分布关于点对称,则的均值和中位数相同,且均为。所以检验总体中位数可转化为检验总体对称中心,即检验等价于,备择假设对应为各种单双边的备择假设。下面我们都取检验为总体的对称中心的检验。(一)Wilcoxon符号秩检验的检验步骤检验步骤: (对应于各单双边备择假设) Step 1. 计算,。将差记为。(首先计算样本数据和原假设对称中心之差的绝对值,若为0,则只需计算各样本的绝对值)。 Step 2. 将差的绝对值按从小到大的顺序排列。由于总体服从连续型分布,不妨假定样本互不相等,都不等于0,且样本的绝对值也互不相等。所以可得到各样本绝对值的秩,不妨记的秩为。 Step 3. Wilcoxon符号秩和检验统计量为 ,或者取检验统计量为: ,在这里,我们只采用一个统计量,即。Step 4 再根据的分布来求值。设表示由样本算出的的值。(1) , ;(2) , ;(3), 。下面来看看Step 4中的值是怎么确定的。首先要做出一个说明:对于对称中心不为0的总体分布,可以转化为中心为0的情况进行检验!将原始数据做中心化处理,即将原始数据都减去原假设中的对称中心的值,则要检验原始数据服从对称中心为的分布,等价于检验中心化后的数据服从对称中心为0的分布。所以我们不妨假设,则原假设变为。再回忆对称分布的定义。若的密度函数是偶函数,即的分布关于原点0对称,也就是说,对任意实数,都有。若是密度函数,不难证明也是密度函数,所以在密度函数为偶函数时,关于直线对称,即对应的随机变量的分布关于点对称。关于点对称的分布满足:对任意,都有。现不妨假设,则原假设变为。(1),。若成立,即,则总体的分布关于点对称。从而 ,即 。且对任意正数, 即对任意正数,。所以不仅观察到的取正值的样本数据的个数比较多,且取正值的样本数据的绝对值也比较大。由此可见,成立时,的值较大。所以。注意:实际问题的处理中,我们也可以先将数据做一个中心化处理,然后问题转化为对称中心是否为0的检验。在下面的例子中,我们先不对数据做中心化处理,目的是为了进一步熟悉Wilcoxon符号秩检验的操作步骤。回到例2.4。例 2. 4中我们的检验设为: ,下面来用Wilcoxon符号秩检验,等价于检验 ,计算,利用的分布,辅以统计软件,可计算出。所以给定时,此时可拒绝原假设,认为欧洲人均酒精年消费多于8升。(二)的分布。不妨设原假设为,即总体分布关于原点0对称的条件下,讨论的性质。注:与有下列关系:, 性质2.1(关键) 令,则在总体的分布关于原点0对称时,与同分布。 注:具体证明可参见4附录4。(1)是当时的特殊情况。即把原来的样本观察值相互交换次序,使得,则。 (2)与随机变量和都有关系,而仅仅和随机变量有关系,而且的分布是已知的两点分布,所以研究的性质比直接研究的要简单得多。性质2.2 在总体的分布关于原点0对称时,的概率分布为 ,其中,表示从这个数中任取若干个数(包括一个都不取),其和恰为,共有多少种取法。证明思路:总体的分布关于原点0对称,即1/2; 考虑的分布,即两点分布,概率为1/2; 讨论的取值和分布,此即的分布。性质 2.3 在总体的分布关于原点0对称时,服从对称分布,对称中心为,即:对所有的,有 ,。性质 2.4 在总体分布关于原点0对称时, ,。性质 2.5 若总体分布关于原点0对称,则在样本容量趋于无穷大时,有渐近正态性: 。有结的时候有结的情况下,用平均秩法。性质2.6 在总体的分布关于原点0对称,有结秩取平均时, , 其中表示结的个数,表示第个结的长度。 注意:有结时,的期望和方差实际上是条件期望和方差,它们是在样本数据中给定有个结,且结的长度分别给定为时的条件期望和条件方差。(三)与符号检验的比较。续例 2.4 两个不同方向的假设检验。 考虑下面的假设检验: , (H2)比较它与前一个假设检验: , (H1)对这两个问题分别用Wilcoxon符号秩检验和符号检验方法。之所以这样比较,是因为8在该数据按升幂排列的第三和第四个观察值之间;而12.5在该数据按降幂排列的第三和第四个数据之间。这个检验对于符号检验是对称的。我们在这里想看看,这两个检验对于Wilcoxon检验有什么不同。符号检验结果 对于检验(H1): , , 检验统计量, ,对,不能拒绝原假设。 对于检验(H2): , , 检验统计量, ,对,不能拒绝原假设。结果完全对称!说明符号检验只与符号有关!Wilcoxon符号秩检验结果 对于检验(H1): 检验统计量,对,拒绝原假设。 对于检验(H2): 检验统计量, ,对,不能拒绝原假设。结果不对称!说明Wilcoxon符号秩检验不仅与符号有关,还和数值大小有关!在总体的分布是对称的假设下,Wilcoxon检验比符号检验更加有效,如果对称性不成立,则还是符号检验有效。(四)Wilcoxon符号秩检验置信区间1. Walsh平均 为利用更多的信息,可求每两个数的平均,,(一共有个)来扩大样本数目。这样的平均称为Walsh平均。 在原假设成立的条件下,即成立,有 特别当原假设为成立,有 。2. HodgeLehmann估计量利用Walsh平均可以得到对称中心的点估计,即可由Walsh平均的中位数来估计对称中心,称之为HodgeLehmann估计量。 3. 的置信区间 可利用Walsh平均得到的置信区间。具体步骤:(1) 先求出满足下面两式的整数,即使得 ,(2) 将求出的Walsh平均数,按升幂排列,记为,则的置信区间为。 再看看例2.4的置信区间。 求出其Walsh平均,共55个值。取,则求得时,有 ,所以的95的置信区间为 。 (五)两配对数据比较问题两成对数据的比较问题可以转化成单样本问题,用符号检验或Wilcoxon符号秩检验做统计分析。方法是将两成对样本作差,观察它们的差值,将其视为新的样本,所以两配对样本实际上就是单一样本。 例2.5 给12组双胞胎做心理检验,以测量每个人的进取心。我们感兴趣的是对双胞胎进行比较,看第一个出生的是否倾向于比另外一个更有进取心。结果如下,高分显示更多的进取心。表中,表示第一个出生的得分,表示第二个出生的得分。表示两者差,即,。表示绝对值的秩。则是独立同分布的,且设总体为。 问题是求的中位数的95置信区间。操作步骤:(1)的12个值按顺序排列为: -15, -12, -10, -8, -7, -4, -3, -1, 2, 5, 6 , 9(2)取,查表可得。则的95的置信区间为。(3)这15个最小的平均,由(-15-15)/2开始,是 -15, -13.5, -12.5, -12, -11.5, -11, -11, -10, -10, -9.5, -9.5 ,-9, -9, -8.5, -8所以,即置信区间下界是8。(4) 15个最大的平均,从(9+9)/2开始,是 9, 7.5, 7, 6, 5.5, 5.5, 5, 4, 4, 3.5, 2.5, 2, 2, 1.5 ,1所以,,置信区间的上界是1。所以中位数95的置信区间是8,1。第三节 Cox-Stuart趋势检验 在客观世界中会有许多各种各样随时间变动的数据序列,我们通常关心这些数据随时间变化的规律,也就是进行趋势分析。例如:依据病患人数判断疫情是否已经得到控制,或者是否还在增长等等。首先关心趋势是否存在,若存在,再根据实际需要应用更精细的模型去刻画。现在随着计算机的发展,许多时候都是对趋势的存在性问题和确定性一起研究,比如回归分析。 回归分析是常用的趋势分析工具,说明数据是否存在着线性趋势,存在着怎样的线性趋势。但用回归分析也有其局限性,问题在于:1. 如果模型不能通过检验,那么趋势是否存在?2. 是否应该将所有可能的检验穷尽才能回答这个问题?3. 即使模型通过检验,也只能说在模型的假设下,数据的趋势是存在的。现在一般判断趋势的方法(已经学过的),是提出一个模型,再检验它是否合适,最后做出判断。Cox和Stuart在研究数列趋势时,提出了一种不依赖趋势结构的快速判断趋势是否存在的方法,即Cox-Stuart趋势检验。其理论基础是符号检验,所以这节可以为是符号检验的一个应用。但注意,它检验的目标和符号检验不同,只是利用了符号的思想。 我们在本课程中主要介绍两种趋势检验的方法:Cox-Stuart趋势检验和趋势的秩检验,秩检验主要是对多样本情形,我们今天介绍的这个针对单样本的检验方法,也可用多样本的秩检验来完成,以后介绍。例2.6 天津机场从1995年1月到2003年12月的108个月旅客吞吐量(人次)如下图。从这些数据,我们能否说明这个差额总的趋势是增长,还是减少,还是都不明显呢?由上图可以看出,总的趋势似乎是增长,但并不总是增长的。我们知道,若数据的趋势是增长的,即越往后数据越大,那么排在前面的数据比排在后面的数据要小,若用后面的数据减去前面的数据,则差值为正数的情况较多;反之,若数据的趋势是减少的,那么如果排在后面的数据减去排在前面的数据,差值出现负值的情况比较多。即将数据自己与自己比较。这里共有108个数,我们以第54个数为界把数据分成两部分,即前半部分和后半部分。用第55个数减去第1个数,第56个数减去第2个数,第108个数减去第54个数。即记,。计算后得出,54个差值中,有16个取负值的,38个取正值的。正值的情况比较多,说明数据有增大的趋势。 具体解该例。假设检验:数据无趋势; :数据有增长的趋势。 检验统计量: 同理,也可以取为检验统计量。因为是依据为正负的个数来判断数据的发展趋势,我们只关心的符号,而不管其具体的值,所以可认为这个检验是符号检验的一个应用。类似于符号检验,取为检验统计量。检验统计量的分布:在原假设成立的条件下,即数据无趋势时,相当于的值在一条平行于轴的直线附近波动,这时和均服从参数为54和1/2的两点分布。这里取检验统计量,若取水平或更小的,则我们可以拒绝原假设,即认为数据有增长的趋势。 这个例题所用的方法就是我们今天要介绍的Cox-Stuart趋势检验。Cox-Stuart趋势检验的一般提法:假设独立同分布的观测值来自于分布为的总体,我们希望知道这批数据是否有增长或减少的趋势存在。为此进行假设检验。原假设和备择假设:(1) :数据无趋势; :数据有增长的趋势。 (2) :数据无趋势; :数据有减少的趋势。 (3) :数据无趋势; :数据有增长或减少的趋势。 注意:在形式上,以上检验问题可以认为是多样本问题,可重新叙述为: 假设独立观测值分别来自分布为的总体,这里分布函数关于原点对称。即每个总体各取了一个样本,个样本分别来自于个总体。单边检验: (1) :数据无趋势; :数据有增长的趋势。 可转化为 , ()检验的思想: 直接考虑数据的变化趋势,若数据有上升趋势,那么排在后面的数据的值要比排在前面的数据的值显著得大;反之,若数据有下降的趋势,那么排在后面的数据的值要比排在前面的数据的值显著得小。换句话说,我们可以生成一些数对,每一个数对是从前后两个不同时期中各选一个数构成,再求这些数对中的两个数据的差,这些差值的正负可以反映数据的变化趋势。但应注意:1 每对数据中前后两个数的间隔应固定,否则不具可比性。2 为保证数对不受局部干扰,前后两个数的间隔应该较大,但又不能过大,否则数对数量过少,难以判断。基于以上的考虑,Cox-Stuart提出最优的拆分点是数列的中间位置的数。和前面所学方法不同,这里不需要将数据按从小到达的次序排列!也不是依据中位数来拆分!具体而言:令取和组成数对,则当为偶数时,共有对;当为奇数时,共有对。计算每对数对前后两值之差:。 检验统计量: 记 ,等价于: ,其中 其中,表示不等于0的数对的个数。则原假设成立时,服从参数为和1/2的二项分布,即。或者,记 ,等价于: ,其中 ,其中,表示不等于0的数对的个数。则原假设成立时,服从参数为和1/2的二项分布,即。p值:类似于符号检验有: 令,表示由样本算出来的检验统计量的值。(1) :数据无趋势; :数据有增长的趋势。 或 (2) :数据无趋势; :数据有减少的趋势。 或 (3) :数据无趋势; :数据有增长或减少的趋势。 或 。第四节 游程检验 游程检验亦称连贯检验或串检验,是一种随机性检验方法,应用范围很广。例如:奖券的购买是否随机,期货价格的变换是否随机,一个机械流程中产品误差的出现是否存在规律等等。若事件的发生并非随机,而是有规律可循,则可作出相应的对策。我们常常会考虑样本观测值是否随机出现,因为这关系到数据是否独立。在参数统计里,研究这一问题是相当困难的,要证明数据独立同分布则更难。但是从非参数统计的角度来看,如果数据有上升或下降的趋势,或有呈周期性变化的规律等特征时,均可能表示数据不是随机出现的。例2.7 假定我们掷23次硬币,以概率得正面(记为1),以概率得反面(记为0);这是一个Bernoulli试验,得到结果如下: 0 0 0 0 0 0 0 1 1 1 1 1 1 0 0 0 0 1 1 1 1 0 0问这个试验是不是随机的? 思路: 利用0和1出现的集中程度来判断这个试验是否是随机的。一几个基本概念。基本概念1. 游程:在一个二元01序列里,一个由0或1连续构成的串。2. 游程长度:一个游程里数据的个数。3. 一个序列里游程个数用表示。例如下面的一个01
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 艺考生体态管理制度
- 苏州锅炉房管理制度
- 课件学习-操作指南
- 财务会计与管理知识分析模拟题
- 视觉感知生物识别领域应用分析
- 自动控制原理第2章练习题
- 河南省平顶山市鲁山县五所学校2025届九年级下学期中考三模生物试卷(含答案)
- 财务会计实务11财务报表教案
- 2025年android通知!2025中级Android开发面试解答最强技术实现
- 山东遗传生物题目及答案
- 2024年煤矿电气失爆专题培训课件
- 《电机与电气控制》期末考试复习题库(含答案)
- 医疗废物的分类与管理
- MOOC 电子线路设计、测试与实验(一)-华中科技大学 中国大学慕课答案
- 高速公路交通事故处理流程与责任认定
- 观光电梯方案
- 盲人心理健康讲座
- 混凝土箱涵技术规程
- 电力电子技术在电力系统中的应用
- 地铁站保洁方案
- 《律师执业纪律与职业道德》考试复习题库(含答案)
评论
0/150
提交评论