非参数检验相关资料(ppt 78页).ppt_第1页
非参数检验相关资料(ppt 78页).ppt_第2页
非参数检验相关资料(ppt 78页).ppt_第3页
非参数检验相关资料(ppt 78页).ppt_第4页
非参数检验相关资料(ppt 78页).ppt_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本资料来源,第12章非参数检验,说明:非参数检验这章,请看下面吴喜之教授的讲义,更为具体的可参看统计分析与SPSS的应用薛薇编著人大出版社,2002.7第二次印刷,非参数检验的概念,是指在总体不服从正态分布且分布情况不明时,用来检验数据资料是否来自同一个总体假设的一类检验方法。由于这些方法一般不涉及总体参数故得名。这类方法的假定前提比参数性假设检验方法少的多,也容易满足,适用于计量信息较弱的资料且计算方法也简单易行,所以在实际中有广泛的应用。,非参数检验的过程,1.Chi-Squaretest卡方检验2.Binomialtest二项分布检验3.Runstest游程检验4.1-SampleKolmogorov-Smirnovtest一个样本柯尔莫哥洛夫-斯米诺夫检验5.2independentSamplesTest两个独立样本检验6.KindependentSamplesTestK个独立样本检验7.2relatedSamplesTest两个相关样本检验8.KrelatedSamplesTest两个相关样本检验,12.1卡方检验Chi-Squaretest,这里介绍的卡方检验可以检验列联表中某一个变量的各个水平是否有同样比例或者等于你所想象的比例(如5:4:1)实例1:掷骰子300次,变量LMT,1、2、3、4、5、6分别代表六面的六个点,试问这骰子是否均匀。数据data12-01(300个cases)。AnalyzeNonparametricTestsChiSquareTestVariable:lmt想要检验的变量由于这是一个均匀分布检测,使用默认选择(ExpectedValues:Allcategoriesequal作为零假设);比较有用的结果:sig=.1110.5,不能拒绝零假设,认为均匀。实例1的数据可以组织成:两个变量(side面和number次数),6个cases。但在卡方检验前要求用number加权。结果同。,补充:卡方检验实例,实例:心脏病人猝死人数与日期的关系,收集168个观测数据。其中用1、2、3、4、5、6、7表示是星期几死的。而人数分别为55、23、18、11、26、20、15。推断心脏病人猝死人数与日期的关系是否为2.8:1:1:1:1:1:1。(变量2个:死亡日期和死亡人数,Cases7个)加权:DataWeightCases:死亡人数AnalyzeNonparametricTestsChiSquareTestVariable:死亡日期ExpectedValues:2.8:1:1:1:1:1:1比较有用的结果:sig=.2560.5,不能拒绝零假设,认为心脏病人猝死人数与日期的关系为2.8:1:1:1:1:1:1。,12.2二项分布检验Binomialtest,二项分布:在现实生活中有很多的取值是两类的,如人群的男和女、产品的合格和不合格、学生的三好学生和非三好学生、投掷硬币的正面和反面。这时如果某一类出现的概率是P,则另一类出现的概率就是1-P。这种分布称为二项分布。实例1:掷一枚比赛用的挑边器31次,变量tbh,1为出现A面、2为出现A面,试问这挑边器是否均匀。数据data12-03(31个cases)。AnalyzeNonparametricTestsBinomialTestVariable:tbh由于这是一个均匀分布检测,使用默认选择(TestProportion:0.5);比较有用的结果:两组个数和sig=1.000.5,不能拒绝零假设,认为挑边器是均匀。实例1的数据可以组织成:两个变量(side面和number次数),2个cases。但在二项分布检验前要求用number加权。结果同。,补充:二项分布检验实例,实例:为验证某批产品的一等品率是否达到90,现从该批产品中随机抽取23个样品进行检测,结果有19个一等品(1一等品,0非一等品)。(变量2个:一等品和个数,Cases2个:119和04)加权:DataWeightCases:个数AnalyzeNonparametricTestsBinomialTestVariable:一等品TestProportion:0.9比较有用的结果:两组个数和sig=.1930.5,不能拒绝零假设,认为该批产品的一等品率达到了90。,12.3游程检验Runstest,单样本变量随机性检验是对某变量值出现是否随机进行检验。实例1(同二项分布检验):掷一枚比赛用的挑边器31次,变量tbh,1为出现A面、2为出现A面,试问这挑边器出现AB面是否随机。数据data12-03(31个cases)。AnalyzeNonparametricTestsRunsTestVariable:tbhCutPoint:Custom:2比较有用的结果:总case数(31)、游程Run数(21)、sig=.1420.5,不能拒绝零假设,认为挑边器出现AB面是随机的。,12.4一个样本柯尔莫哥洛夫-斯米诺夫检验1-SampleKolmogorov-Smirnovtest,单样本KS检验是利用样本数据推断总体是否服从某一理论分布,适用于探索连续型随机变量的分布形态(判断定距变量的分布情况):Normal正态分布、Uniform均匀分布、Poisson泊松分布、Exponential指数分布。实例:卢瑟福和盖革作了一个著名的实验,他们观察了长为7.5秒的时间间隔里到达某个计数器的由某块放射物资放出的alfa粒子质点数,共观察了2608次。数据data12-05(1个变量zd,2608个cases,按010排序)。试问这种分布规律是否服从泊松分布AnalyzeNonparametricTests1-SampleK-STestVariable:zdTestDistribution:Poisson比较有用的结果:均值(3.8673)、sig=.8500.5,不能拒绝零假设,认为服从泊松分布。,12.5两个独立样本检验2independentSamplesTest,通过分析两个样本数据,推断它们的分布是否存在显著性差异。方法有四种:Mann-WhitneyU:是通过对平均秩的研究来实现推断的KSZ:是通过对分布的研究来实现推断的Mosesextremereactions:一个作为控制样本,另一个作为实验样本WaldWolfwitzRuns:是通过对游程的研究来实现推断的实例:甲乙两种安眠药服用后的效果。数据data12-06(2个变量:组别zb和延长时间ycss,20个cases)。试问这两种药物的疗效是否有显著性差异。AnalyzeNonparametricTests2independentSamplesTestVariable:ycssGrouping:zb(1,2)Testtype:四种均选比较有用的结果:比较四个sig值,有三个sig.5,不能拒绝零假设认为疗效无显著性差异。,12.6多个独立样本检验KindependentSamplesTest,通过分析多个样本数据,推断它们的分布是否存在显著性差异。方法有三种:Median:是通过对中位数的研究来实现推断的KW:是通过对推广的平均秩的研究来实现推断的JT:与两个独立样本检验的Mann-WhitneyU类似实例:某车间用四种不同的操作方法检测产品优等品率的实验数据。数据data12-07(2个变量:方法ff和优等品率ydpl,21个cases)。试问这四种不同的操作方法对产品优等品率是否有显著性差异。AnalyzeNonparametricTestsKindependentSamplesTestVariable:ydplGrouping:ff(1,4)Testtype:三种均选比较有用的结果:比较三个sig值,K-W方法的sig.009.5,但不用,原因是观测量太少。,12.7两个相关样本检验2relatedSamplesTest,同一个被测试者,前后测两次,彼此相关。方法有四种。实例:某校15名男生的长跑锻炼后晨脉变化数据。数据data12-08(2个变量:锻炼前dlq和锻炼后dlh优,21个cases)。试问锻炼前后的晨脉有无显著性差异。AnalyzeNonparametricTests2relatedSamplesTestPairs:dlqdlhTesttype:选一种或多种比较有用的结果:看sig值,sigNonparametricTestskrelatedSamplesTestVariables:abcTesttype:选一种或多种比较有用的结果:看sig值,sig.05,不能拒绝正态分布(Normal)零假设。,由于sig=.000.05,不能拒绝指数分布(Exponential)零假设比较三种分布检验,认为是该数据服从指数分布,SPSS软件使用说明,使用我们的ksdata.sav数据。选项为AnalyzeNonparametricTests1SampleK-S。然后把变量(这里是x)选入VariableList。再在下面TestDistribution选中零假设的分布(Normal、Poisson、Uniform和Exponential)作为零假设。在点Exact时打开的对话框中可以选择精确方法(Exact),MonteCarlo抽样方法(MonteCarlo)或用于大样本的渐近方法(Asymptoticonly)。最后OK即可。,关于随机性的游程检验(runtest),游程检验方法是检验一个取两个值的变量的这两个值的出现是否是随机的。假定下面是由0和1组成的一个这种变量的样本(数据run1.sav):0000111111001011100000000其中相同的0(或相同的1)在一起称为一个游程(单独的0或1也算)。这个数据中有4个0组成的游程和3个1组成的游程。一共是R=7个游程。其中0的个数为m=15,而1的个数为n=10。,关于随机性的游程检验(runtest),出现0和1的的这样一个过程可以看成是参数为某未知p的Bernoulli试验。但在给定了m和n之后,在0和1的出现是随机的零假设之下,R的条件分布就和这个参数无关了。根据初等概率论,R的分布可以写成(令N=m+n),关于随机性的游程检验(runtest),于是就可以算出在零假设下有关R的概率,以及进行有关的检验了。利用上面公式可进行精确检验;也可以利用大样本的渐近分布和利用MonteCarlo方法进行检验。利用上面数据的结果是:,关于随机性的游程检验(runtest),当然,游程检验并不仅仅用于只取两个值的变量,它还可以用于某个连续变量的取值小于某个值及大于该值的个数(类似于0和1的个数)是否随机的问题。看下面例子。例(run2.sav):从某装瓶机出来的30盒化妆品的重量如下(单位克)71.671.071.870.370.572.971.071.070.171.871.970.370.969.371.267.367.667.767.668.168.067.569.867.569.770.069.170.471.069.9为了看该装瓶机是否工作正常,首先需要验证是否大于和小于中位数的个数是否是随机的(零假设为这种个数的出现是随机的)。,关于随机性的游程检验(runtest),如果把小于中位数的记为0,否则记为1,上面数据变成下面的01序列111111110111101000000000000110这就归为上面的问题。当然这里进行这种变换只是为了易于理解。实际计算时,用不着这种变换,计算机会自动处理这个问题的。直接利用这个数据,通过SPSS,得到下面游程检验结果的输出。,SPSS软件使用说明,用run2.sav数据。选项为AnalyzeNonparametricTestsRuns。然后把变量(这里是length)选入VariableList。再在下面CutPoint选中位数(Median)。当然,也可以选其他值,如均值(Mean),众数(Mode)或任何你愿意的数目(放在Custom)。注意在对前面的由0和1组成的序列(run1.sav进行随机性检验时,要选均值(为什么?)。在点Exact时打开的对话框中可以选择精确方法(Exact),MonteCarlo抽样方法(MonteCarlo)或用于大样本的渐近方法(Asymptoticonly)。最后OK即可。,Wilcoxon(Mann-Whitney)秩和检验,这里介绍常用的Wilcoxon(或称Mann-Whitney)秩和检验。它的原理很简单,假定第一个样本有m个观测值,第二个有n个观测值。把两个样本混合之后把这m+n个观测值升幂排序,记下每个观测值在混合排序下面的秩。之后分别把两个样本所得到的秩相加。记第一个样本观测值的秩的和为WX而第二个样本秩的和为WY。这两个值可以互相推算,称为Wilcoxon统计量。该统计量的分布和两个总体分布无关。由此分布可以得到p-值。直观上看,如果WX与WY之中有一个显著地大,则可以选择拒绝零假设。该检验需要的唯一假定就是两个总体的分布有类似的形状(不一定对称)。,Wilcoxon(Mann-Whitney)秩和检验,下面数据(GDP.sav)是地区1的十个城市和地区2的15个城市的人均GDP(元)。现在要想以此作为两个样本来检验两个地区的人均GDP的中位数m1和m2是否一样,即双尾检验H0:m1=m2对Ha:m1m2。由于地区2的人均GDP的中位数大于地区1的中位数,因此也可以做单尾检验H0:m1=m2对Ha:m1m2。地区1:3223452638362781598232164710562823034618地区2:539139834076594147484600632545345526569970085403667855375257由SPSS的输出可以得到下面结果:,Wilcoxon(Mann-Whitney)秩和检验,该结果头两行显示了Mann-Whitney和Wilcoxon统计量的值。另外和我们需要结果的相关部分为:对于双尾检验H0:m1=m2对Ha:m1m2,p-值为0.016(见“ExactSig.(2-tailed)”);而对于单尾检验H0:m1=m2对Ha:m1m2(见“ExactSig.(1-tailed)”),p-值为0.008。这两个结果是精确计算的。通常在样本量大的时候利用近似方法得到渐近分布的p-值(见“Asymp.Sig.(2-tailed)”),它只给了双尾检验的近似p-值0.017,和精确值差别不大。注意单尾检验的p-值是双尾检验的p-值的一半。这个例子的结果表明,可以拒绝原假设,即有理由认为地区2的人均GDP的中位数要高一些。,SPSS软件使用说明,使用GDP.sav数据。选项为AnalyzeNonparametricTests2IndependentSamples。把变量(gdp)选入TestVariableList;再把用1和2分类的变量area输入进GroupingVariable,在DefineGroups输入1和2。在TestType选中MannWhitney。在点Exact时打开的对话框中可以选择精确方法(Exact),MonteCarlo抽样方法(MonteCarlo)或用于大样本的渐近方法(Asymptoticonly)。最后OK即可,两样本分布的Kolmogorov-Smirnov检验,假定有分别来自两个独立总体的两个样本。要想检验它们背后的总体分布相同的零假设,可以进行两独立样本的Kolmogorov-Smirnov检验。原理完全和单样本情况一样。只不过把检验统计量中零假设的分布换成另一个样本的经验分布即可。假定两个样本的样本量分别为n1和n2,用S1(X)和S2(X)分别表示两个样本的累积经验分布函数。再记DjS1(Xj)-S2(Xj)。近似正态分布的检验统计量为,计算结果,twonp.sav:两种破坏性试验的持续时间。根据这个数据,n1=30,n2=25。由SPSS输出,得到,SPSS软件使用说明,使用twonp.sav数据。选项为AnalyzeNonparametricTests2IndependentSamples。把变量(duration)选入TestVariableList;再把用1和2分类的变量type输入到GroupingVariable,在DefineGroups输入1和2。在TestType选中Kolmogorov-SmirnovZ。在点Exact时打开的对话框中可以选择精确方法(Exact),MonteCarlo抽样方法(MonteCarlo)或用于大样本的渐近方法(Asymptoticonly)。最后OK即可,两样本Wald-Wolfowitz游程检验,Wald-Wolfowitz游程检验(Wald-Wolfowitzrunstest)和Kolmogorov-Smirnov检验都是看两个样本所代表的总体是否分布类似。但是所采取的方法不一样。Wald-Wolfowitz游程检验把两个样本混合之后,按照大小次序排列,一个样本的观测值在一起的为一个游程。和单样本的游程问题类似。可以由游程个数R看出两个样本在排序中是否随机出现。由twonp.sav数据,可以得到下面SPSS关于Wald-Wolfowitz游程检验的输出:,软件使用:数据和前面一样,只在TestType选Wald-Wolfowitzruns。,Kruskal-Wallis关于多个样本的秩和检验,这个检验的目的是看多个总体的位置参数是否一样。方法和Wilcoxon-Mann-Whitney检验的思想类似。假定有k个总体。先把从这个k个总体来的样本混合起来排序,记各个总体观测值的秩之和为Ri,i=1,k。显然如果这些Ri很不相同,就可以认为它们位置参数相同的零假设不妥(备选假设为各个位置参数不全相等)。,Kruskal-Wallis关于多个样本的秩和检验,注意这里所说的位置参数是在下面意义上的qi;由于它在分布函数Fi(x)中可以和变元x相加成为F(x+qi)的样子,所以称qi为位置参数。形式上,假定这些样本有连续分布F1,Fk,零假设为H0:F1=Fk,备选假设为Ha:Fi(x)=F(x+qi),i=1,k,这里F为某连续分布函数,而且这些参数qi并不相等。Kruskal-Wallis检验统计量为,Kruskal-Wallis关于多个样本的秩和检验,公式中ni为第i个样本量,而N为各个样本量之和(总样本量)。如果观测值中有大小一样的数值,这个公式会有稍微的变化。这个统计量在位置参数相同的零假设下有渐近的自由度为k-1的c2分布。Kruskal-Wallis检验仅仅要求各个总体变量有相似形状的连续分布。,数据house.sav:三个区域房价的数据,为了调查三个地区的房价是否类似,在每个地区抽样,得到三个样本量分别为20、30、25的房价样本。利用SPSS软件,很容易得到下面的检验结果:,SPSS软件使用说明,使用house.sav数据。选项为AnalyzeNonparametricTestsKIndependentSamples。把变量(这里是price)选入TestVariableList;再把数据中用1、2、3来分类的变量group输入GroupingVariable,在DefineGroups输入1、2、3。在下面TestType选中Kruskal-WallisH。点Exact时打开的对话框中可以选择精确方法(Exact),MonteCarlo抽样方法(MonteCarlo)或用于大样本的渐近方法(Asymptoticonly)。最后OK即可,Jonckheere-Terpstra多样本的秩检验,这个检验处理的问题和Kruskal-Wallis检验类似,零假设都是各个总体的位置参数相同,但这里的备选假设为各个总体的位置参数按升幂排列(如为降幂排列,可把总体编号颠倒顺序即为升幂排列)。注意这里所说的位置参数和前面的Kruskal-Wallis检验中的位置参数意义一样。Jonckheere-Terpstra检验先在每两个样本所有观测值对之间比较,计算第i个样本观测值中小于第j个样本观测值的对子数:,数据house.sav:三个区域房价的数据,很容易得到SPSS的Jonckheere-Terpstra检验结果输出:,SPSS软件使用说明,使用house.sav数据。选项为AnalyzeNonparametricTestsKIndependentSamples。把变量(这里是price)选入TestVariableList;再把数据中用1、2、3来分类的变量group输入GroupingVariable,在DefineGroups输入1、2、3。在下面TestType选中Jonckheere-Terpstra。在点Exact时打开的对话框中可以选择精确方法(Exact),MonteCarlo抽样方法(MonteCarlo)或用于大样本的渐近方法(Asymptoticonly)。最后OK即可,Brown-Mood中位数检验,在有数个独立样本的情况,希望知道它们的中位数是否相等。零假设是这些样本所代表的总体的中位数相等。备选假设是这些中位数不全相等。假定有k个总体,ni为第i个样本量;把所有样本量之和记为N。先把从这个k个总体来的样本混合起来排序,找出它们的中位数。再计算每个总体中小于该中位数的观测值个数O1i,i=1,k,和每个总体中大于该中位数的观测值个数O2i,i=1,k。这样就形成了一个由元素Oij组成的2k表。其列总和为ni,i=1,k;而两个行总和为各样本小于总中位数的观测值总和:R1O11+O12+O1k及各样本大于总中位数的观测值总和R2O21+O22+O2k。这显然是一个列联表,可以用Pearsonc2统计量,即,house.sav数据,这里,SPSS软件使用说明,使用house.sav数据。选项为AnalyzeNonparametricTestsKIndependentSamples。把变量(这里是price)选入TestVariableList;再把数据中用1、2、3来分类的变量group输入GroupingVariable,在DefineGroups输入1、2、3。在下面TestType选中Median。在点Exact时打开的对话框中可以选择精确方法(Exact),MonteCarlo抽样方法(MonteCarlo)或用于大样本的渐近方法(Asymptoticonly)。最后OK即可,Friedman秩和检验,前面讨论了两因子试验设计数据的方差分析,那里所用的F检验需要假定总体的分布为正态分布。有一种非参数方差分析方法,称为Friedman(两因子)秩和检验,或Friedman方差分析。它适用于两个因子的各种水平的组合都有一个观测值的情况。,Friedman秩和检验,假定第一个因子有k个水平(称为处理,treatment),第二个因子有b个水平(称为区组);因此一共有kbkb个观测值。这里之所以称一个因子为处理,是因为这是我们想要看该因子各水平是否对试验结果有显著的不同(它的各个水平的观测值也就是本小节的多个相关样本)。而另一个因子称为区组,不同的区组也可能对结果有影响。下面是一个例子。,数据fert.sav,这里有三种肥料作为第一个因子(肥料因子)的三个水平;而四种土壤为第二个因子(土壤因子)的四个水平。感兴趣于是否这三种肥料对于某作物的产量有区别。称肥料因子为处理,而土壤因子为区组。数据在下表中(表中数字为相应组合的产量,单位公斤)。,Friedman秩和检验,Friedman秩和检验是关于位置的,和Kruskal-Wallis检验类似,形式上,假定这些样本有连续分布F1,Fk,零假设为H0:F1=Fk,备选假设为Ha:Fi(x)=F(x+qi),i=1,k,这里F为某连续分布函数,而且这些参数qi并不相等。虽然这和以前的Kruskal-Wallis检验一样,但是由于区组的影响,要首先在每一个区组中计算各个处理的秩;再把每一个处理在各区组中的秩相加.如果Rij表示在j个区组中第i个处理的秩。则秩按照处理而求得的和为,Friedman秩和检验,这样做的目的是在每个区组内比较处理。例如,同个年龄段中比较药品的疗效比不分年龄来比较疗效要合理;在同一个部位比较不同的材料要比混合起来比较要合理等等。这里要引进的Friedman统计量定义为,第一个式子表明,如果各个处理很不一样,和的平方就会很大,结果就显著。第二个公式是为了计算方便而导出的。它有近似的(有k-1个自由度的)c2分布。,fert.sav数据,SPSS软件使用说明,使用fert.sav数据。选项为AnalyzeNonparametricTestsKRelatedSamples。然后把变量(这里是a、b、c)选入TestVariableList。在下面TestType选中Friedman。在点Exact时打开的对话框中可以选择精确方法(Exact),MonteCarlo抽样方法(MonteCarlo)或用于大样本的渐近方法(Asymptoticonly)。最后OK即可,Kendall协同系数检验,在实践中,常需要按照某些特别的性质来多次对一些个体进行评估或排序;比如几个(m个)评估机构对一些(n个)学校进行排序。人们想要知道,这些机构的不同结果是否一致。如果很不一致,则该评估多少有些随机,意义不大。换句话说,这里想要检验的零假设是:这些对于不同学校的排序是不相关的或者是随机的;而备选假设为:这些对不同学校的排序是正相关的或者是多少一致的。,Kendall协同系数检验,一个机构对诸个体(学校)的秩(次序)的和为1+2+n=n(n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论