非参数统计课件_第1页
非参数统计课件_第2页
非参数统计课件_第3页
非参数统计课件_第4页
非参数统计课件_第5页
已阅读5页,还剩210页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

非参数统计第一章绪论主要内容1.统计的实践2.非参数统计方法简介3.参数统计过程与非参数统计的比较4.非参数统计的历史5.必要的准备知识1.统计的实践我们周围的世界符号和数据就是整个世界。数据繁衍,信息匮乏:观察数据激增,设计数据细分。数据的复杂性和不确定性的特点更为突出。数据分析方法和手段不足。统计的方法论就方法论而言,统计分析主要解决两方面的问题:

寻找数据内部差异中共同的特征。寻找数据之间本质的差异。统计分析的目标是从数据中发现比数据本身更为有用的知识2.非参数统计方法简介参数方法定义:样本被视为从分布族的某个参数族抽取出来的总体的代表,而未知的仅仅是总体分布具体的参数值,推断问题就转化为对分布族的若干个未知参数的估计问题,用样本对这些参数做出估计或者进行某种形式的假设检验,这类推断方法称为参数方法。比如:(1)研究保险公司的索赔请求数时,可能假定索赔请求数来自泊松分布P(a);(2)研究化肥对农作物产量的影响效果时,平均意义之下,每测量单元(可能是)产量服从正态分布N(a,b).一个典型的参数检验过程1.总体参数Example:PopulationMean2.假定数据的形态为

WholeNumbersorFractions

Example:HeightinInches(72,60.5,54.7)3.有很强的假定Example:正态分布4.例子:ZTest,tTest,

2Test一个例子:对两组学生进行语法测试,如何比较两组学生的成绩是否存在差异?原始数据秩2530293424251332243032379.514.012.021.07.59.52.017.57.514.017.524.04433228473140303335182135282226.019.55.51.027.016.025.014.019.522.53.04.022.511.05.5非参数检验过程1.不涉及总体的分布Example:ProbabilityDistributions,Independence2.数据的形态各异定量数据定序数据Example:Good-Better-Best名义数据Example:Male-Female3.例子:WilcoxonRankSumTest/RunTestF,F,F,F,F,F,F,F,M,M,M,M,M,M,MF,M,F,M,F,M,F,M,F,M,F,M,F,M,F3.参数统计与非参数统计比较对总体假定较少,有广泛的适用性,结果稳定性较好。1.假定较少2.不需要对总体参数的假定3.与参数结果接近针对几乎所有类型的数据形态。容易计算在计算机盛行之前就已经发展起来。非参数检验的优点1. 可能会浪费一些信息特别当数据可以使用参数模型的时候。Example:ConvertingDataFromRatiotoOrdinalScale2. 大样本手算相当麻烦3. 一些表不易得到非参数检验的弱点本学期内容结构体系非参数统计的主要内容内容非参数检验相应的参数检验2独立样本中位数检验秩和检验独立样本t检验2配对样本/单一样本符号检验Wilcoxon检验成对样本t-检验>2独立样本Kruskal-Wallis检验单一因素ANOVA两因素Friedman检验双因素ANOVA相关性检验Spearman秩相关Pearson相关性检验分布的检验Kolmogorov-Smirnov4.非参数统计的历史非参数统计的历史非参数统计的形成主要归功于20世纪40年代~50年代化学家F.Wilcoxon等人的工作。Wilcoxon于1945年提出两样本秩和检验,1947年Mann和Whitney二人将结果推广到两组样本量不等的一般情况;Pitman于1948年回答了非参数统计方法相对于参数方法来说的相对效率方面的问题;非参数统计的历史(续)60年代中后期,Cox和Ferguson最早将非参数方法应用于生存分析。70年代到80年代,非参数统计借助计算机技术和大量计算获得更稳健的估计和预测,以P.J.Huber以及F.Hampel为代表的统计学家从计算技术的实现角度,为衡量估计量的稳定性提出了新准则。90年代有关非参数统计的研究和应用主要集中在非参数回归和非参数密度估计领域,其中较有代表性的人物是Silverman和J.Fan。5.必要的准备知识(1)假设检验(2)渐进相对效率(3)秩检验统计量(4)U统计量(1)假设检验回顾问题:

(a)新引进的生产过程是否优于旧过程?(b)几种不同的肥料哪一种更有效?(c)大学生的就业率与城市失业率之间是否存在关系?内容

(a)假设的真正涵义和作用(b)如何选择零假设和备择假设(c)检验的p-值和显著性水平的作用(d)两类错误(e)置信区间和假设检验之间的关系单边检验和双边检验的p值??例2:Poisson分布

H0:>1H1:按照假设检验的步骤,可以选取统计量为检验统计量,检验的目的是使得

C=5C=7同样显著性水平之下的检验在

不同样本量下的势函数0.99012630.9997043(2)检验的相对效率渐进效率的概念分位数和非参数置信区间秩检验统计量无结点秩的定义例题:某学院本科三年级有9个专业组成,统计每个专业学生每月消费数据如下,用S-Plus求消费数据的秩和顺序统计量的现值:

300230208580690200263215520

2.有结数据的秩设样本取自总体X的简单随机抽样,将数据排序后,相同的数据点组成一个“结”,称重复数据的个数为结长。例1:3.83.21.21.23.43.23.2解:结长为3。U统计量核的概念例:总体期望有无偏估计X1,总体期望是1可估的,X1是总体期望的核。对称核和U统计量的概念U统计量的特征计算U统计量的大样本性质U统计量举例第一节S-Plus环境S-Plus用户界面算术运算S-PlusS语言和S的扩展S-Plus,是由AT&TBell实验室于20世纪70年代末~80年代初研制开发的,其中RickBecker和JohnChambers是主要创始人之一。S-Plus的主要应用特点:S-Plus拥有强大的面向对象的开发环境。作为标准的统计语言,S拥有几乎所有,在S-Plus中,用户可以随处自定义的各种函数,延伸基本的分析方法。

作为面向对象的语言,S集数据的定义、插入、修改和函数计算等功能于一体,语言风格统一,可以独立完成数据分析生命周期的全部活动。S-Plus提供了非常丰富的2D和3D图形库。与S-Plus类似的有新近开发的R,R最早由Auckland大学统计系的RobertGentleman和RossIhaka于1995年开始研制开发,从1997年开始免费公开发布。R在计算功能上比S-Plus有更高的效率,但由于推出时间较短,因而不如S-Plus普及。S-Plus和R二者在语法和功能实现上区别不大,因而学习S-Plus的用户可以轻松转到R,反之亦然。S-Plus界面六项内容:ObjectExplorer(对象浏览器);CommandsWindow(命令窗口);GraphSheets(图形操作表);ScriptWindow(草稿窗口);Menus(菜单);Toolbars(工具栏)。第二节向量的基本操作

一、向量的定义和表示二、向量的基本操作二、向量的算术运算三、向量的逻辑运算一、向量的定义一、算术运算:S-Plus默认的命令提示符是“>”1)计算7X3,可如下执行命令:

>7*3>212)计算(7+2)X3,可如下执行命令:

>(7+2)*3>423)计算\log2

(12/3),可如下执行命令:

>log(12/3,2)>24)计算幂2X32,可如下执行命令:

>2*(3^2)>18一、向量的定义二、赋值:

>x<-3>y_1+x

屏幕打印变量如下,x:

>x>3>print(x*y)>12

二、向量的基本操作

1、连接命令;2、序列命令seq;3、循环命令rep;1、连接命令

例1:>A.brand<-c(15,27,89)#生成数值类型的向量

>A.brand*0.8[1]12.021.671.2>title.text<-c(“This”,“is”,“for”,“sale”)#生成非数值类型的向量1.向量a中第i位置元素表示:

>A.brand[1][1]15>A.brand[length(A.brand)][1]89

如果输入的位置超出向量的长度,则S-Plus输出NA,NA表示数据缺失,如下所示:

>A.brand[6][1]NA1、连接命令(续)2.在向量中插入新的数据:在A.brand向量末尾添加两个新产品价格的书写方法是:例1续:>add.A.brand<-c(A.brand,189,240)>add.A.brand[1]152789189240在向量的开头插入新数据的书写方法如下:>addbegin.A.brand<-c(12,13,A.brand)[1]1213152789思考题1:如何在向量的第i个位置后插入数据?1、连接命令(续)3.向量与向量的合并:B.brand<-c(35,40,58)AB.brand<-c(A.brand,B.brand)[1]152789354658

向量中元素的个数,称为向量的长度,查看向量中元素的个数,可以使用length命令,如下所示:length(add.A.brand)[1]51、连接命令(续)4.在向量中删除数据:将A.brand向量中起始位置的产品价格删除的方法用减法表示,如下表示:例1续:>delete.A.brand<-add.A.brand[-1]>delete.A.brand[1]2789189240

将A.brand向量末尾的产品价格删除的方法是:

>delete.A.brand<-add.A.brand[-length(add.A.brand)]>delete.A.brand[1]1527891892、序列命令seqseq命令的语法如下所示:

seq(lower,upper,[increment],[length],...)例2:>seq(1,10)[1]12345678910>seq(1900,2000,6)[1]1900190619121918192419301936194219481954[11]1960196619721978198419901996>seq(1,0,-0.1)[1]1.00.90.80.70.60.50.40.30.20.10.0>1:10#seq(1,10)>seq(0,1,0.05,length=10)3、循环命令reprep命令的语法结构如下所示:

rep(pattern,numberoftimes,length)例3>rep(2,6)222222>rep(c(0,5),2)0505>rep(1:3,3)123123123>rep(c(1,4,6),length=5)14614

思考题3:猜测如下程序的输出结果:rep(c(1,2,3),c(1,2,3))三、向量的算术运算向量算术运算是对标量运算的扩展:例4:>a<-seq(0,20,3)>2*a061218243036>a<-2*(0:2)>b<-1:3四、向量的逻辑运算S-Plus中有两个逻辑值:TRUE和FALSE:>3==4F

常用的逻辑运算符如表1.3:向量的逻辑运算例:例6:假设price表示某一公司推出的所有产品价目表,将price中大于10的所有数据找出来:

>price<-c(2,3,10,11,15)>large10<-price[price>10][1]1115第三节复杂的数据结构矩阵数组数据框架列表一、矩阵1.定义矩阵:

例7:假定有国民经济数据data,其中显示了2003年中国、日本、韩国三个国家的国家生产总值GDP(单位:1012US$),年末人口(单位:亿)及通货膨胀率(单位:100%):>macroecno<-c(1.4,12.92,1.2,4.5,0.56,-0.8,10.88,2.91,1.2)>asia.data<-matrix(macroecno,nrow=3,ncol=3,byrow=T,dimnames)>asia.data[,1][,2][,3][1,]1.412.921.2[2,]4.50.56-0.8[3,]0.40.51.7例题例7续:给数据指定列名和行名:>dimnames(asia.data)NULL>dim(asia.data)3,3><-c("P.R.China","Japan","KOREA")><-c("GDP","POP","INFLAT")>dimnames(asia.data)<-list(,NULL)>asia.data[,1][,2][,3]P.R.China1.412.921.2Japan4.50.56-0.8KOREA0.40.51.7>dimnames(asia.data)<-list(NULL,)例题(续)>asia.dataGDPPOPINFLAT[1]1.412.921.2[2]4.50.56-0.8[3]0.40.51.7>dimnames(asia.data)<-list(,)>asia.dataGDPPOPINFLATP.R.China1.412.921.2Japan4.50.56-0.8KOREA0.40.51.7>dimnames(asia.data)[[1]]:[1]"P.R.China""Japan""KOREA"[[2]]:[1]"GDP""POP""INFLAT"1、矩阵2.矩阵元素的表示:矩阵a中第i,j位置的元素表示为:a[i,j],比如:

>asia.data[2,1:2]GDPPOP4.50.56例7续:>asia.data[2,]GDPPOPINFLAT4.50.56-0.8>asia.data["Japan","POP"]<-59#可以用行名或列名直接提取行或列向量

>asia.data["Japan","POP"]591、矩阵3.矩阵的运算:(1)元素对元素的加、减、乘、除法运算是向量的运算的确延拓。(2)一个数与矩阵的运算相当于数与矩阵的每一个元素的运算。(3)矩阵用%*%表示:

>a[,1][,2][1,]13[2,]24

(4)>x<-c(2,1)>a%*%x[,1][1,]5[2,]8>solve(a)[,1][,2][1,]-21.5[2,]1-0.5思考题4.计算asia.data中的人均GDP.1、矩阵4.矩阵的合并:

增加若干列用cbind函数,增加若干行用rbind函数;求矩阵列数用cnol表示,求解矩阵行数用rnol表示:>a[,1][,2][1,]13[2,]24>addc<-c(5,6)>a<-cbind(a,addc)>aaddc[1,]135[2,]246思考题5.在asia.data中插入Australia数据:GDP:0.53;POP:0.10;INFL:2.3.二、数组数组则是多维矩阵,生成数组与生成矩阵类似:>a<-array(1:24,c(3,4,2))>a,,1[,1][,2][,3][,4][1,]14710[2,]25811[3,]36912,,2[,1][,2][,3][,4][1,]13161922[2,]14172023[3,]151821242.数组的行列计算函数:

apply(data,dim,function,...)

例1.7续:计算asia.data中GDP,POP,INFLAT的最小值:>apply(asia.data,2,min)GDPPOPINFLAT0.40.5-0.8例1.7续:求数组asia.data中的最小值所在的行和列:

>col(a)[asia.data==min(asia.data)]>3>row(a)[asia.data==min(asia.data)]>2思考题6.请输出asia.data中GDP最小值所在的行和列.三、数据框架

数据框架可以理解为二维数据表,其中不同列具有不同的数据类型。

>asia.frame<-data.frame(asia.frame,IS.AS)>asia.frameGDPPOPINFLATIS.ASP.R.China1.412.921.2ASJapan4.50.56-0.8ASKOREA0.40.51.7AS>apply(asia.data,2,max)GDPPOPINFLAT4.512.921.7四、列表

列表是比数据框架更为松散的数据结构,列表可以将不同类型,不同长度的数据打包,而数据框架中要求被插入的数据长度和原来的长度是一致的。

>IS.AS<-c("P.R.China","Japan","KOREA")>list(asia.frame,country)[[1]]:GDPPOPINFLATIS.ASP.R.China1.412.921.2ASJapan4.50.56-0.8ASKOREA1.44.50.4AS[[2]]:[1]"P.R.China""Japan""KOREA"第四节数据处理1.从键盘输入数据:

例8:>x_scan()1:23456885:3477:>x[1]23456883472.读入矩阵:

例9:>matrix(scan("c:\\data\\wh.txt"),,3)V1V2V310.640.32020.280.14130.001.230第四节数据处理3.读入数据框架:>a_read.table("c:\\data\\wh.txt",header=T)V1V2V310.640.32020.280.14130.001.230第四节数据处理编写函数:常用的函数控制命令及语法如下所示:

控制结构:if(condition){语句1}else{语句2}

循环结构:for(变量in序列)语句while(condition)语句repeat(语句)

跳出:break举例例11:计算1,2,…数列的连乘积,直到积大于105.\small\begin{verbatim}>n<-0#iterationcounter>times.so.far<-1while(times.so.far<=10^5){n<-n+1times.so.far<-times.so.far*n}常用统计函数dnorm(x):计算标准正态分布点x处的密度值;pnorm(x,2,1):计算均值为2,标准差为1的正态分布点x处的分布函数值P(X<x);qnorm(p,3,2):计算均值为3,标准差为2的正态分布p-分位数;rnorm(n):产生标准正态分布伪随机数n个.x<-1:20y<-x**3plot(x,y)points(rev(x),y)lines(x,5432-0.5*y)points(x^0.5,y,pch=3)#addcrossespoints(x,8000-y,pch="$")#useadollarsymbollines(x,y,lwd=4)#thicklinelines(rev(x),y,lty=2)#dashedlineplot(x,y,xlab="XIsAcross",ylab="YisUp")title("TitlesareTops")text(6,4000,"Thisgoesanywhere")

第五节S-Plus图形功能作图:继续y<-rt(200,df=5)qqnorm(y)qqline(y,col=2)x<-seq(-10,10,length=30)y<-xf<-function(x,y){r<-sqrt(x^2+y^2);10*sin(r)/r}z<-outer(x,y,f)persp(x,y,z)第一节符号检验和分位数推断假设总体,M是总体的中位数,对于假设检验问题:是待检验的中位数取值

定义,,,则,在零假设情况下,在显著性水平为的拒绝域为其中k是满足上式最大的k值。

例3.1.假设某地16座预出售的楼盘均价,单位(百元/平方米)如下表所示:

36323125283640324126353532873335

One-samplet-Testdata:build.price-37t=-0.1412,df=15,p-value=0.8896alternativehypothesis:truemeanisnotequalto095percentconfidenceinterval:-8.0458537.045853sampleestimates:meanofx-0.5结果讨论k是满足式子的最大值

单边符号检验问题结论:符号检验在总体分布未知的情况下优于t检验!大样本结论当n较大时:当n不够大的时候可用修正公式进行调整。双边:,p-值左侧:,p-值右侧:,p-值

置信区间采用Neyman原则选择最优置信区间,首先找出置信度大于的所有区间,然后再从中选择区间长度最小的一个。对于大样本,可以用近似正态分布求置信区间。

根据顺序统计量构造置信区间:符号检验在配对样本比较运用

配对样本(x1,y1),(x2,y2),…(xn,yn)

将记为“+”,记为“-”,记为“0”,记P+

为“+”比例,P-

为“-”比例,那么假设检验问题:可以用符号秩检验。H0:P+=P-

H1:P+=P-例3.4如右表是某种商品在12家超市促销活动前后的销售额对比表,用符号检验分析促销活动的效果如何?连促销前促销后锁销售额销售额符号店14240+25760-33838044947+56365-63639-74849-85850+947470105152-118372+122733-

根据同样原理,可以将中位数符号检验推广为任意分位点的符号检验。Cox-Staut趋势存在性检验

检验原理:设数据序列:,双边假设检验问题:令:取数对,,为正的数目,为负的数目,当正号或者负号太多的时候,认为数据存在趋势。在零假设情况下Di服从二项分布。从而转化为符号检验问题。X1,X2,…,Xn例3.6某地区32年来的降雨量如下表问(1):该地区前10年来降雨量是否有变化?(2):该地区32年来降雨量是否有变化?年份19711972197319741975197619771978

降雨量206223235264229217188204

年份19791980198119821983198419851986

降雨量182230223227242238207208

年份19871988198919901991199219931994

降雨量216233233274234227221214

年份19951996199719981999200020012002

降雨量226228235237243240231210随机游程检验随机游程问题:一个二元0/1序列当中,一段全由0或者全由1构成的串成为一个游程,游程中数据的个数称为游程长度,序列中游程的个数记为R,反映0和1轮换交替的频繁程度。在序列长度N固定的时候,如果游程过少过者过多,都说明序列的随机性不好。当游程过多或者过少时,就会怀疑序列的随机性。例3.7序列1100001110110000111100共有8个游程检验原理和计算方法

设是由0或者1组成的序列,假设检验问题:

R为游程个数,假设有个0,个1,,这时R取任何一个值的概率都是,R的条件分布

建立了抽样分布之后,在零假设成立时,可以计算或者的值,进行检验。

X1,X2,…,Xn小样本的例子H0:样本中的观测是随机产生的.Ha:样本中的观测是随机产生的

=.05n1=18n2=8如果7

R

17,不能拒绝H0否则拒绝H0.1

2

3

4

5

6

7

8

9

10

11

12DCCCCCDCCDCCCCDCDCCCDDDCCCR=12由于7

R=12

17,不能拒绝H0RunsTest:大样本的例子经验表明:如果n1或n2>20,R

的抽样分布近似为正态RunsTest:大样本例子H0:样本中的观测是随机产生的.Ha:样本中的观测是随机产生的

=.05n1=40n2=10如果-1.96

Z

1.96,不能拒绝H0否则拒绝H0.11

2

3

4

5

6

7

8

9

0

11NNNFNNNNNNNFNNFFNNNNNNFNNNNFNNNNN12

13FFFFNNNNNNNNNNNN

R=13RunsTest:大样本例子-1.96

Z=-1.81

1.96,不能拒绝H0正态近似当时,利用正态分布近似:给定水平之后,可以利用近似公式得到拒绝域的临界值:Wilcoxon符号秩检验

基本概念及性质

对称分布的中心一定是中位数,在对称分布情况下,中位数不唯一,研究对称中心比中位数更有意义。

例:下面的数据中,O是对称中心吗?0Wilcoxon符号秩检验原理以及性质

首先设样本绝对值的顺序统计量,如果数据关于0点对称,那么对称中心两侧的数据疏密程度应该一样,整数在取绝对值以后的样本中的秩应该和负数在绝对值样本中的秩和相近。

用表示在绝对值样本中的秩,反秩由定义。表示的符号,称为符号秩统计量。Wilcoxon符号秩统计量定义为:Wilcoxon符号秩统计量的性质定理3.2如果零假设成立,那么独立于

定理3.3如果零假设成立,那么独立于

定理3.4如果零假设成立,那么独立同分布,

Wilcoxon符号秩检验步骤:3.令表示和对应的的秩和,令表示和对应的的秩和。

2.找出的秩,打结时取平均秩。1.计算4.双边检验,取,当W很小时拒绝零假设;对,取;对,取。

5.根据W的值查Wilcoxon符号秩检验分布表。对n很大的时候,可以采用正态近似。

Wilcoxon符号秩统计量分布

在小样本情况下可以计算Wilcoxon符号秩统计量的精确分布。在大样本情况下可以使用正态近似:

计算出Z值以后,查正态分布表对应的p-值,如果p-值很小,则拒绝零假设。

在小样本情况下,用连续性修正公式:

Wilcoxon符号秩检验导出Hodges-Lemmann估计性质及运用

定义:简单随机样本,计算其中任意两个数的平均,称为Walsh平均,即

定理:Wilcoxon符号秩统计量可表示为:

定义:假设独立同分布于,当F对称时,定义Walsh平均中位数:作为的Hodges-Lemmann估计。正态计分检验检验原理以及计算:基本思想是把升幂排列的秩用对应的正态分位点替代,为了保证秩为正的,用变化的式子:其中就是第个数据的正态记分。计算步骤

对假设检验问题:对单边或者双边。

1.将的秩按升幂排列,并加上对应的符号,也就是构造符号秩.2.用正态记分代替符号秩:

记,构造统计量:

3.T有近似的正态分布,当T大的时候,考虑拒绝零假设。

拟合优度检验原理以及计算

类别12….C总和观测频数

假设检验问题:观测频数和理论频数的差别作为检验总体分布和理论分布是否一致的标准,定义Pearson统计量:当,拒绝零假设。

Kolmogorov-Smirnov正态性检验

Kolmogorov-Smirnov正态性检验根据样本经验分布和理论分布的比较,检验样本是否来自于该理论分布。假设检验问题:

假设样本的经验分布函数为,定义当时,拒绝零假设。

Liliefor正态性检验

正态性检验根据样本经验分布和理论分布的比较,检验样本是否来自于该理论分布。假设检验问题:两样本位置和尺度检验样本之间相互独立,为位置参数,称为尺度参数。假设样本:(X1,X2,…,Xn)~i.i.d.F1

(Y1,Y2,…,Yn)~i.i.d.F2

Brown-Mood中位数检验Moses方法Mood检验Mann-Whitney秩和检验。

Brown-Mood中位数检验原理:在零假设成立时,如果数据有相同中位数,那么混合样本的中位数应该和混合前的项等。假设(X1,X2,…,Xn)~i.i.d.F(x),

(Y1,Y2,…,Yn)~i.i.d.F(x-)首先将两个样本混合,找出混合样本中位数,将X和Y按照在两侧分类计数,即:

在给定m,n和t的时候,在零假设成立时,A的分布服从超几何分布:

当A值太大时,考虑拒绝零假设。

计算和例子检验基本内容P-值

检验统计量

对于水平,如果p-值小于,那么拒绝零假设

大样本检验对于大样本情况下,可以使用超几何分布的正态近似进行检验:另外可求得置信区间:其中c和c’满足:

Mann-Whitney秩和检验假设样本来自于,来自于并且独立。假设检验问题:

将两个样本混合,在混合样本中的秩;定义,同样可定义,称为Wilcoxon秩和统计量。

W-M-W统计量称为Man-Whitney统计量:在零假设情况下,和独立同分布,并且和Wilcoxon秩和统计量等价。当统计量偏小的时候,考虑拒绝零假设。性质和检验定理4.2在零假设下:若,且,时:在检验时,,,其中a,b值由前面定理确定。在水平为拒绝域为:,其中k是使式子成立的最大值。对于打结的情况需要使用修正的公式。

典型例题例4.2例题解答Mood方差检验检验问题以及原理假定两分布位置参数相等,设,独立,检验问题:令表示在混合样本之中的秩,在零假设成立的情况下,有:考虑Mood秩统计量:如果X的方差偏大,那么M的值也应该偏大,对于大的M可以考虑拒绝零假设。

大样本近似在,且,的时候,可以采用大样本近似:其中对于打结情况可以考虑用修正公式.

Moses方差检验原理及计算过程:不用假定均值相等,设来自方差为的独立同分布样本;来自方差为的独立同分布样本。假设检验问题:

Moses方差检验统计量计算1.将随机分为组,每组k个观测,记为;将随机分为组,每组k个观测,记为

2.求每组内样本偏差平方和:

Moses方差检验统计量计算3.将,混合,并求出在混合样本中对应的秩.4.求第1组样本对应的秩和,构造Moses统计量:如果值很大,那么就考虑拒绝零假设。实际检验时可以查分布表。

本章内容多总体的统计检验多总体检验问题:Kruskal-Wallis单因素方差分析

基本原理:类似处理两个样本相关性位置检验的W-M-W方法类似,将多个样本混合起来求秩,如果遇到打结的情况,采用平均秩,然后再按样本组求秩和。

检验方法计算第j组的样本平均秩:

对秩仿照方差分析原理:得到Kruskal-Wallis的H统计量:

在零假设情况下,H近似服从,当的时候拒绝零假设。

对比其中每两组差异对比其中每两组差异的时候,用Dunn(1964)年提出用:其中如果那么表示i和j两组之间存在差异,,为标准正态分布分位数。

Jonckheere-Terpstra检验检验原理以及方法假设k个独立的样本:分别来自于k个形状相同的分布:.假设检验问题:至少有一不等式严格成立。计算步骤2.计算Jonckheere-Terpstra统计量:3.当J取大值的时候,考虑拒绝零假设,J精确分布可以查零分布表,对于大样本,可以考虑正态近似。

1.计算打结的情况时,采用变形的公式:例5.3例5.3解Friedman秩方差分析

样本1样本2…样本k区组1…区组2………………区组b…完全随机区组设计表

假设检验问题:

样本1样本2…样本k区组1…区组2………………区组b…秩和…在同一区组内,计算样本的秩,并求出:

检验统计量利用普通类似方差分析构造统计量:在零假设成立下,如果偏大,那么就考虑拒绝原价设。如果存在打结的情况,则可采用修正公式计算。

例5.5Hollander-Wolfe两处理

比较检验

当用Friedman秩方差分析,检验出认为处理之间表现出差异的时候,那么可以进一步研究处理两两之间是否存在差异。

Hollander-Wolfe检验公式:

其中,在打结的情况下可使用修正的公式。当时认为两个处理之间存在差异,其中,是显著性水平。例5.6随机区组调整秩和检验

假设检验问题:计算步骤1.计算每一区组的位置估计,中位数或平均值等,如:

2.计算,被称为调整观察值。

3.将全部调整观测值混合求秩,设对应的混合秩为,者称为调整秩。

其中检验在零假设成立时,Q

近似服从,当Q

偏大的时候,考虑拒绝原价设。出现打结时,需要用修正的公式。例5.7解答解答(续)Cochran检验检验原理以及计算:当完全区组设计,并且观测只是二元定性数据时,CochranQ检验方法进行处理。数据形式见下表。其中检验假设检验问题:CochranQ检验统计量:

Q近似服从分布,当Q值偏大的时候,考虑拒绝零假设。Durbin不完全区组分析

原理:可能存在处理非常多,但是每个区组中允许的样本量有限的时候,每一个区组中不可能包含所有的处理,比如重要的均衡不完全区组BIB设计。Durbin检验便是针对这种问题。表示第j个处理第i个区组中的观测值,Rij

为在第i个区组中第j个处理的秩,计算:构造统计量:当D值较大的时候,可以考虑拒绝零假设,认为处理之间存在差异。在零假设成立时,大样本情况下,D近似服从分布。打结的时候,只要长度不大,对结果影响不太大。例5.9

解答 列联表和检验独立性检验

假设检验问题:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论