非参数统计学讲义(第六章)讲稿2_第1页
非参数统计学讲义(第六章)讲稿2_第2页
非参数统计学讲义(第六章)讲稿2_第3页
非参数统计学讲义(第六章)讲稿2_第4页
非参数统计学讲义(第六章)讲稿2_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、非参数统计学讲义第六章分布检验和某些卡方检验 1 引 言本章属于拟合优度检验问题,即模型检验或分布的检验,属于非参数检验的范畴。在初等统计中,人们要想知道数据是否服从 某一特定分布,可以通过直方图,或P-P图,Q-Q图来直接判断,但这种直观的方式很不精确。本章将介绍几种分布的检验:K-S检验,Lilliefors检验和 2检验。实际上,K-S检验是在针对/2检验的缺点2检验与K-S检验均属拟合优度检验,但2检验常用于定类尺度测量数据,K-S检验还用于定序尺度测量数据;当预期频数较小时,2检验常需要合并邻近的类别才能计算,K-S检验则不需要,因此它能比2检验保留更多的信息;对于特别小的样本数目,

2、2检验不能应用,而 K-S检验则不受限制。上提出的。它们是建立在经验分布函数基础上的检验结果。 2 Kolmogorov 检验一、基本假设一般地要检验手中的样本是否来自某个已知F0(x),假定其真实分布为F(x),对应的检验类型有AH0:F(x) =F(x)对- xH1:F(x) = F(x)至少有一个xBH。:F(x)二F(x)对- x:F(x) : F(x)至少有一个xCH。::F(x)二 F(x)对一 xHi:F(x) F(x)至少有一个x设S(x)为该组数据的经验分布函数,则Xi x 的数目 Z I(Xx)S(x) -nn二、基本方法Kolmogorov于三十年代提出了一种基于经验分布

3、的检验方法,基本思想是:由格里文科定理,当n厂:时,样本经验分布 尺以概率1 一致收敛到总体分布 F,为此可以定义 S(x)到F0(x)的距离为D(S(x),F(x)二supS(x) -F(x)当Ho成立时,由格氏定理,D以概率1收敛到0,因此D的大小可以度量 F0(x)对总体分布拟合的好坏。可供选择的检验统计量分别为;类型 AD =supS(x) -F(x)x类型 BD =sup(F0(x) -S(x)x类型 CD=sup(S(x)-F0(x)x在实际操作时,如果有 n个观察值,用下面的统计量代替上面的DDn = maxmax S(N)-F(n), S(X-F(x)NOTE :由S(x)的取

4、值是离散的,考虑到跳跃性,该Dn能够保证S与F0之间取得最大距离; Dn在H0下的分布有表可查,P201 在大样本时,有近似分布 P(、. nDn :d)=. K(d),这里的分布函数 K(d)有表达式,P122,该分布有表可查 P203:三、应用举例【例6-1】轴承的内径检验检验某车间生产的20个轴承外座圈的内径,测得数据如下(单位:mm)表6-1轴承内径数据15.0415.3614.5714.5315.5714.6915.3714.6614.5215.4115.3414.2815.0114.7614.3815.8713.6614.9715.2914.95按照设计要求,这个内径应在15 0.

5、2mm,检验是否符合标准,即检验该数据是否来自均值J =15,方差二2 =0.22的正态分布。21013.413.814.215.015.416.2o o o NH istogram ( 例6-1.s ta 1v *20c )Var1 = 20*0.2*normal(x, 14.9115, 0.5216)14.615.015.415.8Var1: SW -W.6= 0.974415810, p = 0.8439!.细1420, Mean = 14.9115, StdD1560.52155915,Max = 15.87, Min = 13.66; D = 0.115991309, p “屮.,L

6、illiefors-p 0.32866 =d0.o2,拒绝H0,认为不满足要求。近似 二 nD =1.516 , P-值=0.9790.05,接受 H0。【例6-2】数理统计与管理论文作者服从洛特卡分布将46期的数理统计与管理的文章按第一作者统计,得到表7-2的结果。论文作者数是否服从洛特卡分布。表6-2论文数目与作者数的统计表论文数(x)作者(y)34327分析:洛特卡得岀这样的一个关系:若以x表示每一作者所著的论文数,与其相应的写x篇论文的作者数为y,则y与x成反比关系。即有xmLy =n 上(0.1)式中,N为论文总数,m、C为两个特定的常数,在不同的学科领域数值不同。假定根据表62提供

7、的数据,认为论文作者服从洛特卡分布,并对其真实性进行检验,首先必须确定它的理论分布,即计算岀m、C的值。估计m的值,通常采用最小二乘法。将(6.1)式进行对数变换,使其线性化,得到:In y = In N|_C -mln x(0.2)m相当于一元线性回归方程 Y=a bx中的回归系数b,根据表中的数据运用最小二乘法,得到m=3.0550。关于C值,可以用这样一个公式进行近似计算。这是1985年美国情报学家M丄.Pao教授在数学家的协助之下提出的。计算式为:1C 19_ 1/xm 1/(2119m) 1/(m -1)J9m m/(249m1)x 4经计算,C =1/(1.1908 - 0.000

8、062 - 0.001146 - 0.0000008)L 0.8389。因此46期数理统计与管理的论文与作者数 的理论洛特卡分布为f(y) =0.8389/ x3055(0.3)为了判定数理统计与管理论文作者的实际分布是否与理论分布一致,可以采用Kolmogorov检验。建立的假设组为H 0 : Sn(x) =Fo(x)对 _xH1 : Sn(x) =Fo(x)至少有一个 x理论累积频率F0(x)的各个值,可以将x分别代入(6.3)式计算得到,实际累积频率是将累计的作者数y分别除以作者总人数得到。计算结果,作者实际累积频率及理论累积频率及各个差值如表6-3。表6-3作者实际累积频率与理论累积频

9、率表x1234567洛特卡定律是1926年6月19日洛特卡(Vlachy)在美国颇有影响的学术刊物华盛顿科学院杂志上首先提出,它第一次提示 了作者与文献量的统计规律性。在这之后,洛特卡进一步发展了洛特卡定律,得岀这样的一个关系:若以x表示每一作者所著的论文数,与其相应的写x篇论文的作者数为y,则y与x成反比关系。F(x)0.83890.93980.96900.98110.98720.99070.9929Sn(x)0.89320.96350.98700.98960.99220.99481.0000Sn(x)F(x)|0.05430.02370.01800.00850.00500.00410.00

10、71D 二max Sn(x) _F(x) =0.0543根据显著性水平 a =0.0,作者人数n= y = 384 ,查表,由于n 45 ,得临界值. 6& /3 /3 显然I0.0 8 3 2D =0.0543 : d;. =0.0832因此数据在1%的显著性水平上不能拒绝H。,若显著性水平:.二0.05 ,查表得临界值d =1.36/ n =1.36/. 384 L 0.0694。显然D =0.0543 :.d. =0.0694因此,数据在5%的显著性水平上也不能拒绝 H0,可以认为,数理统计与管理作者的分布服从洛特卡分布。 3 Lilliefors 正态性检验N(;2)时,Xi标准化为:

11、Lilliefors正态性检验实质上是对 Kolmogorov检验的一个改进。当用Kolmogorov检验某样本是否来自一正态总体 当和匚2未知时,就会用样本均值X作为总体均值 的估计,样本方差 S2作为总体方差;2的估计,从而将数据Xi 卩Z ,再用标准正态分布 G(x)作Fo(x)来计算K氏统计量Dn。a但这时统计量 Dn在Ho下的分布发生了改变,Lilliefors ( 1976)对Kolmogorov的检验临界值表作了修正。 4 Smirnov两样本检验一、 Smirnov 检验主要用来检验两个样本是否同时来自于某一总体,设样本X1,X2J|,Xm来自F(x)分布,而样本Y1,Y2,|

12、,Yn来自分布为G( y)的总体。Smirnov检验的基本思想和 Kolmogorov检验一样,因此经常通称这两个检验为 Kolmogorov-Smirnov拟合优度检验, 简称K-S检验。1.基本假设检验类型为:类型AHo:F(x) =G(x)对-xH1:F(x) =G(x)至少有一个类型BHo:F(x) =G(x)对-XH1:F(x) :G(x)至少有一个类型CHo:F(x) =G(x)对-XH1:F(x) G(x)至少有一个xxx2.基本方法设Fm(x)和Gn(y)分别为这两个样本的经验分布函数。 则检验A的统计量可以取Dn =maxmax(|Fm(xJ _Gn(xJ| )ma| Fm(

13、yjGn(yj)(0.4)式中N =m nNOTE :含义 其它检验类型的统计量仿此可以写岀 dn的分布有表可查,大样本时,有近似分布DN dK(d)二、应用举例【例6-4】检验两个地区的华北五省市区和华东七省市1996年的GDP指数(前一年为100)数据如下:表6-4两个地区的GDP指数华北109.2114.3113.5111.0112.7华东113.0112.2112.7114.4115.4113.4112.2GDP指数是否具有相同的分布检验这两个地区的 GDP指数的分布是否相同。分析:数据的计算过程详见 P126DN =2/5 =0.4 cO.5714=d0.2 接受H0。x2拟合优度检

14、验 5检验目的:检验样本是否来自于某一特定的分布或总体。在20世纪初,Pears on提出了拟合优度的2统计量。其基本做法是:首先将样本区间进行分割,抽取了 n次试验),则X落在每个区间中的数目服从多项分布,我们就是让这个多项分布去逼近X的分布n个观察值(相当于做q =、k ( - npj2(0.5)k为划分的组数。其中:r为总体分布里待估参数的个数,卡方拟合优度检验就是用来检验一批分类数据所来自的总体分布是否与某种理论分布相一致,即检验其基本思想是:设总体可以分成k类,现对总体作了 n次观察,各类出现的频数分别为 n 1,n2,H 0 : F (x) Fo。k,且nj = n,则在 H0 i

15、=1成立时,应有实际频数 ni与理论频数npj相差不大。为此,在 20世纪初,Pearson提出了拟合优度的2统计量。q,抚 垃一 n 2(k -1)i 1npin y Pi(0.6) 6 二维列联表的齐性和独立性的检验2统计量特别适合于分类数据的各种模型的检验。因为在分类数据的场合不存在假设分布与由对总体支撑集的划分所导岀分布的区别。虽然 2检验统计量的形式一样,但对不同的目的和不同的数据结构的解释是不一样的。一、列联表的齐性检验实际问题中,常遇到:有 n组从不同来源得到的数据,要判定这些数据的来源是否相同3 (有相同的分布),统计上我们可以将这些问题表述为:假定有组样本,分别取自 k个总体

16、,要检验这k个总体的分布是否相同。这样的假设检验问题称为“齐次性检验”。对一般的二维列联表 P130,可以提出假设HoHTURc (i=1,2,川,r)H,:不全相等在Ho下,这些概率p与j无关,因此n的期望值(理论频数)为门豪片,冃.=口./ n孙,因此期望值ejj=nP=nn/n.,则Z2检验统计量为Q =】.ij(nij -ej)2ij2nijn “ J(0.7)二、列联表的独立性检验关心的目标是两个变量是否相互影响(独立)H:Pj 二PP$H,:至少有一个不相等Q = ij(nij -eij)2ejn2je讥ij(0.8)式中,eij =n P =n* Pn僚NOTE :对立联表的齐次

17、性检验和独立性检验,虽然检验的统计量均为2统计量且有相同的分布形式。但两者之间有一些实质性区别 独立性检验中的数据是取自一个总体的二维样本,而齐次性检验中的数据是取自多个总体的一维样本; 独立性检验是要检验两个变量的独立性,而齐次性检验则是要检验多个总体分布的齐次性; 在独立性检验中ni是随机变量,而齐次性检验中的ni不是随机变量;ii 独立性检验中的2统计量的极限分布只要在 n时,就成立,而齐次性检验中的2统计量的极限分布要在n 1, n2,111, nk都趋于无穷时才成立。三、应用举例【例6-7】人们去三个商场的概率是否一样在一个有三个主要百货商场的商贸中心,调查者问479个不同年龄段的人

18、首先去三个商场中的哪个,结果如下表表6-6 调查结果年龄段商场1商场2商场3总和 5041381089总和21519470479问:人们去这三个商场的概率是否一样 分析:列联表的齐次性检验H:Pi1 制)=Pi3 (i =1,2,3)H1 :不全相等如:有来自不同地区的地质样品,通过这些样品来了解这些地区的地质结构是否相同g -ej )2nj28327021022Q=2: =X 丄n =+| +=18.6511.143=瞪05j qj eij* 198x215/479 198x194/479 川 89x70/ 479拒绝H。【例6-8】在丧偶问题上的性别因素和地区因素是否独立按照1996年一个抽样,我国华北五省市区的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论