




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、主要内容 5.1 正态性检验*5.2 指数分布的检验 5.3 柯莫哥洛夫检验 5.4 2拟合优度检验设x1,x2,xn是来自总体X的一个样本,根据实践经验,可对总体X的分布提出如下假设:H0:X的分布为F(x)=F0(x)其中F0(x)可以是一个完全已知的分布,也可以是含有若干未知参数的已知分布,这类检验问题统称为分布的检验问题分布的检验问题。这类问题很重要,是统计推断的基础性工作。明确了总体分布或其类型就可进一步做深入的统计推断。这一章将先研究正态分布的检验问题,然后研究一般分布的检验问题。 5.1 正态性检验一个样本是否来自正态分布的检验称为正态性检验正态性检验。在这种检验中“样本来自正态
2、分布”是作为原假设H0而设立的,在H0为真下,人们根据正态分布特性构造一个统计量或一种特定方法,观察其是否偏离正态性。若偏离到一定程度就拒绝原假设H0,否则就接受原假设H0,所以“正态性检验”是指“偏离正态性检验”。由于正态分布的重要性,吸引很多统计学家参与正态性检验的研究,先后提出几十种正态性检验的定量方法,经过国内外多人多次用随机模拟方法对它们进行比较,筛选出如下两种正态性检验: 夏洛皮威尔克(Shapiro-Wilk)检验(8n50) 爱泼斯普利(Epps-Pully)检验(n8) 夏洛克威尔克检验又简称W检验,于1965年提出,分以下几步来叙述W检验产生的思想和使用方法。(1)设x1,
3、x2,xn是来自正态总体N(,2)的一个样本,x(1),x(2),x(n)为其次序统计量。令u(i)=(x(i)-)/,则u(1),u(2),u(n)为来自标准正态分布N(0,1)的次序统计量,且有如下关系 x(i)=+u(i),i=1,2,n(5.1.1)5.1.1 夏皮洛威尔克检验若把上式中u(i)用期望E(u(i)=mi代替,会产生误差,记此误差为i,这样上式可改写为x(i)=+mi+i,i=1,2,n(5.1.2)这是一元线性回归模型。由于次序统计量的关系,其中诸i是相关的。若记=(1,2,n),则是均值为零向量,协方差矩阵为V=(vij)的n维随机向量。5.1.1 夏皮洛威尔克检验若
4、暂时不考虑诸i间的相关性,只考察x(i)与mi间的线性相关性,则n个点(x(1),m1),(x(n),mn)应大致呈一条直线,其间误差是由i引起的。x=(x(1),x(2),x(n)与m=(m1,m2,mn)间的线性相关程度可用其样本相关系数r的平方来度量。r2= (5.1.3)r2越接近1,x与m间的线性关系越密切。5.1.1 夏皮洛威尔克检验ninimmxxmmitttxxt11222)(n1)(_m011miimnniniiiniiimxxxm112)(21)(.)(Qniim2112s212niim125.1.1 夏皮洛威尔克检验而 ,可以看出: 是的线性无偏估计(BLUE),这只要注
5、意到 Ex(i)=+mi和 mi=0即可。还可看出,式(5.1.4)中除去一个与样本无关的因子,其主体是总体方差2的两个估计之比,其中 分母:s2对任何总体方差2都是很好的估计,不依赖于正态性假设是否为真。 分子:由于 依赖于诸mi,所以仅在正态性假设为真时 才能成为正态总体2的估计。)(1121ininiiixmm1,21)(2nQxQSxnii1ni 11125.1.1 夏皮洛威尔克检验可见,在正态性假设为真时,2的这两个估计之间应该相差不大。而当正态性假设不成立时,它们之间的相差就会增大。这种增大的趋势有利于我们识别正态性假设是否成立。这就是我们从2的估计量的角度来看r2所得到的启示。5
6、.1.1 夏皮洛威尔克检验(3)为了进一步扩大这个差异。夏皮洛和威尔克把 1换为的最小方差线性无偏估计 2(BLUE),由例2.5.2知,正态标准差的BLUE为: (5.1.5)其中系数为 c=(c1,c2,cn)= (5.1.6) )(12xxccinii,c,mvmvm115.1.1 夏皮洛威尔克检验假如说前面的 仅依赖于一阶矩向量m,那么如今的 还依赖于协方差阵V,所以, 比 更强烈地依赖于正态性假设。倘若正态性假设不成立, 和s2之间的差异就会更大一些,这种差异的增大,对检验正态性假设更为有利一些。将r2中的 换为 ,所得到的式子记为 。显然, 已不再是n个数对(x(1),m1),(x
7、(n),mn)之间的相关系数的平方。夏皮洛和威尔克为了仍保持相关系数的特性,对 的系数又作了规范化处理,即令 (5.1.7) 122121212r)(13xdxainii5.1.1 夏皮洛威尔克检验ccni 15.1.1 夏皮洛威尔克检验(4)W检验的拒绝域。由于W是n个数对(x(1),a1),(x(n),an)之间的相关系数的平方,所以W仅在0,1上取值。5.1.1 夏皮洛威尔克检验例5.1.1 在一台磨损试验设备上对某种材料进行磨损试验,获得15个数据列于表5.1.1(已排序)。5.1.1 夏皮洛威尔克检验爱泼斯普利检验简称EP检验。这个检验对n 8都可以使用,它是利用样本的特征函数与正态
8、分布特征函数之差的模的平方产生的一个加权积分形成的,详细请见参考文献26,这里只给出EP检验统计量及其拒绝域。EP检验的原假设是H0:总体是正态分布设样本的观察值为x1,x2,xn,样本均值为 ,记 m2= (xi- )25.1.2 爱泼斯普利检验nin11x则检验统计量为: 5.1.2 爱泼斯普利检验njnkkjEPmjmkjnnTxxxx122211224exp22exp2315.1.2 爱泼斯普利检验对给定的显著性水平,拒绝域为W=TEPTEP,1-(n),临界值可以在附表11中查到。由于n=200时,统计量TEP的分位数已非常接近n=的分位数。故n200时,TEP的分位数可以用n=20
9、0时的分位数代替。例5.1.2 上海中心气象台测定的上海市18841982年间的年降雨量数据(单位:mm)如下:试在=0.05水平上检验年降雨量是否服从正态分布。5.1.2 爱泼斯普利检验1184.41113.41203.91170.7975.41462.3947.81416.0709.21147.5935.01016.31031.61105.7849.91233.41008.61063.81004.91086.21022.51330.91439.41236.51088.11288.71115.81217.51320.71078.11203.41480.01269.01049.21318.31
10、171.21161.7791.21143.81602.0986.1794.71318.41192.01016.01508.21159.61021.3951.41003.2840.41061.4985.01025.21265.01196.51120.71659.394271123.3910.21398.51208.61305.51242.31572.31416.91256.11285.9984.81390.31062.21287.31477.01017.91217.71197.11143.01018.81243.7909.31030.31124.4811.4820.91184.11107.599
11、1.4901.71176.51113.51272.91200.31508.7772.3813.01392.31006.21108.8 *5.2 指数分布的检验特定分布的检验方法常称为“特效药”。譬如5.1节中的W检验和EP检验都是正态分布的“特效药”。这里将对指数分布exp()给出两种“特效药”,它们是 2检验 格列坚科检验这两个检验不仅对完全样本适用,而且对截尾样本也适用。对样本量为n的样本,若只能获得前r个次序统计量x(1)x(2)x(r)(rn)的观察值,则x(1),x(2),x(r)就称为截尾样本,r称为截尾数,常事先给定,当r=n时,就得完全样本。在寿命试验中为减少试验时间的经费,常
12、事先规定一个截尾数r(如r/n70%)。当r个产品失效时就停止试验。定理5.2.1在H0为真和上述符号下,令y1=n(x(1)-x0),x0=0y2=(n-1)(x(2)-x(1)(5.2.2)yr=(n-r+1)(x(r)-x(r-1)则y1,y2,yr是相互独立同分布随机变量,共同分布为exp()。5.2.1 2检验这个定理是指数分布无记忆性的另一种表现,因为无记忆性,其相邻两个次序统计量的差才可能相互独立,但还不是同分布,乘以不同常数后才能得到同分布随机变量。无记忆性是连续分布中指数分布所特有的,这对人们区分指数分布与其他连续分布是有帮助的。5.2.1 2检验定理5.2.2在定理5.2.
13、1条件下,令zi= yj yj,j=1,2,r-1 zr= yj(5.2.3)则z1,z2,zr-1是来自均匀分布U(0,1)的容量为 r-1的次序统计量,且与zr独立。5.2.1 2检验i1jr1jr1j例5.2.1容量为12的样本中前6个次序统计量的观察值为:4669192149039126110试问这批数据是否来自指数分布?5.2.1 2检验基于定理5.2.1的结果还可构造另一个检验指数分布的统计量,它比前面的2统计量计算上简便一些,区分指数分布与非指数分布的能力也较高。这个检验是由苏联统计学家格列坚科提出的,故称为格列坚科检验。从某总体x任取n个样品做截尾试验,得到前r个次序统计量观察
14、值x(1)x(2)x(r)对这个截尾样本作如下变换yi=(n-i+1)(x(i)-x(i-1),i=1,2,r其中x0=0,如今要检验的原假设为:H0:该截尾样本来自指数分布exp()5.2.2 格列坚科检验由定理5.2.1知,在原假设H0为真下,诸y1,y2,yr相互独立同分布,共同分布为指数分布exp(),从而2yi2(2)。然后把r个yi等分为两个子组,如取r1=r/2,r2=r-r1,则统计量F= F(2r1,2r2),r1+r2=r5.2.2 格列坚科检验riiiirrryry121111在H0为真下,F值不宜过小,也不宜过大,否则与诸yi独立同分布性质矛盾,从而应拒绝H0,对给定的
15、显著性水平(01),利用F分布分位数可给出如下拒绝域。W=FF/2(2r1,2r2)或FF1-/2(2r1,2r2)这就给出格列坚科检验,他的构思简明,特别在截尾数r较大时,计算简便。5.2.2 格列坚科检验例5.2.2某公司研制新的电子器件,已试生产一批产品,从中随机抽取376只进行寿命试验,约定有5%器件失效就停止试验,得一个截尾样本。试问这些数据能否说明该器件寿命(单位:小时)服从指数分布。5.2.2 格列坚科检验5.58.51011.515253244454867.570951091161601781965.3 柯莫哥洛夫检验柯莫哥洛夫获得的两个重要结果定理5.3.1设理论分布F0(x
16、)是连续分布函数,则在原假设H0为真时:P(Dn+ )= (5.3.4)其中 f(y1,yn)= 例5.3.1问在水平0.10下,是否可以认为下列10个数 0.034 0.437 0.863 0.964 0.336 0.469 0.637 0.623 0.804 0.261是来自于(0,1)区间上均匀分布的随机数。5.4 2拟合优度检验2拟合优度检验是著名英国统计学家老皮尔逊(K.Pearson,18571936年)于1900年结合检验分类数据的需要而提出的,然后又用于分布的拟合检验与列联表的独立性检验上去,这些将在这一节内逐一叙述。2拟合优度检验又简称2检验,但它与第4章中的正态方差2的2检
17、验是不同的,虽然它们都是用2分布去确定各自的拒绝域,但所用的检验统计量是不同的,在正态方差检验中主要用样本方差s2构成检验统计量,在这里将主要用观察频数Oi与期望频数Ei之差的平方(Oi-Ei)2构成检验统计量。5.4.1总体可分为有限类,但其分布不含未知参数显然O1+O2+O3+O4=n。由于随机性的存在,诸观察数Oi不会恰好呈9 3 3 1的比例,因此就需要根据这些观察数据对孟德尔的遗传学说进行统计检验,孟德尔的实践向统计学家提出一个很有意义的问题:一组实际数据与一个给定的多项分布的拟合程度。老皮尔逊研究了这个问题,提出了2拟合优度检验,解决了这类问题。后经英国统计学家费希尔(R.A.Fi
18、sher,18901962年)推广,把这个检验更趋完善,就这样统计学在实践的基础上逐渐得到发展,开创了假设检验的理论与实践。5.4.1总体可分为有限类,但其分布不含未知参数上述分类数据的检验问题的一般提法如下。设总体X可以分为r类,记为A1,A2,Ar,如今要检验的假设为:H0:P(Ai)=pi,i=1,2,r(5.4.1)其中各pi已知,且pi0, pi=1。现对总体作了n次观察,各类出现的观察频数分别记为O1,O2,Or,且 Oi=n5.4.1总体可分为有限类,但其分布不含未知参数ri 1ri 1若H0为真,则各概率pi与频率Oi/n应相差不大,或各观察频数Oi对期望频数Ei=npi的偏差
19、(Oi-Ei)不大。据此想法,英国统计学家老皮尔逊提出了一个检验统计量 2= (5.4.2)其中取偏差平方是为了把偏差积累起来,每项除以Ei是要求在期望频数Ei较小时,偏差平方(Oi-Ei)2更小才是合理的。5.4.1总体可分为有限类,但其分布不含未知参数riiEiiEO12定理5.4.1设某随机试验有r个互不相容事件A1,A2,Ar之一发生,且pi=P(Ai)(i=1,2,r), pi=1。又设在n次独立重复试验中事件Ai的观察频数为Oi(i=1,2,r), Oi=n,若记事件Ai的期望频数为Ei=npi,则 2=在n时的极限分布是自由度为r-1的2分布。 5.4.1总体可分为有限类,但其分
20、布不含未知参数ri 1ri 1riiEiiEO12由中心极限定理,上式最后的括号里应为渐近标准正态分布的变量,其平方为自由度是1的卡方变量,这就给出了r=2时的定理的证明。从2统计量(5.4.2)的结构看,当H0为真时,和式中每一项的分子(Oi-Ei)2相对Ei都不应太大,从而总和也不会太大。若2过大,人们就会认为原假设H0不真。基于此想法,检验的拒绝域应有如下形式:W=2c(5.4.3)对于给定的显著性水平,由分布2(r-1)可定出c= (r-1)。5.4.1总体可分为有限类,但其分布不含未知参数21 5.4.1总体可分为有限类,但其分布不含未知参数5.4.1总体可分为有限类,但其分布不含未
21、知参数412iiEiiEO21 295. 0例5.4.2在股票投资中有一个流行的说法:盈利、持平和亏损的比例为1 2 7。2003年2月8日上海青年报第16版上发表了一个调查数据,在1270位被调查的股民中盈利者273人,持平者240人,亏损者757人。这些调查数据能否认可流行的说法:盈 平 亏=1 2 7?5.4.1总体可分为有限类,但其分布不含未知参数对“拟合优度”的一些说明:“拟合优度”是什么?简单的回答是:分布检验中的p值就是“拟合优度”。在分布检验中常要问:(1)实际数据与理论分布是否符合?(2)若符合,符合程度如何?在分布检验中对原假设H0(如式(5.4.1)所示)作判断,只用“拒
22、绝”与“接受”(即非此即彼)作回答常显得不够,能否再提供一个(介于01之间的)数字作为符合程度的数量指标。老皮尔逊研究了这个问题,找到了这个数量指标,并称之为“拟合优度”(goodness of fit)。5.4.1总体可分为有限类,但其分布不含未知参数拟合优度(即p值)越大,表示实际数据与理论分布拟合得越好,该理论分布就获得更多实际数据支持。而显著性水平只是人们设置的一个门槛,当拟合优度低于时拒绝H0,拟合优度越低,人们放弃H0越放心;当拟合优度高于时,接受H0,若取=0.05,当p=0.06或p=0.90时虽都接受H0,但后者使数据对理论分布的支持比前者强得多,前者勉强过关,后者接近完美。5.4.1总体可分为有限类,但其分布不含未知参数5.4.2总体可分为有限类,但其分布含有未知参数例5.4.3在某交叉路口记录每15秒钟内通过的汽车数量,共观察了25分钟,得100个记录,经整理得表5.4.4。在=0.05水平上检验如下假设:通过该交叉路口的汽车数量服从泊松分布P()。 表5.4.415秒内通过某交叉路口的汽车数通过的汽通过的汽车数量车数量01234567891011频数频数Oi4215172611982312定理5.4.2设某个随机试验有r个互不相容事件A1,A2,Ar之一发生。记p
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年工厂车间安全培训考试试题带答案(基础题)
- 2025管理人员安全培训考试试题含答案(研优卷)
- 25年公司管理人员安全培训考试试题能力提升
- 2025年个体土地承包经营合同范本
- 2025办公设备租赁合同范本 办公设备租赁合同模板
- 2025试论《中华人民共和国国际货物销售合同公约》中的价格条款
- 2025建筑改建合同样本
- 2025无需抵押个人借款合同范本【标准】
- 2025年度物料供应合同
- 2025林地树木栽培与销售承包合同
- (2024年)面神经炎课件完整版
- 减盐减油健康教育教案反思
- 特斯拉国产供应链研究报告
- 如何进行医疗垃圾的安全运输
- 公共停车场建设项目可行性研究报告
- 保安服务标准及工作流程
- 2024年中考数学几何模型归纳(全国通用):18 全等与相似模型之十字模型(学生版)
- 外科疾病分级目录
- 国家级教学成果的培育提炼与申报
- 海南师范大学《高等数学》2020-2021期末试卷B
- 2023年09月黑龙江省大兴安岭地区“黑龙江人才周”校园引才活动引进90名人员笔试历年难易错点考题荟萃附带答案详解
评论
0/150
提交评论