分布的拟合检验方法分析.ppt_第1页
分布的拟合检验方法分析.ppt_第2页
分布的拟合检验方法分析.ppt_第3页
分布的拟合检验方法分析.ppt_第4页
分布的拟合检验方法分析.ppt_第5页
已阅读5页,还剩98页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本资料来源,第三节分布的拟合检验,第三节分布拟合的检验法,我们在前面几节中介绍的是在总分布形式已知时关于总体参数的假设检验。但在实际问题,有时不能预先知道总体分布的形式。这时,就要用假设检验的方法,根据样本的观察值判断总体是否具有某中分布,这类对总体分布形式的检验问题称为分布拟合检验。它是非参数检验中较为主要的内容。本节知介绍分布拟合的检验法。,3.分布拟合检验,实际中可能遇到这样的情形,总体服从何种理论分布并完全不知道,要求我们直接对总体分布提出一个假设。,例如,从1500到1931年的432年间,每年爆发战争的次数可以看作一个随机变量,椐统计,这432年间共爆发了299次战争,具体数据如下:,可以假设每年爆发战争次数分布X近似泊松分布。那么上面的数据能否证实X具有泊松分布假设?,又如,某钟表厂对生产的钟进行精确性检查,抽取100个钟作试验,拨准后隔24小时以后进行检查,将每个钟的误差(快或慢)按秒记录下来。问该厂生产的钟的误差是否服从正态分布?,再如,某工厂制造一批骰子,声称它是均匀的。即在投掷中,出现1点,2点,6点的概率都应是1/6。为检验骰子是否均匀,要把骰子实地投掷若干次,统计各点出现的频率与1/6的差距。那么得到的数据能否说明“骰子均匀”的假设是可信的?,3.分布拟合检验,需要:在总体X的分布未知时,根据来自总体的样本,检验关于总体分布的假设的一种检验方法。,3.分布拟合检验,若原假设成立,则各实测频数fi与npi(理论频数)应相差不大。,总体X可以分为k个组(类),记作A1,A2,Ak。现要检验的是:,如对总体做作了n次观察,各类出现的频数为fi(实测频数),所有频数之和f1+f2+fk等于样本容量n,fi/n称为频率。,3.分布拟合检验,标志着经验分布与理论分布之间的差异的大小.,皮尔逊引进如下统计量表示经验分布与理论分布之间的差异:,统计量的分布是什么?,在理论分布已知的条件下,npi是常量,实测频数,理论频数,3.分布拟合检验,皮尔逊证明了如下定理:,若原假设成立,那么当时,统计量,渐近服从自由度为(k-1)的分布.,3.分布拟合检验,如果根据所给的样本值X1,X2,Xn算得统计量的实测值落入拒绝域,则拒绝原假设,否则就认为差异不显著而接受原假设.,3.分布拟合检验,皮尔逊定理是在n无限增大时推导出来的,因而在使用时要注意n要足够大,以及npi不太小这两个条件.,根据计算实践,要求n不小于50,以及npi都不小于5.否则应适当合并类,使npi满足这个要求.,对规定的显著性水平,,则拒绝。否则不能拒绝,即接受,3.分布拟合检验,卡方统计量与2分布,1900由皮尔逊(K.Pearson)提出卡方统计量,定理如果原假设,成立,则在样本容量,时,的分布趋向,的,分布,即,。,于自由度为,,并进行显著性检验,奥地利生物学家孟德尔进行了长达八年之久的豌豆杂交试验,并根据试验结果,运用他的数理知识,发现了遗传的基本规律.,例1,我们以遗传学上的一项伟大发现为例,说明统计方法在研究自然界和人类社会的规律性时,是起着积极的、主动的作用.,孟德尔,3.分布拟合检验,他的一组观察结果为:,黄70,绿27,近似为2.59:1,与理论值相近.,根据他的理论,子二代中,黄、绿之比近似为3:1,,例1奥地利生物学家孟德尔进行了长达八年之久的豌豆杂交试验,并根据试验结果,运用他的数理知识,发现了遗传的基本规律。,3.分布拟合检验,这里,n=70+27=97,k=2,检验孟德尔的3:1理论:,提出假设H0:p1=3/4,p2=1/4,理论频数为:np1=72.75,np2=24.25,实测频数为70,27.,统计量,近似服从,自由度为k-1=1,=0.4158ChiSq0.1764SampleSize=499,一致性检验,(7-4)也就是说K2是度量实际观察次数与理论次数偏离程度的一个统计量,K2越小,表明实际观察次数与理论次数越接近;K2=0,表示两者完全吻合;K2越大,表示两者相差越大。对于表7-4的资料,可计算得表明实际观察次数与理论次数还是比较接近的。,一致性检验,对规定的显著性水平,,则拒绝。否则不能拒绝,即接受,一般分布的拟合检验,对一般总体的分布的假设检验,一般分布的拟合检验,若原假设中的理论分布F(x)已经完全给定,那么当时,统计量,渐近服从(k-1)个自由度的分布.,如果理论分布F(x)中有r个未知参数,需用相应的估计量来代替,那么取统计量为,渐近服从(k-r-1)个自由度的分布.,一般分布的拟合检验,在F(x)尚未完全给定的情况下,每个未知参数用相应的估计量代替,就相当于增加一个制约条件,因此,自由度也随之减少一个.,若有r个未知参数需用相应的估计量来代替,自由度就减少r个.,此时统计量渐近(k-r-1)个自由度的分布.,一般分布的拟合检验,如果根据所给的样本值X1,X2,Xn算得统计量的实测值落入拒绝域,则拒绝原假设,否则就认为差异不显著而接受原假设.,据Pearson定理,分布拟合检验的拒绝域为:,(不需估计参数),(估计r个参数),注意:皮尔逊定理是在n无限增大时推导出来的,因而在使用时要注意n要足够大,以及npi()不太小这两个条件.,按参数为0.69的泊松分布,计算事件X=i的概率pi,,将有关计算结果列表如下:,pi的估计是,,i=0,1,2,3,根据观察结果,得参数的极大似然估计为,例4从1500到1931年的432年间,每年爆发战争的次数可以看作一个随机变量,椐统计,这432年间共爆发了299次战争,具体数据如下:,提出假设H0:X服从参数为的泊松分布,因H0所假设的理论分布中有一个未知参数,故自由度为4-1-1=2.,x01234fi223142481540.580.310.180.010.02n216.7149.551.612.02.16,0.183,0.376,0.2511.623,战争次数,实测频数,14.16,2.43,将n2)的列联表。其独立性检验为:,第三节独立性检验,其中Aij(i=1,2,r;j=1,2,c)为实际观察次数,Tij为理论期望次数。,下一张,主页,退出,上一张,其公式可简化为:,第三节独立性检验,表99,22列联表,第三节独立性检验,期望频数为,相关系数为,统计量为,22列联表,第三节独立性检验,第三节独立性检验,表91关于改革方案的调查结果单位:人,例,一个集团公司在四个不同的区域设有分公司,现该集团公司欲进行一项改革,此项改革可能涉及到各分公司的利益,故采用抽样调查方法,从四个分公司共抽取420名职工,了解职工对此项改革的看法,调查结果见表91。,第三节独立性检验,二、列联表的分布、观察值的分布,各行合计的分布称行边缘分布,称行边缘频数,称行百分数各列合计的分布称列边缘分布,称列边缘频数,称列百分数称为总百分数,第三节独立性检验,包含百分比的24列联表,表92,第三节独立性检验,、期望值的分布,假定行变量和列变量相互独立实际频数的期望频数为,第三节独立性检验,计算例,根据表91,第一行第一列的实际频数,相应的期望频数则为,类似可求得各个实际频数的期望频数列于表94,第三节独立性检验,实际频数和期望频数分布表单位:人,表94,第三节独立性检验,第二节2分布与2检验一、统计量,用于检验列联表中变量之间是否独立的检验,尤其适合于两个定类变量之间是否独立的检验,统计量为,(9.1),值愈大则表明实际频数与期望频数的差异愈大,第三节独立性检验,表95,计算表,第三节独立性检验,二、2分布,分布为正偏,随着自由度的增加,趋于对称。当自由度很大时,分布可用正态分布来近似。,第三节独立性检验,三、自由度的确定,统计量的自由度为f=(行数1)(列数1)(r1)(c1)(9.2)当n较大时,统计量近似分布。,第三节独立性检验,四、2检验、一致性检验,检验多个变量之间是否存在显著差异检验的步骤例如提出原假设和备择假设,不全相等,对规定的显著性水平,若,则拒绝。否则不能拒绝,即接受,第三节独立性检验,例9.1,某集团公司欲进行一项改革,分别从所属的四个分公司中共随机抽取了420名职工,了解他们对改革方案的态度(见表91),并对职工态度是否与所在单位有关这个问题在0.1的显著性水平上进行检验。,第三节独立性检验,解:,由(9.1)式得,不全相等,取时,查表得,从而接受,即认为四个分公司对改革方案的赞成比例是一致的。,由(9.2)式,得自由度,由于,、独立性检验,检验列联表中的行变量与列变量之间是否独立检验的步骤提出原假设和备择假设H0:行变量与列变量独立H1:行变量与列变量不独立计算检验统计量,对规定的显著性水平,若,则拒绝。否则不能拒绝,即接受。,第三节独立性检验,例9.2,一种原料来自三个不同的地区,原料质量被分成三个不同等级。从这批原料中随机抽取500件进行检验,结果如表97所示。要求检验各个地区和原料之间是否存在依赖关系。,表97原料抽样结果单位:件,第三节独立性检验,表9833列联表计算过程,解:,H0:地区和原料之间独立H1:地区和原料之间不独立,第三节独立性检验,续(例9.2),取时,查表得,由于,所以拒绝,接受。即认为地区和原料之间不独立。,第三节独立性检验,一、独立性检验的意义对次数资料,除进行适合性检验外,有时需要分析两类因子是相互独立还是彼此相关。这种根据次数资料判断两类因子彼此相关或相互独立的假设检验就是独立性检验。独立性检验实际上是基于次数资料对子因子间相关性的研究。,表912,职业背景与工作价值观取向,独立性检验案例,例,社会学家欲研究家庭状况对青少年犯罪的影响,设该地区有未犯罪纪录的青少年10000名,有犯罪记录的青少年150名。如果从未犯罪青少年中抽取1%,即对100名进行研究,则用相同比例从犯罪青少年中抽取的样本容量仅为1.5人。为满足研究的需要,对犯罪青少年的抽样比扩大到1/2,即抽取75人。调查所获得的数据如表913。,独立性检验案例,表913,家庭状况与青少年犯罪单位:人,由表913按家庭状况计算的条件百分表,见表914,表914,家庭状况与青少年犯罪,由表913按青少年行为计算的条件百分表,见表915。,表915,家庭状况与青少年犯罪百分表,二、分布的期望值准则,当数据划分为两类时,要求每一类别的期望频数不少于5。,表916说明表,续(分布的期望值准则),当数据划分为两个以上类别时,期望频数小于5的比例不应超过20%时,否则应把期望频数小于5的类别合并。,表917,说明表,表918,说明表,列联表,列联表的中间各个变量不同水平的交汇处,就是这种水平组合出现的频数或计数(count)。二维的列联表又称为交叉表(crosstable)。右边的列联表是22列联表。维数多的叫做高维列联表。,注意前面这个列联表的变量都是定性变量;但列联表也会带有定量变量作为协变量。,(A与B独立),DataSMK;inputA$B$n;cards;1YES601NO30YES320NO11;procfreqdata=SMK;tablesA*B/chisq;weightn;run;,结果输出表1(频数频率表)TheFREQProcedureTableofAbyB(频数)Frequency(频率)Percent(行频率)RowPct(列频率)ColPctNOYESTotal-011324310.3830.1940.5725.5874.4278.5734.78-1360632.8356.6059.434.7695.2421.4365.22-Total149210613.2186.79100.00,表2(各种,StatisticsforTableofAbyBStatisticDFValueProb-.1Pearson卡方Chi-Square19.66360.0019,似然比卡方LikelihoodRatioChi-Square19.72200.00183.校正卡方,ContinuityAdj.Chi-Square17.93270.0049,Mantel-HaenszelChi-Square19.57240.0020,的卡方检验),4.MH统计量,5phi关联度

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论