




已阅读5页,还剩35页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1,概率论与数理统计,分布拟合检验 检验的 p 值,2,例如,从1500到1931年的432年间,每年爆发战争的次数可以看作一个随机变量,椐统计,这432年间共爆发了299次战争,具体数据如下:,总体服从何种理论分布并不知道,要求我们直接对总体分布提出一个假设 .,一、分布拟合检验,3,根据泊松分布产生的一般条件,每年爆发战争的次数,可以用一个泊松随机变量来近似描述 . 即我们可以假设每年爆发战争次数X近似泊松分布.,上面的数据能否证实X 具有泊松分布的假设是正确的?,问题:,4,又如,某钟表厂对生产的钟进行精确性检查,抽取100个钟作试验,拨准后隔24小时以后进行检查,将每个钟的误差(快或慢)按秒记录下来.,问该厂生产的钟的误差是否服从正态分布?,5,再如,某工厂制造一批骰子,声称它是均匀的.,为检验骰子是否均匀,要把骰子实地投掷若干次,统计各点出现的频率与1/6的差距.,也就是说,在投掷中,出现1点,2点,6点的概率都应是1/6.,得到的数据能否说明“骰子均匀”的假设是可信的?,问题是:,6,K.皮尔逊,人们把它视为近代统计学的开端.,解决这类问题的工具是英国统计学家K.皮尔逊在1900年发表的一篇文章中引进的所谓 检验法.,检验法是在总体X 的分布未知时, 根据来自总体的样本,检验关于总体分布的假设的一种检验方法.,7,H0:总体X的分布函数为F(x),在F(x)不含未知参数时,可根据样本的经验分布与所假设的理论分布之间的吻合程度来决定是否接受原假设.,我们先提出原假设:,在检验假设H0时,若在H0下分布类型已知,但含参数未知,这时需要先用极大似然估计法估计参数,然后作检验.,(分布律、密度函数),8,3.根据所假设的理论分布,当假设H0为真时,可以算出总体X的值落入每个Ai的概率pi = P(Ai),1. 将总体X的取值范围分成k个互不重迭的小区间,记作A1, A2, , Ak .,2.把落入第i个小区间Ai的样本观察值的个数记作fi , f i /n 为n次试验中Ai 发生的频率. 而 f 1+ f 2+ + f k 等于样本容量 n.,9,标志着经验分布与理论分布之间的差异的大小.,统计量 的分布是什么?,在理论分布 已知的条件下, npi是常量,实测频率,理论概率,皮尔逊取 引进如下检验统计量:,10,皮尔逊证明了如下定理:,近似服从自由度为k-1的 分布.,如果理论分布F(x)中有 r 个未知参数,需用相应的估计量来代替,那么当 时,统计量 的分布渐近自由度为k-r-1的 分布.,若n充分大( ),则当F(x)不含参数,H0为真时,统计量,11,是k个近似正态的变量的平方和.,这些变量之间存在着一个制约关系:,故统计量 渐近(k-1)个自由度的 分布.,在理论分布F(x)完全给定的情况下,每个pi 都是确定的常数. 由棣莫佛拉普拉斯中心极限定理,当n充分大时, fi 渐近正态,,因此,12,在F(x)尚未完全给定的情况下 每个未知参数用相应的估计量代替,就相当于增加一个制约条件,因此,自由度也随之减少一个.,若有 r 个未知参数需用相应的估计量来代替,自由度就减少r个.,此时统计量 渐近(k-r-1)个自由度的 分布.,13,如果根据所给的样本值 X1,X2, ,Xn算得统计量 的实测值落入拒绝域,则拒绝原假设,否则就认为差异不显著而接受原假设.,得拒绝域:,(不需估计参数),(估计r 个参数),14,皮尔逊定理是在n无限增大时推导出来的,因而在使用时要注意n要足够大,以及npi 不太小这两个条件.,根据计算实践,要求n不小于50,以及所有npi 都不小于 5.,否则应适当合并区间,使npi满足这个要求 .,15,下面检验每年爆发战争次数分布是否服从泊松分布.,提出假设,H0: X服从参数为 的泊松分布,按参数为0.69的泊松分布,计算事件X=i 的 概率pi ,,=0.69,将有关计算结果列表如下:,pi的估计是,,i=0,1,2,3,4,根据观察结果,得参数 的极大似然估计为,16,因H0所假设的理论分布中有一个未知参数,故自由度为 4-1-1 = 2.,将n 5的组予以合并,即将发生3次及4次战争的组归并为一组.,17,故认为每年发生战争的次数X服从参数为0.69的泊松分布.,按 =0.05,自由度为4-1-1=2查 分布表得,=5.991,=2.435.991,,未落入否定域.,18,奥地利生物学家孟德尔进行了长达八年之久的豌豆杂交试验, 并根据试验结果,运用他的数理知识, 发现了遗传的基本规律.,下面以遗传学上的一项伟大发现为例,说明统计方法在研究自然界和人类社会的规律性时,是起着积极的、主动的作用.,孟德尔,19,他的一组观察结果为:,黄70,绿27,近似为2.59:1,与理论值相近.,根据他的理论,子二代中, 黄、绿之比 近似为3:1,,20,由于随机性,观察结果与3:1总有些差距,因此有必要去考察某一大小的差异是否已构成否定3:1理论的充分根据,这就是如下的检验问题.,这里 n=70+27=97, k=2,检验孟德尔的3:1理论:,提出假设 H0: p1=3/4, p2=1/4,理论频数为: np1=72.75, np2=24.25,实测频数为70,27.,21,自由度为 k-1=1,=0.41583.841,,按 =0.05,自由度为1,查 分布表得,=3.841,未落入否定域.,故认为试验结果符合孟德尔的3:1理论.,22,这些试验及其它一些试验,都显示孟德尔的3: 1理论与实际是符合的. 这本身就是统计方法在科学中的一项重要应用.,用于客观地评价理论上的某个结论是否与观察结果相符,以作为该理论是否站得住脚的印证.,这种检验的计算量相对较大,一般要用统计软件包来实现.,23,在假设检验中使用的逻辑是:,如果原假设H0 是对的,那么衡量差异大小的某个统计量落入区域 W(拒绝域) 是个小概率事件. 如果该统计量的实测值落入W, 也就是说, H0 成立下的小概率事件发生了,那么就认为H0不可信而否定它. 否则我们就不能否定H0。,我们称这个小概率为显著性水平,用 表示.,24,在前面的假设检验中,这个显著性水平是事先给定的.,如,根据给定的显著性水平,我们得到的假设检验结果只有两个,拒绝或不能拒绝原假设. 但作出这一结论或那一结论的可能性有多大,则往往不易清楚地显示出来.,25,拒绝域为 W:|U|1.96,要检验假设H0: 0; H1: 0,取检验统计量为,例如从正态分布总体N( , 1)中抽样得X1,X2,Xn, 其中n=16.,(显著性水平 =0.05),26,拒绝域为 W:|U|1.96,则根据拒绝域,我们不能拒绝 =0,,也就是只能接受 =0.,设又有另一组样本,由样本算得U=0.48, 结论也是接受 0.,对这两组样本而言,结论一致.,设由样本算得 U =1.92,然而,我们会觉得,在后一场合,作出接受 的结论根据充分一些,而在前一场合,根据就不很够.,27,设有一个原假设H0 ,其拒绝域为|T|C,T是检验统计量. 若对一组具体样本, 算出统计量T的值为T0,则称这组样本的p值是,pP (|T|T0| | H0),它的意思是,如果H0是对的,那么看到 |T|T0| 的概率有多大?,如果这个概率很小,我们就倾向于拒绝H0;反之,如果这个概率不是很小,我们就不能拒绝H0.,二、检验的 p 值,28,如果拒绝域为TC,则p值是 p P ( TT0 | H0 ) ,如果拒绝域为T C,则p值是 pP(TT0| H0 ),类似地,,T0是对一组具体样本, 算出的统计量T的值.,p值是当H0正确时,得到所观测的数据或更极端值的概率.,29,若 p,则拒绝H0.,若 p, 则不能 拒绝H0;,将显著性 水平 与p值 比较,30,p值是人们可以拒绝原假设的最小显著性水平.,在实践及各种统计软件中,人们并不事先指定显著性水平的值,而是很方便地利用上面定义的p值. 对于任意大于p值的显著性水平,人们可以拒绝原假设,但不能在任何小于它的水平下拒绝原假设.,31,掷一枚均匀硬币100次,,问这枚硬币是否均匀?,提出假设,其中p为正面出现的概率.,取统计量,近似N(0,1),为正面出现的频率.,由中心极限定理,32,先算出统计量U的实测值,我们来计算检验的p值.,p=P|U|1,检验的p值是:,=2-2(0.8413)=0.3174,=2-2 (1),=1-P|U|1,若给定显著性水平 0.3174,U的实测值就不落入拒绝域,,此时不能拒绝H0.,33,50次 50次,0.5 0 不能拒绝H0,45次 55次,40次 60次,0.3174 1 不能拒绝H0,0.0456 2 拒绝H0,35次 65次,0.0026 3 拒绝H0,由p值不难看出,出现65次正面时, 拒绝H0的把握较大; 出现60次正面时, 次之. 但若 0.04, 则不能拒绝H0.,34,例:,1988年7月28日的纽约时报上刊登了一篇有关人们地理知识的文章. 这篇文章中描述了一个研究结果. 研究者们从一些国家抽取许多成年人并请他们鉴别在一个地图上的16个地方(包括13个国家、中非、波斯湾和太平洋);然后把每个人答对的个数加起来.,四个国家的样本中答对的个数的均值如下:,美国 6.9 墨西哥 8.2 大不列颠 9.0 法国 9.2,35,平均来看,法国的回答者有可能在地图上找到的地方比其他三个国家的人要多.,美国 6.9 墨西哥 8.2 大不列颠 9.0 法国 9.2,几国答对个数 的均值,这篇文章称“从统计显著性方面考虑,得分相差至少应在0.6以上才算有差异.”,也就是说,样本均值的不同可能仅仅归于随机性. 仅当两样本均值相差在0.6以上才认为两国均值是有差异的.,36,美国 6.9 墨西哥 8.2 大不列颠 9.0 法国 9.2,几国答对 个数的均值,我们来探讨墨西哥的总体均值是否等于美国的总体均值.,要检验的假设是:,我们用 表示墨西哥的总体均值,,用 表示美国的总体均值,37,取检验统计量,已知n1=1200, n2=1600,计算得t 的实测值等于4.25.,已知墨西哥的样本中有1200个观测,美国的样本中有1600个观测.,38,我们来计算检验的p值.,由于样本量很大,我们用正态分布N(0,1)近似 t 分布.,用计算机上软件求得,p值=P(|t |4.25)0.00001,因此样本均值的差大于等于1.3的概率也是0.000
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 时间的脚印app课件
- 有趣的发现作文500字8篇范文
- 时装销售专业知识培训课件
- 时政知识培训方案策划书课件
- 时尚品牌知识课件
- 农业产品供销合同及质量保障协议
- 作文之星谈攻略写作文打腹稿很重要11篇
- 纪检业务知识培训心得
- 纪昌学射课件
- 纪念鲁迅先生的课件
- 防蚊培训课件
- 弥漫性大B细胞淋巴瘤病例讨论
- 2025年医院血透室人员培训工作计划
- 2025年公务员考试时政热点必做题(附答案)
- 休克的诊断和治疗课件
- 广东省湛江市2024-2025学年高一下学期期末调研测试政治试卷(含答案)
- 2025-2030中国汽车玻璃水行业竞争优势与前景趋势洞察报告
- 厨房刀具安全培训课件
- 私密抗衰培训课件
- 2025年全国高中物理竞赛试题及答案
- 护理烫伤不良事件分析及整改措施
评论
0/150
提交评论