《所有分类ch》PPT课件.ppt_第1页
《所有分类ch》PPT课件.ppt_第2页
《所有分类ch》PPT课件.ppt_第3页
《所有分类ch》PPT课件.ppt_第4页
《所有分类ch》PPT课件.ppt_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

4-1,第五章 参数估计,本章主要内容: 总体参数估计概述 总体参数的点估计 参数区间估计 样本容量的确定 各种抽样设计下的参数估计,4-2,一、总体参数估计概述,设待估计的总体参数是,用以估计该参数的统计量是 ,抽样估计的极限误差是,即: 极限误差是根据研究对象的变异程度和分析任务的性质来确定的在一定概率下的允许误差范围。 参数估计的两个要求: 精度:估计误差的最大范围,通过极限误差来反映。显然,越小,估计的精度要求越高,越大,估计的精度要求越低。极限误差的确定要以实际需要为基本标准。 可靠性:估计正确性的一个概率保证,通常称为估计的置信度。 但估计的精度和可靠性存在矛盾,有着此消彼长的关系,4-3,二、总体参数的点估计,点估计的含义:直接以样本统计量作为相应总体参数的估计量。,4-4,优良估计量标准,优良估计标准: 无偏性:要求样本统计量的平均数等于被估计的总体参数本身。 一致性:当样本容量充分大时,样本统计量充分靠近总体参数本身。 有效性:,总体方差的无偏估计量为样本方差,点估计完全正确的概率通常为0。因此,我们更多的是考虑用样本统计量去估计总体参数的范围 区间估计。,4-5,三、参数区间估计,参数区间估计的含义:估计总体参数的区间范围,并给出区间估计成立的概率值。 其中: 1-(01)称为置信度;是区间估计的显著性水平,其取值大小由实际问题确定,经常取1%、5%和10%。,注间对上式的理解: 例如抽取了1000个样本,根据每一个样本均构造了一个置信区间,这样,由1000个样本构造的总体参数的1000个置信区间中,有95%的区间包含了总体参数的真值,而5%的置信区间则没有包含。这里,95%这个值被称为置信水平(或置信度)。 一般地,将构造置区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平。,4-6,我们用95%的置信水平得到某班学生考试成绩的置信区间为60-80分,如何理解? 错误的理解:60-80区间以95%的概率包含全班同学平均成绩的真值;或以95%的概率保证全班同学平均成绩的真值落在60-80分之间。 正确的理解:如果做了多次抽样(如100次),大概有95次找到的区间包含真值,有5次找到的区间不包括真值。 真值只有一个,一个特定的区间“总是包含”或“绝对不包含”该真值。但是,用概率可以知道在多次抽样得到的区间中大概有多少个区间包含了参数的真值。 如果大家还是不能理解,那你们最好这样回答有关区间估计的结果: 该班同学平均成绩的置信区间是60-80分,置信度为95%。,4-7,包括:样本点估计值、抽样极限误差、估计的可靠程度 样本点估计值 抽样极限误差:可允许的误差范围。 抽样估计的可靠程度(置信度、概率保证程度)及概率度 注意:本教材所进行的区间估计仅指对总体平均数或成数的区间估计,并且在际计算过程中使用下面的式子。式中是极限误差。,4-8,区间估计的内容,4-9,平均数的区间估计,对总体平均数或成数的区间估计时,使用下面的式子 (式中是极限误差) 有两种模式: 1、根据置信度1-,求出极限误差,并指出总体平均数的估计区间。 2、给定极限误差,求置信度。,4-10,当已知时,根据相关的抽样分布定理, 服从标准正态分布 N(0,1)。查正态分布概率表, 可得 (一般记为 ),则 ,根据重复抽样与不重复抽样的 求法的不同,进一步可得总体平均数的估计区间: 重复抽样时,区间的上下限为: 不重复抽样时,区间的上下限为:,平均数区间估计第1种模式(求置信区间),4-11,4-12,平均数区间估计第1种模式(求置信区间),若总体方差未知,则在计算 时,使用样本方差代替总体方差,此时 服从自由度为n-1的t分布。查t分布表可得 ,并记为 于是: 重复抽样时,区间的上下限为: 不重复抽样时,区间的上下限为:,大样本时,t分布与标准正态分布非常接近,可直接从标准正态分布表查临界值,4-13,例:总体平均数的区间估计1,对某型号的电子元件进行耐用性能检查,抽查资料分组如下表,要求估计该批电子元件的平均耐用时数的置信区间(置信度95%)。,4-14,68.27%的样本,表示样本均值落在区间的概率是1-,例,对总体均值区间估计的进一步理解,4-15,平均数区间估计第2种模式(求置信度),给定极限误差,求置信度,4-16,例:总体平均数的区间估计2,例:经抽样调查计算样本亩产粮食600公斤,并求得抽样平均误差为3公斤,现给定允许极限误差为6公斤,求置信区间包含总体平均亩产的概率,即求置信水平。,结果表明,如果多次反复抽样,每次都可以由样本值确定一个估计区间,每个区间或者包含总体参数的真值,或者不包含总体参数的真值,包含真值的区间占F(z),即每一万次抽样,就有9545个样本区间包括总体亩产,其余455个样本区间不包括总体平均数,即若接受估计区间的判断要冒4.55%的机会犯错误的风险。,4-17,成数的区间估计,由于总体的分布是(0,1)分布,只有在大样本的情况下,才服从正态分布。总体成数可以看成是一种特殊的平均数,类似于总体平均数的区间估计,总体成数的区间估计的上下限是: 注意:在实践中,由于总体成数常常未知,这时,抽样平均误差公式中的总体成数用样本成数代替。 大样本的条件:np5且n(1-p) 5,由于总体成数p通常未知,可以用样本成数来近似判断。,4-18,例:总体平均数的区间估计3,对某型号的电子元件进行耐用性能检查,抽查资料分组如下表, 设该厂的产品质量检验标准规定,元件耐用时数达到1000小时以上为合格品。要求估计该批电子元件的合格率,置信水平95%。,4-19,总体均值区间估计总结,如果是正态总体,4-20,如果不是正态总体,或分布未知,此时不考虑小样本情况,因此,大样本情况下,直接用标准正态分布求置信区间即可。,4-21,总体成数估计区间估计总结,总体成数估计区间的上下限 只考虑大样本情况(请记住大样本条件),4-22,对总量指标的区间估计,在对总体平均数进行区间估计的基础上,可进一步推断相应的总量指标,即用总体单位总数N分别乘以总体平均数的区间下限和区间上限,便得到相应总量(N)的区间范围。,4-23,例1,某厂对一批产品的质量进行抽样检验,采用重复抽样抽取样品200只,样本优质率为85%,试计算当把握程度为90%时优质品率的区间范围。,4-24,例2,某商场从一批食品(共800袋)中随机抽取40袋(假设用重复抽样),测得每袋平均重量为791.1克,标准差为17.136克,要求以95%的把握程度,估计这批食品的平均每袋重量以及这批食品总重量的区间范围。,800*778.84,800*803.36,即623072,642688,4-25,三、样本容量确定,什么是样本容量确定问题?,4-26,确定样本容量,在设计抽样时,先确定允许的误差范围和必要的概率保证程度,然后根据历史资料或试点资料确定总体的标准差,最后来确定样本容量。,4-27,确定样本容量应注意的问题,计算样本容量时,一般总体的方差与成数都是未知的,可用有关资料替代: 一是用历史资料已有的方差与成数代替; 二是在进行正式抽样调查前进行几次试验性调查,用试验中方差的最大值代替总体方差; 三是成数方差在完全缺乏资料的情况下,就用成数方差的最大值0.25代替。 如果进行一次抽样调查,同时估计总体均值与成数,用上面的公式同时计算出两个样本容量,可取一个最大的结果,同时满足两方面的需要。 上面的公式计算结果如果带小数,这时样本容量不按四舍五入法则取整数,取比这个数大的最小整数代替。例如计算得到:n=56.03,那么,样本容量取57,而不是56。,4-28,例:确定样本容量1,对某批木材进行检验,根据以往经验,木材长度的标准差为0.4米,而合格率为90%。现采用重复抽样方式,要求在95.45%的概率保证程度下,木材平均长度的极限误差不超过0.08米,抽样合格率的极限误差不超过5%,问必要的样本单位数应该是多少?,4-29,例:确定样本容量2,对某批木材进行检验,根据以往经验,木材的合格率为90%、92%、95%。现采用重复抽样方式,要求在95.45%的概率保证程度下,抽样合格率的极限误差不超过5%,问必要的样本单位数应该是多少?,4-30,第四节 抽样的组织形式,本节主要内容: 抽样估计效果的衡量与抽样组织形式 简单随机抽样 类型抽样 整群抽样 等距抽样 阶段抽样 不同抽样组织设计的比较,4-31,一、抽样估计效果的衡量与抽样组织形式,抽样估计效果好坏,关键是抽样平均误差的控制。抽样平均误差小,抽样效果从整体上看就是好的;否则,抽样效果就不理想。 抽样平均误差受以下几方面的因素影响: 一是总体的变异性,即与总体的标准差大小有关 二是样本容量 三是抽样方法。 四是抽样的组织形式 抽样的组织形式有如下几种: 简单随机抽样、类型抽样、等距抽样、整群抽样、阶段抽样,4-32,二、简单随机抽样,4-33,三、类型抽样,含义:又称分层抽样。对总体各单位按一定标志加以分组,然后从每一组中按随机原则抽取一定单位构成样本。,得到样本如下:,4-34,类型抽样求样本平均数,4-35,类型抽样求抽样平均误差,4-36,类型抽样求抽样平均误差,4-37,类型抽样两点结论,从类型抽样的抽样平均误差公式来看,类型抽样的抽样平均误差与组间方差无关,它决定于组内方差的平均水平。而方差的加法定理: ,因此有如下结论: 抽样效果一般来说好于简单随机抽样。 因此在分组时应尽量扩大组间方差(组间差异),缩小组内方差(组内差异),从而减少抽样误差,提高抽样效果。,4-38,类型抽样例,假设某农场种植小麦1 200亩,根据其地理条件划分为甲、乙、丙三类,按5%的比例总共抽取60亩进行调查,结果如下表所示。试以95%的概率估计农场平均亩产量的区间范围。,4-39,四、整群抽样,定义:又称集团抽样。将总体各单位分为若干群,然后从中抽取部分群,对中选群的所有单位进行全面调查。,4-40,整群抽样抽样平均误差的计算,在计算抽样平均误差时假定每群单位数是相同的,但实际工作中,通常是“自然群”,其单位数一般是不等的。,4-41,整群抽样抽样效果评价,好处是操作方便、省时、省力。确定一群便可以调查许多单位,但正是由于抽样单位比较集中,限制了样本单位在总体中分配的均匀性,所以有时代表性较代,抽样误差较大。可以增加样本单位来减少误差 。 抽样平均误差只取决于群间方差(与类型抽样相反),因此分群时,应尽量扩大群内方差(群内差异),缩小群间方差(群间差异)来提高抽样效果。,4-42,整群抽样例1,从某县的100个村庄中抽出10村,进行调查得平均每户饲养家禽35头,各村的平均数的方差为16头,请计算平均抽样误差。,4-43,整群抽样例2,假设某水泥厂大量连续生产100公斤装水泥,一昼夜产量为14 400袋,平均每分钟产量10袋。现每隔144分钟抽取一分钟的产量(10袋为一群),一昼夜共抽取100袋水泥,观察结果如下表,试计算样本平均数的抽样平均误差,并以95%的概率估计每包水泥重量的区间范围。,4-44,五、等距抽样,含义:又称机械抽样或系统抽样。先按某个标志对总体单位进行排序,然后依固定的间隔来抽取样本单位。这样可以保证样本单位均匀地分布在总体的各个部分,有较高的代表性。 总体的单位数N,需要抽取的样本单位数n,则等距抽样的间隔大小:k=N/n,总体排序标志是由总体的有关辅助信息确定的,与调查标志两者间可以有关也可以无关。 1、无关标志排队:如家计调查,按门牌号码排序。 2、有关标志排队:如农产量调查按平均亩产量高低排序。 一般来讲,有关标志排序要比无关标志排序的机械抽样更为优越。,在排队时,要注意避免抽样间隔与现象本身的周期性节奏相重合。以减少系统偏差的影响,提高样本的代表性。,4-45,等距抽样抽样平均误差的计算,无关标志排队时,为了方便起见,可以采用简单随机抽样的平均误差代替等距抽样平均误差 :,4-46,六、阶段抽样,含义:所谓阶段抽样,就是先从总体中抽出较大的范围的单位,再从中选的大单位中抽较小范围的单位,依次类推,最后从更小的范围抽出样本基本单位。 阶段抽样一般应用于总体范围很大的情况。如在我国的农产量调查、职工家计调查中都很适用:先从全国抽出各个省,再从抽中的省中抽出县、市,最后抽出样本的基本单位等等。,4-47,阶段抽样两阶段抽样,两阶段抽样较为简单。本书主要分析两阶段抽样平均误差的控制问题。 两阶段抽样在组织技术上可以看成是整群抽样和类型抽样的结合。 设总体分成R组,每组M个单位。两阶段抽样就是:第一阶段用整群抽样方式从总体的全部R组(群)中,随机抽取r组(群);第二阶段用类型抽样方式从每个中选组中抽出m样本单位。,4-48,两阶段抽样样本平均数,4-49,两阶段抽样抽样平均误码,两阶段抽样的平均误差是由两部分构成的,第一部分是第一阶段从总体全部组抽部分组所引起的组间误差,第二部分是由第二阶段在中选组中抽部分单位所引起的组内平均误差。,4-50,七、不同抽样组织设计的比较,进行抽样设计时需要考虑的两个问题: 提高样本的代表性,增加抽样的效果。抽样要满足随机性要求。 抽样设计时,要充分考虑如何降低抽样的成本费用。,4-51,简单随机抽样是基本抽样组织方式,抽样推断效果如何,依赖于所抽出样本的质量;样本的质量好坏,就看样本对总体的代表性如何,而这又依赖于抽取样本时的 “随机性”。 如果不满足随机性,则样本的代表性就值得怀疑,抽样推断就无从进行。,4-52,类型抽样与整群抽样比较,1、抽样平均误差的决定因素不同。 类型抽样的平均误差与组间方差无关,决定于组内方差的平均水平 整群抽样的平均误差与组内方差无关,决定于组间方差大小 2、减小类型抽样与整群抽样平均误差的方法不同。 因为总体方差等于组间方差加上组内方差平均数。所以提高组间方差,降低组内方差可减小类型抽样平均误差 对于整群抽样则相反 3、适应范围不同。 类型抽样充分利用总体的已有信息,其前提就是对总体的结构事先有一定的认识,然后通过分类把总体中调查标志差异比较接近的单位归为一组,减少组内差异,再从各组中抽出样本,这样的样本就对总体有更大的代表性。 整群抽样适用于无原始资料可利用的总体单位。是一种较为方便有效的抽样组织方式,有利于提高抽样的效率。但要注意整群抽样有时代表性不是很理想,抽样误差较大。在实际抽样中,通常要适当增加一些样本单位,以利于缩小抽样误差,提高抽样推断的准确度。,4-53,阶段抽样平均误差的控制,阶段抽样误差的控制必须落实到抽样的各个阶段。两阶段抽样误差控制,要落实为第一阶段的整群抽样的误差控制与第二阶段的类型抽样的误差控制两方面。 两阶段抽样平均误差,既取决于组间方差也取决于组内平均方差,但组间方差是主要的因素。所以在组织两阶段抽样时在相同样本容量要求下,适当增加第一阶段的组数,比增加第二阶段的单位数,能更显著地提高抽样效果。,4-54,选择题,1.假定样本容量增加50%。则重复抽样平均误差:(甲)为原来的一半;(乙)为原来的81.6%。在重复抽样时,为使误差减少50%,则样本容量:(丙)应增加三倍;(丁)应增加四倍。 A.甲丙 B.甲丁 C.乙丙 D.乙丁 2.抽样估计中的抽样误差( ) A.是不可避免的 B.可以通过改进调查方法避免的 C.是可以运用数学公式计算的 D.误差大小是可以加以控制的 E. 包含了登记性误差 3.抽样平均误差指标说明( ) A.样本平均数的代表性 B.抽样指标的代表性 C.估计值与实际值的平均误差 D.样本指标相对于总体指标离差的平均水平 E.抽样误差的大小,4-55,4.从一个全及总体中可以抽取一系列样本,所以( ) A.样本指标的数值不是唯一确定的 B.样本指标是样本变量的函数 C.总体指标是随机变量 D.样本指标是随机变量 E.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论