第四章-抽样推断ppt课件_第1页
第四章-抽样推断ppt课件_第2页
第四章-抽样推断ppt课件_第3页
第四章-抽样推断ppt课件_第4页
第四章-抽样推断ppt课件_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、上课啦,静,第 四 章抽样推断,抽样推断,学习目的与要求,抽样推断是统计研究中的一种重要分析方法。学习本章要求掌握能利用统计资料来推断总体数量特征的原理及方法,其具体要求: 理解抽样推断的概念及特点 深刻理解抽样误差产生的原因 对抽样误差、抽样平均误差、抽样极限误差加以区别,并会运公式进行计算 重点掌握简单随机抽样组织形式的区间估计方法 掌握必要样本单位数的确定方法,第四章 抽样推断(教学内容,第一节 抽样推断中几个基本概念 第二节 抽样误差 第三节 抽样估计的方法 第四节 假设检验 第五节 抽样的组织方式,第一节 抽样推断 中几个基本概念,第四章 抽样推断,第一节 抽样推断中几个基本概念,一

2、、抽样推断的意义 (一)抽样推断的概念 抽样推断是按照随机原则,从全部研究总体中抽取一部分单位进行调查,并依据所获得的数据对总体的某一数量特征做出具有一定可靠程度的估计与推断的一种统计方法。抽样推断的全过程,就是抽样调查,一、抽样推断的意义,二)抽样推断的特点 1、按随机的原则抽取样本。 2、在数量上,以样本推断总体。 3、抽样误差可以事先计算和控制,三)抽样调查的作用,1、对于产品或商品具有破坏性的质量检验不能进行全面调查。 例如灯泡、电视机使用寿命的检验,种子的发芽率检验,炮弹的射程测试等,不能为了鉴定质量而破坏所有的产品。这种情况下,也只能用抽样的方法。 2、有时虽然能全面调查,但抽样调

3、查仍有独到作用,它可以大大节省人力、物力,又可节省时间,提高调查的时效性,并且能取得比较详细的资料。因此,对那些资料要求紧迫,需以较短时间,迅速了解总体全面情况时,也可用抽样法。 3、有些现象总体范围过大,单位分布又过于分散,很难或不必要进行全面调查。 如,要检验水库的鱼苗数,森林的木材蓄积量。 4、对全面调查资料进行修正,以提高全面调查质量,二、全及总体与抽样总体,一)全及总体 全及总体:抽样调查所要认识对象的全体,也叫母体,简称总体,它是具有某种共同性质或特征的许多单位的集合体。全及总体的单位数通常用N来表示,全及总体的分类,1.按总体单位标志性质不同分: 变量总体:能用数量描述总体各单位

4、的数量特征的总体。抽样推断反映总体的数量特征的量。 属性总体:只能用文字描述总体各单位性质特征的总体。抽样推断反映总体的属性特征的量。 2.按总体单位的范围不同分: 有限总体 无限总体,二)抽样总体 抽样总体又叫样本或子样,简称样本。它是从全及总体中随机抽取出来,代表全及总体的那部分单位的集合体。样本总体的单位数称为样本容量,通常用n表示,相对N来说,n是很小的数,它可以是N的几十分之一、几百分之一、几千分之一、几万分之一。(一般来说,样本单位数达到或超过30个称为大样本,而在30个以下称为小样本。社会经济现象的抽样调查多取大样本,二、全及总体与抽样总体,三、全及指标和抽样指标,一)全及指标:

5、根据全及总体各个单位的标志值或标志特征计算的,反映总体某种数量特征的综合指标称为全及指标。也叫总体指标或母体参数。由于全及总体是唯一确定的,所以根据全及总体计算的全及指标也是唯一确定的,二)抽样指标:由样本总体各单位标志值或标志特征计算的,反映样本数量特征的综合指标,它是用来估计全及指标的,全及指标和样本指标的相关公式,变量总体,总体平均数,总体标准差,总体方差,全及指标,样本指标,全及指标和样本指标的相关公式,四、重复抽样与不重复抽样,一)重复抽样 也称重置抽样、回置抽样。它是指从总体N个单位中随机抽取容量为n的样本时,每次从总体中抽取一个单位,把结果登记下来后,重新返回,再从全及总体中抽取

6、下一个样本单位。在这种抽样方式中,同一单位可能有多次被重复抽取的机会。例如 (二)不重复抽样 也称不重置抽样、不回置抽样。它是指从总体N个单位中随机抽取容量为n的样本时,每次从总体中抽取一个单位,不再放回去,下一次则从剩下的总体单位中继续进行抽取,如此反复构成一个样本,就是说,每个总体单位只能被抽取一次,所以从总体中每抽取一次,总体就少一个单位,因此,先后抽出来的各个单位被抽中机会是不相等的。例如,重复抽样案例 总体有A、B、C、D四个单位,要从中随机抽取两个单位构成样本。可先从4个单位中取一个,结果登记后放回,然后再从相同的4个中取一个,就构成一个样本。全部可能抽取的样本数目为4416个。它

7、们是: AA,AB,AC,AD,BA,BB,BC,BD,CA,CB,CC,CD,DA,DB,DC,DD。 一般地说,从总体N个单位中,随机抽取n个单位构成样本,则样本可能数目为 个,不重复抽样案例 前例中,用不重复抽样的方法从中抽两个单位构成样本,则全部可能抽取得样本共有43=12个,它们是: AB,AC,AD,BA,BC,BD,CA,CB,CD,DA,DB,DC。 一般地讲,从总体N个单位中,随机不重复抽取n个单位构成一样本,则样本可能数目为N(N1) (N2)(Nn+1) 个。 由上可知,在相同的样本容量的要求下,不重复抽样的样本可能数目比重复抽样为少。在实际工作中,一般多采用不重复抽样,

8、但有些调查如公交车辆乘客情况的调查,商场顾客流量情况的调查只宜用重复抽样,五、抽样框与样本数,一)抽样框 又称抽样结构,是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。 (二)样本数 又称样本可能数目,是指从总体N个单位中随机抽选n个单位构成样本,通常有多种抽选方法,每一种抽选方法都是从总体N个单位中随机抽选n个单位构成一种组合。一种组合就是一个样本,一种抽选方法有K种组合,就有K个样本,K就是样本可能数目,第二节 抽样误差,第四章 抽样推断,第二节 抽样误差,一、抽样误差的概念 (一)什么是抽样误差 抽样误差是指样本指标与总体指标之间的离差。具体地讲,就是样本

9、平均数与总体平均数的离差(即 ),或样本成数与总体成数的离差(即,二)抽样误差的产生原因,统计误差的种类,统 计 误 差,调查误差,代 表 性 误 差,系统性误差,随机性误差,1.调查误差:即在调查过程中由于观察、测量、登记、计算上的差错所引起的误差,这类误差是所有统计调查都可能发生的。 2.代表性误差:即样本各单位的结构不足以代表总体而引起的误差。这类误差只有在非全面调查中才可能发生。代表性误差按产生原因不同又分为两类,系统性误差:是由于违反抽样的随机原则,如有意地多选较好的单位或较坏的单位进行调查。这样做,所据以计算的抽样指标必然出现偏高或偏低现象,造成的误差。 随机性误差:在遵守随机原则

10、的条件下,由于被抽选的样本有各种各样,只要被抽中的样本其内部各单位被研究标志的构成比例与总体有所出入,而产生的偶然性代表性误差,二、影响抽样误差的因素,1、样本单位数的多少 2、总体被研究标志的变异程度 3、抽样方法 4、抽样的组织形式,这么多影响因素啊,怎样计算抽样平均误差啊,三、抽样平均误差,一)什么是抽样平均误差 是反映抽样误差一般水平的指标。它是所有样本平均数(或样本成数)的标准差。其理论计算公式为,三、抽样平均误差,二)样本平均数的平均误差 抽样调查实践中用来计算抽样平均误差的基本公式是根据定义公式推导出来的。数理统计证明,在重复抽样条件下,抽样平均误差与总体标准差成正比,与样本单位

11、数的算术平方根成反比。即,样本平均数的平均误差计算案例,现以4个工人的日产量为例来验证两个公式的计算结果是相同的。 例1 设4个工人的日产量分别为40、42、46、48件。则平均日产量与平均日产量的标准差如表41,则,怎样计算啊,如果从总体中随机抽出2个单位进行调查,则抽样平均误差,抽样平均误差,不重复抽样条件下计算公式为: 通过比较不重复抽样条件下和重复抽样条件下的公式可以看出,根号下相差 我们把这个式子叫做修正因子。不难看出当N较大时, 与 的计算结果是十分接近。因此,当N较大时在不重复抽样条件计算抽样平均误差的公式可采用,根据上例资料计算: 通过上例计算看出,不重复抽样的抽样误差小于重复

12、抽样的抽样误差,抽样误差就这样计算啊,例2 从某厂生产的10000只日光灯管中随机抽取100只进行检查,假如该产品平均使用寿命的标准差为100小时,试计算该厂日光灯管平均使用寿命的平均误差。 解:在重复抽样条件下 在不重复抽样条件下,二)抽样成数的平均误差,如用 表示抽样成数的抽样平均误差,其公式为: 在重复抽样条件下 在不重复抽样条件下 以上所有的公式中,不论是抽样平均数的抽样平均误差,还是抽样成数的抽样平均误差,所用的标准差都是全及总体的标准差。但实际上,无论是在抽样之前,还是在抽样之后,全及总体的标准差都是未知的。所以,一般都用样本总体的相应指标来代替,例3 从某厂生产的10000件产品

13、中,随机抽取1000件进行调查,测得有85件为不合格。试求产品合格率的抽样平均误差。 解:根据条件可知,合格率P91.5% 1.在重复抽样条件下 2. 在不重复抽样条件下,一)抽样极限误差的概念 抽样极限误差是指样本指标和总体指标之间抽样误差的可能范围。由于总体指标是一个确定的数,而样本指标则是围绕着总体指标上下波动的量,它与总体指标可能产生正离差,也可能产生负离差,样本指标变动的上限或下限与总体指标之差的绝对值就可以表示抽样误差的可能范围,我们将这种以绝对值形式表示的抽样误差可能范围称为抽样极限误差,四、抽样极限误差,抽样极限误差用符号表示为,样本平均数的抽样极限误差为: 样本成数的抽样极限

14、误差为: 而抽样推断的目的是用样指标估计总体指标,对上列公进行整理可得估计总体指标的算式为,抽样极限误差的计算公式 基于概率估计的要求,抽样极限误差通常需要以抽样平均误差为标准单位来衡量。与抽样平均误差的概率度t相关,其计方法为,五、抽样估计的概率度、精度和可靠程度,一)抽样估计的概率度 基于概率估计的要求,抽样极限误差通常需要以抽样平均误差为标准单位来衡量。把极限误差除以抽样平均误差得相对数t,它表示误差范围为抽样平均误差的若干倍,t是测量估计可靠程度的一个参数,称为抽样平均误差的概率度,五、抽样估计的概率度、精度和可靠程度,二)抽样估计的精度 抽样估计的精度就是估计误差的最大范围,即误差的

15、最大值,可通过极限误差系数来反映,即抽样误差扫的相对程度,其计算公式为: 抽样估计精度(A)的计算公试为 : 估计精度是根据研究对象的变异程度和分析任务的性质来确定的。显然,A越大,估计的精度要求越高,A越小,估计的精度要求越低。估计精度的确定要以实际需要为基本标准。比如,对航天元器件的估计误差,就要求控制在极小的范围内;而对一些小商品如纽扣的合格率估计,其估计误差就可以控制在较大的范围里,因为这种误差,对消费者、对厂商的负面影响都有限,五、抽样估计的概率度、精度和可靠程度,三)抽样估计的可靠程度 抽样估计的可靠程度:就是估计的区间所包含总体参数真实值的可能性大小。又称置信度、或把握程度。具的

16、地说,抽样置信区间是以一定的概率把握程度确定总体指标所在的区间。置信度是总体指标落在某个区间的概率把握程度。 抽样估计的可靠程即概率用P表示,P 是t函数。而P=F(t)表明概率分布是概率度t的函数。确定抽样估计的可靠程度,就是确定抽样平均数或抽样成数落在置信区间中的概率P。 F(t)的函数形式为,五、抽样估计的概率度、精度和可靠程度,F(t)与t之间的函数值可以根据抽样推断要求的把握程度 F(t)查到概率度t。这样就为抽样推断提供了方便,计算极限误差时,这种数值对应关系是经常要用到的。为了便于应用,有编好的t与F(t)对应的“正态分布概率表” 可以查对。 (见下表) 正态分布概率表(节选常用

17、对应值,五、抽样估计的概率度、精度和可靠程度,四)抽样估计的概率度、精度和可靠程度之间的关系 根据极限误差的计算公式,可以表明与t和三者之间存在着如下的关系: 1当为一定时,增大t值,把握程度相应增加,误差范围也随之扩大,这时估计的精确度却要降低。反之,在为一定的条件下,要提高估计的精确度,就得缩小t值,这时把握程度却要相应的降低。 2当t为一定时,即将把握程度给定,如果抽样平均误差小,误差范围也就小,估计的精确度就高,如果抽样平均误差大,误差范围也要大,估计的精确度就要低。 3如果已求出抽样平均误差,并给定误差范围,则除以可以求出t值,再通过查t与F(t)的查对表,就可以知道把握程度有多大。

18、 上述这些关系,在作区间估计时常要用到,应当理解清楚,第三节 抽样估计方法,第四章 抽样推断,一、抽样估计的特点,一)抽样估计的概念 抽样估计是利用计算出的样本指标值来估计和推断相应的总体指标数值的方法。又称参数估计。 (二)抽样估计的特点 1、它在逻辑上运用的是归纳推理,而不是演绎推理。 2、它在方法上运用是不确定概率估计法,而不是运用确定的数学分析法。 3、抽样估计的结论存在着一定的抽样误差,二、抽样点估计的优良标准,无偏性,一致性,有效性,二,一,三,三、抽样估计方法,抽样的估计有点估计和区间估计两种方法。 (一)点估计 点估计是以抽样指标数值直接作为总体指标估计值的一种估计方法 。 点

19、估计的方法优点是简便易行,原理直观,常为实际工作采用。 点估计的不足之处是没有表明抽样估计的误差,更没有表明误差在一定范围内的概率保证程度有多大,这个方法简单,二)区间估计,区间估计的概念(见教材P105) 区间估计区别于点估计有三点: 区间估计不像点估计那样用一个数值对总体指标进行估计,而是用一个范围对总体指标进行估计; 点估计是一个确切的估计值,而区间估计的是区间,根据概率度的要求可宽可窄; 点估计无法回答估计值的把握程度,而区间估计可以回答估计区间的把握程度,区间估计的模式 1、根据已给定的抽样误差范围,求概率保证程度。具体步骤是: 第一步,抽取样本,计算抽样指标,即计算样本平均数和抽样

20、成数p,作为总体指标的估计值,并计算样本标准差s以推算抽样平均误差。 第二步,根据给定的抽样极限误差范围,估计总体指标的上限和下限。 第三步,将抽样极限误差除以抽样平均误差,求出概率度t,再根据t值查正态分布概率表求出相应的概率保证程度,估计模式1:总体平均指标估计案例,例 对一批某型号的电子元件进行耐用性能检查,按重复随机抽样的资料分组列表如下,要求估计耐用时数的允许误差范围=10.5小时,是估计该批电子元件的平均耐用时数(见下表,第一步,计算, s, : 第二步,根据给定的 =10.5小时,计算总体平均数的上下限: 下限= =1055.510.5=1045(小时) 上限= =1055.5+

21、10.5=1066(小时,第三步,根据 ,查正态 分布概率表得概率F(t)=95.66%。 推断的结论是:以95.66%的概率保证程度,估计该批电子元件的耐用时数在10451066小时之间,哦!第一种模式的估计要分三步进行。 第一步:计算样本指标; 第二步:计算估计区间的上限值和下限值; 第三步:根据抽样误差和极限误差计算估计概率度,再根据概率度查估计概率,得出推断结论,估计模式一:总体成数指标估计案例,例 仍用上例资料,设该厂的产品质量检验标准规定,元件耐用时数达1000小时以上为合格品,要求合格率估计的误差范围不超过4%,试估计该批电子元件的合格率。 第一步:计算p, ,P,还可以用另一种

22、方法计算吗,第二步:根据该给定的 =4%,求总体合格率的上下限: 下限 = = 91%4% = 87% 上限 = = 91% + 4% = 95% 第三步:根据 ,查正态分布概率表得概率F(t)= 83.85%。 通过计算得出如下估计:即可以83.85%的概率保证程度,估计该批电子元件的合格率在87%95%之间,哦,和总体平均指标估计的步骤一样,就是计算的样本指标不同,区间估计的模式 2、根据已给定的置信度,求抽样极限误差。具体步骤是: 第一步,抽取样本,计算抽样指标 ,即计算样本平均数和抽样成数p,作为总体指标的估计值,并计算样本标准差s以推算抽样平均误差。 第二步,根据给定的置信度F(t)

23、的要求,查正态分布概率表求得概率度t值。 第三步,根据概率度t和抽样平均误差 推算抽样极限误差 ,并根据抽样极限误差求出被估计总体指标的上下限,例 对我国某城市进行居民家庭人均旅游消费支出调查,随机抽取400户居民家庭,调查得知居民家庭人均年旅游消费支出为350元,标准差为100元,要求以95%的概率保证程度,估计该市人均年旅游消费支出额。 第一步:根据抽样资料已算得: 样本每户年人均消费支出 =350(元) 样本标准差 = 100(元) 抽样平均误差 (元,估计模式2:总体平均指标估计案例,第二步:根据给定的概率保证程度F(t)=95%,查得正态分布概率表得t = 1.96。 第三步:计算

24、(元)则该市居民家庭年人均旅游消费支出额: 下限 = = 3509.80 = 340.20(元) 上限= = 350+9.80 = 359.80(元) 结论:我们可以95%得概率保证程度,估计该市居民家庭年人均旅游消费支出额在340.20元359.80元之间,估计模式2和模式1 的区别在哪里呀 ,例 某市电视台为了解观众对某电视栏目的喜爱程度,在该市随机对900名居民进行调查,结果有540名喜欢该电视栏目,要求以90%的概率保证程度,估计该市居民喜欢该电视栏目的比率。 第一步:根据抽样资料计算: 样本喜欢程度比率,估计模式2:总体成数指标估计案例,第二步:根据给定的置信度F(t)= 90% ,

25、查正态分布概率表得概率度t = 1.64。 第三步:计算 ,则总体比率的上下限为: 下限 = = 60% 2.67% = 57.33% 上限 = = 60% + 2.67% = 62.67% 结论:我们可以概率90%的保证程度,估计该市居民对此电视栏目喜爱的比率在57.33%62.67%之间,五、样本容量(必要抽样单位数)的确定,一)确定样本容量的意义 1、什么是样本容量 样本容量是指为了完成抽样调查任务,满足抽样调查的各项要求而科学计算的需要抽取的样本单位数。即样本单位数“n”的具体数值,也叫必要抽样数目。 2、确定样本容量的必要性 确定样本容量是制定抽样调查方案中的一个非常重要的问题。 (

26、1)样本容量的大小直接影响到抽样估计效果。如果样本容量太小,就会降低样本对总体的代表性,从而降低抽样估计效果; (2)样本容量的大小是影响抽样费用的重要因素。样本过大必然增加人、财、物力的消耗,增加调查成本,3、影响样本容量的因素 (1)被研究总体标志变异程度。即总体标准差,越大样本容量越大;越小样本容量越小。 (2)允许误差(极限误差)大小。值大样本容量小; 值小样本容量大。 (3)概率度t的大小。t值大,把握程度高,样本容量大; t值小,把握程度低,样本容量小。 (4)抽取样本单位方法。重复抽样样本容量大于不重复抽样。 (5)抽样组织形式。抽样组织形式不同样本容量也不同,二)样本容量的计算

27、 样本容量n的确定是由抽样极限误差公式变化而来的,分为重复抽样和不重复抽样两种方法。 1.重复抽样样本容量n的确定 (1)平均数的样本容量 由 得 则 例,某县农户经济调查,已知农户人均月收入标准差 为30元,把握程度为0.9545,允许误差 为5元,计算样本容量,2)成数样本容量 例:已知产品合格率为0.97,允许误差(p)为0.015(查表t=1.96),要求把握程度为0.95,计算样本容量,2.不重复抽样样本容量计算 (1)平均数的样本容量 例,在上例中已知总体为1000户计算不重复抽样样本容量。 若总体为2000户则样本容量为,2)成数的样本容量 【例】某高校对一年级1000名新生英语

28、及格率进行调查,已知上届学生的英语成绩的及格率为96%,试确定在95.45%的概率保证程度下,允许误差不超过2%时应该抽取多少名新生进行调查。 解:根据给定的概率保证程度,查概率表得概率度t2。 不重复抽样,三)确定样本容量应该注意的问题 1.必要抽样数目应大于30。 2.实际调查时可对计算的必要抽样数目进行调整。 3.当总体单位数不大时,如果采用不重复抽样的方法抽取样本,必须应用不重复抽样的计算公式计算必要抽样数目;当总体单位数很大时,虽然采用不重复抽样方法,亦可采用重复抽样的计算公式计算必要抽样数目,4.当抽样调查是为了检验全面统计数字的质量时,全及总体的标志变异指标 或p(1p)是有实际

29、资料的,可以直接代入公式计算必要抽样数目。 5.如有几个方差可以选用时,宜选择最大数值。成数方差可用方差的极值(P=0.5) 6.一个总体往往同时计算抽样平均数和抽样成数。由于它们的方差和允许误差范围不同,因此,需要的必要抽样数目也不相同。为了防止由于样本单位数不足而扩大抽样误差,在实际工作中往往根据比较大的必要抽样数目进行抽样,以满足共同的需要,例 对生产的大型号电池进行抽样调查,据以往资料知道,电流强度的标准差为0.4安培,合格品率为95。现用重复抽样方式并以95.45的概率保证程度做保证,抽样平均电流强度的极限误差不超过0.08安培,抽样合格率的极限误差不超过5,试求必要抽样数目,第五节

30、 抽样的组织形式,第四章 抽样推断,第四节 抽样的组织方式,抽样调查有四种基本的组织方式,即简单随机抽样、等距抽样、分类抽样、整群抽样。在具体的抽样调查中,可根据调查对象的特点,单独使用其中一种方式,也可以多种方式结合使用。 一、简单随机抽样 简单随机抽样也叫纯随机抽样。它是指在进行抽样时,对全及总体不经过任何形式的整理和加工,完全凭借偶然的机会从总体中抽取样本单位的抽样方式,1.直接抽选法是指直接从调查对象中随机抽选。例如,从仓库中存放的所有同类产品中随机指定若干件产品进行质量检验;从粮食仓库中不同的地点取出若干粮食样本进行含杂量、含水量的检验等。 2.抽签法即先将全及总体各个单位按照某种自然的顺序编上号,并做成号签,再把

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论