抽样估计-抽样推断的一般问题_第1页
抽样估计-抽样推断的一般问题_第2页
抽样估计-抽样推断的一般问题_第3页
抽样估计-抽样推断的一般问题_第4页
抽样估计-抽样推断的一般问题_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五章 抽样估计1抽样推断的一般问题抽样推断的一般问题2抽样误差抽样误差3抽样估计的方法抽样估计的方法4抽样组织设计抽样组织设计1、抽样推断的意义、抽样推断的意义一、一、抽样推断的概念、特点抽样推断的概念、特点(一)概念:(一)概念: 抽样推断是在抽样调查的基础上,利用样抽样推断是在抽样调查的基础上,利用样本的实际资料计算样本指标,并据以推算总体本的实际资料计算样本指标,并据以推算总体相应数量特征的一种统计分析方法。相应数量特征的一种统计分析方法。(二)、抽样调查的基本特点:抽样推断是一种由部分推算整体的研究方法。抽样推断建立在随机取样的基础上。抽样推断运用的是概率估计的方法。抽样推断的误差可

2、以事先计算,并加以控制。二、抽样推断的内容:l(一)参数估计(一)参数估计l(二)假设检验(二)假设检验三、有关抽样的基本概念(一)、随机抽样与非随机抽样随机原则:就是排除主观意愿的干扰,使总体的每个单位都有一定的概率随机原则:就是排除主观意愿的干扰,使总体的每个单位都有一定的概率被抽选为样本单位,每个总体单位能否选入样本是随机的。被抽选为样本单位,每个总体单位能否选入样本是随机的。随机抽样:是指按照随机原则从总体中抽取样本单位,随机抽样:是指按照随机原则从总体中抽取样本单位,保证每单位都有相同的中选机会,或中选的概率是已保证每单位都有相同的中选机会,或中选的概率是已知的。知的。非随机抽样:是

3、指从研究目的出发,根据调查者的经非随机抽样:是指从研究目的出发,根据调查者的经验或判断,从总体中有意识地抽取若干单位构成样本。验或判断,从总体中有意识地抽取若干单位构成样本。 重点调查、典型调查等属于非随机抽样。(其缺点重点调查、典型调查等属于非随机抽样。(其缺点在于难以排除主观因素的影响,事先无法控制抽样误在于难以排除主观因素的影响,事先无法控制抽样误差,不能保证推断结果的可信度。)差,不能保证推断结果的可信度。)(二)、总体参数和样本统计量常用的总体参数有总体平均数,总体成数和总体方差。常用的样本统计量包括样本平均数,样本成数和样本方差。211iPPXFFXXFFXX FFNXPNPP 总

4、体指标:或211ippxffxxffxxfsfnxpnspp 样本指标:或()(三)、样本容量和样本个数 l样本容量样本容量:样本所包含的总体单位个数称为样本容量,一般用n表示。在实际工作中,人们通常把n30的样本称为大样本,而把 n30的样本称为小样本。l样本个数:样本个数:是指从一个总体可能抽取的样本个数。(四)、重复抽样和不重复抽样 样本的可能数目既和样本的容量有关,也和抽样的方法有关。根据取样方式的不同,抽样方法有重复抽样和不重复抽样两种。1、重复抽样:是指从总体的N个单位中抽取一个容量为n的样本,每次抽出一个单位后,再将其放回总体中参加下一次抽取,这样连续抽n次即得到一个样本。2、不

5、重复抽样:是指抽中单位不再放回总体中,下一个样本单位只能从余下的总体单位中抽取。重复抽样与不重复抽样的区别:重复抽样:同一总体单位有可能被重复抽中;每个总体单位在每次抽样中被抽中的概率都是相同的。抽样误差较大。不重复抽样:同一总体单位不可能被重复抽中;由于每次抽取是在不同数目的总体单位中进行,每个总体单位在各次抽样中被抽中的概率不相等。抽样误差较小。2、抽样误差、抽样误差一、一、抽样误差的意义抽样误差的意义(一)概念:(一)概念: 抽样误差是指由于随机抽样的偶然因素使抽样误差是指由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结样本各单位的结构不足以代表总体各单位的结构,而引起抽

6、样指标和全及指标之间的绝对离构,而引起抽样指标和全及指标之间的绝对离差。差。抽样误差: 误误 差差登记性误差登记性误差代表性误差代表性误差系统性误差系统性误差随机性误差随机性误差代表性误差是指用样本指标推断代表性误差是指用样本指标推断总体指标时,由于样本结构与总总体指标时,由于样本结构与总体结构不一致、样本不能完全代体结构不一致、样本不能完全代表总体而产生的误差。表总体而产生的误差。系统性误差是指由于违反抽样调查随机原系统性误差是指由于违反抽样调查随机原则,有意抽选较好或较差的单位进行调查,则,有意抽选较好或较差的单位进行调查,使样本估计量的值系统偏低或偏高。使样本估计量的值系统偏低或偏高。随

7、机性误差又称随机性误差又称偶然性误差,是偶然性误差,是指遵循随机原则指遵循随机原则抽样,由于随机抽样,由于随机因素(偶然性因因素(偶然性因素)引起的误差。素)引起的误差。抽样估计中的所抽样估计中的所谓抽样误差,就谓抽样误差,就是指的这种随机是指的这种随机误差。误差。登记性误差是指在调查和汇总过程中由于观察、登记性误差是指在调查和汇总过程中由于观察、测量、登记、计算等方法的差错或被调查者提供测量、登记、计算等方法的差错或被调查者提供虚假资料而造成的误差。任何一种统计调查都可虚假资料而造成的误差。任何一种统计调查都可能产生登记性误差能产生登记性误差。影响抽样误差大小的因素是:总体各单位标志值的差异

8、程度。 在其他条件不变的情况下,总体标志的变异程度愈小,则抽样误差也愈小;总体标志的变异程度愈大,则抽样误差也愈大。抽样单位数的多少。 在其他条件不变的情况下,抽样单位数愈多,抽样误差愈小;抽样单位数愈少,抽样误差愈大。抽样的方法。 在其他条件不变的情况下,重复抽样的抽样误差大于不重复抽样。抽样的组织形式。二、 抽样平均误差(一)、抽样实际误差:(二)、抽样平均误差:是抽样平均数(或抽样成数)的标准差。它反映抽样平均数(或抽样成数)与总体平均数(或总体成数)的平均误差程度。xX2ixxX样本可能数目21xpnnppn重复抽样:()2111xpnnNppnnN不重复抽样:()抽样平均误差的计算公

9、式:变量总体属性总体当N 很大时,重复抽样与不重复抽样的差别不大! 举例说明抽样平均误差的意义:设有4个工人,各人的工资水平分别是40、50、70、80元,现采用重复抽样方法随机从中抽取2人。 序号样本变量(x)样本平均数平均数离差离差平方1(A、A)40、4040-204002 (A、B)40、5045-152253 (A、C)40、7055-5254 (A、D)40、8060005 (B、A)50、4045-152256 (B、B)50、5050-101007 (B、C)50、7060008 (B、D)50、80655259 (C、A)70、4055-52510 (C、B)70、50600

10、011 (C、C)70、70701010012 (C、D)70、80751522513 (D、A)80、40600014 (D、B)80、506552515 (D、C)80、70751522516 (D、D)80、808020400合计9602000ix元)(604)80705040(X 22:9606016:20001611.18:240604:100015.81()4ixE xxXXXNXXN样本平均数的平均数样本可能数目(元)抽样平均误差样本可能数目(元)总体平均数(元)总体标准差元 举例说明抽样平均误差的意义:设有4个工人,各人的工资水平分别是40、50、70、80元,现采用重复抽样方

11、法随机从中抽取2人。 序号样本变量(x)样本平均数平均数离差离差平方1(A、A)40、4040-204002 (A、B)40、5045-152253 (A、C)40、7055-5254 (A、D)40、8060005 (B、A)50、4045-152256 (B、B)50、5050-101007 (B、C)50、7060008 (B、D)50、80655259 (C、A)70、4055-52510 (C、B)70、50600011 (C、C)70、70701010012 (C、D)70、80751522513 (D、A)80、40600014 (D、B)80、506552515 (D、C)80

12、、70751522516 (D、D)80、808020400合计9602000ix元)(604)80705040(X 22:7206012:1000129.13:240604:100015.81()4ixE xxXXXNXXN样本平均数的平均数样本可能数目(元)抽样平均误差样本可能数目(元)总体平均数(元)总体标准差元2215.8111.18()2115.81219.13()24nnnN重复抽样:元不重复抽样:元三、抽样极限误差:是抽样指标和总体指标之间抽样误差的可能范围。xpxxppxxppxXpPXxXPpPxXxpPp 将上式等价转换为下列不等式:因为,总体指标是未知,上述不等式应该转换

13、为: 四、抽样误差的概率度 基于理论上的要求,抽样极限误差通常需要以抽样平均误差为标准单位来衡量,把极限误差除以抽样平均误差,得出相对数 Z Z,表示极限误差范围为抽样平均误差的若干倍。 Z Z 称为概率度。这一变换称为概率的标准化过程。ppxxZZ3、抽样估计的方法抽样估计的方法 一、总体参数的点估计一、总体参数的点估计(一)参数点估计的概念(一)参数点估计的概念点估计:也称定值估计,即以实际抽样资料得到的抽样指标值点估计:也称定值估计,即以实际抽样资料得到的抽样指标值作为总体指标的估计值。作为总体指标的估计值。(二)优良估计标准(二)优良估计标准1、无偏性:用抽样指标估计总体指标要求抽样指

14、标的平均数、无偏性:用抽样指标估计总体指标要求抽样指标的平均数等于被估计的总体指标。等于被估计的总体指标。2、一致性:随着样本的单位数、一致性:随着样本的单位数n的无限增大,抽样指标和未的无限增大,抽样指标和未知的总体指标之间的绝对离差为任意小的可能性也趋于必然性。知的总体指标之间的绝对离差为任意小的可能性也趋于必然性。3、有效性:用抽样指标估计总体指标要求作为优良估计量的、有效性:用抽样指标估计总体指标要求作为优良估计量的方差应该比其它估计量的方差小。方差应该比其它估计量的方差小。二、总体参数区间估计二、总体参数区间估计(一)抽样估计的精度(一)抽样估计的精度误差率估计精度误差率1xx(二)

15、抽样估计的置信度(二)抽样估计的置信度抽样估计置信度就是表明抽样指标和总体指标的误差不抽样估计置信度就是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度。根据概率度,依靠正态超过一定范围的概率保证程度。根据概率度,依靠正态分布概率表求得。分布概率表求得。三、总体参数区间估计方法三、总体参数区间估计方法 (一)总体参数区间估计应具备的三要素:(一)总体参数区间估计应具备的三要素: 一是:估计值;一是:估计值; 二是:估计值的误差范围;二是:估计值的误差范围;决定估计的准确性。决定估计的准确性。 三是:概率保证程度。三是:概率保证程度。决定估计的可靠性。决定估计的可靠性。(二)总体参数的两

16、种区间估计方法(二)总体参数的两种区间估计方法区间估计的基本特点:根据估计可靠程度的要求,选定概率度,区间估计的基本特点:根据估计可靠程度的要求,选定概率度,以及极限误差,再利用抽样调查取得的抽样平均数,定出估计以及极限误差,再利用抽样调查取得的抽样平均数,定出估计的上、下限。区间称为置信区间,估计可靠程度称为置信度。的上、下限。区间称为置信区间,估计可靠程度称为置信度。四、举例说明总体参数的两种区间估计方法:四、举例说明总体参数的两种区间估计方法:(一)根据已经给定的抽样误差范围,求概率保证程度。(一)根据已经给定的抽样误差范围,求概率保证程度。 例例8 8、对某型号的电子元件进行耐用性能的

17、检查,抽样资料、对某型号的电子元件进行耐用性能的检查,抽样资料 分组列表如下,要求耐用时数的允许误差范围分组列表如下,要求耐用时数的允许误差范围 =10.5 =10.5小时,试估计该批电子元件的平均耐用时小时,试估计该批电子元件的平均耐用时 数。数。x耐用时数(小时)耐用时数(小时)组中值(组中值(x)件数(件数(f)900以下以下 875 1900950 925 29501000 975 6100010501025 35105011001075 43110011501125 9115012001175 31200以上以上1225 1合计合计100l 解:第一步,计算抽样平均数和标准差:解:第

18、一步,计算抽样平均数和标准差:小时)(小时)小时)(191. 510091.5191.51)(5 .10551001055502nffxxfxfxx小时之间。在电子元件的耐用时数的保证程度,估计该批即可以概率我们可以作如下估计,查概率表得置信度第三步,根据(小时)上限(小时)下限总体平均数的上下限:小时,计算第二步,根据给定的10661045%45.95.9545.0)(,2191.5/5 .10/10665 .105 .105510455 .105 .10555 .10 xZFZxxxxxx例例9、仍按例、仍按例8资料,设该厂的产品质量检验标准规定,元资料,设该厂的产品质量检验标准规定,元件

19、耐用时数达到件耐用时数达到1000小时以上为合格品,要求合格率估计小时以上为合格品,要求合格率估计的误差范围不超过的误差范围不超过5,试估计该批电子元件的合格率。,试估计该批电子元件的合格率。之间。在该批电子元件的合格率的保证程度,估计即可以概率我们可以做如下估计,查概率表得置信度第三步,根据上限下限限:求得总体合格率的上下误差第二步,根据给定极限率和方差:第一步,计算样本合格%96%86%9292. 0)(,76. 1%96%5%91%86%5%91%,5%86. 21000819. 0)1 (0819. 009. 0*91. 0)1 (%911009121ZFZppnppppnnppppp

20、ppp(二)根据已经给定的置信度要求来推算抽样平均误差的可二)根据已经给定的置信度要求来推算抽样平均误差的可能性范围。能性范围。l 例例10、某城市进行居民家计调查,随机抽取、某城市进行居民家计调查,随机抽取400户户居民,调查的年平均每户耐用品消费支出为居民,调查的年平均每户耐用品消费支出为850元,元,标准差为标准差为200元,要求以元,要求以95%的概率保证程度,估计的概率保证程度,估计该城市居民每户年平均耐用消费品支出。该城市居民每户年平均耐用消费品支出。元之间。品支出在居民平均每户耐用消费计该市的概率保证程度,估我们可以(元)上限元)下限限为:耐用消费品支出的上下则该市居民每户年平均

21、查概率表得又已知(元)则(元),(元),解:已知,6 .8694 .830956 .869(4 .830, 6 .1910*96. 1.96. 1,95. 0)(10400200200850 xxxxxZZZFnx例例1111,为了研究新式时装的销路,在市场上随机对,为了研究新式时装的销路,在市场上随机对900900名名成年人进行调查,结果有成年人进行调查,结果有540540名喜欢该新式时装,要求以名喜欢该新式时装,要求以9090的概率保证程度,估计该市成年人喜欢该新式时装的的概率保证程度,估计该市成年人喜欢该新式时装的比率。比率。之间。率在年人对此时装的喜爱比市成的保证程度,估计该我们可以概

22、率上限下限:则总体比率的上下限为第三步,计算得概率度第二步,根据平均误差:样本方差:样本喜爱人数比率:计算:第一步,根据抽样资料67.6233.5790%67.62%33.57%67.2.64.1, 9 .0)(%63.190024.0)1 (24.04 .0*6 .0)1 (%6090054021ppppppppZZZFnppppnnp4、抽样组织设计、抽样组织设计一、抽样组织设计概述二、抽样调查的几种常用形式简单随机抽样类型抽样等距抽样整群抽样(一)简单随机抽样:它是按随机原则直接从总体N个单位中抽取n个单位作为样本。是抽样中最基本也是最单纯的方式,它适用于均匀总体。重复抽样不重复抽样)1

23、 (22NnnZZnZZxxxx误差公式:样本平均数的极限抽样误差公式:样本平均数的极限抽样)1 ()1 ()1 (2222222222222ppZNppNZnppZnZNNZnZnppxx:,抽样成数的单位数为在不重复抽样的条件下抽样成数的单位数为:在重复抽样的条件下,为:,抽样平均数的单位数在不重复抽样的条件下:抽样平均数的单位数为在重复抽样的条件下,在确定抽样单位数时,应注意的问题:(一)、抽样单位数受允许误差的制约,允许误差愈小,抽样单位数就愈多。所以在抽样方案设计中,对抽样误差的可能范围要十分慎重地进行思考。(二)、为了防止由于抽样单位数不足而扩大抽样误差,在实际工作中往往根据比单位

24、数大的一个数目进行抽样,以满足共同的需要。(三)、在未知总体标准差或成数时,往往选择最大值或50%,只有这样才能抽取足够多的样本单位数,以保证抽样后的极限误差在预先设定的允许误差范围之内。例:例:对生产某型号电池进行电流强度检验,根据以往正常生产的经验,对生产某型号电池进行电流强度检验,根据以往正常生产的经验,电流强度的标准差电流强度的标准差=0.4安培,而合格率为安培,而合格率为90%。用重置抽样的方式,要。用重置抽样的方式,要求在求在95.45%的概率保证下,抽样平均电流强度的极限误差不超过的概率保证下,抽样平均电流强度的极限误差不超过0.08安安培,抽样合格率的极限误差不超过培,抽样合格

25、率的极限误差不超过5%,问必要的抽样单位数应该为多少?,问必要的抽样单位数应该为多少?解:解: 两个抽样指标所要求的单位数不同,应抽取其中比较多的单位数,两个抽样指标所要求的单位数不同,应抽取其中比较多的单位数,即即144个电池。在实际工作中,只要条件允许,一般应抽取个电池。在实际工作中,只要条件允许,一般应抽取150200个个电池。以保证抽样调查后,计算的极限误差能够在预先设定的允许误差电池。以保证抽样调查后,计算的极限误差能够在预先设定的允许误差范围内,使抽样调查的任务顺利完成。范围内,使抽样调查的任务顺利完成。14405.01.0*9.0*2)1(10008.004.0*22222222

26、222pxppZnZn抽样成数的单位数为:抽样平均数的单位数为在重复抽样的条件下,(二)类型抽样:它的特点是先对总体各单位按主要标志加以分组,然后再从各组中按随机的原则抽取一定单位构成样本。 通过分类,可以把总体中比较接近的单位归为一组,使各组的分布比较均匀,而且保证各组都有中选的机会,这样计算的抽样平均指标变异程度也就比较小,所以在总体各单位标志值大小悬殊的情况下,运用类型抽样比简单随机抽样可以得到更加准确的结果。在类型抽样中,组内:进行的是抽样调查,存在抽样误差。组间:进行的是全面调查,不存在抽样误差。 由于总体进行了分组,总体标准差就分解为两个部分:平均组内方差和组间方差。 由于在类型抽

27、样中,组间是全面调查,总体标准差就只剩下平均组内方差。22i2nix2差:类型抽样的抽样平均误例:某地区全部粮食耕地5000亩,按平原和山区面积比例抽取样本容量630亩,计算相应指标如下表。以95%的概率估计该地区平均亩产量的区间。按地形分 组全部面积(亩)Ni抽样面积(亩)ni抽样平均亩产(斤)xi亩产标准差(斤)i平原4000504960200山区1000126750400合计5000630918253)斤之间。该地区粮食总产量在()斤之间。即:总平均亩产量在(斤。,其对应的值为)(斤)(斤)斤4688800449120076.93724.89876.1991876.19918)(76.1

28、908.1096. 196. 1%9508.106306400064000630126400504200)(91863012675050496022222XttFnnnfxfxxxiiiix(三)等距抽样:它的特点是事先将全及总体各单位按某一标志排列,然后依固定顺序和间隔来抽选调查单位的一种抽样组织形式。 设全及总体有N个单位,现在需要抽取一个容量为n的样本,可以将总体单位N按一定标志(包括按有关标志或无关标志)排队,然后将N划分n个单位相等的部分,每个部分都包含k个单位,即Nn=k。并在第一部分顺序为1、2、3、ik个单位中随机抽取一个单位,而在第二部分中抽取第i+k单位,在第n个部分抽取第i+(n1)k单位,共n个单位组成一个样本,而且每个样本的间隔均为k,这种抽样方法称为等距抽样。 等距抽样的随机性体现在抽取第一个样本单位,当第一个单位确定后,其余的各个单位也就确定了。例:某块麦地长720尺,宽200尺,包括100条垅,这块麦

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论