




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1,第6章 抽样(Sampling) 与参数估计(Estimate) 重点:深刻理解抽样分布的概念及中心极限定理的意义,灵活掌握均值和比例的区间估计方法的应用。难点:在不同条件下的区间估计,抽样法的特点:随机原则 部分估计总体 存在误差并可以控制 抽样法的应用:对某些不可能进行全面调查而又需要了解其 全面情况的社会经济现象,必须应用抽样法。(破坏性试验、总体过大、单位过于分散,实际调查不可能的,2,第1节 抽样与抽样分布一、有关抽样的基本概念,总体(母体)(Population) 样本(子样)(Sample) 总体指标(总体参数)(Population parameter) 样本指标(样本统计
2、量)(Sample statistic,3,抽样方法,重置抽样(重复抽样)(Sampling with replacement) 要从总体N个单位中随机抽取一个容量为n的样本,每次从总体中抽取一个单位,把顺序号登记下来之后,重新放回参加下一次抽选,连续反复抽取n次组成所要求容量的样本。 不重置抽样(不重复抽样)(Sampling without replacement) 要从总体N个单位中随机抽取一个容量为n的样本,每 次从总体中抽取一个单位,被抽中的单位不再放回参加下一次抽选,连续进行次便组成样本。 不重复抽样所得样本对总体的代表性较大,抽样误差较小,所以实践中通常采用不重复抽样,4,概率抽
3、样的组织方式,简单随机抽样:从总体中抽取样本最常用的方法。从容量为N的总体中进行抽样,如果容量为n 的每个可能样本被抽到的可能性相等,则称容量为n的样本为简单随机样本。 分层抽样:也称分类抽样或类型抽样,它是按某个主要标志对总体各单位进行分类,然后从各层中按随机原则分别抽取一定数目的单位构成样本。 等距抽样也称机械抽样或系统抽样。它是先将总体单位按一定顺序排队,计算出抽样间隔(或抽样距离),然后按固定的顺序和间隔抽取样本单位。 整群抽样:也称丛聚抽样或集团抽样。它是将总体分为若干部分(每一部分称为一个群),然后按随机原则从中一群一群地抽选,对抽中群内的所有单位进行全面调查,5,总体中各元素的观
4、察值所形成的分布 分布通常是未知的 可以假定它服从某种分布,总体分布(population distribution,6,一个样本中各观察值的分布 也称经验分布 当样本容量n逐渐增大时,样本分布逐渐接近总体的分布,样本分布(sample distribution,7,二、抽样分布(Sampling distribution)1、抽样分布的意义,对统计量的所有可能取值及其对应概率的描述,就是统计量的抽样分布,即抽样分布。 抽样分布反映样本统计量的分布特征,根据抽样分布的规律,可揭示样本统计量与总体参数之间的关系,计算抽样误差,并说明抽样推断的可靠程度,8,抽样分布 (sampling distr
5、ibution,9,例:样本均值的抽样分布,例】设一个总体,含有4个元素(个体) ,即总体单位数N=4。4 个个体分别为x1=1、x2=2、x3=3 、x4=4 。总体的均值、方差及分布如下,均值和方差,10,现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为,11,计算出各样本的均值,如下表。并给出样本均值的抽样分布,12,样本均值的分布与总体分布的比较,= 2.5 2 =1.25,总体分布,13,2、样本均值的抽样分布,样本平均数的标准差反映了样本平均数与总体平均数的平均误差,故称之为抽样平均误差(或抽样标准差)。计算公式: (重复抽样) 可见,抽样
6、平均误差与总体标准差成正比变化,与样本容量的平方根成反比变化。 当总体为正态分布时,对于任何样本容量,样本平均数的抽样分布是正态分布。若总体方差2未知,则可用样本方差s2取而代之 。 样本容量很大,无论总体分布如何,样本平均数近似服从正态分布,14,3、样本比例的抽样分布,当从总体中抽出一个容量为n的样本时,样本比例服从二项分布。 当n时,二项分布趋近于正态分布。所以,在大样本下,若np5且n(1-p) 5,样本比例p近似服从正态分布。 比例的抽样平均误差 (重复抽样) 式中,P为总体比例,实际计算时通常采用以往经验数据或样本比例,15,例:灯泡厂从10000只灯泡中随机抽取500只检查其耐用
7、时数,结果如下表。该厂规定耐用时数在850以下为不合格。求平均耐用时数及不合格率的抽样平均误差,16,解,重复抽样条件下 不重复抽样条件下,17,练习,1、从某大学学生中随机抽选100名调查体重,结果平均体重为58千克。根据过去的资料知道该校学生体重标准差为10千克。求抽样误差。 2、某工厂共生产新型聚光灯2000只,随机抽选400只进行耐用时间调查,结果平均寿命为4800小时,标准差为300小时。求抽样误差。 3、从某校学生中随机抽选400名,发现戴眼镜的有80人。计算求抽样误差。 4、一批食品罐头60000桶,随机抽查300桶,有6桶不合格。求合格率的抽样误差。 5、假设4个人工资分别为:
8、400、500、700、800元,现随机抽选2人进行调查。 (1)验证 (2)计算重复抽样及不重复抽样的抽样平均误差,18,第2节 参数估计的基本方法,参数估计以实际观察的样本数据所计算的统计量作为未知总体参数的估计值。 一、点估计(Point estimate) 点估计也称定值估计,就是直接以样本统计量作为总体参数的估计值。 点估计的优点是它提供了总体参数的具体估计值,可作为决策的依据,其缺点是不能提供有关抽样误差的信息。 样本均值是总体均值的点估计量,样本方差s2是总体方差2的点估计量,样本比例p是总体比例P的点估计量。 优良估计量的标准: 无偏性 有效性 一致性,19,二、区间估计(In
9、terval estimate,抽样误差 统计调查的误差,是指调查所得结果与总体真值之间的差异。误差的来源有登记性误差和代表性误差两大类。代表性误差分为系统性误差和偶然性误差。抽样估计中所谓的抽样误差,就是指这种偶然性误差或随机误差。 (1)实际抽样误差。指某一特定样本的样本估计值与总体参数真值之间的离差。 (2)抽样平均误差。统计学中常用标准差来衡量均值的代表性,所以抽样平均误差可以衡量样本对总体的代表性大小。 (3)抽样极限误差。指一定概率条件下抽样误差的可能范围,也称允许误差。抽样极限误差的可能范围与抽样估计的可能性即概率紧密相联,20,样本平均数的抽样极限误差 样本比例的抽样极限误差
10、抽样误差与抽样可靠性的关系,21,影响抽样误差的主要因素,1、抽样单位数的多少。在其它条件不变的情况下,抽样单位数愈多,抽样误差愈小;反之抽样单位数愈少,抽样误差就愈大。 2、总体离散程度的高低。当其它条件不变时,总体离散程度愈低,抽样误差愈小;反之总体离散程度愈高,抽样误差愈大。 3、抽样方法 4、组织方式,22,第3节 总体均值的区间估计,一、区间估计的基本原理 1、大数定律 大数定律主要是说明:当n足够大时,独立同分布的随机变量的算术平均数趋近于数学期望;事件发生的频率接近于其发生的概率。 即样本统计量接近于总体参数。 2、中心极限定理 中心极限定理是说明:当n充分大时,大量的起微小作用
11、的相互独立的随机变量之和趋于正态分布,23,大样本(n30)下总体均值的区间估计,区间估计就是根据样本求出总体未知参数的估计区间,并使其可靠程度达到预定要求。 (1) 总体方差2已知时 由于 ,所以对于给定的置信度1-,有 即 可见,极限误差的计算公式为 则总体均值的置信区间为,24,例:从某大学学生中随机抽取100名调查体重情况。经称量和计算,得到平均体重为58千克。根据过去的资料知道大学生体重的标准差是10千克。在95%的置信水平下,求该大学学生平均体重的置信区间,解:已知 =58,=10,z/2=1.96,n=100 =10/10=1(千克) =1.961=1.96(千克) 置信下限为5
12、8-1.96=57.04, 置信上限为58+1.96=59.96 故所求置信区间为(57.04,59.96)千克,25,2) 总体方差2未知时,由于 t(n-1),对于给定的置信度1-,有 置信下限 置信上限 在大样本下,总体均值的置信区间为,26,例:某进出口公司出口一种名茶,规定每包重量不低于150克。现不重复抽取1%检验,结果如下。以95.45%的概率估计这批茶叶平均每包重量范围,以确定该批茶叶是否达到要求,27,解,在95.45%的概率保证下, =20.087=0.174(g) 则总体平均数置信区间为 即(150.126,150.474)之间 说明该批茶叶达到要求,28,小样本下(n3
13、0)总体均值的区间估计,在小样本条件下,样本平均数的分布依赖于总体的概率分布。若总体服从正态分布,无论样本容量如何,样本平均数都服从正态概率分布。若总体不服从正态分布,必须扩大样本容量。 (1)总体方差2已知时 总体均值的置信区间为 (2)总体方差2未知时 总体均值的置信区间为 ( ,,29,例:某保险公司投保人年龄设某保险公司投保人年龄呈正态分布,现从中抽取10人,其年龄分别为:32,50,40,24,33,44,45,48,44,47岁。试以95%的置信水平估计该保险公司投保人的平均年龄,解: 当置信度为95%时, =2.2622 2.6544=6.00(岁) 因为40.7-6.00=34
14、.7 40.7+6.00=46.7 所以该保险公司投保人的平均年龄的置信区间为(34.7,46.7)岁,30,第4节 总体比例的区间估计,在大样本条件下,若np5,n(1-p)5,则样本比例趋近于正态分布。 对于给定置信度,有 总体比例的置信区间为 小样本条件下,不作介绍,31,例:总体比例的区间估计,例】某城市想要估计下岗职工中女性所占的比例,随机抽取了100个下岗职工,其中65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比例的置信区间,解:已知 n=100,p65% , 1-= 95%,z/2=1.96,该城市下岗职工中女性比例的置信区间为55.65%74.35,32,例:某
15、厂对一批产品进行质量检验,随机重复抽取样品100只,样本合格品率为95,试计算把握程度为90的合格品率置信区间,解:已知n=100,p=95%,1-=90%,查表得z/2=1.645 =0.0218 p=z/2 =1.6450.0218=0.0359或3.59% 95%-3.59%=91.41%,95%+3.59%=98.59% 故该批产品合格率的置信区间为(91.41%,98.59,33,练习,1 、从一批产品中按不重复随机方法抽选1/20,共200件, 其中废品8件。当概率保证程度为 95.45%时,可否认为该批产品的废品率不超过5%? 2、一电视节目主持人想了解观众对电视节目的喜欢情况,
16、他选取500名观众作样本,结果说喜欢该节目的175人。现以95%的概率估计观众喜欢这一节目的区间范围。若该主持人希望估计极限误差不超过5%,有多大把握? 3、已知炼钢厂的铁水含碳量在正常情况下服从正态分布,其方差为0.1080.108,现测定了9炉钢水,平均含碳量4.484。按95%的可靠程度估计该厂铁水含碳量,34,4.某市抽查25户家庭用户电力消费量,结果如下。试以95%的概率保证,估计全市家庭用户电力平均消费量的置信区间、总消费量的置信区间及用电量在85度以上的比例,35,第5节 样本容量的确定,在重置抽样下, 所以,必要抽样单位数 在不重置抽样下,必要抽样单位数,36,例:某市进行职工
17、家庭生活费抽样调查,已知职工家庭平均每人每月生活费收入的标准差为110元,允许误差范围10元,概率把握程度95%,试确定应抽选的户数。 解: 例:某企业要调查产品合格率,已知以往的合格率曾有90%、98%、99%。现要求误差不超过1%,把握程度为95%,问需要抽选多少件产品? 解: 例:要调查某校大学生英语四级考试成绩,假设根据历史资料该校学生平均成绩的标准差为20分,及格率为65%。现用重复抽样方法,要求在95%的置信度下,平均分数的误差不超过2分,及格率的误差不超过4%,求必要抽样数目。 解,37,例】拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元,假定想要估计年薪95%的置
18、信区间,希望边际误差为400元,应抽取多大的样本容量,解,38,影响必要抽样数目的因素,1)允许误差范围。当其它条件不变时,允许误差愈小,必要的抽样单位数就需要愈多;反之,允许误差愈大,抽样单位数就可以愈少。 (2)总体方差2。其他条件不变的情况下,总体方差2愈大,总体单位的差异程度愈大,则样本单位数应愈多;反之,样本单位数可愈少。 (3)抽样估计的可靠程度1-。当其他条件不变时,抽样估计的可靠程度愈高,z/2数值愈大,抽样数目就必须愈多;反之,抽样估计的可靠程度愈低,抽样数目就可以愈少。 (4)抽样方法。相同条件下,由于采用重复抽样比不重复抽样的误差大,所以,前者应比后者多抽一些样本单位。
19、除上述因素之外,抽样组织方式也是影响抽样单位数的一个原因,39,练习: 1、假定总体为5000单位,被研究的标志方差不小于400,抽样极限误差不超过3。当概率为99.73%时,需要有多少不重复抽样单位?(371) 2、对某型号电池进行电流强度检查,根据以往正常生产经验,电流强度的标准差为0。4安培,合格率为90%。现用重复抽样方式,要求在95.45%的置信度下,抽样平均电流强度的误差范围不超过0.08安培,抽样合格率的极限误差不超过5%,问必要的抽样单位数应为多少?(144) 3、对某型号电子元件10000只进行耐用性能检查。根据以往抽样测定,求得耐用时数的均方差为51.91小时,合格率的均方
20、差为28.62%,试计算: (1)概率保证为68.27%时,元件平均耐用时数的误差范围不超过9小时,在重复抽样的条件下,要抽查多少元件?(34) (2)概率保证为99.73%时,元件合格率的极限误差不超过5%,在重复抽样的条件下,要抽查多少元件?(295) (3)在不重复抽样的条件下,要同时满足上述(1)、(2)条件,要抽查多少元件,40,4、某药厂为了检查瓶装药片数量,从成品库随机抽检100瓶,结果平均每瓶101.5片,标准差为3片。试以99.73%的概率推断成品库中该种药平均每瓶数量的置信区间。如果允许误差减少到原来的1/2,其它条件不变,问需要抽取多少瓶? 5、在对一条广告效应进行的电话
21、追踪调查中,30名被追踪者中有20名会想起广告用语。试求在看过该广告的所有人中,会想起广告语的人所占比重的置信区间。(=5%) 6、设成年男子身高呈正态分布。某地区成年男子平均身高170厘米,标准差为2厘米。 (1)若抽查10人,问这10人的平均身高介于166.2173.8厘米之间的可能性有多大? (2)如果进行一次成年男子身高的抽样调查,要求以95%的把握程度保证误差不超过3厘米,问需抽查多少人? (3)如果以95%的把握保证误差不超过1.5厘米,问需抽查多少人?这一结果与上一结果有何关系? (4)如果允许误差仍为1.5厘米,但要求保证程度提高到99.73%,问需要抽查多少人,41,7、某公
22、司电话咨询服务部门在每次通话结束时都要记下通话时间,从一个由16个记录组成的随机样本得出平均一次通话时间为16分钟。已知总体服从正态分布,其标准差为0.7分钟。试以95.45%的概率推断总体均值的置信区间。 8、某公司推出一种营养型豆奶,为了做好促销工作,随机地选取顾客询问喜欢此豆奶情况。若要使置信度为95%,抽样误差不超过0.05,在下列情况下,你建议样本的容量为多大? (1)假如初步估计约有60%的顾客喜欢此豆奶; (2)假如无任何资料可用来估计喜欢此豆奶的比例。 9、对某砖厂产品质量进行抽样调查,要求抽样误差不超过0.01111,概率把握程度为0.9545。已知过去进行的几次同样调查所得
23、不合格产品比例为1.25%、1.23%、1.14%,试确定必要的抽样数目,42,10、根据高教厅统计,某地区有17%的大学生申请免息教育贷款。假定样本容量为300。试求: (1)当地大学生中申请免息教育贷款的总体比例的95.45%的置信区间。 (2)当地大学生中申请免息教育贷款的总体比例的99%的置信区间。 (3)当把握程度由95.45%提高到99%时,允许误差如何变动? 11、某职业研究所随机抽取100名IT行业人员了解本地人员薪金,样本均值为50124.58元,样本标准差为1685元,试分别求IT行业人员年薪的总体均值的90%、95%和99%的置信区间。当置信水平增大时,置信区间的宽度如何
24、变化,43,第6节 其它抽样方法及其抽样分布特征,一、分层抽样(Stratified sampling) 设总体容量为N,将总体划分为k层(组或类),有N=N1+N2+Nk。从每层的Ni个单位中抽取ni个单位构成容量为n的样本,即n=n1+n2+nk。 从每层中抽取样本单位时,为了保持样本结构与总体结构相同,通常采用按(等)比例取样,即按各层单位数占总体单位数的比例从中抽取样本,使各层样本单位数与各层总体单位数之比等于样本容量与总体容量之比。即,44,分层抽样的抽样平均误差,重置抽样下, 不重置抽样下, 对于等比例分层抽样,其分布特征如下: 样本平均数 总体层内方差平均数 抽样平均误差 (重复
25、抽样) (不重复抽样,45,总体方差未知时 样本层内方差平均数 抽样平均误差计算公式为 (重复抽样) (不重复抽样,对于分层抽样,若总体各层为正态分布或为大样本非正态分布,则各子样本平均数、样本平均数均服从或近似服从正态分布。对于给定的置信度1-,总体均值的置信区间为,46,比例的抽样平均误差,重置抽样 不重置抽样 总体比例未知时, 其中, 当总体服从或近似服从正态分布时,对于给定的置信度1-,总体比例的置信区间为,47,例:某电视台分别从三个县按比例抽选600户,调查晚间新闻的收视率和每周看电视时间(小时),结果如表所示。在95%的置信度下,求(1) 三县总体收视率的置信区间;(2) 三县住
26、户每周看电视的平均时间置信区间,48,样本容量的确定,重复抽样 不重复抽样 分层抽样有如下的特点: 1、由于总体方差等于组内方差与组间方差之和,所以分层抽样的误差一般小于简单随机抽样的误差。 2、由于总体方差是唯一确定的数值,因此分层抽样时可以扩大层间方差,缩小层内方差,使抽样误差减小,49,练习:1、某乡全部粮食耕地5000亩,按平原和山区面积比例抽取样本,容量为630亩,计算各组平均亩产和标准差如下。以95%的概率保证对全乡平均亩产作区间估计,50,2、对某公司职工的工资进行抽样调查,共抽取600名职工,其中400名工人,200名职员,结果如下。试分别计算类型抽样和简单随机抽样的误差,并加
27、以比较。现若采用类型抽样方式,试对该公司职工平均工资作区间估计。如果要求误差不超过1元,应至少抽选多少工人和职员?(置信度为95,51,3、从三种不同规模的工厂中,分别随机抽查1%机床,得到机床利用率如下,试以95.45%的概率确定全部机床利用率的置信区间,52,4、假定类型抽样的结果如下,试确定总体均值的95.45%的置信区间,53,二、等距抽样(Systematic sampling,如果对总体的差异程度不了解,可以按无关标志排队。这种抽样结果接近于简单随机抽样的效果,所以可采用简单随机抽样的误差计算方法,但要注意等距抽样通常都是不重置抽样。 如果对总体的变异程度有所了解,可以按有关标志排
28、队。按有关标志排队的等距抽样实质上运用了分层抽样的一些特点,有利于提高样本的代表性,与分层抽样不同的,只是分类更细致,层数更多,在各层只抽取1个单位。因此,一般可以采用不重复分层抽样的误差公式来近似计算,54,按有关标志排队并将总体单位n等分后,取样方法有以下两种,1、半距中点取样。即在每部分的中间(抽样距离的一半)抽取一个单位组成样本。如,第一部分取第k/2单位,第二部分取第3k/2单位,第n部分取第(2n-1)k/2单位。这种取样方法,使所抽取的各单位最能代表每部分的一般水平,从而提高样本的代表性,其不足之处是只能取一个样本。 2、对称等距取样。即第一部分随机抽取一个单位,然后据此在各部分
29、中抽取两两对称的样本单位组成样本。如,第一部分取第i单位,第二部分取第2k-i单位,第三部分取第2k+i单位,第四部分取第4k-i单位,第(n-1)部分取第(n-2)k+i单位,第n部分取第nk-i单位。这种取样方法,既遵循随机原则,又能取到较有代表性的样本,并且可以抽取k个样本。 样本容量确定的方法与不重复分层抽样相同,55,练 习,1、假定对总体2000个单位进行5%的机械抽样。试确定: (1)将总体划分为多少个同等部分? (2)抽选的间隔如何? (3)每部分的单位数是多少? (4)能否说出抽取单位的号码和抽取单位的总数? 2、某产品零件方差为另一同类零件方差(0.12)的3倍,若以95%的可靠性估计抽样误差不多于0.17厘米,现打算从4000件零件中做机械抽样,必须抽出多少零件做检验,56,三、整群抽样(Cluster sampling,设总体N个单位划分为R群,每群包含M个单位,即N=RM。现从总体R群中随机抽取r群,并分别对中选群的所有M个单位进行调查。整群抽样都采用不重复抽样。 整群抽样的抽样误差只受群间差异程度的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 排水系统改造方案
- 支付结算考试题库及答案
- 郑州查验员考试题库及答案
- 旅游租赁合同范本:个性化服务与安全保障
- 雨污合流管网分流改造实施计划
- 离婚赔偿协议范本:财产分割与子女教育补偿协议
- 保密协议签订与竞业禁止条款的平衡艺术
- 离婚协议公证模板:婚姻关系终止后的财产分配
- 离婚协议书范例(婚姻财产分割)
- 物业委托物业管理及社区垃圾分类服务合同
- 第8课《网络新世界》第一课时-统编版《道德与法治》四年级上册教学课件
- 2025年审计部招聘考试模拟题及答案详解
- Bowtie安全分析培训课件
- 退役军人优抚政策课件
- 财务遴选笔试题及答案
- (2025秋新版)人教版二年级数学上册全册教案(教学设计)
- 六年级上册音乐课教案
- 肿瘤病人疼痛评估与干预策略
- 计算机视觉技术课件
- 大学书法教学课件
- 河北省科技工程学校招聘真题2024
评论
0/150
提交评论