




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第五章抽样推断,基本概念抽样误差抽样估计抽样组织方式,一、抽样估计的意义和一般步骤1、抽样估计的概念,抽样估计,按随机原则从总体中抽取一部分单位进行调查,并以调查结果对总体数量特征作出具有一定可靠程度的估计与推断,从而认识总体的一种统计方法。,也是一种收集资料的方法,所以也称为抽样调查。,第一节抽样估计的基本概念,2、抽样估计的特点,(1)按随机原则抽取调查单位。,(2)调查结果可以估计和推断总体的有关数量特征。,(3)以概率论和数理统计为理论基础,结果具有一定可靠程度,抽样误差可以估计和控制。,3、抽样估计的意义,(1)不可能进行全面调查时采用,(2)不必要进行全面调查时采用,(3)来不及进
2、行全面调查时采用,(4)对全面调查资料进行补充修正,4、抽样估计的一般步骤,设计抽样方案,抽取样本单位,收集样本资料,整理样本资料,推断总体指标,(1)抽样方案设计的基本准则,随机原则:,确保每个总体单位都有被抽取的可能。,抽样误差最小:,控制和选择抽样数目及抽样组织方式,费用最少:,在误差达到一定要求的条件下,选择费用最少的方案。,(2)抽样方案设计的主要内容,编制抽样框,抽样框即总体单位的名单。,主要形式:,名单抽样框,区域抽样框,时间表抽样框,编制要求:,应包括全部总体单位,总体单位不应重复,应便于抽样的实施,应尽量利用资料,提高抽样效果,确定抽样方法,重复抽样:,每次抽出一个单位记录后
3、,再放回总体参加下一次抽取,每次抽取是独立的,同一总体单位有可能被重复抽中。,在抽样时,构成样本的基本单位可以在一个样本中重复出现的抽样方式,总体中每一个单位被抽中的可能性都是均等的(N),不重复抽样:,随机抽出一个单位记录后,不再放回总体,下一个样本单位再从剩余总体单位中抽取,每次抽取不是独立的,同一总体单位不可能被再次抽中。,在抽样时,构成样本的基本单位在一个样本中不能重复出现N(N-1)(N-2).(N-n+1),例1:某地区共有学龄前儿童7830人,采用重复抽样法从中抽取150人,对每人月平均消费水平进行调查(数量标志的平均数问题)例2:某厂生产某批产品共有850台,随机抽出40台作为
4、样本经检验其中合格品为39台,不合格品为1台(品质标志、交替标志的成数问题),交替标志:具体表现为“是”与“非”或“有”与“无”两种情况的品质标志产品质量、(按及格率分的)学生成绩、作物的成活情况,将总体中具有某种特征的标志赋值为1,不具有这种特征的标志赋值为0,成数:总体中具有某一属性的单位数占全部总体单位数的比重。1:总体中具有某一特征(是)的单位数N1占总体单位数的比重Np2:总体中不具有某一特征的(非)单位数N0占总体单位数的比重N0Q,是非标志的频数分布表,是非标志的平均数X2=P,是非标志的方差,=P(1-P),确定抽样组织方式,简单随机抽样:,对总体单位逐一编号,但不进行任何划分
5、或排队,然后完全按随机原则直接从总体中抽出若干单位构成样本。,特点:,最基本的抽样组织方式;,但当总体单位很多时,对所有总体单位编号很麻烦;,有可能使样本单位在总体中分布不够均匀,导致样本代表性较差。,分层抽样:,按某主要标志将总体单位分成若干层,在各层按随机原则分别抽取一定数目的单位构成样本。,特点:,是统计分组与抽样的结合,可提高样本代表性;,可深化对现象的认识,满足分层次管理需要,不仅能用整个样本指标推断总体指标,也能用各子样本资料推断相应子总体指标。,等距抽样:,将总体单位按某一标志排队,并划分抽样间隔,在第一个间隔内确定抽样起点,按固定顺序和间隔抽取样本单位。,特点:,使样本单位分布
6、均匀,样本代表性较强;,按排队标志与调查内容间关系不同,可分为无关标志排队和有关标志排队等距抽样,两者抽样起点确定和抽样效果不同。,整群抽样:,将总体单位分成若干群,按随机原则抽取部分群,抽中群体的所有单位构成样本。,特点:,不需对各总体单位编号,只需对各群体编号,简化了工作;但样本单位较集中,分布不够均匀,样本代表性较差。,为遵循抽样误差最小及费用最少的基本准则,统计实践工作中常常将多种抽样组织方式结合使用。,抽样误差较小的分层抽样、有关标志排队等距抽样等费用较多;而费用较少的简单随机抽样、无关标志排队等距抽样、整群抽样等抽样误差又较大。,另外,分两个以上阶段完成抽取样本的多阶段抽样,多在总
7、体单位数量多分布广时采用。一般前阶段采用分层或有关标志排队等距抽样;后阶段采用简单随机或无关标志排队等距抽样。,确定抽样数目,抽样数目:,即样本容量、样本单位数,大样本:n30,小样本:n30,抽样数目的确定,与抽样误差、费用及抽样组织方式有直接的关系。,误差小费用多时抽样数目多,误差大费用少时抽样数目少;分层抽样除确定整个样本容量外,还需确定子样本容量;整群抽样需确定样本群数;多阶段抽样需确定各阶段抽样数目。,二、抽样估计的基本概念,1、全及总体与抽样总体,全及总体,总体,总体单位数用N表示,抽样总体,样本,样本单位数用n表示,2、全及指标与样本指标,全及指标,全及平均数X,、全及成数P、,
8、全及方差,2,样本指标,样本平均数x,、样本成数p、,样本方差S,2,1)总体平均数,2)总体成数3)总体方差,4)总体标准差,5、样本指标:根据抽样总体中的所有单位计算的各种指标(统计量抽样指标)1)样本平均数,2)样本成数,3)样本方差,4)样本标准差,第二节抽样误差,一、抽样误差的概念,抽样误差,由于抽样的随机性而产生的样本指标与总体指标之间的代表性误差。,统计误差,登记性误差,代表性误差,偶然性误差,系统性误差,抽样误差:由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标和全及指标之间的绝对离差。是随机抽样所特有的误差,是一种代表性误差不可避免,难于消灭
9、,只能加以控制影响抽样误差的因素:1)总体各单位标志值的差异程2)样本的单位数3)抽样方法4)抽样调查的组织形式,1、实际抽样误差(每一次抽样推断中客观存在的,但是不可得的)2、抽样平均误差:(理论)指一个抽样方案的所有可能样本的样本指标与总体相应指标的离差的平均值计算公式:1)样本平均数的抽样平均误差,2)样本成数的抽样平均误差,3)样本平均数的抽样平均误差的计算,所有可能样本平均数的算术平均数等于总体平均数,即:,x,=X,(x,-X,)=0,x,-X,=0,x,-可能样本个数X,=0,x,可能样本个数,-X,=0,x,-X,=0,二、抽样平均误差,抽样平均误差,所有可能样本的样本指标的标
10、准差。,而非所有可能样本的抽样误差的算术平均数。,x,=,(x,-X,),2,可能样本个数,p,=,(pP),2,可能样本个数,基本公式,抽样平均误差反映的是所有可能的样本指标与其中心即相应总体指标的平均差异程度,可衡量样本对总体的代表性大小。,抽样平均误差越小,样本指标对总体指标的代表性就越大;反之,抽样平均误差越大,样本指标对总体指标的代表性就越小。,x,=,2,n,p,=,P(1-P),n,x,=,2,(N-n),n(N-1),p,=,P(1-P)(N-n),n(N-1),计算公式,x,=,2,n,(1-,n,N,),p,=,P(1-P),n,(1-,n,N,),近似公式,代替计算方法,
11、第一,大样本时,可用样本标准差S代替总体标准差;小样本时,用样本修正标准差S*代替总体标准差,第二,用近期总体标准差或同类地区同类现象的总体标准差代替所研究的总体标准差,抽样误差大小的影响因素:,1、总体标准差,2、样本单位数n,3、抽样方法,4、抽样组织方式,越大,抽样误差越大。,n越多,抽样误差越小;但二者增减并非等比例。,不重复抽样的抽样误差较重复抽样的抽样误差小。,三、抽样极限误差,抽样极限误差,一定概率下抽样误差的可能范围。,|x,-X,|x,(在一定概率下),置信度、概率保证度、可信度、把握程度,用(1-)表示。,(1-)与x,是一对矛盾,实践中可根据合理置信度求相应极限误差;也可
12、根据极限误差范围求相应置信度,抽样极限误差:抽样极限误差:可允许的误差范围,x,-,p,(一)大样本条件下,当样本单位n充分大时,样本平均数x渐进服从均值为总体平均数X、标准差为抽样平均误差x的正态分布,,x,-X,x,渐进服从标准正态分布。,若给定(1-),可由标准正态分布表查得临界值Z/2,使得(x-X)/x在区间(-Z/2,Z/2)的概率为(1-)。,即:,x,-X,x,|,Z/2的概率为(1-),在给定概率(1-)下,抽样极限误差x=Z/2x,概率度,与概率保证度一一对应,常见概率保证度与相应概率度:,(1-)=0.6827,Z/2=1,=0.9545,=2,=0.9973,=3,=0
13、.95,=1.96,【例1】对某县水稻产量进行重复抽样调查,实测400亩得平均亩产620公斤,标准差90公斤,试计算当概率保证度为95.45%时平均亩产的抽样极限误差。,解:重复抽样条件下抽样平均误差,x,=,S,n,=,90,400,=4.5公斤,x=Z/2x,=9公斤,表明有95.45%的把握程度断定样本平均亩产与全县实际平均亩产之差不超过9公斤,(二)小样本条件下,根据t分布确定抽样极限误差。,若给定(1-),可由自由度为(n-1)的t分布表查得临界值t/2,使得(x-X)/x在区间(-t/2,t/2)的概率为(1-)。,即:,在给定概率(1-)下,抽样极限误差x=t/2x,例1:某工厂
14、有1500个工人,用简单随机重复抽样的方法抽出50个工人作为样本,调查其工资水平,见下表。计算样本平均数和抽样平均误差,=,524*4+534*6+540*9+550*10+560*8+580*6+600*4+660*3,50,=560元,=1052.8元,=,元,样本成数的抽样平均误差,例2:要估计某地区10000名适龄儿童的入学率,随机从这一地区抽取400名儿童,检查有320名儿童入学,计算抽样入学率的平均误差p=,320,400,=80%,=80%*20%=16%,=,=2%,例3:要估计某乡粮食亩产,从8000亩粮食作物中抽取400亩,求得平均亩产为450公斤,如果确定抽样极限误差为5
15、公斤,则某乡粮食亩产在4505公斤,即:445455公斤之间例2:要估计某农作物的成活率,从播种这一品种的秧苗地随机抽取秧苗1000棵,其中死苗80棵,确定抽样极限误差为2%p=920/1000=92%,则该农作物的成活率在92%2%之间,即90%-94%之间,抽样极限误差与抽样平均误差的关系,抽样误差的概率度,抽烟估计的置信度F(t)表明抽样指标和总体指标的误差不超过一定范围的概率保证程度即可靠性或抽样误差不超过一定范围的概率大小,在样本单位数足够多的条件下,抽样平均数的分布接近于正态分布。抽样平均数是以总体平均数为中心,两边完全对称分布,抽样平均数越接近总体平均数,出现的可能性越大,概率越
16、大;总体平均数越离开总体平均数,出现的可能性越小,概率越小。即可靠性越大,区间范围也越大,X,-,是t的函数,已知一个值另一个值可以查正态分布概率表得到,假设有4个工人的周工资分别为70、90、130、150元,总平均工资110元,用重复抽样的方法从中抽取2人为样本,计算平均工资并加以整理分布情况如表:,例:假设样本粮食平均亩产量350公斤,抽样平均误差6.25公斤,求总体粮食平均亩产量在345355公斤之间的估计置信度是多少?,5/6.250.8,查表t0.8时,,0.5763即57.63%,如果允许误差范围扩大至10公斤,即总体粮食平均亩产量在340360公斤之间的估计的置信是多少?,10
17、/6.251.6,查表t1.6时,0.8904即89.04%,第三节抽样估计,一、点估计,又称定值估计,直接以样本指标作为总体指标估计值。,样本指标优劣评价标准:,无偏性,有效性,样本指标方差应比较小,样本指标平均数等于总体指标,一致性,n时,样本指标概率收敛于总体指标真实值,样本平均数和样本成数具有上述优良性质;而样本方差和样本标准差却不是无偏估计量,而是渐进无偏的,即n充分大时,估计量的均值趋近于总体真实值。,点估计优点:简单,点估计缺点:无法说明抽样误差大小,无法说明估计结果有多大把握程度。,二、区间估计,根据样本指标和抽样极限误差以一定把握程度推断总体指标的可能范围。,一定把握程度下总
18、体指标的可能范围称为置信区间。,(一)总体均值及其相应总量指标的区间估计,在一定概率(1-)下,,|xX|x,X-xxX+x的概率为(1-)。,也即x-xXx+x的概率为(1-)。,(二)总体成数及其相应总量指标的区间估计,在一定概率(1-)下,,|pP|p,P-ppP+p的概率为(1-)。,也即p-pPp+p的概率为(1-)。,(三)总体方差的区间估计,1、大样本条件下,S-Z/2S/2nS+Z/2S/2n的概率为(1-)。,2、小样本条件下,nS/2(n-1)nS/1-/2(n-1)的概率为(1-)。,2,2,2,2,2,一、平均指标的区间估计1、置信度约束下的区间估计1)明确置信度2)明
19、确抽样误差才概率度(临界值水平)t3)计算具体的样本指标值,4)构造置信区间,【例1】对一批电子元件10000只进行耐用性能检查,按不重复抽样方法随机抽取2%的元件,测试结果的分组资料如下:,(1)以99.73%的把握程度估计这批元件平均耐用时间的区间范围;(2)若规定耐用时间不及1000小时的元件为不合格品,在95%的把握程度下,可否认为这批元件的不合格率不超过10%,并估计不合格品数量的区间。,解:(1)已知N=10000,n=200,(1-)=99.73%,Z/2=3,x=1105.25(小时),S=61.83(小时),x=4.33(小时),x=34.33=12.99(小时),1092.
20、26X1118.24,(2)已知N=10000,n=200,(1-)=95%,Z/2=1.96,p=12/200=6%,p=1.66%,p=1.961.66%=3.25%,2.75%P9.25%,又9.25%10%,在95%的把握程度下,可以认为这批产品的不合格率不超过10%。,2.75%P9.25%,275NP925,例:对某制造厂的产品重量进行调查,现随机抽取250个产品组成样本进行调查,标准差为15千克,平均重量是65千克,要求置信度为95%估计总体平均重量的置信区间。,95%,查表可得t1.96,1),2),1.96*0.94871.86,15/,0.9487,3)置信区间,即,例:为
21、了研究新式时装的销路,在市场上随机对900名成人进行调查,结果有540名喜欢该时装,要求以90%的概率保证程度,估计该市成年人喜欢该新式时装的比率。,1),90%,查表可得t1.64,2)p540/90060%,1.64*1.63%2.67%,3)置信区间,即,1、某工厂有1500个工人,用简单随机重复抽样的方法抽出50个工人作为样本,调查其工资水平,见下表。,1)计算样本平均数和抽样平均误差2)以95.45%的概率保证程度估计该厂工人的月平均工资,2、要估计某地区10000名适龄儿童的入学率,随机从这一地区抽取400名儿童,检查有320名儿童入学,1)抽样入学率的平均误差2)以99.73%的
22、概率保证程度估计该地区适龄儿童的入学率,2、允许误差约束下的区间估计1)明确允许误差2)计算样本指标,构成置信区间3)计算抽样平均误差4)确定置信度,t,(,),例:从10000名学生中随机抽取100名学生测得其平均身高为160厘米,标准差为3厘米,现要求以最大不超过0.6厘米的允许误差,来推断全体学生的平均身高及其可能性。1),=0.6,=160,所以置信区间为,2),=0.3,=0.6/0.3=2,3)查表,=95.45%即全校学生平均身高在159.4160.6厘米之间的可能性为95.45%,二、总量指标的区间估计直接推算法总量指标的估计值=平均指标的估计值*总体单位总量例:某县玉米播种面
23、积为26537亩,实割实测的每亩产量为253千克,其平均误差为4千克,用95.45%的置信度,求总产量及每亩产量的估计值。1)每亩产量的估计值,=2*4=8,每亩产量的置信区间在245261千克之间2)总产量的置信区间245*26537261*26537即6501565-6926157千克,三、抽样数目的确定,通常情况下,根据规定的允许误差来确定必要的抽样数目。,在重复抽样条件下,抽样极限误差为x=Z/2x=Z/2(/n),抽样数目n=(Z/2)/(x),2,2,2,必要抽样数目的影响因素:,1、总体标准差。越大,n越多。,2、抽样极限误差。x越大,n越少。,3、置信度。(1-)越大,n越多。
24、,4、抽样方法。重复抽样下n多。,思考题,1、调查一批零件的合格率,根据以往资料合格率为95%。要求:如果极限不超过1%,推断的概率保证度为95%,问应抽取多少零件进行检查?,2、某茶叶公司销售一种名茶,规定每包规格重量不低于150克,现抽取1%检验,结果如下:,要求:试以99.73%的概率按重复抽样计算(1)估计这批茶叶平均每包重量的范围是否符合规格重量的要求;(2)估计这批茶叶的重量包装的合格率范围。,3、在2000名工人中采取重复抽样方式随机抽取144名工人的土方工程进行测算,测量结果为每人的平均工作量为5.32m,标准差1.5m。要求:(1)以95%的概率保证度来推算抽样极限误差;(2
25、)根据上述条件,若要求抽样极限误差不超过0.1m,Z/2=1,应抽多少人调查?,3,3,3,4、某地区组织职工家庭生活抽样调查,已知职工家庭平均每月每人生活费收入的标准差为11.5元。要求:若可靠程度为0.9545,极限误差为1元,问应抽取多少户进行调查?,5、在纯随机重复抽样中,抽样单位数增加了1倍或者3倍。问:(1)平均数的抽样平均误差是如何变化的?(2)若抽样单位数减少50%或75%,抽样平均误差又如何变化?,6、从仓库中随机抽选了200个零件,经检查有40个零件是一级品,又知道抽样数是仓库零件总数的1%。要求:当把握程度为95.45%时,试估计该仓库这种零件一级品的区间范围。,7、某洗
26、衣机厂随机抽选100台洗衣机进行质检,发现有5台不合格。要求:(1)试计算以68.27%的概率保证度推断这批洗衣机的合格率;(2)若概率保证度提高到95.45%,则该批洗衣机的合格率将怎样变化?(3)由此例说明误差范围与概率度间关系。,8、从以往的调查可以知道,某产品重量的标准差不超过2克。要求:抽样极限误差不超过0.2克,可靠程度为95.45%,试问需要抽多少个单位?,9、某高校进行一次英语测试,为了解考试情况,随机抽选1%的学生进行调查,所得资料如下:,要求:试以95.45%的可靠性估计(1)该校学生英语考试的平均成绩;(2)成绩在80分以上的学生所占的比重。,10、如果成数方差未知,抽样
27、极限误差不超过2%,概率保证度为95.45%。试问在这种情况下应抽取多少单位?,11、从某县小麦收获面积中随机抽选100公顷,经计算公顷产量标准差为40千克。要求:试计算该县小麦平均公顷产在442.16457.84千克间的概率保证度是多少?,12、某厂对新试制的一批产品使用寿命进测试,随机抽选100个零件,测得平均寿命为2000个小时,标准差为10小时。试计算(1)以0.6827的概率,推断其平均寿命的范围。(2)若抽样极限误差减少一半,概率不变,则应抽查多少个零件?(3)若抽样极限误差减少一半,概率提高到0.9545,则又该抽查多少个零件?通过上述条件变化与计算结果,如何理解样本单位数、抽样
28、极限误差、概率度三者间的关系?,一、分层抽样,分层抽样总的抽样误差取决于各层的抽样误差,而各层的抽样误差又取决于各层内部方差和抽样数目。,按各层抽样比例是否相等,等比例分层抽样,不等比例分层抽样,等比例分层抽样抽样误差计算公式:,x,=,2,/n,x,=,2,(1n/N)/n,第四节抽样组织方式,其中:,2,为层内方差平均数,=,iNi,2,N,公式中i及Ni用各子样本方差Si及各子样本数目ni近似计算,2,分层抽样抽样误差小于简单随机抽样抽样误差,因为组内方差平均数小于总体方差。,【例1】某厂甲乙两车间都生产保温瓶胆,乙车间技术先进,产量是甲车间的2倍,为调查该厂保温瓶胆的保温时间,按两车间产量比例共抽查60只瓶胆,资料如下:,2,试以95%的可靠程度推断该厂生产的全部瓶胆平均保温时间的可能范围。,解:n=60,n1=20,n2=40,x=(2520+2840)/60,=27,=(1.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山西省浑源县第五中学校2025年化学高一下期末达标检测模拟试题含解析
- 公务往返签证管理办法
- 北京收容管理办法修订
- 创新重点税源管理办法
- 公益诉讼损害管理办法
- 回收芯片高频管理办法
- 团队目标考核管理办法
- 医疗废物出境管理办法
- 作业工具管理办法台账
- 林业园林建设管理办法
- 2024年露营帐篷项目可行性研究报告
- 《公务员录用体检操作手册(试行)》
- 2024粤东西粤北地区教师全员轮训培训心得总结
- 2024-2025学年华东师大版数学七年级上册计算题专项训练
- 福建省机关工作人员年度考核登记表
- JBT 7808-2010 无损检测仪器 工业X射线探伤机主参数系列
- DB44-T 2474-2024 自然教育标识设置指引
- 研学基地合作协议
- 驾驶员行为规范管理制度
- (高清版)JTG D81-2017 公路交通安全设施设计规范
- 《锅炉水介质检验导则标准-征求意见稿》
评论
0/150
提交评论