第七章 抽样推断.ppt_第1页
第七章 抽样推断.ppt_第2页
第七章 抽样推断.ppt_第3页
第七章 抽样推断.ppt_第4页
第七章 抽样推断.ppt_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第七章 抽样推断,本 章 教学目的与要求,通过本章的教学,学生应达到下列要求: (1)了解抽样推断的内涵、特点、理论基础 (2)掌握抽样误差的内涵、主要影响因素 (3)掌握抽样估计的内涵 (4)掌握抽样平均误差、极限误差与概率度的内涵及相互之间的关系 (5)具备基本的抽样方案设计能力,本 章 教学内容,抽样推断的一般问题 抽样推断中的几个基本概念 抽样误差 抽样估计的方法 抽样方案设计,本 章 教学的重点,为了实现本章教学目的,在教学过程中应以下列内容作为本章教学重点: 1)抽样估计的理论依据 2)参数估计的优良标准 3)抽样误差的影响因素 4)抽样平均误差和极限误差的含义及计算 5)各种抽样

2、方案的设计,本 章 教学难点,1)抽样推断的两个理论依据 2)抽样平均误差、抽样极限误差与概率度之间的关系及其运用 3)如何根据实际情况设计相应的抽样方案,关键词:,抽样:sample,sampling; 样本:sample; 样本统计量:sample statistic; 样本值:sample value; 样本(平)均值:sample mean; 样本平均数:sample average; 随机抽样:sampling at random; 样本方差:sample variance; 抽样误差:sampling error; 样本标准差:sample standard deviation,质

3、量质,现象的数量方面,指标,统计调查、统计整理和分组,总量指标相对指标平均指标,现象数量特征的动态对比,动态数列、统计指数,现象之间关系的分析相关关系分析,通过抽样反映现象的数量特征抽样推断,第一节 抽样推断的一般问题,抽样推断的特点:,1)是一种由部分推断总体的认识方法,2)是建立在随机原则基础上的,3)运用的是概率估计的方法,4)抽样误差可以事先计算并加以控制,抽样推断的理论基础大数定律、中心极限定理,1)大数定律随着试验次数的增多,某事件发生的频率逐渐稳定于某个常数,2)中心极限定理是研究变量和分布的。如果总体变量存在有限的数学期望和方差,无论总体的变量具有怎样的分布,只要满足现有的条件

4、,那么,当n很大时,它们的和就近似地服从正态分布。,总体分布,正态分布,非正态分布,大样本,小样本,大样本,小样本,正态分布,正态分布,非正态分布,抽样均值的抽样分布与总体分布的关系,总体N,样本容量为n 的所有样本,计算出每一个 样本的均值,的抽样分布,抽样分布的形成过程,第二节 抽样推断中的几个基本概念,总体和样本,1、总体(全及总体)要认识的研究对象的全体。有有限总体和无限总体之分。 N有限总体的总体单位数 在时间、地点一定的条件下,被推断的总体是确定的、唯一的。,2、样本从全及总体中随机抽取的部分单位所组成的集合体。用n表示样本单位数。,样本不具有唯一性、是不确定的,但样本一旦抽定就是

5、已知的,参数和统计量,1、参数反映总体数量特征的指标 就特定的总体,其参数具有唯一性、确定性和未知性特征,2、统计量根据样本值计算的综合指标,是反映样本数量特征的指标,1)统计量是样本变量的函数; 2)统计量本身是一个随机变量; 3)当抽定一个样本时,就能计算相应的统计量值,所以统计量是已知的(还可根据需要构造统计量),样本容量和样本个数,、样本容量一个样本所包含的单位数,用表示,是有限的,、样本个数(样本可能数目)从一个特定的总体中可能抽出多少个样本。样本个数的多少与样本容量和抽样方法等因素直接相关,重复抽样和不重复抽样,第三节 抽样误差,一、抽样误差,在随机原则条件下,由于偶然性因素致使样

6、本各单位的结构与总体的单位结构不同而引起的样本指标值与总体值之间的绝对离差。,误差,登记性误差存在于全面、非全面调查中。理论上可以消除,代表性误差(只存在于非全面调查中),系统性误差非概率抽样引起的,抽样误差概率抽样(难以消除,但可控制),二、影响抽样误差大小的主要因素,1)样本容量的大小。n越大,抽样误差越小。 2)总体各单位变量值离散程度的大小。小,抽样误差就小。 3)抽样方式的不同。重复抽样的误差要比不重复抽样的大。 4)抽样的组织形式,三、抽样平均误差样本指标的标准差,主要介绍抽样平均数和抽样成数的平均误差,抽样平均误差抽样平均数(成数)的标准差,反映了抽样误差的一般水平 1)是抽样平

7、均数(成数)与其均值之间的平均差异程度 2)反映了抽样平均数(成数)与总体平均数(总体成数)之间的平均离散程度,当总体成数未知时,则用样本成数替代。,四、抽样极限误差(也称允许误差范围) 是按要求确定的误差的可能范围,是个误差区间。,五、概率度t,求得的t值,查标准正态分布表后可得到相应的概率F(t),t=1:F(t)=68.27%;t=1.64:F(t)=90%; t=1.96:F(t)=95%; t=2:F(t)=95.45%; t=3时,F(t)=99.73%,六、抽样估计的精度,抽样误差越大,样本值与总体值之间的误差就大,估计的精度就越低。,相同的允许误差范围,对高低水平不同的现象来说

8、,反映的意义是不同的。,第四节抽样估计的方法,一、抽样估计即以样本的实际资料为依据,计算相应的样本指标(统计量),对总体作出数量上的估计和判断。,抽样估计,点估计用样本统计量直接估计总体参数,区间估计用一个区间及其出现的概率来估计总体参数,即用同样方法构造的总体参数的多个区间中,包含总体参数的区间比例为100(),即:用同样方法构造的总体参数的多个区间中,有100()的区间比例包含了总体平均数,二、抽样估计的特点:,)在逻辑上运用归纳推理 )在方法上运用不确定的概率估计方法 )估计的结论存在一定的抽样误差,三、抽样估计的优良标准,)无偏性经过多次反复抽样,则多个样本指标值的平均数应该等于总体指

9、标值,如抽样平均数、抽样成数、样本修正方差就是无偏估计量,2)一致性根据大数定律,当样本容量n充分大时,则样本值无限接近总体值,3)有效性用样本指标估计总体时,要求作为优良估计量的方差应比其他估计量(非优良估计量)的方差小,在选择估计量时,一般应首先考虑“无偏估计量”,然后再进一步选择“有效估计量”;对于大样本则考虑选择“一致估计量”,样本平均数具有:无偏性、有效性和一致性,四、两种具体的抽样估计方法,已知抽样误差范围,求概率保证程度和置信区间,例1:对某型号的电子元件进行耐用性能检查,抽查的资料如下表。要求耐用时数的允许误差范围x=10.5小时。试估计该批电子元件的平均耐用时数。(重复抽样)

10、,某电子元件耐用时数统计表,解:1)根据抽样资料计算样本平均数和标准差,由此可得到抽样平均误差,2)根据给定的误差范围和平均误差求解t及概率,3)根据给定的允许误差范围和平均误差,确定总体参数置信区间的上下限:,说明:有95.66%的概率保证(或把握程度)认为该批电子元件的平均耐用时数在10451066小时之间。,例2:仍利用例1的资料:设该厂的产品质量检验标准规定,元件耐用时数达1000小时与上为合格品,要求合格率估计的误差范围不超过5%。试估计该批电子元件的合格率,解:1)计算样本合格率和方差,可得抽样平均误差:,说明:有概率92.16%的保证程度认为该批电子元件的合格率在86%96%之间

11、,给出概率或概率度,求解抽样极限误差和置信区间,例3:某城市进行居民家计调查。随机抽取400户居民家庭,调查得到年均每户耐用品消费支出为20000元,标准差为8000元。要求以95%的概率估计该城市居民家庭年均每户的耐用品消费支出。(N未知,按重复抽样计算),解:1),说明: 有95%的概率保证程度认为该市居民家庭年均耐用消费品支出在1951620784元之间。,练习1:为了了解某市电信营业厅大客户对该电信的服务的满意状况,调查人员随机访问了30名去该电信营业厅办理业务的大客户,发现受访的大客户中有9人认为营业厅的服务质量比两年前好。试在95%(t=1.96)的置信水平下对大客户中认为营业厅现

12、在的服务质量比两年前好的比率进行区间估计。 (N未知,按重复抽样计算),解:,上限=30%+16.4%=46.4% 下限=30-16.4%=13.6%,有95%的把握认为:大客户认为该电信营业厅的服务质量比两年前好的比率在13.6%至46.4%之间。,练习2:A企业生产一种新型灯泡5000只,随机抽取100只作耐用时间测试。测试结果:平均寿命为4500小时,标准差为300小时。 1)试在90%概率保证下估计该新型灯泡平均寿命区间(不重复抽样);,解:,以90%的把握程度认为该新式灯泡的平均寿命落在4451.34548.7小时之间。,2)假定概率保证程度提高到95%,允许误差范围缩小一半,试问应

13、抽取多少只灯泡进行测试?(离散程度不变:300),即需抽取约522只新式灯泡进行测试才能满足现有的要求,或:,练习3: 1)样本粮食平均亩产=750公斤,又知抽样平均误差=15公斤,求总体粮食亩产在725775公斤之间的估计置信度是多少?,即总体粮食平均亩产在725775公斤之间的概率保证程度为90.51%。,置信区间: 75030(720780)公斤,2)如果现在允许误差范围扩大到30公斤,求总体平均亩产的置信区间及可靠程度。,第五节 抽样方案设计,进行抽样设计的基本原则:,1)必须按随机原则进行抽样,2)保证实现最大的抽样效果原则。即在一定的抽样费用条件下,选择抽样误差最小的方案;或在给定

14、精确度的要求下做到调查费用最少,3)视现象本身的差异性而定,常用的抽样组织形式: 简单随机抽样、类型抽样、机械抽样、整群抽样、阶段抽样,一、简单随机抽样(或纯随机抽样),直接从总体N个单位中随机地抽取n个单位作为样本。保证N个单位都有被抽中的可能。,适用条件:相对的均匀总体(出租车司机佩戴安全带、中高档商场内职业女装的市场调研、城区的降雪量等),平均误差的计算公式与前面一致:,注:一个总体如果同时需要满足抽样平均数和抽样成数对样本单位数的要求时,则按“多”的单位数进行抽样。,例:对生产的某型号电池进行电流强度检验。以往电流强度的标准差=0.4安培,而合格率为90%。现用重复抽样的方式,要求在9

15、5.45%的概率保证下抽样平均电流强度的极限误差不超过0.08安培,抽样合格率的极限误差不超过5%,问必要的抽样单位数应为多少?,即同一总体的两个抽样指标所要求的单位数不同,为满足两方的要求,应抽144个电池。,二、类型抽样(分层抽样),将总体按一定的标志进行分组后,从各组中按随机原则从中抽取一定的样本单位,适用条件:变量值离散程度较大的总体,目的:使样本内在结构更接近于总体结构,从而减小抽样误差,抽样推断的方法:,1)总体单位数N,分组后:N1+N2+Nk=N,2)按比例(n/N)抽取样本单位数:n1+n2+nk=n,3)样本平均数的求解:,4)类型抽样的平均误差只取决于组内方差,与组间方差

16、无关,5)根据要求确定置信区间和概率,例:某高校2年级共1000名学生,现按分层抽样抽取100名学生,目的是了解全校2年级学生英语学习成绩水平。抽取的结果如下(每组按10%的比例抽取单位数):,要求:用95.45%的概率估计全校2年级学生的英语平均成绩,解:1)根据抽样结果,样本的第1组成绩分别是:x11=95、x12=98、x13=90、x14=93、x15=96,第2组抽了20名,则根据所抽得的20名学生成绩可计算出第2组的平均成绩及其方差:,其余组一样可计算出各自的组平均数和组内方差(具体值见前表)。由此可得:,即:有95.45%的把握认为该校2年级学生的英语平均成绩在72.7173.9

17、5分之间,明确类型抽样的两个重要结论: 1)类型抽样的平均误差一般小于简单随机抽样误差,2)总体方差一定,则在进行类型抽样时,应尽量缩小组内方差,从而减小类型抽样的平均误差,练习:某地区有1000家商店,按大中小分为三层,其商店数量分别是:N1=200,N2=300,N3=500。现按比例抽取一个容量为n=100的分层随机抽样,平均年营业额分别为1200万元、750万元和400万元,各层的样本方差分别是:440、180、50。试求该地区平均每家商店年营业额的置信度为95%的置信区间。,即有95%的概率保证该地区商店的年均营业额落在662.47667.53万元之间,教材p221: 警察局长想了解

18、盗抢案的平均经济损失,分别从南山、罗湖和福田区公安分局当年案件中按10%的比例各抽30件、40件和50件进行调查,发现平均每案件经济损失分别是5000元、4000元和6000元,标准差分别是1000元、800元和1200元。 要求:在95.45%的概率保证下,盗抢案平均经济损失的置信区间有多大?,一个分层随机样本的资料如下,试求总体均值的置信度为95%的置信区间(不重复抽样),所以: 置信区间上限=82.95+0.32=83.27 下限=82.95-0.32=82.63,三、等距抽样(机械抽样、系统抽样),总体按一定的标志排队,然后按固定顺序或固定间隔来抽选调查单位的一种抽样形式,固定顺序(固

19、定间隔)两个被抽单位之间的距离是相等的,排队标志有:无关标志和有关标志之分 等距抽样估计的方法近似于简单随机抽样(按无关标志排队,为不重复抽样),例1:某企业100名职工按姓氏笔画排队: 1,2,100。现进行等距抽样,以了解该企业职工的工资状况,n=20,问题:1)等距抽样的随机性体现在哪? 2)属重复抽样还是不重复抽样? 3)N=100,n=30,按顺序号进行等距抽样时会出现什么情况?,解:k=100/20=5 即每隔5个号抽取一个单位,各组顺序号:1,2,3,4,5|6,7,8,9,10| 假定第一次抽中i=4号,则第2 个号:4+5=9号, 第20号为:4+(20-1)*5=4+95=

20、99号,例2:假定对全及总体2000单位进行5%的机械抽样,试确定:1)全及总体划分为多少同等部分?,解:1)n=2000*5%=100,即有100个同等部分,答:k=2000/100=20,每隔20个抽取一个单位,2)抽选的间隔有多大?,答:每部分的单位数是20个。 第1号:i=12号;第2号:12+20=32号; 第n号=12+99*20=1992号,3)每部分的单位数是多少?能否说出抽取单位的号码和单位数的总数?,例3:年终在某储蓄所中按定期储蓄存款帐号进行每隔5户的机械抽样,资料如下:,要求以0.9545的概率估计: 1)平均定期存款的置信区间:,解:N=n*5=484*5=2420,

21、则:存款3万元以上比重的置信区间上限=57.02%+4.02%=61.04%; 下限=57.02%-4.02%=53%,2)定期存款3万元以上比重的置信区间:,四、整群抽样(集团抽样),将总体各单位划分成若干个组(群),然后以组(群)为单位,从各群中随机抽取若干个群,对抽出的群进行全面调查的一种抽样方式。,方法:总体单位数分为R群,从中随机抽出r群,整群抽样的抽样误差只与群间方差有关,与组内方差无关,例:某厂大量连续生产,为了掌握本月A产品的一级品比率,决定抽取5%的产品,即在全月连续生产的720小时中,每隔20小时抽取1小时的全部产品进行检验。根据抽样资料计算结果,一级品率为85%,各群间的

22、方差为6%,则估计该厂全月产品一级品率为95.45%概率下的可能范围。,解:R=720,r=720*5%=36,每隔720/36=20小时抽取1小时的产品,则:在95.45%的概率保证下,本月份A产品一级品率的置信区间上限=85%+7.96%=92.76%; 下限=85%-7.96%=77.04%,五、阶段抽样 从最大范围中按随机原则先抽出较大范围的单位,又从较大范围中抽出较小的单位,逐次类推,最后从最小单位中抽选样本的基本单位,分阶段来完成抽样工作。,如:全国大学生贫困状况的抽样调查;农产品的抽样调查等就可采用两阶段或多阶段抽样形式进行。,阶段抽样的平均误差既取决于组内方差的大小,也取决于组

23、间方差,计算题: 1.从一个正态总体中随机抽取样本容量为8的样本,各样本值分别是:10、8、12、15、6、13、5、11,求总体均值95%的置信区间。,2.从一批零件中随机抽取36个,测得其平均长度为149.5cm,标准差为1.93cm。试确定该种零件平均长度95%的置信区间。,3.在一项家电市场调查中,随机抽取了200个居民户,调查他们是否拥有某一品牌的电视机。其中,拥有该品牌电视机的家庭占23%。求总体比例的置信区间,置信水平分别为90%和95%,4.一位银行的管理人员想估计每位顾客在该银行的月平均存款额。他假定所有顾客月存款额的标准差为1000元,要求的估计误差在200元以内,置信水平

24、为99%(t=2.58),应选取多大的样本?,5.某居民小区共有居民500户,小区管理者准备采取一项新的供水设施,想了解居民是否赞成。他们采取重复抽样方法随机抽取了50户,其中32户赞成,18户反对。要求: 1)求总体中赞成该项改革的户数比例的置信区间(概率为95%);2)如果小区管理者预计赞成的比例能达到80%,估计的允许误差不超过10%,应抽取多少户进行调查?,思 考 题,1)抽样推断主要有哪些特点?,2)抽样推断主要的两个理论基础是什么?,3)什么是抽样误差?其主要影响因素有哪些?,4)抽样估计的优良标准是什么?,5)抽样平均误差、极限误差、概率度三者之间是什么样的关系?,6)类型抽样、

25、整群抽样各自的特点是什么?,单项选择题:,1. 95%的置信水平是指:A.总体参数落在一个特定的样本所构造的区间内的概率为95%;B.在用同样的方法构造的总体参数的多个区间中,包含总体参数的区间比率为95%;C.总体参数落在一个特定的样本所构造的区间内的概率为5%;D.在用同样的方法构造的总体参数的多个区间 中,包含总体参数的区间比率为5%,B,2.一个估计量的有效性是指:A.该估计量的数学期望等于被估计的总体参数;B.该估计量的一个具体数值等于被估计的总体参数;C.该估计量的方差比其他估计量的小;D.该估计量的方差比其他估计量的大,3.一个估计量的一致性是指:A.该估计量的数学期望等于被估计

26、的总体参数; B.该估计量的方差比其他估计量的小; C.随着样本容量的增大,该估计量的值越来越接近被估的总体参数;D.该估计量的方差比其他估计量大,C,C,4.对于同一个总体的两个无偏估计量a与b,若a的方差小于b的方差,则称a是一个:A.更有效的估计量;B.无偏估计量;C.一致估计量;D.稳定估计量,5.在总体均值和总体比率的区间估计中,极限误差由( )确定:A.置信水平;B.统计量的抽样标准差;C.置信水平和统计量的抽样标准差;D.统计量的抽样方差,A,C,6.下面说法正确的是:A.样本容量越大,样本均值的抽样标准差就越小;B.样本容量越大,样本均值的抽样标准差就越大; C.样本容量越小,样本均值的抽样标准差就越小; D.样本均值的抽样标准差与样本容量无关,A,7.下面说法正确的是:A.一个无偏的估计量意味着它等于总体的参数;B.一个有效的估计量意味着它等于总体的参数; C.一个有效的估计量意味着它更接近总体的参数; D.一个一致的估计量意味着它等于总体的参数,C,8.下面的说法正确的是:A.一个大样本给出的估计量比一个小样本给出的估计量更接近总体参数;B.一个小样本给出的估计量比一个大样本给出的估计量更接近总体参数; C.一个大样本给出的总体参数的估计区间一定包含总体参数;D.一个小样本给出的总体参数的估计区间一定不包含总

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论