版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章抽样估计第一页,共六十二页,2022年,8月28日教学目的和要求本章介绍抽样估计的基本理论和方法,具体要求:①理解抽样分布的含义及总体分布、样本分布和抽样分布三者的关系,掌握常用的抽样分布定理;②通过对抽样中误差构成的了解,正确理解抽样误差的含义及三种表现形式之间的关系,深刻领会抽样极限误差、抽样概率度与抽样标准误三者之间的关系;③了解优良估计量的评价标准,熟练掌握区间估计的基本原理;④掌握各种抽样组织形式下总体均值、总体成数的区间估计,尤其是掌握各自不同的抽样标准误公式及相应的估计方法;⑤掌握确定样本容量的一般方法。第二页,共六十二页,2022年,8月28日案例一:
抽样推断在企业市场规划中应用例张先生是台湾某集团的企划部经理,在今年的规划中,集团准备在某地新建一家新的零售商店。张先生目前正在做这方面的准备工作,其中有一项便是进行市场调查。在众多信息中,经过该地行人数量是要考虑的一个很重要的方面。张先生委托他人进行了两个星期的观察,得到每天经过该地人数如下:
544,468,399,759,526,212,256,456,553,259,469,366,197,178以此数据作为样本,商店开张后经过该地的人数作为总体。在95%的置信度下,能否知道每天经过此地的人数?第三页,共六十二页,2022年,8月28日
案例二:
抽样推断在品牌认知度中应用例某食品厂准备上市一种新产品,并配合以相应的广告宣传,企业想通过调查孩子们对其品牌的认知情况来评估广告的效用,以制定下一步的市场推广计划。他们在该地区随机抽取350个小孩作访问对象,进行儿童消费者行为与消费习惯调查,其中有一个问句是“你听说过这个牌子吗?”,在350个孩子中,有112个小孩的回答是“听说过”。根据这个问句,可以分析这一消费群体对该品牌的认知情况。食品厂市场部经理要求,根据这些样本,给定95%的置信度,估计该地区孩子认知该品牌的比例。你准备如何估计?第四页,共六十二页,2022年,8月28日第一节抽样分布一、抽样分布的基本问题
1.抽样估计:根据随机抽样的非全面调查资料得到的样本值去推算全面情况下总体值的一种统计研究方法。
抽样估计包括两个部分:
抽样调查——随机抽样地进行个体观察,并获得样本数据;
抽样推断——运用数理统计的理论和方法,由样本资料对总体数量特征做出一定可靠程度的估计和判断达到对总体的认识。第五页,共六十二页,2022年,8月28日目标总体(被估计总体)抽样总体(样本)抽样调查计算样本参数(样本统计量)抽样估计总体参数第六页,共六十二页,2022年,8月28日(一)总体分布及其特征
总体分布就是总体中所有个体关于某个变量(标志)的取值所形成的分布。
反映总体分布特征的指标叫总体参数,一般用Θ
来表示。总体参数:反映总体数量特征的指标,由总体全部单位的标志值计算而来。常用的总体参数有总体平均数(或总体成数)、总体标准差(或总体方差)。对于特定的总体,总体参数值是唯一的。对于无限总体和非全面调查的有限总体,总体参数的值未知,只能通过样本来估计。第七页,共六十二页,2022年,8月28日(二)样本分布及其特征
样本分布就是样本中所有个体关于某个变量(标志)的取值所形成的分布。
样本统计量,是反映样本数量特征的指标,是完全由样本决定的量。是样本统计量的值即为样本统计值,由样本单位的标志值计算而来,用来估计总体参数。与总体参数相对应,常用的样本统计量有样本平均数(或抽样成数)、样本标准差(或样本方差)。样本统计量是随机变量,它的取值随样本的不同而发生变化。抽样估计是以可知但非唯一的样本统计量的值来估计未知但唯一的总体参数的值。第八页,共六十二页,2022年,8月28日(三)抽样分布及其特征1.抽样分布的概念及影响因素
一般意义上说,抽样分布就是样本统计量的概率分布,它由样本统计量的所有可能取值和与之对应的概率所组成。实际的抽样分布形成取决于以下五个因素:
(1)总体分布:集中程度决定抽样分布的集中程度
(2)样本容量:决定抽样分布最关键的因素,越大越集中
(3)抽样方法:重复与不重复、考虑顺序与不考虑顺序
(4)抽样组织形式:简单随机、分层、整群、等距、多阶段
(5)估计量构造:直接与间接估计量,常为样本统计量第九页,共六十二页,2022年,8月28日区分:重复抽样和不重复抽样
(1)重复抽样从目标总体N个单位中要随机抽取容量为n的样本,每次从中抽取一个单位并登记结果后,又重新放回参加下一次抽取。例如,总体有A、B、C、D四个单位,要从其中重复随机抽取两个单位组成一个样本,则全部可能的样本数为16个(考虑顺序):
AA、AB、AC、AD、BA、BB、BC、BD、CA、CB、CC、CD、DA、DB、DC、DD
第十页,共六十二页,2022年,8月28日(2)不重复抽样:从目标总体N个单位中要随机抽取容量为n的样本,每次从中抽取一个单位并登记结果后,不放回参加下一次抽取。抽中的单位不可能再次被抽到。例如,总体有A、B、C、D四个单位,要从其中不重复随机抽取两个单位组成一个样本,则全部可能的样本数为12个(考虑顺序):
AB、AC、AD、BA、BC、BD、CA、CB、CD、DA、DB、DC第十一页,共六十二页,2022年,8月28日四种抽样方法在简单随机抽样下,从总体个N个体中抽取容量为n的样本,其样本个数m有以下四种情况:(1)考虑顺序的重复抽样,;(2)不考虑顺序的重复抽样,;(3)考虑顺序的不重复抽样,;(4)不考虑顺序的不重复抽样,。样本个数不同,抽样分布也就自然有别。一般情况下,抽样方法只指上述(1)和(4)这两种情况,抽样实践中(4)最为常用。第十二页,共六十二页,2022年,8月28日不考虑顺序的重复抽样不考虑顺序的重复抽样也就是可重复的组合。如果把从N个不同单位中每次抽取n个的允许重复的组合记为DnN,它就等于从N+n-1个不同单位每次抽取n个的不重复组合。即:
为了帮助我们理解这一公式,我们推导如下:设有3个元素a1、a2、a3,今从中每次抽取2个,且允许重复,此时有以下6种组合,即:a1a1、a1a2、a1a3、a2a2、a2a3、a3a3。设想将上述各组合中的元素的下标均加上(0,1)则可以得到如下6种组合:a1a2、a1a3、a1a4、a2a3、a2a4、a3a4。不难看出这6种组合是从4个元素a1、a2、a3
、a4里每次取出两个不同元素的组合,由组合数计算公式可知C24=6。这样,我们即可发现:从3个元素中每次取2个可以重复的组合数与从4个元素中每次取2个不同元素的组合数相等。即有D23=C24=C23+2-1。依此类推。则有DnN=CnN+n-1。第十三页,共六十二页,2022年,8月28日2.抽样分布形式在抽样估计中,最基本的抽样分布是样本均值的抽样分布和样本成数的抽样分布,以此得到抽样分布的形式。由样本统计量与相应概率两部分构成。
例如,从2、4、6三个数字中随机抽取两个数的抽样分布为:第十四页,共六十二页,2022年,8月28日3.抽样分布特征任一抽样分布都有自己的特征,这个特征就是样本统计量的数学期望和方差。数学期望(样本统计值的平均数):方差(样本统计值关于期望的方差):第十五页,共六十二页,2022年,8月28日(一)样本均值的抽样分布定理
1.正态分布的再生定理如果某样本的n个个体完全随机地来自数学期望为、方差为的正态总体,则不论样本容量n多大,样本均值服从数学期望为、方差为(重复抽样时)或(有限总体且不重复抽样时)的正态分布。
2.中心极限定理对于任一具有平均数和方差的有限总体,当样本容量n足够大时(例如或),样本均值的分布也趋于服从正态分布,其数学期望和方差与再生定理的相同。此即为中心极限定理。二、常用的抽样分布定理3.t分布定理
当正态总体的方差未知且n较小,或任一方差为的总体但n较小,则样本均值的分布服从自由度为n-1的t分布。分布曲线与正态分布相近,其中数学期望相同。第十六页,共六十二页,2022年,8月28日
(二)样本成数的抽样分布定理
1.二项分布定理从一个数学期望为p、方差为PQ的是非变量(0-1分布)总体中随机重复地抽取容量为n的样本,那么样本中含有n1
个某类变量值的概率为:
2.超几何分布定理从一个数学期望为p、方差为PQ的是非变量(0-1分布)总体中随机不重复地抽取容量为的样本,那么当N1≥n同时N0≥n时,样本中含有个某类变量值的概率为:3.中心极限定理从任一数学期望为p、方差为PQ的是非变量(0-1分布)总体中随机抽取容量足够大的样本(一般要求同时nP>5,nQ>5),则样本成数p的分布趋于服从数学期望为p、方差为PQ/n(重复抽样时)或数学期望为p、方差(1-f)PQ/n(不重复抽样时)的正态分布。第十七页,共六十二页,2022年,8月28日
一般地,抽样中的总误差可以简单地分为两类,一类是抽样误差,一类非抽样误差。所谓抽样误差是由于抽样的非全面性和随机性所引起的偶然性误差,即因抽样估计值随样本不同所造成的误差。所谓非抽样误差是由随机抽样的偶然性因素以外的原因所引起的误差,是非抽样调查所特有的。一、抽样中的误差构成
第二节抽样误差第十八页,共六十二页,2022年,8月28日1.实质:指由于随机抽样的偶然性使样本结构不能完全代表总体结构而引起的样本统计量和总体参数之间的离差。抽样误差为一种代表性误差,但并非统计上的代表性误差均为抽样误差(如典型调查)。调查误差登记性误差代表性误差系统性误差偶然性误差抽样标准误实际误差统计推断中的抽样误差就是抽样标准误。它是抽样调查所固有的,是对抽样推断精确度的量度。第十九页,共六十二页,2022年,8月28日2.影响因素①总体各单位标志值之间的差异程度(бx2
、бp2):一定条件下,差异程度越大抽样误差越大②样本容量(即样本单位数n):一定条件下,n越大抽样误差越小③抽样方法:一般情况下,不重复抽样小于重复抽样误差④抽样组织方式:一定条件下,不同抽样组织方式抽样误差也不同
第四个因素最为活跃,也是我们这章所要考虑的!(简单随机抽样、分层抽样、等距抽样、整群抽样、多阶段抽样)第二十页,共六十二页,2022年,8月28日
抽样误差的表现形式一般有三种:抽样实际误差、抽样标准误和抽样极限误差。(一)抽样实际误差
抽样实际误差是指样本估计值与总体参数值之间的离差,表示为。抽样实际误差是随机变量,因为依据不同样本得到的估计值与总体参数值之间的离差是不同的。每一次的实际误差不可知,因Θ不可知。
二、抽样误差的表现形式第二十一页,共六十二页,2022年,8月28日(二)抽样标准误差(抽样平均误差)
反映抽样误差一般水平的指标,指样本统计量抽样分布的标准差,定义公式:
第二十二页,共六十二页,2022年,8月28日以简单随机抽样为例说明的具体计算方法重复不重复平均数抽样成数抽样
第二十三页,共六十二页,2022年,8月28日(三)抽样极限误差与抽样精度
1、抽样极限误差:2、相对抽样极限误差:3、抽样精度:
第二十四页,共六十二页,2022年,8月28日(四)概率度和置信度
1、置信度:可靠性、把握程度,用表示。
指估计总体参数(、)在某一区间的(可靠性)概率。
2、概率度:用t表示,它与置信度是函数关系。是指单位抽样平均误差的允许误差
第二十五页,共六十二页,2022年,8月28日
在估计总体参数时,一个很重要的问题是估计量的选择。所谓估计量,就是用以估计总体参数的量,或者说是根据样本结果来估计总体参数的规则或形式。
在参数估计时,人们可以构造很多个估计量,但不是所有的估计量都一样优良。到底用哪一个估计量更合适,就需要有评价的标准。通常,评价估计量好坏的标准有四个:无偏性、有效性、一致性和充分性。估计量一般情况下就是样本统计量。估计量的某一具体的值,就称为估计值,它是以所抽样本的观测数据为依据而计算得到的。一、估计量的评价标准
第三节参数估计方法第二十六页,共六十二页,2022年,8月28日优良估计量的标准:
①无偏性:样本统计量的数学期望等于总体参数
②一致性:样本容量充分大时,样本指标也充分靠近总体指标。此时,抽样极限误差逐渐减小,抽样精度增大。第二十七页,共六十二页,2022年,8月28日③有效性:优良估计量的方差应比其他估计量的方差小。④充分性:若样本统计量提供了总体参数的全部信息,则估计量就是充分估计量。第二十八页,共六十二页,2022年,8月28日2.区间估计:包括两部分内容①估计总体参数处于某一区间(可以由抽样极限误差的数学形式推导出)②说明这种估计的概率大小,二、参数估计方法
1.点估计:
由样本计算样本统计量,直接作为总体参数的估计值第二十九页,共六十二页,2022年,8月28日估计区间可表示为:即的估计区间:
P的根据区间:第三十页,共六十二页,2022年,8月28日第四节各种抽样组织方式的参数估计一、简单随机抽样(纯随机抽样)
1.概念:按随机抽样原则,直接从目标总体中随机抽取部分单位组成样本,用样本统计量估计总体参数的方法
2.适用性:①目标总体单位数不多
②目标总体各单位间标志值的差异不大
3.抽样(选样)方法
①编号
②抽签a抓阄
b摇号
c随机数表
第三十一页,共六十二页,2022年,8月28日4.总体参数估计
⑴总体均值估计:第三十二页,共六十二页,2022年,8月28日例1:对某天生产的2000件电子元件的耐用时间进行全面检测,然后又抽取5%进行抽样复检,样本资料如下,计算平均耐用时间的抽样平均误差(重复和不重复)全部复检抽样平均误差:耐用时间(小时)全面检测(支)抽样复检(支)3000以下3000-40004000-50005000以上合计5060099036020002305018100第三十三页,共六十二页,2022年,8月28日例2:某企业生产某种产品的工人有1000人,某日采用不重复抽样从中随机抽取100人调查他们的当日产量,要求在95﹪的概率保证程度下,估计该厂全部工人的日平均产量和日总产量。按日产量分组(件)组中值(件)工人数(人)110~114114~118118~122122~126126~130130~134134~138138~14211211612012412813213614037182321186433681221602852268823768165605887006489284648600784合计—100126004144第三十四页,共六十二页,2022年,8月28日则该企业工人人均产量及日总产量的置信区间为:即该企业工人人均产量在124.797至127.203件之间,其日总产量在124797至127303件之间,估计的可靠程度为95﹪。第三十五页,共六十二页,2022年,8月28日例3
:对某酒店纯随机抽查10个顾客,平均消费额为170元,标准差12元,问有多大程度估计全部顾客平均消费额介于160.5—179.5元之间、相对抽样极限误差及抽样精度。第三十六页,共六十二页,2022年,8月28日⑵总体成数估计第三十七页,共六十二页,2022年,8月28日例4:在对某城区餐饮企业卫生达标调查中,纯随机抽查40家有8家餐饮企业卫生不达标,当把握程度要求达到95.45%时,估计全部餐饮企业卫生不达标率在哪个区间、抽样相对误差及抽样精度。
第三十八页,共六十二页,2022年,8月28日例5:对某居民区居民年用于旅行花费状况进行纯随机抽样调查,获得以下资料:按年旅行花费高低分组(元)抽查人数(人)1000以下581000-20001502000-30002003000-4000624000以上14合计484⑴试估计全部城镇居民年平均旅行花费的区间(概率为99.73%)⑵估计年旅行花费在2000元以上的比重(概率同上)。第三十九页,共六十二页,2022年,8月28日第四十页,共六十二页,2022年,8月28日几个概念的区别:一、抽样误差1.抽样误差:一般就是指抽样极限误差,即2.抽样权限误差:即上述的抽样误差,3.抽样标准误差(抽样标准误):表示为4.抽样平均误差与抽样标准误差一样的概念,即为二、概率保证1.概率保证程度:90%、95%、95.45%、99%2.置信度:即概率保证程度,其中为显著性水平。3.概率度:与F(t)相对应的t值,1.64、1.96、2、2.584.抽样精度:即第四十一页,共六十二页,2022年,8月28日5.样本容量的确定
样本容量大小受多种因素影响:
总体内部差异程度
抽样方法
抽样组织方式
调查经费
计算公式(在不考虑调查经费影响下):第四十二页,共六十二页,2022年,8月28日例6:对某居民区居民年用于旅行花费状况进行纯随机抽样调查,获得以下资料:按年旅行花费高低分组(元)抽查人数(人)1000以下581000-20001502000-30002003000-4000624000以上14合计484问:若要求城镇居民年平均旅行花费的抽样极限误差不超过120元、年旅行花费在2000元以上所占比重的抽样极限误差不超过6%,在把握程度为95.45%时应分别抽取多少人数才能满足要求(该居民区居民总人数为8500人)。第四十三页,共六十二页,2022年,8月28日第四十四页,共六十二页,2022年,8月28日例7:
已知某种型号灯炮过去的合格率为98%。现要求抽样允许误差不超过0.02,问概率保证程度为95%时,应抽多少只灯泡进行检验?
解:应抽189只灯泡进行检验。第四十五页,共六十二页,2022年,8月28日例8:
假定总体为5000个单位,被研究标志的方差不小于400,抽样允许误差不超过3,当概率保证程度为95%时,问⑴采用重复抽样需抽多少单位?⑵若要求抽样允许误差减少50%,又需抽多少单位?
第四十六页,共六十二页,2022年,8月28日二、分层抽样(统计分组在抽样估计中的应用)
1、概念:
分别从目标总体中的k个类型中各随机抽取若干个个体构成样本,用样本统计量估计总体参数的一种抽样组织方式。第四十七页,共六十二页,2022年,8月28日2.总体均值估计第四十八页,共六十二页,2022年,8月28日3.总体成数估计第四十九页,共六十二页,2022年,8月28日4.各层(类型)应抽个体数ni的确定第五十页,共六十二页,2022年,8月28日例1:调查某地区的居民年订购书报费,以居民户为抽样单元,根据经济及收入水平将居民户划分为4层,每层按纯随机抽样抽取10户,获得如下数据(单位:元)。试以95%的概率估计该地区居民平均年订购书报费的区间。层居民户总数样本户年订购书报费1234567891012001040011015104080900240050130608010055160851601703750180260110014060200180300220415005035150203025103025第五十一页,共六十二页,2022年,8月28日第五十二页,共六十二页,2022年,8月28日例2:在例1调查中,同时调查了居民拥有笔记本电脑情况,获得如下数据(单位:台)。试以95%的概率估计该地区居民拥有笔记本电脑比重的区间。层居民户总数样本户拥有笔记本电脑12345678910120000010001002400010000001037501100001010415001000000000第五十三页,共六十二页,2022年,8月28日第五十四页,共六十二页,2022年,8月28日三、机械抽样(等距抽样)
1.概念:
先将目标总体各个体按一定标志顺序排列,然后按相等的距离抽取样本个体,用样本统计量估计总体参数的一种抽样组织方式。2.顺序排队方式:无关标志排队抽样有关标志排队抽样3.抽样间隔的计算:无关:K=N/n
有关:K=有关标志值累计数/n第五十五页,共六十二页,2022年,8月28日4.
第一个样本点的确定(选择)
(1)无关:可以在第一间隔内随机选择任何一个个体
K。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025 小学五年级数学上册位置框架课堂梳理课件
- 2026春招:恒瑞医药笔试题及答案
- 2026春招:国家农业信贷担保联盟试题及答案
- 2025 小学四年级数学上册面积单位应用题课件
- 2026春招:风险控制题库及答案
- 2026春招:成都银行题库及答案
- 外科学总论血栓闭塞性脉管炎血管扩张剂使用要点课件
- 内科学总论乙脑诊断与治疗课件
- 2023年抚远县辅警招聘考试真题及答案1套
- 2024年安县辅警招聘考试真题及答案1套
- 2025版32375电石生产安全技术规范
- 供热管网施工技术规范
- 提高约束带使用规范率
- 阿扎胞苷课件
- 沈阳市行道树栽植现状分析与发展对策
- 建筑工程智能防火系统设计与应用考核试卷
- 健康体检重要异常结果管理专家共识2025
- TCNAS50-2025成人吞咽障碍患者口服给药护理学习解读课件
- 工程概算编制方案
- 可持续采购培训
- 2025至2030全球及中国供应链的区块链行业项目调研及市场前景预测评估报告
评论
0/150
提交评论