抽样与抽样估计ppt课件.ppt_第1页
抽样与抽样估计ppt课件.ppt_第2页
抽样与抽样估计ppt课件.ppt_第3页
抽样与抽样估计ppt课件.ppt_第4页
抽样与抽样估计ppt课件.ppt_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章抽样估计,什么是抽样估计抽样估计的基本概念与点估计抽样误差与区间估计,1,什么是抽样估计?,ThepurposeofStatisticsinferenceistoobtaininformationaboutapopulationfrominformationcontainedinsample.例1一汽车轮胎制造商生产一种被认为寿命更长的新型轮胎。,120个样本,测试,平均里程:36,500公里,推断,新轮胎平均寿命:36,500公里,400个样本,支持人数:160,推断,支持该候选人的选民占全部选民的比例:160/400=40%,例2:某党派想支持某一候选人参选美国某州议员,为了决定是否支持该候选人,该党派领导需要估计支持该候选人的民众占全部登记投票人总数的比例。由于时间及财力的限制:,2,抽样估计方法主要用在下列两种情况:,注意:抽样估计只得到对总体特征的近似测度,因此,抽样估计还必须同时考察所得结果的“可能范围”与“可靠程度”。,1、对所考查的总体不可能进行全部测度;2、从理论上说可以对所考查的总体进行全部测度,但实践上由于人力、财力、时间等方面的原因,无法(不划算)进行全部测度。,3,第一节抽样推断的基本概念与点估计,例3:某大公司人事部经理整理其2500个中层干部的档案。其中一项内容是考察这些中层干部的平均年薪及参加过公司培训计划的比例。总体:2500名中层干部(population),如果:上述情况可由每个人的个人档案中得知,可容易地测出这2500名中层干部的平均年薪及标准差。,假如:1:已经得到了如下的结果:总体均值(populationmean):=51800总体标准差(Populationstandarddeviation):=4000,4,参数是总体的数值特征Aparameterisanumericalcharacteristicofapopulation。,上述总体均值、总体标准差、比例均称为总体的参数,2、同时,有1500人参加了公司培训,则参加公司培训计划的比例为:P=1500/2500=0.60,如:例3中的中层干部平均年薪,年薪标准差及受培训人数所占比例均为该公司中层干部这一总体的参数。抽样估计就是要通过样本而非总体来估计总体参数。,5,一、简单随机抽样(SimpleRandomSampling),注意:在有限总体的简单随机抽样中,由抽样是否具有可重复性,又可分为重复抽样与不重复抽样。而且,根据抽样中是否排序,所能抽到的样本个数往往不同。,简单随机抽样可根据总体的有限性或无限性分为有限总体随机抽样与无限总体随机抽样。,无限总体简单随机抽样:1、每一个体来自同一总体;2、每一个体是独立抽取的。,有限总体简单随机抽样:每个样本点(个体)能以相同的概率被抽出。,6,1、考虑顺序的不重复抽样:N(N-1)(N-2)(N-n+1)2、考虑顺序的重复抽样:Nn,在总体单位数为N的总体中抽取容量为n的样本,样本个数可能有:,在社会经济统计中,往往采用的是较大总体(视为无限总体)下的无序不重复抽样。,3、不考虑顺序的不重复抽样:,4、不考虑顺序的重复抽样:,7,在例3中,假如随机抽取了一个容量为30的样本:AnnualSalaryManagementTrainingProgram?49094.3Yes53263.9Yes49643.5Yes,二、点估计(PointEstimation),假如根据该样本求得的年薪样本平均数、标准差及参加过培训计划人数的比例分别为:,8,则可用上述结果分别代表2500名中层干部的平均年薪、年薪的标准差及受训比例。,上述估计总体参数的过程被称为点估计(pointestimation);样本均值(标准差/比例)称为总体均值(标准差/比例)的点估计量(pointestimator);样本均值(标准差/比例)的具体数值称为总体均值(标准差/比例)的点估计值(pointestimate)。由于点估计量是由样本测算的,因此也称为样本统计量。,9,在上述某公司30个中层干部的简单随机抽样中,如果再一次抽样的样本与前一次的不同,则可得到另外的平均年薪样本均值、标准差以及受训干部的比例。同样地,如果多次抽样,则可得到多个不同的结果。表4.1是一个假设的经过500次抽样后的情况表。,三、抽样分布,10,表4.2给出了500个的频数分布与相对频数分布,,11,图4.1500个的相对频数分布,这里,的相对频数分布,就称为的抽样分布。,12,正是抽样分布及其特征使得用样本统计量估计总体参数的“精确程度”能够给予概率上的描述。,一般地,样本统计量的可能取值及其取值概率所形成的概率分布,统计上称为抽样分布(samplingdistribution)。,精确度,可靠度,13,(一)样本平均数的抽样分布(SamplingDistributionof),14,考察样本均值的概率分布形式。分两种况:1)总体分布已知且为正态分布;2)总体分布未知;,1、样本均值抽样分布的形状,(1)当总体分布已知且为正态分布或接近正态分布时,则无论样本容量大小如何,样本均值都为正态分布。,15,(2)当总体分布未知时,需要用到中心极限定理(CentrallimitTheorem),对容量为n的简单随机样本,样本均值的分布随样本容量的增大而趋于正态分布。,经验上验证,当样本容量等于或大于30时,无论总体的分布如何,样本均值的分布则非常接近正态分布。因此统计上常称容量在30(含30)以上的样本为大样本(large-sample-size)。,16,17,例3中,中层干部年薪的总体均值为51800,因此所有可能的样本平均数的均值也为51800。,可证明在简单随机抽样中,2、样本均值抽样分布的数值特征,18,n=样本容量;N=总体单位个数可以证明样本均值的标准差:,如果总体单位数很“大”而样本容量很“小”,则该修正因子趋近于1,这时,对有限总体可直接按无限总体的公式去计算。一个经验的衡量标准是n/N=5,又由于np=300.6=18,n(1-p)=300.4=12因此,样本比例服从如下正态分布:,26,用样本统计量(samplestatistics)可以作为其对应的总体的点估计量(pointestimator)。但要估计总体的某一指标,并非只能用一个样本指标,而可能有多个指标可供选择,即对同一总体参数,可能会有不同的估计量。,四、点估计量的性质:估计量优劣的衡量,作为一个好的点估计量,统计量必须具有如下性质:无偏性、有效性、一致性,27,可以证明:样本均值、样本比例、样本标准差:无偏、有效、一致,3、一致性(Consistency):当样本容量增大时,估计量依概率收敛于总体参数的真值。,1、无偏性(Unbiasedness):样本估计量的均值等于被估总体参数的真值;,2、有效性(Efficiency):好的点估计量应具有较小的方差;,注:样本二阶中心矩:不具有无偏性,28,一、抽样误差(SamplingError)一个样本可以得到总体参数的一个点估计,该点估计值与总体参数真值之间的差异,即为抽样误差。有三个相互联系的概念:(一)实际抽样误差:,第二节抽样误差与区间估计,(二)抽样平均误差:所有可能样本估计值与相应总体参数的平均差异程度:,29,(三)抽样极限误差,注意:1、统计学上往往用抽样极限误差来测度抽样误差的大小或者说测度点估计的精度。原因:总体参数值往往并不知道,因此,实际抽样误差与抽样平均误差也往往无法求出,但在抽样分布大体知道的情况下,抽样极限误差是可以估计出来的。,一定概率下抽样误差的可能范围(也称允许误差):,30,2、抽样极限误差的估计总是要和一定的概率保证程度联系在一起的。,原因:样本统计量往往是一随机变量,它与总体参数真值之差也是一个随机变量,因此就不能期望某次抽样的样本估计值落在一定区间内是一个必然事件,而只能给予一定的概率保证。因此,在进行抽样估计时,既需要考虑抽样误差的可能范围,同时还需考虑落到这一范围的概率大小。前者是估计的准确度问题,后者是估计的可靠性问题,两者紧密联系不可分开。这也正是区间估计所关心的主要问题。,31,点估计是通过样本估计量的某一次估计值来推断总体参数的可能取值;区间估计则是根据样本估计量以一定的可靠程度推断总体参数所在的区间范围。如果抽样分布已知,则在点估计中,可以知道抽样的点估计值与总体参数的离差在某一给定范围内的概率大小,即以一定的可靠程度知道以下抽样极限误差:,二、区间估计(IntervalEstimation),因此,容易得到在抽样中,总体参数将以同样的可能性(概率)存在于下面的区间内:,32,一般地,设总体参数为,L、U为由样本确定的两个统计量值,对于给定的(0=30?,知否?,用s代替,总体是否接近正太分布?,知否?,用s代替,增大样本容量至n=30,yes,No,yes,No,yes,yes,No,No,40,在大样本下,样本比率的分布趋近于均值为总体比率P、方差为P(1-P)/n的正态分布,则,即服从标准正态分布。,于是,给定置信度为1-,可由标准正态分布表查得临界值Z/2,从而可得总体比例(率)的区间估计:,(二)总体比率的区间估计,41,三、样本容量的确定,样本容量对估计精度有较大的影响,从理论上说,样本容量越大,对总体特征的估计误差越小;但从实践角度看,抽样数目过大,则会增大调查及相关的工作量。因此,样本容量的确定是至关重要的。一般说来,抽样数目以满足在一定的概率保证下抽样误差不超过给定的允许范围的最小样本容量为界。因此,可根据抽样极限误差与抽样数目的关系来确定抽样数。,42,根据抽样极限误差的定义,若用样本均值估计总体均值的极限误差为,则,1、总体均值参数估计中抽样数目的确定,为了简单,可直接考虑大样本的情况,这时样本均值服从正态分布,于是:,由于在1-的置信度下,存在临界值Z/2,使得,或,43,故,在该置信度下,如果允许误差为时,可以其为极限误差

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论