抽样与抽样估计-文档资料_第1页
抽样与抽样估计-文档资料_第2页
抽样与抽样估计-文档资料_第3页
抽样与抽样估计-文档资料_第4页
抽样与抽样估计-文档资料_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1第四章第四章 抽样估计抽样估计 什么是抽样估计 抽样估计的基本概念与点估计 抽样误差与区间估计2什么是抽样估计?什么是抽样估计? The purpose of Statistics inference is to obtain information about a population from information contained in sample. 例例1 一汽车轮胎制造商生产一种被认为寿命更长的新型轮胎。120个个样本样本测试平均里程:36,500公里推断新轮胎新轮胎平均寿命平均寿命:36,500公里400个样本 支持人数:160推断支持该候选人的选民支持该候选人的选民占全部

2、选民的比例:占全部选民的比例:160/400=40%例例2:某党派想支持某一候选人参选美国某州议员,为了决定是否支持该候选人,该党派领导需要估计支持该候选人的民众支持该候选人的民众占全部登记投票人总数的比例占全部登记投票人总数的比例。由于时间及财力的限制:3 抽样估计方法主要用在下列两种情况抽样估计方法主要用在下列两种情况: 注意:注意: 抽样估计只得到对总体特征的近似测度,因此,抽样估计还必须同时考察所得结果的“可能范围可能范围” 与“可靠程度可靠程度”。 1、对所考查的总体不可能进行全部测度; 2、从理论上理论上说可以对所考查的总体进行全部测度,但实践上实践上由于人力、财力、时间等方面的原

3、因,无法(不划算)进行全部测度。4第一节第一节 抽样推断的基本概念与点估计抽样推断的基本概念与点估计例例3:某大公司人事部经理整理其2500个中层干部的档案。其中一项内容是考察考察这些中层干部的平均年薪平均年薪及参加过参加过公司培训计划的比例公司培训计划的比例。总体:总体:2500名中层干部(population ), 如果:如果:上述上述情况可由每个人的个人档案中得知,可容易地测出这2500名中层干部的平均年薪及标准差。假如假如:1:已经得到了如下的结果: 总体均值总体均值(population mean):): =51800 总体标准差总体标准差(Population standard d

4、eviation):): =40005 参数参数是总体的是总体的数值特征数值特征 A parameter is a numerical characteristic of a population。 上述总体均值、总体标准差、比例均称为总体的参参数数 2、同时,有1500人参加了公司培训,则则参加公司培训计划的参加公司培训计划的比例比例为:为:P =1500/2500=0.60如:如:例3中的中层干部平均年薪平均年薪,年薪标准差年薪标准差及受培训人数受培训人数所占比例所占比例均为该公司中层干部这一总体的参数。抽样估计抽样估计就是要通过样本而非总体来估计总体参数就是要通过样本而非总体来估计总体参

5、数。6 一、简单随机抽样(一、简单随机抽样(Simple Random Sampling)注意:注意: 在有限总体的简单随机抽样中,由抽样是否具有可重是否具有可重复性复性,又可分为重复抽样重复抽样与不重复抽样不重复抽样。而且,根据抽样中是否排序是否排序,所能抽到的样本个数往往不同。 简单随机抽样可根据总体的有限性或无限性分为有限总体随机抽样有限总体随机抽样与无限总体随机抽样无限总体随机抽样。 无限总体简单随机抽样:无限总体简单随机抽样: 1、每一个体来自同一总体; 2、每一个体是独立抽取的。 有限总体简单随机抽样有限总体简单随机抽样: 每个样本点(个体)能以相同的概率被抽出。7 1、考虑顺序的

6、不重复抽样:N(N-1)(N-2)(N-n+1) 2、考虑顺序的重复抽样:Nn 在总体单位数为N的总体中抽取容量为n的样本,样本个数可能有: 在社会经济统计中,往往采用的是较大总体较大总体(视为无限总体)下的下的无序不重复抽样无序不重复抽样。3、不考虑顺序的不重复抽样:4、不考虑顺序的重复抽样:)!( !nNnNCnNnnNC18 在例在例3中,假如随机抽取了一个容量为30的样本: Annual Salary Management Training Program? 49094.3 Yes 53263.9 Yes 49643.5 Yes 00.5181430/1554420/nxxi72.33

7、4729/325009260) 1/()(2nxxsi63. 030/19p 二、点估计(二、点估计(Point Estimation) 假如假如根据该样本求得的年薪样本年薪样本平均数平均数、标准差标准差及参参加过培训计划人数的加过培训计划人数的比例比例分别为:9 则可用上述结果分别代表2500名中层干部的平平均年薪均年薪、年薪的标准差年薪的标准差及受训比例受训比例。 上述估计总体参数的过程被称为点估计点估计(point estimation); 样本均值(标准差/比例)称为总体均值(标准差/比例)的点估计量点估计量(point estimator); 样本均值(标准差/比例)的具体数值称为总

8、体均值(标准差/比例)的点估计值点估计值(point estimate)。 由于点估计量是由样本测算的,因此也称为样本样本统计量。统计量。10 在上述某公司30个中层干部的简单随机抽样中,如果再一次抽样的样本与前一次的不同,则可得到另外的平均年薪样本均值、标准差以及受训干部的比例。 同样地,如果多次抽样,则可得到多个不同的结果。 表4.1是一个假设的经过500次抽样后的情况表。 三、抽样分布三、抽样分布11 表4.2给出了500个 的频数分布频数分布与相对频数分布相对频数分布,x12图图4.1 500个个 的相对频数分布的相对频数分布 0.3 相 对 0.2 频 数 0.1 x 这里,这里,

9、的相对频数分布,就称为的相对频数分布,就称为 的的抽样分布抽样分布。xx13 正是抽样分布抽样分布及其特征特征使得用样本统计量样本统计量估计总体参数总体参数的“精确程度精确程度”能够给予概率上的描述。 一般地一般地,样本统计量样本统计量的可能取值及其取值概率所形成的概率分布,统计上称为抽样分布抽样分布(sampling distribution)。精确度可靠度14x (一)样本平均数的抽样分布(一)样本平均数的抽样分布 (Sampling Distribution of )15 考察样本均值的概率分布形式样本均值的概率分布形式。分两种况: 1)总体分布已知且为正态分布总体分布已知且为正态分布;

10、 2)总体分布未知;总体分布未知; 1、样本均值抽样分布的形状、样本均值抽样分布的形状(1)当总体分布已知且为正态分布或接近正态分布时,则无论样本容量大小如何,样本均值则无论样本容量大小如何,样本均值都为正态分布都为正态分布。16 (2)当总体分布未知时,需要用到Central limit Theorem) 对容量为对容量为n 的简单随机样本,样本均值的分布的简单随机样本,样本均值的分布随样本容量的增大而趋于正态分布随样本容量的增大而趋于正态分布。 经验上验证经验上验证,当样本容量等于或大于30时,无论总体的分布如何,样本均值的分布则非常接近正态分布。 因此统计上常称容量在30(含30)以上的

11、样本为大样本大样本(large-sample-size)。17 I II IIIPopulationDistribution x x xSamplingdistribution of x (n=2) x x xSamplingdistribution of x (n=5) x x xSamplingdistribution of x (n=30) x x x18 例例3中中,中层干部年薪的总体均值为51800,因此所有可能的样本平均数的均值所有可能的样本平均数的均值也为51800。)(xE可证明在简单随机抽样中 2、样本均值抽样分布的数值特征、样本均值抽样分布的数值特征19 n=样本容量; N

12、=总体单位个数可以证明可以证明样本均值的标准差样本均值的标准差:1)(NnN 如果总体单位数很如果总体单位数很“大大”而样本容量很而样本容量很“小小”,则该,则该修正因子趋近于修正因子趋近于1 1,这时,对有限总体可直接按无限总体的公式去计算。 一个经验的衡量标准个经验的衡量标准是n/N=0.05。有限总体:无限总体:称为有限总体修正因子有限总体修正因子(finite population correction factor)。20 样本容量与总体单位数的比值为 n/N=30/2500=0.012,30.73030/4000nx 样本均值的标准差样本均值的标准差可用来测度样本均值与总体均值的“

13、距离”,即可用来计算可能的误差,它也被称为均值标准误均值标准误(standard error of the mean)。 例例3中中:因此,样本均值的标准差可计算如下:21 样本统计量的估计值与其所要测度的总体参数值之间的绝对差距,被称为抽样误差抽样误差(sampling error)。 抽样分布能够用来提供抽样分布能够用来提供抽样误差抽样误差大小的可能性(概率)。大小的可能性(概率)。 3、样本均值抽样分布的实际应用、样本均值抽样分布的实际应用 在例例3中,如果人事部经理认为在一次抽样中所得到的中层干部的平均年薪与总体均值(51800$)误差在500元以内,他就可以接受样本估计值。则问题归结

14、为在一次抽样中,误差在500元以内的可能性(概率)有多大?x22 由于样本容量为30,可认为样本均值服从正态分布,因此,上述问题即为求一次抽样的样本均值点落在区间上述问题即为求一次抽样的样本均值点落在区间51300, 52300内的概率内的概率,即求下图中阴影部分的面积。 该例中:52300对应的标准正态分布标准正态分布中的点为: (52300-51800)/730.3=0.68 查标准正态分布表标准正态分布表:上述区间的面积为 0.2518+0.2518=0.5036 表明:表明:在上述简在上述简单随机抽样中,只单随机抽样中,只有有50%50%的概率使得的概率使得样本均值与总体实样本均值与总

15、体实际均值的误差不超际均值的误差不超过过500500元。元。23 由于样本标准差样本标准差与总体标准差总体标准差及样本容量样本容量有关:nx 4、样本容量与样本均值分布的关系、样本容量与样本均值分布的关系因此,样本容量增大,样本均值标准差变小样本容量增大,样本均值标准差变小,从而使样本分布峰度变高,于是在相同区间内,概率分布线下的面积变大,提高了样本均值落在该区间的可能性。 注意注意: 1、所有可能的样本均值的平均数等于总体均值,而与样本容量无关。 2、点估计往往是在总体方差已知的情况下进行的。24 在经济与商务的许多场合,需要用样本比例p对总体比例P进行统计推断。 (二二)样本比例的抽样分布

16、样本比例的抽样分布(Sampling Distribution of p) 样本比例抽样分布的相关信息样本比例抽样分布的相关信息: p的:期望值、标准差、抽样分布形状 样本比例的抽样分布样本比例的抽样分布是样本比例所有可能值的是样本比例所有可能值的概率分布。概率分布。 The sampling distribution of p is the probability distribution of all possible values of the sample proportion p.25 1、期望值、期望值(Expected value of p):):E (p)=P有限总体:有限总体

17、:无限总体无限总体 2、标准差、标准差(Standard deviation of p):): 3、样本比例抽样分布的形状、样本比例抽样分布的形状(Form of the sampling distribution of p) 根据中心极限定理中心极限定理有:当样本容量增大时当样本容量增大时(大样本),样本比例抽样分布趋向于以样本(大样本),样本比例抽样分布趋向于以样本期望值为中心、以样本方差为方差的正态分布。期望值为中心、以样本方差为方差的正态分布。26 在例在例3中,由于全体中层干部接受过培训的人数比例为P=0.6,因此样本比例期望值为p=0.6; 同时,由于n/N=30/2500=0.0

18、12=5 n(1-p)=5 又由于np=300.6=18, n(1-p)=30 0.4=12因此,样本比例服从如下正态分布:27 用样本统计量样本统计量(sample statistics)可以作为其对应的总体的点估计量点估计量(point estimator)。 但要估计总体的某一指标,并非只能用一个样本指标,而可能有多个指标可供选择,即对同一总体参数,可能会有不同的估计量。 四、点估计量的性质:估计量优劣的衡量四、点估计量的性质:估计量优劣的衡量 作为一个一个好的点估计量好的点估计量,统计量必须具有如下性质: 无偏性、有效性、一致性无偏性、有效性、一致性28 样本均值样本均值、样本比例、样

19、本标准差样本比例、样本标准差: 无偏、有效、一致 3、一致性、一致性(Consistency):当样本容量增大时,估计量依概率收敛于总体参数的真值。 1、无偏性(、无偏性(Unbiasedness):样本估计量的均值等于被估总体参数的真值; 2、有效性、有效性(Efficiency):好的点估计量应具有较小的方差;注:样本二阶中心矩样本二阶中心矩:不具有无偏性29 一、抽样误差(一、抽样误差(Sampling Error) 一个样本可以得到总体参数的一个点估计,该点估计值与总体参数真值之间的差异,即为抽样误抽样误差差。有三个相互联系的概念: (一)实际抽样误差:(一)实际抽样误差: 第二节第二

20、节 抽样误差与区间估计抽样误差与区间估计)( (二)抽样平均误差:(二)抽样平均误差: 所有可能样本估计值与相应总体参数的平均差异程度:30 (三(三)抽样极限误差抽样极限误差注意注意: 1、统计学上往往用、统计学上往往用抽样极限误差抽样极限误差来测度抽来测度抽样误差的大小或者说测度点估计的精度。样误差的大小或者说测度点估计的精度。 原因:原因:总体参数值往往并不知道,因此,实际抽样误差与抽样平均误差也往往无法求出,但在抽样分布大体知道的情况下,抽样极限误差是可以估计出来的。 一定概率下抽样误差的可能范围(也称允许误差):31 2、抽样极限误差的估计总是要和一定的概率保、抽样极限误差的估计总是

21、要和一定的概率保证程度联系在一起的。证程度联系在一起的。 原因:原因:样本统计量往往是一随机变量,它与总体参数真值之差也是一个随机变量,因此就不能期望某次抽样的样本估计值落在一定区间内是一个必然事件,而只能给予一定的概率保证。 因此,在进行抽样估计时,既需要考虑抽样误在进行抽样估计时,既需要考虑抽样误差的差的可能范围可能范围,同时还需考虑落到这一范围的,同时还需考虑落到这一范围的概率概率大小大小。 前者是估计的准确度估计的准确度问题,后者是估计的可靠估计的可靠性性问题,两者紧密联系不可分开。这也正是区间估计所关心的主要问题。32 点估计点估计是通过样本估计量的某一次估计值来推断总体参数的可能取

22、值; 区间估计区间估计则是根据样本估计量以一定的可靠程度推断总体参数所在的区间范围。 如果抽样分布已知如果抽样分布已知,则在点估计中,可以知道抽样的点估计值与总体参数的离差在某一给定范围内的概率大小,即以一定的可靠程度知道以下抽样极限误差: 二、区间估计(二、区间估计(Interval Estimation) 因此,容易得到在抽样中,总体参数将以同样 的可能性(概率)存在于下面的区间内:33 一般地,设总体参数为, L、 U为由样本确定的两个统计量值,对于给定的(0 =30),不论总体分布形式如何,均可用上述方法进行总体均值的区间估计,这时,如果总体方差未知,则直接用样本方差代替。97.119

23、7518143072.334796. 1518142nsZx 注意:注意: 在上述中层干部平均年薪例中中层干部平均年薪例中, 如果假设总体均值及方差未知,一次容量为30的抽样的样本均值及方差分别为51814与3347.72, 由于是大样本,则可求置信度为95%的置信区间如下:38 2、小样本下总体方差未知时,正态分布总体、小样本下总体方差未知时,正态分布总体均值的区间估计均值的区间估计 如果是小样本,但总体为正态分布,在总体方差未知如果是小样本,但总体为正态分布,在总体方差未知而需用样本方差代替时,则下式而需用样本方差代替时,则下式服从自由度为服从自由度为n-1n-1的的t t分布分布。00.

24、050.10.150.20.250.30.350.40.45-3-2.4-1.8-1.2-0.600.61.21.82.43Zt39 注意:注意: 如果小样本下总体分布非正态,则无法进行区间估计,唯一的解决方法就是增大样本。从而可得置信度为1- 时总体均值的置信区间:或 于是,给定置信度为1- ,可由t分布表查得临界值t /2(n-1),使得40 总体均值区间估计程序总体均值区间估计程序n=30?知否?nzx2用s代替nszx2总体是否接近正太分布?知否?nzx2用s代替nstx2增大样本容量至n=30yesNoyesNoyesyesNoNo41 在大样本下大样本下,样本比率样本比率的分布趋近于均值为总体比率P、方差为P(1-P)/n的正态分布,则即服从标准正态分布。 于是,给定置信度为1- ,可由标准正态分布表查得临界值Z /2,从而可得总体

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论