




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1第第2章章 简单随机抽样(简单随机抽样(SRS)2.1 定义及其抽选方法定义及其抽选方法2.2 简单估计量及其性质简单估计量及其性质2.3 样本量的确定样本量的确定2.4 设计效应设计效应2.5 逆抽样逆抽样 Simple Random Sampling (SRS)2 抽样方案设计抽样方案设计 n第一、确定抽样调查的第一、确定抽样调查的目的目的、任务和要求;、任务和要求;n第二、确定第二、确定调查对象调查对象的范围和的范围和抽样单位抽样单位;n第三、确定第三、确定抽取样本方法抽取样本方法;n第四、对主要抽样指针的精度提出要求;确第四、对主要抽样指针的精度提出要求;确定必定必 要的要的样本数样
2、本数;n第五、确定总体目标量的第五、确定总体目标量的估算方法估算方法;n第六、第六、制订制订实施总体方案的办法实施总体方案的办法和步骤。和步骤。 32.1定义与符号定义与符号n简单随机抽样也称为单纯随机抽样。简单随机抽样也称为单纯随机抽样。n从含有从含有 N 个单元的总体中抽取个单元的总体中抽取 n 个单元组成个单元组成样本,如果抽样是不放回的,则所有可能的样样本,如果抽样是不放回的,则所有可能的样本有本有 个,若每个样本被抽中的概率相同,都个,若每个样本被抽中的概率相同,都为为 ,这种抽样方法就是简单随机抽样。,这种抽样方法就是简单随机抽样。n具体抽样时,通常是逐个抽取样本单元,直到具体抽样
3、时,通常是逐个抽取样本单元,直到抽满抽满n n个单元为止。个单元为止。 CNnnNC1有限4放回简单随机抽样放回简单随机抽样不放回简单随机抽样不放回简单随机抽样n放回简单随机抽样放回简单随机抽样(SRS with replacement)n当从总体当从总体N个抽样单元中抽取个抽样单元中抽取n个抽样单元时,如果依次抽取单元时,个抽样单元时,如果依次抽取单元时,不管以前是否被抽中过,每次都从不管以前是否被抽中过,每次都从N个抽样单元中随机抽取,这时,个抽样单元中随机抽取,这时,所有可能的样本为所有可能的样本为 个个(考虑样本单元的顺序考虑样本单元的顺序),n每个样本被抽中的概率为每个样本被抽中的概
4、率为n放回简单随机抽样在每次抽取样本单元时,都将前一次抽取放回简单随机抽样在每次抽取样本单元时,都将前一次抽取的样本单元放回总体,因此,总体的结构不变,抽样是的样本单元放回总体,因此,总体的结构不变,抽样是进行的,这一点是它与不放回简单随机抽样的主要不同进行的,这一点是它与不放回简单随机抽样的主要不同之处。之处。n放回简单随机抽样的样本量不受总体大小的限制,可以是任放回简单随机抽样的样本量不受总体大小的限制,可以是任意的。意的。nN1nN5n简单随机抽样的抽取原则:简单随机抽样的抽取原则:n(1)按随机原则取样;)按随机原则取样;n(2)每个抽样单元被抽中的概率都是已知)每个抽样单元被抽中的概
5、率都是已知的或事先确定的;的或事先确定的;n(3)每个抽样单元被抽中的概率都是相等)每个抽样单元被抽中的概率都是相等的。的。6【例例2.1】n设总体有设总体有5个单元(个单元(1、2、3、4、5),),按放回简单随机抽样的方式抽取按放回简单随机抽样的方式抽取2个单元,个单元,则所有可能的样本为则所有可能的样本为25个(考虑样本单个(考虑样本单元的顺序):元的顺序):1,12,13,14,15,11,22,23,24,25,21,32,33,34,35,31,42,43,44,45,41,52,53,54,55,57(2)不放回简单随机抽样不放回简单随机抽样(SRS without replac
6、ement)n当从总体当从总体N个抽样单元中依次抽取个抽样单元中依次抽取n个抽样个抽样单元时,每个被抽中的单元不再放回总体,单元时,每个被抽中的单元不再放回总体,而是从总体剩下的单元中进行抽样。而是从总体剩下的单元中进行抽样。n不放回简单随机抽样的样本量要受总体大不放回简单随机抽样的样本量要受总体大小的限制。小的限制。n在实际工作中,更多的采用不放回简单随在实际工作中,更多的采用不放回简单随机抽样。机抽样。8 【例例2.2】n设总体有设总体有5个单元(个单元(1、2、3、4、5),),按不放回简单随机抽样的方式抽取按不放回简单随机抽样的方式抽取2个单个单元,则所有可能的样本为元,则所有可能的样
7、本为10个:个:1,22,33,44,51,32,43,5 1,42,5 1,5 9符号符号 n大写符号表示总体的标志值,大写符号表示总体的标志值,n用小写符号表示样本的标志值用小写符号表示样本的标志值 NNiiYYYYY211nniiyyyy211NYYYYNYNNii2111nyyyynynnii211110符号符号 n大写符号表示总体的标志值,大写符号表示总体的标志值,n用小写符号表示样本的标志值用小写符号表示样本的标志值 NiiYNNAP1110或iYniiynnap1110或iyXYXYXYRNiiNii11xyxyRniinii112122111NNYYNSNiiniiyyns12
8、21111n总体指标值上面带符号总体指标值上面带符号“ ”的表示由样的表示由样本得到的总体指标的估计。本得到的总体指标的估计。 n 称称 为抽样比,记为为抽样比,记为f f 。n估计量的方差用大写的估计量的方差用大写的V V表示表示, ,对对 的的样本估计,不用样本估计,不用 而用而用 表示。表示。 Nn Yv YV YV12二、抽选方法二、抽选方法n1抽签法抽签法n2 2随机数法随机数法随机数表、随机数骰子、摇随机数表、随机数骰子、摇奖机、计算机产生的伪随机数奖机、计算机产生的伪随机数 随机数表随机数表法:法:N=327 n5讨论:讨论: (1) 总体编号为总体编号为135,在,在0099中
9、产生随机中产生随机数,若数,若=00或或35,则抛弃重抽。,则抛弃重抽。 (2) 总体编号为总体编号为135,在,在0099中产生随机中产生随机数,以除以数,以除以35,余数作为被抽中的数,如果余,余数作为被抽中的数,如果余数为数为0,则被抽中的数为,则被抽中的数为35。13三、地位与作用三、地位与作用n优点优点n简单直观简单直观n理论基础理论基础n缺点缺点nN很大时难以获得很大时难以获得抽样框抽样框n样本分散不易实施,调查费用高样本分散不易实施,调查费用高n很少单独使用,一般结合其他方法使用很少单独使用,一般结合其他方法使用n没有其他信息时没有其他信息时使用使用n多变量复杂数据分析多变量复杂
10、数据分析142.2 2.2 简单估计量及其性质简单估计量及其性质n 判断下面要估计的总体目标量分别属于什么判断下面要估计的总体目标量分别属于什么类型?类型?n调查城市居民家庭平均用电量。调查城市居民家庭平均用电量。n估计湖中鱼的数量。估计湖中鱼的数量。n测试日光灯的寿命。测试日光灯的寿命。n估计居民家庭用于做饭菜及饮用的用水量占家庭估计居民家庭用于做饭菜及饮用的用水量占家庭总用水量的比重。总用水量的比重。n估计婴儿出生性别比。估计婴儿出生性别比。n检测食盐中碘含量。检测食盐中碘含量。 15 一、对总体均值的估计一、对总体均值的估计 以样本均值作为总体均值的估计以样本均值作为总体均值的估计n性质
11、性质1 1:对于简单随机抽样,:对于简单随机抽样, 是是 的无偏估计。的无偏估计。 ynyiin11yY YyE16例设总体为例设总体为0,1,3,5,6,计算总体均值,计算总体均值 =3、总体方差、总体方差 =5.2和和 =6.5;给出全部给出全部 的样本,并验证的样本,并验证 及及 。Y22S2n E yY22E sSyY 1010.5-2.50.52031.5-1.54.53052.5-0.512.540630185132-126153087163.50.512.58354129364.51.54.510平均565.52.50.5 306.5 方差方差1.951.95 样本编号单元1单元
12、2样本均值-样本方差17 证明证明 性质性质1 1 n对于固定的有限总体,估计量的期望是对所有可能样本求平均得对于固定的有限总体,估计量的期望是对所有可能样本求平均得到的,因此到的,因此n总体中每个特定的单元总体中每个特定的单元 在不同的样本中出现的次数。在不同的样本中出现的次数。 nNnnNnCyyyCyyE21iy11nNCNiinNnYCnyyyny111211111)!()!1()!1()!( !nNnNCnNnNnNnNnNnNC YYNnCYCCyyENiinNNiinNnN1111118证明 性质性质1 1(对称性论证法)(对称性论证法) n由于每个单元出现在总体所有可能样本由于
13、每个单元出现在总体所有可能样本中的次数相同,因此中的次数相同,因此 一定是一定是 的倍数,且这个倍数的倍数,且这个倍数就是就是 , nyyyE21NYYY21Nn YYNnnyEnyENiinii111119性质性质2:n对于有限总体的方差定义对于有限总体的方差定义 :n性质性质2:对于简单随机抽样,:对于简单随机抽样, 的方差的方差式中:式中: 为抽样比,为抽样比, 为有限总体校正系数。为有限总体校正系数。 2211NYYiiNSNYYiiN22111y 221SnfSNnnNyVfn N1 f20证明性质性质2 2(对称论证法): n 中的求和是对 项的,n 中的求和是对 项的 2121Y
14、ynEYyEyVnii)( )(1)(1)(12212212YyYyEnYyEnYyEnjjiiniinii2121)()(YYNnYyENiinii)( )() 1() 1()( )(YYYYNNnnYyYyEjjiijjii)( )(YyYyEjjii)( )(YYYYjjii2) 1( nn2) 1(NN21 )( )(1)(12212YyYyEnYyEnyVjjiiniijijiNiiYYYYNNnnnYYNnn)() 1() 1(1)(12212jijiNiiYYYYNnYYnN)(11)(1212121)(11)(11YYNnYYNnNiiNii2121)(11)(1111YYNn
15、YYNnnNNiiNii2121)(111)(11YYNNnNnYYNnNnNNiiNii221SnfSnNnN22每个特定单位被选入样本的概率:每个特定单位被选入样本的概率: =P(i)=故其定义为:故其定义为:* 不放回抽样不放回抽样* 每个样本被抽中的概率为每个样本被抽中的概率为* 每个单位被选入样本的概率每个单位被选入样本的概率 NnNnNn)()(1111)(1Nn) 1() 1()()(2222NNnnNnNni),(jiPij利用无限总体理论利用无限总体理论23 Mean =iNYNY1i01sisi随机变量NnEEii)()(2NnPi ) 1(NiiniYnyny1124证明
16、性质性质2)1 (11)1 ()()()(),cov(2NnNnNNnNnNnEEEjijiji)11() 1&1()(NnNnpEjiji )1 ()() 1(1)1 (1)() 1() 1(1)1 (111)1 (111)1 ()1 (1),(cov)(112121211221211221122112212NnnSYYNNNNnnYYYNNNNnnYYNYNnNnnNNnNnYYYNnNnnVYYVYnYVnyVNiNiiNiNiiNiiNiNijNijiNiNijNijiNiNijijNijiiNiiiiiiii)1 ()()()(222NnNnNnNnEEViii25简单随机抽
17、样下,简单估计量简单随机抽样下,简单估计量估计精度影响因素:估计精度影响因素: n估计量的方差估计量的方差 是衡量估计量精度是衡量估计量精度的度量。影响估计量方差的的度量。影响估计量方差的因素因素主要是样本量主要是样本量 。n通常通常N N很大,当很大,当f0.05f0.05时,可将时,可将 近似取为近似取为1 1。 总体方差是我们无法改变的;总体方差是我们无法改变的;因此,在简单随机抽样的条件下,只有通过加大样本因此,在简单随机抽样的条件下,只有通过加大样本量来提高估计量的精度。量来提高估计量的精度。 V yS21 f26 性质性质3 3: 的样本无偏估计为: n证明 : V y v yfn
18、s12niiyyns122)(11212)()(11YynYynnii21212) 1()()(SNNnYYNnYyENiinii2221SnNnNSnfYyE272122)()(11)(YynEYyEnsEnii22) 1(11SnNnNnSNNnn)() 1() 1(2nNNnnNS2S28n大样本下,抽样调查估计量渐进正态大样本下,抽样调查估计量渐进正态 ) 1 , 0()(NS1)(|(SP)(S29【例例2.32.3】n我们从某个我们从某个=100=100的总体中抽出一个大小的总体中抽出一个大小为为=10=10的简单随机样本,要估计总体平均的简单随机样本,要估计总体平均水平并给出置信
19、度为水平并给出置信度为95%95%的区间估计。的区间估计。iiy序号序号12345678910452046615085105011niiyny1111.199172)(11122niiyyns30n由置信度由置信度95%对应的对应的 ,因此,可,因此,可以以以以95%的把握说总体平均水平大约在的把握说总体平均水平大约在 之间,即之间,即2.4295和和7.5705之间。之间。5 yY 72. 11111.19101 . 0112snfYv 3115. 1YvYs96. 1t3115. 196. 1531有放回简单随机抽样有放回简单随机抽样 YyE 2211nSNnNyV 21snyv32二、对
20、总体总量的估计 YNYYiiN1niiynNyNY1 YYE V YN V yNfnS()2221 v YN v yNfns()222133【例例2.42.4】续例续例2.32.3。估计总体总量,并给。估计总体总量,并给出在置信度出在置信度95%95%的条件下,估计的极限相对的条件下,估计的极限相对误差。误差。n在置信度在置信度95%下,下, 的极限相对误差为:的极限相对误差为:5005100Y 172001111.19101 . 011002Yv 1488.131YvYs %41.515141. 05001488.13196. 1YYstY34三、对总体比例的估计 n某一类特征的单元占总体单
21、元数中的比某一类特征的单元占总体单元数中的比例例P.P.n将总体单元按是否具有这种特征划分为将总体单元按是否具有这种特征划分为两类,设总体中有个单元具有两类,设总体中有个单元具有A这个特征,这个特征,如果对每个单元都定义指标值如果对每个单元都定义指标值n Yii10,第 个单元具有所考虑的特征;,否则PANNYYiiN1135n总体方差:总体方差: SNYYiiN22111PQNNPANPAN1)()1 (112236估计量 n n性质性质5 5:对于简单随机抽样,:对于简单随机抽样, 是是 P P 的的无偏估计。无偏估计。 的方差为:的方差为: panpp V pPQnNnN1 v pfnp
22、q1137证明PQNNPANPANS1)()1 (11222pqnns1221)(snfpv v pfnpq1138 【例例2.52.5】 n某超市新开张一段时间之后,为改进销售服务某超市新开张一段时间之后,为改进销售服务环境,欲调查附近几个小区居民到该超市购物环境,欲调查附近几个小区居民到该超市购物的满意度,该超市与附近几个小区的居委会取的满意度,该超市与附近几个小区的居委会取得联系,在总体中按简单随机抽样抽取了一个得联系,在总体中按简单随机抽样抽取了一个大小为大小为=200人的样本,调查发现对该超市购人的样本,调查发现对该超市购物环境表示满意或基本满意的居民有物环境表示满意或基本满意的居民
23、有130位,位,要估计对该超市购物环境持肯定态度居民的比要估计对该超市购物环境持肯定态度居民的比例,并在置信度例,并在置信度95%下,给出估计的近似置下,给出估计的近似置信区间、极限绝对误差。假定这时的抽样比可信区间、极限绝对误差。假定这时的抽样比可以忽略。以忽略。39n95%近似置信区间为近似置信区间为 58.37%,71.63% %65200130nap 001143. 035. 051200111pqnfpv 0338. 0pvps0338. 096. 165. 0402.3 样本量的确定n费用费用n 总费用总费用 固定费用固定费用 可变费用可变费用n nccC10设计费设计费分析费分析
24、费办公费办公费管理费管理费场租费场租费等等访问员费访问员费交通费交通费礼品费礼品费电话费电话费等等41STEPSn所需要的精度所需要的精度n找出样本量与精度之间的关系找出样本量与精度之间的关系n估计所需的数值,求解估计所需的数值,求解 nn如超出预算,调整精度值重新计算如超出预算,调整精度值重新计算42精度精度margin of errorn对精度的要求通常以允许最大绝对误差对精度的要求通常以允许最大绝对误差(绝对误差限)或允许最大相对误差(绝对误差限)或允许最大相对误差( 相对误差限)来表示。相对误差限)来表示。 drPd 1Pr 143样本量足够大时,可用正态分布近似样本量足够大时,可用正
25、态分布近似 tCvStVtr tSVtd变异系数 44Sample Size n0为重复抽样条件下的样本量为重复抽样条件下的样本量Nnnn0012202t Sn 当当N很大时,很大时, 0, n n0,wr与与wor几乎没有区别。几乎没有区别。Nn0220)()(rtcYrtsn45总体参数为总体参数为P P的情形的情形 V pPQnNnN1nPQNnNtpVtd1)(nPQNnNPtPpVtr1)(1112222dPQtNdPQtn111)(2222PrQtNPrQtn46n f0.05 220dPQtn PrQtn220nnnN001147总体方差的估计总体方差的估计n根据预调查数据或以前
26、文献资料根据预调查数据或以前文献资料n根据数据的分布粗略估算根据数据的分布粗略估算S,S,例如全距例如全距/4/4,全距全距/ 6/ 6n对于比例估计,如果对于比例估计,如果P P在在0.50.5附近附近()(),可根据,可根据PQPQ在在P=0.5P=0.5时达到极大值来对样本量进行计算时达到极大值来对样本量进行计算 .48n如果时间允许,且总体在时间上变化不快,调如果时间允许,且总体在时间上变化不快,调查可以分为两步,首先确定一个可以承受的样查可以分为两步,首先确定一个可以承受的样本量,调查后对估计精度进行计算,如果精度本量,调查后对估计精度进行计算,如果精度达到要求,则不再进行下一步,否
27、则,计算为达到要求,则不再进行下一步,否则,计算为达到精度要求所需的样本量,再调查补充样本达到精度要求所需的样本量,再调查补充样本n通过定性分析通过定性分析 ,最好是对总体变异系数进行分最好是对总体变异系数进行分析并估计,因为变异系数通常变化不大析并估计,因为变异系数通常变化不大. .10nnn49样本量设计中的误区样本量设计中的误区 1. 估计精度越高越好吗?估计精度越高越好吗? 简单随机抽样估计比例简单随机抽样估计比例P的样本量与误差(当的样本量与误差(当P=0.5时)时) 样本量样本量 误差误差d 50 0.14 100 0.10 500 0.045 1000 0.032 10000 0
28、.0098 对精度要求的判断十分重要。为得到最小误差而选择最对精度要求的判断十分重要。为得到最小误差而选择最大样本量不是好的选择。大样本量不是好的选择。2202t Sn 502. 样本量与总体规模样本量与总体规模N有关吗?按照总体比例确定样本量合有关吗?按照总体比例确定样本量合适吗?适吗?例:简单随机抽样估计例:简单随机抽样估计P,置信度,置信度95%,允许误差,允许误差5%,在,在P=0.5条件条件下下 总体规模(总体规模(N) 所需样本量(所需样本量(n) 50 44 100 80 500 222 1000 286 5000 370 10000 385 100000 398 1000000
29、 400 10000000 400 51 由此可知,在精度要求相同条件下,在北由此可知,在精度要求相同条件下,在北京市进行一项调查和在全国进行一项调查,样京市进行一项调查和在全国进行一项调查,样本量的差别并不大。本量的差别并不大。 总体规模越大,进行抽样调查的效率越高。总体规模越大,进行抽样调查的效率越高。u 若分类、分区、分层分别进行估计,如何处若分类、分区、分层分别进行估计,如何处理?理?u 对于多项目,如何处理?对于多项目,如何处理?52其他影响因素n1. 所研究问题目标量的个数所研究问题目标量的个数n2. 调查表的回收率调查表的回收率 例如回收率估计为例如回收率估计为80%,则应接触的
30、样本量,则应接触的样本量为计算出所需样本量的为计算出所需样本量的1.25倍;倍;n3.非抽样误差非抽样误差n4.资源限制资源限制n5.有效样本有效样本netc53 定义:简单随机抽样的样本估计量的方差与复杂抽样的样本估定义:简单随机抽样的样本估计量的方差与复杂抽样的样本估 计计 量的方差的比率。量的方差的比率。 Deff Var( )为复杂样本估计量的方差。)为复杂样本估计量的方差。)()(srsDVarVarD2.4 设计效果设计效果(Design effect, Deff)54设计效应设计效应n基什(基什(L. KishL. Kish)提出提出 比较不同抽样方法的效率比较不同抽样方法的效率. . srsV ydeffVy不放回简单随机抽样简单估计量的方差 某个抽样设计在同样样本量条件下估计量的方差。 55 DeffDeff的作用:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国双向拉伸尼龙薄膜项目创业投资方案
- 2025年矿井通风智能监控系统研究的开题报告
- 山东省生态环境监测中心省属事业单位招聘考试真题2024
- 2025赣州市物业管理委托合同
- 广东中山东凤镇党建和组织人事办公室招聘考试真题2024
- 剪辑技能考试试题及答案
- 监测监控考试试题及答案
- 代持协议书 英文
- 基础统计考试试题及答案
- 机场体育考试试题及答案
- 2025年福建省事业单位招聘考试教师招聘体育学科专业知识试卷(体育教学)试题
- 核电站保安考试题及答案
- 2025年绍兴鉴湖酿酒有限公司招聘7人考试模拟试题及答案解析
- 2025内蒙古国贸集团招聘11人考试参考题库及答案解析
- 2025年成考语文试卷及答案
- (完整版)2025年全国自考《马克思主义基本原理概论》真题及答案
- 双减背景下优化作业设计减负增效课件
- 京东考试答案
- 铁路客车空气制动装置单元制动缸检修标准
- 村扶持村集体经济发展试点项目资金参股企业协议书
- bras扁平化方案竞争分析-材料
评论
0/150
提交评论