




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、3.1 引 言一、定义先将总体 N 个单元划分成 L 个互不反复的子总体,每个子总体称为层,它们的大小分别为 然后,在每个层中独立地进展抽样,称为分层抽样.二、作用分层抽样在实践任务中运用的非常广泛,主要是由于它具有其它抽样方法所没有的特点:1.分层抽样的抽样效率较高,也就是说,分层抽样的估计精度较高。2.分层抽样不仅能对总体目的进展推算,而且能对各层目的进展推算。3.层内抽样方法可以不同,而且便于抽样任务的组织。.三、运用场所在对分层进展详细划分时,通常思索如下原那么:1.层内单元具有一样性质,通常按调查对象的不同类型进展划分。2.尽能够使层内单元的标志值相近,层间单元的差别尽能够大。3.既
2、按类型又按层内单元标志值相近的原那么进展多重分层,同时到达实现估计类值以及提高估计精度的目的。4.抽样组织实施的方便,通常按行政管理机构设置进展分层。.四、符号阐明我们用下标h表示层号h=1,2,,L)。关于第h层的记号如下:单元总数:样本单元数:第 i个单元标志值察看值:.单元权数:总体均值:第L层总体方差:.抽样比:样本均值:第L层样本方差:.3.2 简单估计量及其性质一、总体均值的估计1.估计量的定义总体均值的估计:=假设得到的是分层随机样本,那么总体均值的简单估计为:.2.估计量的性质性质一 对于普通的分层抽样,假设是的无偏估计( h=1,2, ,L),那么是的无偏估计。的方差为:V=
3、值得留意的是:只需对各层估计是无偏的,那么对总体的估计也是无偏的。 因此,各层可以采用不同的抽样方法,只需相应的估计量是无偏的,那么对整体的推算也是无偏的。.性质一的证明:由于对每一层有因此.性质二 对于分层简单随机抽样,是的无偏估计,的方差为:.性质二的证明:假设各层独立进展简单随机抽样,对每一层有由第二章性质二得因此.性质三 对于分层随机抽样,的无偏估计为:.性质三的证明:对于分层随机抽样,各层独立进展简单随机抽样,由第二章性质三,得因此,的一个无偏估计为:.二、总体总量的估计1.估计量的定义 总体总量 Y 的估计为:假设得到的是分层随机样本,那么总体总量 Y 的简单估计为:2.估计量的性
4、质由于与只差一个常数,因此,与具有一样的性质。.性质一 对于普通的分层随机抽样,假设是的无偏估计,那么是的无偏估计,的方差为:性质二 对于分层随机抽样,的方差为:=.=性质三 对于分层随机抽样,的无偏估计为:【例3.1】 调查某地域的居民奶制品年消费支出,以居民户为调查单元,根据经济及收入程度将居民户划分为4层,每层按简单随机抽样抽出10户,调查获得如下数据单位:元估计该地域居民奶制品年消费总支出及估计的规范差。数据见下表. 样本户奶制品年消费支出层居民户总数样本户奶制品年消费支出(元)123456789101200104001101510408090024005013060801005516
5、0851601703750180260110014060200180300220415005035150203025103025.由上表,N=2850,各层的层权及抽样比为:),4,3,2,1(,10=hnh.各层样本均值及样本方差为:同理有.因此,估计奶制品年消费总支出为:估计量方差及规范差的样本估计.三、总体比例的估计1.估计量的定义总体比例 P 的估计为:2.估计量的性质 假设定义第 i个单元具有所思索的特征;其他。i=1,2, ,N那么对总体比例的估计类似对总体均值的估计,这时,与具有同样的性质。.的无偏估计h=1,2, ,L),那么性质一 对于普通的分层随机抽样,假设是 P 的无偏估
6、计。的方差为:性质二 对于分层随机抽样,是 P 的无偏估计。证明:留意到及因此的方差为:.性质三 对于分层随机抽样,的无偏估计为V.【例3.2】 在例3.1的调查中,同时调查了居民拥有家庭电脑的情况,获得如下数据单位:台,如表3.2。估计该地域居民拥有家庭电脑的比例及估计的规范差。数据见下表. 样本户拥有家庭电脑情况层居民户总数样本户拥有家庭电脑情况12345678910120000010001002400010000001037501100001010415001000000000表3.2.解:由上表可得该地域居民拥有家庭电脑比例的估计为:估计量的方差为:.3.3 比率估计量及其性质 将比率
7、估计的思想和技术用于分层随机样本时,对总体参数的估计有两种途径: 一种是对每层样本分别思索比估计量,然后对各层的比估计量进展加权平均,此时所得的估计量称为分别估计separate ratio estimator); 另一种是对比率的分子、分母分别加权计算出分层估计量,然后用对应的估计量来构造比估计,这样所得的估计量称为结合比估计combined ratioestimator).1.分别比率估计总体均值总体总量的分层比率估计为:总体均值:总体总量:层权L: 层数为的比率估计,为比率估计.比率估计量的方差:式中,分别为第 i层目的Y,X的方差及相关系数. 分别比率估计量要求每一层的样本量都比较大,
8、否那么,偏倚能够比较大.2.结合比率估计(combined ratio estimator)总体均值:总体总量:式中:表示的无偏估计;表示的无偏估计.均方误差为:.3.分别比率估计量与结合比率估计量的比较普通而言,分别比率估计量的方差小于结合比率估计量的方差。但当每层的样本量不太大时,还是采用结合比率估计量更可靠些,由于这时分别比率估计量的偏倚很大,从而使总的均方误差增大。实践运用时,假设各层的样本量都较大,且有理由以为各层的比率Rh差别较大,那么分别比率估计优于结合比率估计。当各层的样本量不大,或各层比率Rh差别很小,那么结合比率估计更好些。.【例4.4】 某市1996年对950家港口消费单
9、位完成的吞吐量进展了调查,1997年欲对全市港口消费单位完成的吞吐量进展调查。对港口消费单位按非国有(h=1)和国有h=2)分为两层,单位数分别为800家和150家,分别在两层中调查了10家和15家港口消费单位,调查数据如下表,试计算1997年全市港口消费单位完成的吞吐量。1997年国有和非国有企业调查数据如下页.ixiyiixiyi195801495530222021022103203359384336049641201174230400517718056006516253258610008807302349770056083322868110012309272215972082310137
10、97103103901147846512817650139191160141160107015735698.(将上述数据计算的中间结果列于P77的表中)1.按分别比率估计量估计.2.按结合比率估计量估计 按结合比率估计量估计比按分别比率估计量估计要好一些!.三、分别比率估计与结合比率估计的比较详细情况分析参看教材P87.3.4 回归估计量及其性质 与比估计类似,将回归估计的思想和技术用于分层随机抽样时,同样有两种方法: 一种是对每层样本分别求取回归估计量,然后对各层的回归估计量进展加权平均,此时所得的估计量称为分别回归估计separate regression estimator); 另一种是
11、对两个变量先分别计算出分层简单估计量然后再对它们的分层简单估计量来构造回归估计,这时所得的估计量称为结合回归估计 combined regression estimator).1.分别回归估计(separate regression estimator)总体均值的估计:总体总量的估计:. 当各层的回归系数为事先给定的常数时,分别回归估计量是无偏的。其方差为:其中 是第h层的回归系数.并且当时,到达最小,即通常未知,可用回归系数作为的估计:.注 意 1分别回归估计量是有偏的,但当每一层的样本量 都很大时,估计的偏倚可以忽略,其方差近似为:2这里 是子总体的回归系数, 是子总体样本的回归系数,前者
12、是未知的,后者是可知的。.方差的样本估计值为:式中, 分别回归估计量要求每一层的样本量都较大,如果这个条件得不到满足,那么分别回归估计量的偏倚能够很大,这时,采用结合回归估计量更好些。.2.结合回归估计(combined regression estimator)总体均值的估计:总体总量的估计:式中,分别为的分层估计。是无偏的,其方差为:.并且,只需取时,到达最小。当回归系数未知时,取为的样本估计:这时,结合回归估计量是有偏的,但当样本量n较大时,估计的偏倚可以忽略,其方差近似为:.方差的样本估计为:. 分别回归估计与结合回归估计的比较 当回归系数设定时,分别回归估计优于结合回归估计; 当回归
13、系数由样本估计时,假设各层的样本量不太小,采用分别回归估计为宜. 否那么,采用结合回归估计为好! .【例4.6】续例4.4利用回归估计量估计该市港口消费单位1997年完成的吞吐量。解:样本回归系数:h=1,非国有h=2,国有1.070170.856402那么按分别回归估计量估计:见P85.按结合回归估计量估计:(见教材P86 从此题看,结合回归估计量比分别回归估计量要优一些!. 分别比率估计、结合比率估计、分别回归估计和结合回归估计的比较 参看教材P96. 【例3.3】.比率估计与回归估计总结: 在分层随机抽样中,当有辅助变量信息可以利用时,我们可以采用分别比率估计、结合比率估计、分别回归估计
14、以及结合回归估计方法。在选用这些估计量时,要留意以下几个问题: 1、比估计是有偏估计量,当各层样本量都较大时两种比估计都近似无偏;当某些层的样本量不够大,而总样本量较大时,结合比率估计近似无偏。. 2、在回归估计中,假设事先设定回归系数,其估计量无偏;假设用样本回归系数作为回归估计系数,其估计量有偏,但在大样本情况下近似无偏。 3、当主要变量Y和辅助变量X高度相关时,比率估计和回归估计都是有效的,且能大幅度地提高估计精度。.3.3 样本量在各层的分配对于分层抽样,当总的样本量一定时,还需研讨各层应该分配多少样本量的问题,由于对总体推算时,估计量的方差与各层的方差有关,还与各层所分配的样本量有关
15、。一、比例分配这里的比例分配指的是按各层单元数占总体单元数的比例,也就是按各层的层权进展分配,这时对于分层抽样,这时总体均值的估计是:.总体比例 P 的估计是: 这是由于总体中的人一单元,不论它在哪一层,以同样的概率入样,因此按比例分配的分层随机样本,估计量的方式特别简单。这种样本也称为自加权的样本。.二、最优分配1.最优分配假设我们思索简单线性费用函数,总费用那么最优分配是:.证明:作拉格朗日函数,求条件极值:.解得:由此得出下面的准那么: 假设某一层单元数较多,内部差别较大,费用比较省,那么对这一层的样本量要多分配些,.2. Neyman(内曼)分配对于分层随机样本,作为特例,假设每一层的
16、费用一样,即时,最优分配可简化为:这种分配称为Neyman分配.这时,到达最小。.【例3.3】续例3.1假设样本量仍为 n=40 ,那么按比例分配和Neyman分配时,各层的样本量应为多少?见17解:按比例分配时,各层的样本量为:即各层的样本量分别为 3,6,11,20.对于Neyman分配,根据前面计算所得的各层权数和方差,得到:.因此,按Neyman分配时,各层应分配的样本量为:即各层的样本量分别为 3,,.【例3.5】某市有甲、乙两个地域,现进展家庭收入的调查。令n=500,知甲地域共有20000户居民,乙地区共有50000户居民;甲地域居民和乙地域居民年收入规范差估计分别为 ;同时对甲
17、地和乙地每户的平均抽样费用之比为2:3,请分别计算出甲地和乙地进展比例分配、普通最优分配思索费用要素以及内曼分配不思索费用要素的样本量。【解】根据知的数据,经过计算整理可得下表:.h1200000.285725002713.2857505.07632500000.7143200031428.5714823.7861总计700001.0000-2141.85711328.8624关于样本量分配的计算(1) 比例分配。.2普通最优分配.3内曼分配.结果比较 , 对比上面三组结果可以发现: 普通最优分配在乙地所抽取的样本量是最小的。这是由于普通最优分配思索了费用问题,在乙地抽样的单位平均费用较高,所
18、以最优的原那么应是适当添加甲地的样本量,减少乙地的样本量。 普通最优分配和内曼分配在甲地的样本量都比比例分配大,这是由于甲地总体的方差较大。为了保证估计量方差小,子总体方差大的就要多抽些样本,否那么就要少抽样本。.3.某些层要求大于100%抽样时的修正又比较大,那么能够按最优分配计算的这个层的样按最优分配时,能够抽样比较大,某个层的本量超越的情况.假设出现这种情况,那么对该层进展不100%的抽样,即.3.4 样本量确实定1普通公式令其中曾经选定,于是当方差 V给定时,有.得到确定样本量的普通公式为:令那么.2假设按比例分配:将 代入上式可得.内曼分配:将代入上面两式可得:.最优分配:将代入上式
19、可得:.即d: 绝对误差; r:相对误差;t: 规范正态分布的双侧分位数;这时,样本量的普通方式可以表示为:假设估计精度是以误差限的方式给出. 下面将分别给出比例分配、内曼分配和最优分配时的样本量分配方式:.1假设按比例分配:将 代入上式可得.2当按Neyman分配时,.3最优分配时:将代入上式可得:.例3.4续例3.1假设要求在95%置信度下,相对误差不超越10%,那么按比例分配和Neyman分配时,总样本量分别为多少?解:当按比例分配时:由前面的计算结果,可以得到各层的Whs2h。.在95%置信度时,对应的 t =1.96,又因此得到由此可以得到对进展修正,得到修正后的 n .2.最优分配
20、需求思索费用时的情形在最优分配时,假设思索费用为简单线性函数那么由式3.21有:当方差 V 给定时,代入式(3.24)得到样本量为:.3.5 分层时的假设干问题1.抽样效果分析对于固定样本量的情况,假设相对于1可以忽略,那么式中,分别为分层随机抽样最优分配、分层随机抽样按比例分配以及简单随机抽样简单估计的方差。.二、层的划分 既然分层抽样比简单随机抽样效率高,那么如何构造层,构造多少层,才干使分层抽样发扬其效率高的特点呢? 这就涉及最优分层和确定层数的问题。.一最优分层为了提高抽样效率,按调查目的量进展分层当然是最好的,但我们在调查前并不知道 的值,因此分层只能经过与高度相关的辅助目的 来进展
21、.(见P56).(二) 层确实定 当分层是按自然层或单元类型划分时,层数是自然的,但当遇到上述运用累积平方根法进展分层时,就存在层数问题。 在实践任务中,层数普通不超越六层。虽然添加层数可以提高估计精度,但在总费用一定的条件下添加层数必然导致降低样本量,这时就要思索添加层数而降低样本量在精度上能否合算。.三、事后分层 我们普通在抽样之前将总体中的一切单元分好层,但在实践任务中,有时没有层的抽样框,或总体特别大来不及事先分层等缘由.这时我们又想采用分层抽样,就可以采用事后分层. 事后分层要留意的问题(1)要求我们可以经过某种途径知道各层的层大小或层权;(2)层权与实践情况不能相差太大,否那么不能够提高精度;(3)事后分层的层数不宜太多. 事后分层的详细实施方法 先采用简单随机抽样的方法从总体中抽取一个样本量为n的样本,然后对样本中的单元按某种特征进展分层。 假设在容量为n的样本中,落入第h层的样本单元数为 ,有 , 那么此时对总体均值的事后分层估计为:.这里, 下标“pst表示事后分层; 代表落入第h层的第i个 样本单元的目的值。. 实际上,只需n充分大,事后分层估计量是无偏的。且它的方差有如下性质:. 由上式可以看出,第一项就是按比例分配分层抽样估计量的方差,第二项表示因事后分层而非
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 康复医疗器械行业细分领域发展动态与2025年投资策略研究报告
- 新能源汽车的合作伙伴选择试题及答案
- 物流园区仓储设施智能化物流系统设计创新与优化评估报告
- 期中试题规律题及答案
- 开展教育教学反思的必要性试题及答案
- 杀婴心理测试题及答案
- 构建能力框架的2025大学物理试题答案
- 畜牧中职面试题及答案
- 罕见病药物研发激励政策在2025年产业中的实践与探索报告
- 供应链金融在中小企业融资中的金融科技与金融服务创新报告
- 联想EAP案例分析
- 社会工作介入老年社区教育的探索
- 国开电大-工程数学(本)-工程数学第4次作业-形考答案
- 高考倒计时30天冲刺家长会课件
- 施工项目现金流预算管理培训课件
- 时行疾病(中医儿科学课件)
- 街道计生办主任先进事迹材料-巾帼弄潮显风流
- GB/T 32616-2016纺织品色牢度试验试样变色的仪器评级方法
- 部编版小学语文三年级下册第七单元整体解读《奇妙的世界》课件
- 管道支吊架培训教材课件
- 2、工程工质量保证体系框图
评论
0/150
提交评论