版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、3.1 引 言一、定义先将总体 N 个单元划分成 L 个互不重复的子总体,每个子总体称为层,它们的大小分别为 然后,在每个层中独立地进行抽样,称为分层抽样.二、作用用分层抽样样在实际际工作中中应用的的非常广广泛,主主要是因因为它具具有其它它抽样方方法所没没有的特点:1.分层抽样的抽样效率较高,也就是说,分层抽样的估计精度较高。2.分层抽样不仅能对总体指标进行推算,而且能对各层指标进行推算。3.层内抽样方法可以不同,而且便于抽样工作的组织。三、使用场合在对分层进行具体划分时,通常考虑如下原则:1.层内单元具有相同性质,通常按调查对象的不同类型进行划分。2.尽可能使层内单元的标志值相近,层间单元的
2、差异尽可能大。3.既按类型又按层内单元标志值相近的原则进行多重分层,同时达到实现估计类值以及提高估计精度的目的。4.抽样组织实施的方便,通常按行政管理机构设置进行分层。四、符号号说明我们用下下标h表示层号号(h=1,2,,L)。关于第h层的记号号如下:单元总数:样本单元数:第 i个单元标志值(观察值):单元权数:总体均值:第L层总体方差:抽样比:样本均值:第L层样本方差:3.2简单估计计量及其其性质一、总体体均值的的估计1.估计量的定义总体均值的估计:=如果得到的是分层随机样本,则总体均值的简单估计为:2.估计量的的性质性质一 对于一般的分层抽样,如果是的无偏估计( h=1,2, ,L),则是
3、的无偏估计。的方差为:V()=值得注意意的是:只要对各各层估计计是无偏偏的,则则对总体的估估计也是是无偏的的。因此,各各层可以以采用不不同的抽抽样方法法,只要要相应的的估计量量是无偏偏的,则则对整体体的推算算也是无无偏的。性质一的的证明:由于对每每一层有有因此性质二 对于分层简单随机抽样,是的无偏估计,的方差为:性质二的的证明:若各层独独立进行行简单随随机抽样样,对每一层层有由第二章章性质二二得因此性质三对于分层层随机抽抽样,的无偏估计为:性质三的的证明:对于分层层随机抽抽样,各层独立立进行简单随机机抽样,由第二章章性质三三,得因此,的一个无无偏估计计为:二、总体体总量的的估计1.估计量的的定
4、义总体总量量Y的估计为为:如果得到到的是分分层随机机样本,则总体总总量Y的简单估估计为:2.估计量的的性质由于与只差一个常数,因此,与具有相同的性性质。性质一 对于一般的分层随机抽样,如果是的无偏估计,则是的无偏估计,的方差为:性质二 对于分层随机抽样,的方差为:=性质三 对于分层随机抽样,的无偏估计为:【例3.1】 调查某地区的居民奶制品年消费支出,以居民户为调查单元,根据经济及收入水平将居民户划分为4层,每层按简单随机抽样抽出10户,调查获得如下数据(单位:元)估计该地区居民奶制品年消费总支出及估计的标准差。(数据见见下表)样本户奶奶制品年年消费支支出层居民户总数样本户奶制品年消费支出(元
5、)1234567891012001040011015104080900240050130608010055160851601703750180260110014060200180300220415005035150203025103025由上表,N=2850,各层的层权及抽样比为:),4,3,2,1(,10=hnh各层样本本均值及及样本方方差为:同理有因此,估计奶制制品年消消费总支支出为:估计量方方差及标标准差的的样本估估计三、总体体比例的的估计1.估计量的的定义总体比例例P的估计为为:2.估计量的的性质如果定义义第 i个单元具有所考虑的特征;其他。(i=1,2,N)则对总体体比例的的估计类类
6、似对总总体均值值的估计计,这时时,与具有同样的性质。的无偏估计计(h=1,2,L),则性质一 对于一般的分层随机抽样,如果是 P 的无偏估计。的方差为为:性质二 对于分层随机抽样,是 P 的无偏估计。证明:注意到及因而的方差为:性质三 对于分层随机抽样,的无偏估计为V()【例3.2】在例3.1的调查中中,同时时调查了了居民拥拥有家庭庭电脑的的情况,获得如如下数据据(单位位:台),如表表3.2。估计该该地区居居民拥有有家庭电电脑的比比例及估估计的标标准差。(数据见见下表)样本户拥拥有家庭庭电脑情情况层居民户总数样本户拥有家庭电脑情况12345678910120000010001002400010
7、000001037501100001010415001000000000表3.2解:由上表可可得该地区居居民拥有有家庭电电脑比例例的估计计为:估计量的的方差为为:3.3比率估计计量及其其性质将比率估估计的思思想和技技术用于于分层随随机样本本时,对对总体参数数的估计计有两种种途径:一种是对对每层样样本分别别考虑比比估计量量,然后后对各层层的比估估计量进进行加权权平均,此时所得得的估计计量称为为分别估计计(separateratioestimator);另一种是是对比率率的分子子、分母母分别加加权计算算出分层层估计量量,然后后用对应应的估计计量来构构造比估估计,这这样所得得的估计计量称为为联合比估
8、估计(combinedratioestimator).1.分别比率率估计总体均值总体总量的分层比率估计为:总体均值:总体总量:层权L:层数为的比率估计,为比率估计比率估计计量的方方差:式中,分别为第 i层指标Y,X的方差及相关系数.分别比率率估计量量要求每每一层的的样本量量都比较大大,否则,偏倚可能能比较大大.2.联合比率率估计(combinedratioestimator)总体均值值:总体总量量:式中:表示的无偏估计;表示的无偏估计.均方误差为:3.分别比率率估计量量与联合合比率估估计量的的比较一般而言言,分别别比率估估计量的的方差小小于联合合比率估估计量的的方差。但当每每层的样样本量不不太
9、大时时,还是是采用联联合比率率估计量量更可靠靠些,因因为这时时分别比比率估计计量的偏偏倚很大大,从而而使总的的均方误误差增大大。实际使用用时,如如果各层层的样本本量都较较大,且且有理由由认为各各层的比比率Rh差异较大大,则分分别比率率估计优优于联合合比率估估计。当当各层的的样本量量不大,或各层层比率Rh差异很小小,则联联合比率率估计更更好些。【例4.4】某市1996年对950家港口生生产单位位完成的的吞吐量进进行了调调查,1997年欲对全全市港口口生产单单位完成成的吞吐吐量进行行调查。对港口口生产单单位按非非国有(h=1)和国有(h=2)分为两层层,单位位数分别别为800家和150家,分别别在
10、两层层中调查查了10家和15家港口生生产单位位,调查数据据如下表表,试计计算1997年全市港港口生产产单位完完成的吞吞吐量。1997年国有和和非国有企企业调查数据如如下页ixiyiixiyi19580149553022202102210320335938433604964120117423040051771805600651625325861000880730234977005608332286811001230927221597208231013797103103901147846512817650139191160141160107015735698(将上述数数据计算算的中间间结果列列于P
11、77的表中)1.按分别比比率估计计量估计计2.按联合比比率估计计量估计计按联合比比率估计计量估计比按按分别比比率估计计量估计要要好一些些!三、分别别比率估估计与联联合比率率估计的的比较具体情况况分析参参看教材材P873.4回归估计计量及其其性质与比估计计相似,将回归归估计的的思想和和技术用用于分层层随机抽抽样时,同样有有两种方方法:一种是对对每层样样本分别别求取回回归估计计量,然然后对各各层的回回归估计计量进行行加权平平均,此此时所得得的估计量称称为分别回归归估计(separateregression estimator);另一种是是对两个个变量先先分别计计算出分分层简单单估计量量然后再再对它
12、们们的分层层简单估估计量来来构造回回归估计计,这时时所得的的估计量量称为联合回归归估计(combinedregressionestimator).1.分别回归归估计(separateregressionestimator)总体均值的估计:总体总量的估计:当各层的回归系数数为事先先给定的的常数时时,分别回归归估计量量是无偏偏的。其方差为:其中 是第h层的回归系数并且当时,达到最小,即通常未知,可用回归系数作为的估计:注 意 (1)分别回归估计量是有偏的,但当每一层的样本量 都很大时,估计的偏倚可以忽略,其方差近似为:(2)这里 是子总体的回归系数, 是子总体样本的回归系数,前者是未知的,后者是可
13、知的。方差的样本估计值为:式中,分别回归归估计量量要求每每一层的的样本量量都较大大,如果这个条条件得不不到满足足,则分别回回归估计计量的偏偏倚可能很大大,这时,采用联合合回归估估计量更更好些。2.联合回归归估计(combinedregressionestimator)总体均值的估计:总体总量的估计:式中,分别为的分层估计。是无偏的,其方差为:并且,只只要取时,达到最小。当回归系数未知时,取为的样本估计:这时,联合回归估计量是有偏的,但当样本量n较大时,估计的偏倚可以忽略,其方差近似为:方差的样本估计为:分别回归归估计与与联合回回归估计计的比较较当回归系系数设定定时,分别回归归估计优优于联合回归
14、归估计;当回归系系数由样样本估计计时,如果各层层的样本量不太太小,采用分别回归归估计为为宜.否则,采用联合合回归估估计为好好!【例4.6】(续例4.4)利用回归估计量估计该市港口生产单位1997年完成的吞吐量。解:样本回归归系数:h=1,非国有h=2,国有1.070170.856402则按分别回归归估计量量估计:(见P85)按联合回归估计计量估计计:(见教材P86)从本题看看,联合回归归估计量量比分别别回归估估计量要要优一些些!分别比率率估计、联合比比率估计计、分别别回归估计和联联合回归归估计的的比较(参看教材材P96. 【例3.3】)比率估计计与回归归估计总总结:在分层随随机抽样样中,当当有
15、辅助助变量信信息可以以利用时,我我们可以以采用分分别比率率估计、联合比比率估计计、分别回归归估计以以及联合合回归估估计方法法。在选选用这些些估计量时时,要注注意以下下几个问问题:1、比估计计是有偏偏估计量量,当各各层样本本量都较较大时两种比估估计都近近似无偏偏;当某某些层的的样本量量不够大大,而总样本本量较大大时,联联合比率率估计近近似无偏偏。2、在回归归估计中中,若事事先设定定回归系系数,其其估计量量无偏;若若用样本本回归系系数作为为回归估估计系数数,其估估计量有偏,但在大大样本情情况下近近似无偏偏。3、当主要要变量Y和辅助变变量X高度相关关时,比比率估计和回归归估计都都是有效效的,且且能大
16、幅幅度地提提高估计计精度。3.3样本量在在各层的的分配对于分层层抽样,当总的的样本量量一定时时,还需需研究各各层应该该分配多多少样本本量的问问题,因因为对总总体推算算时,估估计量的的方差与与各层的的方差有有关,还还与各层层所分配配的样本本量有关关。一、比例分配配这里的比比例分配配指的是是按各层层单元数数占总体体单元数数的比例例,也就就是按各各层的层层权进行行分配,这时对于分层抽样,这时总体均值的估计是:总体比例例P的估计是是:这是因为为总体中中的人一一单元,不管它它在哪一一层,以以同样的的概率入入样,因因此按比例分分配的分分层随机机样本,估计量量的形式式特别简简单。这这种样本本也称为为自加权权
17、的样本本。二、最优分配配1.最优分配配如果我们们考虑简简单线性性费用函函数,总费用则最优分配配是:证明:作拉格朗朗日函数数,求条件极极值:解得:由此得出出下面的的准则:如果某一一层单元元数较多多,内部部差异较较大,费费用比较较省,则对这一一层的样样本量要要多分配配些,2.Neyman(内曼)分配对于分层层随机样样本,作为特例例,如果每一一层的费用相同,即时,最优分配可简化为:这种分配称为Neyman分配.这时,达到最小。【例3.3】续例3.1如果样本量仍为 n=40 ,则按比例分配和Neyman分配时,各层的样本量应为多少?(见17)解:按比例分分配时,各层的样样本量为为:即各层的的样本量量分
18、别为为3,6,11,20.对于Neyman分配,根据前面面计算所所得的各各层权数和方方差,得到:因此,按Neyman分配时,各层应应分配的的样本量量为:即各层的的样本量量分别为为3,,.【例3.5】某市有甲、乙两个地区,现进行家庭收入的调查。令n=500,已知甲地区共有20000户居民,乙地区共有50000户居民;甲地区居民和乙地区居民年收入标准差估计分别为 ;同时对甲地和乙地每户的平均抽样费用之比为2:3,请分别计算出甲地和乙地进行比例分配、一般最优分配(考虑费用因素)以及内曼分配(不考虑费用因素)的样本量。【解】根据已知知的数据据,通过过计算整整理可得下表:h1200000.2857250
19、02713.2857505.07632500000.7143200031428.5714823.7861总计700001.0000-2141.85711328.8624关于样本本量分配配的计算算(1) 比例分配。(2)一般最最优分配配(3)内曼分分配结果比较较 ,对比上面面三组结结果可以以发现:一般最优优分配在在乙地所所抽取的的样本量量是最小小的。这是因为为一般最最优分配配考虑了了费用问问题,在在乙地抽抽样的单单位平均均费用较较高,所所以最优优的原则则应是适适当增加加甲地的的样本量量,减少少乙地的的样本量量。一般最最优分配配和内曼曼分配在在甲地的的样本量量都比比比例分配配大,这这是因为为甲地总
20、总体的方方差较大大。为了了保证估估计量方方差小,子总体体方差大大的就要要多抽些些样本,否则就就要少抽抽样本。3.某些层要要求大于于100%抽样时的的修正又比较大,则可能按最优分配计算的这个层的样按最优分配时,可能抽样比较大,某个层的本量超过的情况.若出现这这种情况况,则对该层层进行不不100%的抽样,即3.4样本量的的确定(1)一般公公式令其中已经选定,于是当方差 V给定时,有得到确定样本量的一般公式为:令则(2)若按比例分配:将 代入上式可得()内内曼分配配:将代代入上上面两式式可得:()最优分配:将代入上式可得:即d:绝对误差差;r:相对误误差;t:标准正态态分布的的双侧分位数;这时,样样
21、本量的的一般形形式可以以表示为为:如果估计计精度是是以误差差限的形形式给出出下面将分分别给出出比例分分配、内内曼分配配和最优分配时时的样本本量分配配形式:(1)若按比例分配:将 代入上式可得(2)当按Neyman分配时,(3)最优分配时:将代入上式可得:例3.4(续例3.1)如果要要求在95%置信度下下,相对对误差不不超过10%,则按比比例分配配和Neyman分配时,总样本本量分别别为多少少?解:当按按比例分分配时:由前面的的计算结结果,可可以得到到各层的的Whs2h。在95%置信度时时,对应应的t =1.96,又因此得到到由此可以得到对进行修正,得到修正后的 n 2.最优分配配需要考考虑费用
22、用时的情情形在最优分配配时,如如果考虑费用用为简单单线性函函数则由式(3.21)有:当方差V给定时,代入式(3.24)得到样本本量为:3.5分层时的的若干问问题1.抽样效果果分析对于固定样本量的情况,如果相对于1可以忽略略,则式中,分别为分层随机抽样最优分配、分层随机机抽样按按比例分分配以及简单单随机抽样样简单估计计的方差差。二、层的的划分既然分层层抽样比比简单随随机抽样样效率高高,那么么如何构造层,构造多多少层,才能使使分层抽抽样发挥挥其效率率高的特点呢呢?这就涉及及最优分分层和确确定层数数的问题题。(一)最最优分层层为了提高抽样效率,按调查目标量进行分层当然是最好的,但我们在调查前并不知道
23、 的值,因此分层只能通过与高度相关的辅助指标 来进行.(见P56)(二)层的确定定当分层是是按自然然层或单单元类型型划分时时,层数是自自然的,但当遇到到上述运运用累积积平方根根法进行行分层时时,就存在层层数问题题。在实际工工作中,层数一一般不超超过六层层。虽然然增加层层数可以以提高估估计精度度,但在在总费用用一定的的条件下下增加层层数必然然导致降降低样本本量,这这时就要要考虑增增加层数数而降低低样本量量在精度度上是否否合算。三、事后后分层我们一般般在抽样样之前将总体中中的所有有单元分分好层,但在实际际工作中中,有时没有层的的抽样框框,或总体特特别大来来不及事事先分层层等原因因.这时我们们又想采
24、采用分层层抽样,就可以采采用事后后分层.事后分层层要注意意的问题题(1)要求我们们可以通通过某种种途径知知道各层的层大大小或层层权;(2)层权与实实际情况况不能相相差太大大,否则不可能提提高精度度;(3)事后分层层的层数数不宜太太多. 事后分层的具体实施办法 先采用简单随机抽样的方法从总体中抽取一个样本量为n的样本,然后对样本中的单元按某种特征进行分层。 假设在容量为n的样本中,落入第h层的样本单元数为 ,有 , 则此时对总体均值的事后分层估计为:这里, 下标“pst”表示事后分层; 代表落入第h层的第i个 样本单元的指标值。理论上,只要n充分大,事后分分层估计计量是无无偏的。且它的的方差有有如下性性质:由上式可可以看出出,第一一项就是是按比例例分配分分层抽样样估计量量的方差差,第二二项表示示因事后后分层而而非事先先按比例例分配分分层引起起的方差差增加量量。由此此看出,只要样样本量足足够大,事后分分层的精精度与比比例分配配事先分分层的精精度
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- (正式版)DB37∕T 779-2016 《黄金选矿耗电限额-规范性审查稿》
- 安防监控维保方案
- 儿科护理学前沿进展
- 人卫版生命支持技术护理课件
- 山东省邹平双语校2026年新初三开学摸底考(全国I卷)数学试题含解析
- 河北省秦皇岛市青龙县市级名校2026年初三下学期第三次质量检测试题英语试题理试卷含解析
- 浙江省桐乡市实验中学2026年初三第二学期英语试题统练(8)含解析
- 学校保密工作细则
- 国足热点营销方案(3篇)
- 单人答题活动方案策划(3篇)
- 公路工程项目首件工程认可制监理实施细则
- 2025年四川省高考化学真题卷含答案解析
- 公路水运工程施工企业(主要负责人和安全生产管理人员)考核大纲及模拟题库
- 2025-2030中国尿液诊断行业现状调查与未来发展方向研究研究报告
- 2026年及未来5年中国云南省酒店行业市场深度分析及投资战略规划研究报告
- 疲劳驾驶安全学习培训内容课件
- 2025年电商直播技巧培训课件
- 112.《5G地铁隧道网络优化考试卷》
- 高速五轴翻板铣加工中心 精度检验
- 中国人民保险集团股份有限公司2026届校园招聘考试题库附答案
- 鸿蒙应用开发(高级)认证实践能力题库
评论
0/150
提交评论