版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、4.1 整群抽样,一、整群抽样的定义与特点,1.整群抽样的定义 整群抽样是将整体划分为若干群,然后 以群为抽样单元,从总体中随机抽取一部分群,对抽中的群中的所有基本单元进行调查的一种抽样技术。 2.整群抽样的优点 (1)抽样框编制得以简化 (2)实施调查便利,节约费用 3.整群抽样的缺点:抽样误差较大。,1,学习交流PPT,二、群的划分,整群抽样中的群大致可分为两类: 一类是根据行政或地域形成的群体,如学校企业和街道,对此采用整群调查是为了方便调查,节约费用。 另一类群则是调查人员人为确定的,如将一大块面积划分若干块较小面积的群,这时就需要考虑如何划分群,以使在相同调查费用下调查误差最小。,2
2、,学习交流PPT,群划分的一般原则 为了提高精度,划分群时应力争使同一群内各单元之间的差异尽可能大,以避免同一群内各单元提供重复信息.这个原则与分层抽样中划分层的原则恰好相反.由此看来,整群抽样和分层抽样是针对不同总体结构而提出的两种不同抽样方法.,3,学习交流PPT,三、群的规模,群的规模是指组成群的单元的数量。 群的规模大,估计的精度差,但费用省; 群的规模小,估计的精度可以提高但费用增大。 实践中,确定群的规模涉及多种因数,如群的具 体 结构、精度、费用、调查实施的组织管理等。 群的规模又有两种情况:一种是总体中的各个群 规模相等;另一种是总体中各个群的规模不相等。,4,学习交流PPT,
3、四、附号说明,总体第 i 群中第 j个单元的指标值:,样本第 i 群中第 j个单元的观测值:,总体群(PSU)数:N 样本群数:n 第i个群中的单元(SSU)数量:,总体中单元总数:,5,学习交流PPT,总体中第i群的群总值:,样本中第i群的群总值:,总体中第i群的个体均值:,样本中第i群的群均值:,总体中的群均值:,样本中的群均值:,6,学习交流PPT,总体中的个体均值:,总体方差:,样本方差:,7,学习交流PPT,总体群间方差:,样本群间方差:,8,学习交流PPT,总体中第i个群群内方差:,样本第i个群群内方差:,9,学习交流PPT,群规模相等时整群抽样样本群内方差:,群规模相等时整群抽样
4、总体群内方差:,10,学习交流PPT,4.2 等概率整群抽样,在N个初级抽样单元中,第i个初级单元含 个二级抽样单元。对于整群抽样而言,被抽中的群中所有二级单元全部入样。 我们先考虑最简单的情形:每个群所包含的单元数M相等,称为群规模相等。(实际问题中只要群规模接近,也可视为群规模相等)。 在群规模相等的情况下,整群抽样一般采用简单随机抽样方法抽取群,这时对总体均值的估计十分简单。,11,学习交流PPT,一、群规模相等时的估计,1、均值估计量 及其方差 若按简单随机抽样,且群的大小相等,都等于 M ,则对总体 均值的估计为:,12,学习交流PPT,定理4.1 是 的无偏估计,即,这样的结果是显
5、然的,因为是按简单随机 方法抽取群,所以样本群均值 是总体群均 值 的无偏估计,因而,13,学习交流PPT,证明:因为,所以,定理4.2 的方差为:,14,学习交流PPT,15,学习交流PPT,下面我们看一个整群抽样的例题,16,学习交流PPT,【例4.11】 在一次对某中学在校生零花钱的调查 中,以宿舍作为群进行整群抽样,每个宿舍都有M=6 名学生。用简单随机抽样在全部N=315间宿舍中抽取 n=8间宿舍。全部48个学生上周每人的零花钱 及 相关计算数据如下表。试估计该学校学生平均每周 的零花钱 ,并给出其95%置信区间。,17,学习交流PPT,8个宿舍48名学生每周零花钱支出额,18,学习
6、交流PPT,解:已知 故,19,学习交流PPT,下面计算估计量方差的估计值:,于是置信度为95%的置信区间为98.171.964.34, 也即89.66元,106.68元】,20,学习交流PPT,2、整群抽样效率分析,在整群抽样中,由于 估计量的方差主要依赖群间的变异性。因此 整群抽样中 较大,则整群抽样就会损失精度。 下面我们用方差分析表来讨论这一问题。,21,学习交流PPT,群规模相等时的整群抽样 总体方差分析表,22,学习交流PPT,我们将整群抽样与简单随机抽样的效率进行比较,假设直接从总体中抽取一个样本容量为nM的简单随机样本,则样本均值的方差为:,但如果该整体被等分为N个规模为M的群
7、,定义 为群内相关系数,描述同一群内成对个体单元之间 的相关程度,其表达式为:,23,学习交流PPT,根据组合及平均值的计算, 又可表示为:,24,学习交流PPT,事实上,前面提到的 可以用群内相关系数 近似表示:,25,学习交流PPT,由此,可以计算等群抽样的设计效应:,这表明,整群抽样的方差约为简单随机抽样方差的 倍,26,学习交流PPT,整群抽样估计效应与群内相关系数 关系密切,,若群内各单元的值都相等,则群内方差,量方差是简单随机抽样估计量方差的倍。,27,学习交流PPT,因此,要提高整群抽样的效率,就要通过分群,间的差异实现的。,对于自然形成的群而言,无法通过调整群内单元 而控制的
8、取值。这时,要想减少抽样误差,就只能 增大样本容量。,28,学习交流PPT,另外,群内相关系数 也可以用群内方差 和群间方差 表示,并由样本统计量 估计:,29,学习交流PPT,【例 4.2】 估计例4.1中以宿舍为群的群内相关系数 与设计效应.,解:由例4.1已计算出样本群间方差 而样本群内方差为:,30,学习交流PPT,由相关系数的估计式有,设计效应2.741表明,在这项调查中,为达到 同样的估计精度,整群随机抽样的样本量大约为 简单随机抽样样本量的2.74倍而此时简单随机 抽样的样本量为:,31,学习交流PPT,1、等概抽样,简单估计,此时,不考虑群规模不等的影响,抽样方法与,前节群规模
9、相等时相同,估计方法也相同,即采 用简单,随机抽样。对总体均值 的估计为:,二、群规模不等时的估计,32,学习交流PPT,的方差估计为:,33,学习交流PPT,2、等概抽样,加权估计,基本思路:以群规模 为权数,乘以各群,将样本中n个群的群总和平均。,估计公式为:,34,学习交流PPT,如果总体群平均规模 未知,可以用样本群,个体单元总数.,总体总值估计量 的方差:,35,学习交流PPT,它的无偏估计为:,对均值估计 而言:,与简单估计相比,加权估计的方法考虑了群规模,所以估计量 分别是 的无偏估计.,36,学习交流PPT,3、等概抽样,比率估计,总体均值采用比率估计的形式为:,与第三章比率估
10、计的区别在于,这里的辅助变量,可知,它是一个有偏的.当样本群数 n 很大时,其,不是 ,而是群的规模 .从比率估计量的性质可,偏倚很小,可以忽略。,总体总值 Y 的比率估计为:,37,学习交流PPT,38,学习交流PPT,的样本估计为:,的样本估计为:,39,学习交流PPT,4、例题和方法比较,【例4.3】某县有33个乡,共726个村,某一年度某作物总种植面积为30 525亩。现采用等概抽样随机抽取十个乡进行该种作物的产量调查(调查数据如下表)。要求利用无偏估计量和比率估计量分别估计全县总产量,并计算估计量的标准差。,40,学习交流PPT,10个乡调查数据,41,学习交流PPT,(1)无偏估计
11、(等概抽样,简单估计),计算平均每个村的产量为:,因此,,=966.19,评价:此种方法的估计过程虽不复杂,但却是有偏估计.,42,学习交流PPT,(2)无偏估计(等概抽样,加权估计),评价:此种方法虽可获得无偏估计,但与前种方法相比, 估计量的估计方差没有改观,反而有所增大.这种方法 适合于 之间差异不大的整群抽样.,43,学习交流PPT,(3)以群规模为辅助变量的比率估计,评价:比率估计将群规模作为辅助变量引入估计,其估计 方差取决于群均值 的差异. 的差异比 的差异要稳 定,所以比率估计比前两种方法获得更好的估计效果.,44,学习交流PPT,(4)种植面积为辅助变量的比率估计,已知全县该
12、作物的种植面积总共有X=30525亩,采用 种植面积为辅助变量的估计结果为:,评价:与前面几种方法相比,估计量的估计误差最小, 估计效果最好.究其原因,作物的乡产量 不仅与 该乡规模 有关,更与该乡的种植面积 有关.,45,学习交流PPT,【补充】 总体比例的估计,一、群规模相等的估计,与群规模相等时均值估计的方法相同,因为比 例也是均值。即,由 P118 的(6.1)式,用,表示第群中具有某种特征的单元数。,是总体比例P的无偏估计。,46,学习交流PPT,为样本中第 i群具有某特征单元数的比例;,M 为每群中的单元数。,估计量的方差为:,的无偏估计为:,47,学习交流PPT,二、群规模不等的
13、估计,若群规模 不等,仍采用简单随机抽样抽取 群,则总体比例的估计量为:,根据比例估 计的性质,其估 计量的方差为:,48,学习交流PPT,的估计式为:,49,学习交流PPT,【例6.5】某居民小区有415个居民小组,现采用整群 等概抽样,随机抽取25个小组为样本,调查中的一项内 容为估计男、女性别比例,下表资料为样本中女性的分 布。试用95%的置信度估计该小区女性比例的致信区间, 并用简单随机抽样方法进行比较。,总体比例 估计例题,50,学习交流PPT,25个居民小组人数及女性人口数,51,学习交流PPT,解:这是群规模不等的比例估计 总体比例的估计为:,由于总体的 未知,用样本 替代得,5
14、2,学习交流PPT,故置信区间为:,如果采用简单随机抽样方法,从该小区中抽取 151人,假定调查结果与上表相同,即其中女性人数 为72人,抽样比f也假定相同,则估计量的估计方差 为:,53,学习交流PPT,于是可以计算设计效应,这表明,在次项内容的调查中,整群抽样的估计 效果明显地好于简单随机抽样。,54,学习交流PPT,4.3 等概率两阶段抽样,一、多阶段抽样 前面提到的整群抽样虽然有很多优点,但是由于群内单元通常具有相似性(表现为群内相关系数大于零)。尤其是当群比较大时,人们自然会想 到没有必要对群内所有单元都进行调查,而只要对群内单元进行再抽样,对被抽中的单元进行调查,这就是两阶段抽样。
15、同样的道理,还可以有三阶段抽样、四阶段抽样等,我们统称为多阶段抽样。,55,学习交流PPT,多阶段抽样的优点,(1)多阶段抽样保持了整群抽样的样本比较集中、 便于调查、节约费用等优点。同时又避免了对 小单元过多调查造成的浪费。 (2)多阶段抽样不需要编制所有小单元的样本框。 抽取初级单元时,只需要编制初级单元的抽样 框,对被抽中的初级单元,再去编制二级单元 的抽样框,依此类推。,56,学习交流PPT,二、抽样方法与推断原理 多阶段抽样时,每一个阶段的抽样可以相同,也可以不同。它通常与分层抽样、整群抽样、系统抽样结合使用。多阶段抽样时,抽样是分步进行的,因此,讨论估计量的均值及其方差时,需要分阶
16、段进行,这要用到下面的性质。,57,学习交流PPT,对于两阶段抽样,有,式中, 为在固定初级单元时对第二阶 抽样求均值和方差; 为对第一阶抽样 求均值和方差。,证明见教材P148,58,学习交流PPT,上述性质可以推广到多阶段抽样的情形,例如 对于三阶段抽样,有,59,学习交流PPT,三、等概率两阶段抽样的符号说明,初级单元和初级单元拥有的二级单元个数:N,M 第一阶段和第二阶段抽样的样本量:n ,m 第i个初级单元中的第j个二级单元的观测值: 样本中第i个初级单元中的第j个二级单元的观测值:,60,学习交流PPT,第一阶段和第二阶段的抽样比:,第i个初 级 单 元 按 二级单元的平均 值:,
17、按二级单元的平均值:,初级单元间的方差:,61,学习交流PPT,初级单元内的方差:,由 的表达式可知,若记,则有,即 是 的平均值。同理有,62,学习交流PPT,四、初级单元大小相等的二阶抽样,第一阶段在总体N个初级单元中,以简单随机抽样抽取n个初级单元,第二阶段在被抽中的初级单元包含的M个二级单元中,以简单随机抽样抽取m个二级单元,即最终接受调查的单元。,例如:某个新开发的小区拥有相同户型的15个单元的楼盘,居民已经陆续搬入新居,每个单元住有12户居民,为调查居民家庭装修情况,准备从180户居民户中抽取20户进行调查。如下表:,63,学习交流PPT,64,学习交流PPT,表中红字为抽中的房号
18、 . 在这里,初级单元(楼盘)有15个,每个初级单元拥有二级单元(居民户)12个。首先将初级单元从1到15编号,在15初级单元中随机抽取5个单元,分别是1,6,9,12,13号;然后在被抽中的初级单元中,进行第二次抽样,即分别在抽取的5个楼盘中随机抽取4户。这就是初级单元规模相等的两阶段抽样。,65,学习交流PPT,规模相等两阶段抽样的估计量及其性质,(1)总体均值的估计 定理4.5 对于初级单元大小相等的二阶抽样, 如果两个阶段都是简单随机抽样,且对每个 初级单元,第二阶抽样是相互独立进行的, 则对总体均值 的无偏估计为:,66,学习交流PPT,总体均值估计量方差为:,的无偏估计为:,式中,
19、67,学习交流PPT,【例4.4】欲调查4月份100家企业的某项指标,首先 从100家企业中抽取了一个有板有5家样本企业的简单随 机样本,调查人员对5家企业分别在调查月内随机抽取3 天作为调查日,要求样本企业只填写这3天的流水帐。 调查的结果如下。,要求根据这些数据推算不100家企业该指标的总量,并 给出估计的95%置信区间。,68,学习交流PPT,解 将企业作为初级单元,将每一天看着二级单元。 调查月内拥有30天(即拥有30个二级单元)。,首先在初级单元中抽取一个n=5的简单随机样本再 对每个样本的二级单元分别独立抽取一个m=3的简单 随机样本,由题意,N=100,M=30,n=5, m=3
20、,首先计算样本初级单元的均值 、方差 :,69,学习交流PPT,于是得到:,70,学习交流PPT,置信度为95%的置信区间为:1608001.969216 在上面的方差估计式中,第一项是主要的,第二项 要小得多!,71,学习交流PPT,五、初级单元规模不等的二阶抽样,一般而言,初级单元的大小是不相等的,如果按初 级单元的大小分层后,层内初级单元的大小差别仍很大, 则需用本节介绍的方法来处理二阶抽样的问题。当初级 单元大小不等时,一般采用不等概抽样。,1、符号说明,总体中初级单元个数及第一阶抽取的样本量:N,n,第i个初级单元中二级单元数:,第i个初级单元中第二阶抽样的样本量:,第i个初级单元中
21、第j个二级单元的观测值:,样本中第i个初级单元中第j个二级单元的观测值:,72,学习交流PPT,第一阶和第二阶的抽样比:,二级单元个数:,指标总和:,第i个初级单元指标总和:,第i个初级单元按二级单元的平均值:,73,学习交流PPT,按二级单元的平均值:,初级单元间的方差:,第i个初级单元二级单元间的方差:,74,学习交流PPT,对初级单元进行简单随机抽样,如果二阶抽样中每个阶段都采用简单随机抽样,并且每个初级单元中二级单元的抽样是相互独立的,则对总体总和的估计可以采用简单估计,也可以考虑采用比率估计。,2.简单估计量 对总体总和的简单估计为:,可以证明这个估计量是无偏的,并 且它的方差为:,75,学习交流PPT,的一个无偏估计为:,式中,,76,学习交流PP
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 海上运输安全操作规程与指南
- 业务合作伙伴信赖支持承诺书3篇
- 2026年养老院适老化改造整体规划与实施方案
- 2026年医院搬迁精密医疗设备拆装与运输技术方案
- 2021-2022学年浙江省宁波市余姚市高风中学七年级(上)期中数学试卷-带答案详解
- 2023-2024学年人教版小学数学五年级下册《期末试卷》试题(含答案)一
- 国外佣金代理协议书版本
- 养殖业合作协议书
- 更换牌匾施工方案(3篇)
- 工会阅读活动策划方案(3篇)
- DRG付费下医院肾内科运营策略
- T-CECA 20011-2021 含铁含锰地下水接触氧化法给水处理技术规程
- 商铺销售协议书模板
- 2026年安阳职业技术学院单招职业适应性测试必刷测试卷及答案解析(名师系列)
- 中国古代识人方法
- 中烟机械技术中心笔试试题2025
- 基于儿童心理健康发展的智能产品设计
- GB/T 6730.11-2025铁矿石铝含量的测定EDTA滴定法
- 医院污水处理知识培训课件
- 2025届四川省绵阳市高三下学期第一次诊断考-生物试题(含答案)
- 光伏组件清洗安全培训课件
评论
0/150
提交评论