版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、关于整群抽样很重要的一第一张,PPT共七十九页,创作于2022年6月第四章 整群抽样教学目的 通过本章的教学,使学生明确整群抽样的定义与特点;掌握群规模相等时的估计与群规模不等时的估计方法;了解总体比例的估计 。重点与难点 本章的重点是群规模相等时的估计与群规模不等时的估计方法;难点是群规模相等时的估计与群规模不等时的估计方法。第二张,PPT共七十九页,创作于2022年6月本章结构 4.1 引言 4.2 群规模相等时的估计3. 4.3 群规模不等时的估计 4.4 总体比例的估计第三张,PPT共七十九页,创作于2022年6月 假设省教育厅想了解西安中学生的体质状况,抽样调查是既省钱又省时的办法,
2、显然西安地区的中学生均是总体的单元,从全体学生中随机无放回地抽取若干样本是理想的概率抽样方法,但是编制全体中学生的抽样框本身是件麻烦事,况且一个合理的有代表性的样本一般应该遍布全市,在对如此分散的中学生样本逐个进行访问,其工作量之大可想而知。一个方便的方法是在西安地区按学校抽样,在抽得的几所学校中对该校所有中学生进行普遍调查。这就是本章要讲述的整群抽样。第四张,PPT共七十九页,创作于2022年6月 若总体可分为N个群(也称为初级抽样单元,用PSU表示),每个初级单元包含若干个次级单元(也称二级抽样单元,用SSU表示)。按照某种方式从总体中抽取n个初级单元,对这些单元中的所有二级单元全部进行调
3、查。这种抽样方法称为整群抽样。第五张,PPT共七十九页,创作于2022年6月黄色为总体蓝色为样本红色为群白点为基本单元整群抽样事例: 第六张,PPT共七十九页,创作于2022年6月4.1 引言一、整群抽样的定义与特点(一)定义 整群抽样(cluster sampling)是将总体划分为若干群,然后以群(cluster)为抽样单元,从总体中随机抽取一部分群,对中选群中的所有基本单元进行调查的一种抽样技术。第七张,PPT共七十九页,创作于2022年6月例如,对某城市居民进行生活水平调查,如果不是从全部城市住户中直接抽选住户进行调查,而是从城市全部居民委员会中随机抽选若干居委会,对被抽中的居委会所有
4、住户都进行调查,这就是整群抽样。该城市的每一居委会就是一群。第八张,PPT共七十九页,创作于2022年6月再如,对连续生产的企业,每小时都抽选10分钟生产的全部产品进行调查。那么,每10分钟生产的全部产品就是一群。如果一天24小时连续生产,生产的全部产品构成总体,则总体有144群,样本有24群。第九张,PPT共七十九页,创作于2022年6月抽样过程可以分为以下几个步骤:总体R4R3R2R1R130分群R1R4R33R98R110抽样样本第十张,PPT共七十九页,创作于2022年6月 在实际工作中,整群抽样方法被广泛采用。例如,在社会经济调查中的人口调查、家计调查、农林牧业调查以及工业产品质量检
5、验等等都经常采用整群抽样调查。第十一张,PPT共七十九页,创作于2022年6月采用整群抽样调查的原因有二: 其一是在某些情况下,往往由于不适合采用一个个地抽取样本单位,不得不采用整群抽样。例如,某些工业产品的质量检验,事实上不能逐个抽取样本单位来进行,只能在某一时间内,成批地抽取产品来检验。第十二张,PPT共七十九页,创作于2022年6月 其二,即使抽样调查能够一个个地取样,但由于经济的考虑也会选择整群抽样。例如,职工家庭生活水平调查中,如果不是以居委会为群进行整群抽样调查,而是以居民户为单位抽样,这些被抽到的居民户一般分散地居住,必然增加交通费、延长调查时间等。所以出于对工作时间、经费等客观
6、条件的考虑,也得采用整群抽样调查。采用整群抽样调查的原因有二:第十三张,PPT共七十九页,创作于2022年6月(二)整群抽样的特点 1、调查单位比较集中,进行调查比较方便,可以减少调查人员来往于调查单位之间的时间和费用。例如,在进行农村居民户收入情况调查时,在一个县抽千分之五的村庄,对其所有居民户进行调查,明显地比从全县直接抽千分之五的农户进行调查,更便于组织,节省人力、旅途往返时间及费用。第十四张,PPT共七十九页,创作于2022年6月(二)整群抽样的特点 2、设计和组织抽样比较方便。例如,调查农村居民住户,不必列出农村所有居民住户的抽样框,可以利用现成的行政区域,如县、乡、村,将农村划分为
7、若干群,这给抽样设计方案带来很大方便。尤其是对那些无法事先掌握总体单位情况的总体,采用整群抽样更为合适。第十五张,PPT共七十九页,创作于2022年6月 然而,整群抽样由于调查单位只能集中在若干群上,而不能均匀分布在总体的各个部分,因此,它的精度比起简单随机抽样来要低一些。第十六张,PPT共七十九页,创作于2022年6月 例如,在一个有500个村庄、100000个农户的县,抽取1的农户就是1000户,而抽1的村庄则只有5个村庄,也许抽到的5个村庄农户多于1000,但由于样本单位只集中在5个村庄,显然不如在全县范围内简单随机抽取1000户分布均匀,代表性一般要差一些,抽样误差较大。第十七张,PP
8、T共七十九页,创作于2022年6月 当然我们可以通过多抽几个群来弥补这一缺陷,但最关键的一条还是在于总体内群的划分。为了使整群抽样的样本具有一定的代表性,应当使群与群之间尽可能地差异小,而群内单元之间的差异应当大(注意:这一点与分层抽样中总体内层的划分有着极大的差别),这意味着每个群均具有足够的代表性。如果划分的群相互之间颇多相似之处,那么少量群的抽取足以提供良好的精度。一个总体划分成多少个群,每个群的规模大小如何又是一个新问题,通常我们面临的总体会有自然的初级单元,例如本章开头所说的各所中学它们互相之间关于学生的体质很相似,但在一个学校里每个学生之间有一定的差异。第十八张,PPT共七十九页,
9、创作于2022年6月二、群的划分(一)群的划分 一类是根据行政或者是地域形成的群体,如学校、社区、企业等; 另一类就是调查人员人为的确定的。第十九张,PPT共七十九页,创作于2022年6月(二)分群的原则:群内差异尽可能大,群间差异尽可能小 当总体划分为若干个群以后,总体方差可以分为群间方差和群内方差两个部分,这两个部分是此消彼长的关系。群间方差大,则群内方差小;反之,群间方差小则群内方差大。由于整群抽样是对抽中群内所有单元都进行调查,因此影响整群抽样误差大小的主要是群间方差。 可见,整群抽样是和分层抽样是针对不同总体结构而提出的两种不同的抽样方式。 第二十张,PPT共七十九页,创作于2022
10、年6月三、群的规模 群的规模是指组成群的单元的数量。在整群抽样中,群的规模具有相当的灵活性。群的规模大,估计的精度差但费用省;群的规模小,估计的精度比较高但费用大。在实践中,群的规模大小,涉及很多因素:结构、精度、费用、调查组织实施、管理等问题。 群的规模又有两种情况:一是总体中的各个群规模相等;二是总体中各个群的规模不等。第二十一张,PPT共七十九页,创作于2022年6月一、符号说明 N: 总体群数(PSU数) n: 样本群数 Yij: 总体第i群的第j单元数值 yij: 样本中第i群的第j单元数值 Mi: 第i群规模(单元个数,即SSU数量) 本节中,M1 M2 MN M 4.2 群规模大
11、小相等时的估计第二十二张,PPT共七十九页,创作于2022年6月 4.2 群规模大小相等时的估计M0: 总体单位总数Yi: 总体中第i群的总值yi: 样本中第i群的总值Y : 总体总值第二十三张,PPT共七十九页,创作于2022年6月 : 总体中第i群的个体均值 : 样本中第i群的个体均值 : 总体中的群总值的均值 : 样本中的群总值的均值 4.2 群规模大小相等时的估计第二十四张,PPT共七十九页,创作于2022年6月 : 总体中的个体均值 (各群Mi M ) : 样本中的个体均值 (总体均值的估计) 4.2 群规模大小相等时的估计第二十五张,PPT共七十九页,创作于2022年6月 : 总体
12、方差 : 总体群间方差 : 总体群内方差 4.2 群规模大小相等时的估计第二十六张,PPT共七十九页,创作于2022年6月 : 样本方差 : 样本群间方差 : 样本群内方差 4.2 群规模大小相等时的估计第二十七张,PPT共七十九页,创作于2022年6月二、估计量1. 均值估计量SRS,群规模相同,均为M,则 的估计为:总值估计量 4.2 群规模大小相等时的估计第二十八张,PPT共七十九页,创作于2022年6月 4.2 群规模大小相等时的估计2. 估计量 的性质 性质1: 是 的无偏估计,即因为是按简单随机方法抽取群,所以样本群均值是总体群均值 的无偏估计,因而第二十九张,PPT共七十九页,创
13、作于2022年6月性质2: 的方差为 4.2 群规模大小相等时的估计第三十张,PPT共七十九页,创作于2022年6月已知 ,又 故 4.2 群规模大小相等时的估计第三十一张,PPT共七十九页,创作于2022年6月性质3: 的样本估计为 因为 是的 无偏估计,所以 是 的无偏估计 4.2 群规模大小相等时的估计第三十二张,PPT共七十九页,创作于2022年6月总体总值据此,可直接推出其估计量及相应的方差 4.2 群规模大小相等时的估计第三十三张,PPT共七十九页,创作于2022年6月三、整群抽样效率分析群内相关系数 表达式为:上式中的分子为(P119) 4.2 群规模大小相等时的估计第三十四张,
14、PPT共七十九页,创作于2022年6月上式中的分母为:故 又可写为: 4.2 群规模大小相等时的估计第三十五张,PPT共七十九页,创作于2022年6月事实上, 的方差可用群内相关系数近似表示 4.2 群规模大小相等时的估计第三十六张,PPT共七十九页,创作于2022年6月简单随机抽样的方差公式为由此可计算出等群抽样的设计效应为 4.2 群规模大小相等时的估计第三十七张,PPT共七十九页,创作于2022年6月整群抽样的估计效率,与群内相关系数 的关系密切 当 1时,deffM 当 0时,deff1 当 为负时,deff1 的取值范围是群内方差为群内方差与总体方差相等群间方差为 4.2 群规模大小
15、相等时的估计第三十八张,PPT共七十九页,创作于2022年6月群内相关系数也可由样本统计量 估计例一 4.2 群规模大小相等时的估计第三十九张,PPT共七十九页,创作于2022年6月当N很大,而M相对于NM很小时, 第四十张,PPT共七十九页,创作于2022年6月i 240,187,162,185,206,197,154,173 188.00 27.19 210,192,184,148,186,175,169,180 180.50 17.98 149,168,145,130,170,144,125,167 149.75 17.32 202,187,166,232,205,263,198,210
16、 207.88 29.17 210,285,308,198,264,275,183,231 244.25 45.20 394,256,192,280,267,334,216,289 278.50 63.87 192,121,172,165,152,224,195,241 182.75 38.77 230,205,187,176,212,253,189,240 211.50 27.48 274,208,195,307,264,258,210,309 253.13 44.52 232,187,150,182,175,212,169,222 191.13 28.29 342,294,267,309,
17、258,198,244,286 274.75 43.70 228,294,182,312,267,254,232,298 258.38 43.52 第四十一张,PPT共七十九页,创作于2022年6月解:已知N510,n12,M8,fn/N=0.0235故 4.2 群规模大小相等时的估计第四十二张,PPT共七十九页,创作于2022年6月 4.2 群规模大小相等时的估计于是 的置信度为95的置信区间为也即第四十三张,PPT共七十九页,创作于2022年6月例2 由例1数据,计算群内相关系数与设计效应解:由前已算出样本群间方差 而群内方差为 4.2 群规模大小相等时的估计第四十四张,PPT共七十九页,
18、创作于2022年6月 4.2 群规模大小相等时的估计第四十五张,PPT共七十九页,创作于2022年6月若 令为简单随机抽样的样本量则即可达到整群抽样96户样本量相同的估计精度 4.2 群规模大小相等时的估计第四十六张,PPT共七十九页,创作于2022年6月 4.3 群规模不等时的估计当群Mi规模不等时,有不同的抽取方法和估计方法一、等概抽样,简单估计对总体均值 的估计为可以看出,此公式与上节(1)式同 的方差估计为第四十七张,PPT共七十九页,创作于2022年6月4.3 群规模不等时的估计此法特点估计量 是有偏的操作简便,易于掌握和使用适用条件,群之间的规模差异不大时 第四十八张,PPT共七十
19、九页,创作于2022年6月4.3 群规模不等时的估计二、等概抽样,加权估计思路:以群规模Mi为权数,得到群总和yi, 进而求得群总和均值 ,再除以群 平均规模第四十九张,PPT共七十九页,创作于2022年6月4.3 群规模不等时的估计估计公式为:若 未知,可用样本群平均规模代替第五十张,PPT共七十九页,创作于2022年6月4.3 群规模不等时的估计总体总量Y的估计为总量估计的另一公式为第五十一张,PPT共七十九页,创作于2022年6月4.3 群规模不等时的估计估计量的方差为它的无偏估计为均值估计 的方差为第五十二张,PPT共七十九页,创作于2022年6月4.3 群规模不等时的估计三、等概抽样
20、,比率估计总体均值估计为这里辅助变量不是Xi而是群规模Mi总体总量估计为第五十三张,PPT共七十九页,创作于2022年6月4.3 群规模不等时的估计估计量的方差分别是第五十四张,PPT共七十九页,创作于2022年6月4.3 群规模不等时的估计 与 的样本估计分别是第五十五张,PPT共七十九页,创作于2022年6月4.3 群规模不等时的估计 第五十六张,PPT共七十九页,创作于2022年6月4.3 群规模不等时的估计四、与群规模成比例不等概率抽样估计按与Mi成比例的PPS抽样每次第i群入选概率为根据汉森赫维茨估计量 和 是 和 的无偏估计第五十七张,PPT共七十九页,创作于2022年6月4.3
21、群规模不等时的估计 估计量的方差为第五十八张,PPT共七十九页,创作于2022年6月4.3 群规模不等时的估计五、案例分析 背景:某县有33个乡,726个村,该年度某种作物总种植面积30525亩,现采用等概抽样随机抽出10个乡,要求估计全县总产量,计算抽样误差。 调查资料如下:第五十九张,PPT共七十九页,创作于2022年6月样本乡编号村庄数 Mi作物总产量(乡) yi(万公斤)种植面积(乡) xi(亩)123456789101518261420282119311722.022.830.221.725.331.226.020.533.823.68007801000700880110085080
22、012008301.46671.26671.16151.551.2651.11431.23811.0791.09031.3882合计 209 257.1 8940 第六十张,PPT共七十九页,创作于2022年6月4.3 群规模不等时的估计分别采用几种方法估计1. 等概抽样,简单估计第六十一张,PPT共七十九页,创作于2022年6月4.3 群规模不等时的估计评价:方法虽简单,却是有偏估计。第六十二张,PPT共七十九页,创作于2022年6月4.3 群规模不等时的估计2. 等概抽样,加权估计第六十三张,PPT共七十九页,创作于2022年6月4.3 群规模不等时的估计评价:虽是无偏估计量,但方差估计没
23、有改观。第六十四张,PPT共七十九页,创作于2022年6月4.3 群规模不等时的估计3. 等概抽样,比率估计评价:有偏,n较大时比较理想。第六十五张,PPT共七十九页,创作于2022年6月4.3 群规模不等时的估计4. 其它辅助变量的估计 已知:种植面积X30525(亩) 用种植面积为辅助变量评价:和 相比, 更小,因而有更好的估计效果。选择关系密切的辅助变量。第六十六张,PPT共七十九页,创作于2022年6月例2 有下列资料分厂编号 职工人数 Mi 累积区间123456781200450210086028401910390320011200120116501651375037514610461174507451936093619750975112950第六十七张,PPT共七十九页,创作于2022年6月4.3 群规模不等时的估计n3,采用PPS抽样,随机抽取的3个数为02011,07972,10281。调查结果如下:第六十八张,PPT共七十九页,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030中国螺纹钢行业供需趋势及投资风险研究报告
- 2026绥化市辅警招聘考试题及答案
- 2026中国视频监控系统市场发展态势及投资盈利预测报告
- 2026年护理学(中级)相关专业知识从业资格考试真题(夺分金卷)附答案详解
- 2026中国指纹锁市场调研及发展策略研究报告
- 2026年山西国家公务员考试《申论》真题试卷(含答案)
- 2026中国POC凝血分析仪行业发展状况与需求规模预测报告
- 2025-2030中国SaaS行业市场竞争调研与发展前景研究报告
- 2025至2030中国在线教育平台用户行为分析与市场前景预测报告
- 2026中国气体保护焊丝市场前景展望及投资潜力趋势研究报告
- DB51-T 2868-2022 机关事务应急保障规范
- 敦煌曲子戏研究报告
- 新疆2022年中考数学试卷(含答案)
- 人教部编版小学语文说明文阅读专项练习(一)(含答案)
- NB-T35026-2022混凝土重力坝设计规范
- LYT 2085-2013 森林火灾损失评估技术规范
- 怎样才能做到有效巡视病房
- 教师专业发展PPT完整全套教学课件
- 八年级国家义务教育质量监测德育考核试题
- 气体充装站试生产方案
- 《幼儿园游戏化美术教育活动的实践研究》结题报告
评论
0/150
提交评论