




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、分层抽样,主要内容: 4.1概述 4.2简单估计量及其性质 4.3各层样本量的分配 4.4样本容量的确定 4.5分层随机抽样效果分析 4.6如何适当分层,4.1概述,1.分层抽样的定义 2.分层抽样的特点和适用场合 3.如何分层 4.记号,1.分层抽样的定义,定义1:总体分成互不重叠且穷尽的若干子总体,即每个单元必属于且仅属于一个子总体,称这样的子总体为层。 定义2:抽样在每一层中独立进行,总的样本由各层样本汇总构成,根据汇总样本对总体参数作出估计。这种抽样称为分层抽样,所得样本为分层样本。 定义3:每层按简单随机抽样进行的抽样,称为分层随机抽样,所得的样本为分层随机样本。,例1:全国经济调查
2、可能的分层: 按调查对象所在的省分层,或所在地区分层(华东,华北,华南等),或按城市和农村分层; 调查对象是人,按照性别、年龄、职业、婚姻状况、文化程度及收入分层; 调查对象为企事业单位或行政单位的可按照部门、行业、所有制性质以及规模大小分层。 例2 :某省的公路交通运输量抽样调查分层: 按工具种类分类构成不同的层,对每类交通工具再按所属地市分为大层,每个地市内又可按照车辆的吨(客)位分为小层,又可按营业和非营业性分层。,2.分层抽样的特点和适用场合,可对层的参数进行估计 实施灵活方便,便于组织 分层样本在总体中的分布更为均匀,不会出现不平衡情况 能较大的提高调查的精度,3记号,设总体分为L层
3、 第h层总体单元数: 总体单元数: 第h层总体指标量: 第h层样本量: 总的样本量: 第h层样本指标量: 第h层的抽样比:,总体 样本 第h层的层权: 第h层的均值: 第h层的总量: 第h层的方差: 总量: 均值 :,是总体均值 的无偏估计,其均方误差(方差)为,定理:如果分层抽样的每一层的均值 和总量,4.2简单估计及其性质,1.总体均值或总量的估计,估计量,是总体总量的无偏估计,其均方误差(方差)为,有无偏估计 和 ,则估计量,由于分层抽样是各层独立进行的,所以,证明:,推论,分层随机抽样的总体均值 的简单估计为 其方差为 该方差的一个无偏估计为,推论2,分层随机抽样的总体总量 的简单估计
4、为 其方差为 该方差的一个无偏估计为,【例】,某市进行家庭收入调查,分城镇居民及农村居民两部分抽样,在全部城镇23560户中抽取300户,在全部农村148420户中抽取250户(均按简单随机抽样进行),调查结果是城镇年平均户收入为15180元,标准差972元;农村年平均收入9856元,标准差为2546元。求全市年平均户收入的估计及其90%的置信区间。,解:已知 故,按简单估计法,有 该估计的方差的无偏估计为 由 得 的置信区间为 即,总体比例的估计,总体 样本 第h层的具有特定特征的单元数: h ah 第h层的比例 部分总量: 比例:,比例的无偏估计为,该估计的方差为 此方差的无偏估计为,部分
5、总量的无偏估计为,该估计的方差为 此方差的无偏估计为,【例】,为调查某个高血压高发病地区青少年与成年人高血压的患病率,对14岁以上的人分四个年龄组进行分层随机抽样,调查结果如下表所示。求总体高血压患病率P的估计及其标准差的估计。,解:根据分层随机抽样公式,P的估计量为: 为了估计 的方差,取 ,则,4.3样本量的分配,1比例分配 2考虑费用的最佳分配 3. 奈曼(Neyman)最优分配,【例3】(冯P79例4.3)某个总体分成三层,其层权Wh及层标准差Sh如下。设总样本量为300,考虑四种不同的样本量分配,并计算出每种分配下,总体均值估计量的方差。,1比例分配,层样本量按总体中各层个体单元的数
6、量所占的比例进行分配,自加权性质:,定义:一个估计总体均值或总和的估计量若可表达成样本观测值的总和或平均数的常数倍,称为自加权性。 总体均值的简单估计 相应的方差,其它估计情形,估计总体总量时 估计总体比例时 估计总体部分总量时,2最优分配(考虑费用),分层抽样的费用: 式中0为基本调查费,h为在第h层调查一个样本单元的费用。 给定费用使 最小,或者给定 而使费用最小的样本量分配公式:,证明:,用拉格朗日乘子法解极值问题,令,得正规方程,即,解得,层愈大,层内差异愈大,该层平均每个单元抽样费用愈小,则在该层中的抽样愈多。,说明:,其它估计情形,估计总体总量时 估计总体比例时 估计总体部分总量时
7、,3.奈曼(Neyman)最优分配,在最优分配中,若每层单位抽样费用都相等,即Ch=C1,则费用函数与各层样本量无关。此时样本量按下列式进行分配: 且其总体均值估计量的方差,其它估计情形,估计总体总量时 估计总体比例时 估计总体部分总量时,【例4】,以某地区年个企业的出口金额数据作为总体,这个企业的最大出口值为万(单位美元,下同),最小值为万,总平均值为 万,总方差为 现将全部个企业按出口金额指标值分为五个层,现从这一总体中抽取n=120的样本,讨论下列情况下,估计总体平均时,各估计量的均方误差 简单随机抽样 比例分配各层样本量,层内简单随机抽样 奈曼最优分配各层样本量,层内简单随机抽样,解:
8、()简单随机抽样,以个样本单元的样本均值估计总体平均,其方差为 (2) 比例分配:由公式,得,()奈曼最优分配,3.4样本总量的确定,设在估计总体均值时,要求估计量的方差上限为,一般分层抽样,设 ,则有,样本总量的确定,比例分配时 奈曼分配时 考虑费用的最佳分配时,其它情形,若精度是以绝对误差上限d的形式给出,则由 ,故将 代入上述公式中 若精度是以相对误差上限r 形式给出,则由 ,故将 代入上述公式中 当估计总体总量时,估计量 ,设 是给定的 的方差上限,则将 代入上述有关公式 当估计总体比例时,将 代入有关公式 .,【例】 (冯P94例4.8),在例2高血压患病率调查中,若要求高血压患病率
9、P的估计量 在95%置信度下的相对误差限r=5%,P的一个较粗的(相对于方差P(P)来说又是保守的)估计 ,求比例分配及奈曼分配下总样本量 (各年龄组层i,Pi见例)。 解: 对于比例分配,由公式,如果忽略 ,则 对于奈曼分配,由公式 如果忽略 ,则,3.5分层随机抽样效果分析,记简单随机抽样的估计量的方差为 比例分配的分层随机抽样的估计量的方差 由于,例 ,所以 若i比较大,则 从而 总方差分解式:,层内方差小,而层间方差大,则分层抽样会大大提高抽样精度,又 奈曼最优分配的方差为 其中 综合以上结论得,引伸:,估计总体比例时,如果层间比例 相差较大,则分层是值得的; 除非对特别小或特别接近于的 ,一般最优分配对于估计总体比例时较少使用 .,3.6如何适当分层,总的原则:应使层内方差小,层间方差大 在编制抽样框时应尽量包含框中个体单元调查指标的信息,以及调查指标高度相关的其他辅助指标的资料 当只有调查指标的信息用于分层时,使各层所占的频率(或频数)的平方根与各层所占间距的平方根之乘积相等。(孙山泽教材例1) 当有多项辅助指标用于分层时,可以采用两三个指标的交叉分层和多变量聚类等方法。(孙山泽教材例和例),本章主要公式汇总,本章主要公式汇总,本章主要公式汇总,本章主要公式汇总,作业:,1164.3, 4.4 , 4.8 实践题:试采用分层抽样方法
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年好医生竞赛题库
- 2025年昆明签证面试题目及答案
- 2025年钢筋工高级试题及答案
- 2025年团员考试测试题及答案
- 2025年升职副老总面试题及答案
- 2025年志愿者简单知识竞赛题库
- 2025年初2文学知识竞赛题库
- 2025年大学美术试题及答案
- 2025年上呼吸系统试题及答案
- 2025年简单毛邓试题及答案
- 国家电网招聘2025-企业文化复习试题含答案
- 生猪屠宰及肉制品深加工项目可行性研究报告
- DB65-T 4761-2023 气田地面工程建设节能技术规范
- 2024-2025学年江苏省南京二十九中学数学九年级第一学期开学监测试题【含答案】
- 2024年个人公司代持股协议书
- 教会会议管理制度
- 2024年广西气象行业职业技能竞赛(综合业务理论)试题库(含答案)
- 门窗代理商合同范本
- 马斯奇奥DP PRONTO气吹免耕条播机
- JT-T 1495-2024 公路水运危险性较大工程专项施工方案编制审查规程
- 《浙江省建筑信息模型(BIM)技术应用导则》
评论
0/150
提交评论