抽样调查-分层随机抽样PPT参考课件.ppt_第1页
抽样调查-分层随机抽样PPT参考课件.ppt_第2页
抽样调查-分层随机抽样PPT参考课件.ppt_第3页
抽样调查-分层随机抽样PPT参考课件.ppt_第4页
抽样调查-分层随机抽样PPT参考课件.ppt_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

3 1引言 一 定义 先将总体N个单元划分成L个互不重复的子 总体 每个子总体称为层 它们的大小分别为 然后 在每个层中独立地进行抽样 称为分层抽样 1 二 作用 分层抽样在实际工作中应用的非常广泛 主要是因为它具有其它抽样方法所没有的特点 2 3 四 符号说明 我们用下标h表示层号 h 1 2 L 关于第h层的记号如下 单元总数 样本单元数 第i个单元标志值 观察值 4 单元权数 总体均值 第L层总体方差 5 抽样比 样本均值 第L层样本方差 6 3 2简单估计量及其性质 一 总体均值的估计 如果得到的是分层随机样本 则总体均值 的简单估计为 7 2 估计量的性质 值得注意的是 只要对各层估计是无偏的 则对 总体的估计也是无偏的 因此 各层可以采用不同的抽样方法 只要相应的估计量是无偏的 则对整体的推算也是无偏的 8 性质一的证明 由于对每一层有 因此 9 10 性质二的证明 若各层独立进行简单随机抽样 对每一层有 由第二章性质二得 因此 11 性质三对于分层随机抽样 的无偏估计为 12 性质三的证明 对于分层随机抽样 各层独立进行简单随机抽样 由第二章性质三 得 因此 的一个无偏估计为 13 二 总体总量的估计 1 估计量的定义总体总量Y的估计为 如果得到的是分层随机样本 则总体总量Y 的简单估计为 2 估计量的性质 相同的性质 14 15 数据见下表 16 样本户奶制品年消费支出 17 18 各层样本均值及样本方差为 同理有 19 因此 估计奶制品年消费总支出为 估计量方差及标准差的样本估计 20 三 总体比例的估计 1 估计量的定义 总体比例P的估计为 2 估计量的性质如果定义 i 1 2 N 则对总体比例的估计类似对总体均值的估计 这时 21 的无偏估计 h 1 2 L 则 性质一对于一般的分层随机抽样 如果 的方差为 22 23 例3 2 在例3 1的调查中 同时调查了居民拥有家庭电脑的情况 获得如下数据 单位 台 如表3 2 估计该地区居民拥有家庭电脑的比例及估计的标准差 数据见下表 24 样本户拥有家庭电脑情况 表3 2 25 解 由上表可得 该地区居民拥有家庭电脑比例的估计为 估计量的方差为 26 3 3比率估计量及其性质 将比率估计的思想和技术用于分层随机样本时 对总体参数的估计有两种途径 一种是对每层样本分别考虑比估计量 然后对各层的比估计量进行加权平均 此时所得的估计量称为分别估计 separateratioestimator 另一种是对比率的分子 分母分别加权计算出分层估计量 然后用对应的估计量来构造比估计 这样所得的估计量称为联合比估计 combinedratioestimator 27 1 分别比率估计 总体均值 总体总量 层权 L 层数 28 比率估计量的方差 式中 分别比率估计量要求每一层的样本量都比较大 否则 偏倚可能比较大 29 2 联合比率估计 combinedratioestimator 总体均值 总体总量 均方误差为 30 3 分别比率估计量与联合比率估计量的比较 一般而言 分别比率估计量的方差小于联合比率估计量的方差 但当每层的样本量不太大时 还是采用联合比率估计量更可靠些 因为这时分别比率估计量的偏倚很大 从而使总的均方误差增大 实际使用时 如果各层的样本量都较大 且有理由认为各层的比率Rh差异较大 则分别比率估计优于联合比率估计 当各层的样本量不大 或各层比率Rh差异很小 则联合比率估计更好些 31 例4 4 某市1996年对950家港口生产单位完成的吞吐量进行了调查 1997年欲对全市港口生产单位完成的吞吐量进行调查 对港口生产单位按非国有 h 1 和国有 h 2 分为两层 单位数分别为800家和150家 分别在两层中调查了10家和15家港口生产单位 调查数据如下表 试计算1997年全市港口生产单位完成的吞吐量 1997年国有和非国有企业调查数据如下页 32 33 将上述数据计算的中间结果列于P77的表中 1 按分别比率估计量估计 34 2 按联合比率估计量估计 按联合比率估计量估计比按分别比率估计量估计要好一些 35 三 分别比率估计与联合比率估计的比较 具体情况分析参看教材P87 36 3 4回归估计量及其性质 与比估计相似 将回归估计的思想和技术用于分层随机抽样时 同样有两种方法 一种是对每层样本分别求取回归估计量 然后对各层的回归估计量进行加权平均 此时所得的估计量称为分别回归估计 separateregressionestimator 另一种是对两个变量先分别计算出分层简单估计量然后再对它们的分层简单估计量来构造回归估计 这时所得的估计量称为联合回归估计 combinedregressionestimator 37 1 分别回归估计 separateregressionestimator 38 当各层的回归系数为事先给定的常数时 分别回归估计量是无偏的 其方差为 其中是第h层的回归系数 39 达到最小 即 40 注意 1 分别回归估计量是有偏的 但当每一层的样本量都很大时 估计的偏倚可以忽略 其方差近似为 2 这里是子总体的回归系数 是子总体样本的回归系数 前者是未知的 后者是可知的 41 式中 分别回归估计量要求每一层的样本量都较大 如果这个条件得不到满足 则分别回归估计量的偏倚可能很大 这时 采用联合回归估计量更好些 42 2 联合回归估计 combinedregressionestimator 是无偏的 其方差为 43 并且 只要 取 44 45 分别回归估计与联合回归估计的比较 当回归系数设定时 分别回归估计优于联合回归估计 当回归系数由样本估计时 如果各层的样本量不太小 采用分别回归估计为宜 否则 采用联合回归估计为好 46 解 样本回归系数 则按分别回归估计量估计 见P85 47 按联合回归估计量估计 见教材P86 从本题看 联合回归估计量比分别回归估计量要优一些 48 分别比率估计 联合比率估计 分别回归估计和联合回归估计的比较 参看教材P96 例3 3 49 比率估计与回归估计总结 在分层随机抽样中 当有辅助变量信息可以利用时 我们可以采用分别比率估计 联合比率估计 分别回归估计以及联合回归估计方法 在选用这些估计量时 要注意以下几个问题 1 比估计是有偏估计量 当各层样本量都较大时两种比估计都近似无偏 当某些层的样本量不够大 而总样本量较大时 联合比率估计近似无偏 50 2 在回归估计中 若事先设定回归系数 其估计量无偏 若用样本回归系数作为回归估计系数 其估计量有偏 但在大样本情况下近似无偏 3 当主要变量Y和辅助变量X高度相关时 比率估计和回归估计都是有效的 且能大幅度地提高估计精度 51 3 3样本量在各层的分配 对于分层抽样 当总的样本量一定时 还需研究各层应该分配多少样本量的问题 因为对总体推算时 估计量的方差与各层的方差有关 还与各层所分配的样本量有关 一 比例分配 这里的比例分配指的是按各层单元数占总体单元数的比例 也就是按各层的层权进行分配 这时 52 总体比例P的估计是 这是因为总体中的人一单元 不管它在哪一层 以同样的概率入样 因此按比例分配的分层随机样本 估计量的形式特别简单 这种样本也称为自加权的样本 53 54 二 最优分配 1 最优分配 如果我们考虑简单线性费用函数 总费用 则最优分配是 55 证明 作拉格朗日函数 求条件极值 56 解得 由此得出下面的准则 如果某一层单元数较多 内部差异较大 费用比较省 则对这一层的样本量要多分配些 57 2 Neyman 内曼 分配 对于分层随机样本 作为特例 如果每一层的 58 解 按比例分配时 各层的样本量为 即各层的样本量分别为3 6 11 20 59 对于Neyman分配 根据前面计算所得的各层权数和方差 得到 60 因此 按Neyman分配时 各层应分配的样本量为 即各层的样本量分别为3 61 例3 5 某市有甲 乙两个地区 现进行家庭收入的调查 令n 500 已知甲地区共有20000户居民 乙地区共有50000户居民 甲地区居民和乙地区居民年收入标准差估计分别为 同时对甲地和乙地每户的平均抽样费用之比为2 3 请分别计算出甲地和乙地进行比例分配 一般最优分配 考虑费用因素 以及内曼分配 不考虑费用因素 的样本量 解 根据已知的数据 通过计算整理可得下表 62 关于样本量分配的计算 1 比例分配 63 2 一般最优分配 64 3 内曼分配 65 结果比较 对比上面三组结果可以发现 一般最优分配在乙地所抽取的样本量是最小的 这是因为一般最优分配考虑了费用问题 在乙地抽样的单位平均费用较高 所以最优的原则应是适当增加甲地的样本量 减少乙地的样本量 一般最优分配和内曼分配在甲地的样本量都比比例分配大 这是因为甲地总体的方差较大 为了保证估计量方差小 子总体方差大的就要多抽些样本 否则就要少抽样本 66 3 某些层要求大于100 抽样时的修正 又比较大 则可能按最优分配计算的这个层的样 若出现这种情况 则对该层进行不100 的抽样 即 67 3 4样本量的确定 1 一般公式 给定时 有 68 得到确定样本量的一般公式为 69 2 若按比例分配 将代入上式可得 70 内曼分配 将代入上面两式可得 71 最优分配 将代入上式可得 72 即 d 绝对误差 r 相对误差 t 标准正态分布的双侧 分位数 这时 样本量的一般形式可以表示为 如果估计精度是以误差限的形式给出 73 下面将分别给出比例分配 内曼分配和最优分配时的样本量分配形式 74 1 若按比例分配 将代入上式可得 75 2 当按Neyman分配时 76 3 最优分配时 将代入上式可得 77 例3 4 续例3 1 如果要求在95 置信度下 相对误差不超过10 则按比例分配和Neyman分配时 总样本量分别为多少 解 当按比例分配时 由前面的计算结果 可以得到各层的Whs2h 78 在95 置信度时 对应的t 1 96 又 因此得到 由此可以得到 79 2 最优分配需要考虑费用时的情形 在最优分配时 如果考虑费用为简单线性函数 则由式 3 21 有 当方差V给定时 代入式 3 24 得到样本量为 80 3 5分层时的若干问题 1 抽样效果分析 可以忽略 则 分配 分层随机抽样按比例分配以及简单随机抽样 简单估计的方差 81 二 层的划分 既然分层抽样比简单随机抽样效率高 那么如何构造层 构造多少层 才能使分层抽样发挥其效率高的特点呢 这就涉及最优分层和确定层数的问题 82 一 最优分层 为了提高抽样效率 按调查目标量进行分层当然是最好的 但我们在调查前并不知道的值 因此分层只能通过与高度相关的辅助指标来进行 见P56 83 二 层的确定 当分层是按自然层或单元类型划分时 层数是自然的 但当遇到上述运用累积平方根法进行分层时 就存在层数问题 在实际工作中 层数一般不超过六层 虽然增加层数可以提高估计精度 但在总费用一定的条件下增加层数必然导致降低样本量 这时就要考虑增加层数而降低样本量在精度上是否合算 84 三 事后分层 我们一般在抽样之前将总体中的所有单元分好层 但在实际工作中 有时没有层的抽样框 或总体特别大来不及事先分层等原因 这时我们又想采用分层抽样 就可以采用事后分层 85 事后分层要注意的问题 1 要求我们可以通过某种途径知道各层的层大小或层权 2 层权与实际情况不能相差太大 否则不可能提高精度 3 事后分层的层数不宜太多 86 事后分层的具体实施办法先采用简单随机抽样的方法从总体中抽取一个样本量为n的样本 然后对样本中的单元按某种特征进行分层 假设在容量为n的样本中 落入第h层的样本单元数为 有 则此时对总体均值的事后分层估计为 87 这里 下标 pst 表示事后分层 代表落入第h层的第i个样本单元的指标值 88 理论上 只要n充分大 事后分层估计量是无偏的 且它的方差有如下性质 89 由上式可以看出 第一项就是按比例分配分层抽样估计量的方差 第二项表示因事后分层而非事先按比例分配分层引起的方差增加量 由此看出 只要样本量足够大 事后分层的精度与比例分配事先分层的精度相当 90 事后分层均值估计量的方差 可以用下面的式子来估计 其中 91 例3 7某高校欲了解在校学生用于课外进修 考证等 的开支 在全校8000名学生中抽出一个200人的简单随机样本 根据学生科的统计 本科生人数为全校学生的70 调查最近一个学期课外进修支出 单位 元 的结果如下表 试估计全校学生用于课外进修的平均支出 92 在校学生课外进修开支调查结果 解 全校学生用于课外进修的平均开支为 93 估计量的方差为 94 如果采用简单估计 则估计的方差为 很显然 事后分层抽样要比简单随机抽样的估计量精度要高 95 思考题 教材P131 题3 7 如果一个大的简单随机样本按类别分为6组 然后按层的实际大小重新进行加权 这一过程称为事后分层 采用这种方法是由于 判断以下说法的对错 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论