如何对样本进行加权_第1页
如何对样本进行加权_第2页
如何对样本进行加权_第3页
如何对样本进行加权_第4页
如何对样本进行加权_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

精品文档 1欢迎下载 如何对样本进行加权 如何对样本进行加权 Weighting 加权 主要用于两种情况 一 如果原始样本是 Probability Non Proportionate to Size NPPS 或非等比随机抽样 如我曾参与过的一个中国女记者调查 为了比较 需要同时抽 取男记者 而根据人事部登记资料 当时全国男女记者之比大约为 2 1 如果采用 PPS Probability Proportionate to Size 等比随机抽样 那么在抽取的样本中我们的主要研究对 象 女记者 只有三分之一 显然没有很好的利用资源 因此我们在抽样时用 NPPS 将男女比例反 过来为 1 2 抽取样本中三分之二为女性 当我们在计算中国记者 即男女全在内 的基本情况 如教育程度 工作经验 担任职务 跳槽意向等等时 必须先将样本按总体参数 在本例中是人事 部记者登记资料中的男女之比 进行加权 我 2000 02 年在北京和广州做互联网使用调查时 用了 一种更复杂的 NPPS 抽样方法 其结果也一定要先加权 以后有机会详细介绍那个抽样过程 需要加权的另一种情况是原始样本为 PPS 而产生 但因为成功率不高而其导致样本的某些阶层过少 另些阶层 相对 过多 以下是这次调查的年龄分布与总体相应参数之比较 表一 样本年龄分布与总体年龄分布之比较 Age 1 Population 2 Sample N 3 Sample 4 S P 3 1 5 P S 1 3 6 Weighted Sample N 2X5 7 Weight Sample 18 19 3 3 110 10 5 3 16 0 316 35 3 3 20 24 8 7 140 13 4 1 53 0 655 92 8 7 25 29 9 5 119 11 4 1 20 0 836 99 9 5 30 34 10 4 101 9 6 0 93 1 077 109 10 4 35 39 10 9 96 9 2 0 84 1 188 114 10 9 40 44 12 6 149 14 2 1 13 0 886 132 12 6 45 49 12 4 107 10 2 0 82 1 217 130 12 4 50 54 10 3 82 7 8 0 76 1 321 108 10 3 55 59 8 2 51 4 9 0 60 1 677 86 8 2 60 64 4 9 37 3 5 0 73 1 376 51 4 9 65 69 4 4 27 2 6 0 58 1 724 47 4 4 70 74 4 4 29 2 8 0 63 1 577 46 4 4 Total 100 0 1048 100 0 1 0 1 0 1048 100 0 Weighted Mean 上表第 4 列 S P 是用各年龄组在样本中占的比例除以其在总体中占的比例 其值越接近 1 说明 该年龄组在样本中的比重越合适 如 30 34 岁 40 44 岁等 反之 其值越背离 1 其在样本中的 比重越不合适 如 18 19 岁 20 24 岁等过多 55 岁以上过少 是否需要对其进行调整 adjustment or re scaling 呢 应该而且可以 这种调整 就是加权 首先要确定加权的起点是什么 这里有三种选择 精品文档 2欢迎下载 A 以 S P 的最大值 如本例的 3 2 为起点 将其他组的 S P 值都提高到这个水平 具体做法暂不 介绍 这种策略叫做 Scale up weighting 水高船涨 法 其结果也就是将原来的样本放大 S P 最大值倍 本例 3 16 倍 原样本 1048 人 加权后会增至 3312 人 可见水分太大 不可取 B 以 S P 的最小值 本例 0 58 为起点 将其他组的 S P 值都降低到这个水平 因此叫做 Scale down weighting 水落石出 法 其结果是将原样本缩小 S P 最小值倍 本例 0 58 原样本 1048 人 加权后减至 608 放水过多 也不合适 C 以 S P 的加权平均值 不用算 一定是 1 为起点 将大于 1 的 S P 值调低至 1 而将小于 1 的 S P 值调高至 1 因此叫做 Zero sum weighting 有增有减但总数不变 法 加权后的样本数与原 样本相同 还是 1048 见表一第 6 列 可见这种方法相比之下最合理 学术界和调查业界通常都 用它来加权 具体操作共有四步 1 计算总体有关参数 如表一第 2 列总体年龄分布 P 如果没有这种参数 则无法加权 2 计算样本相应统计量 如表一第 3 列样本年龄分布 S 3 计算 S 与 P 之比 即表一第 4 列 S P 值 的倒数 其实就是第 5 列的 P S 这就是我们将的 weighting factor 权重 或 权数 4 对样本每一个案 按其年龄组的值 乘以权数 第 1 至 3 步需要手工在 Excel 中算好 当然 如果你会写 SPSS syntax 并知道如何使用其中 aggregate match files 等技巧 也可以在 SPSS 中算好 我一直用后者做的 但比较复杂 暂不 推荐 第 4 步可以而且必须在 SPSS 中做 以下是有关操作 假定年龄组变量名为 AGEGROUP 样 本数据中已存在 权数取名为 W 但样本数据中还没有这个变量 4a 点击 Transform Compute 在 Target Variable 中输入 W 在 Numeric Expression 中输入 0 316 是 18 19 岁组的权数 并点击 If optional case selection condition 见图 一 精品文档 3欢迎下载 4b 选择 Include if case selection condition 再选 AGEGROUP 输入 和 1 即年龄等于 18 19 岁组 见图二 然后 Continue OK 精品文档 4欢迎下载 4a 和 4b 创建了一个新变量 W 并赋予 18 19 岁组的每一个案一个相同的权数 0 316 你需要对 其他年龄组分别重复 4a 和 4b 很不好玩 而且很容易出错 如你懂写 syntax 整个过程可以用上 述几句就可以完成 IF AGEGROUP 1 W 0 316 IF AGEGROUP 2 W 0 655 IF AGEGROUP 12 W 1 577 4c 有了权数 就可以对样本加权了 点击 Data Weight Cases 点击 Weight cases by 选择 W 再 OK 就大功告成 图三 精品文档 5欢迎下载 如果写 syntax 那就更简单 WEIGHT BY W 如果有需要取消加权 只需回答图三 点击 Do not weight cases 或者写一句 WEIGHT OFF 这是 W 还在你的数据中 只是没有被启用而已 最后需要记住以下几个注意事项 一 加权不是神丹妙药 加权只能调整样本各组之间的相对比例 并不会产生任何新的信息 所以 如果样本中某些组是研究重点 如我前面提到的女记者或互联网用户 绝不应该通过加权的方法 来提高其在样本中的比重 反之可以 二 与之有关的一个重要细节是如果 S P 值中有小于 0 5 也即 P S 值或权数大于 2 的 则不能靠 过分灌水来解决问题 这时的对策有三 增加那些 under sampled 组别的个案数 上策 用 Scale down 的策略来加权 最保守 浪费资源 但不犯 type I 错误 前两者的结合 即增加部 分个案数然后按新的最小 S P 值来个水落石出 三 与此相仿的是如果那些 under sampled 的组个案数太少 一般说来不能少于 30 需要按同样 的原则来处理 四 为了便于解释 上述例子只涉及一个变量 年龄 的加权 实际上 除了年龄 性别 教育程 度和职业也很重要 所以需要用多个变量同时加权 weighted by several variables 精品文档 6欢迎下载 simultaneously 所谓 同时加权 是计算样本和总体的有关多变量交叉分布 然后算出各自 S P 值及其倒数 以年龄和性别的双变量同时加权为例 表一中就应该有 24 行 即 12 个年龄组 X 2 个 性别组 我对本例数据的加权就是用年龄和性别的交叉分布来做的 国内人口统计结果一般只公布年龄 性别 教育等的单项分布 这就无法做多变量加权 你如果先 按年龄加权 再按性别加权 后者会取消前者 结

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论