第4讲 抽样方法_第1页
第4讲 抽样方法_第2页
第4讲 抽样方法_第3页
第4讲 抽样方法_第4页
第4讲 抽样方法_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

现代社会调查方法 第四讲抽样 主要内容 一 抽样原理 概率与抽样分布二 抽样技术 概率抽样与非概率抽样三 样本规模与抽样误差 回顾 何谓抽样 所谓抽样 指的是从组成某个总体的所有元素的集合中 按一定的方式选择或抽取一部分元素 总体的一个子集 的过程 或者说 抽样是从总体中按一定方式选择或抽取样本的过程 抽样的作用由部分映射整体节省时间 人力 经费等 回顾 抽样术语总体 所有元素的集合 N 样本 从总体中按一定方式抽取出的一部分元素的集合 n 抽样单位 一次直接的抽样所使用的基本单位 个体 群体 家庭 社区 抽样框 抽样范围 总体中所有元素的名单参数值 总体值统计值 样本值 以样本统计值来推论总体参数值 置信水平 置信度 总体参数值落在样本统计值某一区间中的把握性程度 概率 反映抽样的可靠性程度 99 95 90 置信区间 抽样的精确性程度 区间越小 误差越小 反之亦然 回顾 1936年美国总统大选 罗斯福 民主党 兰登 共和党 VS 文学文摘 杂志曾准确地预测了1920 1924 1928 1932年的美国总统大选 1936年 读者文摘 进行了一次最具雄心的民意测验活动 读者文摘 将选票寄给了从电话簿与车牌号登记名单中挑选出来的1000万人 收到了220万人的回应 结果显示 有57 的人支持共和党候选人兰登 而当时在任的总统罗斯福的支持率为43 两个星期后 投票结果显示 罗斯福以历史上最大的优势 61 的得票率 获得第二届任期 相对于罗斯福的523张选票 兰登仅得8张 读者文摘 声誉扫地 不久关门 读者文摘 为何预测失败 问题的症结 回收率只有22 抽样框只限于电话用户和汽车拥有者 这种设计只选择了不成比例的富人样本 尤其是当时美国还处在最严重的经济萧条后期 这个样本排除了穷人 而几乎所有穷人都支持罗斯福的新经济政策 抽样误差 抽样误差 样本代表性与概率抽样 概率抽样的基本原则 如果总体中的每一个个体被抽取为样本的概率相同 那么从这个总体中抽取的样本就具有对该总体的代表性 即所选取的样本能再现总体的结构 具有这一性质的样本通常被称为等概率抽样方法 概率抽样的两项优点 概率样本更具代表性 可避免各种偏见和减少误差概率理论使我们能够估计样本的精确度和代表性概率抽样之所以能够保证样本对总体的代表性 其原理就在于它能够很好地按总体内在结构中所蕴涵的各种随机事件的概率来构成样本 使样本成为总体的缩影 一 抽样原理 概率与抽样分布 随机抽样 同等 独立 随机事件与概率 确定性现象 必然发生的 必然事件 在一定条件下必然发生的 如 在一个大气压下 水在100摄氏度时必然沸腾 随机现象 在一定条件下可能出现这样的结果 也可能出现那样的结果 但究竟出现哪种结果事先不能肯定 随机事件 在一定条件下可能发生也可能不发生的事件 如抛硬币 生小孩 概率 事件发生频率所接近的固定数值 它是相应事件发生的可能性大小的一个客观 定量的度量 小概率事件 小概率事件 一个事件如果发生的概率很小的话 那么它在一次试验中是几乎不可能发生的 但在多次重复试验中几乎是必然发生的 数学上称之小概率原理 统计学上 把小概率事件在一次实验中看成是实际不可能发生的事件 一般认为等于或小于0 01的概率为小概率 墨菲定律 小概率事件必然发生 假设某意外事件在一次实验 活动 中发生的概率为p p 0 则在n次实验 活动 中至少有一次发生的概率为 pn 1 1 p n由此可见 无论概率p多么小 即小概率事件 当n越来越大时 pn越来越接近1 小概率抵不过大基数 抽样分布 拥有0 9美元的十人总体 十个人的抽样分布 以一个样本的平均值来推论总体 以两个样本的平均值来推论总体 以三 四个样本的平均值来推论总体 以五 六个样本的平均值来推论总体 极限定理 极限定理 观察次数n趋向无限时的极限行为 采用极限的方法所得出的一系列定理 统称极限定理 可分为两类 1 大数定理 大数法则或平均法则 研究在什么条件下 随机事件可以转化为不可能事件或必然事件 即有关阐明大量随机现象平均结果的稳定性的一系列定理 它的意义 在随机事件的大量重复出现中 往往呈现几乎必然的规律 2 中央极限定理 研究在什么条件下 随机变量之和的分布可以近似正态分布 中心极限定理表明 如果一个现实的量是由大量独立偶然因素的影响迭加而得 且其中每一个偶然因素的影响又是均匀地微小的 则可以断定这个量将近似地服从正态分布 中心极限定理与正态分布 在自然 社会 经济领域里大量存在服从正态分布的随机变量 如年龄 身高 体重 智商等 根据中心极限定理 均值的抽样分布具有如下特征 如果样本相当大 不少于30 最好是大于等于100 则抽样分布接近正态分布 其特点是单峰和对称 众值 中位值与均值都相同 抽样分布之均值就是总体之均值 抽样分布的标准差 称为标准误差 SE 由于均值的抽样分布是正态分布 而其面积就是均值的次数 故任何两值之间的样本均值次数所占的比例是可以知道的 正态分布图与统计推论 抽样技术 非概率抽样 概率抽样 偶遇抽样 判断抽样 配额抽样 滚雪球抽样 简单随机抽样 系统抽样 分层抽样 整群抽样 多段抽样 PPS抽样 等比例 不等比例 二 抽样方法 一 概率抽样1 简单随机抽样 定义 简单随机抽样 又称纯随机抽样 是将总体内所有个案都编上号码 然后根据等概率的原则 运用随机数表 随机数码或抽签 抓阄 的方式从总体中直接获取样本 是随机抽样方法中最简单 最基本的方法图示 下页 优点 在抽样过程中完全排除了主观因素的干扰 而且简单 易行 只要有总体各单位名单就可以进行 缺点 1 只适用于总体单位数量不多的调查对象 如果总体单位数量很大 编制抽样框的工作就十分复杂 2 样本代表性较差 抽样误差大 3 抽取的样本可能比较分散或者过分集中 2 系统抽样 定义 又称等距抽样或间隔抽样 它是把总体的元素进行编号排序后 再计算出某种间隔 然后按这一固定的间隔抽取元素来组成样本的办法 优点 样本在总体中的分布比较均匀 具有较高的代表性 抽样误差小于简单随机抽样 简便易行 缺点 1 调查总体单位不能太多 而且要有完整的登记册 2 注意避免抽样间隔与调查对象的周期性节奏相重合 反例 有关二战士兵的经典研究 3 分层抽样 定义 又称类型抽样 是先将总体中的所有元素按某种特征或标志 如性别 年龄 职业或地域等 划分成若干类型或层次 然后再在各个类型或层次中采用简单随机抽样或系统抽样的办法抽取一个子样本 最后将这些子样本合起来构成总体的样本 图示 下页 优点 1 降低抽样误差 提高抽样的精度 2 便于了解总体内不同层次的情况 3 便于对总体中不同的层次或类别进行单独或比较研究 缺点 必须对总体各个单位的情况有较多的了解 否则就无法科学分类 而这一点在实际调查之前又往往难以做到 继续 实际运用分层抽样时 需要注意的两个方面 一是分层的标准问题以主要变量为准 常用的变量 性别 年龄 文化程度 职业等 组内差异最小 组间差异最大二是分层的比例问题等比例不等比例 下页实例 有居民20 000户 从中抽选200户家庭进行购买力调查 其中高收入户居民家庭为4000户 中收入户家庭为12000户 低收入户家庭4000户 又已知高收入户的标准差为300元 中收入户的标准差为200元 低收入户的标准差为100元 现要抽选200户做样本 进行购买力的调查 等比例分层抽样法 从各层中分别抽取40户 120户 40户家庭 不等比例分层抽样法 从各层中分别抽取60户 120户 20户家庭 4 整群抽样 定义 又称聚类抽样 是从总体中随机抽取一些小的群体 然后由所抽出的若干个小群体内的所有元素构成调查样本的方法 图示 下页 优点 简化抽样过程 降低调查费用 扩大抽样的应用范围缺点 样本分布面不广 样本对总体的代表性相对较差 5 多段抽样 定义 又称多级抽样或分段抽样 它是按抽样元素的隶属关系或层次关系 把抽样过程分为几个阶段进行 具体做法 先从总体中随机抽取若干大群 组 然后再从几个大群 组 内抽取几个小群 组 这样一层层抽下来 直到抽到最基本的抽样元素为止 图示 下页 优点 1 节省人力物力和时间 2 特别适合调查总体范围大 单位多 情况复杂的调查对象 3 对总体的了解要求程度低 缺点 抽样误差大 可能出现不等概率状况 6 PPS抽样 定义 PPS samplingwithprobabilityproportionaltosize 叫做 概率与元素的规模大小成比例的抽样 为解决多段抽样中的不等概率问题而设计 具体做法 在第一阶段 每个群按照其规模被给予大小不等的抽取概率 群越大 被抽中的概率越大 但到了第二阶段 从每个抽中的群中都抽取同样多的元素 正是通过这样两个阶段上的不等概率抽样 使得总体中的每一个元素最终都具有同样的被抽中的概率 优点 最终抽出的样本对总体的代表性大 缺点 需要知道每一个群的规模 如果无法知道其规模 就不知道其比例 图示 下页 从100家不同规模企业 共2万名职工 中抽取1000名职工 先抽20家 再从这20家分别抽取50名职工 例1 XX大学学生学习 生活状况调查 抽样设计 1 研究总体XX大学全日制在校本科生 研究生 2 抽样方案分层抽样与整群抽样相结合 1 分层标准 A专业划分 文科类 理工类 医学类 B年级划分 本科四个年级 硕士研究生 博士研究生 2 以上述专业和年级为维度进行整群抽样 分专业每个年级各抽取两个班 总共抽取36个班 对抽样班所有学生进行调查 详见抽样流程图 3 对有课程安排的班级 我们可到教务处查询抽中班级上课地点和时间 并由教务处开出介绍信预先和任课老师联系 调查员提前15分钟到课堂统一发放和回收问卷 对没有课程安排的班级 可去宿管中心查找对应宿舍 集中时间调查 XX大学 图1 12抽样流程图 课堂训练 根据以下情况设计一种抽样方案 某市有300所小学 共240 000名学生 这些小学分布在全市5个行政区中 其中重点小学有30所 一般小学有240所 较差的小学有30所 现在要从全市小学生中抽取1200名学生进行调查 以了解全市小学生的学习情况 请设计一种抽样方案 二 非概率抽样方法 1 偶遇抽样又称方便抽样或自然抽样 碰到谁就选谁不同于随机抽样2 判断抽样又称立意抽样 它是调查者根据研究的目标和自己主观的分析来选择和确定调查对象的方法 依赖于研究者的理论修养 实际经验以及对调查对象的熟悉程度 3 配额抽样进行定额抽样时 研究者要尽可能地依据那些有可能影响研究变量的各种因素来对总体分类 并找出具有各种不同特征的成员在总体中所占的比例 然后依据这种划分以及各类成员的比例 采用偶遇抽样或判断抽样的方法去选择调查对象 不同于分层抽样4 滚雪球抽样滚雪球抽样是指先随机选择一些被访者并对其实施访问 再请他们提供另外一些属于所研究目标总体的调查对象 根据所形成的线索选择此后的调查对象 三 样本规模与抽

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论