第二章 简单随机抽样.ppt_第1页
第二章 简单随机抽样.ppt_第2页
第二章 简单随机抽样.ppt_第3页
第二章 简单随机抽样.ppt_第4页
第二章 简单随机抽样.ppt_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

抽样技术 第2章简单随机抽样 简单随机抽样又称单纯随机抽样 是所有随机抽样方法中最简单的一种方法 它按照随机的原则从调查总体中不加任何分类 排序 分组等先行工作 直接地抽取调查样本单位 各单位被抽到的机会完全均等 相互独立 排除了抽样过程中各种主观因素的干扰 简单随机抽样的方法 抽签法 随机数字表法对定义的理解 1 简单随机抽样中用于估计总体均值的统计量是样本均值 而待估总体参数与用于估计的统计量两者 同形同构 2 简单随机抽样直接从总体抽取个体 3 简单随机抽样是任何其他概率抽样的核心 任何其他概率抽样方式都或多或少包含简单随机抽样的成分 4 容易操作 随机抽样的形式 随机抽样分为四种形式 放回有序 放回无序 不放回有序 不放回无序不放回无序的随机抽样其所有可能样本数是最少的 实际操作最简单 简称不放回简单随机抽样 SRSWOR 放回有序的所有可能样本数最多 但理论结果最简单 简称放回简单随机抽样 SRSWR 简单随机抽样指不放回简单随机抽样 2 1定义与符号 总体 1 具体总体 2 有限总体 3 与样本框存在一一对应关系的所谓实查总体或被称为抽样总体的样本框本身 单元 总是指构成抽样总体的样本单元 样品 样本点 抽样单元并不总是等同于个体 有时抽样单元甚至包含几个或多个个体个体 最小的不可再分的单元设抽样总体由N个抽样单元组成 N是已知整数 表示总体规模 欲在其中抽取n个抽样单元构成样本 n是一个事先人为确定的不大于N 不小于1的正整数 称为样本容量 简称样本量或样品数 表示样本规模 样本容量相对于总体规模的比例f n N 称为抽样比 简单随机抽样的抽样规则 1 按随机原则抽样 在抽取时排除任何主观因素选择抽样单元 避免任何先去为主的倾向 防止出现系统误差 2 每个抽样单元被抽中的概率都是已知的或事先确定的 或者事先可以计算出来 3 每个抽样单元被抽中的概率都相等 即简单随机抽样属于一种等概随机抽样 简单随机抽样的三个等价定义 定义2 1从总体的N个单元中 一次整批抽取n个单元 使任何一个单元被抽中的概率都相等 任何n个不同单元组成的组合被抽中的概率也相等 这种抽样称为简单随机抽样 定义2 2从总体的N个单元中 逐个不放回地抽取单元 每次抽取到尚未入样的任何一个单元的概率都相等 直到抽足n个单元为止 这样所得的n个单元组成一个简单随机样本 定义2 3按照从总体的N个单元中抽取n个单元的所有可能不同的组合构造所有可能的个样本数 从个样本随机抽取一个样本 使每个样本被抽中的概率都等于 这种抽样称为简单随机抽样 等价性证明 1 定义2 1定义2 2排列组合 2 定义2 1定义2 3 3 定义2 1定义2 31 通过等价性的传递关系2 证明定义2 2抽得的完全相同单元的样本被抽到的概率也等于先后被抽中的单元号码为相应单元包含在样本中的随机事件记为则逐次抽到这样一个有序样本的随机事件概率为 因此抽取到包含这n个单元的样本的总概率为 例题 例2 1与麻将中的骰子有关的简单的人为总体的例子 N 6 总体特征变量为Y 第i个单元 个体 的变量值N 6的人为总体从总体中抽出n 2的样本简单随机抽样的可能样本个数为例2 2N 8 其总体单元数值为 2 4 4 4 6 6 6 18从中抽取n 3的简单随机样本个数 用大写字母和小写字母分别表示有关总体和样本的量关于总体变量Y的N个变量值记为总体均值 总体总值 设是从总体中抽取的一个样本量为n的简单随机样本 其中 是 的一个子集样本记为 样本均值 注意 无论是总体均值还是样本均值 使用的都是简单平均数公式抽样调查的目的各有不同 但一般只关注四个方面的总体特征 1 总体均值 2 总体总值 3 总体比例 4 总体比率对总体特征的估计 有两条不同的思路 1 不借助任何辅助变量 仅通过变量的样本观察值对其总体特征进行直接估计 即用样本特征的线性组合表示总体特征 称线性估计 2 借助相关辅助变量 对我们所感兴趣的变量的总体特征进行间接估计 用样本特征的非线性组合表示总体特征 称非线性估计 辅助变量的选择必须满足 1 与主变量高度相关 2 其总体信息已知 不需在本次调查中加以收集 简单估计 定义 对于简单随机抽样 在没有总体其他相关辅助变量信息可以利用的情况下 用样本特征直接估计总体特征 且样本特征与总体特征除了写法不同外 完全同形同构 简单易记 称为简单线性估计 简称简单估计 总体均值的简单估计量 总体总值的简单估计量 总体比例的估计要引入 0 1变换 令则总体中具有这种特征的单元总数 总体中具有这种特征的比例 总体比例P的简单估计量为 对总体比例的估计可以化为对总体均值的估计 总体两个不同变量的总和或均值之比 其简单估计量为 在总体其他相关辅助变量可以利用的情况下 总体均值和总体总值的估计主要有比估计和回归估计两种方式 比估计是用对应样本特征乘上县相关辅助变量的均值和总值 回归估计则是用对应样本的特征与辅助变量的均值和总值的回归方程间接进行 各种统计量的比较关系总体均值的比估计 总体总值的比估计 总体均值的回归估计 总体总值的回归估计 2 2简单估计量及其性质 2 2 1简单估计的性质引理2 1从大小为N的总体中抽取一个样本量为n的简单随机样本 则总体中每个特定单元入样的概率为n N 两个特定单元都入样的概率为 证明 全部可能的样本个数为包含某个特定单元的样本数为同时包含两个特定单元的样本数为每个样本被抽到的概率为因此 任意一个特定单元的入样概率为任意两个特定不同单元同时入样的概率为 引理2 2从总体规模为N的总体中抽取一个样本量为n的简单随机样本 若对总体中的每个单元 引进随机变量如下 则证明 考虑每个单元都有可能入样也有可能不入样 贝努力试验 属于典型的服从二项分布的随机事件 因此表示这N个随机事件的N个随机变量均服从二项分布 的概率为 的概率为的概率为 的概率为于是有 定理2 1对于简单随机抽样 作为的简单估计 是无偏的 即 证明1 对于规模为N的有限总体简单随机抽样 样本量为n的所有可能样本总共有个 对应的样本均值总共也有个其中任意特定的一个样本及其样本均值出现的概率都是对于所有可能样本整体而言 样本均值就是一个随机变量考虑进入样本的任意特定的一个总体单元的变量值 不妨设为包含该总体单元的所有可能样本共有个 因而会在上面的求和号里现次 括号里共有n个这样的总体单元变量值 并且每个单元的情况一样证明2 若对总体中的每个单元 引入随机变量则可表达为故 推论2 1对于简单随机抽样 的期望为 推论2 2对于简单随机抽样 的期望为 推论2 3对于简单随机抽样 n较大时 的期望为 抽样理论与数理统计之间关于样本均值性质的异同 1 简单估计量的方差1 在数理统计中 有限总体的方差通常定义为 2 在抽样理论中 惯用的是另一种形式 分母用 N 1 代替N 由于N一般很大 对方差本身的大小影响甚微但求和号中N个加项的自由度为 N 1 这种替代使比在理论上更具有一系列新的意义和用途定理2 2对于简单随机抽样 的方差 这个定理俗称为抽样理论的核心定理 因为抽样结果的精度高低是评价调查成功与否的重要指标 当估计量恰是抽样中的核心估计量样本均值时 既是精度又是信度的理论表达 2 2 2简单估计量的方差与协方差 证明 引进随机变量于是根据引理2 2有 推论2 4对于简单随机抽样 的方差为 推论2 5对于简单随机抽样 的方差为 证明 只需证明此时即可 由于依2 1节的记号 此时故 推论2 6对于简单随机抽样 当n比较大时 的方差为定理2 2中的称为有限总体较正系数 简记fpc 对无限总体的简单随机样本 或对有限总体的放回简单随机抽样 由于N一般很大 故有即从有限总体中抽得的简单随机样本均值的方差是无限总体中抽得的同量的独立样本均值的方差的 1 f 倍 意味着对同等样本量 不放回的简单随机样本的抽样精度要高于放回随机抽样 不放回抽样与放回抽样相比 由于样本点不会产生重复 样本量想同时所包含的有效样本点更多 因而信息更多 效果更好 1 f 为入样的单元数占全部单元总数的比例 简称总体未入样率 1 为什么影响精度的主要是样本量n的大小 而不是抽样比f的大小 2 定理2 2改写为抽样误差 精度 完全取决于样本量 总体为入样率和总体方差三个因素影响 抽样误差与样本量成反比 与总体为未入样率和总体方差成正比 两个估计量的协方差 对总体的两个变量或指标Y与X 设是第i个单元的相应特征值 记为相应的样本均值 分别为相应的总体均值 则可定义的协方差如下 定理2 3对于简单随机抽样 有式中 2 2 3方差与协方差估计 定理2 4简单随机样本的方差是总体方差的无偏估计 证明 根据前面对样本方差的定义 有使用对称法证明 有而依定理2 2 有所以 推论2 7对于简单随机抽样是的无偏估计 推论2 8是的无偏估计 推论2 9对于简单随机抽样是的无偏估计 推论2 10对于简单随机抽样 当n较大时 有 置信区间 例预估某个总体 N 100 的均值 现从该总体中采用简单随机抽样的方法抽取n 10个样本 样本的取值如下 请根据表中给出的数据求出总体均值的置信度为95 的置信区间 简单随机抽样 一简单随机抽样的方法 一 抽签法步骤 总体编号 制作号签 搅拌均匀 随机抽取 从全班抽取10个同学进行体能测试 二 随机数法随机数表法亦称 乱数表法 就是利用随机数表抽取样本的方法 随机数表又称为乱数表 它是将0 9的10个自然数 按编码位数的要求 如两位一组 三位一组 五位甚至十位一组 利用特制的摇码器 或电子计算机 自动地逐个摇出 或电子计算机生成 一定数目的号码编成表 以备查用 这个表内任何号码的出现 都有同等的可能性 利用这个表抽取样本时 可以大大简化抽样的繁琐程序 用随机数法抽取样本的步骤 将总体中的所有个体编号 每个号码位数一致 在随机数表中选定开始的数字 确定行数列数 从选定的数开始按一定方向读数 若得到的号码大于总体编号或与前面所取出的号码重复的去掉 如此进行下去 直到取满为止 根据选定的号码抽取样本 随机数法 总体编号 在随机数表中任取一数 按制定的规则和方向取数 得数在编号内取 如得数不在编号内或为已取数则跳过继续取数 三 用统计软件直接抽取适用性 N不太大 n不太大 较小 例 从800袋牛奶中抽取60袋进行质量检查 利用随机数法设计抽样方案 第一步 将800袋牛奶编号 号码是000 001 799 第二步 在随机数表中任选一个数作为开始 例如选出第8行第7列的数 7 第三步 从数 7 开始 向右读 得到一个三位数785 由于785799 将它去掉 按照这种方法继续向右读 又取出567 199 507 依次下去 直到样本的60个号码全部取出 第四步 以上号码对应的60袋牛奶就是要抽取的对象 练习 要从某厂生产的300台机器中用随机数表法抽出10台作为样本 试设计抽样方案 第一步 将300台机器编号 号码是000 001 299 第二步 在随机数表中任选一个数作为开始 例如选出第3行第2列的数 6 第三步 从数 6 开始 向右读 每次读取3位 凡不在000 299中的数跳过去不读 前面已经读过的也跳过去不读 依次可得到 026 141 012 269 050 101 243 099 006 184 第四步 以上号码对应的10台机器就是要抽取的对象 1 简单估计量的方差定理2 2对于简单随机抽样 的方差 这个定理俗称为抽样理论的核心定理 因为抽样结果的精度高低是评价调查成功与否的重要指标 当估计量恰是抽样中的核心估计量样本均值时 既是精度又是信度的理论表达 简单估计量的方差 定理2 2中的称为有限总体较正系数 简记fpc 1 f 为入样的单元数占全部单元总数的比例 简称总体未入样率抽样误差 精度 完全取决于样本量 总体为入样率和总体方差三个因素影响 抽样误差与样本量成反比 与总体为未入样率和总体方差成正比 置信区间 例预估某个总体 N 100 的均值 现从该总体中采用简单随机抽样的方法抽取n 10个样本 样本的取值如下 请根据表中给出的数据求出总体均值的置信度为95 的置信区间 绝对误差设某测量值N的真实值为N 误差为 N N 则 它反映测量值偏离真值的大小 叫做绝对误差 绝对误差 和测量值N具有相同的单位 但一般来说不能准确知道绝对误差的值 可以计算其绝对误差限d 例 相对误差用绝对误差无法比较不同测量结果的可靠程度 于是人们用测量值的绝对误差与真实值之比来评价 并称它为相对误差 抽样平均误差是反映抽样误差一般水平的指标 它的实质含义是指抽样平均数的标准差 即它反映了抽样指标与总体指标的平均离差程度 抽样平均误差的作用首先表现在它能够说明样本指标代表性的大小 平均误差大 说明样本指标对总体指标的代表性低 反之 则高 抽样极限误差又称 置信区间和抽样允许误差范围 是指在一定的把握程度下保证样本指标与总体指标之间的抽样误差不超过某一给定的最大可能范围 记作 抽样极限误差是指用绝对值形式表示的样本指标与总体指标偏差的可允许的最大范围 它表明被估计的总体指标有希望落在一个以样本指标为基础的可能范围 它是由抽样指标变动可允许的上限或下限与总体指标之差的绝对值求得的 简单随机抽样的实施 样本容量的确定原理影响样本容量n的基本因素有三个 总体规模N 抽样误差和总体方差 用置信度和绝对误差限度替代抽样误差 设计效应 以简单随机抽样简单估值法确定的估计量样本均值作为基准 任意抽样方式下的抽样方差除以简单随机抽样方式下抽样方差的商 1 简单随机抽样的2 分层随机抽样的3 整群随机抽样的4 系统随机抽样的样本量的确定 1 确定精度水平 对总体方差进行估计 2 简单随机抽样估值法所需的样本量称为初始样本量 3 确定抽样方式 对样本量进行调整 4 根据有效回报率对样本容量进行调整 例1 已知某个总体所含有的单元总数为N 100 现要实施简单随机抽样来对总体均值进行估计 规定置信水平为95 绝对误差限为d 2 根据以往经验初步确定 同时预计有效回报率为80 请问样本量定成多少比较合适 解 初始样本量为14样本量为18 例2 假设考虑有效回报率之外所有其他因素后的初始样本量为400 而预计有效回报率为80 那么样本量应定为 答案 n 400 80 500例3 在要求的精度水平下 不考虑其他因素的影响 若简单随机抽样所需要的样本量为300 分层随机抽样的设计效应deff 0 8 那么若想达到相同的精度 分层随机抽样所需的样本量为 答案 n 300 0 8 240例4 为了合理配备电力资源 某市欲了解50000户居民的日用电量 从中简单随机抽取了300户进行调查 现得到其日用电平均值为试估计该市居民日用电量95 的置信区间 如果希望相对误差限不超过10 则样本量至少应为多少 39 40 41 确定抽样单位数目应注意的问题 1 以上计算公式只适用于简单随机抽样 2 在同样条件下 不重复抽样比重复抽样要求的抽样单位数目少 3 同一总体往往同时需要计算抽样平均数和抽样成数 由于它们的方差和允许误差要求不同 因此 对于抽样单位数目多少的要求也不一样 为了防止抽样单位数目的不足 而扩大抽样误差 在实际工作中 往往根据抽样单位数目比较大的一个数目进行抽样 以满足共同要求 42 确定样本容量应注意的问题 4 计算样本容量时 一般总体的方差与成数都是未知的 可用有关资料替代 一是用历史资料已有的方差与成数代替 二是在进行正式抽样调查前进行几次试验性调查 用试验中方差的最大值代替总体方差 三是成数方差在完全缺乏资料的情况下 就用成数方差的最大值0 25代替 5 上面的公式计算结果如果带小数 这时样本容量不按四舍五入法则取整数 取比这个数大的最小整数代替 例如计算得到 n 56 03 那么 样本容量取57 而不是56 简单随机抽样估计 根据样本提供的信息对总体的某些特征进行估计或推断 1 估计量或统计量 用来估计总体特征的样本指标 2 总体参数 待估计的总体指标 注 对总体数字特征的估计也叫参数估计参数估计可分为 点估计和区间估计1 点估计例1 如从一批产品中抽取5 来检验 样本优质品率为85 就估计这批产品的优质品率为85 例2 如对某企业工人生产产品的日产量进行抽样调查 样本平均每人每日产量为35件 就推断该企业工人的人均日产量为35件 总体均值的点估计总体方差的点估计总体标准差的点估计注意 无法衡量准确性和可靠性 是为区间估计提供推断基础的2 区间估计点估计无法衡量估计值的可靠性 而区间估计能够对样本统计量与总体参数的接近程度给出一个概率度量 因为样本指标量的抽样分布在大样本条件下服从正态分布 第三节比率估计量及其性质 比率估计量是抽样技术理论里一大重要估计量 其定义为两个总体总量或总体均值之比 借助适当的辅助变量 比率估计也可以得到主要变量的参数估计由于通过辅助变量实质上引入了更多的信息 因此有理由猜测比率估计量可能更加精确 2 3 1比率估计量的性质1 辅助变量的常见情况 1 同一变量的当期与上期的变化不会太大 研究今年的农作物产量 可以选择上一年的产量作为辅助变量 2 与主变量整体上存在某种比值关系 研究整体单位农作物产量 可以选择农田面积作为辅助变量 2 辅助变量的特点 1 辅助变量必须与主要变量高度相关 2 辅助变量与主要变量之间的相关关系整体上相当稳定 3 辅助变量的总体总值必须是已知的 或是容易获得的 4 辅助变量的信息质量更好 或信息更容易获得3 比率估计量主要变量的总体均值的比率估计量 主要变量的总体总值的比率估计量 例某地区对本地100家化肥生产企业尿素产量进行调查 已知去年的总产量为2135吨 抽取10个企业调查今年的产量 得到 这些企业去年的产量平均为 试采用比率估计方法计算今年该地区化肥总产量 解 由题意可知 抽样总体N 100 样本量n 10辅助变量的总体总值X 2135样本均值 辅助变量样本均值 引理2 3对于简

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论