抽样估计案例ppt课件.ppt_第1页
抽样估计案例ppt课件.ppt_第2页
抽样估计案例ppt课件.ppt_第3页
抽样估计案例ppt课件.ppt_第4页
抽样估计案例ppt课件.ppt_第5页
已阅读5页,还剩99页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章抽样估计 抽样估计 1 问题的提出 现有10000盒火柴 欲知平均每盒火柴棍儿根数 现有10000颗螺丝钉 其中有合格品 有不合格品 欲知合格率 2 日常生活中 人们同样经常用到抽样方法 厨师做菜 买米 医生看病 产品质量检测 消费者消费需求及爱好 特别是对社会热点问题的民意测验 3 4 5 兰德公司 ResearchandDevelopment RAND 对朝鲜战争的预测 6 统计估计 推断 的过程 7 全面调查的局限性 破坏性调查 不宜全面调查 无限总体或总体过大 无法全面调查 8 于是 人们很自然地想到 能否仅从总体中抽取部分单位 就这部分单位进行观察或调查 并就对部分单位观察或调查的结果计算出有关的指标 然后 用这一指标来估计总体的数字特征 如 从10000盒火柴中抽取100盒或30盒 点数之后 算得这100盒平均每盒根数 譬如 49根 然后用这49根 来代表10000盒火柴平均每盒根数 再如 从10000颗螺丝钉中抽取100颗或30颗或50颗 进行检测后得其合格率 如95 然后 用这95 代表整个10000颗螺丝钉的合格率 实际生活中人们也是这么做的 而且很有效 然后 接下来的问题是 9 采用何种方法来抽取部分单位 抽取多少单位 用这部分单位的指标代表总体指标 准确性如何 用这部分单位的指标代表总体指标 有多大把握 10 抽样推断 是按随机原则从全部研究对象中抽取部分单位进行观察 并根据样本的实际数据对总体的数量特征作出具有一定可靠程度的估计和判断 抽样推断的特点 它是由部分推断整体的一种认识方法抽样推断建立在随机取样的基础上抽样推断运用概率估计的方法 抽样推断的误差可以事先计算并加以控制 11 参数估计参数估计是依据所获得的样本观察资料 对所研究现象总体的水平 结构 规模等数量特征进行估计 假设检验假设检验是利用样本的实际资料来检验事先对总体某些数量特征所作的假设是否可信的一种统计分析方法 抽样推断的内容 12 第七章抽样估计 一 基本内容第一节抽样估计中的几个基本概念第二节样本平均数的分布规律第三节抽样估计 13 二 学习目的与要求通过本章教学 使同学们明确抽样调查的概念和基本原理 掌握概率基础的基本运算 熟练掌握简单随机抽样和类型抽样 了解等距抽样 整群抽样和多阶段抽样 三 学习的重点与难点本章学习的重点是样本平均数的分布 难点是抽样估计 四 授课课时4 6学时 14 第一节抽样估计中的几个基本概念 一 总体 样本 抽样框二 随机抽样与随机样本三 抽样方法四 抽样组织方式五 总体指标与样本指标六 常用的总体指标与样本指标七 抽样误差 15 一 总体与样本 样本框 研究对象的全体称总体 从总体中随机地抽取一部分单位 称这一部分单位为一个样本 被抽取的每一个单位 称为样本单位 样本中包含样本单位的数目称为样本容量 样本单位数大于30个的样本称为大样本 不超过30个的样本称为小样本 16 一 总体与样本 样本框 样本框也称抽样范围 是指一次直接抽样时总体中所有元素的名单 编制抽样框是实施抽样的基础抽样框的主要形式有三种 名单抽样框 列出全部总体单位的名录一览表区域抽样框 按地理位置将总体划分小区域 以小区域为抽样单位时间表抽样框 将总体单位按时间顺序排列 分成时间段 以一定时间段做抽样单位 17 样本单位 抽样单位 就是一次直接的抽样所使用的基本单位 抽样单位与构成总体的元素有时相同 有时又不同 如一次直接抽取出100名学生 一次直接抽取出4个班级 而4个班级全部学生作为样本 18 在单一层次抽样中 抽样单位即总体单位 例如在一个城市对居民户做调查 由市一级一步到位抽取居民户 此时居民户既是总体单位 又是抽样单位 在多层次抽样中 抽样单位与总体单位则不一定是同一单位 例如上边所说的居民户调查 改由市一级先抽取街道办事处 再由街道办事处抽居委会 最后由居委会抽取居民户 在这种情况下 第一步的抽取单位是街道办事处 第二部的抽取单位是居委会 由于他们都不是所采集资料的承担者 故都不是总体单位 只有第三步中的居民户即可视作抽样单位 同时也是总体单位 19 20 二 随机抽样与随机样本 随机抽样是按随机原则从调查对象中抽取一部分单位作为样本进行观察 然后根据样本数据去推算调查对象的总体特征 机会是均等的 如此抽得的样本称为随机样本 21 三 抽样方法 重复抽样是指每次随机抽取一个单位进行观察后放回去 再抽下一个 再放回去 连续随机抽取n次 构成一个容量为n的样本 不重复抽样则不将已抽取的单位放回去 n N 0 1 22 不重复抽样严格地讲不属于纯随机抽样 因为 被抽取的单位不再放回总体中去 实际上已经改变了总体的成份 但当我们所研究的总体是无限总体时 或者当总体总位数很多时 抽出的单位放回与否对总体的成分影响不大 这时所得的样本的性质近似于重复抽样所得的随机样本 因此 实际工作中也经常采用不重复抽样 在实际工作中 即使总体个数N为有限 但只要被抽取的单位数n与N之比小于0 1 则经常采用不重复抽样 今后 我们主要针对重复抽样来介绍抽样理论的有关内容 23 四 抽样组织方式 一 简单随机抽样简单随机抽样是按随机原则直接从总体中抽出若干单位构成样本 又称纯随机抽样 适用条件 适用于总体单位数较少 范围较狭窄的情况 二 分层抽样分层抽样是按先对总体各单位按主要标志加以分类 再从各类中按随机原则抽取样本 又称类型抽样或分类抽样 24 25 三 等距抽样等距抽样是将总体按某一标志排队 而后按固定顺序和间隔来抽选样本单位的抽样组织形式 四 整群抽样整群抽样是将总体单位分为若干部分 再按随机原则从中抽取部分群 抽中群中的所有单位构成样本 26 27 28 五 多阶段抽样把抽取样本单位分为n个步骤进行 即先从总体抽取一级单位 然后再从抽中的一级单位中抽取二级单位 知道抽取最终单位 适用于总体规模特别大 或总体分布的范围特别广 29 六 PPS抽样概率与元素的规模大小成比例的抽样 PPS抽样 假设要从全市100家企业 总共20万名职工中 抽取1000名职工进行调查 我们采取多段抽样的方法 首先从100家企业中随机抽取20家 然后再从这20家企业中分别抽取50名职工 50X20 1000 构成样本 需要注意的是 这100家企业的规模是不同的 最大的企业多达16000名职工 而最小的企业则只有200名职工 30 31 32 33 五 总体指标与样本指标 由全及总体计算得来的统计指标称总体指标 又称全及指标或总体参数 总体指标数值是唯一的 由样本计算得来的统计指标称样本指标 又称抽样指标或样本统计量 样本指标数值不唯一 为了讨论问题的方便 总体指标都用大写字母表示 样本指标都用小写字母表示 34 六 常用的总体指标与样本指标 随机性 确定性 35 成数的平均数 36 成数的方差 37 七 抽样误差 一 抽样实际误差是指一次抽样中 由随机因素引起的样本指标与总体指标之间的离差 二 抽样平均误差是指样本平均数 或样本成数 的标准差 反映抽样结果的样本指标值与总体指标的平均离差 三 抽样极限误差是指样本指标与总体指标之间的可能误差范围 38 第二节样本平均数的分布规律 一 样本平均数的分布二 抽样平均误差的计算公式 39 一 样本平均数的分布 一 重复抽样分布样本平均数的平均数等于总体平均数 总体平均数是由总体中全部样本平均数的可能取值和与之相应的概率组成 样本平均数的标准差等于总体标准差除以样本容量n的平方根 40 设有一总体共有三个总体单位A B C 某标志用X表示 其标志值分为2 4 6 现在用重复抽样的方法从三个中随机抽2个构成样本 41 42 43 样本平均数的平均数 44 样本平均数的均方差 45 二 不重复抽样分布 46 样本平均数的平均数 47 样本平均数的均方差 48 在不重复抽样条件下 样本平均数的平均数等于总体平均数 样本平均数的标准差等于重复抽样的抽样标准差乘以修正因子 49 无论总体属何种分布 样本容量n无限增大时 样本平均数的分布趋于正态分布 且样本平均数的平均数等于总体平均数 样本平均数的标准差等于总体标准差除以样本容量n的平方根 即 50 二 抽样平均误差由于抽样平均数的标准差反映样本平均数与总体平均数的平均误差程度 所以抽样平均数的标准差又称为抽样平均误差 或抽样标准误差 计算公式 51 一 平均数抽样平均误差的计算公式 重复抽样 不重复抽样 52 二 成数抽样平均误差的计算公式 重复抽样 不重复抽样 53 54 关于公式中的总体方差 用样本方差代替总体方差 n 30采用历史资料 如果同时有几个大小不同的历史资料 则选用数值较大者 用过去方差 总体或样本 代替 用同类调查的方差 当前的或过去的 总体的或样本的 代替 有若干个方差可选择时 选方差最大者对于成数 方差最大即指成数最接近0 5 最保守的估计是取P 0 5来计算 55 例 从10000盒火柴中 随机抽取50盒 算得样本平均数为49根 样本均方差为2根 求其抽样平均误差 56 从10000颗螺丝钉中 随机抽取100颗 经检测有5颗不合格 求其抽样平均误差 57 从一批灯泡中 随机抽取200个 经测算得平均寿命为4800小时 样本标准差为300小时 求其抽样平均误差 58 一批罐头中随机抽查300瓶 已知过去几次同样调查所得合格率分99 98 求合格率的抽样平均误差 59 怎样解决下面的问题 一个水库里有多少鱼 一片原始森林里的木材储蓄量有多少 一批灯泡的平均使用寿命是多少 一批产品的合格率是多少 怎样才能知道这些问题的答案 你不可能把一个水库里的水抽干去称鱼的重量 不可能把森林伐完去量木材有多少 不可能把一批灯泡都用完去计算它的平均寿命 也不可能把每一件产品都检测完才知道它的合格率 60 第三节抽样估计 一 点估计二 区间估计三 样本容量的确定 61 抽样估计就是用样本统计量去估计总体的未知参数 例如 估计总体均值 总体方差等 62 一 点估计点估计主要有矩估计法和最大似然估计法 矩估计法是样本矩去估计总体矩的一种估计法 最大似然估计法是把待估计的总体参数看作一个可以取不同数值的变量 计算当总体参数取上述不同数值的时候 发生我们当前所得到的样本观测值的不同概率 总体参数取哪一个数值的时候这种概率最大 便把这个数值作为对总体参数的估计结果 63 极大似然估计法 一位同学和一位训练有素的射击运动员一起进行射击练习 法令声响后 两人同时进行射击 结果有一人命中十环 十环是谁打中的呢 64 为什么可以这么来估计呢 样本平均数 在数理统计中被称为无偏估计量 所谓无偏估计量是指样本平均数这一随机变量 其数学期望等于总体的被估计参数 即等于总体平均数 所以称其为无偏估计量 例如 我们通过前面的例子已经验证过 虽然各个可能样本的样本平均数具有随机性 可能等于总体平均数 也可能不等于总体平均数 但是平均起来看 样本平均数的平均数 数学期望 一定等于总体平均数 这种性质在数理统计中叫做无偏性 具有这一性质的估计量叫做无偏估计量 样本成数也是无偏估计量 65 估计量的优良性准则 无偏性 无偏性 估计量的数学期望等于被估计的总体参数 如样本平均是总体均值的一个无偏估计 66 无偏估计量 比较方差大小 67 估计量的优良性准则 有效性 有效性 一个方差较小的无偏估计量称为一个更有效的估计量 如 与其他估计量相比 样本均值是一个更有效的估计量 68 估计量的优良性准则 一致性 一致性 随着样本容量的增大 估计量越来越接近被估计的总体参数 69 一批产品2000件 抽取样本进行检验得其优质品率为85 试对这批产品的合格品率及合格品数量做出点估计 例题 70 点估计的缺陷 无法说明抽样误差的大小无法说明估计结果的把握程度 71 二 区间估计 区间估计就是根据样本统计量及其抽样分布 以一定可靠程度推断总体参数可能范围 区间估计不是指出被估计总体参数的确切数值 而是指出它的可能范围 这种估计方法不仅以样本值为依据 而且考虑了抽样误差的大小 能说明估计结果的把握程度 72 进行区间估计时 应考虑两个因素 一是估计的精确程度 二是可靠性要求 精确程度就是要求估计误差必须控制在一定的范围内 允许误差的最大值可以通过极限误差来反映 极限误差越小 估计的精度越高 极限误差越大 估计的精度越低 可靠性是指结果正确的概率保证 可用置信度来反映 区间估计中的精度要求与可靠性要求常常是一对矛盾 73 一 抽样极限误差 在抽样估计时 应根据所研究对象的变异程度和分析目的要求确定可允许的误差范围 我们把这种可允许的最大误差范围称为抽样极限误差 设 x p分别表示抽样平均数极限误差和抽样成数极限误差 则有 区间称为平均数的估计区间或称平均数的置信区间 区间称为成数的估计区间或称成数的置信区间 74 抽样极限误差的概率度 基于概率估计的要求 抽样极限误差通常需要以抽样平均误差或为标准单位来衡量 把极限误差或分别除以或所得相对数t 表示误差范围为抽样平均误差的t倍 t是测量估计可靠程度的一个参数称为抽样误差的概率度 75 三 区间估计公式 76 77 78 落在总体均值某一区间内的样本 79 总体参数的区间估计 抽样误差范围的概率保证度 在确定允许的抽样误差范围后 从主观愿望说 希望抽样调查的结果 样本指标的估计值都能够落在允许的误差范围内 但这并非都能实现的事情 由于抽样指标值随着样本的变动而变动 它本身是个随机变量 因而抽样指标和总体指标的误差仍然是个随机变量 不能保证误差不超过一定范围的这件事是必然的 而只能给以一定程度的概率保证 抽样估计置信度就是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度 80 总体参数区间的基本特点 是根据给定的概率保证程度的要求 利用实际抽样资料 指出总体被估计值的上限和下限 即指出总体参数可能存在的区间范围 换句话说 对于总体的被估计指标X 找出样本的两个估计量x1和x2 使被估计指标X落在区间 x1 x2 内的概率1 0 1 为已知的 即P x1 X x2 1一 是给定的 我们称区间 x1 x2 为总体指标X的置信区间 称1 为估计置信度 称 为显著性水平 x1是置信下限 x2是置信上限 81 已知抽样误差范围 求概率保证度 计算步骤是 首先抽取样本 计算抽样指标 如计算抽样平均数或抽样成数 作为相应总体指标的估计值 并计算样本标准差以推算抽样平均误差 其次 根据给定的抽样极限误差范围 估计总体指标的下限和上限 最后 将抽样极限误差除以抽样平均误差求出概率度t值 再根据t值查 正态分布概率表 求出相应的置信度F t 并对总体参数作区间估计 82 例1 对某型号的电子元件进行耐用性能检查 抽查的资料分组列表如下 要求耐用时数的允许误差范围 x 10 5小时 试估计该批电子元件的平均耐用时数 已知抽样误差范围 求概率保证度 应用 耐用时数 组中值 元件数 900以下900 950950 10001000 10501050 11001100 11501150 12001200以上 87592597510251075112511751225 1263543931 合计 100 83 1 计算抽样平均数和标准差2 根据给定的 10 5小时 计算总体平均数的上下限 下限 上限 3 根据t 查概率表得置信度F t 0 9545我们可以作如下估计 即可以概率95 45 的保证程度 估计该批电子元件的耐用时数在1045 1066小时之间 84 某乡水稻面积20000亩 以不重复抽样方法从中随机抽取400亩 求得样本平均亩产645公斤 标准差72 6公斤 要求抽样极限误差不超过7 2公斤 试对该乡水稻亩产和总产量作估计 85 已知给定的置信度要求 推算极限误差的可能范围 计算步骤是 首先抽取样本 计算抽样指标 作为相应总体指标的估计值 并计算样本标准差以推算抽样平均误差 其次 根据给定的置信度F t 要求 查表求得概率度t值 最后 根据概率度t和抽样平均误差来推算抽样极限误差的可能范围 再根据抽样极差求出被估计总体措标的上下限 对总体参数作区间估计 86 87 从10000盒火柴中 随机抽取50盒 算得样本平均数为49根 样本均方差为2根 试以95 45 的把握程度 估计总体平均每盒火柴棍根数 88 从10000颗螺丝钉中 随机抽取100颗 经检测有5颗不合格 试以95 的把握程度估计这10000颗螺丝钉的合格率 89 样本容量即样本所包括的样本单位数 抽样数目 如前所述 抽样平均误差与样本单位数的方根成反比 也就是说 n越大 抽样平均误差就是越小 抽样估计的准确性就越高 极端的情况 当样本单位数等于总体单位数时 就成了全面调查 那估计的结果必然是100 地准确 但是 样本单位数越大 抽样实际工作所需人力 物力 财力就越多 成本就越高 所以 不能无限制地扩大大样本容量 三 样本容量的确定 90 合适作法是 根据抽样工作性质的要求 所允许的极限误差 以及所要求的把握程度 来确定必要地样本容量因此 样本容量可以根据极限误差的公式来确定 从导出的公式中可以看出 第一 总体的方差越大 所需样本容量越大 第二 要求的把握程度 概率 越高 所需样本容量越大 第三 允许误差越大 所需样本容量越小 因此 样本容量可以根据极限误差的公式来确定 91 92 93 一 重复抽样样本容量的确定 94 二 不重复抽样样本容量的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论