




已阅读5页,还剩54页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七章抽样与抽样估计 本章学习目的了解抽样估计的概念和特征 抽样调查的组织方式领会抽样估计中的相关概念掌握抽样估计中常用的统计量 均值 方差 标准差 成数 掌握正态分布总体参数的估计方法 点估计 区间估计 本章重难点提示本章重点 抽样估计的相关概念 抽样分布 样本统计量 区间估计方法本章难点 抽样误差的相关概念 不同已知条件下的区间估计方法 第一节抽样及抽样估计中的基本概念 一 抽样及抽样估计的概念1 抽样即抽样调查 是指在总体中选取部分单位组成样本并收集样本单位的数据资料的过程2 抽样估计是在抽样调查的基础上 利用样本的数据资料计算样本指标 以样本特征值对总体特征值作出具有一定可靠程度的估计和判断 一 抽样估计的概念和特征 二 抽样估计的特点 1 抽样估计是由部分推断总体的一种认识方法2 抽样估计建立在随机取样的基础上3 抽样估计运用的是不确定的概率估计方法4 抽样估计的误差可以事先计算并加以控制 二 抽样及抽样估计中的相关概念 一 全及总体和样本1 全及总体 是由被调查对象的全部单位所构成的集合体 简称总体总体容量 总体中的单位数 用N表示2 样本 样本是从总体中抽取的进行调查的部分单位的集合体 又称抽样总体样本容量 样本中的单位数 用n表示大样本和小样本 n 30时称大样本 n 30称小样本 应用 在班级40名学生中随机选取15人进行健康状况调查 说明其中的总体 样本及容量 二 抽样及抽样估计中的相关概念 二 概率抽样与非概率抽样1 概率抽样 又称随机抽样 是按随机原则抽取样本单位 本章所指的均为概率抽样2 非概率抽样 又称非随机抽样 是指从研究的目的和需要出发 根据调查者的经验或判断 从总体中有意识地抽取部分单位构成样本 应用举例 重点调查 典型调查应为非概率抽样 二 抽样及抽样估计中的相关概念 三 重复抽样和不重复抽样1 重复抽样 又称有放回的抽样 从总体中抽取样本时 每次被抽中的单位都再被放回总体中参与下一次抽样2 不重复抽样 又称无放回的抽样 总体中随机抽选的单位经观察后不放回到总体中 即不再参加下次抽样 思考与讨论 从容量为N的总体中随机抽取容量为n的样本 根据概率论与数理统计知识 讨论重复抽样和不重复抽样中各单位依次被抽中的概率 并比较在同等条件下 哪种抽样的代表性好 二 抽样及抽样估计中的相关概念 四 抽样框1 概念 抽样框是包括全部抽样单位的名单框架2 形式名单抽样框 如学生名单 职工名单 企业名单等区域抽样框 如将一个城市按行政区划分为若干区 街道 居委会等时间抽样框 如对流水线上的产品每隔一定时间抽取一定单位 五 总体参数和样本统计量1 总体参数 是反映总体数量特征的数值 在抽样推断中 参数是未知的 待估计的确定值2 样本统计量 是根据样本资料计算的反映样本数量特征的变量 它的值随着样本的不同而变化 因此是一个随机变量 二 抽样及抽样估计中的相关概念 表7 1总体参数和样本统计量符号 六 抽样误差 1 统计误差及分类 偏差 系统误差 由于破坏随机原则而产生 随机性误差 抽样误差 即使遵循随机原则以样本指标代表总体指标时的偏差 统计误差 登记性误差 统计调查中 由于观察 测量 登记 计算等原因或被调查者提供虚假信息所造成 代表性误差 以样本指标推断总体指标时产生的代表性程度的差异 六 抽样误差 2 抽样误差与抽样误差有关的三个概念 1 抽样实际误差 指某一次具体抽样中 样本指标值与总体参数真实值之间的偏差 2 抽样平均误差 是指所有可能的样本指标与总体指标之间的平均差异程度 即样本估计值的标准差 3 抽样极限 允许误差 又称置信区间 是指一定概率下抽样误差的可能范围 说明样本估计量在总体参数周围变动的范围 记作 抽样误差是指不包括登记性误差和系统性误差在内的随机误差 它衡量了抽样估计的精确度 抽样平均误差 抽样平均数的平均误差概念 就是抽样平均数的标准差 反映抽样平均数的所有可能值对总体平均数的平均离散程度 记作定义公式 其中 各个可能样本的平均数 总体平均数 重复抽样条件下所有可能的样本数 抽样平均误差 实际抽样推断中采用的公式重复简单随机抽样不重复简单随机抽样其中 为总体方差为不重复抽样的修正因子 抽样平均误差 样本成数 比例 的抽样平均误差重复抽样条件下 不重复抽样条件下 总体中具有某种特征的单位占全部总体单位数的比例称为总体比例 记作 样本中具有此种特征的单位占全部样本单位数的比例称为样本比例 记作 抽样极限误差 样本平均数的抽样极限误差 以绝对值形式表示的样本平均数的抽样误差的可能范围 用符号表示为 即 说明样本均值以确定的总体均值为中心 在之间变动 在实际抽样估计中是以样本均值推断总体均值的区间范围 因此 可将上述不等式作如下变换 抽样极限 允许误差 样本比例的抽样极限误差 以绝对值形式表示的样本比例的抽样误差的可能范围 用符号表示为 即 同理 也可将上述不等式转换为 第二节抽样分布 一 抽样分布的概念和种类 一 概念精确分布 小样本分布 大多数是在正态分布总体条件下得到的 但应用不广 二 种类渐进分布 大样本分布 样本容量无限增大时统计量的极限分布 可看作是抽样分布的一种近似 抽样分布是样本统计量的概率分布 从一个总体中随机抽取容量相等的样本 根据样本资料计算某一统计量所有可能的概率分布 称为这个统计量的抽样分布 常见的抽样分布 一 正态分布 正态分布 如果随机变量的概率密度函数为 其中 为常数且 0 则称服从参数为 的正态分布 记作 正态分布是最常见的抽样分布 常见的抽样分布 2 标准正态分布 在正态分布中 当参数 0 1时 则称服从标准正态分布 记作 1 标准正态分布的分布密度和分布函数的性质如下 1 是偶函数 即 2 1 3 如果 则的分布函数为上述公式称为正态分布函数的标准化公式 常见的抽样分布 二 分布设是独立同分布的随机变量 且每个随机变量都服从标准正态分布 即 0 1 则随机变量 的分布称为自由度为的分布 记作 当 时 分布趋近于正态分布 即 2 常见的抽样分布 三 分布设随机变量与相互独立 0 1 则称随机变量服从自由度为的分布 记作 当 时 分布趋近于标准正态分布 实际应用中 当 30时 分布可用标准正态分布近似表达 常见的抽样分布 四 分布1 设随机变量与相互独立 且分别服从自由度为 的分布 则称随机变量服从第一自由度为 第二自由度为的分布 记作 2 分布对于两个总体的方差比的统计推断问题十分重要 是方差分析等统计推断方法的基础 与前两种分布不同的是分布不以正态分布为其极限分布 它总是一个正偏分布 二 样本平均数的抽样分布 一 总体方差已知时 样本平均数的抽样分布 定理7 1 设总体 是一个简单随机样本 则有 将样本平均数标准化 即有 0 1 上述定理说明 样本平均数的数学期望值等于总体平均数 样本平均数的方差等于总体方差除以样本容量 同时也说明了样本平均数抽样分布具有的基本性质 二 样本平均数的抽样分布 一 总体方差已知时 样本平均数的抽样分布 定理7 2 中心极限定理 设是具有期望值 方差的任意总体 则样本平均数的抽样分布将随的增大而趋于总体平均数为 标准差为的正态分布 即渐近服从 将这一正态随机变量进行标准化 则有 0 1 说明 样本无论抽自正态或非正态总体 只要样本容量足够大 在总体平均数和方差已知和有限的条件下 样本平均数的抽样分布就会趋于正态分布 一般认为样本容量 30时 即可用定理7 2作为推断的依据 二 样本平均数的抽样分布 二 总体方差未知时 样本平均数的抽样分布当总体方差未知时 可以用样本方差代替总体方差 或用样本标准差代替总体标准差 则有 定理7 3 设总体 是其一个简单随机样本 样本平均数为 样本标准差 则统计量 即当总体方差未知时 样本平均数服从自由度为的分布 三 样本比例 成数 的抽样分布 当从总体中抽取一个容量为的样本时 样本中具有某种特征的单位数服从二项分布 即有 且有 因此样本比例也服从二项分布 且有 根据中心极限定理 当 时 二项分布趋近于正态分布 所以 在大样本下 若和均大于5 样本比例近似服从正态分布 第三节抽样估计的基本方法 一 点估计 一 概念1 点估计2 矩估计 设总体随机变量的分布函数已知 但它的一个或多个参数未知 若从总体中抽取一组样本观察值 以该组数据来估计总体参数 就称为参数的点估计 矩估计法是用样本的矩去估计总体的矩 从而获得总体有关参数的估计量的方法 矩是指以期望值为基础定义的数字特征 如数学期望 方差 协方差等 一 点估计 二 矩估计法的评价优点 一 计算简便直观 一般不考虑抽样误差和可靠程度二 适用于对估计准确与可靠程度要求不高的情况局限性 一 它要求总体矩存在二 不能充分利用估计时已掌握的有关总体分布的信息 一 点估计 三 应用例题 例7 1 某厂对所生产的电子元件抽取5 进行抽样调查 计算出样本的平均耐用时间为4340小时 样本合格率为98 根据矩估计法原理 估计该厂所生产的电子元件的平均耐用时间和合格率 解 点估计法是用样本指标直接作为总体指标的代表值 所以 全部电子元件的平均耐用时间即为4340小时 总体合格率为98 二 区间估计 一 区间估计的概念根据样本统计量以一定的可靠程度去估计总体参数值所在的范围或区间 是抽样估计的主要方法 二 抽样估计的置信度与精确度1 置信度 表示区间估计的可靠程度或把握程度 也即所估计的区间包含总体参数真实值的可能性大小 一般以1 表示 其中表示显著性水平 即某一小概率事件发生的临界水平置信度通常采用三个标准 1 显著性水平 0 05 即1 0 95 2 显著性水平 0 01 即1 0 99 3 显著性水平 0 001 即1 0 999 二 抽样估计的置信度与精确度 2 抽样估计的精确度 用置信区间的大小即抽样极限 允许误差来表示3 抽样估计的置信度与精确度的矛盾关系在样本容量和其他条件一定的情况下 若希望抽样估计有较高的可靠度 则必须扩大置信区间 即必须降低估计的精确度若希望抽样估计有较高的精确度 即置信区间范围缩小 则必须降低估计的把握度即 抽样估计要求的把握度越高 则抽样允许误差越大 精确度越低 反之则相反 思考 在抽样调查中 如何同时提高抽样估计的精确度和把握度 区间估计的应用 一 总体均值的区间估计1 总体方差已知时当 时 来自该总体的简单随机样本的样本均值服从数学期望为 方差为的正态分布 将样本均值统计量标准化 得到统计量根据区间估计的定义 在给定的显著性水平下 总体均值在1 的置信度下的置信区间为 即其中 即抽样平均误差 即抽样允许误差 1 总体方差已知时总体均值的区间估计 例题应用 例7 3 某厂生产的零件长度服从正态分布 从该厂生产的零件中随机抽取25件 测得它们的平均长度为30 2厘米 已知总体标准差 0 45厘米要求 1 计算抽样平均误差和抽样允许误差 2 估计零件平均长度的可能范围 0 05 已知 30 2 25 1 0 95 解题过程 1 抽样平均误差查标准正态分布表可知在 0 05时 1 96 所以 抽样允许误差 2 总体均值的置信区间为 30 02 30 38 即我们可以以95 的概率保证该厂零件平均长度在30 02厘米到30 38厘米之间 2 总体方差未知时总体均值的区间估计 总体方差未知 可以以样本方差代替 但新的统计量不服从标准正态分布 而是服从自由度为 1的分布 给定置信度1 可查分布表确定临界值从而总体均值的置信区间为 其中 即为抽样平均误差即为抽样允许误差上式也可表示为 例题应用 例7 4 从某市高中生中按不重复抽样方法随机抽取25名调查每周收看电视的时间 分组资料见下表 要求 1 计算抽样平均误差和抽样允许误差 2 估计该市全体高中生每周平均看电视时间的置信区间 给定的显著性水平为0 05 解题过程 一 已知 25 0 05样本均值样本方差 4 33 1 查分布表知 0 05时 临界值 2 0639 因此 抽样平均误差抽样允许误差 解题过程 二 2 总体均值置信度为95 的置信区间为 5 0 859 5 0 859 4 14 5 86 即我们可以以95 的把握保证该市高中生每周平均看电视时间在4 14到5 86小时之间 二 总体比例的区间估计 在大样本下 样本比例的分布趋近于均值为 方差为的正态分布 因此 给定置信度1 查正态分布表得 则样本比例的抽样极限误差为 所以 总体比例的置信度为1 的置信区间为 例题分析 例7 4 某厂对一批产成品按不重复抽样方法随机抽选200件进行质量检测 其中一等品160件 试以90 的概率估计一等品率的范围已知 1 90 200查表知 1 645计算得样本比例的抽样平均误差为 抽样极限误差为 所以 该批产品的一等品比例的置信区间为 即这批产品的一等品率在75 35 到84 66 之间 三 总体方差的区间估计 1 大样本情况下 样本标准差的分布近似服从正态分布 所以 总体标准差的置信度为1 的置信区间近似为 2 小样本情况下 若总体呈正态分布且其均值和方差未知 则总体方差的置信区间可由如下统计量的分布来确定 总体方差的置信度为1 的置信区间为 例题应用 例7 5 从某班学生中随机抽取16人 计算得语文平均成绩为75分 方差为25分 假定学生成绩服从正态分布 试求总体方差及标准差的置信区间 给定的显著性水平为0 05 解 已知 25 0 05 查分布表确定两个临界值 将临界值数字带入上述公式中 总体方差和标准差的置信度为1 的置信区间分别为 即为 13 64 59 89 即为 3 69 7 74 四 两个总体均值之差的区间估计 设两个正态总体为 方差 已知 从两个总体中分别抽取容量为和的大样本 则样本均值之差服从正态分布 均值为 方差为即从而可以构造在置信度为1 水平下的置信区间 例题应用 例7 6 两家公司员工的月平均工资都服从正态分布 现从两公司随机各抽取16名员工组成样本 计算得样本均值分别为3000元和2400元 已知两公司全体职工平均工资的标准差分别为3600元和2800元 要求 分别以95 和99 的置信度估计两公司员工平均工资之差的置信区间解 已知 16根据上述公式 的置信区间为 例题应用 1 当1 95 时 查表知 置信区间为 即我们以95 的概率保证两公司员工平均工资之差在560 8元到639 2元之间 2 当1 99 时 查表知 此时的置信区间为 即我们以99 的概率保证两公司员工平均工资之差在548 4元到651 6元之间 五 两个总体比例之差的区间估计 设两个总体的比例分别为和 分别从两个总体中随机抽取容量为和的大样本 并计算样本比例和 可以证明 当和都很大 从而 5和 5时 的分布近似服从正态分布 且 因此 的置信度为1 的置信区间为 由于总体比例未知 以样本比例来代替 上述置信区间为 例题应用 例7 8 对两个高校的在校生参加社会实践的情况进行调查 分别随机抽取了200名学生 其中参加过社会实践的学生比例分别为80 和60 要求 计算两个高校参加过社会实践的学生比例之差的置信区间 0 05 解 由于 200属于大样本 符合 5和 5的条件 又知 80 60 1 95 查表知 故置信区间为 即我们有95 的把握保证两个高校的学生参加过社会实践的比例之差在16 08 到23 92 之间 第四节抽样调查的组织方式 一 简单随机抽样 一 概念 二 评价 简单易行 最符合随机原则 是抽样调查的基本形式 三 适用情况 当总体单位数不多且分布比较均匀 或总体单位之间数量特征值差异较小 或总体单位有现成的编号时 采用这种方式比较适宜 又称纯随机抽样 是对总体单位不做任何分类或排队 直接从总体中按随机原则抽取样本单位的调查方式 二 类型抽样 一 概念 二 适用情况 总体单位在被研究标志上有明显差异时 三 遵循原则 分组时应使组内差异尽可能小 组间差异尽可能大等比例类型抽样 四 种类 不等比例类型抽样 又称分层抽样或分类抽样 是将统计分组和抽样调查结合起来的组织方式 先将总体单位按某一标志分成若干组 然后在各组中采用简单随机抽样或其他方式抽取样本单位 三 等距抽样 一 概念无关标志排序抽样 排序的标志与被研究的标志无关 实质是简单随机抽样 二 分类有关标志排序抽样 排序的标志与被研究的标志有关 有利于提高样本的代表性 三 评价 抽样误差一般较简单随机抽样小 当被研究现象标志变异程度较大时 更能显示出其优越性 但有可能产生系统性误差 又称机械抽样或系统抽样 它是先将总体
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工业废水处理技术与工程实践
- 工业建筑设计风格与案例分析
- 工业废水处理现状及发展趋势分析
- 工业自动化技术的进步与影响
- 工业自动化产品的市场前景分析
- 工作场所的健康零食推 荐与制作方法分享
- a级检修管理制度
- 标准报价体系管理制度
- 校内住宿安全管理制度
- 校园之声编辑管理制度
- 普通建筑用石料凝灰岩矿开采项目开采方案与采矿工艺简介
- 国开期末考试《建筑制图基础》机考试题及答案(第D-4套)
- 2022-2023学年部编版高中语文必修上册第1-2课(群文阅读)课件27张
- 岗位风险点辨识表
- 把信送给加西亚(英文版)
- 超星尔雅学习通《森林资源经营管理》章节测试含答案
- 大学学生代表大会流程课件
- 尾矿库堆坝模型试验
- 福建省普通公路建设项目施工单位管理标准化指南(共119页)
- 《心电监护》ppt课件
- 土地整治项目管理PPT
评论
0/150
提交评论