4抽样与抽样分布.ppt_第1页
4抽样与抽样分布.ppt_第2页
4抽样与抽样分布.ppt_第3页
4抽样与抽样分布.ppt_第4页
4抽样与抽样分布.ppt_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

4统计抽样与抽样分布 抽样的基本概念抽样方法抽样分布的概念样本均值的抽样分布 本章的学习目的 本章的学习目的是为了认识到通过样本推断总体的科学性 当总体元素非常多 或者检查具有破坏性时 需要进行抽样 抽样的目的是为了推断总体的数量特征 但这种推断必定伴有某种程度的不确定性 需要用概率来表示其可靠程度 这是推断统计的重要特点 案例 1936年美国总统选举的预测 民主党罗斯福VS共和党兰登 文摘 邮寄了1000万份调查表 收回240万份 预测兰登获得57 的选票获胜 而盖洛普研究所仅仅随机抽取了2000多选民 预测罗斯福将得到54 的选票获胜 选举结果是罗斯福获得62 的选票获胜 此后 盖洛普研究所每年用1000 1500人的样本快速准确的预测选举 误差在2 之内 抽样的基本概念 抽样调查 按照随机原则从全部研究对象中抽取一部分单位进行调查 并以调查结果对总体数量特征作出具有一定可靠程度的估计与推断 从而认识总体的一种统计方法 随机原则 指样本单位的抽取不受主观因素及其他系统性因素的影响 每个总体单位都有均等的被抽中机会 随机原则的实现 抽签法 是将总体中每个单位的编号写在外形完全一致的签上 将其搅拌均匀 从中任意抽选 签上的号码所对应的单位就是样本单位 随机数表法 将总体中每个单位编上号码 然后使用随机数表 查出所要抽取的调查单位 计算机模拟法 是将随机数字编制为程序存储在计算机中 需要时将总体中各单位编上号码 启用随机数字发生器输出随机数字 并非所有的抽样估计都按随机原则抽取样本 也有非随机抽样 总体 随机样本 非随机样本 与总体分布特征相同 与总体分布特征不同 抽样的基本概念 总体 要研究的调查对象的全体 个体 组成总体的每个元素 样本 从总体中随机抽取的部分个体 样本容量 样本中所含的个体数量 样本和总体 sample population 视频教学 抽样误差 167CM 169CM 172CM 160CM 162CM 167CM 175CM 180CM 165CM 167CM 170CM 175CM 178CM 180CM 162CM 173CM 155CM 160CM 170CM 165CM 平均身高 169 8CM 平均身高 174 6CM 总平均身高 168 6CM 抽样的基本概念 抽样误差 用于抽样的随机性所带来的误差 是一种固有误差 非抽样误差 调查过程中发生的误差 以及由于主观因素破坏了随机性原则而产生的系统性偏差 是可以避免的 随机抽样设计 不同的抽样方式 对抽样结果有很大影响 根据研究目的和要求 以及具体情况选择抽样方式 简单随机抽样 等距抽样 类型抽样 整群抽样 多阶段抽样等 抽样方法 概率抽样 根据已知的概率选取样本简单随机抽样 完全随机抽取样本 分层抽样 总体分 层 在每一层内进行抽样 整群抽样 将总体划分为若干群 将一组被调查者 群 作为一个抽样单位 群内的个体存在差异 理想情况是每个群都是总体的一个缩影 等距抽样 在样本框中 每隔一定距离抽选一个被调查者 抽样方法 非概率抽样 不是完全按照随机原则选取样本非随机抽样 由调查人员自由选取被调查者 判断抽样 通过某些条件过滤来选取被调查者 抽样分布 在讨论抽样分布之前 需要回顾以下一些与概率分布有关的概念 随机变量 离散型随机变量及其概率分布 连续型随机变量及其概率分布 概率密度函数 随机变量 RandomVariable 随机变量是表征一个随机试验结果的变量 其数值由一次试验结果所决定 但是在试验之前是不确定的 随机变量的所有可能取值就是所有基本事件对应的值 通常用英文大写字母或希腊字母表示 离散型 非离散型 连续型 随机变量 RandomVariable 离散型随机变量 投掷骰子 非离散型随机变量 某路口24小时内经过的车辆 连续型随机变量 灯泡寿命 离散型随机变量 离散型随机变量的取值域由有限个或可数多个数值或符号组成 其概率是指离散型随机变量 X 取一个具体数值 x 的概率 即P X x 离散型随机变量的概率分布是指离散型随机变量取遍每一个实验结果x的概率的分布情况 常用列表表示 如下表 离散型随机变量 连续型随机变量 连续型随机变量的取值域为一个连续区间 只有在 连续的 区间上取值时 其概率才可能为正值 连续型随机变量在任何一点上的概率都为零 概率密度函数 连续型随机变量的概率密度函数f x 概率密度函数的含义 曲线f x 下任何一个区间的面积 等于随机变量X在该区间取值的概率 最常见的连续型随机变量的概率分布 正态分布 P40 若随机变量X的概率密度函数 记为 最常见的连续型随机变量的概率分布 标准正态分布 标准正态分布 标准正态分布的计算 例 设随机变量X N 0 1 求下列概率 1 P X1 4 P 1 80 X 2 45 例 设随机变量X N 0 1 求下列概率 1 P X1 4 P 1 80 X 2 45 正态分布的计算 例题 某厂生产的某种节能灯管使用寿命服从正态分布 对某批次产品的测试结果 平均使用寿命为1050小时 标准差为200小时 求 1 使用寿命在500小时以下的灯管占多大比例 2 使用寿命在850 1450小时的灯管所占比例 3 以均值为中心 95 的灯管使用寿命的范围 什么是抽样分布 如果要估计总体的均值 是用样本平均值 还是用中位数m 还是掷骰子 总体均值第一次 2 2 6 m 2第二次 3 4 6 m 4 可见 不能仅仅根据一个样本去比较是和m样本统计量本身是随机变量 抽样分布就是由样本n个观察值计算的统计量的概率分布 样本均值的抽样分布 一个总体1 2 3 4 重复抽样方法 先抽一个 放回 再抽一个 样本均值的抽样分布 样本均值的抽样分布 有放回 withreplacement 抽样 样本均值的抽样分布 样本均值的抽样分布 1 01 52 02 53 03 54 0 中心极限定理 中心极限定理 不论该总体服从何种分布 只要当样本容量足够大 样本均值的分布都近似服从正态分布 视频 中心极限定理视频 样本均值的抽样分布 样本均值的抽样分布 中心极限定理 程序模拟 视频 程序模拟n的不断增加 样本均值的抽样分布与总体的关系 抽样分布例题1 某汽车电池的制造商声称其最好的电池寿命的均值是54个月 标准差为6个月 某消费组织决定购买50个该品种电池作为样本来检验电池寿命 1 假设该制造商所言为真实的 请描述这50个电池样本的平均寿命的抽样分布 2 假设该制造商所言是真实的 则消费组织的样本寿命小于或等于52个月的概率是多少 抽样分布例题1 1 运用中心极限定理推断 对于50个电池的样本来说 平均寿命的分布近似正态分布 因此 这个抽样分布的均值与抽样总体的均值是相同的 抽样分布的标准差由公式计算 得个月 个月 抽样分布例题1 2 假设制造商所言是真实的 则对于50个电池的样本来说 消费组织观察到电池的平均寿命小于或者等于52个月的概率 等于下图的阴影面积 计算标准正态分布z值求这个面积 抽样分布例题1 因此 假设制造商的声明是真实的 则消费组织观察到的样本均值 即电池平均寿命 小于或者等于52个月的概率仅为0 0094这么小的概率几乎是不可能发生的 那么 如果50个电池的平均寿命小于52个月 则说明该制造商所言是不真实的 抽样分布例题2 美国汽车联合会 AAA 是一个拥有90个俱乐部的非营利联盟 它对其成员提供旅行 金融 保险以及与汽车相关的各项服务 1999年5月 AAA通过对会员调查得知一个4口之家出游中总体平均每日餐饮和住宿费用大约是213美元 标准差是15美元 假设选取49个4口之家 并对其在1999年6月期间的旅行费用进行记录 1 描述 样本家庭平均每日旅行消费 的抽样分布 抽样分布例题2 1 运用中心极限定理推断 对于49个家庭的样本来说 平均每日旅行消费的分布近似正态分布 因此 这个抽样分布的均值与抽样总体的均值是相同的 抽样分布的标准差由公式计算 得美元 美元 抽样分布例题2 2 对于样本家庭来说 平均每日消费大于217美元的概率是多少 3 在209

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论