统计学5.+抽样分布与抽样方法_第1页
统计学5.+抽样分布与抽样方法_第2页
统计学5.+抽样分布与抽样方法_第3页
统计学5.+抽样分布与抽样方法_第4页
统计学5.+抽样分布与抽样方法_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

推断统计学 统计推断的过程 抽样分布 第五章抽样分布与抽样方法 主要内容 第一节随机抽样与统计推断第二节抽样分布第三节抽样设计方法调整 1 抽样调查 概念 特点 作用 2 抽样调查的方法3 抽样分布与中心极限定理4 抽样误差 学习目标 了解各种抽样设计方法了解常用的统计分布 掌握常用的统计量及其分布 5 1抽样调查的概念 特点和作用 统计学的目的是揭示总体数量分布的规律性 通常可以采用两种方法 全面调查和非全面调查 抽样调查 全面调查在应用时有很大的局限性 1 许多问题无法采用全面调查的方法 如产品的寿命 导弹的命中精度和杀伤力等 2 需要花费大量的人力 时间和费用 不仅经济上不可行 而且无法及时获得所需信息 例如 对原材料 零部件的质量检验 对顾客满意度的调查 对居民家庭收入与支出的调查等 3 由于调查人员的专业素质等原因 全面调查有时会产生较大的误差 5 1抽样调查的概念 特点和作用 一 抽样调查的概念广义 凡是抽取一部分单位进行观察 并根据观察结果来推断全体的都是抽样调查 可分为非随机抽样和随机抽样两种 狭义 随机抽样 按照随机原则从总体中抽取一部分单位进行观察 并运用数理统计的原理 以被抽取的那部分单位的数量特征为代表 对总体作出数量上的推断分析 二 抽样调查的特点 一 按照随机原则抽取总体中的一部分单位进行调查 随机原则是指在抽取样本单位时完全排除调查者的主观判断 使各总体单位都有同等的被抽中的机会 只有严格遵循随机原则 才能使样本的内部结构类似于总体的结构分布特征 对总体具有充分的代表性 二 用一部分单位的指标数值去推断总体的指标数值抽样调查的目的是根据所得到的样本数据推断被调查现象总体的特征 如总体指标 总体的概率分布等 这是其他非全面调查方法都无法做到的 5 1抽样调查的概念 特点和作用 二 抽样调查的特点 续 三 抽样调查会产生抽样误差 抽样误差可以计算 并且可以加以控制 任何调查方法都会产生误差 抽样调查以概率论为其理论依据 根据数理统计所提供的抽样误差的理论和方法 可以把推断的误差控制在一定的精确度内 以满足实际工作的需要 而其他调查方法都无法计算和控制误差 5 1抽样调查的概念 特点和作用 三 抽样调查的作用抽样调查能够解决全面调查无法或难以解决的问题 抽样调查可以补充和订正全面调查的结果 抽样调查方法可以用于生产过程中产品质量的检查和控制 抽样调查方法可以用于对总体的某种假设进行检验 以判断这种假设的真伪 决定行动的取舍 5 1抽样调查的概念 特点和作用 四 抽样调查的优点 抽样调查和全面调查相比 有以下有显著优点 1 费用低与进行全面调查相比 抽样调查可以节省大量的人力 物力 财力 获得得事半功倍的效果 2 速度快调查和综合样本资料要比收集和综合全面调查的资料更快 当有些资料具有很强的时效性时 全面调查只能获取陈旧的信息 而抽样调查可以获得及时的信息 5 1抽样调查的概念 特点和作用 四 抽样调查的优点 续 3 适用面广许多社会经济现象不可能采用全面调查方法 如破坏性的产品检验 矿藏资源的调查等等 只能用抽样调查 有些调查则需要受过专业训练的人员或专用设备来获得有关数据 也只能用抽样调查方法 此外当要调查的是无限总体时 就更不可能进行全面调查 4 准确度高由于抽样调查的工作较全面调查大大减少 调查人员可以经过专门训练 因此可能取得更准确的结果 例如对人口普查 统计报表制度等获得的全面调查结果 通常需要采用抽样调查进行验证或修正 5 1抽样调查的概念 特点和作用 5 1抽样调查的概念 特点和作用 五 全及总体和抽样总体全及总体 简称总体 是指所要认识对象的全体 是许多同质性单位的集合 通常用大写字母N来表示 容量 抽样总体 简称样本 是从全及总体中随机抽取出来 代表全及总体部分单位的集合 通常用小写字母n来表示 容量 样本容量 Samplesize 样本中所含个体的数量 分为大样本 30 小样本 30 样本个数 又称为样本可能数目 是指从一个总体中可以抽取的样本个数 一 两种抽样方式 抽样方式可分为重复抽样和不重复抽样两种 重复抽样 又称放回抽样 指每次从总体中随机抽取一个样本单位 观察登记其标志值后再放回总体中 如此进行n次的抽样方法 重复抽样的特点 在重复抽样的过程中 被抽取的总体单位总数始终保持不变 每一次抽样中各总体单位被抽到的机会都相同 每次抽样结果相互独立 每一总体单位都有被重复抽取的可能 5 2抽样调查的方法 一 两种抽样方式 续 2 不重复抽样 也称不放回抽样 指被抽到的单位不再放回总体 每次仅在余下的总体单位中抽取下一个样本的抽样方法 特点 任一总体单位都不会被重复抽到 每次抽样结果都受到以前各次抽取结果的影响 因此各次抽取结果是不独立的 可以一次抽取所需要的样本单位数 在实际应用中通常采用的都是不重复抽样方法 5 2抽样调查的方法 二 抽样方法 抽样方法关系到抽样调查的成本费用和抽样误差的大小 应根据调查的目的 和调查对象的特点采取不同的抽样方法 5 2抽样调查的方法 只介绍 概率抽样 probabilitysampling 根据一个已知的概率来抽取样本单位 也称随机抽样 特点 按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的 或是可以计算出来的当用样本对总体目标量进行估计时 要考虑到每个样本单位被抽中的概率 5 2抽样调查的方法 概率抽样 1 简单随机抽样也称纯随机抽样 指不对总体作任何处理 直接按随机原则抽取调查单位的抽样方式 特点 简单 直观 在抽样框完整时 可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性 当N很大时 不易构造抽样框抽样框又称 抽样框架 抽样结构 是指对可以选择作为样本的总体单位列出名册或排序编号 以确定总体的抽样范围和结构 抽出的单位很分散 给实施调查增加了困难没有利用其他辅助信息以提高估计的效率 5 2抽样调查的方法 2 分层随机抽样 也称类型抽样 是将总体按某一主要标志进行分类 分组 分别从各类型组中随机抽取一部分调查单位共同组成样本 5 2抽样调查的方法 2 分层抽样例如 对企业进行调查时将企业划分为特大型企业 大型企业 中型企业和小型企业四个类型组 对家庭收入进行调查时将居民家庭分为高收入 中等收入 低收入三个类型组等 优点 保证样本的结构与总体的结构比较相近 从而提高估计的精度组织实施调查方便既可以对总体参数进行估计 也可以对各层的目标量进行估计 5 2抽样调查的方法 2 分层抽样一般采用等比分配法 子样本容量与子总体容量之比等于样本容量与总体容量之比 例 某大学商学院想对今年的毕业生进行一次调查 以便了解他们开始工作时的年薪 计划选取180人的一个样本 5 2抽样调查的方法 3 整群抽样将总体中若干个单位合并为组 群 抽样时直接抽取群 然后对中选群中的所有单位全部实施调查 5 2抽样调查的方法 3 整群抽样特点 抽样时只需群的抽样框 可简化工作量调查的地点相对集中 节省调查费用 方便调查的实施当群中的元素差异性大时 整群抽样得到的结果比较好 在理想状态下 每一群是整个总体小范围内的代表 如对人口普查资料进行复查 就采用整群抽样的方式 缺点是估计的精度较差 5 2抽样调查的方法 3 整群抽样 5 2抽样调查的方法 4 机械抽样也称等距抽样和系统抽样 其步骤如下 1 按某一标志值的大小将总体单位进行排队并顺序编号 2 根据确定的抽样比例确定抽样间距 3 随机确定第一个样本单位 4 按顺序从总体中等间距地抽取其余样本单位 系统抽样的随机性主要体现在第一个样本单位的抽取上 因此一定要保证抽取第一个样本单位的随机性 5 2抽样调查的方法 4 机械抽样例如 需要从容量为5000的总体中抽取一个容量为50的样本 我们可以从总体中随机选择一个 然后在其后面的单位中 每隔100个个体选择一个 可得到样本中其余的个体 因为第一个个体的选择是随机的 因此系统样本常常假定具有简单随机样本的性质 优点 操作简便 可提高估计的精度缺点 对估计量方差的估计比较困难 5 2抽样调查的方法 5 多级抽样多阶段抽样 概率比例抽样法 在整群抽样中 当子群数或子群内部个体数目较多 彼此间的差异不太大时 常采用更经济方法 即不将样本子群的所有个体作为样本 而是再从中用前述各种随机抽样的方法抽取样本 因而最终样本的获得经过两次抽样 我们称其为二阶段整群抽样 同样可做三阶段 四阶段 即多阶段整群抽样 对于群体规模不等的多阶段整群抽样 通常使用概率比例抽样法 是根据每一群的规模分配样本容量 在将总体划分成子群时 每个子群中个体的含量常常不同 在这种情况下 二阶段抽样由于第一次抽取子群大小不同 只有在第二阶段抽样时采取措施 才能使总体中每个分子具有同等进入样本的概率 5 2抽样调查的方法 6 多种抽样方法的综合使用例 2003年中国统计年鉴 四 人口简要说明2002年人口变动情况抽样调查是以全国为总体 各省自治区直辖市为次总体 采用分层 等距 整群概率比例抽样方法 在全国31个省自治区直辖市抽取了981个县 市区 3600个乡 镇街道 6064个调查小区的126万人 经加权后汇总 2002年全国人口出生率为12 86 死亡率为6 41 自然增长率为6 45 按此推算2002年末全国总人口为28453万人 出生人口为1647万人 死亡人口为821万人 净增人口为826万人 5 2抽样调查的方法 5 3抽样分布与中心极限定理 一 抽样分布的概念二 样本均值抽样分布三 样本比率的抽样分布 抽样分布的概念 概念回顾 总体指标和抽样指标 一 总体指标根据全及总体各个单位的标志值或标志特征计算的 反映总体某种属性的综合指标 在抽样调查中 总体指标都是未知的常数 需要使用样本指标进行推断估计 故称为待估的参数 变量总体 总体平均数 标准差 和方差 2属性总体 总体成数 具有某一特征的个体的成数 概念回顾 总体指标和抽样指标 二 抽样指标 即统计量 由抽样总体各个标志值或标志特征计算的综合指标 抽样平均数样本标准差样本方差抽样成数统计量不能包含总体的未知参数 概念回顾 总体指标与抽样指标 样本统计量 注意样本统计量由样本各个标志值计算的综合指标 不包含任何 未知的 参数 总体指标 什么是样本统计量的抽样分布 在抽样中 由于样本是随机抽取的 对每一个特定样本 统计量都有一个相应数值 所以统计量是一个随机变量 其取值随样本不同而不同 样本统计量 是由样本n个观察值计算的统计量的概率分布 样本统计量的抽样分布 从一个总体中随机抽出容量相同的各种样本 从这些样本计算出的某统计量所有可能值的概率分布 称为这个统计量的抽样分布 抽样分布的形成过程 samplingdistribution 样本统计量的概率分布 是一种理论分布 在重复选取容量为n的样本时 由该统计量的所有可能取值形成的频数分布 随机变量 样本统计量样本均值 样本比例 样本方差等抽样分布结果来自容量相同的所有可能样本 根据统计量的抽样分布 我们可以对总体的参数进行统计推断 5 抽样分布是样本统计量的分布而不是总体或样本的分布 抽样分布 samplingdistribution 抽样分布的构造 例 样本均值的抽样分布 例题分析 例 设一个总体含有4个个体 分别为X1 1 X2 2 X3 3 X4 4 总体的均值 方差及分布如下 均值和方差 样本均值的抽样分布 现从总体中抽取n 2的简单随机样本 在重复抽样条件下 共有42 16个样本 所有样本的结果如下表 样本均值的抽样分布 各样本的均值如下表 并给出样本均值的抽样分布 所有样本均值的均值和方差 1 样本均值的均值 数学期望 等于总体均值2 样本均值的方差等于总体方差的1 n M为样本数目 样本均值的抽样分布与总体分布的比较 样本均值的抽样分布 不重复抽样 从总体中抽取n 2的简单随机样本 在不重复抽样条件下 共有12个样本 所有样本的结果如下表 样本均值的抽样分布 不重复抽样 各样本的均值以及样本均值的抽样分布如下 样本均值的抽样分布 所有样本均值的均值和方差 N 4为总体容量 n 2为样本容量 M 12为样本数目 有限总体校正系数FinitePopulationCorrectionFactor 注意 不重复抽样时样本均值的方差等于重复抽样时的方差乘以有限总体校正系数 当n N 0 05时可以忽略有限总体校正系数 构造样本统计量抽样分布的步骤 1 从容量为N的有限总体中随机选取容量为n的所有可能样本 2 计算出每个样本的统计量值 3 将来自不同样本的不同统计量值分组排列 把对应于每个数值的相对出现频数排成另一列 由此 全部可能的样本统计量值形成了一个概率分布 这个分布就是我们想要得到的抽样分布 构造样本统计量抽样分布的步骤 正态总体抽样分布定理P141 定理5 2 正态总体抽样分布定理 如果总体X N 2 X1 X2 Xn是来自X的简单随即样本 P132 卡方分布 P132 t分布 非正态总体的抽样分布 大样本非正态总体样本均值的抽样分布 样本均值的抽样分布与中心极限定理 一般的 当总体服从N 2 时 来自该总体的容量为n的样本的均值 X也服从正态分布 X的期望为 方差为 2 n 即 X N 2 n 中心极限定理 中心极限定理与样本均值的抽样分布 中心极限定理 设从均值为 方差为 2的一个任意总体中抽取容量为n的样本 当n充分大时 样本均值的抽样分布近似服从均值为 方差为 2 n的正态分布 中心极限定理 centrallimittheorem x的分布趋于正态分布的过程 样本均值的抽样分布 总体分布 正态分布 非正态分布 大样本 正态分布 正态分布 样本均值抽样分布 样本均值抽样分布与抽样方式的关系 重复抽样 不重复抽样 样本比率 成数 抽样分布 样本比例的抽样分布 重复抽样 P142 设总体比例等于P N1 N 重复抽样时样本比例p k n服从二项分布 均值为nP n P 方差为nP 1 P n 2 P 1 P n中心极限定理 n很大时二项分布趋向于正态分布 一般认为np 5 n 1 p 5时 可以用正态分布来进行近似计算 样本比例的抽样分布 不重复抽样 不重复抽样时p的理论分布为超几何分布 当N很大时超几何分布 二项分布 中心极限定理 n很大时二项分布趋向于正态分布 当np 5 n 1 p 5时 可以用正态分布来进行近似计算 当n N 0 05时可以忽略有限总体校正系数 样本比率的抽样分布 比率 总体 样本 中具有某种属性的单位与全部单位总数之比 容量足够大np 5 n 1 p 5 5 4抽样误差P146 抽样优良性的一个准则 1 统计误差和抽样误差 1 统计误差和抽样误差统计结果与现象实际之间存在的差异统称为统计误差 统计误差可以分为以下两类 1 登记性误差 指由于调查工作中的差错或弄虚作假等原因而引起的误差 无论是全面调查还是非全面调查 都可能存在登记性误差 登记性误差从理论上应是可以避免的 但实际中却难以完全避免 在误差理论中不考虑这类误差 2 代表性误差 指由于随机样本内部结构与总体结构之间存在差异而引起的样本指标与总体指标之间的差异 代表性误差又可分为两类 系统性误差 指由于违反抽样的随机原则而产生的误差 随机误差 也称抽样误差 指由于随机抽样本身导致的现样本内部结构与总体结构不一致而产生的误差 在抽样调查中随机误差是不可避免的 如全部产品中有2 的次品 随机抽取100件 其中恰好有2件次品的可能性是很少的 2 标准误差 抽样平均误差 标准误差的概念在一次抽样中 均值和成数这两个指标的抽样误差可以分别表示为 但由于样本指标是随机变量 根据不同的样本计算的样本指标都不会相同 因而不同样本的抽样误差也就各不相同 因此需要引进标准误差的概念 标准误差 是指所有可能样本的样本指标与总体指标间的标准差 反映抽样误差的平均水平 就是样本统计量抽样分布的标准差 简单随机抽样的标准误差 1 均值的标准误差 不重复抽样 N 总体单位总数 当抽样比n N 5 或总体单位数未知时 或无限总体时 可按重复抽样公式计算抽样平均误差 重复抽样 2 比例的标准误差 重复抽样 P 总体比例p 样本比例 不重复抽样 3 影响抽样误差的主要因素 1 总体标准差 总体标准差越大 样本结构就越难以接近总体结构 抽样误差也就越大 2 样本容量 样本容量越大 样本结构就越接近总体结构 样本对总体的代表性就越高 抽样误差就越小 3 抽样方式 不重复抽样可以使样本内部结构更接近总体结构 因此不重复抽样的抽样误差小于重复抽样 4 抽样方法 不同抽样的方法 将直接影响样本内部结

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论