抽样误差与假设检验.ppt_第1页
抽样误差与假设检验.ppt_第2页
抽样误差与假设检验.ppt_第3页
抽样误差与假设检验.ppt_第4页
抽样误差与假设检验.ppt_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 复习 1 描述数值型资料的分布用什么方法 2 如何描述数值型资料的分布特征 3 描述数值型资料的集中趋势和离散趋势指标有哪些 4 正态分布的特征 2 第三章抽样误差与假设检验 掌握内容 1 t分布的概念和特征 2 总体均数的区间估计 3 假设检验的基本步骤 4 假设检验的基本原理 5 常用的数值型变量假设检验的方法 3 熟悉 1 抽样误差的概念2 引起抽样误差的原因3 均数的标准误的计算4 标准差和标准误的区别 第三章抽样误差与假设检验 4 第一节抽样分布与抽样误差 一 抽样研究 一 抽样研究的意义 5 1 由于研究对象很多是无限总体 要直接研究总体的情况是不可能的 2 即使对有限总体来说 若包含的观察单位数过多 需要耗费大量的人力 物力和时间 而且也不易组织 难以保证工作的质量 3 有的时候 观察的实质就是一种破坏性实验 根本就不允许对总体中的每一个体逐一观察 为什么要做抽样研究 6 目前抽样研究的理论与技术已发展成熟 只要严格按照有关抽样研究的要求去做 这是完全可行的 目的 就是要用样本信息来推断总体特征 这就叫统计推断 statisticalinference 7 二 抽样研究和抽样误差 抽样研究是指从总体中按照随机化的原则 抽取一定数量的个体组成样本进行研究 从而推断总体的研究方法 在抽样研究中产生的样本统计量与相应的总体参数间的差异 称为抽样误差 samplingerror 8 三 抽样误差的分布理论上可以证明 若从正态总体中 反复多次随机抽取样本含量固定为n的样本 那么这些样本均数也服从正态分布 即的总体均数仍为 样本均数的标准差为 抽样分布 抽样分布示意图 9 三 抽样误差的分布中心极限定理当样本含量很大的情况下 无论原始测量变量服从什么分布 的抽样分布均近似正态 抽样分布 图抽样分布示意图 10 二 均数的抽样误差 如上所述 数理统计研究表明 抽样误差具有一定的规律性 可以用特定的指标来描述 这个指标称为标准误 standarderrorSE 标准误除了反映样本统计量之间的离散程度外 也反映样本统计量与相应总体参数之间的差异 即抽样误差大小 11 意义 反映抽样误差的大小 标准误越小 抽样误差越小 用样本均数估计总体均数的可靠性越大 与样本量的关系 S一定 n 标准误 标准误的计算公式 12 例4 1在某地随机抽查成年男子140人 计算得红细胞均数4 77 1012 L 标准差0 38 1012 L 试计算均数的标准误 13 均数标准误的用途 1 衡量样本均数的可靠性由于均数标准误越小 均数的抽样误差越小 样本均数就越可靠 代表性越好 2 估计总体均数的可信区间 3 用于均数的假设检验 14 第二节t分布 一 t分布 t distribution 一 Z分布 正态分布 normaldistribution 常将一般的正态变量X通过变换 转化成标准正态变量Z 以使原来各种形态的正态分布都转换为 0 1的标准正态分布 standardnormaldistribution 亦称Z分布 15 在正态分布总体中以固定n 如n 10 抽取若干个样本时 样本均数的分布仍服从正态分布 即 所以 对样本均数的分布进行Z变换 也可变换为标准正态分布N 0 1 16 由于在实际工作中 往往 是未知的 常用s作为 的估计值 为了与Z变换区别 称为t变换t 统计量t值的分布称为t分布 二 t分布 17 t分布有如下特征 1 以0为中心 左右对称的单峰分布 2 t分布是一簇曲线 其形态变化与n 确切地说与自由度 大小有关 自由度 越小 t分布曲线越低平 自由度 越大 t分布曲线越接近标准正态分布 u分布 曲线 如图4 1 图4 1自由度为1 5 的t分布 18 t分布曲线下的面积与自由度 有关系 如t分布曲线下面积为95 或99 的界值不是一个常量 而是随着自由度大小而变化的 分别用和表示 t分布曲线下面积 19 第三节总体均数的估计 统计推断包括两个重要的方面 参数估计和假设检验 参数估计就是用样本指标 称为统计量 statistic 来估计总体指标 参数 parameter 参数估计有两种方法 点估计和区间估计 20 第三节总体均数的估计一 可信区间的概念 ConfidenceInterval 区间估计 指按预先给定的概率 计算出一个区间 使它能够包含未知的总体均数 事先给定的概率称为可信度 通常取 参数估计 点估计 不考虑抽样误差 如 区间估计 考虑抽样误差 21 1 已知或 未知但n n 50 足够大时 由Z分布可知 1 已知 即 写成区间形式 二 可信区间的计算 22 同理 单侧可信区间为 或 或 2 未知 但足够大 可信区间为 23 2 未知 且n n 50 不够大时 按t分布原理得到均数的可信区间为 即 同理 单侧可信区间为 24 10 9 2 093 3 86 例对某人群随机抽取20人 用某批号的结核菌素作皮试 平均浸润直径为10 9cm 标准差为3 86cm 问这批结核菌素在该人群中使用时 皮试的平均浸润直径的95 可信区间是多少 该例n 20 n较小 因此 可认为平均浸润直径服从t分布 自由度 20 1 19 查t界值表 得 2 093 10 9 2 093 3 86 即 9 1 12 7 cm cm 25 图4 2模拟抽样成年男子红细胞数100次的95 可信区间示意图 三可信区间的注意问题 1 可信区间的涵义 26 准确度 反映在可信度的大小 即区间包含总体均数的概率的大小 愈接近1愈好 精密度 反映在区间的长度 长度愈小愈好 三可信区间的注意问题 2 可信区间的两个要素 准确度和精密度 27 3 均数的可信区间与参考值范围的区别 28 第四节 假设检验的基本步骤 假设检验 hypothesistest 是用来判断样本与样本 样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法 假设检验亦称差别有无统计学意义检验 significancetest 一 假设检验的基本思想 29 例 为研究某山区成年男子的脉搏均数是否高于一般成年男子的脉搏均数 如某医生在某山区随机测量了25名健康成年男子的脉搏 平均次数为74 2次 分钟 标准差为6 0次 分钟 但是根据医学常识 一般男子的平均脉搏次数为72次 分钟 问该山区男子脉搏均数是否高于一般男子的脉搏均数 结果是怎样呢 一 假设检验的基本思想 30 1 由抽样误差所造成 2 该样本均数确实与正常成年男性脉搏数不同 两种可能 一 假设检验的基本思想 31 先对总体的特征建立假设 然后判断此假设应该被拒绝或不被拒绝 假设检验的基本思想是小概率 P 0 05 反证法思想 是先提出假设 检验假设H0 再用适当的统计方法确定假设成立的可能性大小 如可能性小 则认为假设不成立 若可能性大 则还不能认为假设不成立 一 假设检验的基本思想 32 二 假设检验的基本步骤 零假设 无效假设 nullhypothesis 假设样本来自同一总体 即其总体参数相等 H0 备择假设 H1 alternativehypothesis 作为拒绝检验假设时的备选假设 检验水准 sizeoftest 又称显著性水平 significancelevel 为拒绝检验假设是犯第一类错误的概率 是预先设定的概率值 1 建立假设 确定检验水准 33 变量的分布类型不同 研究目的不同 都决定着选择何种检验方法 因此需选择合适的检验方法 并计算统计量 二 假设检验的基本步骤 2 选择检验方法 并计算统计量 34 根据计算的统计量 查阅相应的统计表 确定P值 以P值与检验水准比较 若 则拒绝 接受 若 则不拒绝 3 根据统计量确定P值 作出统计推断 二 假设检验的基本步骤 35 一般来说 推断的结论应包括统计结论和专业结论两部分 统计学结论只说明有统计学意义 statisticalsignificance 或无统计学意义 nostatisticalsignificance 再回头看本节刚

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论