第03章抽样误差_第1页
第03章抽样误差_第2页
第03章抽样误差_第3页
第03章抽样误差_第4页
第03章抽样误差_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

31 第第 3 章章 抽样误差抽样误差 3 1 抽样误差的概念 医学科研中通常采用抽样研究的方法 从某总体中随机抽取一个样本来进行研究 而所得样本统计量与总体参数常不一致 这种由抽样引起的样本统计量与总体参数间的 差异属于抽样误差 sampling error 这在抽样研究中是不可避免的 例如 假设某地成年男子血红蛋白的总体均数 为 13 76 g 100ml 随机抽查了 360 名男子 算得平均血红蛋白含量 13 45 g 100ml 若用此作为该地区成年男子血红XX 蛋白的总体均数 的一个估计值 则 13 76 13 45 0 31 g 100ml 此差值属于抽样误差 抽样误差有两种表现形式 其一是 样本统计量与总体参数间的差异 如样本均数 与总体均数间的差异 其二是 不同样本的统计量间的差异 如从同一总体中抽取含量 相等的两样本得到的两个样本均数之间的差异 从理论上讲 若进行 K 次抽样 所得的 K 个样本统计量 例如 则很可能各不相同 X 若将这些样本统计量编制成频率分布表或绘制成频率分布图 则可看出样本统计量的抽 样分布是有规律的 3 2 抽样误差产生的条件 抽样误差产生的两个必备条件 1 抽样研究 抽样研究是产生抽样误差的必备条件之一 只有对总体中的部分个 体进行研究 才可能导致样本指标与总体指标的不一致 而且在从同一总体进行抽样的 的研究中 样本含量越少的研究 理论上抽样误差必然越大 2 个体变异 个体变异是产生抽样误差的另一必备条件 在医学科研领域 许多 被研究对象都存在着变异现象 如血压 疗效 药物反应等 在抽样方法和样本含量不 变的条件下 变异大的研究样本其抽样误差也大 反之则小 以上是产生抽样误差的必备条件 缺一不可 若进行普查 则被研究对象的个体变 异将不会产生抽样误差 若个体间无变异 当然无需作抽样研究 也无抽样误差可言 32 3 3 均数的抽样误差及标准误 虽然均数的抽样误差可表现为样本均数与总体均数之差值 但由于总体均数往往是 未知的 故这个差值实际上是得不到的 只能估计 均数的抽样误差也可用多个样本均 数间的离散度表示 但由于对同一问题很少做多次同样的抽样研究 所以这个离散度一 般也是得不到的 那么 如何衡量抽样误差的大小 揭示抽样误差的规律呢 这就要应 用数理统计中的中心极限定理 central limit theorem 了 中心极限定理的涵义 1 从均数为 标准差为 的正态总体中独立 重复 随机抽取含量为 n 的样本 样本均数的分布仍为正态分布 其均数为 标准差为 X 2 即使从非正态总体 均数为 标准差为 中独立 重复 随机抽取含量为 n 的样 本 只要样本含量足够大 如 n 50 样本均数也近似服从均数为 标准差为的正态 X 分布 3 1 n X 在统计理论上将样本统计量的标准差称为统计量的标准误 standard error SE 用来 衡量抽样误差的大小 据此 样本均数的标准差称为均数的标准误 简称标准误 由 X 上式可见 此标准误与个体变异 成正比 与样本含量 n 的平方根成反比 实际工作中 往往是未知的 一般可用样本标准差 s 代替 求得的估计值 X 即 X s 3 2 n s sX 因为标准差 s 随样本含量的增加而趋于稳定 故增加样本含量可以降低抽样误差 为了形象地展示中心极限定理 表 3 1 设计了 4 个非正态分布的总体 其中 总体 A 是偏三角分布 总体 B 是均匀分布 总体 C 是指数分布 总体 D 为双峰分布 分别从 各总体中抽取 10000 个样本含量为 n 的样本 计算每个样本的均数 并根据 10000 个样 本均数绘制频率分布图 图 3 1 由图可见 样本均数的分布不再显示原来的非正态分布之特征 且随着样本含量 n 的增大 样本均数的分布很快接近正态分布 并显示均匀分布接近正态分布的速度快于 偏态分布 单峰分布快于双峰分布 因此 根据中心极限定理 即使对于总体的精确分 布并不清楚 这种情况在分析实际资料时较为常见 我们也可以利用这一特性对样本均数 的抽样误差进行各种分析 33 表 3 1 4 个总体不同样本含量时 10000 个模拟样本的均数和标准误 与相应理论值的比较 10000 个样本理论值 均数 标准误 SEX 均数 标准误 X 总体 A n 21 3340 0 33571 3333 0 3333 n 41 3328 0 23551 3333 0 2357 n 101 3322 0 14931 3333 0 1491 n 251 3325 0 09371 3333 0 0943 总体 B n 20 4965 0 20420 5000 0 2041 n 40 5007 0 14540 5000 0 1443 n 100 5013 0 09190 5000 0 0913 n 250 5002 0 05760 5000 0 0577 总体 C n 20 9992 0 70651 0000 0 7071 n 41 0001 0 50411 0000 0 5000 n 101 0026 0 31541 0000 0 3162 n 250 9962 0 19851 0000 0 2000 总体 D n 21 0069 0 54861 0000 0 5477 n 41 0074 0 39451 0000 0 3873 n 100 9965 0 24721 0000 0 2450 n 250 9997 0 15601 0000 0 1549 表 3 1 中 12 个抽样分布的均数及标准误与理论值均非常接近 实际工作中 常用 表示某指标的均数及其抽样误差 同时 中心极限定理通过图 3 1 显示 从不同SEX 分布类型的总体抽样时 达到样本均数趋向正态分布所需的最小样本含量之参考数 一 般而言 样本含量大于 10 时 其均数分布趋向正态的效果已经比较明显 本节描述了来自不同总体的样本均数之抽样误差和抽样分布规律 事实上 任何一 个样本统计量均有其抽样分布规律 如来自正态分布总体的样本方差服从 2分布 方差 之比服从 F 分布 相关系数作适当变换后近似服从正态分布 率的分布与样本含量 n 和 率的大小有关 在样本含量较小时服从二项分布 在 n 足够大时 近似服从正态分布 等 统计量的抽样分布规律是进行统计推断的理论基础 下面介绍从正态分布总体中随机抽样 均数和方差的有关抽样分布 34 x X x x 总体分布 B 图 3 1 中心极限定理图示 a n 2 n 4 n 25 的抽样分布X的抽样分布X 总体分布 A x X x x x n 10 n 25 x n 10 n 2 n 4 35 X xx X 总体分布 D n 2 n 2 n 4n 4 总体分布 C 图 3 1 中心极限定理图示 b x 的抽样分布X x n 25 x x 的抽样分布X n 25 n 10 x n 10 x 36 3 4 t 分布 中心极限定理表明 从任何总体中随机抽样 当样本含量较大时 其均数的抽样分 布将趋于正态分布 如果是从正态分布总体中抽样 英国统计学 W S Gosset 1908 导出 了样本均数的确切分布 设从正态分布 N 2 中随机抽取含量为 n 的样本 样本均数和标准差分别为和X s 且 3 3 ns X s X t X 则 t 值服从自由度为 n 1 的 t 分布 t distribution Gosset 于 1908 年在 Biometrika 生物 统计 杂志 1908 年第 6 期卷第 1 期上发表了题为 The probable error of a mean 平均数的 概率误差 的论文 当时用的是笔名 Student 故 t 分布又称 Student t 分布 t 分布曲线可用图 3 2 表示 图 3 2 自由度分别为 1 5 时的 t 分布 t 分布有以下的特征 1 t 分布为一簇单峰分布曲线 2 t 分布以 0 为中心 左右对称 3 t 分布与自由度 有关 自由度越小 t 分布的峰越低 而两侧尾部翘得越高 自 由度逐渐增大时 t 分布逐渐逼近标准正态分布 当自由度为无穷大时 t 分布就是标准 正态分布 每一自由度下的 t 分布曲线都有其自身分布规律 这个规律可见于 t 界值表 附表 2 表中横标目为自由度 纵标目为概率 P 表中数据为相应的 t 界值 常记为 t f t 标准正态曲线 5 1 0 1 0 2 4 3 2 101234 0 3 t 37 t 分布表明 从正态分布总体中随机抽取的样本 由样本计算的 t 值接近 0 的可能性 较大 远离 0 的可能性较小 t0 05 10 2 228 表明 从正态分布总体中抽取样本含量为 n 11 的样本 则由该样本计算的 t 值大于等于 2 228 的概率为 0 025 小于等于 2 228 的 概率亦为 0 025 可表示为 P t 2 228 P t 2 228 0 05 或 P 2 228 t 2 228 1 0 05 0 95 3 5 2 分布 设从正态分布 N 2 中随机抽取含量为 n 的样本 样本均数和标准差分别为和X s 且 3 4 2 2 2 1 sn 则 2值服从自由度为 n 1 的 2分布 2 distribution 是小写希腊字母 读作 chi 可见 2分布是方差的抽样分布 统计学家 Karl Pearson 在研究定性资料时指出 可以用 2分布近似描述具有某种属性 的实际频数 Ai与理论频数 Ti之间的抽样误差 即 3 5 i ii T TA 2 2 并指出 如果样本含量和理论频数均较大 如 n 40 Ti 5 或自由度大于 1 时 近似程 度较好 因此 2分布除用于方差的抽样分布研究外 还可用于样本分布与理论分布的 拟合优度检验 见第 9 章 率或构成比的比较 见第 7 章 等 2分布有以下的特征 1 2分布为一簇单峰正偏态分布曲线 2取值范围为 0 1 时分布最为偏斜 随 的逐渐加大 分布趋于对称 图 3 3 给出了 6 个不同自由度时的 2分布 2 自由度为 的 2分布 其均数为 方差为 2 3 1 时 2分布实际上是标准正态分布变量之平方 自由度为 的 2分布实际上 是 个标准正态分布变量之平方和 可表示为 2 u12 u22 uv2 3 6 其中 ui为标准正态变量 该性质说明 2分布具有可加性 4 每一自由度下的 2分布曲线都有其自身分布规律 这个规律可见于 2界值表 附 表 3 表中横标目为自由度 纵标目为概率 P 表中数据为相应的 2界值 常记为 2 当自由度 确定后 2与 P 的关系如该表右上角插图所示 图中阴影部分表示大于 2 的 尾部面积的百分数 即概率 例如 自由度为 1 时 20 05 1 3 84 表示当 1 右侧 0 05 时 2的界值为 3 84 也即按 2分布规律 1 时 理论上 2 3 84 的概率为 0 05 2分布说明 从正态分布的总体中随机抽样 所得样本的方差 s2接近于总体方差 2 38 的可能性大 远离总体方差的可能性小 即 2值接近其均数 n 1 的可能性大 远离 n 1 的 可能性小 自由度 10 时 20 025 10 20 48 20 975 10 3 25 说明 从正态分布的总体中 随机样本含量为 n 11 的样本 得到的 2值大于等于 20 48 的概率为 0 025 小于等于 3 25 的概率亦为 0 025 可表示为 P 2 3 25 P 2 20 48 0 05 或 P 3 25 2 20 48 1 0 05 0 95 4 3 5 2 024681012 0 0 0 1 0 2 0 3 0 4 0 5 f 2 1 2 6 图 3 3 2分布曲线 自由度为 1 6 3 6 F 分布 设从两个方差相等的正态分布 N 1 2 和 N 2 2 总体中随机抽取含量分别为 n1和 n2 的样本 样本均数和标准差分别为 s1和和 s2 且 1 X 2 X 3 7 2 2 2 1 s s F 则 F 值服从自由度为 n1 1 n2 1 的 F 分布 F distribution F 分布有两个自由度 F 取值 范围为 0 可见 F 分布是方差比的分布 常用于方差齐性检验 方差分析等 见第 6 章 F 分布有以下的特征 1 F 分布为一簇单峰正偏态分布曲线 与两个自由度有关 图 3 4 给出了 4 组不同 自由度时的 F 分布 2 若 F 服从自由度为 1 2 的 F 分布 则其倒数 1 F 服从自由度为 2 1 的 F 分布 39 f F 1 5 2 10 1 1 2 10 f F 1 10 2 1 10 2 1 3 自由度为 1 2 的 F 分布 其均数为 2 2 2 与第一自由度无关 4 第一自由度 1 1 时 F 分布实际上是 t 分布之平方 第二自由度 2 时 F 分布实际上等于 2分布 5 每一对自由度下的 F 分布曲线下的面积分布规律 见方差分析用 F 界值表 附表 4 表中横标目为第一自由度 纵标目为第二自由度 表中分别给出了右侧尾部概率为 0 05 和 0 01 时的 F 界值 记为 12 F 012

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论