




已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七章参数估计SamplingError EstimationofParameter 南方医科大学生物统计学系DepartmentofBiostatisticsSouthernMedicalUniversity 抽样误差与标准误t分布可 置 信区间 主要内容 变异 世界上没有两片完全相同的叶子 植物学家 世界的丰富多彩来源于其多样性 哲学家 个体差异是生物医学领域里普遍存在的现象 医学家统计学就是研究变异 variation 的科学 抽样误差 变异 抽样误差 variation samplingerror 联系 抽样实验 例1 假定某地正常成年男子的红细胞计数服从正态分布N 5 00 0 502 的总体 单位1012 L 用计算机模拟从该总体中随机抽样 每次抽10例组成一个样本 重复100次抽样 结果见表1 抽样实验 抽样实验 抽样误差 由于事物间普遍存在着变异 由此产生了这么一个现象 由于抽样而引起的误差 抽样误差 抽样误差 定义 抽样误差 samplingerror 是指由于样本的随机性引起的统计量与参数的差别 或同一总体的相同统计量之间的差别 由于抽样而引起的样本指标 统计量 与总体指标 参数 的差异 属随机误差 特点 无倾向性 不可避免 抽样误差 统计学的分析思路 总体population 样本sample sampling inferring 抽样误差 在实际工作中 由于各种条件所限 一般不可能也没有必要观察总体中的每一个个体 常常是通过抽样来进行研究的 虽然抽样误差是不可避免的 但其大小是可以度量的 问题 如何度量抽样误差的大小 抽样误差 由表1可见 各个样本均数 Xi并不等于相应的总体均数5 00 相互间也不完全相同 由数理统计可证明 这些样本均数服从均数为 本例为5 00 标准差为 X的正态分布 其中 X的计算公式为 一种统计量 抽样误差 标准误 StandardError SE 统计学上将样本均数 X 样本率P等统计量的标准差称为标准误 它可用于说明抽样误差的大小 抽样误差 样本均数的标准误 即样本均数的标准差 说明样本均数抽样误差的统计指标 总体 样本 不同样本量抽样实验结果图示 与n成反比 n S X n 时 S X 0 而S趋近于稳定 抽样误差 由可见 当样本量n一定时 越大 即个体变异越大 则样本均数的抽样误差 X就越大 反之 当 固定时 n越大 则 X就越小 样本均数的分布 若原始分布服从正态分布 则其样本均数服从正态分布 若原始分布不服从正态分布 当样本量够大时 如n 60 其样本均数一般服从正态分布 中心极限定理 抽样误差 由数理统计的中心极限定理可知 无论原始总体为何种分布 只要它具有总体均数 和标准差 当样本含量足够大时 n 60 X都近似服从均数为 标准差为 X的正态分布 中心极限定理 centrallimittheorem 当n足够大 样本均数逐渐趋于正态分布 任一分布的总体 这一点具有很高的实用价值的 因为在实际工作中 许多医学测量结果 我们并不知道它的确切分布 有了这条性质 就可以利用正态分布原理对其特征进行推断 抽样误差 标准差VS标准误 t分布tDistribution 希尔米特 哥赛特 早在1875年 德国天文学家 测量学家F R Helmert就在数学上发现了t分布 1908年Gosset以Student为笔名发表的论文 提出了t分布的概念 从而开创了小样本统计推断的新纪元 t分布的发现 t分布 标准化变换抽样实验中 各个 X也服从总体均数标准差为的正态分布 对各个 Xi也做一下标准化变换 在实际工作中 s通常是未知的 用各个样本标准差Si估计s 则得到该式已经不服从标准正态分布了 而是t分布 t分布 t分布 Z转换 估计 t分布 三条t分布密度曲线 v 1 v 5 v 分布特征t分布曲线是单峰的关于t 0对称t分布与标准正态分布的关系自由度n较小时 t分布与标准正态分布相差较大 并且t分布曲线的尾部面积大于标准正态分布曲线的尾部面积当自由度时 t分布逼近于标准正态分布 t分布 t分布与标准正态分布的区别在于 中间小 两尾翘 大 t分布与Z分布曲线下面积均为1 0 t分布 t界值表 给定自由度n t分布曲线的双侧尾部面积为 时对应的t值 记为t 2 n并称其为t的双侧界值 单侧界值 一侧尾部面积为 时对应的t值t 2 n对称性 2 单侧曲线下面积 双侧曲线下面积 同一t值单侧概率是双侧概率的一半 给定曲线下面积对应的界值与自由度n有关 同样的尾部面积 t分布的界值要大于标准正态分布的界值 t界值表 t界值表 单侧 one sided tailed 双侧 two sided tailed t界值表 t分布界值示意图 表示阴影的面积 t分布曲线下面积 双侧t0 05 2 1 96 单侧t0 025 规律 1 同一 下 t值增加 P值减小2 同一P值下 增加 t值减小 反向关系 参数估计EstimationofParameter 参数估计 参数估计 estimationofparameter 用样本统计量估计总体参数 参数估计 点估计 区间估计 总体均数的估计 置信上限 点估计 pointestimation区间估计 intervalestimation 点估计 pointestimation 直接用样本均数作为总体均数的估计值 不足之处在于 它没有考虑到抽样误差 在大样本情况下 用 X和S作为 和 的估计值计算参考值范围 总体均数的点估计 总体率的点估计 即样本均数和样本率分别是总体均数和总体率的估计值 区间估计 intervalestimation 指给出一个区间 常称为可信区间 confidenceinterval CI 并同时给出该区间包含总体均数的概率 即 可能性 一般取95 重复试验时该区间包含总体均数的概率表示为1 或100 1 常用的有99 95 90 相应的 为0 01 0 05 0 10 置信水平 可信度 总体均数的区间估计 总体均数 的双侧1 置信区间为 例2 由例1中的第二个样本计算总体均数的95 可信区间 X 5 03 S 0 52 n 10 查附表2的t界值表 得双侧 即95 可信区间为 从总体中作随机抽样 如 100次 得100个可信区间 平均有95个可信区间包括总体均数m 估计正确 只有5个可信区间不包括总体均数m 估计不正确 实际中 只作一次抽样 只得到一个可信区间 作为未知总体均数的可能范围的估计 理论上有95 的可能是正确的 而5 的可能发生错误 95 可信区间的含义 精密度 precision 可靠 reliability 1 a 增大样本量 不同置信度下可信区间的对比 参考值范围与可信区间的区别 例 已知某市100名健康成年男性工人血红蛋白量资料服从正态分布 其X 141 8g L S 12 2g L 试计算双侧95 参考值范围及95 可信区间 解 由题意可知 用正态分布法计算双侧95 参考值范围 95 可信区间用公式计算 本例n 100 100 1 99 t 1 66标准误 则 参考值范围与可信区间的区别 我们估计该市95 成年男性工人血红蛋白量在117 9 165 7g L之间 我们有9
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 修井工程考试试题及答案
- 山东航空考试试题及答案
- 中考监考考试试题及答案
- 建筑实务考试题及答案
- 食管癌患者的临床观察
- 外科三基试题及答案
- 家电公司税务风险防范办法
- 班主任初中工作计划总结
- 山东省宁阳四中2026届化学高一上期末调研试题含解析
- 2020-2025年消防设施操作员之消防设备中级技能综合检测试卷B卷含答案
- 氧气安全培训课件
- 景区演艺演员管理制度
- 2024年甘肃省张家川回族自治县教育局公开招聘试题含答案分析
- 亲子活动热狗活动方案
- 2025年黑龙江、吉林、辽宁、内蒙古高考生物真题试卷(解析版)
- 河南省郑州市2023-2024学年高一下学期6月期末物理试题(解析版)
- 2024年中级统计师《统计基础理论及相关知识》真题及答案解析
- 智能制造虚拟仿真实训基地建设目标
- 《慢性乙肝治疗策略》课件
- 施工用电合同协议书
- 国际制药工程协会(ISPE)制药工程基本指南水和蒸汽系统
评论
0/150
提交评论