




已阅读5页,还剩59页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
医学统计学 MedicalStatistics Review 统计资料的整理与描述 频数分布和描述集中位置的指标 描述离散趋势的指标 正态分布的特征及曲线的面积规律 标准正态分布 正态分布的应用 4 1抽样误差和抽样分布 SamplingErrorandSamplingDistribution 主要内容 抽样误差抽样误差的重要性抽样误差的定义抽样误差的规律性 标准误标准误的定义标准误的计算标准误的意义标准误的作用 t分布t分布的演化t分布的图形t分布的性质 抽样误差的重要性 既然有误差 为什么还要抽样 无限总体的客观存在 试验研究的成本效益问题 costeffect 总体同质个体 个体变异 总体参数未知 样本代表性 抽样误差 随机抽样 样本统计量已知 统计推断 风险 抽样误差的重要性 抽样误差的定义 假如事先知道某地七岁男童的平均身高为119 41cm 为了估计七岁男童的平均身高 总体均数 研究者从所有符合要求的七岁男童中每次抽取100人 共计抽取了五次 抽样误差的定义 五次抽样得到了不同的结果 原因何在 抽样误差的定义 定义 由于个体变异的存在 在抽样研究中产生样本统计量和总体参数之间的差异 称为抽样误差 samplingerror 各种参数都有抽样误差 这里我们以均数为研究对象 抽样误差的表现 抽样误差 只要有个体变异和随机抽样研究 抽样误差就是不可避免的 抽样误差有自己的客观规律 统计学就是拨开抽样误差之雾来洞察客观规律的利器 抽样误差的规律性 既然抽样误差是有规律的 那么到底它的分布规律到底是怎样的 从正态总体中随机抽样 其样本均数服从正态分布 从任意总体中随机抽样 当样本含量足够大时 其样本均数的分布逐渐逼近正态分布 样本均数之均数的位置始终在总体均数的附近 随着样本含量的增加 样本均数的离散程度越来越小 表现为样本均数的分布范围越来越窄 其高峰越来越尖 中心极限定理 centrallimittheorem 的表现 标准误的定义 样本统计量 如均数 也服从一定的分布 与描述观测值离散趋势的指标类似 我们使用样本统计量的标准差来衡量抽样误差的大小 又称标准误 standarderror SE 所以样本均数的标准差 称为均数的标准误 标准误的计算 计算公式为其中 为总体标准差 n为抽样的样本例数 在研究工作时 由于总体标准差常常未知 可以利用样本标准差近似估计 标准误的计算 例9 根据7岁男童的身高资料 在已知总体标准差时 标准误为4 38 10 0 438cm而若以第一次抽样的样本标准差来代替总体标准差 则标准误为4 45 10 0 445cm 标准误的意义 反映了样本统计量 样本均数 样本率 分布的离散程度 体现了抽样误差的大小 标准误越大 说明样本统计量 样本均数 样本率 的离散程度越大 即用样本统计量来直接估计总体参数越不可靠 反之亦然 标准误的大小与标准差有关 在例数n一定时 从标准差大的总体中抽样 标准误较大 而当总体一定时 样本例数越多 标准误越小 说明我们可以通过增加样本含量来减少抽样误差的大小 标准误的作用 标准误的用途 衡量样本统计量代表总体参数的可靠性 估计总体参数的可信区间 进行假设检验 标准误 标准差的区别和联系 区别1 意义上标准差描述个体值之间的变异 即观察值之间的离散程度 而标准误是描述统计量的抽样误差 即样本统计量和总体参数的接近程度 2 用途上标准差常用于表现观察值的波动范围 标准误常表示抽样误差的大小 估计总体参数的可信区间 3 标准差 标准误与样本含量标准差是随着样本含量的增多 逐渐趋于稳定 标准误是随着样本含量的增多 逐渐减少 联系首先 标准差和标准误都是变异指标 说明个体之间的变异用标准差 说明统计量之间的变异用标准误 其次 当样本含量不变时 标准差大 标准误亦越大 均数的标准误与标准差成正比 样本均数的抽样分布规律 中心极限定理从均数为 标准差为 的正态总体中随机抽样 样本均数服从均数为 标准差为的正态分布 从均数为 标准差为 的任意总体中随机抽样 当样本含量足够大时 样本均数近似服从均数为 标准差为的正态分布 t分布的演化 根据中心极限定理的内容 当样本含量足够大时 对从均数为 标准差为 的任意总体中随机抽样所得的样本均数进行标准化变换 有 由于总体标准差往往是未知的 此时往往用样本标准差代替总体标准差 这里 为自由度 degreeoffreedom df 取值为n 1 由W S Gosset提出 t分布的演化 自由度分别为1 5 时t分布的图形 t分布的性质 t分布为一簇单峰分布曲线 以0为中心 左右对称 分布的高峰位置比u分布低 尾部高 即相同的尾部面积对应的界值 比u分布大 例如 P 0 05 u 1 64 而自由度为10的t分布界值 t 1 812 t分布与自由度 有关 自由度越小 t分布的峰越低 而两侧尾部翘得越高 自由度逐渐增大时 t分布逐渐逼近标准正态分布 当自由度为无穷大时 t分布就是标准正态分布 每一自由度下的t分布曲线都有其自身分布规律 t界值表 每一自由度下的t分布曲线都有其自身分布规律 这个规律可见于t界值表 表上的阴影部分 表示t 以外的尾部面积占总面积的百分数 即概率P 表中数据表示 与 确定时相应的t界值 criticalvalue 常记为t 例如 当 10 单尾概率 0 05时 查表得单尾t0 05 10 1 812 表明 按t分布的规律 从正态分布总体中抽取样本含量为n 11的样本 则由该样本计算的t值大于等于1 812的概率为0 05 或者小于等于 1 812的概率亦为0 05 可表示为 P t 1 812 0 05或P t 1 812 0 05 例如 当 10 双尾概率 0 05时 查表得双尾t0 05 10 2 228 表明 按t分布的规律 从正态分布总体中抽取样本含量为n 11的样本 则由该样本计算的t值大于等于2 228的概率为0 025 小于等于 2 228的概率亦为0 025 可表示为 P t 2 228 P t 2 228 0 05或 P 2 228 t 2 228 1 0 05 0 95 从t分布图不难看出 在相同自由度时 t 值越大 概率P越小 在相同t值时 双尾概率P为单尾概率P的两倍 如双尾t0 10 10 单尾t0 05 10 1 812 t界值表 单侧 P t t 双侧 P t t 即 P t t t 1 例10 查t界值表得t值表达式t0 05 10 2 228 双侧 t0 05 10 1 812 单侧 小结 抽样误差的定义和表现 抽样误差的规律 中心极限定理 标准误的定义及其意义 t分布的演化 图形 特征及意义 4 2区间估计和可信区间IntervalEstimationandConfidenceInterval 主要内容 统计推断 点估计 区间估计区间估计的实质可信区间的定义总体均数可信区间的计算 正确理解可信区间的含义 统计推断 所谓统计推断 statisticalinference 是指如何抽样 以及如何用样本性质推断总体特征 参数估计 parameterestimation 假设检验 hypothesistesting 统计推断的思路 参数估计 点估计 PointEstimation Touseanumbertoestimatetheparameter 区间估计 IntervalEstimation Toobtainarangesoastoincludetheparameter 1 点估计 用样本统计量作为总体参数的估计例如 用样本均数作为总体均数的一个估计 点估计的缺陷 样本含量n 10 点估计的缺陷 2 区间估计 例11 为了解某地1岁婴儿的血红蛋白浓度 从该地区随机抽取25名1岁婴儿 测得其血红蛋白均数 123 7 g L 标准差 11 9 g L 试估计该地区1岁婴儿的平均血红蛋白浓度 可信区间的定义 按一定的概率 1 用一个区间来估计总体参数所在的范围 该范围通常称为参数的可信区间或置信区间 confidenceinterval CI 预先给定的概率 1 称为可信度或者置信度 confidencelevel 常取95 或99 可信区间 CL CU 是一开区间 CL CU称为可信限 理论基础 t值的分布 均数的抽样分布 2 06402 064 v 24 区间估计 3 可信区间 confidenceinterval 区间 118 79 128 61 包含了总体均数 其信度为95 可信度 confidencelevel 95 结论 该地区1岁婴儿的平均血红蛋白浓度为118 79 128 61 g L 可信度为95 或 该地区1岁婴儿的平均血红蛋白浓度的95 可信区间为118 79 128 61 g L 可信区间的两个要素 准确性要求 小 可信度大精确性要求 大 区间窄可信区间的长度受制于个体变异和样本含量 个体变异越大 区间越宽 样本含量越小 区间越宽 可信区间估计的理论基础 均数的抽样分布 1 4 总体均数可信区间的计算 总体标准差已知时均数的95 可信区间 总体标准差未知时均数的95 可信区间 总体标准差已知时均数的95 可信区间的估计 2 5 2 5 95 总体标准差已知时均数的95 可信区间的估计 对于以总体均数为中心的曲线下95 面积所对应的区间内的任意一个 相应的区间一定包含总体均数 总体标准差已知时均数的95 可信区间的估计 在总体中抽样 样本均数的u变换值有95 可能性落在 1 96 1 96 之间 在总体中抽样 样本均数所计算的区间有95 可能性包括总体均数 总体标准差未知时均数的95 可信区间 样本含量较大时 样本标准差逼近总体标准差 总体标准差未知时均数的95 可信区间 1 例12三种情形之下的计算 从该地区随机抽取25名1岁婴儿 测得其血红蛋白均数123 7 g L 根据文献已知该地血红蛋白总体标准差12 1 g L 从该地区随机抽取250名1岁婴儿 测得其血红蛋白均数123 7 g L 样本标准差11 9 g L 从该地区随机抽取25名1岁婴儿 测得其血红蛋白均数123 7 g L 样本标准差11 9 g L 试估计该地区1岁婴儿的平均血红蛋白浓度 5 正确理解可信区间 可信度为95 的CI的涵义 每100个样本 按同样方法计算95 的CI 平均有95 的CI包含了总体参数 这里的95 指的是方法本身 而不是某个区间 总体参数虽未知 但却是固定的值 而不是随机变量值 95 可信区间的含义 按这种方法构建的可信区间 理论上平均每100次 有95次可以估计到总体参数 随机现象模拟软件 下列说法正确吗 算得某95 的可信区间 则 总体参数有95 的可能落在该区间 有95 的总体参数在该区间内 该区间包含95 的总体参数 该区间包含总体参数 可信度为95 Summary StatisticalInferenceincludesparameterestimationandhypothesistest Toobtainaintervalinwhichitmayincludeth
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 成功起跑线第13课我自信我快乐【爱自己是终身浪漫的开始】课件2025-2026学年北师大版(2015)初中心理健康七年级全一册
- 2026届江苏省无锡市锡中学实验学校九年级化学第一学期期中监测模拟试题含解析
- 精准农业种子采购与种猪健康养殖销售合同
- 矿山地质环境治理与矿山生态修复工程承包合同
- 城市更新项目私人宅基地买卖及安置补偿合同
- 教育培训机构合作合同续签及资源共享协议
- 离婚前财产分割及共同债务处理协议书
- 建筑材料销售合同签订与施工进度控制流程图
- 专干笔试考试题库及答案
- 驻马店叉车实操考试题及答案
- 2023聚苯乙烯泡沫(EPS)复合装饰线应用技术规程
- 向“筷”乐出发“筷”乐出发
- 伺服实现机床手轮同步功能
- 《医院员工激励问题研究11000字(论文)》
- 全国硕士研究生入学统一考试农学门类联考化学真题
- 医疗美容项目备案申请doc
- 第一章原核生物的形态、构造和功能
- 项目团队实施及人员配置
- 课题申报讲座课件
- 纸张消耗统计表
- Q∕SY 06327-2020 二氧化碳驱油气田集输管道施工技术规范
评论
0/150
提交评论