




已阅读5页,还剩94页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 第三章总体均数的估计与假设检验 2 教学内容 第一节均数的抽样误差与标准误第二节t分布第三节总体均数估计第四节假设检验基本原理与步骤第五节t检验第六节假设检验的注意事项第七节正态性与方差齐性检验 3 抽样研究 samplingstudy 很多情况下研究者无法对无限总体的每一个观察对象都进行观测很多情况下由于人力 物力 财力的限制也无法对有限总体的每个个体进行观测 有时也没有必要对总体的每一个个体的变量值都进行测量在大多数情况下 研究者并不知道总体的参数 而是在总体中随机抽取一定数量观察单位作为样本进行抽样研究而取得样本信息后 统计量 人们更希望由此推算总体的相应信息 参数 这是抽样研究的基本目的 4 统计推断 statisticalinference 采用抽样研究的方法 由某总体中随机抽取一个有代表性的样本 并根据样本提供的信息 统计量 推断总体特征 性质 参数 的过程称为统计推断 5 统计推断 统计推断statisticalinference 如 样本均数样本标准差S样本率P 如 总体均数 总体标准差 总体率 内容 参数估计 estimationofparameters 包括 点估计与区间估计2 假设检验 testofhypothesis 6 统计学研究特点 研究的是样本 要对总体作出推断 利用 小概率原则 作出统计推断 需进行参数估计和假设检验 抽样研究 抽样误差 7 问题 已知某市健康儿童共125万人 想知道其平均血糖水平是多少 求 参数 的问题 8 Population 125万人 13 方法二 随机抽样 50人 A 4 66 mmol L 样本统计量 风险 9 怎么样由估计 利用了一个规律 抽样分布 的规律 10 均数的抽样误差与标准误t分布 总体参数的估计 11 一 均数的抽样误差与标准误 12 已知某地高中三年级男生的身高满足正态分布 其平均身高为168 15厘米 这里 将该地高中三年级男生的身高视为一个总体 现从该总体中随机抽样5次 每次抽取一个样本含量n 10的样本 得到的5个样本的数据及各样本均数如下 一 均数抽样误差和标准误 13 14 各个样本均数之间都不相同 抽样误差表现形式之一各个样本均数都不等于总体均数 有的比总体均数大 有的比它小 抽样误差表现形式之二相对于各样本的个体值 样本均数间的变异程度较小 样本均数的特点 15 抽样误差 samplingerror 由于抽样造成的样本统计量与样本统计量 以及样本统计量与总体参数间的差别 称为 原因 个体变异特征 A 不可避免性B 可控性 16 样本均数的抽样分布 仍以某地高三男生的身高为例 设身高变量为x 假定x服从正态分布 记为x N 168 15 62 从总体X中反复随机抽样 样本含量分别为n 4 n 16和n 36 分别随机抽10000个样本并计算样本均数 把同一样本含量的10000个样本均数视为一个新的样本资料作频数图 17 从正态分布总体N 168 15 62 中随机抽样10000次的结果曲线是正态总体N 168 15 62 的概率密度曲线直方图为正态分布总体N 168 15 62 的样本均数的频率密度图 18 大多数的样本均数相互之间存在差异 绝大多数的样本均数不等于x的总体均数样本均数的集中趋势位置与个体资料x的集中趋势位置较为接近 样本均数的频数图均呈现出中间多 两边少且基本对称的正态分布特征 样本均数的分布范围较个体值小 随着样本含量的增大 样本均数的频数分布范围越来越窄每种样本量的10000个样本均数值所计算出的样本均数的标准差都非常接近 为个体资料x的总体标准差 n为个体数 样本均数的分布规律 19 理论上可以证明 从正态分布的总体中随机抽取样本含量为n的一批样本 样本均数有如下性质 样本均数服从正态分布样本均数的总体均数为 样本均数的分布规律 20 所以若随机变量X服从X N s2 的正态分布 则以之随机抽样计算的样本均数所构成的分布也呈正态分布 1 样本均数的总体均数仍等于原来的总体均数 2 样本均数的标准差叫做标准误 standarderrorofmean SEM 记作 是描述均数的抽样误差大小的指标 中心极限定理 21 实验 下图是一个正偏态分布 用电脑从中随机抽取样本含量分别为5 10 30 50的样本各1000次 计算样本均数 绘制直方图 并观察其样本均数的分布 非正态分布样本均数的抽样分布 22 n 5 n 10 n 30 n 50 23 当样本容量足够大时 n 60 样本均数的抽样分布逐渐趋于正态分布 偏态分布总体 24 从偏态总体中抽样 当n足够大时 n大于60 其均数也近似于正态分布 样本均数的总体均数仍等于原来的总体均数 样本均数的标准差仍叫做标准误 记作 中心极限定理 计算公式仍是 25 样本均数的标准误证明 26 标准误 standarderrorofmean SME或SE 概念 样本均数的标准差简称标准误 standarderror SE 是描述均数的抽样误差大小的指标 数理统计研究表明 标准误即抽样误差的大小具有一定的规律性 样本均数 27 标准误的意义 1 标准误 standarderror 是描述均数的抽样误差大小的指标 可用来衡量样本均数的可靠性 标准误越小 说明抽样误差越小 样本均数代表总体均数就越可靠 2 用于参数估计 3 用于假设检验 28 标准误 standarderror SE 概念 即样本均数的标准差 是描述均数的抽样误差大小的指标 标准误的计算 标准误的理论值 标准误的理论值的估计值 前提 无限总体完全随机抽样 29 举例 大规模普查得某地健康成年男子血红蛋白总体均数为 135g L 20 5g L 若在其中进行随机抽样 样本量n 100 样本均数X 130g L S 23 4g L 求其理论标准误和样本均数的估计标准误 2 样本均数的估计标准误 1 理论标准误 解 30 均数 标准差 N 2 标准差与标准误的区别与联系 31 总体分布 抽样分布 原变量 样本均数 32 标准差与标准误的区别与联系 33 既往资料表明某市区新生女婴的平均出生体重为3 10kg 标准差为0 59kg 某研究者从该市区中随机抽取一个由100个女婴组成的样本 测得样本均数超过3 15kg的可能性有多大 34 在正态总体N 168 18 62 中随机抽样 样本量分别取n 5 n 100 均抽10000个样本 分别计算u 值和u值 其结果如下 35 36 并不满足标准正态分布 在样本含量较大时它与标准正态分布接近 但是当样本含量较小时 它与标准正态分布相差较远 样本均数u转换中的实际问题 37 二 t分布 38 均数 标准差 N 2 均数 标准误N 总体分布 抽样分布 原变量 39 任意正态分布曲线X N 2 标准正态分布曲线X N 0 1 u变换 对于正态变量X 标准正态分布 40 对样本均数的正态分布进行标准化 t分布 若对抽样分布进行标准化变换 有 41 实际工作中 是未知的 所以常需以代替 W S Gosett研究它的分布规律 提出它不服从标准正态分布的规律 而服从 n 1的t分布 后人用其笔名student命名 称之为student st distribution 简称t分布 t 分布 42 u分布 t分布 故 43 实验 从前述13岁女学生身高这个正态总体中分别作样本量为3或50的随机抽样 各取1000份样本 分别得到1000个样本的均数及其标准误 对它们分别作t转换 将t值绘成直方图 n 3时的t分布 n 50时的t分布 所以 不同的自由度 n 1 即有不同的t分布 44 实验三 从前述13岁女学生身高这个正态总体中分别作样本量为3或50的随机抽样 各取1000份样本 分别得到1000个样本的均数及其标准误 对它们分别作t转换 将t值绘成直方图 n 3时的t分布 n 50时的t分布 所以 不同的自由度 n 1 即有不同的t分布 不同自由度的t分布的曲线 t分布图形的特征 45 1 t分布的密度曲线呈单峰 曲线在t 0处最高 并以t 0为中心左右对称 t值可是正数 也可是负数 2 与标准正态分布相比 曲线最高处较矮 两尾部较高 3 t分布的概率密度曲线是一簇曲线 它只有一个参数自由度 一但确定 其曲线形状即也确定 越小 则t值越分散 曲线越低平 尾部越高 随着 的逐渐增大 t分布曲线逐渐的逼近于标准正态曲线 t分布的极限分布是Z分布 4 t分布的概率密度曲线下面积有一定规律性 可通过查 t分布界值表 得到 t分布图形的特征 46 t分布曲线下的整个面积为1 t分布曲线下从a到b的面积为t值分布在此范围内的百分比 即t值落在此范围内的概率p t分布曲线下的面积分布规律 自由度为 的t分布曲线 47 三 t界值表 以自由度 为横标目 概率P为纵标目 表中数字表示当 和P确定时 对应的是正侧或双侧的t临界值表 记作t 或t 2 包括 单侧概率的t临界值 记作t 双侧概率的t临界值 记作t 2 48 附表2t界值表 49 例1 求当 9 单尾概率 0 05时的t界值 表明 按t分布的规律 从正态分布总体中抽取样本含量n 10的样本 则由该样本计算的t值大于等于1 833的概率为0 05 或小于等于 1 833的概率亦为0 05 查表得单尾t0 05 9 1 833 则 P t 1 833 0 05或 P t 1 833 0 05 自由度为9的t分布 50 例1 求当 9 双尾概率 0 05时的t界值 表明 按t分布的规律 从正态分布总体中抽取样本含量n 10的样本 则由该样本计算的t值大于等于2 262的概率为0 025 小于等于 2 262的概率亦为0 025 查表得单尾t0 05 9 2 262 则 P t 2 228 P t 2 228 0 05或 P 2 228 t 2 228 1 0 05 0 95 自由度为9的t分布 51 1 相同 时 t值越大 对应的尾部概率P就越小 2 相同t值 双侧尾部概率是单侧尾部概率的2倍 52 三 总体参数的估计 53 例 测得某地11名20岁男大学生身高 172 25cm S 3 31cm 对该地20岁男大学生身高均数进行估计 54 1 基本概念 参数估计 Parameterestimation 用样本信息估计总体参数 包括 点值估计 Pointestimation 不考虑抽样误差 直接用样本统计量来作为总体参数的估计值 区间估计 Intervalestimation 考虑抽样误差 按一定的概率或可信度 1 用一个区间来估计总体参数的所在范围 这个区间范围叫总体参数的1 的可信区间 confidenceinterval CI 或置信区间 一般取值0 05或0 01 所以1 为0 95或0 99 55 56 可信区间 假设已知的样本均数是从较小的m总体中抽取的 它成立的统计条件是从该总体中抽取一个样本 其均数为当前均数以及更大的可能性并非小概率事件 57 可信区间 而如果从m A的总体中在一次抽样的前提下 几乎是不可能得到当前的样本的 因为它是一个小概率事件 58 可信区间 假设已知的样本均数是从较大m的总体中抽取的 它成立的统计条件是从该总体中抽取一个样本 其均数为当前均数以及更小的可能性并非小概率事件 59 可信区间 confidenceinterval 而如果从m B的总体中在一次抽样的前提下 几乎是不可能得到当前的样本的 因为它是一个小概率事件 60 可信区间 confidenceinterval 因而如果m的取值在A B间 在一次抽样的前提下 是有可能得到当前的样本均数的这样就把区间 A B 称为样本均数所来源的未知总体均数的可信区间 61 可信度 confidencecoefficient 我们之所以说m A的总体像是样本所来源的总体 那是因为从它中得到该样本不是小概率事件但是小概率事件是有可能发生的 例如该样本真的来自于m A的总体 此时我们的结论 只有总体均数取值在 A B 间的总体才是样本所来源的 就是错误的错误的可能性有多大 就是小概率事件发生的概率a 也就是说不发生的可能性为1 a 这就是我们结论正确的概率 所以1 a称为可信度 62 可信区间与可信度 按预先给定的概率 1 a 确定的包含未知总体参数的可能范围 该范围通常称为参数的可信区间或置信区间 confidenceinterval CI 预先给定的概率 1 a 称为可信度或置信度 confidencelevel 常取95 或99 63 2 可信区间的计算方法 总体均数可信区间的计算方法 随总体标准差s是否已知 样本含量n的大小而异 通常有以下两种计算方法 u分布法t分布法 64 1 未知 且n小 按t分布原理计算置信区间 由于 则 65 所以 总体均数的100 1 可信区间的通式为 66 例 在某地成年男子中随机抽取25人 测得其脉搏均数为72次 min 标准差为8次 min 试估计该地成年男性脉搏总体均数的95 可信区间 68 7 75 3 次 分根据样本计算 可推断该地成年男性脉搏总体均数的95 可信区间为 68 7 75 3 次 分 67 2 未知 但n足够大时 n 100 t分布逼近u分布 按u分布原理计算置信区间 由于 则 68 所以 总体均数的100 1 之置信区间的通式为 69 例测得某地110名18岁男大学生身高 172 73cm s 4 09cm 估计该地18岁男大学生身高均数的95 可信区间 本例n 110 172 73cm s 4 09cm 双侧u0 05 2 1 96按式 3 8 计算 即 该地18岁男大学生身高均数的95 可信区间为171 97cm 173 49cm 70 3 已知 故可按正态分布原理估计总体均数的可信区间 计算公式为 71 未知 且n小 已知 未知 但n足够大 三种情况 72 之前所述的可信区间均有上下限A与B 但是有时可能存在如下情况 专业知识提示样本均数不太可能从一个超过B的总体中抽取的 因为从该总体中抽取一个样本 其均数为当前均数以及更小的可能性是小概率事件 而对比B小多少却不作规定 只要总体均数小于B 这块阴影面积就将大于a 就不是小概率事件 单侧的可信区间 73 两总体均数差的可信区间 正态分布的可加性特征 74 两总体均数差的可信区间 75 例测定28例结核病患者和34例对照者的脑脊液中镁 mmol L 的含量 结果见下表 试估计结核病人和对照者的脑脊液中镁含量的总体均数之差的95 可信区间 表两对比组脑脊液中镁含量 mmol 组别例数均数标准差结核组281 040 17对照组341 280 14 76 解 假定两组方差齐 根据公式3 12 13 14可得 故两总体均数之差的95 可信区间为 0 16 0 32 mmol L 77 3 可信区间的确切含义 何保昌福建医科大学流行病与卫生统计学系 78 实验 从前面某年某地所有女学生所构成的正态总体N 155 4 5 32 抽到100份随机样本 计算每份样本的95 可信区间 3 1 1 可信度的含义 79 表从正态总体N 155 4 5 32 抽到的100份随机样本的可信区间 n 30 80 1 5 可信度实际含义 从总体中进行随机抽样 共作100次抽样 每个样本可算得一个可信区间 得100个可信区间 平均有95个可信区间包括 估计正确 只有5个可信区间不包括 估计错误 81 1 概率包含了 的概率未包含 可信区间概念 总体均数的1 可信区间指一个范围 指该范围包含 在内的可能性为1 不包含 在内的可能性为 常用1 为95 和99 又称置信区间 可信限的概念 指可信区间的下限和上限 即两个端点值 可信区间是指以上 下可信限为界的一个范围 但不包含上下限两个值 故用 表示 其为开区间 下可信限 上可信限 82 83 3 2 可信区间的评价 我们取得未知总体参数的可信区间 如何评价这个区间到底好不好 可信不可信 实用性强不强 从可信区间的准确度与精确度两个方面进行评价 84 可信区间的准确度与精确度 假设从13级研究生班中抽取一份样本n 10人 求得医学统计学学平均分为75分 标准差为10分 求总体平均分的可信区间 现有两位同学求得两个可信区间 甲同学为60 90分 99 9999 CI 乙同学的为72 78分 60 CI 如何评价 85 可信区间的准确度与精确度 从实用性角度来说 乙同学的结果应该更实用些 区间的跨度只有6分 估计得很精确 但是从可靠程度来说 似乎甲同学的结果更值得信赖 总体均数在该区间外的可能性几乎为0 该区间的可信度极高 86 可信区间的准确度与精确度 可信区间的可信度反映了其准确度 可信度越大 错误估计的可能性越小 结果越准确可信区间的跨度反映了其精确度 精确度越高 区间跨度越小 更趋于某一个点值但是 这二者的关系是 鱼和熊掌不可兼得 87 可信区间的准确度与精确度 在样本含量与样本标准差固定的情况下 如果要获得精确的参数估计 则可信度必然下降极端的情况就是使用点估计 此时十分精确 但估计正确的可能性几乎为0 如果想要得到一个把握很大的参数估计 那么就要把区间扩大些 使得漏估计的可能性尽可能小 此时准确性很高极端的情况就是宣称 总体平均分应该在0 100分间吧 但是没有任何实用价值 88 准确度与精确度的取舍 根据研究目的与性质取舍如果没有特殊要求 应该以准确度为主 在保证估计准确的情况下通过适当增大样本含量的方法 改善区间的精确度所以通常求95 的CI 同时保证样本含量 89 3 3 可信区间与医学参考值范围的区别 90 小结 从同一总体中 随机抽取相同含量的样本 由重复抽取的每一份样本均可计算一个样本统计量 样本统计量的分布即为抽样分布 2 来自正态分布总体的样本均数仍服从正态分布 即使从偏峰分布总体抽样 只要n够大 样本均数的分布与近似于正态分布 其样本均数的均数为原变量的均数 其样本均数的标准差叫标准误 为 91 3 从同一总体中 随机抽取相同含量的若干份样本 各样本统计量之间
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 佛山市2025广东佛山市国防教育训练中心招聘事业单位人员2人笔试历年参考题库附带答案详解
- 2025雁宝能源露天煤矿采煤工程专项社会招聘35人笔试参考题库附带答案详解
- 2025辽宁能源控股集团所属抚矿集团招聘74人笔试参考题库附带答案详解
- 2025湖南长沙市望城经开区招商投资有限公司招聘9人笔试参考题库附带答案详解
- 卸货操作安全培训课件
- 2025年合肥滨湖时光产业投资集团有限公司招聘26人笔试参考题库附带答案详解
- 2025安徽亳州市公共交通集团有限公司国企招聘11人笔试参考题库附带答案详解
- 2025国家机场招聘165名工作人员笔试参考题库附带答案详解
- 2025四川产业振兴基金投资集团有限公司招聘12人笔试参考题库附带答案详解
- 2025中亚电商市场洞察报告
- 第13课《警惕可怕的狂犬病》 课件
- 仪表施工全过程的管理
- 如何预防与处理跑步中的常见损伤
- MSOP(测量标准作业规范)测量SOP
- 001 220kV升压站事故油池施工方案
- 智慧停车场运营管理项目风险评估报告
- 九年义务教育全日制小学数学教学大纲(试用)
- 出资比例的协议合同
- GB/T 10345-2022白酒分析方法
- GB/T 19418-2003钢的弧焊接头缺陷质量分级指南
- 四川省参保单位职工社会保险费欠费补缴申报表
评论
0/150
提交评论