正态分布及标准误.ppt_第1页
正态分布及标准误.ppt_第2页
正态分布及标准误.ppt_第3页
正态分布及标准误.ppt_第4页
正态分布及标准误.ppt_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四节正态分布及标准误 本次课要点 1 熟悉正态分布 标准正态分布的概念 掌握其主要特征及其应用 2 掌握医学参考值的概念及其范围的制定方法 3 了解均数标准误的意义及计算4 掌握总体均数可信区间的概念及计算方法 第四节正态分布 normaldistribution 一 正态分布的概念1 图形 高峰位于中央 均数所在处 两侧逐渐降低且左右对称 不与横轴相交的光滑曲线 正态分布是一种重要的连续型分布 正态曲线 normalcurve 在横轴上方均数处最高 正态分布以均数为中心 左右对称 正态分布有两个参数 即均数 与标准差 常用N 表示 用N 0 1 表示标准正态分布 其位置与均数有关 形状与标准差有关 标准差大 离散程度大 正态分布曲线则 胖 反之 则 瘦 正态分布的面积分布有一定的规律性 二正态分布分布曲线的特征 三正态曲线下面积的分布规律 统计学家求出了标准正态分布从 到 u 的面积 实际工作中经常要用的面积分布规律有以下三点 三正态曲线下面积的分布规律 正态曲线下的面积规律 1 96 1 96 2 5 2 5 95 正态曲线下的面积规律 正态曲线下的面积规律 2 58 2 58 0 5 0 5 99 三 正态分布的应用 1 估计参考值范围 2 估计总体参数的可信区间 3 差异显著性检验 4 质量控制 1 估计频数分布 出生体重低于2500g为低体重儿 某市婴儿出生体重均数3200g 标准差为s 350g 设该资料服从正态分布 试求该地低体重儿占该地所有出生婴儿的比例 计算 首先计算标准离差 查标准正态分布表 2 0 0228结果 估计低体重儿的比例为2 28 参考值范围 referenceinterval 参考值范围又称正常值范围 normalrange 什么是参考值范围 是绝大多数正常人的某观察指标所在的范围 绝大多数 90 95 99 等等 确定参考值范围的意义 用于判断正常与异常 正常人 的定义 排除了影响所研究的指标的疾病和有关因素的同质的人群 参考值范围确定的原则 选定足够例数的同质的正常人作为研究对象控制检测误差判断是否分组 性别 年龄组 单 双侧问题选择百分界值 90 95 确定可疑范围 参考值范围的估计方法 正态分布法 2 5 2 5 95 1 96 1 96 参考值范围的估计方法 百分位数法 P2 5 P97 5 95 参考值范围的估计方法 方法双侧单侧下限单侧上限正态分布法百分位数法P2 5 P97 5 P5 P95 例 参考值范围的计算 某地调查了200名成年女子的平均血清总蛋白为73 5 g L 标准差3 9 g L 试估计该地成年女子血清总蛋白95 的参考值范围 由得95 参考值范围 下限 1 96s 73 5 1 96 3 9 65 9 g L 上限 1 96s 73 5 1 96 3 9 81 1 g L 此可作为判断该地区成年女子血清总蛋白含量正常与否的参考值 单侧与双侧参考值范围 根据医学专业知识确定 双侧 白细胞计数 血清总胆固醇 单侧 上限 转氨酶 尿铅 发汞 下限 肺活量 IQ 第五节均数的抽样误差及应用 一 概念误差 实测值与真值之差 1 系统误差 在收集资料过程中产生的误差 值恒定不变 遵循一定的规律变化 2 随机误差 一类不恒定 随机 变化的误差 如抽样误差 2 抽样 从总体中获得有代表性样本的过程 3 均数的抽样误差 由抽样而造成的样本均数与总体均数的差异或各样本均数的差异 抽样误差的定义 假如事先知道某地七岁男童的平均身高为119 41cm 为了估计七岁男童的平均身高 总体均数 研究者从所有符合要求的七岁男童中每次抽取100人 共计抽取了三次 抽样误差的定义 三次抽样得到了不同的结果 原因何在 定义 由于个体变异的存在 在抽样研究中产生样本统计量和总体参数之间的差异 称为抽样误差 各种参数都有抽样误差 这里我们以均数为研究对象 抽样误差的定义 计算公式 反映均数抽样误差大小的指标 样本均数的标准差 标准误越小 说明样本均数与总体均数越接近 样本均数的代表性越好 意义 二 标准误 例 对某地成年男性红细胞数的抽样调查中 随机抽取了100名成年男性 调查得到其均数是5 38 L 标准差为0 44 L 求其标准误 依题意 n 100 s 0 44 1012 L 计算得到标准误为 例题 1012 L 标准误的意义 反映了样本统计量 样本均数 样本率 分布的离散程度 体现了抽样误差的大小 标准误越大 说明样本统计量 样本均数 样本率 的离散程度越大 即用样本统计量来直接估计总体参数越不可靠 反之亦然 标准误的大小与标准差有关 在例数n一定时 从标准差大的总体中抽样 标准误较大 而当总体一定时 样本例数越多 标准误越小 说明我们可以通过增加样本含量来减少抽样误差的大小 样本均数的抽样分布规律 中心极限定理从均数为 标准差为 的正态总体中随机抽样 样本均数服从均数为 标准差为的正态分布 从均数为 标准差为 的任意总体中随机抽样 当样本含量足够大时 样本均数近似服从均数为 标准差为的正态分布 t分布的演化 根据中心极限定理的内容 当样本含量足够大时 对从均数为 标准差为 的任意总体中随机抽样所得的样本均数进行标准化变换 有 t分布的演化 由于总体标准差往往是未知的 此时往往用样本标准差代替总体标准差 这里 为自由度 取值为n 1由W S Gosset提出 t分布的图形 自由度分别为1 5 时的t分布 t分布的性质 t分布为一簇单峰分布曲线 高峰在0的位置上 说明从正态总体中随机抽样所得样本计算出的t值接近0的可能性较大 t分布以0为中心 左右对称 分布的高峰位置比u分布低 尾部高 t分布与自由度 有关 自由度越小 t分布的峰越低 而两侧尾部翘得越高 自由度逐渐增大时 t分布逐渐逼近标准正态分布 当自由度为无穷大时 t分布就是标准正态分布 每一自由度下的t分布曲线都有其自身分布规律 t界值表 t界值表 单侧 P t t 双侧 P t t 即 P t t t 1 例 查t界值表得t值表达式t0 05 10 2 228 双侧 t0 05 10 1 812 单侧 统计推断 所谓统计推断 statisticalinference 是指如何抽样 以及如何用样本性质推断总体特征 参数估计 parameterestimation 点估计区间估计假设检验 hypothesistesting 参数估计之一 点估计 用样本统计量作为总体参数的估计例如 用样本均数作为总体均数的一个估计 点估计的缺陷 区间估计 可信区间的定义总体均数之可信区间的求解可信区间的要素正确理解可信区间的含义 区间估计 例4 1 随机抽取某地25名正常成年男子 测得该样本的脉搏均数为73 6次 分 标准差为6 5次 分 估计正常成年男子脉搏总体均数 区间估计的实质 假设某个总体的均数为 需要找到两个量A和B 使得在一个比较高的可信度下 如95 区间 A B 能包含 即P A B 0 95 可信区间的定义 按一定的概率或可信度 1 用一个区间来估计总体参数所在的范围 该范围通常称为参数的可信区间或者置信区间 confidenceinterval CI 预先给定的概率 1 称为可信度或者置信度 confidencelevel 常取95 或99 可信区间 CL CU 是一开区间CL CU称为可信限 均数的 1 100 可信区间 1 均数的95 可信区间 样本含量不是很大时 样本含量较大时 t分布逼近u分布 例 例4 1 随机抽取某地25名正常成年男子 测得该样本的脉搏均数为73 6次 分 标准差为6 5次 分 求该地正常成年男子脉搏总体均数95 的可信区间 例4 2 某市2001年120名7岁男童的身高 123 62 cm 标准差s 4 75 cm 计算该市7岁男童总体均数90 的可信区间 可信区间的两个要素 可信度 Confidence 准确性 可靠性 即1 一般取90 95 可人为控制精确性 Precision 区间的大小 越小越好 必须二者兼顾 95 可信区间的含义 按这种方法构建的可信区间 理论上平均每100次 有95次可以估计到总体参数 下列说法正确吗 算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论