10 第十章 数值变量资料的统计分析.ppt_第1页
10 第十章 数值变量资料的统计分析.ppt_第2页
10 第十章 数值变量资料的统计分析.ppt_第3页
10 第十章 数值变量资料的统计分析.ppt_第4页
10 第十章 数值变量资料的统计分析.ppt_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十章数值变量资料的统计分析 医学统计方法 第一节数值变量资料的统计描述 一 频数表及频数分布 例10 1抽样调查某地120名18 35岁健康男性居民血清铁含量 mol L 如下表 试编制血清铁含量的频数表 一 频数表的编制 一 频数表与频数分布 一 频数表与频数分布 频数表的编制方法 1 求极差2 确定组数和组距3 列表划记 一 频数表的编制 一 频数表与频数分布 1 极差 range 用R表示 是数据的最大值与最小值之差 本例的最大值和最小值已用粗体字标出 即R 29 64 7 42 22 22 一 频数表的编制 一 频数表与频数分布 1 组数一般设8 15个组 最多的是10组 组距 classinterval 为每组的跨度 一般由极差与预计的组段数之商来确定 2 设定组段数为10 本例22 22 10 2 22 组距取为2 3 于是第一组下限为6 上限为8 但不包括8 记作 6 最后一组下限为28 上限为30 记作 28 30 一 频数表的编制 2 确定组数和组距 一 频数表与频数分布 表10 1120名正常成年男子血清铁含量频数表 mol L 一 频数表的编制 图10 1120名正常成年男子血清铁含量的频数分布 一 频数表与频数分布 二 频数分布图 由图10 1观察该120名成年男子血清铁含量的分布规律 一 频数表与频数分布 1 观察有无可疑值2 便于进一步计算指标并进行统计分析3 揭示资料的分布类型4 描述分布的特征 三 频数表和频数分布图的应用 二 描述集中趋势的指标 一 算术均数 二 几何均数 三 中位数和百分位数 二 描述集中趋势的指标 1 公式 2 可以计算加权均数 weightedmean 计算公式为 wi为第i组的权重系数 weight 说明重要性的大小 wi 0 wi 1 一 算术均数 二 描述集中趋势的指标 1 描述抗体的滴度 细菌计数等 一般用G表示 适用于对数正态分布资料 2 变量值X1 X2 X3 Xn的几何均数为也可用下式计算几何均数 二 几何均数 二 描述集中趋势的指标 例10 25名慢性迁延性肝炎患者的HBsAg滴度资料为1 10 1 20 1 40 1 80 1 160 试求几何均数 二 几何均数 二 描述集中趋势的指标 该资料的各观察值呈倍数增加 其几何均数为故5名慢性迁延性肝炎患者的HBsAg滴度的几何均数为1 40 注意 变量值中不能出现0 且不能同时包括正值和负值 二 几何均数 二 描述集中趋势的指标 中位数 median 是将观察值按升序排列 位次居中的数 常用M表示 中位数既适用于偏态分布资料或分布类型不明资料的描述 也适用于开口资料的描述 三 中位数和百分位数 二 描述集中趋势的指标 例10 3某病7例患者的潜伏期 天 如下 2 6 3 3 4 5 30 试求其平均潜伏期 本例资料是偏态分布资料 适宜用中位数描述其集中趋势 将观察值按升序排列 其中位数为4天 所以 该病7例患者的平均潜伏期为4天 三 中位数和百分位数 二 描述集中趋势的指标 百分位数 percentile 是一种位置指标 以PX表示 一个百分位数PX将全部观察值分为两个部分 故百分位数是一个界值 也是分布数列的一百等份分割值 中位数 P50 是一特定的百分位数 三 中位数和百分位数 三 描述离散趋势的指标 例10 4观察下面三组数据 试分析其集中趋势和离散程度甲组2629303134甲 30乙组2427303336乙 30丙组2628303234丙 30 三 描述离散趋势的指标 一 极差 二 四分位数间距 三 方差和标准差 四 变异系数 如何描述资料离散程度 三 描述离散趋势的指标 极差 R 又称全距 指一组数据中最大值与最小值之差 极差大 说明资料的离散程度大 如例10 4中的甲组和乙组的极差分别为8和12 说明乙组的离散程度大于甲组 用极差反映离散程度的大小 简单明了 但缺点是不够灵敏和稳定 为什么 一 极差 图10 2三组数据的离散程度 三 描述离散趋势的指标 一 极差 三 描述离散趋势的指标 四分位数间距 inter quartilerange 上四分位数P75 QU 与下四分位数P25 QL 之差 即 Q QU QL四分位数间距可看成中间一半观察值的极差 其意义与极差相似 数值大 说明变异度大 反之 说明变异度小 对偏态分布 记为 M P25 P75 二 四分位数间距 三 描述离散趋势的指标 方差 将总体方差开平方 就是总体标准差 记为 三 方差和标准差 三 描述离散趋势的指标 例10 4中三组资料的样本标准差分别为 S甲 2 9155S乙 4 7434S丙 3 1623故S乙 S丙 S甲 即乙组的变异大于丙组 丙组的大于甲组 三 方差和标准差 三 描述离散趋势的指标 变异系数 为标准差与均数之比 常用百分数表示 适用条件 量纲不同的变量间或均数差别较大的变量间 四 变异系数 三 描述离散趋势的指标 例10 5某地女童100人 其身高的均数为72 4cm 标准差为3 0cm 体重的均数为8 42kg 标准差为0 98kg 由于身高和体重的度量单位不同 不能直接比较标准差 可以比较其变异系数 四 变异系数 三 描述离散趋势的指标 女童体重的变异 身高的变异 四 变异系数 第二节正态分布和参考值范围 一 正态分布的概念 正态分布曲线图的方程为 X 将 作如下变换 则正态分布 标准正态分布 一 正态分布的概念 二 正态分布的图形 特征 正态分布是一单峰分布 高峰位置在均数X 处 正态分布以均数为中心 左右完全对称 正态分布取决于两个参数 即均数 和标准差 为位置参数 为形态参数 有些指标不服从正态分布 但通过适当的变换 transformation 后服从正态分布 正态分布曲线下的面积分布是有规律的 且曲线下面积为1 正态分布的特征 三 正态分布曲线下面积分布规律 三 正态分布曲线下面积分布规律 例10 6在例10 1中已求得某市120名成年男子的血清铁含量的均数为18 57umol L 标准差为4 37umol L 设该资料服从正态分布 试求该市成年男子血清铁含量在24 mol L以下者占该市成年男性总数的比例 分别求 和范围内成年男子占该市成年男子总数的实际百分数 并与理论百分数比较 三 正态分布曲线下面积分布规律 按式求标准正态离差u 24 18 57 4 37 1 24查附表 在表的左侧找到 1 2 在表的上方找到0 04 二者交汇处为0 1075 10 75 即该市成年男子血清铁含量在24umol l以下者 估计约占89 25 计算结果见表10 2 可见该资料的理论分布和实际分布是很接近的 表10 2120名成年男子血清铁含量的实际分布与理论分布的比较 三 正态分布曲线下面积分布规律 四 正态分布的应用 一 估计频数分布 二 制定参考值范围 三 质量控制 四 统计分析方法的基础 四 正态分布的应用 例10 7出生体重低于2500克为低体重儿 若由某项研究得某地婴儿出生体重均数为3200克 标准差为350克 估计该地当年低体重儿所占的比例 先求标准离差 再查表得 即标准正态曲线下从 到范围内的面积为2 28 故估计该地当年低体重儿所占的比例为2 28 一 估计频数分布 四 正态分布的应用 参考值范围 是指特定的 正常 人群的解剖 生理 生化指标及组织代谢产物含量等数据中大多数个体的取值所在的范围 这里的 绝大多数 最常用的是95 二 制定参考值范围 四 正态分布的应用 如何制定参考值范围 二 制定参考值范围 四 正态分布的应用 例10 8某地调查正常成年女子120人的血红蛋白含量 近似正态分布 得均数 117 4g L 标准差s 10 2g L 试估计该地成年女子血红蛋白含量的95 参考值范围 用正态分布法求95 参考值范围的下 上限如下 下限为 X 1 96s 117 4 1 96 10 2 97 41 g L 上限为 X 1 96s 117 4 1 96 10 2 137 9 g L 二 制定参考值范围 四 正态分布的应用 上 下警戒值 上 下控制值 三 质量控制 四 正态分布的应用 t检验 方差分析 相关回归分析等多种统计方法均要求分析的指标服从正态分布 很多统计量的分布 在样本含量足够大的情况下 亦近似服从正态分布 四 统计分析方法的基础 第三节均数的抽样误差和总体均数估计 一 均数的抽样误差与标准误 一 抽样误差由抽样引起的样本统计量与总体参数间的差异 二 标准误样本均数的标准差 用来衡量抽样误差的大小 一 均数的抽样误差与标准误 t分布曲线 一 均数的抽样误差与标准误 t分布为一簇单峰分布曲线 以0为中心 左右对称 t分布与自由度 有关 自由度越小 t分布的峰越低 而两侧尾部翘得越高 自由度逐渐增大时 t分布逐渐逼近标准正态分布 当自由度趋向无穷大时 t分布趋近标准正态分布 故标准正态分布是t分布的特例 t分布的特征 二 参数估计 一 点估计 以样本统计量估计对应的总体参数 二 区间估计按一定的概率1 确定的包含总体参数的一个范围 这个范围称作可信度为1 的可信区间 confidenceinterval CI 又称置信区间 这种估计方法称为区间估计 总体均数可信区间的计算方法 1 t分布法2 正态近似法 二 参数估计 1 当 未知时 按t分布原理计算可信区间 总体均数的可信度为 1 的可信区间定义为 2 当 已知或未知但样本含量较大时 例如n 100 按正态分布原理估计总体均数的可信区间 当 未知时 相应的总体均数1 可信区间为 z z 1 t分布法 二 参数估计 例10 9随机抽取某地25名正常成年男子 测得该样本的脉搏均数为73 6次 分 标准差为6 5次 分 求该地正常成年男子脉搏总体均数95 的可信区间 本例自由度 25 1 24 经查表得t0 05 24 2 064 则 1 t分布法 二 参数估计 可信区间的涵义 如果重复若干次样本含量相同的抽样 每个样本均按同一方法构建100 1 可信区间 则在这些可信区间中 理论上有100 1 个包含了总体参数 还有100 个未估计到总体均数 第四节假设检验的基本思想与步骤 1 提出一个假设 推断是否拒绝这一假设2 假设检验的基本原理包括小概率思想和反证法思想 例10 10大规模调查表明健康成年男子血红蛋白的均数为136g L 今随机调查某单位食堂成年男性炊事员25名 测得血红蛋白均数为121g L 标准差为48 8g L 试问该单位食堂成年男性炊事员血红蛋白的均数与健康成年男子血红蛋白的均数有无差别 本例中已知一个总体 0 136g L 一个样本 n 25 121g L s 48 8g L 现有的样本均数和总体均数不同 什么是造成其差别的原因 为识别原因 我们对其做假设检验 假设检验的基本步骤 一 建立假设 二 确定检验水准 三 计算检验统计量和P值 四 推断结论 一 建立假设 一是检验假设 hypothesistobetested 亦称原假设或无效假设 nullhypothesis 记为H0 二是与H0相对立的备择假设 alternativehypothesis 记为H1 两者是互斥的 非此即彼 H0 13 6g dl H1 13 6g dl 二 确定检验水准 确定检验水准 sizeoftest 实际上就是确定拒绝H0时的最大允许误差 常用 表示 最常用的检验水准为 0 05 本例取 0 05 三 计算检验统计量和P值 t 1 54 这个差别是大还是小 当前样本是否支持H0假设 P值的大小表示 在H0成立的前提下 获得现有这么大t离差及更大t离差即t 1 54的可能性 即 P P t 1 54 由 25 1 24查附表2的t界值表得 则t0 10 四 推断结论 结论 t 1 54 24 P 0 10 故按 0 05水准 不拒绝H0 差别无统计学意义 若P 则拒绝H0 接受H1 差别有统计学意义 若P 则不拒绝H0 差别无统计学意义 第五节t检验和z检验 一 样本均数与总体均数比较的t检验二 配对设计计量资料的t检验三 成组设计计量资料的t检验四 大样本资料的Z检验五 I型错误和 型错误六 假设检验时应该注意的问题 主要内容 一 样本均数与总体均数比较的t检验 样本均数与已知总体均数比较的目的 是推断该样本是否来自某已知总体 具体方法步骤见例10 10 二 配对设计计量资料的t检验 例10 11现用两种血压计对12名妇女测得收缩压 SBP mmHg 资料如表10 3 问两种方法的检测结果有无差别 H0 d 0 两种血压计检验结果相同 H1 d 0 两种血压计检验结果不同 0 05 求得检验统计量 按 n 1 11查t值表 得t0 02 11 2 718 t t0 02 11 则P 0 02 差别有统计学意义 可以认为两种血压计检查的结果不同 二 配对设计计量资料的t检验 三 成组设计计量资料的t检验 t检验的公式为 n1 n2 2 例10 12为研究某种蛋白与系统性红斑狼疮的关系 测试了某医院中15名狼疮患者和12名正常人血清中该蛋白的含量 g dl 结果见下表 问患者和正常人的蛋白含量是否有差异 三 成组设计计量资料的t检验 三 成组设计计量资料的t检验 H0 1 2 正常人与狼疮患者的转铁蛋白含量相等 H1 1 2 正常人与狼疮患者的转铁蛋白含量不等 双侧 0 05 检验统计量t 7 402 查表得P 0 001 按 0 05水准拒绝H0 接受H1 差别有统计学意义 可以认为狼疮患者的该蛋白含量较低 四 大样本资料的z检验 1 单样本资料的z检验单样本检验的公式可简化如下 2 两独立样本资料的Z检验在两个样本均数比较时 若两组样本含量都很大 如n均大于50 可用z检验 其计算公式为 五 I型错误和 型错误 实际情况与H0一致 I型错误 typeIerror 实际情况与H0不一致 型错误 type error 五 I型错误和 型错误 六 假设检验时应该注意的问题 一 要有严密的研究设计 二 选用检验方法必须符合使用条件 三 正确理解 水准和P值的意义 四 单侧检验和双侧检验 五 结论不能绝对化 六 假设检验时应该注意的问题 应用t检验的前提条件 独立性 independence 正态性 normality 方差齐性 homogeneity 思考 如何判断方差齐性 第六节方差分析 一 完全随机化设计资料的方差分析 例10 13某妇幼保健院用甲 乙和丙三种方案治疗血红蛋白含量不满10g的婴幼儿贫血患者 甲方案为每公斤体重每天口服2 1 硫酸亚铁1ml

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论