




已阅读5页,还剩83页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2020 3 27 01 卫生统计学概述 2020 3 27 CONTENTS 2020 3 27 变量值 观察值 定性 定量 一 卫生统计学的基本概念 变量 对每个观察单位的某项特征进行测定和观察 这种观察单位的特征称为变量 2020 3 27 01 计量资料 用度量衡的方法测量每个观察单位的某项研究指标量的大小 所得的数据称为数值变量 02 计数资料 将全体观察单位按某种性质或类别进行分组 然后清点各组中的例数 这样得到的数据称为计数资料 亦称为分类变量 03 等级资料 将全体观察单位按某种性质的不同程度分为若干组 分别清点各组中的例数 这种数据资料称为等级资料 统计资料 一 卫生统计学的基本概念 描述计量资料常用统计方法 平均数 标准差等 统计分析方法 u检验 t检验 方差分析等 计数资料常用统计指标 率 构成比等 统计分析方法 u检验 2检验等 计数资料常用统计指标 率 构成比等 统计分析方法 秩和检验 2检验等 2020 3 27 是从总体中随机抽取有代表性的一部分观察单位 用样本信息去推断总体特征 样本 根据研究目的确定的同质的观察单位的某个变量值的全体 总体 一 卫生统计学的基本概念 2020 3 27 特点 不可避免 但可控制在一定范围 即使消除了系统误差 控制了随机测量误差 样本统计量和总体参数之间仍存在差别 这种由随机抽样引起的样本指标与总体指标的差异 由于某种必然因素所致 具有一定的方向性 偶然机遇所致 无方向性 对同一样品多次测定 结果有高有低 抽样误差 系统误差 误差 一 卫生统计学的基本概念 特点 不是偶然造成 观察结果一贯性的偏高或偏低 避免方法 1 通过周密的研究设计2 调查或测量过程中的质量控制 随机测量误差 特点 由于个体变异造成 抽样机遇所致 客观存在 不可避免 但可估计大小 也可增加样本含量使其减小 是指一次试验结果计算得到的样本率 频率 样本 描述随机事件发生的可能性大小的数值 事件A的概率记为P A 随机事件的概率P取值在0 1之间 概率 总体 一 卫生统计学的基本概念 2020 3 27 02 计量资料的统计描述 2020 3 27 一 集中趋势 Centraltendency 的描述 平均数 average 常用于描述一组变量值的集中趋势 是反映同质资料的平均水平或集中位置的特征值 2020 3 27 应用对称分布资料 尤其是正态分布资料 2020 3 27 常用平均数2 几何均数 geometricmean 表示符号 G 应用对数正态分布资料 变量值呈倍数关系 2020 3 27 常用平均数3 中位数 median 表示符号 M 2020 3 27 二 离散趋势 tendencyofdispersion 描述变量值的离散趋势用变异指标 全距常用变异指标四分位数间距方差和标准差变异系数 2020 3 27 常用变异指标1 全距 range 简记为R R 最大值 最小值 反映变量值的变异范围 各种类型资料都可应用 但只作参考资料 2020 3 27 2020 3 27 2020 3 27 标准差用途 1 表示同质变量值的离散程度 2 在多组资料均数相近 度量单位相同的条件下表示观察值的变异度大小 3 与均数结合描述正态分布的特征和估计医学参考值范围 4 与样本含量 n 结合 计算标准误 2020 3 27 用途 1 比较多组单位不同资料的变异度2 比较多组均数相差较大资料的变度 常用变异指标3 变异系数 coefficientofvariation 简记为CV 定义CV s X 100 2020 3 27 三 正态分布和参考值范围的估计 正态分布的概念和特征 正态分布是以均数为中心呈对称的钟型分布 频数 人数 125129133137141145149153157161身高 cm f 120名12岁健康男孩身高的频数分布 Normaldistributioncurve 2020 3 27 正态分布的特征有 1 正态分布曲线在均数处最高2 正态分布以均数为中心 左右对称且逐渐减少3 正态分布曲线的两个参数 和 记作N 2 4 正态曲线在 1 处各有一个拐点 2020 3 27 正态曲线下的面积分布规律 1 占正态曲线下面积的68 27 1 96 占正态曲线下面积的95 00 2 58 占正态曲线下面积的99 00 若n 100 则 可用X代替 用s代替 2 58 1 96 1 1 1 96 2 58 2 5 0 5 正态分布的应用估计变量值的频数分布制定医学临床参考值 2020 3 27 常用U值表 正常值范围双侧单侧 90 1 6451 28295 1 9601 64599 2 5762 326 95 双侧参考值 1 96 S99 双侧参考值 2 58 S95 单侧参考值 1 64 S 1 64 S 2020 3 27 3 百分位数法 用于偏态分布资料双侧参考值 0 05 P2 5 P97 5单侧参考值 0 05 P5或 P95 2020 3 27 03 计量资料的统计推断 2020 3 27 一 均数的抽样误差和标准误 一 均数的抽样误差 概念 由于抽样造成的样本均数与总体均数的差异或各样本均数之差异 表示方法 标准误 Standarderror 标准误为样本均数的标准差 是说明样本均数抽样误差的大小的指标 反映了样本均数与总体均数的差异 2020 3 27 2020 3 27 2020 3 27 特征以0为中心 左右对称t 分布曲线的形状与自由度有关 4 3 2 10 1 2 3 4 f t u d 5 1 自由度分别为1 5 的t 分布 2020 3 27 二 总体均数可信区间的估计 点估计 pointestimation 用样本均数作为总体均数的估计值 区间估计 intervalestimation 按一定的概率估计总体均数所在范围 亦称总体均数的可信区间 2020 3 27 总体均数区间估计的方法 当n足够大 如100 时 X的平均数 接近正态分布总体均数95 可信区间 1 96 s 总体均数99 可信区间 2 58 s 2020 3 27 总体均数区间估计的方法 2 当样本含量n较小时 X的平均数 接近t 分布总体均数95 可信区间 t0 05 s 总体均数99 可信区间 t0 01 s 2020 3 27 三 假设检验的基本原理概念 假设检验是用来判断样本统计量与总体参数的差异是由抽样误差引起 还是本质差异造成的统计推断方法 一 假设检验的基本思想小概率事件不可能原理 小概率事件在一次试验中基本不可能发生 反证法思想 先对总体的参数或分布作出某种假设 再用适当的统计方法确定假设成立的可能性大小 推断此假设成立或不成立 2020 3 27 抽样误差所致P 0 05 来自同一总体 假设检验回答环境条件影响P 0 05 来自不同总体 两均数不等 2020 3 27 二 假设检验的基本步骤1 建立检验假设 确定检验水准H0 无效假设 假设两组或多组资料的总体均数相等 0或 1 2 3H1 备择假设 0 双侧检验 0或 0 单侧检验 检验水准 通常取 0 05 2020 3 27 2 选定检验方法 计算检验统计量根据资料类型及统计推断的目的选用合适的检验方法计算出统计量 t值 u值 2值等 3 确定P值 作出推断结论根据自由度 查不同统计量的界值表 t值表 2值表等 确定现有统计量的概率P值 2020 3 27 确定P值 当 t0 05 差异无统计学意义 t0 01 t t0 05 0 01 按所取检验水准不拒绝H0P 按所取检验水准拒绝H0 2020 3 27 三 假设检验时应注意的问题保证比较的样本间有较好的均衡性和可比性 选用的假设检验方法应符合其应用条件 正确理解差别有无显著性的统计意义 结论不能绝对化 报告结论时应列出统计量值 注明单侧或双侧检验 写出P值的确切范围 2020 3 27 2020 3 27 例1 根据大量调查 已知健康成年男子脉搏数为72次 分 某医生在山区随机抽查25名健康成年男子 求得其脉搏均数为74 2次 分 标准差为6 5次 分 能否据此认为山区成年男子的脉搏数高于一般 2020 3 27 1 H0 0 H1 0 0 05 2 074 2 72t 1 692S 6 5 3 自由度 n 1 25 1 24 查t值表 单侧 得t0 05 24 1 711 t 1 6920 054 在 0 05水准上 接受H0 不能认为该山区成年男子的脉搏数高于一般 2020 3 27 n为对子数 2020 3 27 2020 3 27 x1 x2t n1 1 s12 n2 1 s2211 n1 n2 2n1n2 2020 3 27 2020 3 27 04 分类资料的统计描述 2020 3 27 一 常用相对数相对数 计数资料常用的统计指标 又称相对指标 Relationnumber 2020 3 27 常用相对数 一 率 Rate 频率指标 表示某现象发生的频率和强度 计算公式 实际发生某现象的观察数率 K可能发生某现象的观察单位总数 K为比例基数 可为100 或1000 等 2020 3 27 二 构成比 Constituentratio 又称构成指标 表示某一事物内部各组成部分所占的比重或分布 计算公式 某一事物各组成部分的个体数构成比 100 同一事物各组成部分的个体总数 2020 3 27 三 相对比 Relativeratio 表示两个有联系的指标 绝对数 相对数或平均数 之比 说明对比水平 计算公式 A指标相对比 或 100 B指标1 对比指标 两个有关同类指标之比 如两地肿瘤死亡比2 关系指标 两个有关非同类指标之比 如每千人病床数 2020 3 27 二 应用相对数应注意的问题 1 不要把构成比当作率分析 最容易混淆 年龄组 岁 人口数癌肿病人数构成比 患病率 30633000191 33 030 57000017111 430 040 37400048632 6129 9505401 460 3025024216 2800 0 合计17502501492100 085 2 2020 3 27 二 应用相对数应注意的问题 2 计算相对数的分母不宜太小 治疗数有效数总体率95 可信区间 211 99 427 93 502536 65 50025045 54 5000250049 51 可见 当n足够大时 相对数才稳定 2020 3 27 二 应用相对数应注意的问题 3 率或构成比的比较应注意可比性1 研究对象是否同质 方法 时间 种族 地区 环境等 2 其它影响因素 年龄 性别 在各组的内部构成是否相同3 同地区不同时期资料对比时 应注意客观条件是否一致4 对观察单位数不等的几个率不能直接相加求其平均率5 对样本率 或构成比 的比较应作假设检验 2020 3 27 三 率的标准化法 一 标准化法的意义和基本思想意义 在比较率时 如果比较的两组资料其内部构成不同 且影响到比较结果 就不能直接进行比较 需要进行标准化处理后 消除由于内部构成不同对结果造成的影响 才能进行比较 标准化法 就是采用统一的标准对内部构成不同的各组频率进行调整和对比的方法 标准化率 采用统一的标准调整后计算的率 2020 3 27 二 标准化方法选择 根据已知资料类型 直接法 已有被观察人群中各组的率资料 间接法 仅有各组的观察单位数和总率 没有各组率的资料 三 标准选择1 选择一个有代表性的 内部构成相对稳定的较大人群为标准 2 将比较的两组资料各对应组观察数合并作为标准 3 在比较的两组中任选一组内部构成做标准 2020 3 27 四 标化率的计算 直接法 例1998年某社区甲乙两企业高血压患病率 的普查结果甲企业乙企业年龄人口数构成比患病人数患病率人口数构成比患病人数患病率 1 2 3 4 5 6 7 8 9 30 93537 99101 168034 6440 640 84934 508610 140520 63297 250 42017 0714133 633316 969127 360 1506 109865 329214 8815854 170 1074 357469 225312 8916364 4合计2461100 0040916 61963100 0044522 6 2020 3 27 问题 甲企业各年龄高血压患病率都高于乙企业 合计患病率则乙企业高于甲企业 原因 两个企业人口数在年龄构成上不同 甲企业60岁以下人口构成比高于乙企业 60岁以上正好相反 因此乙企业高血压合计患病率高是因为高年龄人口数多的缘故 解决方法 需要将两企业的年龄构成标准化 计算标准化高血压患病率 然后再进行比较 注意的是 1 选择的 标准人口 不同 计算的标准化率不同 2 标准化率只是为了进行合理比较而计算的一个指标 它并不反映实际水平 2020 3 27 例1998年某社区甲乙两企业标准化高血压患病率 的计算甲企业乙企业年龄标准人口原患病率预期患病人数原患病率预期患病人数 1 2 3 4 2 3 5 6 2 5 30 16151 117 80 69 740 125410 1126 77 290 350 75333 6253 027 3205 660 44265 3288 654 1239 170 36069 2249 164 4231 8合计442416 6935 222 6776 5甲企业标准化高血压患病率 935 2 4424 100 21 1 乙企业标准经高血压患病率 776 5 4424 100 17 6 结果表明 甲企业标准化高血压患病率高于乙企业 2020 3 27 05 分类资料的统计推断 2020 3 27 一 率的抽样误差和总体率的估计 一 率的抽样误差与标准误由抽样造成的样本率与总体率的差别称为率的抽样误差 p p为样本率 为总体率 率的标准误 表示率的抽样误差大小的统计指标 计算公式 p为 的估计值 Sp为 p的估计值 2020 3 27 二 总体率的可信区间估计正态近似法 当总体率 未知时 若np 5和n 1 p 5 则总体率 1 可信区间为 p U sp p U sp p U sp即 总体率95 可信区间为p 1 96sp总体率99 可信区间为p 2 58sp 2020 3 27 二 率的U 检验 一 样本率与总体率比较目的 推断样本率所代表的总体率 与某总体率 0是否相等 0常为理论值或长期积累的经验值 条件 n 0 5和n 1 0 5公式 2020 3 27 2020 3 27 A为实际值T为理论值 2020 3 27 3 2检验的种类 1 四格表资料的 2检验目的 用于两个样本率或构成比的比较 推断两个样本所代表的总体率 或总体构成比 是否相等 2020 3 27 2020 3 27 2020 3 27 3 行 列表资料的 2检验目的 用于多个样本率 或构成比 的比较 推断样本所代表的几个总体率 或总体构成比 之间有无差别 基本公式 专用公式 A2 2 n 1 nRnC 2020 3 27 行 列表资料 2检验的注意事项 当有1 5及以上格子的T 5 或有一个格子T 1时 应将资料合理合并 或增大样本含量重新观察以增加理论频数T 当推断结论为拒绝H0时 是认为各总体率 或总体构成比 不等或不全相等 即只能认为其中至少有两个总体率 或总体构成比 不等 而不能确定任意两个总体率 总体构成比 不等 2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论