卫生统计学绪论课件.ppt_第1页
卫生统计学绪论课件.ppt_第2页
卫生统计学绪论课件.ppt_第3页
卫生统计学绪论课件.ppt_第4页
卫生统计学绪论课件.ppt_第5页
已阅读5页,还剩96页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

卫生统计学刘金辉宝坻区疾病预防控制中心 第一章绪论 统计学概念 统计学是处理数据中变异性的科学与艺术 内容包括数据的收集 分析 解释和表达 目的是求得可靠的结果 以往教材中概念 是研究数据的收集 整理 分析和推断的一门科学 第一节概述 根据研究领域和研究对象的不同 统计学又分为 数理统计 经济统计 生物统计 卫生统计 医学统计 医学统计学 medicalstatistics 用统计学的原理和方法研究医学中的问题 卫生统计学 healthstatistics 与医学统计学基本相同 但更侧重于社会 人群的卫生问题 采用统计学方法 发现不确定现象背后隐藏的规律 变异是个体间存在的差异 是绝对的 是社会和生物医学中的普遍现象 变异使得实验或观察的结果具有不确定性 如每个人的身高 体重 血压等各有不同 为什么要学习统计学 最大值 6 18 最小值 3 29 极差 2 89 2 用统计学思维方式考虑有关医学研究中的问题 阳性 结果是否是虚假联系 某感冒药治疗1周后 治愈率为90 能否说该感冒药十分有效 阴性 结果是否是样本含量不足 有人曾对发表在Lancet NEnglJMed JAMA等著名医学杂志上的71篇阴性结果的论文作过分析 发现其中有62篇 93 可能是由于样本含量不足造成的假阴性 3 保证你的研究论文能通过统计学审查据国外60 80年代对不同医学杂志发表论文的调查 有统计错误的论文的百分比最高达72 最低也有20 国内1984年对 中华医学杂志 中华内科杂志 中华外科杂志 中华妇产科杂志 中华儿科杂志 595篇论文的调查结果 相对数误用为11 2 抽样方法误用15 9 统计图表误用11 7 某研究者1996年对4586篇论文统计 中华医学会系列杂志仅占6 9 数据分析方法误用达55 7 4 获得循证医学证据的主要手段 良好愿望的医学 well meaningmedicine 转入 以证据为基础的医学 evidence basedmedicine EBM 需要有统计学方法的支持 全世界的医学期刊每年大约刊登600万学术论文 但能作为可靠 证据 的论文并不多 第二节医学统计工作内容及资料类型 一 原始统计数据的来源 常规保存数据医院信息系统 HIS 统计报表等2 现场调查记录3 实验记录4 其他 一 研究设计二 搜集资料三 整理资料四 分析资料五 结果表达 二 统计工作的内容 设计的内容包括资料的收集 整理和分析全过程的设想和安排 常有 1 调查设计 surveydesign 对研究对象不施加任何干预 通常建立随机抽样 randomsampling 方案 2 实验设计 experimentdesign 对研究对象施加干预 如动物实验研究 临床试验 通常建立随机分组 randomallocation 方案 一 研究设计 实验设计的三个基本原则1 随机化 randomization 2 对照 control 3 重复 replication 二 收集资料 收集资料要遵循完整 准确 及时三个原则 卫生工作中统计资料主要来源于三个方面 1 统计报表 由国家统一设计 要求医疗卫生机构定期逐级上报 如传染病防治法 2 经常性工作记录 如经常性卫生监测记录等 3 专题调查和实验 我们常把前两个来源称经常性资料 后者称为一时性资料 三 整理资料 目的是将搜集到的原始资料系统化 条理化 便于进一步计算与分析 编码 将数据输入计算机纠错改错 补漏等 四 分析资料 dataanalysis 运用各种统计分析方法 结合专业知识 从经过整理的资料中 计算出各种指标 进行统计描述和统计推断 反映数据的综合特征 阐明事物的内在联系与规律 1 统计描述 descriptivestatistics 指用统计指标 统计表 统计图等方法对资料的数量特征及分布规律进行测定和描述 2 统计推断 inferentialstatistics 指如何抽样 以及如何由样本信息推断总体特征问题 总体均数 总体率的可信区间及其假设检验两个总体均数 总体率差值的可信区间及其假设检验多个总体指标之间的假设检验 五 结果表达 使用的统计学方法使用的统计学软件 SAS SPSS 假设检验的统计量 P值等结论 三 资料的类型 只有认识了数据的特点 才能正确地选用统计分析方法 基本概念 变量及变量值研究者对每个观察单位的某项特征进行观察和测量 这种特征称为变量 变量的测得值叫变量值 也叫观察值 全部变量值的集合也称为资料 按变量值的性质可将资料分为 计量资料计数资料等级分组资料 1 计量资料 定量资料 数值变量 定义 通过度量衡的方法 测量每一个观察单位的某项研究指标的量的大小 得到的一系列数据资料 例如 体重与身高特点 表现为数值大小有度量衡单位多为连续性资料 通过测量得到 定义 将全体观测单位按照某种性质或特征分组 然后再分别清点各组观察单位的个数 特点 没有度量衡单位多为间断性资料 通过枚举或记数得来 可分为二项与多项定性资料 2 定性资料 分类资料 分类变量 定义 介于计量资料和计数资料之间的一种资料 通过半定量方法测量得到 特点 每一个观察单位没有确切值各组之间有性质上的差别或程度上的不同 示例 检查尿蛋白 观察单位是每一份尿标本 按结果等级不同可分为 等 3 等级分组资料 有序变量 1 定性数据 二项与多项 分类数据计数数据2 定量数据计量数据区间数据数值数据3 等级资料有序资料 定性与定量数据的别名 三类数据间的关系 例 一组20 40岁成年人的血压 变量 以12kPa为界分为正常与异常两组 统计每组例数 8低血压8 正常血压12 轻度高血压15 中度高血压17 重度高血压 定量数据 等级数据 定性数据 三类数据的编码与计算 1 例 一组20 40岁成年人的血压 以12kPa为界分为正常 0 与异常 1 两组 统计每组例数 8低血压418 正常血压10212 轻度高血压13315 中度高血压16417 重度高血压185 定量数据 等级数据 定性数据 三类数据的编码与计算 2 1 定量数据 允许计算均数 标准差等 可采用t F检验等 可当做有序或定性数据处理 2 定性数据 编码是任意的 不能对编码执行均数标准差等计算 但可计算率或比 可采用卡方检验等 调查14名男子的婚姻状况 3 有序数据 允许基于顺序的计算 如计算中位数 百分位数 可当做定性数据处理 第三节统计学中常用的几个基本概念 1 总体与样本2 抽样方法3 同质与变异4 误差5 频率与概率6 参数与统计量 1 总体与样本 population sample 总体 根据研究目的确定的同质的 所有观察单位的某种变量值的集合 例 2009级陕西中医学院本科女生身高 2007年陕西中医学院大学生的身高 全国女大学生的身高 高血压病人 肥胖病人 分类 有限总体 理论上说 观察单位的数量是可知的 有限的 无限总体 没有时间和地点的限制 观察单位总数量是不可知的 目标总体研究总体 鉴于总体的巨大或不可知性 能否研究其中的一部分 不可能或没有必要对全体中的每一个对象进行研究 样本 概念 从总体中随机抽取的 具有代表性的部分研究对象 其实测值的集合 如何从总体中得到有代表性的一部分 得到多少合适呢 2 随机抽样 为了保证样本的可靠性和代表性 需要采用随机的方法抽取样本 在总体中每个个体具有相同的机会被抽到样本中 Targetpopulation 目标总体 Populationsampled 抽样总体 Sample 样本 能不能成功的达到从样本推断总体的目的 关键是抽样方法 样本的代表性和推断的技术 这些是统计学的核心内容 概率 随机 抽样 等概率抽样 非等概率抽样 简单随机抽样 机械抽样 分层抽样 整群抽样 抽样方法 简单随机抽样 将全部调查单位进行编号 再用随机数字表或抽签等方法随机抽取部分观察单位组成样本 机械抽样 间隔抽样 将总的观察对象按某种顺序编号 从这些编号中按照一定的间隔抽取样本 分层抽样 按照某种性质或者特征将总体分为若干组别 类别或区域 层 再从每一种层中用随机的方法进行抽样 获得样本 整群抽样 将总体按照某些特征分成多个组 用随机的方法从这些组中抽取部分组作为研究对象 组中的全部观察这组成样本 3 同质与变异 同质与变异 研究对象具有的相同的状况或属性等共性称同质或同质性 对于同质的各观察单位 其某变量值之间的差异 称为变异 同质事物个体间的差异来源于一些未加控制或无法控制的甚至不明原因的因素 例如 研究某新药治疗胃溃疡的效果 所有研究对象都必须是确诊为胃溃疡的病人且病情相似 在这种同质的基础上观察治疗效果 有的人治愈 有的人未愈 这种差异就是变异 从本质上说 统计学就是研究变异的科学 4 误差 定义 统计上所说的误差泛指测量值与真值之差 样本指标与总体指标之差 主要有以下三种 系统误差随机误差抽样误差 系统误差 指数据搜集和测量过程中由于仪器不准确 标准不规范等原因 造成观察结果呈倾向性的偏大或偏小 这种误差称为系统误差 特点 具有累加性 随机误差 由于一些非人为的偶然因素使得结果或大或小 是不确定 不可预知的 特点 随测量次数增加而减小 随机测量误差 抽样误差 在消除了系统误差的前提下 由于非人为的偶然因素 对于同一样本多次测定结果不完全一样 结果有时偏大有时偏小 没有倾向性 这种误差叫随机测量误差 特点 没有倾向性 多次测量计算平均值可以减小甚至消除随机测量误差 随机测量误差 由于抽样原因造成的样本指标与总体指标之间的差别 特点 有抽样发生抽样误差就不可避免 统计上可以计算并在一定范围内控制抽样误差 抽样误差 1 改进抽样方法 增加样本的代表性 样本量n相等的情况下 整群抽样 单纯随机抽样 系统抽样 分层抽样 2 增加样本量n 3 选择变异程度较小的研究指标 减少抽样误差的方法 频率 样本的实际发生率称为频率 设在相同条件下 独立重复进行n次试验 事件A出现m次 则事件A出现的频率为f m n 概率 随机事件发生的可能性大小 用大写的P表示 取值 0 1 5 频率与概率 必然事件P 1随机事件0 P 1不可能事件P 0统计学上把P 0 05 5 或P 0 01 1 称为小概率事件 习惯 认为不大可能发生 Certain Impossible 0 5 0 1 通常我们把经常遇到的事件分为三种类型 频率与概率间的关系 1 样本频率总是围绕概率上下波动 2 样本含量n越大 波动幅度越小 频率越接近概率 6 参数与统计量 parameterandstatistic 参数 总体的统计指标 如总体均数 总体标准差 分别用希腊字母记为 固定的常数 推断inference 统计量 样本的统计指标 如样本均数 标准差 采用拉丁字母分别记为 参数附近波动的随机变量 第二章集中趋势的统计描述 主要内容 2 1频数分布2 2平均数 第一节频数分布表9 12002年某市150名正常成年男子的尿酸浓度 mol L 142 3148 8142 7144 4144 7145 1143 3154 2152 3142 7156 6137 9143 9141 2139 3145 8142 2137 9141 2150 6142 7151 3142 4141 5141 9147 9125 9139 9148 9154 9145 7140 8139 6148 8147 8146 7132 7149 7154 0158 2138 2149 8151 1140 1140 5143 4152 9147 5147 7162 6141 6143 6144 0150 6138 9150 8147 9136 9146 5130 6142 5149 0145 4139 5148 9144 5141 8148 1145 4134 6130 5145 2146 2146 4142 4137 1141 4144 0129 4142 8132 1141 8143 3143 8134 7147 1140 9137 4142 5146 6135 5146 8156 3150 0147 3142 9141 4134 7138 5146 6134 5135 1141 9142 1138 1134 9146 7138 5139 6139 2148 8150 3140 7143 5140 2143 6138 7138 9143 5139 9134 4133 1145 9139 2137 4142 3160 9137 7142 9126 8 频数分布及其制作对某个随机事件进行重复观察 其中某变量值出现的次数被称作频数 当汇总大量的原始数据时 把数据按类型分组 其中每个组的数据个数 称为该组的频数 频数表是用于反映各组及其相对应的组频数之间的关系 频数表的制作步骤如下 以例2 1为例 1 计算极差R 最大值和最小值的差值 本例中R 5 95 3 82 2 13 1012 L 2 决定组数 10 15组 最常用10 12组 3 计算组距i 等于极差与组数的比值 取整数和取偶数的原则 本例中i 2 13 10 0 2131012 L 取整数等于0 21012 L 写组段 第一组段应包含最小值 最后一组段包含最大值 每个组段为前闭后开区间 最后一个组段为闭区间 也应遵循取整数和偶数的原则 本例中第一组段应包含最小值3 82 取3 80为第一组段的下限 写为前闭后开区间 3 80 最后一组段应包括最大值 写为闭区间5 80 6 00 5 列表划记 组段和频数是频数表的基本要素 表2 2某地140名正常男子红细胞数的频数表 1012 L 图2 1140名正常男子红细胞数频数分布的直方图 对频数表和图的观察 可以看出两个重要特征 1 集中趋势 平均水平 向中间集中 中等数据的人数最多 2 离散趋势 变异水平 即随着红细胞数测量值逐渐变大或变小 人数越来越少 向两端分散 频数表的主要用途 1 作为陈述资料的形式 可以替代繁杂的原始资料 便于进一步分析2 便于观察数据的分布类型3 便于发现资料中某些远离群体的特大或特小的可疑值4 当样本含量比较大时 可用各组段的频率作为概率的估计值5 计算集中趋势指标与离散趋势指标 数据的分布类型 对称分布和不对称分布正态分布 图形中间的直条最高 高峰在中央 两边对称或基本对称地减少 偏态分布 若高峰不在中央 而位于一侧 若高峰位于左侧 称正偏态分布 如高峰位于右侧 称负偏态分布 对数据的描述指标也分为两类 描述集中趋势或平均水平的指标 2 描述离散趋势或变异水平的指标 第二节平均数 常用几种平均值 1 算术均数2 几何均数3 中位数 集中趋势常用平均值来描述 平均值是一组数据的典型或有代表性的值 由于这样典型的值趋向于落在根据数据大小排列的数据的中心 因此可以用于度量集中位置 位置指标 算术平均数 简称为均数 一 定义 一组已知性质相同的数值之和除以数值个数所得的商 以 总体 样本 表示 二 特征 X 0估计误差之和为0 三 适用资料类型 1 描述正态分布和近似正态分布资料集中趋势的最好指标 2 适用于大多数正常人的生理 生化指标 四 计算方法 1 直接法2 加权法 直接法适用条件 当观察例数不多时 或观察例数虽然很多 但有计算机及统计软件 宜选择直接法 式 2 1 例2 1见书P10 加权法适用条件 当无原始数据或观察例数很多又缺乏计算机及统计软件时 若用直接法很容易出错 可以用加权法处理 式 2 2 利用表2 2资料 用加权法计算140名正常男子红细胞数浓度的均数 计算见表1 表1某地140名正常男子红细胞数均数和标准差 1012 L 加权法计算用表 加权法计算的结果 根据表1得 669 80 140 4 78 1012 L 而将该资料输入计算机用统计软件和直接法计算 得到均数为4 77 1012 L 由此可见 加权法得到的均数是近似值 但这种算法的近似程度很好 算术平均数有如下特征 1 对于以定量化测量所得的计量数据存在唯一的均数 2 样本均数具有抽样的稳定性与对总体均数的可估性特征 能方便地作进一步计算分析 3 均数对极值特别敏感 极大值或极小值通常将均数拉向自己 4 每个变量值到均数距离的和为零 5 每个变量值到均数距离的平方和为最小 几何均数一 定义 将n个观察值x的乘积再开n次方所得的根 用G表示 二 适用条件 1 当一组观察值不呈正态分布 且其差距较大时 用均数表示其平均水平会受少数特大或特小值影响 2 原始数据分布不对称 观察值呈倍数关系或近似倍数关系 经对数变换后呈正态分布的资料 又称对数正态分布资料 3 免疫学或微生物学领域中的某些指标 如抗体滴度 药物的平均效价等 直接法适用条件 当观察例数不多时 宜选择直接法 式 2 3 例2 2见书P11 加权法适用条件 当观察例数较多或无原始数据 仅有频数表资料时 宜选择加权法 式 2 4 例2 3见书P11 表2 3胎盘浸液钩端螺旋体菌苗接种两个月后血清IgG抗体滴度的计算用表 G lg 1 698 9792 326 139该地326名农民胎盘浸液钩端螺旋体菌苗接种两个月后血清IgG抗体的平均滴度为 1 139 几何均数的特征 1 变量x服从对数正态分布 即表示变量log x 服从正态分布 几何均数用以描述一群服从对数正态分布的测量值在对数量值上的集中性特征与平均水平 2 变量x在取对数后的log x 具有算术均数的所有特征 中位数 Median 和百分位数一 定义 中位数是把一组观察值 按大小顺序排列 位置居中的那个数值 中位数是一个位置指标 它将所有观察值分为两个相同的部分 各占除中位数以外的观察值的百分之五十 用M表示 百分位数也是一个位置指标 先把一组数据从小到大排列 将数据中的所有观察值看成一个整体 即100 则百分位数将自身以外的观察值分成了两个部分 其中有x 的观察值比它小 而 100 x 的个体具有比它大的观察值 中位数就是一个特殊的百分位数 即50 中位数和百分位数二 适用资料 偏态分布的资料开口资料分布未明的资料某些毒物指标 如血铅 发汞值 某些传染病或食物中毒的潜伏期 生存时间等 中位数和百分位数三 计算方法 直接法 适用于有原始数据 样本例数不太多 容易将原始数据排序 频数表法 TakeMedianforexample n oddnumber 100 X1X2X3X4X5X6X7 X4 Median P50 50 100 50 50 结论 Median X4 中位数的计算公式直接法 当n 奇数时 中位数即为第 n 1 2位的数值例1见书P12 TakeMedianforexample n evennumber 100 X1X2X3X4X5X6X7X8 Median P50 50 100 50 50 结论 Median 1 2 X4 X5 X4X5 中位数的计算公式直接法 当n 偶数时 中位数并非直接对应某一数值 而是在两个数值之间 于是 取与中点位置相邻的两个变量值的算术平均数为中位数 例1见书12 Px的含义 100 X1X2X3X4 Xn 2Xn 1Xn 100 X 结论 Pxisalimitvalueorpositionindex X PX 频数表法适用于 无原始数据 只有频数表提供的信息 原始数据太多 排序比较麻烦此计算公式的前提条件为 假设观察值在每个组段内是均匀分布的 表2健康男子血清铅的浓度组距为5 mol L 血清铅水平频数累计频数累计频率 mol L 0 18180 07

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论