统计设计、统计方法与结果表述.ppt_第1页
统计设计、统计方法与结果表述.ppt_第2页
统计设计、统计方法与结果表述.ppt_第3页
统计设计、统计方法与结果表述.ppt_第4页
统计设计、统计方法与结果表述.ppt_第5页
已阅读5页,还剩219页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计设计 统计方法与结果表述概论 医学卫生 陈建明2007 08 课程目标 立足使用了解统计在课题研究中的应用了解统计结果的表述 内容提要 一 统计研究项目工作的基本步骤二 研究设计的基本内容 重要性三 研究设计的基本类型 要素 原则四 研究设计的误差控制与抽样方法五 统计方法基本知识六 样本量估计七 数据的组织与结果表达 一 统计研究项目工作的基本步骤 研究设计搜集资料整理资料分析资料结果表达 基本步骤 设计 资料搜集 整理 分析 调查设计实验设计 资料来源质量控制 审核合理分组 描述性统计统计推断 搜集资料 datacollection 搜集资料要遵循准确 完整 及时三个原则 资料搜集计划包括 选择搜集资料的地点 人员和时间 搜集资料人员的培训方案 预调查或预实验方案拟定 资料的记录方式 调查表的拟订和印刷 调查或实验仪器 试剂的准备 调查资料的抽样复核比例和方法 搜集资料所需经费的准备等 一 统计研究项目工作的基本步骤 人员选择 高素质 有相关专业基础 以往曾有类似研究经历的人员加以严格培训和管理是能够遵循三原则的保证 搜集资料的方式 直接观察 采访 填表和通信 直接观察 采访 调查人员亲自参与和记录 若调查人员素质高 工作认真负责 并接受过统一的培训 调查结果可靠 填表和通信由被调查者自己填写 若被调查者文化水平高 素质高 乐意配合调查 也可以得到可靠的资料 否则资料的误差较大 一 统计研究项目工作的基本步骤 整理资料 datasorting 目的是将搜集到的原始资料系统化 条理化 便于进一步计算与分析 编码 将数据输入计算机纠错改错 补漏等 一 统计研究项目工作的基本步骤 分析资料 dataanalysis 根据研究设计的目的 要求 资料的类型和分布的特征等选择统计分析方法 1 统计描述 即计算统计指标 如平均值 发病率等 绘制统计图 2 统计推断 即可信区间估计与统计学假设检验总体均数 总体率的可信区间及其假设检验两个总体均数 总体率差值的可信区间及其假设检验多个总体指标之间的假设检验 3 模型分析等 一 统计研究项目工作的基本步骤 二 研究设计的基本内容 重要性 一 设计研究基本内容 确定选题 研究目的选择合适的研究对象和数量科学分组 设立适当的对照制定可靠的测量 观察指标制定较好的原始记录表选择科学的统计分析的方法 二 研究设计的基本内容 重要性 主要步骤 专业设计 选题 假说 文献准备 记录表 预实验 操作指导手册统计设计 研究对象 分组 设置对照 样本含量 处理因素 观察指标 数据的质量控制与管理 统计分析方法 二 研究设计的基本内容 重要性 二 研究设计的重要性 科研设计是科研的灵魂严密的设计是取得有价值结果的先决条件从这个意义上说没有 设计 就没有科研 设计好 1 既省又可靠 2 可估计和控制误差 3 获取多方面知识设计不好 1 杂乱无章 虽多犹无 2 只能罗列现象 无规律可言 二 研究设计的基本内容 重要性 专业设计 选题 假说 文献准备 记录表 预实验 操作指导手册1 选题 确定研究目的 选题是科研的起点 体现设计和实施的指导思想 影响科研全过程 在科研中始终处于主导地位 选题就是要正确地发现和提出问题 来自于实践和文献资料 提出新问题 新假设比完成一项科研更难 没有好的假设 再好的科研方法也不会有好的成果 选题比科研方法更重要 内容不能包罗万象 明确研究主题 对解决特定问题 主攻方向 心中有数 不能 逮着什么算什么 缺乏严格设计或无设计的研究 即使有重要的发现也属偶然 二 研究设计的基本内容 重要性 专业设计 选题 假说 文献准备 记录表 预实验 操作指导手册2 预实验 在进行正式实验之前 先在少量的人群中作的一种小规模的实验 称为预实验 进行预实验的目的 检验实验设计的方案是否合理 可行 发现存在的问题 便于及时修正和完善 从而尽可能地保证正式实验能如期 顺利地完成 须注意的是 预实验与正式实验除了规模不同外 其余主 客观条件均应一致 否则 就失去预实验的意义了 二 研究设计的基本内容 重要性 专业设计 选题 假说 文献准备 记录表 预实验 操作指导手册3 记录表 操作指导手册 充分考虑细节 对研究的质量控制器 消除偏倚和混杂都起着非常重要的作用 二 研究设计的基本内容 重要性 统计设计 研究对象 分组 设置对照 样本含量 处理因素 观察指标 数据的质量控制与管理 统计分析方法统计学家与科学研究者的合作应该在实验设计阶段 而不是在需要数据处理的时候 试验完成后再找统计学家 无异于请统计学家为试验进行 尸体解剖 统计学家或许只能告诉你试验失败的原因 二 研究设计的基本内容 重要性 三 研究统计设计的基本类型 要素 原则 研究设计的基本类型研究设计的基本要素研究设计的基本原则 一 研究设计的基本类型 1 实验 Experiment 研究 干预 受试对象 人 临床试验动物 动物实验临床试验 治疗 临床疗效实验预防 社区干预实验2 调查 Survey 研究 无干预 被动地观察 如实记录 三 研究统计设计的基本类型 要素 原则 二 研究设计的基本要素 处理因素 treatmentfactor 受试对象 subject 实验效应 experimentaleffect 降压药 高血压病人 血压值 其他因素 其他效应 三 研究统计设计的基本类型 要素 原则 例 药剂 手术方法 毒物确定处理因素的注意事项 1 抓住实验中的主要因素 2 明确处理因素和非处理因素病人对治疗的反应除了治疗因素外 还包括病人的心理状态 生产 生活条件及社会心理因素等 后者可称为非处理因素 3 处理因素须标准化处理因素在整个试验过程中保持不变例如 不同时期的药物批号 手术操作者熟练程度 处理因素 treatmentfactor 三 研究统计设计的基本类型 要素 原则 受试对象 subject 例 人 动物1 受试对象的选入标准明确规定受试对象选入标准 eligibilitycriteria 纳入标准 inclusioncriteria 排除标准 exclusioncriteria 2 受试对象的控制 1 受试对象的一致性人 年龄 性别 病情 病程等动物 种系 年龄 性别 体重等 2 受试对象影响因素的控制季节 温度 湿度 生活环境 嗜好 试验辅助措施等 三 研究统计设计的基本类型 要素 原则 实验效应 experimentaleffect 处理因素作用于受试对象的结果 通过观察指标表达 观察指标应客观 精确 1 客观性 主观指标和客观指标 2 精确性 准确度 accuracy 或真实性 validity 观察值与真实值的接近程度 受系统误差的影响 常用指标 灵敏度 特异度精密度 precision 或可靠性 reliabiliy 或重复性 repeatability 重复观察时观察值与其均值的接近程度 受随机误差的影响 常用指标 Kappa值 一致性的检验 一致百分率 三 研究统计设计的基本类型 要素 原则 准确度与精密度 三 研究统计设计的基本类型 要素 原则 三 实验设计的基本原则 随机化原则 randomization 对照原则 control 重复原则 replication 三 研究统计设计的基本类型 要素 原则 随机化原则 随机分组 每个受试对象以机会均等的原则被随机地分配到各个处理组中 随机抽样 总体中每一个观察单位以机会均等的可能性被抽取 1 随机化的意义 1 随机分组使两组样本在非处理因素方面尽可能一致 使处理因素产生的效应更加客观 2 随机抽样使抽取的样本具有代表 总体 性 减少误差 3 抽样研究理论和统计分析方法的需要 三 研究统计设计的基本类型 要素 原则 随机与随意 随机 random机会均等 客观性随意 aswill随主观意愿 主观性随机化分组 不仅能控制已知的混杂因素 非研究因素 而且还能控制未知的混杂因素 三 研究统计设计的基本类型 要素 原则 随机的三个含义 分组随机 均衡性每个研究对象有同等机会被分配到各处理组抽样随机 代表性总体中每个观察个体有同等机会被抽取实验顺序随机 平衡顺序或季节的影响每个研究对象先后接受处理的机会相同 三 研究统计设计的基本类型 要素 原则 2 随机化的方法 1 抛硬币法 徽 与 字 2 掷骰子法6面1 6点 3 抽签法 捻阄 4 随机数字表法 随机数字法 5 计算器 计算机 产生随机数 三 研究统计设计的基本类型 要素 原则 几种不同设计类型的随机化分组 1 完全随机设计 2 配对实验设计 3 随机区组实验设计 4 交叉设计 三 研究统计设计的基本类型 要素 原则 完全随机设计 将观察单位完全随机地分配到实验组与对照组或几个对比组中去 完全随机抽取样本进入实验 三 研究统计设计的基本类型 要素 原则 方法 1 编号 按动物体重依次编号为1 2 3 12号 2 产生随机数字 对于每一个编号 依次由计算器 计算机 产生随机数 共12次 3 归组 事先规定将较小随机数的4只动物分入甲组 将较大随机数的4只动物分入丙组 其他4只动物分入乙组 三 研究统计设计的基本类型 要素 原则 例 将中的12头动物用随机方法分配到甲 乙 丙三组中 配对实验设计 pairedexperimentdesign 配对实验设计的两种情况 1 同源配对 同一受试对象用两种不同的实验方法 受试对象自身实验前后的对比 2 非同源配对 将具有相同条件的实验对象配成对子 三 研究统计设计的基本类型 要素 原则 例 将已按近似条件配好的对子 用随机方法分配到实验组和对照组 方法 1 编号 进行对子编号 同时每个对子内的对象也分别编号 2 产生随机数字 对于每一组合编号 依次由计算器 计算机 产生随机数 3 归组 对子内对象的随机 事先规定每个对子内随机数字较小者分配到对照组 随机数字较大者分配到实验组 非同源配对随机化分组 三 研究统计设计的基本类型 要素 原则 随机区组实验设计 1 将多方面条件相近的受试对象配成一组 称作一个区组 block 2 每个区组的受试对象个数取决于对比组组数 3 每个区组的受试对象被随机地分配到各对比组中 三 研究统计设计的基本类型 要素 原则 配对设计的扩展 故又称配伍组设计 交叉设计 cross overexperimentdesign 每个受试者随机地在两个或多个不同试验阶段分别接受指定的处理 试验药或对照药 同源配对设计的扩展优点 1 控制个体间的差异 2 减少受试者人数 三 研究统计设计的基本类型 要素 原则 对照原则 1 对照的意义 区分处理因素与非处理因素的效应 是比较的必要基础 消除和减少混杂因素 实验误差 处理组 对照组 比较结果 三 研究统计设计的基本类型 要素 原则 包括 空白对照 实验对照 标准对照 自身对照 相互对照 历史对照 1 空白对照 blankcontrol 对照组不加任何处理因素 特点 简单易行 但容易引起心理差异 从而影响实验效应的测定 安慰剂对照 placebocontrol 2 实验对照 experimentalcontrol 施加基础实验条件 非处理因素 如面包 烟薰剂 含赖氨酸面包 非处理因素 赖氨酸效应 面包效应 非处理因素效应 面包 非处理因素 面包效应 非处理因素效应 赖氨酸赖氨酸效应 中草药 烟薰剂与单纯烟薰剂 空气灭菌 2 对照的形式 3 标准对照 standardcontrol 以现有的标准或正常值作对照 实验室应用较多 4 自身对照 self control 实验在同一受试对象上进行 同源配对设计 交叉设计 特点 简单易行 使用广泛 假定试验前后某些环境或自身因素保持不变 5 相互对照 inter control 几个实验组互相作为对照 6 历史对照 以过去的研究结果作对照 与本人或他人过去的研究结果作比较 不好 2 对照的形式 3 设立对照应注意的事项 1 均衡 对照组与实验组除研究因素外 其他因素应尽可能相同 2 同步 对照组与实验组应处于同一空间和同一时间4 设立对照存在的问题 1 缺乏对照 2 缺乏适当的对照 历史对照 时间不同步 和中外对照 空间不同步 3 对照不全 4 对照多余 重复的原则 重复 replication 是指各处理组与对照组要有一定样本含量 samplesizes 无限地增加样本含量 将加大实验规模 延长实验时间 浪费人力物力 反而增加系统误差出现的可能性 样本含量不足 检验效能 Power 1 偏低 总体参数之间原本有差异也无法检验出来 三 研究统计设计的基本类型 要素 原则 四 研究设计的误差控制与抽样方法 误差 error 实测值与真值之差 随机误差 抽样误差不恒定 随机 变化 非随机误差 非系统误差 过失误差 系统误差 方向性 一 抽样方法 常用的抽样方法1 单纯随机抽样2 系统抽样3 分层抽样4 整群抽样 四 研究设计的误差控制与抽样方法 1 单纯随机抽样 simplerandomsampling 先将总体的全部观察对象编号 再利用抽签或随机数字表的方法随机抽取观察对象组成样本 最基本的抽样方法其他抽样方法的基础优点 计算误差比较简便 缺点 对象较多时 甚为复杂 三 研究设计的误差控制与抽样方法 方法 1 编号 按从南到北 或其他特征顺序 依次编号为1 2 3 号 2 产生随机数字 对于每一个编号 依次由计算器 计算机 产生随机数 3 归组 事先规定将较小 或较大 随机数的2省市进入实验组 三 研究统计设计的基本类型 要素 原则 例 在华东抽取两个省市进行实验 2 系统抽样 systematicsampling 按照一定的顺序 机械地每隔若干个单位抽取一个单位的方法 又称间隔抽样 机械抽样如按门牌号 每个10个号抽取用户 优点 节省抽样时间和费用 缺点 在某些特殊情况下存在偏性 四 研究设计的误差控制与抽样方法 3 分层抽样 stratifiedsampling 先按某种特征将总体分为若干组别 类型或区域等 统称为 层 再用随机抽样的方法从每个子总体中抽取样本 要求 层内齐同 层间不同 比例分层法 在分层抽样时使样本中各层所占比例与总体中各层所占比例相同 最优分层法 优点 抽样误差小 不同层可采用不同抽样方法 各层可独立进行分析 各层间可进行比较分析 缺点 分层较多时 调查和分析较麻烦 四 研究设计的误差控制与抽样方法 4 整群抽样 clustersampling 按群体而不是按个体抽取观察单位的抽样方法 优点 在大规模调查中 易于组织 节省人力物力 缺点 抽样误差大 各种抽样方法的抽样误差顺序 分层 系统 单纯 整群 四 研究设计的误差控制与抽样方法 测量值 真值 随机误差 非随机误差Xi i i1 随机误差 随机抽样误差 影响因素众多 变化无方向性 不可避免 但可用统计方法进行分析 2 系统误差 受确定因素影响 大小变化有方向性 3 非系统误差 过失误差 研究者偶然失误而造成的误差 五 统计方法基本知识 二 系统误差与控制方法 1 系统误差定义系统误差 systematicerror 在一定实验条件下 由某种未发现或未确定的因素所引起观测值具有方向性和系统性的误差 又称偏倚 bias 四 研究设计的误差控制与抽样方法 2 产生系统误差的常见原因仪器差异 方法差异 试剂差异 条件差异 顺序差异 人为差异3 系统误差类型及其控制类型发生阶段控制选择偏倚设计随机化测量偏倚实施盲法 标准化混杂偏倚分析配对 分层 四 研究设计的误差控制与抽样方法 4 盲法及其作用 1 盲法的定义和分类定义 研究中使一方或多方不知道受试者分组的分配情况的方法 分类 单盲 simpleblind 受试者不知道己接受何种措施 双盲 doubleblind 受试者和观察者均不知道受试者接受何种措施 四 研究设计的误差控制与抽样方法 2 盲法的作用及注意事项作用 消除非处理因素引起的误差 注意事项 双盲法的实施较为复杂 要有一套严格的管理和监督措施 对于危急和重症病人不能采用盲法 法律 道德 风俗习惯的禁忌 四 研究设计的误差控制与抽样方法 五 统计方法基本知识 统计学概述 定义 作用 统计学常用的基本概念统计学基本知识 定义统计学 statistics 统计学是关于数据 data 的科学 是从数据中提取信息的一门学科 包括设计 搜集 整理 分析和表达等步骤 根据研究领域和研究对象 统计学又分为 数理统计 经济统计 生物统计 医学统计 卫生统计 一 统计学概述 五 统计方法基本知识 作用 1 采用统计学方法 发现不确定现象背后隐藏的规律 变异 variation 是社会和生物医学中的普遍现象 变异使得实验或观察的结果具有不确定性 如每个人的身高 体重 血压等各有不同 2 用统计学思维方式考虑有关医学研究中的问题 阳性 结果是否是虚假联系 某感冒药治疗1周后 治愈率为90 能否说该感冒药十分有效 阴性 结果是否是样本含量不足 有人曾对发表在Lancet NEnglJMed JAMA等著名医学杂志上的71篇阴性结果的论文作过分析 发现其中有62篇 93 可能是由于样本含量不足造成的假阴性 五 统计方法基本知识 3 保证你的研究论文能通过统计学审查现在杂志投稿要求都包含了统计学要求 4 获得循证医学证据的主要手段 良好愿望的医学 well meaningmedicine 转入 以证据为基础的医学 evidence basedmedicine EBM 需要有统计学方法的支持 全世界的医学期刊每年大约刊登600万学术论文 但能作为可靠 证据 的论文并不多 五 统计方法基本知识 二 统计学常用的基本概念 数据分类变量与随机变量测量和测量尺度总体与样本参数与统计量频率与概率 五 统计方法基本知识 参数 统计量 同质 变异 误差 变量 统计学基本概念 频率 概率 样本 总体 数据分类 1 定量数据 允许计算均数 标准差等 可采用t F检验等 可当做有序或定性数据处理 一般有度量衡单位 类别间的差别大小有实际意义2 定性数据 编码是任意的 不能对编码执行均数标准差等计算 但可计算率或比 可采用卡方检验等 二项分类 性别分类 如男性为1 女性为0 多项无序分类 血型的A B AB O型多项无序分类3 有序数据 允许基于顺序的计算 如计算中位数 百分位数 可当做定性数据处理 多项有序分类 疗效分显效 有效 好转 无效4类 五 统计方法基本知识 三 定量变量的离散化与有序分类变量的数量化 1 实际年龄 少年 青年 中年 老年2 有序疗效等级 显效 有效 好转 无效4321 丢失信息 赋值的合理性 五 统计方法基本知识 定量变量 定性变量 例 一组20 40岁成年人的血压 以12kPa为界分为正常 0 与异常 1 两组 统计每组例数 8低血压8 正常血压12 轻度高血压15 中度高血压17 重度高血压 定量变量 有序分类 定性变量 丢失信息 五 统计方法基本知识 变量与随机变量 Variableandrandomvariable 1 变量 可以测量的任何特征或属性Anycharacteristicorattributethatcanbemeasured 不同个体结果可能不同 2 随机变量 在概率论中称变量为随机变量 根据观察数据之间有无缝隙 gap 常将数据分类为离散型 discrete 变量 有缝隙 与连续型 continuous 变量 无缝隙 两大类 五 统计方法基本知识 测量和测量尺度 对随机变量的取值过程为测量 取值所采用的标准为测量尺度 采用统一的标准化的尺度进行测量 其测量结果一般是稳定的和一致的 例如身高 胸围等形态指标的测量均采用统一的测量尺度 全国统一研制的身高计 胸围尺均以厘米为记录单位 体重以公斤为记录单位 肺活量以毫升为单位等 五 统计方法基本知识 总体与样本populationandsample 总体 根据研究目的确定的同质研究对象的全体 集合 分有限总体与无限总体样本 从总体中随机抽取的部分研究对象 随机抽样randomsampling为了保证样本的可靠性和代表性 需要采用随机的方法抽取样本 在总体中每个个体具有相同的机会被抽到 五 统计方法基本知识 总体和样本 总体population 样本sample 有限总体无限总体 随机抽取 统计推断 外推 统计描述 在抽样研究中 抽样误差是不可避免的 参数与统计量parameterandstatistic 参数 总体的统计指标 如总体均数 标准差 采用希腊字母分别记为 固定的常数 推断inference 统计量 样本的统计指标 如样本均数 标准差 采用拉丁字母分别记为X S 参数附近波动的随机变量 五 统计方法基本知识 频率与概率frequencyandprobability 频率 样本的实际发生率称为频率 设在相同条件下 独立重复进行n次试验 事件A出现f次 则事件A出现的频率为f n 概率 随机事件发生的可能性大小 用大写的P表示 取值 0 1 五 统计方法基本知识 频率与概率间的关系 1 样本频率总是围绕概率上下波动2 样本含量n越大 波动幅度越小 频率越接近概率 五 统计方法基本知识 概率的乘法法则 几个独立事件同时发生的概率 等于各独立事件的概率之积概率的加法法则 互不相容事件和的概率等于各事件的概率之和 五 统计方法基本知识 必然事件P 1随机事件0 P 1不可能事件P 0P 0 05 5 或P 0 01 1 称为小概率事件 习惯 统计学上认为不大可能发生 小概率事件 Certain Impossible 0 5 0 1 五 统计方法基本知识 三 概率分布 probabilitydistribution 概率分布 描述随机变量值xi及这些值对应概率P X xi 的表格 公式或图形 离散型随机变量概率分布连续型随机变量概率分布 五 统计方法基本知识 1 离散型随机变量的概率分布 五 统计方法基本知识 离散型随机变量的概率分布举例 五 统计方法基本知识 2 连续型随机变量的概率分布 变量的取值充满整个数值区间 无法一一列出其每一个可能值 一般将连续型随机变量整理成频数表 对频数作直方图 直方图的每个矩形顶端连接的阶梯形曲线来描述连续型变量的频数分布 五 统计方法基本知识 五 统计方法基本知识 如果样本量很大 组段很多 矩形顶端组成的阶梯型曲线可变成光滑的分布曲线 大多数情况下 可采用一个函数拟合这一光滑曲线 这种函数称为概率密度函数 probabilitydensityfunction 五 统计方法基本知识 如果连续型随机变量X的概率密度函数记为 则在区间 x1 x2 范围内的概率可由微积分函数定义 五 统计方法基本知识 第三节常用的概率分布一 二项分布二 泊松分布三 卡方分布四 正态分布五 方差分布 五 统计方法基本知识 一 二项分布 毒性试验 白鼠死亡 生存临床试验 病人治愈 未愈临床化验 血清阳性 阴性事件成功 A 失败 非A 这类 成功 失败型 试验称为Bernoulli试验 五 统计方法基本知识 Bernoulli试验序列 n次Bernoulli试验构成了Bernoulli试验序列 其特点 如抛硬币 如下 1 每次试验结果 只能是两个互斥的结果之一 A或非A 2 每次试验的条件不变 即每次试验中 结果A发生的概率不变 均为 3 各次试验独立 即一次试验出现什么样的结果与前面已出现的结果无关 五 统计方法基本知识 二项分布的定义 从阳性率为 的总体中随机抽取含量为n的样本 恰有X例阳性的概率为 X 0 1 2 n则称X服从参数为n和 的二项分布 记为 X B n 其中参数n由实验者确定 而 常常是未知的 均数与标准差 五 统计方法基本知识 五 统计方法基本知识 二项分布的应用条件 各观察单位只能有互相对立的一种结果 属于二分类资料已知发生某一结果 如阴性 的概率 不变 其对立结果 如阳性 的概率则为1 n次试验在相同条件下进行 且各观察单位的结果互相独立 五 统计方法基本知识 二 泊松分布 当二项分布中n很大 很小时 二项分布就变成为Poisson分布 所以Poisson分布实际上是二项分布的极限分布 由二项分布的概率函数可得到泊松分布的概率函数为 五 统计方法基本知识 Poisson分布的形状取决于 的大小 Poisson分布为正偏态分布 且 愈小分布愈偏 随着 的增大 分布逐渐趋于对称当 20时已基本接近对称分布 当 50时 Poisson分布近似正态分布 50时可按正态分布原理处理之 Poisson分布的性质 五 统计方法基本知识 Poisson分布主要用于描述在单位时间 空间 中稀有事件的发生数 例如 1 放射性物质在单位时间内的放射次数 2 在单位容积充分摇匀的水中的细菌数 3 野外单位空间中的某种昆虫数等 五 统计方法基本知识 2分布 2分布 f 2 2 五 统计方法基本知识 2分布曲线下的面积与概率 五 统计方法基本知识 第一节正态分布 NormalDistribution 100份样本的均数和标准差 又称Gauss分布 Gaussiandistribution 是一个重要的连续型概率分布 1 概率密度函数 2 概率分布函数 五 统计方法基本知识 正态分布的重要性 医学研究中的某些观察指标服从或近似服从正态分布 很多统计方法是建立在正态分布的基础之上的 很多其他分布的极限为正态分布 因此 正态分布是统计分析方法的重要基础 五 统计方法基本知识 第四节正态分布 五 统计方法基本知识 正态分布的特征正态分布是一单峰分布 高峰位置在均数X 处 正态分布以均数为中心 左右完全对称 正态分布由参数 和 确定 正态曲线下的面积分布有一定的规律 曲线与X轴所围成的总面积为1在 的区间内占总面积的68 27 在 1 96 的区间内占总面积的95 在 2 58 的区间内占总面积的99 五 统计方法基本知识 曲线下面积分布规律 五 统计方法基本知识 Z值分布曲线下面积与概率 五 统计方法基本知识 正态分布在医学中的应用 1 大多数生理生化指标服从正态分布2 估计医学参考值范围质量控制二项分布 poisson分布的极限均为正态分布 5 卡方 t与F分布都与正态分布有关 五 统计方法基本知识 图4 2不同自由度下的t分布图 t分布t distribution 五 统计方法基本知识 t分布的特征 以0为中心 左右对称的单峰分布 t分布曲线是一簇曲线 其形态变化与自由度的大小有关 自由度越小 则t值越分散 曲线越低平 自由度逐渐增大时 t分布逐渐逼近Z分布 标准正态分布 当趋于 时 t分布即为Z分布 五 统计方法基本知识 t分布曲线下面积 双侧t0 05 2 9 2 262 单侧t0 025 9单侧t0 05 9 1 833双侧t0 01 2 9 3 250 单侧t0 005 9单侧t0 01 9 2 821双侧t0 05 2 1 96 单侧t0 025 单侧t0 05 1 64 五 统计方法基本知识 F分布曲线 五 统计方法基本知识 F分布曲线下面积与概率 五 统计方法基本知识 方差分析的基本思想 所有测量值上的总变异按照其变异的来源分解为多个部份 然后进行比较 评价由某种因素所引起的变异是否具有统计学意义 五 统计方法基本知识 小结 1 随机变量 概率分布 抽样分布是统计学推断的基础 2 二项分布描述二项分类变量两种观察结果的出现规律 泊松分布是二项分布的特例 常用于事件发生率很小 样本含量很大的情况 3 正态分布是其他分布的极限分布 许多统计方法的理论基础 不少医学现象也服从正态分布或近似服从正态分布 4 检验统计量分布 或抽样分布 包括 卡方分布 t分布 F分布等 这些分布是卡方检验 t检验 方差分析等假设检验的基础 五 统计方法基本知识 三 统计学基本知识 统计描述统计推断 第一节 中心趋势指标 常用的中心趋势指标有 算术均数 几何均数 中位数 众数 统称为平均数 average 一 算术平均数 TheArithmeticmean 简称均数 Mean 或均值 定义为所有测量值之和除以变量值个数 即 样本含量SampleSize 反映一组呈对称分布的变量值在数量上的平均水平 统计学基本知识 统计描述 均数的特征 最常用 特别是正态分布资料 均数对极值特别敏感 极大值或极小值通常将均数拉向自己 1 直接计算法公式 举例1 试计算1 3 7 9的均数 例2 试计算1 3 3 7 7 9 9 9的均数 2 加权法 二 中位数与百分位数 11个大鼠存活天数 4 10 7 50 3 15 2 9 13 60 60平均存活天数 一 中位数 median 是将每个变量值从小到大排列 位置居于中间的那个变量值 存活天数2 3 4 7 9 10 13 15 50 60 60秩次1234567891011 统计学基本知识 统计描述 中位数的特征 计算时只利用了位置居中的测量值优点 对极值不敏感缺点 并非考虑到每个观测值适用于各种分布类型的资料 特别适合于 大样本偏态分布资料或者一端或两端无确切数值的资料计算公式 n为奇数时n为偶数时 统计学基本知识 统计描述 例9名中学生甲型肝炎的潜伏期分别为12 13 14 14 15 15 15 17 19天 求其中位数 频数表资料的中位数 下限值L 上限值U i fm 中位数M 中位数 4 5 0 5x 150 x50 68 37 4 59 百分位数示意图 百分位数 percentile 1 直接计算法2 频数表法 三 几何均数 geometricmean 可用于反映一组经对数转换后呈对称分布或正态分布的变量值在数量上的平均水平 几何均数的特征1 几何均数适用于对数正态分布 如药物的效价 抗体的滴度 传染性疾病的潜伏期等资料 2 变量x服从对数正态分布 即表示变量lg xi 服从正态分布 对于lg xi 具有正态分布的所有特性 统计学基本知识 统计描述 1 直接法 几何均数 变量对数值的算术均数的反对数 其他对数 如自然对数 变换获得相同的几何均数 2 加权法公式 四 众数 Mode 是一群数据中出现次数 频数 最多的值 适用于大样本 较粗糙 例有16例高血压病人的发病年龄 岁 为 42 45 48 51 52 54 55 55 58 58 58 58 61 61 62 62 试求众数 统计学基本知识 统计描述 众数的特征 1 对于某些数据而言 例如均匀分布 并不存在众数 2 对于某些数据存在两个或多于两个的众数 3 定性数据可以存在众数 众数对于进一步的统计学计算与分析不具备应用价值 统计学基本知识 统计描述 五 其他位置指标 1 四分位数 Quartile 三个四分位数 2 十分位数 Centile 9个十分位数3 百分位数 Percentile 99个百分位数 统计学基本知识 统计描述 统计学基本知识 统计描述 离散与变异性指标 全距四分位间距方差标准差变异系数 统计学基本知识 统计描述 一 全距 Range 与绝对差 全距为最大值与最小值之差 也叫极差缺点 仅利用了两个极端值 统计学基本知识 统计描述 二 方差与标准差 方差 Variance 也称均方差 meansquaredeviation 反映一组数据的平均离散水平 统计学基本知识 统计描述 2 一 样本方差为各变量值到样本均数距离的平方和除以自由度的商值 即 S 二 总体方差定义为 样本标准差为样本方差的平方根 总体标准差为总体方差的平方根 标准差 standarddeviation 统计学基本知识 统计描述 标准差的意义和用途 说明资料的离散趋势 或变异程度 标准差的值越大 说明变异程度越大 均数的代表性越差 标准差与原始数据的单位一致 在科技论文报告中 均数与标准差经常被同时用来描述资料的集中趋势与离散趋势 用于计算变异系数用于计算标准误结合均值与正态分布的规律 估计参考值的范围 样本标准差实用公式 抽样数据为例 1 3 3 7 7 9 9 9 48 n 8 样本标准差的加权公式 三 变异系数 coefficientofvariation 变异系数 coefficientofvariation CV 常用于比较度量单位不同或均数相差悬殊的两组 或多组 资料的变异程度 统计学基本知识 统计描述 某地7岁男孩身高的均数为123 10cm 标准差为4 71 体重均数为22 59kg 标准差为2 26kg 比较其变异度 四 四分位数间距 inter quartilerange 四分位数间距 用IQR表示 IQR 第三四分位数 Q3第一四分位数 Q1 统计学基本知识 统计描述 第三节率 比及其注意事项 一 率 rate 在特定条件下 可能发生某现象的总例数中 实际发生某现象的强度或频率 统计学基本知识 统计描述 构成比 Proportion constituentratio 构成比指标用以表示事物内部某一构成成分在全部构成中所占的比例或比重 相对比 relativeratio 是由两个有关联的指标之比 二 比 ratio 统计学基本知识 统计描述 三 应用率比指标时的注意事项 1 保证有足够的样本含量 2 分析时不能以构成比代替率 3 注意平均率的计算 p1 p2 24 率和比指标比较时 要有可比性 不可比时可采用率标准化 5 不要简单由样本率的差异做出结论 率比和均数一样都有抽样误差 需采用假设检验下结论 统计学基本知识 统计描述 描述性统计 定量数据 中心趋势 集中位置 离散趋势 变异度 算术均数几何均数中位数众数十 百分位数 全距 四分位数间距方差 标准差变异系数 定性数据 率 速率比率 比 相对比 构成比 注意事项 应用条件 统计推断 参数估计假设检验 如果总体不是正态总体 但其均数和标准差分别为 和 则当样本含量n不断增大时 样本均数的分布也趋近于正态分布 且其均数为 标准差为随着样本量的增大 样本均数的变异范围也逐渐变窄 不论总体的分布形式如何 只要样本含量n足够大时 样本均数的分布就近似正态分布 此称为中心极限定理 中心极限定理centrallimittheorem 统计学基本知识 统计推断 1 称为可信度或置信度 confidencelevel 常取95 置信区间通常两个数值即置信限 confidencelimit CL 构成 较小的称为置信下限 lowerlimit L 较大的称为置信上限 upperlimit U 一 置信区间的有关概念 统计学基本知识 统计推断 参数估计 95 的置信区间表示 如果从同一总体中重复抽取100个独立样本 将可能有95个置信区间包括总体均数 有5个置信区间包括总体均数 对于一次估计的置信区间 可能有95 的正确率 但仍有5 的置信区间估计错误 三 置信区间的涵义 统计学基本知识 统计推断 参数估计 单一总体均数的置信区间 统计学基本知识 统计推断 参数估计 总体均数的点估计 pointestimation 与区间估计 intervalestimation 参数的估计 点估计 由样本统计量直接估计总体参数 区间估计 在一定可信度 Confidencelevel 下 同时考虑抽样误差 一 总体均数的可信区间估计 按预先给定的概率 1 确定一个包含未知总体参数的范围 这一范围称为参数的可信区间或置信区间 confidenceinterval CI 统计学基本知识 统计推断 参数估计 二 率的抽样误差与可信区间 率的抽样误差与标准误总体率的可信区间 统计学基本知识 统计推断 参数估计 二 率的抽样误差与可信区间 率的抽样误差与标准误样本率 p 和总体率 的差异称为率的抽样误差 samplingerrorofrate 用率的标准误 standarderrorofrate 度量 如果总体率 未知 用样本率p估计 统计学基本知识 统计推断 参数估计 标准误的计算 统计学基本知识 统计推断 参数估计 总体率的可信区间 1 正态分布法 2 查表法 3 统计软件直接计算 统计学基本知识 统计推断 参数估计 三 可信区间估计的优劣一是可信度1 准确度 愈接近1愈好 如99 的可信度比95 的可信度要好 二是区间的宽度 精密度 区间愈窄愈好 当样本含量为定值时 上述两者互相矛盾 在可信度确定的情况下 增加样本含量可减小区间宽度 统计学基本知识 统计推断 参数估计 假设检验 HypothesisTesting 第一节假设检验的基本思想小概率与反证法 一 小概率事件与假设检验 检验目的 未知 只能比较样本均数与 0 0 0有两种可能 1 与 0相等 差异由抽样引起 2 与 0本身不相等 统计学基本知识 统计推断 假设检验 检验假设 如法官判定一个人是否犯罪 首先是假定他 无罪 H0 然后通过侦察寻找证据 如果证据充分则拒绝 无罪 的假定 H0 判嫌疑人有罪 否则只能暂且认为 无罪 的假定 H0 成立 统计学基本知识 统计推断 假设检验 小概率事件 P 0 05或P 0 01 1 96 1 96 1 645 统计量Z对应的概率很小 如小于等于0 05 则认为事件不会发生 此时拒绝H0 有足够证据推断差异有统计学意义 统计学基本知识 统计推断 假设检验 二 两类错误 I型错误 弃真 拒绝实际正确的H0 I型错误的概率记为 1 a 即可信度 重复抽样时 样本区间包含总体参数 m 的百分数 II型错误 纳伪 不拒绝实际不正确的H0 II型错误的概率记为 1 即把握度 或检验效能 两总体确有差别 被检出有差别的能力 统计学基本知识 统计推断 假设检验 两类错误图示 m m0 m1 m m0 m0 H1 m m1 m0 统计学基本知识 统计推断 假设检验 三 单 双侧检验 H1 0 双侧 0都有可能H1 0 单侧H1 0 单侧对于本例 根据医学知识 经常参加体育锻炼的中学男生心率不会高于一般中学男生的心率 所以使用单侧 即H0 0 H1 0由专业知识确定单 双侧 统计学基本知识 统计推断 假设检验 第二节假设检验的基本步骤 一 建立检验假设 确定检验水准H0 0 两总体均数相等 差异仅由抽样误差所致 H1 0 或 0或 拒绝H0的样本证据不足 就不拒绝H0 暂且认为H0成立根据统计推断结果 结合相应的专业知识 给出一个专业的结论 统计学基本知识 统计推断 假设检验 假设检验常见结果 专业有意义 统计学检验无意义 专业无意义 统计学检验有意义 专业有意义 统计学检验有意义 统计学基本知识 统计推断 假设检验 1 对于H0只能说拒绝与不拒绝 而对H1只能说接受 2 P 则拒绝H0 接受H1 差异有统计学意义 有足够的证据 可认为 不同或不等 3 P 则不拒绝H0 差异无统计学意义 阴性 结果 尚不能认为 不同或不等 或拒绝H0的证据尚不足 4 下统计检验结论只能说有 无统计学意义 statisticalsignificance 而不能说明专业上的差异大小 P值越小只能说明 作出拒绝H0 接受H1的统计学证据越充分 推论时犯错误的机会越小 与专业上 0 差异的大小无直接关系 5 应事先确定 选 0 05只是一种习惯 而不是绝对的标准 关于假设检验的几个观点 统计学基本知识 统计推断 假设检验 假设检验中的注意事项 要保证组间的可比性要根据研究目的 设计类型和资料类型选用适当的检验方法正确理解差别有无显著性的统计学意义结论不能绝对化单 双侧检验应事先确定 统计学基本知识 统计推断 假设检验 配对设计资料均数的比较两组完全随机设计资料的方差齐性检验完全随机设计两总体均数的比较正态性检验趋势分析两样本率的等效检验信度和效度分析诊断和筛检试验的设计与分析等等 其他检验 统计学基本知识 统计推断 假设检验 第三节检验效能及其计算 检验效能 Power 又称把握度即两总体确实有差别 按 水准能发现它们有差别的能力 真阳性 用 1 表示 通常要求达到80 或90 即b 0 2或 不得低于75 b 0 1 为第二类错误的概率 把握度 1 0 9Z 查z值表 1 统计学基本知识 统计推断 假设检验 出现 阴性 结果有两种可能 1 1 较大 被比较的指标间总体参数很可能无差别 2 1 较小 所比较的指标间总体参数很可能有差别 但由于样本含量不足而未能发现 P 在 水平下 不拒绝H0 即认为差别无统计学意义 又称作 阴性 结果 统计学基本知识 统计推断 假设检验 二 检验效能的影响因素 个体间标准差越小或样本含量越大 检验效能越大 第一类错误的概率 越大 检验效能越大3 客观差异 越大 检验效能越大 统计学基本知识 统计推断 假设检验 Z 的计算举例 两样本均数比较 未知时 例 用 阻滞剂降低心肌梗塞患者血压的随机双盲对照试验 结果见下表 检验结果为t 1 54 P 0 05 无统计学意义 认为该药无降压效果 问该结论是否可靠 要求 0 67kPa 0 05 Z0 05 1 96 两组心肌梗塞患者治疗后的收缩压 kPa 已知 0 67kPa 0 05 Z0 05 1 96 S 1 6 n1 n2 15 查附表P Z 0 81 1 P Z 0 81 1 0 2090 0 7910即 0 79 则Power 1 1 0 79 0 21说明检验效能太低 该结论假阴性的可能性大 需增加样本含量进一步试验 二 配对计量资料比较三 两样本率比较四 配对计数资料五 直线相关现在可以直接利用统计软件进行计算 样本含量的估计 第一节概述 样本含量 samplesize 为了保证研究结论的可靠性 确定的实验研究或调查研究所需要的最低观察对象的数量 样本含量少 研究结论不可靠 样本含量过多 造成人财物的不必要浪费 样本量估计 样本含量与检验效能 样本含量估计与检验效能分析是研究设计必须考虑的问题 这两者之间关系密切 样本含量越大 检验效能越高 样本含量越小 检验效能就越低 样本量估计 1 资料的性质 计量 少 计数 多2 误差的大小 小 少 大 多3 均衡性的好坏 好 少 坏 多4 实验效应的强弱 强 少 弱 多5 干扰因素的多少 少 少 多 多样本含量的估计时 以上很多因素无法定量 所以通常是由犯I类错误的概率 检验出实际差异的把握度1 个体值间的离散程度s 以及容许误差d来确定样本含量 一 样本含量的影响因素 样本量估计 样本含量的影响因素 1 检验水准 则n 2 检验效能1 1 则n 1 0 75 通常取0 8或0 9 3 客观差异 delta 即比较总体参数间的差值 如m1 m2 p1 p2 则n 总体标准差 总体平均数 或总体率 这里主要指离散程度指标s 则n 样本量估计 第二节样本含量的估计 样本量估计 样本量估计 例 以往年的数据作为预实验数据来估算今年的样本量 P为阳性率 其中检验水平a取0 05 则Ua值Ua 1 960 为允许误差 允许误差根据实验目的和要求确定 食品污染细菌服从二项分布 分布图 允许误差 的确定 允许误差采用阳性率与可信限边界之差的绝对值 使用其中较小一个值 所算出的样本量 能满足近似正态分布要求 具有较强的统计效能 例 表1各种食品最低采样量 二 样本均数与总体均数比较三 两样本均数比较四 配对计量资料比较五 两样本率比较六 配对计数资料比较七 根据相对危险度进行估计八 相关分析 样本量估计 模型分析基础相关 回归 相关 变量间的互依关系回归 变量间的依存关系 模型分析 图9 6相关系数示意图 散点呈椭圆形分布 X Y同时增减 正相关 positivecorrelation X Y此增彼减 负相关 negativecorrelation 散点在一条直线上 X Y

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论