医学研究的数据管理与分析 PPT课件_第1页
医学研究的数据管理与分析 PPT课件_第2页
医学研究的数据管理与分析 PPT课件_第3页
医学研究的数据管理与分析 PPT课件_第4页
医学研究的数据管理与分析 PPT课件_第5页
已阅读5页,还剩241页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 Email sc南京医科大学公共卫生学院流行病学系 沈冲 医学研究的数据管理与分析 2 数据 决策 3 Thebasicpurposeofepidemiologyistohelpusunderstandandpreventawidevarietyofhealthandsafetyproblems Forexample asaresultofepidemiologicalstudies weinstitutedanumberofpreventionandinterventionprogramsthathelpedlowertherateofdeathsfromlungcancer Andepidemiologistsstatisticallyshowedthattheseprogramshadaneffectonloweringthedeathrate 4 5 伦敦霍乱死亡者居住地点分布 6 正态分布 7 偏态分布 8 n 140 n 140 n 140 总体估计 9 了解抽样误差规律的重要性 总体同质个体 个体变异 总体参数未知 样本代表性 抽样误差 随机抽样 样本统计量已知 统计推断 风险 10 正常人 病人 假阳性率 假阴性率 正常人与病人的数据分布重叠示意图 单侧 11 正常人 病人 假阳性率 假阴性率 正常人与病人的数据分布重叠示意图 单侧 12 正常人 病人 假阳性率 假阴性率 病人 正常人与病人的数据分布重叠示意图 双侧 13 红细胞计数 RBC 参考值范围 成年男性 4 0 5 5 1012 L 成年女性 3 5 5 0 1012 L 新生儿 6 0 7 0 1012 L 14 白细胞计数参考值范围 成年 4 0 10 0 109 L 新生儿 15 0 20 0 109 L 6个月 2岁 11 0 12 0 109 L 15 医院血常规正常值范围 16 医院生化检验参考值范围 17 参考值范围的特点 与种族有关与年龄 性别有关与环境 气候有关与仪器本身有关不同的医院 参考值范围不同 18 第一部分 数据管理与分析概述 19 一 调查研究设计思路与统计分析步骤的关系 搜集资料 整理与分析资料 调查 研究 项目 分析表 指标 研究目的 统计分析步骤 调查研究步骤 设计思路 exposure factor Diseaseorhealth 第一节研究设计与数据的管理及分析 20 二 调查研究计划的制订和数据管理分析 一 明确调查和研究的目的了解参数 用以说明总体 描述分布 确定生理 生化等正常值 研究变量间的关系 通过确立统计学联系来验证因果联系 包括干预处理与效应的关系 二 确定观察对象和观察单位根据调查和研究的目的和指标 确定观察对象和观察单位 21 三 调查和研究设计类型的选择 主要取决于研究目的和客观条件的限制 1 调查和研究设计的常用类型 1 描述性研究 包括普查 抽样调查和案例调查 病例分析等 2 分析性研究 包括病例对照研究 队列研究 3 实验性研究 包括临床试验 现场实验和社区干预等 2 实验设计类型 22 四 确定调查研究项目和调查表1 调查和研究的项目包括分析项目 备选项目 2 调查表和原始记录表的设计 五 样本含量的估计样本含量大小主要取决于研究单位的变异大小 两组或多组可能差异的大小 精确性的要求 第一类错误和第二类错误的设定 不同研究设计可用各自样本含量计算公式来估计 一般实际样本大于理论样本 EpiInfo EpiCalc ps等 Powerandsamplesize正交设计助手 23 样本含量估计1 EpiCalc2000 24 样本含量估计2 EpiCalc2000 25 样本含量估计3 EpiCalc2000 26 27 临床研究 患者为对象序贯法变异疗效 Power 1 动物为对象应用推广风险评估随访 28 六 收集原始资料的方式和数据的类型 原始资料的收集方式直接观察法 包括体检 标本检测等 采访法 面访 调查会及信访 电话访问等医学研究的数据类型医学研究数据大体上可分为三种类型 定量数据 等级数据和名义数据 定量数据 等级数据 名义数据 等级数据和名义数据也称定性数据或计数资料 29 血糖不同数据类型的分析方法 定量数据 空腹血糖 mmol L 等级数据 专业分组 空腹血糖受损 糖尿病统计学分组 百分位数参考值范围 30 血糖分析注意事项 研究对象影响因素分布及定量资料分析是否分组的考虑分组的方法 31 思考题 血压研究研究对象影响因素分布及定量资料分析是否分组的考虑分组的方法 32 七 调查和研究的质量控制 质量控制是决定医学研究结果真实性和可靠性的关键 归纳 比较 推理与科学性系统误差 systematicerror 即偏倚 bias 包括选择性偏倚 信息偏倚和混杂偏倚三类 医学研究的质量控制即是控制这三类偏倚 33 八 数据资料的录入与整理 录入前的检查 核对 录入的质量控制资料录入 建立database录入后的核对 分组 编码等 34 数据录入 录入计算机 建立数据库 database 可以通过统计分析软件和数据库软件录入 常用的软件有 EpiInfo EpiData SPSS FoxBase FoxPro VisualFoxPro VFP Access Excel和Lotus等 推荐应用EpiData软件录入数据 35 Epidata3 0 36 录入后处理 逻辑核对 数据的编码和转换 建立新变量 37 研究数据处理过程 Data Epidata SPSS Questionnaire File qes File rec File sav File dat File dbf Foxpro vfp excell Epicalculator sample analysis 38 三 数据分析 统计描述 统计推断 1 定量数据的描述 1 集中和离散趋势 2 正常值范围和总体可信区间的估计 2 定性数据的统计描述 各种相对指标 率和比 如发病率 病死率 罹患率 二代发病率 平均抗体滴度 保护率 效果指数 标化死亡比等 1 假设检验 1 定量数据 t检验 方差分析 ANOVA 2 定性数据X2检验 U检验 2 变量之间的关系分析 1 相关分析 2 回归分析 3 定性数据之间得关系分析 数学模型 Reed Frost模型 39 定量数据统计描述方法小结 40 定性数据统计描述方法小结 41 二 统计推断1 假设检验 定量数据t检验 样本均数与总体均数比较 配对设计资料均数比较 成组设计两样本均数比较方差分析 ANOVA 成组设计多个样本均数的比较 one wayANOVA 配伍组设计多个样本均数比较 two wayANOVA 多个样本均数的两两比较 q检验 Student Newman Keuls法 多个实验组和一个对照组均数间的两两比较 LSD法和Duncan法 42 定量数据差别的统计意义检验小结 43 第二节医学研究的数据管理和分析应遵循的原则 一 重视研究数据资料的处理过程保证被分析数据的正确性 和获得的客观结果尽可能保持一致 控制信息偏倚 使原始数据经过编码 转换 重新赋值后符合进一步统计分析的需要 二 选择合适的统计分析方法和指标取决于数据及其分布得类型 一 数据转换 二 正态性检验 三 非参数统计法 四 分析指标的选择 44 45 46 三 忠实于原始数据是必须具备的科学精神 医学研究的结果和客观现实之间 总会存在或多或少的不一致 即误差 error 随机误差系统误差医学研究过程中 应尽量通过科学的设计和严格的质量控制措施 控制系统误差 任何篡改研究数据的行为 不管出自什么目的 都违背科学精神 47 第三节不同研究设计类型的统计分析方法和指标选择 一 病例报告 个案调查二 病例对照研究三 随访研究 48 一 抽样调查 一 分析思路和指标描述抽样方法 设计样本量 调查样本量 应答率等 计算有关统计指标描述疾病或健康状态的分布分析性描述结果解释与注意事项 49 抽样调查结果与结论及其解释 结果解释一般先说明样本的代表性 应答率等情况 分析调查中有无偏倚及其来源 大小 方向和调整方法 归纳疾病或健康状态分布规律的正确性及可能提供的病因线索 注意事项现况研究资料分析结果的价值 取决于资料质量的优劣和分组 归纳方法是否恰当 尤其是偏倚的影响至关重要 在和其它地区进行疾病频率比较时 必须考虑到年龄等非研究因素的影响 需将疾病频率按标准人口构成标准化后才具有可比性 50 第四节医学研究数据分析结果的解释 1 遵循科学的思维逻辑2 了解不同研究设计的效率3 遵循概率论的基本原则4 树立对比的观点5 深刻理解统计学联系的本质 一 数据分析结果解释应遵循的原则 51 二 统计学联系的本质 真实的联系 机遇 chance 偏倚 bias 三 解释的思路 统计学 逻辑学 生物医学 52 第五节质量控制 设计前设计预试验 调查实施 实验数据录入 数据核查 整理合适的统计方法合理表达结果结果解释结论 53 质量控制1 数据录入 软件选择 高效 准确 易学准确双份录入范围设定必须输入有效性检查高效 跳转 重复 标签数据便于管理与转换 54 质量控制2 数据核查 整理 核查排序缺失处理逻辑校对 整理合并转换重新编码加权产生新指标 55 质量控制3 统计分析方法 重视数据挖掘简单易懂多重比较与有序性分层多因素分析交互作用 56 质量控制4 合理表达结果 结果不是结论一般描述指标检验统计量与P值统计表统计图 57 质量控制5 结果解释与评价 研究范围结果准确性结果可靠性有无其它原因可以解释影响结果的因素 58 质量控制6 结论 严谨客观性 合理性可应用性局限性 59 第二部分 数据管理和统计分析的实现过程 60 第一章随机化与样本含量计算 61 随机化过程随机抽样随机分组样本量的估算研究功效的估算 62 EpiCalc Sample Randomnumbers List 随机抽样 63 EpiCalc2000 64 EpiCalc2000 65 66 SPSSData Selectcases Randomsampleofcases留意种子数 67 简单随机分组 68 EpiCalc2000 69 EpiCalc2000 70 估计样本量的意义过小 抽样误差大 代表性差 不易得出有意义的结果过大 不必要的浪费 71 预期的现患率 越高 所需样本量越小对调查结果精确性的要求 允许误差越大 所需样本量越小 现况研究 影响样本含量的因素 72 某卫生防疫站拟调查了解该地成人白细胞数是否偏低 若用抽样调查 样本含量至少应有多少人 据文献报道 正常成人白细胞数的标准差约1000个 mm3 规定容许误差为100个 mm3 现况研究 EpiCalc Sample Precision Singlemean 1 计量资料 73 EpiCalc2000 74 EpiCalc2000 75 某卫生防疫站为了制订驱蛔虫计划 编制经费 药品预算 需要抽样估计当地儿童蛔虫感染率 据该地以往经验 儿童蛔虫感染率一般不高于30 若规定容许误差为3 则样本含量至少应为多少人 现况研究 EpiCalc Sample Precision Singleproportion 2 计数资料 76 EpiCalc2000 77 EpiCalc2000 78 已知某乡人口4537人 欲调查某病患病率 估计患病率为2 允许误差为0 5 设计效应 designeffect 设为2 计算所需样本量 现况研究 3 在有限总体中进行抽样调查 SampleXS 79 SampleXS 80 设计效应 designeffect 单纯随机抽样或系统抽样 1整群抽样 1 根据经验 参考文献估计 例如 免疫覆盖率调查和营养状况调查 2 81 练习 固定其它参数 只增加或减少总体人数 1 000 10 000 100 000 100 000 000 看样本量的变化趋势 固定总体人数在1 000 000 增加或减少现患率 容许误差按0 1P计算 看样本量变化趋势 固定总体人数在1 000 000 并固定现患率 增加或减少容许误差 看样本量变化趋势 固定总体人数在1 000 000 同样的参数 分别用SampleXS和EpiCalc2000计算样本量 看两者之间的关系 可改变设计效应值试试 体会样本量影响因素的作用方式 82 队列研究 83 样本量计算中需考虑的几个问题抽样方法暴露组与非暴露组的比例 非暴露组的样本量不宜少于暴露组 通常采取等量失访率 例如10 队列研究 84 影响因素暴露组与对照组人群发病率之差 比一般人群 对照人群 中所研究疾病的发病率p0显著性水平 效力 把握度 power 1 差 比值越大 所需样本量越小 队列研究 85 影响因素暴露组与对照组人群发病率之差 比一般人群 对照人群 中所研究疾病的发病率p0显著性水平 效力 把握度 power 1 率差固定 p0越大 率比越小 所需样本量越大率比固定 p0越大 率差越大 所需样本量越小暴露组人群发病率p1固定 p0越大 率比 差越小 所需样本量越大 队列研究 86 影响因素暴露组与对照组人群发病率之差 比一般人群 对照人群 中所研究疾病的发病率p0显著性水平 效力 把握度 power 1 0 01时所需样本量大于 0 05 队列研究 87 影响因素暴露组与对照组人群发病率之差 比一般人群 对照人群 中所研究疾病的发病率p0显著性水平 效力 把握度 power 1 1 越大 即 越小 所需样本量越大 0 10或 0 20 队列研究 88 用队列研究探讨孕妇暴露于某药物与婴儿先天性心脏病之间的联系 已知非暴露孕妇所生婴儿的先天性心脏病发病率 p0 为0 007 估计该药物暴露的RR为2 5 设 0 05 双侧 0 10 求调查所需的样本量 队列研究 EpiCalc Sample Size Tworates 89 EpiCalc2000 0 007 2 5 0 0175 90 EpiCalc2000 考虑失访 N 2332 0 9 2591如果不是单纯随机抽样 还需适当增加样本 91 病例对照研究 92 影响因素研究因素在对照组中的暴露率P0预期的该因素引起的相对危险度RR或暴露的比值比OR 1 病例对照研究 93 拟进行一项非匹配设计的病例对照研究 探讨吸烟与肺癌的关系 预期吸烟者发生肺癌的相对危险度为2 0 人群中的吸烟率约为20 设 0 05 双侧 0 10 估计样本含量 病例组和对照组采用相等样本量 病例对照研究 EpiCalc Sample Size Case controlstudy 非匹配设计 94 EpiCalc2000 95 EpiCalc2000 96 EpiCalc2000 1 R 非匹配设计 病例数与对照数不等 97 拟进行一项1 1匹配设计的病例对照研究 研究口服避孕药与先天性心脏病的关系 设 0 05 双侧 0 10 对照组暴露比例为p0 0 3 估计的RR 2 估计样本含量 病例对照研究 NCSS PASS PASS Proportions MatchedCase Control 1 1匹配设计 98 99 100 影响因素干预前结局指标 样本量 干预措施实施前后的变化 样本量 样本量 1 样本量 单侧检验 或双侧检验 研究对象分组数量 实验流行病学研究 101 假设对照组血清胆固醇水平为215mg dl 合理膳食估计可以使干预组较对照组降低15mg dl 从其它资料获得胆固醇标准差约为25mg dl 规定 0 05 双侧 0 05 计算干预组和对照组所需样本数 实验流行病学研究 EpiCalc Sample Size Twomeans 1 计量资料 102 EpiCalc2000 103 EpiCalc2000 104 假设对照组的发病率为40 通过干预措施发病率下降到20 才有推广使用价值 规定 0 01 双侧 0 05 问两组要观察多少人 实验流行病学研究 EpiCalc Sample Size Twoproportions 2 计数资料 105 EpiCalc2000 106 EpiCalc2000 107 筛检试验的评价 108 假如待评价的筛检试验的灵敏度估计为75 特异度估计为55 容许误差为8 设 0 05 试计算病例组和对照组所需要样本量 筛检试验的评价 EpiCalc Sample Precision Singleproportion 用灵敏度水平估计病例组所需样本量 特异度估计对照组所需样本量 109 EpiCalc2000 110 EpiCalc2000 111 EpiCalc2000 112 EpiCalc2000 113 当待评价筛检试验的灵敏度或特异度80 时 需要进行平方根反正弦转换 用专门公式计算 参考 李立明主编 流行病学 第5版 北京 人民卫生出版社 2003 p288 筛检试验的评价 114 研究功效 power 又称把握度 指拒绝无效假设的能力 即当无效假设不成立时 该假设被拒绝的概率 115 队列研究 116 EpiCalc2000 117 EpiCalc2000 118 NCSS PASS PASS Proportions Proportion 2Groups 统计学检验为阴性结果 不要急于下阴性结论 计算该项研究的功效 119 120 得到阳性结果不必再计算功效 功效 75 仍为阴性结果不必再增加样本量 121 假定人群中暴露于研究的危险因素的比例p0 0 30 统计学双侧检验的显著性水平 0 05 病例与对照各50例 1 1匹配 计算该研究有多大的功效发现OR 2 病例对照研究 NCSS PASS PASS Proportions MatchedCase Control 122 123 第二章常用的数据管理和分析软件 VisualFoxPro FoxBase epi2000 Lotus SPSS SAS DataEntry Input 124 SAS STAT 125 Datafax 快速 高效 安全 方便等特点 126 RevManandMetaView 127 128 129 第二章EpiData软件 概述 EpiData是一个关于数据录入和管理的程序目的 是教会普通用户如何将一张调查表 计算机化 使得数据输入和管理工作变得容易 基本设计思想 帮助用户根据调查表信息建立数据库供以后统计分析使用 EpiData的基本功能 包括调查表文件的建立 数据的录入 核对和数据的转入 转出等 使用该软件可使数据录入和管理变得形象 直观 容易 130 131 132 133 134 135 136 137 1 建立调查表文件 138 文件结构 字段名字段类型字段长度 文件名 139 用中文输入调查表内容 定界符 定义的字段名为英文 必须是半角型 而不是全角型系统只会把特殊符号作为一个字段来定义 按照规则 根据符号前的字符定义字段名尽量把变量定义数值型字段 利于统计分析 如糖尿病史 dmhis 定义为数值型 1 表示 有 0 表示 无 注意 调查表文件的格式尽量和原调查表一致 利于输入其它文本编辑器编写 qes文件 用EpiData打开该 qes文件调查表文件编写是否符合要求 可通过 数据表预览 查看 140 141 142 143 144 145 146 147 数据汇总 148 数据转出 149 转为dbase 文件 150 方法1 REC SPSS 151 152 153 154 155 156 157 158 159 METHOD2 REC DBF SPSS DBF 160 161 162 163 164 165 166 167 Epidata数据库建立过程中应该注意的常见问题 168 一 调查表设计 系列调查重复调查单一设计数据收集分步 块 进行数据收集一次完成 169 1 系列调查 涉及多个调查表 需要确立ID号 识别号 以便不同数据能够有效链接 常见的有身份证号 医保号 学号等唯一识别号不同调查表录入后合并不同表录入链接 170 2 重复调查 不同时间的调查数据比较时需要ID号进行个体识别需要建立时间变量 171 3 单一设计 数据收集分步 块 进行录入分表 完成后合并 需要确立ID号不同表录入链接数据收集一次完成 172 二 变量赋值 可录入性答案的完整性赋值转换赋值增加 173 三 数据库文件的选择 EpiData QES最好一次成型利用数据预览功能修改选择项更改其它数据库 174 四 数据库的正确转换 直接转换间接转化软件转换 175 五 数据库管理的需要 密码设置简单备份简单转换 176 刚才介绍的内容有助于完成一般的资料录入计算机的任务 关于EpiData的数据录入与管理功能还有很多 完全掌握需要进一步系统学习 177 第三章SPSS10 0软件简介 SPSS原为StatisticalPackagefortheSocialSciences的简称 意为 社会科学统计软件包 2000年SPSS公司正式将英文全称更改为StatisticalProductandServiceSolutions 意为 统计产品与服务解决方案 SPSSforWindows是一个集数据整理 分析功能于一身的组合式软件包 SPSS的基本功能 数据管理 统计分析 图表分析 输出管理等 目前版本 178 179 SPSS统计分析过程 描述性统计 均值比较 一般线性模型 相关分析 回归分析 对数线性模型 聚类分析 数据简化 生存分析 时间序列分析 多重响应等几大类 每类中又分多个统计过程 每个过程中又允许使用者选择不同的方法及参数 SPSS也有专门的绘图系统 可以根据研究数据绘制各种图形 180 软件特点 SPSS最为突出的特点是操作界面直观方便 输出结果清楚易懂 表格便于转换 该软件使用Windows窗口方式显示各种数据管理和统计分析方法 图表制作及结果输出的功能 并通过对话框显示各种功能选择项 SPSS10 0版采用DAA DistributedAnalysisArchitechture 分布式分析系统 全面适应互联网 支持动态收集 分析数据和HTML格式报告 181 软件安装 182 SPSS软件的使用 使用SPSS软件者应该具有一定的卫生统计学和流行病学相关知识基础 SPSS系统的运行具体数据的处理与分析程序系统兼容性 183 应用SPSS软件进行数据管理与分析的一般过程 1 将数据输入SPSS 也可读取 DBF或 XLS文件或由其它软件转成的SPSS文件 存盘并备份 2 进行数据整理 包括变量变换 增加记录或增加变量等 3 进行必要的预分析 分布图 均数标准差的描述等 以确定应采用的检验方法 4 按要求进行统计分析 5 保存和导出分析结果 184 建立数据库 新建数据库定义新变量变量名变量属性录入数据存盘转入数据建立数据库 185 三 数据的管理 SortCasesTransposeMergeFilesAggregateSplitFileSelectCasesWeightCases 186 变量变换和建立新变量 ComputeRecodeAutomaticrecodeReplacemissingvalue 187 第四章流行病学资料分析实现过程 人时计算发病密度的计算 吕筠 188 人时计算 189 SPSS 190 SPSSTransform Compute 191 SPSS 192 SPSSAnalyze DescriptiveStatistics Descriptives Options Sum 193 两组发病密度的比较 EpiCalc Compare Rates 194 EpiCalc2000 195 EpiCalc2000 196 SPSS SPSS Analyze Survival CoxRegression 197 3 不分层资料 EpiCalc Tables 2 by 2unstratified 198 EpiCalc2000 199 EpiCalc2000 200 SPSS SPSS Analyze DescriptiveStatistics Crosstabs Statistics Chi square Risk 201 SPSS 202 4 趋势 2检验 EpiCalc Compare Proportionsastrend 203 EpiCalc2000 204 EpiCalc2000 205 SPSS SPSS Analyze DescriptiveStatistics Crosstabs Statistics Chi square 206 SPSS SPSS Analyze Survival CoxRegression 先新建一个time变量 病例组赋值为1 非病例组赋值为2 207 208 209 210 1 不匹配不分层资料 EpiCalc Tables 2 by 2unstratified 病例对照研究 211 EpiCalc2000 212 EpiCalc2000 资

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论