临床科研数据的提取与管理ppt课件_第1页
临床科研数据的提取与管理ppt课件_第2页
临床科研数据的提取与管理ppt课件_第3页
临床科研数据的提取与管理ppt课件_第4页
临床科研数据的提取与管理ppt课件_第5页
已阅读5页,还剩148页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

临床科研数据的提取与管理 第三军医大学卫生统计学教研室DepartmentofHealthstatistics TMMU 68752343刘岭 数据的质量控制数据管理中的几个常见问题统计分析结果与表达 主要内容 一 研究设计 二 收集资料 完整 准确 三 整理资料 核查 清洗 四 分析资料 统计工作的基本步骤 数据的质量控制 一 数据的来源与数据集 观察性数据 实验性数据 科研数据 观察性数据 观察性研究 卫生工作报表 病例资料观察性研究 客观地观察 记录和描述事物规律或现象的认识活动 实验性数据 实验性研究 临床病例资料 动物实验记录实验性研究 人为控制实验条件或对研究对象施加一定干预措施所做的研究 多中心临床实验或大型调查研究 样本量大 变量数多 某地2002年735例65岁以上老年人健康检查记录 数据矩阵 某地2002年735例65岁以上老年人健康检查记录 某地2002年735例65岁以上老年人健康检查记录 解释变量 指示变量 分组变量 因素 协变量 预测变量等 反应变量 表示试验效应或观测结果的指标 注意 变量名 英文 不超过8个字符 分类变量适当数量化处理 二 数据录入 数据录入是将研究收集到的各种信息转换为数据形式 输入到计算机进行保存 管理的过程 数据审核 对收集到的原始资料进行审查与核实的过程 真实 准确 完整 标准制定数据编码表 使研究得到的信息数字化和标准化 封闭性 开放性 缺失数据建立数据库 运用专业的数据库管理软件 数据管理 查询 修改功能 原始数据录入格式 数据录入的原则 1 方便录入 将字符变量转换成数值变量 2 便于核查 一定要有标识变量 以方便数据的核对 3 易于转换 录入数据时要考虑不同软件的要求 4 利于分析 同一研究课题的结果最好录成一个数据库文件 同一资料进行双人重复录入方法 应用程序对两个数据库进行比对 核查错误 EpiData特点 简单易学 实用性强对计算机硬件要求不高调查表设计便捷与调查表形式一致的可视数据录入界面数据核查功能强大且实现简便EpiDataAnalysis可用于一般的统计分析与制图数据转换功能强大 建立调查表文件 创建数据库 建立核查文件 录入数据 数据库管理 输出数据 EpiData的基本流程 数据库的导出 Datain SPSS文件 SAS文件 DBF文件 Stata文件 REC文件 二 数据管理中的几个常见问题 一 数据的质量控制 1 输入信息的有效性 即幅度检查 2 输入信息相互之间的一致性 即逻辑检查 3 查漏 原始数据的编号与数据库的编号核对 4 运用统计软件观察频数分布是否异常 5 进行描述性统计 有无离群值和缺失值 二 变量的设置 1 连续型变量的输入 直接录入 2 离散型变量的输入 数值化处理 变量的设置方式 资料类型 研究目的 变量的分布形式 统计方法的应用条件 三 缺失值处理 缺失值主要来自资料收集中的漏报和漏填 缺失值应控制在数据记录总量的10 以内 注意将缺失值与 0 区分开来 缺失值一般用 表示 缺失比例很小时 可舍弃 缺失比例较大时 可进行插补 不得已 慎用 四 离群数据的处理 有无离群值 频数表 箱式图或直方图可初步判断 线性回归方法判断 离群值 outlier 是指超出数据通常变化范围的特大值或特小值的观测值 出现离群值的处理在离群值附近多次抽样 了解数据的真实结构 专业知识与统计方法结合 五 统计学方法的应用条件 正态性检验方差齐性检验多重共线性判断 统计方法的正确选择 三 统计分析结果与表达 医学论著的基本结构 摘要 引言 1 材料与方法 2 结果 3 讨论 Abstract Introduction MaterialsandMethods Results Discussion 统计表 统计图 摘要Abstract 对处理组和对照组的主要统计结果进行概述 均数 中位数 率 标准差 标准误 P值 两组均数 率 之差或者OR值 95 可信区间 CI 多个观察指标的相关系数及其P值等 简要说明研究背景和研究目的 给出文献分析的综合复习结果 如组间差别 DifferenceAmongGroups P值 P value 等 采用循证医学的方法 引言Introduction 材料与方法 MaterialsandMethods 统计表达 研究设计方案 DesignofResearchMethods 统计分析方法及软件 AnalysisMethodsandSoftware 目的 以使读者确认论文中所有统计分析结果的可靠性和研究结论的合理性 研究设计方案 DesignofResearchMethods 研究对象的来源和选择方法 包括观察对象的基本情况需要说明诊断标准病例入选标准 病例排除标准 病例剔除标准 疗效评价标准 有无失访 失访比例 不可超过20 有无 知情同意 评价疗效有无遮蔽 单盲SingleBlind 双盲DoubleBlind 或 多盲MultipleBlind 等均衡性分析结果 影响因素 如年龄 性别 病情 样本量估计的依据 SampleSize 常用统计方法简单说明 如检验 t检验 单因素方差分析 ANOVA 等 特殊的统计方法给出相应的参考文献 如聚类分析 Cluster 生存分析 SurvivalAnalysis 等 一般统计计算软件给出名称如SPSS SAS STATA等 EXCEL不能作为处理软件特殊的计算软件要给出软件的过程名 统计分析方法及软件 AnalysisMethodsandSoftware 统计表达 统计图表 StatisticalGraphs Tables 结果 Results P值的表达 SuitableExpressionofP 统计指标 StatisticalIndexes 数据精度 NumericalPrecision 统计表 统计图 讨论 Discussion 统计解释 P值的解释 InterpretationofP 关联的解释 InterpretationofAssociation 因果的解释 InterpretationofCausation r值的解释 Interpretationofr 统计资料的分类 Statisticalclassification 某地2002年735例65岁以上老年人健康检查记录 1 计量资料 或定量变量 measurmentdata quantitativedata 定义 测定每个观察单位的某项指标量的大小 所得的资料称为计量资料 其变量值是定量的 一般带有度量衡或其它单位 特点 每个观察单位的观察值之间有量的区别 定义 将观察单位按某种属性或类别分组计数 分组汇总得到各组观察单位数称为计数资料 特点 计数排列是无序分组 同组各观察单位之间没有量的差别 但各组间有质的不同 各组互不相容 二项分类和多项分类 2 计数资料 或无序分类变量 enumerationdata unorderedcategorydata 3 等级资料 或有序分类变量 rankeddata ordinalcategorydata 定义 将观察单位按某个指标量的大小分成等级或某种属性的不同程度分成等级后分组计数 分类汇总各组的观察单位数称为等级资料 特点 等级是有序分组 同计数资料的区别是 属性的分组有程度的差别 各组按一定顺序排列 与计量资料的区别是 每个观察单位未确切定量 所以又称为半定量资料 常用的统计指标 AnalysisIndex 统计指标可用于描述性的统计分析 也是反映数据基本特征的统计分析方法 并可使人们准确 全面地了解数据资料所包涵的信息 以便于在此基础上完成资料的进一步统计分析 常用统计指标的特点及其应用场合 计量资料 数值资料 的指标 常用相对数的算法和用途 应用时需注意 分母一般不宜过小 不以构成比代替率 可比性 计数资料 分类资料 的指标 统计表 Statisticaltable 统计表的构造 表号标题 包括何时 何地 何事 备注 表头 标目 线条 数字 备注 表体 标题 合计 标题 是统计表的总名称 位于表的上方 简明确切 与内容一致 通常需注明资料的时间和地点 若一篇论文中有两张以上的统计表 则每张统计表的标题前应加序号 表3 2狗损失3 4循环血液量以氧化聚白明胶补充后各段时间血浆中氧化聚白明胶的浓度和24小时内尿中氧化聚白明胶排出量的百分数 修改 四只狗编号依次为40 41 42 43 体重分别为11 0 14 5 11 0 6 8公斤 表3 2氧化聚白明胶存留狗血液内各段时间的浓度和排出量 根据其位置与作用可分为横标目和纵标目 横标目 位于表的左侧 向右说明各横行数字的涵义 纵标目 位于表头右侧 向下说明各纵栏数字的涵义 必要时可在横标目或纵标目前冠以总标目 标目 表3 3急性心肌梗塞并发休克患者疗效比较 修改表 表3 3两个治疗组对比 原表 通常用四条横线将统计表分割成表头 表体和合计三部分 即顶线 底线 纵标目下的横隔线及合计上的横隔线 线条 正规印刷的统计表一般没有竖线和斜线 但标目间应有明显的间隔 表3 4复方猪胆胶囊对403例不同类型老年慢性支气管炎病例近期疗效观察 原表 表3 4复方猪胆胶囊治疗老年慢性支气管炎的近期疗效 数字是统计表的基本语言 主要内容为统计调查结果与计算结果 如均数 合计 率 百分比等 表内数据一律采用阿拉伯数字 要求 数字计算必须绝对准确 同一指标的小数位数应一致 位次要对齐 表内不应有空白项 数字为零时应写 0 暂时没有数据时用 表示 不必合计时可用 表示 数字 备注不是统计表的必须项目 需要时才用 并用 号标出 写在表的外面加以说明 如表3 2所示 备注 四只狗编号依次为40 41 42 43 体重分别为11 0 14 5 11 0 6 8公斤 表3 2氧化聚白明胶存留狗血液内各段时间的浓度和排出量 从内容上看 每张统计表都有主语和宾语 主语 是指被研究的事物 多位于表内左边 宾语 指说明主语的统计指标 多位于表内右边 将主语和宾语连接起来 应能读成一个完整的句子 内容 表3 4复方猪胆胶囊治疗老年慢性支气管炎的近期疗效 统计表的内容要丰富 制表的目的是为了对统计结果进行对比分析 若指标过少 则不易凑统计表 1 统计表要重点突出 一般一张统计表只表达一个中心内容 若包含内容过多 可分制成若干张统计表 2 统计表要有 自明性 即主谓分明 层次清楚 为此 标目的处理是决定统计表质量的关键 横标目常为第一主辞 纵标目为第二主辞 切忌位置混乱 互相混杂 使读者难以识别 3 制表注意事项 其中2例是其他切除术 3例为淋巴结活检得到随访者 表3 5192例手术及效果 原表 其中2例是其它切除术 表3 5192例壶腹癌不同手术方式的生存情况 表3 5手术后各阶段生存率 寿命表法 标题 定义 特点 备注 标目 数字 统计表 线条 内容丰富 重点突出 有自明性 统计图 Statisticalgraph 统计图 statisticalgraph 是指用几何图形 点 线段 直条等 显示统计指标的大小 对比关系或变化趋势 统计图的定义 图域 纵标目 刻度 标题 图例 横标目 统计图的构造 一 条图 barchart 用等宽直条的长短表示统计指标数量的大小 用于比较彼此独立的若干组指标 常用统计图 按指标和分组因素的多少可分 条图图示 1 单式条图 图某石棉厂不同工作部门的石棉肺患病率 一个统计指标 一个分组因素 2 复式条图 图三个直辖市的人口密度比较 一个统计指标 两个分组因素 3 分段条图 图某师1991年传染病与菌痢发病人数 两个统计指标 一个分组因素 二 圆图 piechart 用圆的总面积表示事物的全部 用各个扇形的面积 圆心角的大小 表示各个部分 用于表达事物的内部结构 图10 5251例胃癌患者病理组织学类型的构成 2002年某医院1402例孕妇分娩结果 圆图图示 三 百分条图 percentagebarchart 用一个矩形条子的面积表示事物全部 而用其中各段表示各构成部分 也用于表达事物的内部结构 更适用于多组结构相对数的比较 纵轴 表示分组因素 横轴 表示累计百分比 由0开始 最大刻度为100 百分条图图示 图251例男女胃癌患者病理组织学类型的构成 四 线图 linechart 用点和点之间的连线表示统计指标的变化趋势 适用于分组标志为连续型变量 如时间 年龄等 的资料 横轴 代表分组标志 为连续型变量 纵轴 表示统计指标 相对数 平均数等 线图图示 线图示例 半对数线图 半对数线图 线图的一种特殊形式 适用于表示事物发展速度 相对比 其纵轴为对数尺度 横轴为算术尺度 使线图上的数量关系变为对数关系 绘图时 应使用特制的半对数坐标纸 也可以将统计指标 率 取对数值后在方格坐标纸上作图 表10 6某部历年普通感冒与支气管炎发病率 图10 8某部队历年感冒与支气管炎发病率 图10 8某部队历年感冒与支气管炎发病率 半对数线图图示 五 直方图 histogram 用矩形面积表示某个连续型变量的频数 频率 分布 纵轴 表示频数或频率 横轴 连续型变量的组段 直方图图示 表10 7某市某年流行性乙型脑炎患者的年龄分布 图10 10某年某市流行性乙型脑炎患者的年龄分布 图10 10某年某市流行性乙型脑炎患者的年龄分布 六 箱式图 box whiskerplot 又叫箱 髯图 用于比较两个或多个样本分布的中心位置和散布范围 中心位置 用中位数 P50 表示 散布范围 用四分位数间距 P75 P25 和极差 Xmax Xmin 或P2 5和P97 5或P0 5和P99 5表示 血汞含量 umol L 某市汞作业工人和居民血汞含量分布情况 表10 8某市汞作业工人和居民血汞含量 mol L 的分布情况 七 误差限图 error barchart 是在用条图或线图表示均数的基础上 在图中附上标准差的范围 以反映数据的散布情况 条的高度表示 条上的延长线表示 s 也可用来表示率 标准误或均数 标准误的范围 以说明率或均数的抽样误差大小 表10 9不同地区入伍两年战士握力测定结果 表10 10某地儿童锡克氏试验结果 统计图的选择 假设检验的结果表达 SuitableExpressionofP P值的表达 SuitableExpressionofP 传统表达P 0 05记为 NS P 0 05记为 P 0 01记为 提倡表达提倡报告精确P值 应给出检验统计量的实际值 相关系数保留2位小数 检验统计量 如Chi square值 t值保留2位小数即可 计量资料的统计指标 均数 标准差 标准误 中位数 百分位数等 的保留小数位数 应该与原始数据的保留小数位数相同 计数资料的百分比保留1位小数 一般不超过2位小数 病死率 发病率按惯例选择比例基数 如1000 10000 万 10万 10万等 或自行选择合适的比例基数 使率的表达至少有1位整数 数据的精确度 关于 应用条件 只有属于正态分布的数据才可以表示为 虽属于正态分布 但出现负数 即 s时 如血清出现负数 时不能用表示 此时宜用最大值 最小值 四分位间距和中位数 其他常见的统计指标 SuitableExpressionofP 可信区间 confidenceinterval CI 区间估计即是按预先给予的概率 确定未知参数值的可能范围 此范围称为估计参数的可信区间或称置信区间 confidenceinterval 预先给定的概率称为可信度或置信水平 confidencelevel 符号为 1 常取95 或99 按此确定的可信区间分别称之为95 或99 可信区间 循证医学中常用的是率的可信区间 RR或OR的可信区间 均数的可信区间 两均数差值的可信区间 可信区间还可用于假设检验 尤其是试验组与对照组某指标差值或比值的可信区间 在循证医学中更为常用 试验组与对照组某指标差值或比值的95 可信区间与 为0 05的假设检验等价 99 可信区间与 为0 01的假设检验等价 可信区间还可用于假设检验 分类资料的指标 在循证医学的研究与实践中 除了有效率 死亡率 患病率 发病率等常用率的指标外 相对危险度 RR 比值比 OR 及由此导出的其他指标也是循证医学中富有特色的指标 目前 在循证医学中分类资料常用的描述指标主要有EER CER OR RR RRR ARR NNT NNH等 1 EER与CER 循证医学中预防和治疗性试验中 率可细分为EER和CER两类 EER即试验组中某事件的发生率 experimentaleventrate EER 如对某种暴露采用某些防治措施后该疾病的发生率 CER即对照组中某事件的发生率 controleventrate EER 如对某种暴露不采取防治措施该疾病的发生率 2 RD 率差 及可信区间 两个发生率的差即为率差 也称危险差 ratedifference riskdifference RD 如试验组的发生率 EER 与对照组发生率 CER 的差 其大小可反映试验效应的大小 两率差的可信区间由下式计算 p1 p2 u SE p1 p2 RD u SE p1 p2 RD u SE p1 p2 两率差的标准误 因而两率差的可信区间不包含0 上下限均大于0或上下限均小于0 则两个率有差别 反之 两率差的可信区间包含0 则无统计学意义 某医师研究了阿司匹林治疗心肌梗死的效果 资料见下表 该试验结果的EER和CER计算结果为 EER a n1 15 125 12 CER c n2 30 120 25 死亡未死亡例数治疗组15 a 110 b 125 n1 对照组30 c 90 d 120 n2 合计45200225 n 该试验两率差 RD 的95 可信区间为 RD u SE p1 p2 0 12 0 25 1 96 0 049 0 23 0 03该例两率差的可信区间为 0 23 0 03 上下限均小于0 不包含0 两率有差别 可认为阿斯匹林可降低心肌梗死的病死率 两率差别有统计学意义 可认为阿斯匹林可降低心肌梗死的病死率 3 RR及可信区间 相对危险度RR relativerisk RR 是前瞻性研究中较常用的指标 它是试验组某事件发生率P1与对照组某事件发生率P0之比 用于说明前者是后者的多少倍 常用来表示试验因素与疾病联系的强度及其在病因学上的意义大小 RR计算的四格表 组别发病未发病例数试验组a r1 bn1对照组c r2 dn2试验组的发生率为 p1 a a b r1 n1对照组的发生率为 p0 c c d r2 n2相对危险度按下式计算 RR p1 p0 EER CER 当RR 1时 可认为试验因素与疾病无关 当RR 1时 可认为试验因素与疾病有关 当RR 1时 可认为试验组发生率大于对照组 当RR 1时 可认为试验组发生率小于对照组 RR的可信区间 应采用自然对数进行计算 即应求RR的自然对数值ln RR 和ln RR 的标准误SE lnRR 其计算公式如下 ln RR 的1 可信区间为 ln RR u SE lnRR RR的可信区间为 Exp ln RR u SE lnRR 由于RR 1时为试验因素与疾病无关 故其可信区间不包含1时为有统计学意义 反之 其可信区间包含1时为无统计学意义 阿斯匹林治疗组的病死率p1 15 125 对照组的病死率p0 30 120 其RR和可信区间为 Ln RR ln0 48 0 734 0 289 故RR的95 的可信区间为 Exp ln RR 1 96SE lnRR exp 0 734 1 96 0 289 0 272 0 846 该例RR的95 的可信区间为0 272 0 846 使用阿斯匹林治疗的病人 其病死率小于对照组 可认为阿斯匹林可降低心肌梗死有效 4 OR及其可信区间 优势比OR又称比值比 指病例组中暴露人数与非暴露人数的比值除以对照组中暴露人数与非暴露人数的比值 OR计算的四格表 组别暴露非暴露例数病例组aba b非病例组cdc d合计a cb da b c d 当所研究疾病的发病率较低时 即a和c均较小时 OR近似于RR 故在回顾性研究中可用OR估计RR 由于前瞻性研究中 OR的可信区间与RR的可信区间很相近 且OR的计算更为简便 因此 常用OR可信区间的计算来代替RR的可信区间的计算 OR值的解释与RR相同 在临床随机对照试验 RCT 中 常用OR代替RR 但必须注意使用条件 即发病率较低 OR的可信区间同样需要采用自然对数计算 其ln OR 的标准误SE lnOR 按下式计算 ln OR 的可信区间为 ln OR u SE lnOR OR的可信区间为 Exp ln OR u SE lnOR OR计算的四格表 组别暴露非暴露例数病例组aba b非病例组cdc d合计a cb da b c d 阿斯匹林治疗心肌梗死的效果试估计其OR的95 可信区间 OR的95 可信区间为 Exp ln OR 1 96SE lnOR exp 0 894 1 96 0 347 0 207 0 807 该例OR的95 可信区间为0 207 0 807 可认为阿斯匹林治疗心肌梗死有效 5 RRR及可信区间 RRR为相对危险度减少率 relativeriskreduction 其计算公式为 RRR CER EER CER 1 RRRRR的可信区间可由1 RR计算得到 如前例RR 0 48 95 可信区间为0 272 0 846则其RRR 1 0 48 0 5295 可信区间为0 154 0 728 RRR反映了某试验因素使结果的发生率增加或减少的相对量 但无法衡量发生率增减的绝对量 如 试验人群中某病的发生率为39 对照组人群的发生率为50 则RRR 50 39 50 22 但是 若在另一研究中 试验组的疾病发生率为0 39 10万 对照组的疾病发生率为0 50 10万 其RRR仍为22 6 RRI RRI 相对危险度增加率 relativeriskincrease RRI 试验组中某不利结果的发生率为EERb 对照组中某不利结果的发生率为CERb RRI可按下式计算 RRI EERb CERb CERb该指标可反应采用试验因素处理后 患者的不利结果增加的百分比 7 RBI RBI 相对获益增加率 relativebenefitincrease RBI 试验组中某有益结果的发生率为EERg 对照组某有益结果的发生

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论