




已阅读5页,还剩1页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
教育与争鸣沃登编辑如何阅读医学论文(五)39如何阅读医学论文(五)供非统计学家使用的统计学“:显著性的”关系和这种关系中的陷阱How to read a paperStatistics for the non2statistician :“Significant”relations and their pitfallsTrisha Greenhalgh这篇文章继续列举一系列问题 ,这些 问题有助于人们评价并判断某篇论文是否 正确合理地使用统计学方法 。这个题目是 由两篇文章组成的 ,第一篇已在上期发表 。相关 、回归和因果关系有没有把相关和回归区别开 ? 相关系 数 ( r 值) 的计算和解释是否正确 ?本文要点如果两个变量之间的联系很强 , 而 且这种联系在很多研究中的表现都 是一致的 、特定的 、可以用已有知识 加以解释的 ,同时这种联系服从时 间序列逻辑并出现剂量2效应梯度 变化 ,那么两个变量间的关系可能 就有因果关系 。本文为系列文章 之五 ,第 14 篇 见本刊 1999 年 14 期 ,其它文章 将陆续刊登。Unit for Evidence2Based Practice and Policy , Department of Primary Care and PopulationSciences , UniversityCollege LondonMedical School/Royal Free HospitalSchool of Medicine . Whittington对许多不搞统计的人来说 “,相关”和P 值小于 0. 05 表示这个结果是由Hospital , LondonN19 5NF“回归”这两个词是同义的 ,这两个词大概在他们的脑子里都指的是围绕着从坐标轴 一定截距上发出的一条对角线而散乱分布的点所构成的散点图 。如果两种事物不相关的话 ,试图去做回归是毫无意义的 ,这一 点很明确 。但回归和相关是两个定义确切 的 、有不同作用的统计概念1 。r 值 ( Pearson 积距相关系数) 是被人们用得太多的一种统计方法 。严格来说 ,如 果下面这些条件不具备 ,使用 r 值就是不 合理的 : 数据 ( 或更准确地说 , 产生数据的 总体) 应该是正态的分布 。如果不是正态分布 ,就应当用非参数的相关检验 。 两个数据集应当是彼此独立的 ( 一 个不应当自动随另一个而变化) 。如果 它们不是独立的 ,应当使用配对的 t 检验偶然机遇引起的可能性小于 1/ 20 。在临床试验中 ,一个结果的可信区 间指的是两个处理组的“真实的”差 异可能落在哪个数值范围之间 , 因 而可信区间也可表示从结果中得到 的某种推断的强度 。统计学的显著性结果有可能在临床 上并没有意义 。这种干预试验的结 果所表示的就是某个个体可能从干 预试验中得到的益处 (如 :绝对危险 性低了多少) 。或其它配对的检验 。 对于每一个研究对象应当只对两 个数据做一次测量 ,如果要重复测量这两 个数据 ,那么应当使用方差分析代替相关 。Trisha Greenhalgh ,senior lecturerp . greenhalgh ucl . ac . uk 给出每个 r 值时应列出相应的 P 值 ( P 值所表示的是这一相关程度是由偶然的机遇引起的可能 性有多大) ,或者列出可信区间 ,可信区间表示“真实的”r 值可能落在什么范围内 。还要记住 ,即使某套数据可以使用 r 值 ,不论 r 值多大 ,它都不能说明相关关系是因果关系 ( 见下 文) 。“回归”这个词指的是一个能从一个变量 ( 自变量) 预测另一个变量 ( 目标变量) 的数学方程 。回归 因而提示某种作用的方向 ,当然 ,从下面的讨论中我 们可以看到 ,回归也不能证明有因果关系 。多元回 归用的是更复杂的数学方程 ( 谢天谢地有计算机计 算它的奥秘) ,从两个或更多的自变量 ( 经常称为协 变量) 来预测目标变量 。回忆一下上课时学过的最简单的回归方程 y =a + bx ,y 是因变量 ( 标在纵轴方向) ,x 是自变量 ( 标 在横轴方向) ,a 是 y 的截距 。没有多少生物学上的 变量能用这样一个简单方程进行预测 。例如 ,一组人群的体重随着他们的身高变化 ,但这种变化不是 线性关系 。我的身高是我儿子身高的两倍 ,体重是 他体重的 3 倍 ,但是我的身高是我那个刚出生的侄 子的 4 倍 ,而我的体重却是他的体重 6 倍还多 。实 际上 ,体重更可能随人的身高的平方变化 ,而不是随身高本身变化 (所以用二次回归也许比线性回归更 恰当) 。当然 ,即便把身高2体重数据输入到计算机已足 以计算回归方程 ,用这个方程可以从一个人的身高 对他的体重做出最佳预测 ,但是你的预测效果仍旧可能很糟糕 , 因为体重与身高并非那么密切相关 。 除身高外还有其他影响体重的因素 ,我们可以用多 元回归的原理来说明这个问题 ,即把年龄 、性别 、每 日的热卡摄入和体力活动的数据也输入计算机 ,并 且计算这些协变量中的每个变量对总的方程 ( 或模型) 贡献多少 。这里所阐述的基本原理 ,特别是前面提到的使 用 r 值准则 ,可以帮助读者认识所读的文章中是否 正确地应用相关和回归的方法 。有关这个问题的更 详细的讨论能在别处查到2 ,3 。对因果关系性质和方向是否作了假设 ?记住这样的生态学的谬误 : 不能仅凭一个镇有 大量的失业人群同时有非常高的犯罪率 ,就得出是 失业者在犯罪的结论 。换言之 ,A 和 B 之间的关联 既不能告诉人们两者是否存在因果关系也无法说明因果关系的方向 。要表明是 A 引起 B ( 而不是 B 引起 A ,也不是 A 、B 均由 C 引起) ,你需要比相关系数 更多的东西 。下面框图中给出了假定因果关系时必须满足的条件 , 这些条件最早是由 Austin BradfordHill 提出的4 。因果关系检验4 是否有采用人群试验研究的证据 ? 是否有很高程度的关联 ? 从各个研究中得到的关联是否一致 ? 时间关系是否恰当 (所假定的原因是否先于所假定 的效应) ? 存在剂量2效应梯度吗 ( 是否所推论的原因发生越 多 ,所推论的效果出现得也越大) ? 这种关联是否具有流行病学意义 ? 这个关联具有生物学意义吗 ? 这个关联是否有特异性 ? 现在这个关联是否与以前证实的因果关系有相似 之处 ?概率和置信度对 P 值的计算和解释是否恰当 ?学统计学的学生刚开始学会计算的一些统计值 中就有 P 值 , P 值就是某个特定的结果是由偶然机遇引起的概率 。在科学研究工作中 ,人们通常把 P 值小于 1/ 20 (表示为 P 0 . 05 ,等价于赌 20 次中的 1 次) 当作“统计上有显著性”, P 值在 100 次中小于 1 次 (为 P 0 . 01) 称为“统计学上非常显著”,但这都 是人为设定的标准 。那么按照这样的定义 ,即便实际上不存在任何联系 ,也会在 20 次研究中有一次机会表现出有显著 性的联系 (这相当于在每期杂志发表的主要结果中 大约有一个是这种机会造成的) ,在 100 个结果中有 一个纯粹是运气造成的“非常显著”。考虑到机遇带 来的问题 ,如果分析数据时要分析多个结果的话 ,就需要做校正 (通常用 Bonferroni 法5 ,6) 。 如果某个结果是在统计学的显著范围中 ( P 0 . 05 或 P 0 . 01 ,就看你选择什么样的标准) ,就提示作者应当拒绝无效假设 ( 无效假设是指两组之间 确实没有差异) 。但 P 值不在显著范围中时 , 它要 么告诉你 , 组间没有差异 , 要么就是说研究对象太 少 ,不足以显示存在的差异 ,但到底是哪个结论 ,它教育与争鸣没法告诉你 。P 值还有另外的局限性 。Guyatt 和他的同事在 “临床医生基本统计”系列文章的第一篇中论述了用“没有被接受”) 表达这个结果的话 ,我们会把这个结果归为阴性 。但是正如 Guyatt 和他的同事提出的 ,也许确实存在着真实的差异 ,并且这个差异可能更P 值做假设检验的问题 ,他们在结论中说 “:假如截接近 5 %而不是 - 1 . 2 % ,也不是 12 % 。从这些结果止点的选择是人为的 ,为什么要用单一的点做统计 学的显著性界限7 ? 假如把干预效果当作一个连续 的过程更为恰当的话 ,为什么把它当作两分变量问 题呢 (有或没有) ?”为了更好地估计研究结果的力 度 ,我们需要计算可信区间 。是否计算了可信区间 ? 作者在结论中是否使用得出更有用的结论是“在所有其他情况相同的情况 下 ,血管紧张素转化酶抑制剂是心力衰竭病人适宜 的选择 ,但这个推论的说服力较弱9 。”干预效果的计算结局事件了可信区间 ?好的统计学家对几乎任何统计检验 ( t 检验 、r组 别有无合计值 、绝对危险减少值 、避免一例不良结果所需治疗人 数 、灵敏度 、特异度和其他诊断检验的主要特征参数) 的结果都能计算可信区间 。无论对“阳性”(试验两组间的差别有统计学显著性) 结果还是“阴性”(看 起来没有显示差别) 结果 ,可信区间都能帮你估计这 些结果是否有很强的说服力 ,是否是结论性的 (不再 需要做类似的研究了) 。在其他的文献8 里对可信 区间的计算和解释都做了介绍 。如果把相同临床试验重复 100 次 ,每次都不可 能得到完全相同结果 。但是 ,总的平均起来 ,试验两 组的差别 (或无差别) 会表现在某个具体特定的水平 上 。90 %的两试验组的差别都会落在某个确定的界 限范围内 ,95 %试验组的差别也会落在某个确定的 , 而且比 90 %的结果范围更大的界限内 。现在 ,如果仅进行一次试验 (通常情况是如此) ,那么你怎样知道这个试验结果与“真正的差别”差多 远 ? 回答是不知道 。但通过计算 ,比如 ,计算研究结果的 95 %可信区间 ,你可以说“真正”差值有 95 %的机会落在这两个界值之间 。这句话的意思在某篇文 章中可能就表达为“在一个心力衰竭治疗试验中 ,被 随机分到血管紧张素转化酶抑制剂组的病人有33 %死亡 ,随机分到肼苯哒嗪和硝酸盐组的病人有38 %死亡 。两组间差值的点估计 ( 对使用血管紧张 素转化酶抑制剂挽救多少生命的最佳单值估计) 是5 % 。而这个差别的 95 %可信区间是从 - 1 . 2 %对照组a b a + b试验组c d c + d对照组结局事件频率 ( CER) =在对照组中出现结局事件的危险 = a/ (a + b)试验组结局事件频率 ( EER) =在试验组中出现结局事件的危险 = c/ (c + d)相对危险减少值 ( RRR) = ( CER - EER) / CER 绝对危险减少值 (ARR) = CER - EER 每减少一例危险结局发生需要治疗的人数(NNT) = 1/ ARR = 1/ ( CER - EER)比数比 =干预组中有结局事件数与无结局事件数的比值 对照组中有结局事件数与无结局事件数的比值须知 ,试验研究 ( 几个试验合并的结果) 的样本 量愈大 ,其可信区间就愈窄 ,因此其结果就愈可能是 结论性的 。在解释“阴性”试验结果时 ,重要的一点是需要 知道更大样本的试验是否有可能出现有显著意义的 结果 。要想确定这个问题 ,可以看一看结果的 95 % 可信区间的上限 。真实的结果仅有 1/ 40 的机会 ( 那 就是 215 %个机会 ,因为其他的 215 %极端的结果将 落在 95 %可信限下限以下) 等于或大于 95 %可信区12 %”。间的上限 。现在自问“,这样水平的差异从临床上看更可能的是 ,这些结果用下面的更简短的方式很重要吗 ?”如果不重要 ,可以把这个试验归判为结表示“:血管紧张素转化酶抑制剂组的存活率高 5 %果阴性而且结论是肯定的 。另外 ,假如 95 %可信区(95 %可信区间为 - 1 . 2 %12 %) ”。在这个实例中 ,95 %可信区间包括了零 ,如果我 们要用两分变量 (也就是 ,研究的假设“被接受”还是间的上限表示了有重要临床意义的组间差别 ,那么 这个试验可能也是阴性的结果 ,但它的结论也是不 肯定的 。在医学论文中可信区间的使用相对来说仍旧不太普遍 。在一项对北美 3 个杂志 ( 新英格兰医学杂 志 、内科学年鉴和加拿大医学会杂志) 100 篇文章的 调查中 ,仅有 43 篇报告了可信区间 ,而 66 篇报告了10 年以后他们是活着还是死了 。附表 干预效果 :干预措施和结局10 10 年时的结局 P 值7 。正确解释可信区间的文章的比例就更小了 。干预措施 死亡存活在阅读文章时 ,你应当仔细的查看讨论一节 ,不仅要 看作者所得的结论是否正确地说明试验结果能否支 持 、在多大程度上支持研究假设 ,而且也要看作者的 结论是否正确说明有无再做进一步研究的需要 。干预的最终效果作者是否用单个病人可能得到的益处或受到的 损害这样的指标来说明干预的效果 ?对一个特定干预说其结果产生“有统计学的显 著性差异”,固然不错 ,但是如果要我去服一种新药的话 ,我想知道的是 ( 就某项具体结果而言) 与不服药相比 ,我有多大可能出现这种结果 。只要用 4 种 简单的运算 (你会加 、减 、乘 、除就能看懂本节内容)就能客观地回答这个问题 ,并且你的回答也可以被不搞统计的人所理解 。这些计算就是相对危险减少 值 、绝对危险减少值 、每避免一例不良结局所需治疗 人数和比数比 。为阐明这些概念并且让你相信你需要懂得这些概念 , 让我们先看看 Tom Fahey 及其同事最近做的 一项调查10 。他们给英格兰地区 182 名卫生当局成 员 (这些人在卫生工作决策中都负某种责任) 写信 , 询问他们愿意为 4 个心脏病人康复项目中的哪一个 提供资助 。项目 A 减少 20 %的死亡率 ;项目 B 使死亡绝对减少 3 % ;项目 C 使病人的生存率从 84 %增加到 87 % ;项目 D 中每减少 1 例死亡需要有 31 个人参加 这项康复治疗 。在作出回答的 140 个委员中 ,只有 3 个人发现所谓 4 种“康复项目”实际上其结果是相同 。其他137 个人都选择这个或那个项目 ,从而暴露出 ( 除了 他们的无知以外) 需要对卫生当局人员进行更好的 基本流行病学培训 。让我们用附表的例子继续说明我们的问题 ,这 个例子是 Fahey 和他的同事根据 SalimYusuf 和他的 同事的一个研究11编写的 。在这里我列出一个 2 2 表 ,详细说明在随机试验中病人接受哪种干预以及药物治疗( n = 1325) 404 921心脏冠状动脉搭桥术( n = 1324) 350 974简单的数学计算可以告诉你 ,在 10 年中接受内 科 治疗的病人死亡的机会为404/ 1324 = 0 . 305 ,或报告结果时在统计检验方面的 10 种欺骗手段 : 将所有数据输入计算机 ,并且把 P 0. 05 的所有关 系都报告为有显著意义 如果各组在基线时的差别对干预组更有利 ,就不对 这些差别进行调整 不检验数据是否是正态分布 。如果做了这种检验 的话 ,你就可能要用到非参数检验 , 而非参数检验 并不总那么让人开心 把所有中途退出的人和无应答的人都剔除 ,所以仅 分析那些全部完成治疗的病人 总是假定你能用一套数据去描述另一套数据 ,并计 算出“r 值”( Pearson 相关系数) , 而且还假定某个 “有显著性的”r 值就能证明因果关系的存在 如果异常值 ( 在图上远离其它大部分点的点) 搅乱 了你的计算的话 ,就把它们去掉 。但是如果异常值 对你有帮助 ,哪怕它们看起来都是荒谬的 ,也把它 们保留下来 如果组间差异的可信区间包括零的话 ,就不报告可 信区间 ,好一点的做法是 ,在文中简单提一下 ,但不 在图中表示它们 ,而且在做结论时不考虑可信区间 问题 如果一个 6 个月的试验研究在 4 个半月时两组间 的差异就出现了显著性 ,那么就停止试验 , 并开始 写文章 另一情况是 ,如果到 6 个月时结果仅是“接近有显 著性”,那么就把试验再延长 3 周 如果结果证明没有什么意义的话 ,那么就接着再计 算 ,看有没有哪个特定的亚组有什么特别之处 ,也 许你最终会发现你的干预在 5261 岁中国妇女中 是有效的 如果按照计划的方法分析你的数据 ,没有给出你需 要的结果 ,那么就用其他检验方法再进行计算30 . 5 % 。让我们称这个为危险 x 。在 10 年中被随机分配接受心脏冠状动脉搭桥手术的病人死亡的机会 为 350/ 1325 = 0 . 264 或 26 . 4 % ,我们称它为危险 y 。死亡的相对危险度 , 即 : 与内科治疗对照组比较 ,外科手术的死亡危险是 y/ x 或 0 . 264/ 0 . 305 =0 . 87 (87 %) 。相对危险度减少值 ,即手术减少的死 亡危险为 100 % - 87 % (1 - y/ x) = 13 % 。绝对危险减少值 ( 或危险差异) 是外科治疗使10 年 的 死 亡 危 险 减 少 的 绝 对 数 , 即 30 . 5 % -26 . 4 % = 4 . 1 % (0 . 041) 。需要治疗人数 ,即 :平均起来看 ,要在 10 年中减 少一例死亡需要多少病人接受心脏冠状动脉搭桥 术 ,它是绝对危险减少值的倒数 , 即 : 1/ ARR = 1/0 . 041 = 24 。当然 ,比值是另一个表示治疗效应的方法 。再 看 2 2 表 ,你将会看到病人在内科治疗组中病人的 死亡与生存的比是 404/ 921 = 0 . 44 ,在外科组这个值 是 350/ 974 = 0 . 36 。这两个比值的比是 0 . 36/ 0 . 44 =0 . 82 。 计算这些干预效果的公式列在了本文的框图之中 ,它们摘自 Sackett 及其同事最新出版的书中12 。 结局事件可能是人们愿意看到的 ( 例如治愈) ,也可能是人们不希望看到的 (药物的副作用) 。在后一情况下 ,用需要伤害的人数和相对/ 绝对危险增加 值这样的词来表述也许意思更准确 。总结如果认为作者们运用统计方法的能力 (和/ 或学 术上的诚实) 都是万无一失的 ,就可能导致严重的错 误 。在上一页的框图里就列举
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 区域发展对交通运输布局的影响2025-2026学年高中地理人教版必修二
- 餐饮服务质量标准化管理实施方案
- 幼儿早教游戏活动教案设计
- 冷链药品知识培训评价课件
- 银行与担保机构合作风险评估
- 施工企业质量管理体系建立方案
- 煤气防护站日常职责及管理流程规范
- 医院消防安全应急演练方案
- 中考语文全方位知识点归纳
- 冷色和暖色课件
- (2025年标准)分次支付协议书
- 关于奶茶店转让合同范本
- 2025年保税区面试题目及答案
- 乡镇网络安全知识培训课件
- 驾驶员安全培训考试试题及答案
- 《礼仪规范教程》 课件 概述篇 以礼相待 第一课 礼仪的概述
- 2025年新疆焊工理论考试题库
- 2025年工会考试真题附答案
- 财产行为税法培训课件
- 2025年新版期权知识考试题库带答案
- 无锡市公安局梁溪分局招聘警务辅助人员57人笔试模拟试题参考答案详解
评论
0/150
提交评论