




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、常见统计学错误与纠正 - 设计与分析,方积乾 中山大学公共卫生学院 医学统计与流行病学系 2013年12月,1. 终点指标过多, 大海捞针,临床试验时,不知道哪个指标在组与组间有差异; “确定某个指标后,万一组间没有差异,岂不被动!” 生理、生化、组织学、基因,都做; “内容丰富,显得水平高!” 许多仪器一下子可以做许多项目; “许多项目一一分析,哪个有意义,就报告哪个指标标”,错在哪里?,哪些指标可能有组间差异,必须心中有数。 科研的结果应当预见 假说是科研的灵魂 心中无数,不要“先上马再说” 指标多,实验工作量大。 大海捞针 碰运气,不是科研 指标多,翻来覆去分析,制造假阳性 Nature
2、杂志统计学指南:常见错误之一,为何翻来覆去分析,会制造假阳性?,Nature常见错误之一,多重比较: 对一组数据作多项比较时,必须 说明如何校正 水平,以避免增大第一类错 误的机会,应当如何?,主要终点(primary end point) :只能一个 次要终点(secondary end point) : 可以几个, 但勿过多 Bonfferoni 校正 当同一组数据同时作k次分析时,若限定 犯假阳性错误的概率总共不超过 , 则每次分析要用 来控制假阳性的概率。 例,事后分析(Post hoc analysis) 看到数据之后才想起来做的分析 其结果往往不能被进一步研究所确认 不鼓励事先并未
3、计划的亚组分析和校正分析,2. 事后分析,见机行事,为何不鼓励事后分析?,数据是现象,现象具有偶然性; 看到数据后进行的“分析”属于故作姿态,变偶然为“必然” 忽悠! 看到数据后增加的“分析”,也属于多重分析,增加假阳性的机会,必要的亚组分析有助于发现适应症,指导 个体化治疗;必要的校正分析有助于消除 混杂偏倚,公平、公正地比较疗效 亚组分析和校正分析必须事先在研究计划 里规定,并说明理由;写文章时,申明这 类分析是事前计划好的 事后决定做的分析,如果想写,不能算是 正式结果,只能视为探索性分析。,应当如何?,3. 随机化,说而不做,做而不严,处理分配的随机化为什么这么重要? (1) 消除分配
4、处理有意或无意的偏倚。 (2) 为实施盲法创造条件。 (3) 使有可能利用概率论来描述各干预组之间的差异有多大可能仅仅是由偶然性造成的。 将随机化当作“廉价名词”,实际没做,却写“随机分成两组” 科研道德?,说错和做错,将随机化当作“廉价名词”,实际没做,却写“随机分成两组” 科研道德? 将“随意分组”当作随机化 将“机械分组”当作随机化 略去筛选过程,简单地报告将多少人随机分组 略去实施过程中丢失对象,将最后两组人数说成是随机分组人数,应当如何?,成功的随机化取决于: (1) 产生一个不可预见的分配序列; (2) “隐蔽” (allocation concealment )这个序列,直到分配
5、完毕(必须建立一个分配处理的系统) 。 报告如何随机分组,如何“隐蔽” :谁做随机序列,谁收病人,谁分药和发药;分组方案如何保管,参加者的流程图 (强烈推荐),4. 样本量随意决定, 无依据,样本量太小? - 真理应经得起重复 研究的功效太低 样本量越大越好? - 时间长、经费不足 不能保证数据质量 需要事先估算最小样本量 论文必须报告估算最小样本量的根据,比较两组测定值的均数,欧洲对比剂研究,(1)预计欲比较的两总体参数的差值 (2)预计总体标准差 (3)允许出现假阳性结果的机会 (4)允许出现假阴性结果的机会,欧洲研究的样本量估算,决定每组含61名患者。,比较两组发生某结局的百分比,(1)
6、预计两组发生某结局的百分比约为 (2)允许犯假阳性错误的机会 (3)允许犯假阴性错误的机会,南韩研究,南韩对比剂研究,南韩研究的样本量估算,5剂量-反应关系 不能作均数比较或回归,例 有人分析蛇毒因子(CVF)的剂量对血液白细 胞噬菌率的影响,得如下数据,欲讨论剂量-反应 关系。,做法 1:单因素方差分析?!,F=0.701,P0.5, 均数间差别无统计学意义 为什麽不对? 有负初衷 探讨反应随剂量变化的趋势 * 由多个剂量组的比较只能得知均数间是否有差异 * 有统计学差异也不等于有剂量-反应关系,做法 2: 反应的均数关于剂量作回归分析 ?!,为什麽不对? 均数做因变量造成“好”的假象 !
7、* 回归方程是否有统计学意义与反应的变异状况有关 * 以诸个体反应值的均数作回归计算, 掩盖变异性,回归方程: Y=61.786 - 6.886 log(剂量) 决定系数: R2=0.914。,正确作法:用个体资料作回归分析,回归方程: Y = 61.782-6.884 log(剂量) 决定系数: R2=0.095 回归方程无统计学意义,无剂量-反应关系!,6. 重复测量资料不能时点间两两比较,例 各取7只兔子,分别以正常食物和待研究食物喂 养,在实验前、喂养5周、10周后,各取血测量其中 胆固醇浓度,自然对数转换后, 数据见表22.1, 问血清 胆固醇浓度随时间变化的趋势是否受该食物影响。,
8、例 某药物有新、旧两种剂型。为比较两种剂型的 代谢情况,对16例某病患者服药后0、4、8、12小 时的血药浓度作了测量,问该药新旧两种剂型的 血药浓度-时间曲线的差别是否具有统计学意义。,常见的不妥,i)对每个时间点,分别计算均数、标准差; 将各时间点测量值的均值用线连接,标出“误差”线 ii)在各时间点做两组比较 ( t 检验或非参数检验),为什麽不对?,(1)连接各时间点测量值均数的方法将掩盖个体曲线位置和形状的特点: 各均数所对应的点连起来形成的曲线形状可能与诸个体的曲线形状毫不相干; 各时间点标上相应的标准差也会误导; (2)上述方法无法体现不同时间点的数据来自同一个体,而每一个体的多
9、次重复测量值间具有相关性。(关键所在),应当如何?,1)综合指标法(summary measures approach) 或 派生变量法(derived variable approach) 采用少数独立的综合指标来概括每个个体多个时间点的测量值; 用单变量方法比较各组的差异,综合指标,2)重复测量资料的方差分析,先做“球形检验: 不同时间点上数据之间没有相关性? 任何两个时间点之间的相关性都一样? 得阴性结果才进一步作方差分析。 例 兔子喂养重复测量资料分析 处理因素(group):F=31.69,P=0.0001 食物对家兔血清胆固醇有影响; 2) 测量时间(time):F=11.93,P
10、=0.0003 家兔血清胆固醇浓度随时间变化; 3) 交互效应(timegroup):F=10.57,P=0.0005 不同食物,血清胆固醇浓度变化趋势有所不同。,7. 多维列联表资料不可反复做 检验,例 某地区呼吸系统疾病的患病率较高,有人怀 疑与当地室内点香的习惯有关,经抽样调查,得 数据如下,合并后作检验 ?!,为什麽不对?,i) 点香与不点香者患病率不可比! 年龄组合并掩盖了: 点香(B1)与不点香(B2)者年龄结构不同 ii) 不同年龄组患病率不可比! 点香与不点香者合并掩盖了: 不同年龄组中点香与不点香者比例的不同,正确作法: 对数线性模型或 logistic 回归,i) 对数线性
11、模型 平等地讨论A,B,C三因素对各格子中频数的影响 仅当其他变量的影响与某变量无关时,才可通过合并消除该变量 ii) logistic回归 反应变量: 患病与否,解释变量: 点香和年龄 交互效应: 点香年龄,8. 中西医结合疗效研究,应设 4 组,不少人作两组比较: 试验组:西药A和中药B 对照组:西药A 若 (西药A和中药B) 疗效 西药A 疗效 能说 中西医结合好吗?,不妥之一,如果 (西药A和中药B) 疗效 西药A 疗效 能说:“在西药A存在情形下,中药B有疗效”吗? 人们质疑:“中药B的疗效可能是安慰效应!?” 于是,修改为:试验组:西药A和中药B 对照组:西药A和中药安慰剂,不妥之
12、二,若 (西药A和中药B) 疗效 (西药A和中药安慰剂) 疗效 则可以说: “在西药A存在情形下,中药B有疗效!” 但是,人们要问: 在西药A不存在情形下,中药B有疗效吗? 由此,足以认为中西医结合好吗?,应当如何? 析因设计!,试验组1:西药A和中药B 试验组2:西药A和中药安慰剂 试验组3:中药B和西药安慰剂 对照组:中药安慰剂和西药安慰剂 若 (西药A和中药B)疗效 - 对照疗效 (西药A和中药安慰剂)疗效 - 对照疗效 + (中药B和西药安慰剂)疗效 - 对照疗效 则说:中西医结合疗效比单独疗效之和还大!,换一个角度看,若 (西药A和中药B)疗效 - 对照疗效 (西药A和中药安慰剂)疗
13、效 - 对照疗效 + (中药B和西药安慰剂)疗效 - 对照疗效 改写为: (西药A和中药B)疗效-(中药B和西药安慰剂)疗效 (西药A和中药B安慰剂)疗效- 对照疗效 中药B存在情形下,西药A的疗效 中药B不存在情形下,西药A的疗效 则说:中药B的存在使西药A的疗效有所增加!,析因设计可以告诉我们什么?,西药A的作用 中药B的作用 西药A和中药B的协同作用 若 西药A和中药B的协同作用 0 才说: 中西医结合好!,例:某中西结合研究 22析因试验结果 (均数),两因素间交互效应(interaction),小结,终点指标不宜过多, 大海捞针,很可能捞 上个假阳性。 马后炮分析不足取,事先计划的分
14、析才可信;不论干预性研究还是观察性研究,都要事先到国际网站注册,以接受同行监督。 随机化是国际公认的消除选择偏倚的好办法,不可作为廉价名词,随便说说;说而不做,做而不严,自欺欺人。,小结,4. 干预研究的论文要报告样本量估算的依据和方法;对不同的设计,样本量估算的方法不同。 5. 剂量-反应关系既不能通过均数间比较,也不能用均数对剂量的回归来反映趋势,要用原始的反应值对剂量作回归。,小结,6. 在多个时点对同一个体进行观察,得到的重复测量资料能较好地反映个体的状况;要反映时间趋势,既不能作逐个时间点比较,也不能作回归,因为同一个体不同时点的观察资料互不独立。可用几个综合指标逐一进行单指标分析或可用重复测量资料的方差分析(先做球形检验) 7. 多维列联表资料不能盲目合并后反复做 检验,可用对数线性模型或 logistic回归模型研究分类变量间关系。,小结,8. 中西医结合疗效研究,通常只设两组: (西药
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2030年中国印花机行业市场深度研究及投资战略规划报告
- 2025年中国电烤炉市场运营态势及发展前景预测报告
- 2024年全球及中国云标签管理系统行业头部企业市场占有率及排名调研报告
- 2025年中国轨道射灯行业市场评估分析及发展前景调研战略研究报告
- 宁波拓炫光电科技有限公司介绍企业发展分析报告
- 企业级办公区域的安全监控系统投资方案
- 个性化学习平台在远程教育中的实践与思考
- 智慧城市服务在商业创新中的应用
- 租用马匹管理办法规定
- 工程施工安全应急预案方案
- DB32T 4174-2021 城市居住区和单位绿化标准
- 基本原理与性能特点多自由度电磁轴承课件
- Q∕SY 1836-2015 锅炉 加热炉燃油(气)燃烧器及安全联锁保护装置检测规范
- 北京输变电工程标准工艺应用图册(图文并茂)
- 仪器使用记录表
- 三相负荷(380V)及单相(220V)最大供电距离计算表及电压降计算表
- 《汽车电工电子技术》全套教案(完整版)
- 国家职业技能标准 (2021年版) 婴幼儿发展引导员
- 计算机网络专业毕业论文:网上鲜花销售系统的设计与实现
- 伯杰氏细菌系统分类学手册
- 班组计件承包协议书
评论
0/150
提交评论