(二)科研设计中的误差分析幻灯片.ppt_第1页
(二)科研设计中的误差分析幻灯片.ppt_第2页
(二)科研设计中的误差分析幻灯片.ppt_第3页
(二)科研设计中的误差分析幻灯片.ppt_第4页
(二)科研设计中的误差分析幻灯片.ppt_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、科研设计中的误差分析,第一节流行病学研究基本思维方法,一、研究的外部真实性与内部真实性 1外部真实性:指研究样本的结果和结论可以外推到研究的总体人群。遵循随机抽样原则和避免产生严重的选择偏倚是保证样本代表性的重要措施。 2内部真实性:指研究样本的结果真实可靠。严格控制和减少测量偏倚和混杂偏倚对结果的影响,保证研究结果真实性的关键。,二、误差与偏倚 医学研究中,从研究设计、指标测量、数据分析到结果推论均可因设计和处理不当而产生各种各样的误差(error),其中因人为因素造成的观察结果偏离真实值则被称为偏倚(bias)。,2. 观察偏倚(observational bias or informat

2、ion bias) 3. 混杂偏倚(confounding bias) 当研究某个暴露因素与某疾病的关联时,由于研究中存在某些既与疾病有关联,又与所研究暴露因素有联系的外部因素影响,使暴露因素与疾病真实关联性被人为歪曲,这种导致研究结果存在误差的现象叫混杂。这些外部因素称混杂因素,由它们产生的偏倚称混杂偏倚。,口服避孕药 (OC) 与心机梗死 (MI) 病例对照研究 (未分层的分析结果) - 服未服合计 - 对照 - 合计 - cOR = (39/114)/(24/154) =.20,口服避孕药 (OC) 与心机梗死 (MI) 病例对照研究 (按年龄分层后的结果) - =40岁 - - (+)

3、(-)合计 (+)(-)合计 - 21 26 47 18 88 106 对照 17 59 76 7 95 102 - 合计 38 85 123 25 183 208 - OR12.80 OR22.78 对照:76/178=0.43; MI:47/153=0.31; 40岁:25/208=0.12,三、比较与对照 试验组和对照组间的良好可比性是分析性比较研究的基础,是保证研究结果内部真实性的关键。 1可比性:指比较的各组间在下述方面的一致 (1)影响结局产生的非研究(外部混杂)因素在比较组间分布应相同。 研究(暴露)因素-结局 外部混杂因素,对于观察性研究: 病例对照研究病例组和对照组间,或定群

4、研究暴露组和非暴露组间的外部因素分布频率应该完全相同; 对于实验研究: 临床试验(或人群干预试验)中的治疗(或干预)组与对照组间外部因素的分布频率应该完全相同。,(2) 研究指标定义在任何研究时点、任何研究参加单位或研究者均应该采用相同的指标定义,如病例诊断标准等。 (3) 组间采用的实验室检测方法应该相同。 (4) 组间资料收集方法应该相同。 2统计学推断:以拒绝无效假设和接受备择假设作为判断比较组间有无差异的根据。此外,比较两组95%可信限区间也是精确估计真实差异的重要方法。,四、因果推论 现场观察研究和临床试验或现场实验研究所获得的因素与结局之间的关联,究竟是表面上的虚假联系还是本质上的

5、因果关系,必须经过因果推论的论证。 1. 首先确定研究结果有无偏倚的影响: 存在严重偏倚的研究资料不宜用来进行统计学检验,不能用来确立因果关系。,2. 确定因素与结局是否存在统计学上的关联: 关联性研究获得的结果可做三种解释: (1)真实的效应; (2)机遇(随机误差)所致; (3)由偏倚所致。,统计学检验: 帮助研究者了解该OR、RR或RD值由机遇所致的概率(P值) P 0.05 或 P 0.01: 所获样本的OR、RR或RD值是因机遇而非暴露因素所致的可能性 5%或 1%; P 0.05: 无论是观察性研究还是实验性研究所获的结果,如经统计学检验无显着意义时,不能由此便下结论认为因素和结局

6、之间没有本质的关联或药物无疗效,可能还有样本数量是否足够大的问题需要考虑。,3. 按判断因果关系的原则确定研究结果的因果性质: 任何一项观察性研究或实验性研究所获结果,若要下因果关系的结论,除要保证研究结果不存在任何偏倚的影响和经统计学检验证实存在统计学显著意义外,还必须按严格的判断因果关系的下述法则进行逻辑关系的检验:,原因和结局的时间顺续(temporality) 剂量反应关系(dose response relationship) 联系的强度(strength) 一致性(consistency) 合理性(plausibility) 实验证据(experiment evidence),在有

7、了严格的临床设计并实施后,会得到许多研究所需要的信息,如何运用概率论和数理统计的原理和方法来分析医学信息就是医学统计学的任务了。 统计学是描述、归纳、探索数据分布规律、解释数据的科学和艺术, 也是研究人员合理地、灵活地运用统计学原理和方法, 充分提取试验信息, 深入揭示研究事物客观规律的一种手段。,二、 统计学的内容,1 统计研究设计 2 统计资料的收集、 整理 、 描述和表达 3 统计分析方法的选择 4 统计结果的解释,统 计 研 究 设 计,实验性研究(有干预): 优点: 能够较好地控制非处理因素(即混杂因素)的影响,避免人为造成的偏倚,使要比较的组之间具有均衡性和可比性。 缺点: 如果样

8、本量小时,不能保证非处理因素(即混杂因素)在组间有较好的均衡性和可比性。,对实验因素作有计划安排: 以人为受试对象的称谓 临床试验设计 以动物为实验对象的称谓 实验设计 观察性研究(无干预) 属于调查设计。,实验设计的三要素: 实验因素 实验单位 实验效应,实验设计的四个基本原则: 随机 对照 重复 盲法,实验设计类型: 随机对照试验 (randomized control trail , RCT) 交叉试验 (cross-over design) 队列研究 (cohort study) 病例对照研究(case control study),三、统计学方法,实验设计 资料收集整理 统计分析,参

9、数估计(点估计、区间估计),假设检验:样本均数差数间的显著性检验 样本率的差数间的显著性检验 变量间的回归和相关问题,四、应用中的错误- 1.实验设计,1、随机化概念不清 某文报道“120例肩周炎不同疗法的对比研究”中明确交代病人的分组方法, 即“根据病情和就诊先后顺序分组,每组40人” 。,对差错的分析: 这里显然忽视了受试对象的分组应遵守“随机化原则”的要求。因为随机化是削弱或消除非试验因素对试验结果干扰和影响的重要措施之一。病人就诊的先后顺序,往往暗示其病情不同, 尤其是当病人的病情轻重难以判断时, 若将先来就诊者分为一组, 后来就诊的分为另一组, 则不可避免地引入顺序误差, 从而得出错

10、误的结论。,2、假对照 某人在研究某药物的治疗铅中毒的驱铅效果时,涉及如下试验, 30名铅中毒工人脱离现场后住院治疗的结果 观测指标 治疗前 治疗后 血铅(mg/L) 0.181 0.029 0.073 0.019* 尿铅 (mg/L) 0.116 0.009 0.087 0.010* * 与治疗前比 p0.01 结论: 此药有明显的驱铅作用。,对错误地分析: 本研究试图利用前后对照来说明此药的驱铅效果,统计分析的结果清楚的显示两组之间的差别具有非常显著性。但不能说明此药具有驱铅作用,因为脱离现场后即使不治疗亦有尿铅排出,实际上此研究成了具有“假对照”的研究。,正确的设计: 如果仅有一种治疗方

11、法需要考察其疗效, 就必须有不给于任何治疗的空白对照组。 如果患者都必须接受某种治疗, 就必须具有两种或两种以上的不同治疗方法。,3、对照不全 研究者为研究ADI药物预防肠道传染病的效果,设计如下试验:在甲幼儿园随机抽取大、中、小班儿童各50名组成试验组,服用ADI 药物(剂量按年龄、体重严格计算);在乙幼儿园随机抽取大、中、小班儿童各50名组成对照组,不服用ADI 药物。但两个幼儿园参加此项试验的儿童的饮食、作息时间和体育活动情况是完全相同的。结果发现:甲幼儿园150名儿童肠道传染病的发病率明显低于乙幼儿园150名儿童肠道传染病的发病率(P0.001 )。于是,研究者得出结论:ADI药物有预

12、防肠道传染病的作用。,对错误地分析: 本研究试图利用两个幼儿园并随机设立对照来说明ADI药物有预防肠道传染病的作用。但设计出现了问题,即使两个幼儿园参加此项试验的儿童的饮食、作息时间和体育活动情况是完全相同的,但还有一些目前不了解的影响因素,因此,目前的设计不能得出作者的结论。,正确的设计: 在甲、乙幼儿园分别随机抽取大、中、小班儿童各50名,然后按随机的原则,每个儿童均有相同的机会被分配到对照组或实验组,这样在每个幼儿园的每个班,均有对照组和实验组,已达到均衡可比。,4、 组间均衡性差 在研究耐力训练与提高战士体质的关系时,设计了如下的实验:以血乳酸为主要观察指标,用20名连队的战士按训练方

13、案进行耐力训练,以机关同龄的20名战士为对照,对照组进行日常活动,观察经4周训练后,两组战士进行一定量的运动时血乳酸的变化。 两组战士训练前后血乳酸(mg/L)的观测结果 组 别 训练前 训练后 训练组 38.2 3.5 33.1 3.1 * 对照组 40.0 4.0 38.9 3.5 * 与训练前比 p0.01 ; 与对照组比 p0.01,对错误地分析: 对照组选择不合理,对照组除训练因素外,其它应尽可能与实验组一致,而机关兵和连队的战士由于工作性质的不同,体能的基础可能存在较大的不同,一开始两组就不具备可比性。,正确的设计: 此研究回答了耐力训练提高了战士的耐力, 这种结论是毫无意义的.

14、因为这早已是人们认识到的结论了. 本项目应研究不同训练方案对提高战士体质之间的差别有无显著性意义, 以探索最大限度地提高战士体质的最佳方案. 另外, 分组时应将连队战士和机关战士随机分组, 以达到均衡可比.,应用中的错误- 2.资料表达与描述,1、 统计表的表达 不同溶液冲洗伤口效果比较 试 验 组 对照组 庆大霉素 新洁尔灭 生理盐水冲 生理盐水 (8万单位 洗并服四环 /10毫升) (0.1%) 素3天 冲 洗 总例数 30 30 30 30 感染例数 1 3 5 8 百分比 3.3% 10.0% 16.7% 26.7%,对错误的分析: 1、主谓语位置颠倒 2、表格线条太多,竖线不可用。

15、3、误用“百分比”取代“感染率” 4、无合计数,正确的制表: 不同溶液冲洗伤口的效果 药物分组 感染 未感染 合计 感染率% 庆大霉素(8万单位/10毫升) 1 29 30 3.3 新洁尔灭 (0.1%) 3 27 30 10.0 生理盐水冲洗并服四环素3天 5 25 30 16.7 生理盐水冲洗 8 22 30 26.7 合 计 17 103 120 14.2,2、选用集中趋势和离散趋势指标表达的问题 两组褥疮愈合时间指数对比( ) 组别 愈合时间指数 猪皮组 1.34 2.63 对照组 0.75 1.47,对错误的分析: 本例中由于“愈合时间指数”的标准差大约是均值的2 倍,基本上可以认为

16、此资料是服从偏态分布的,不适合用正态分布法来表达。,正确的表达: 描述偏态分布资料的平均水平应该选用中位数;描述其分布的离散趋势应该选用第一和第三分位数的间距,其形式为“M(QR)”。这里M为中位数, QR=Q3-Q1, Q1 和Q3 分别为第一和第三个四分位数。,3、 “百分比”取代“百分率” 病人手术前后常见心理问题的调查(n=50) 心理问题 人数 百分比(%) 恐惧手术 41 82.0 希望有一个老医生 40 80.0 希望手术后病痛解除 34 68.0 希望手术细心 30 60.0 担心为恶性病变 28 56.0 希望了解手术方案 26 52.0 希望医生多关心 34 68.0 希望

17、亲人陪护 31 62.0 希望护士做好出院指导 29 58.0 担心远期并发症 25 50.0 担心手术成功 17 34.0 担心丧失工作能力 11 22.0,对差错的分析: 本例中试图说明在每个问题中回答“是”的率是多少,但错误的用百分比定义了百分率. 百分比: 反映一事物内部各组成部分在总量中所占的比重. 百分率: 反映某一现象的发生强度. 此处描述的是“各种心理问题”的发生强度,所以原表中的“百分比”应改为“百分率”.,4、以比代率 有刊物报道, 某厂调查纺织女工子宫下垂者为132人, 其中115人为站立工作者, 占87.12%; 坐着工作的有17人, 占12.88%。 结论为“ 站立工

18、作是子宫下垂的患病因素”。,应用中的错误 3. 假设检验,1、忽视 t 检验的前提条件 胰岛素治疗前、后、差值(微单位/ml)比较 指 标 N Mean 标准差 t P 治疗前 对照组 21 5.33 1.96 0.606 0.548 研究组 20 5.86 3.41 治疗后 对照组 21 21.44 18.15 0.724 0.473 研究组 20 16.38 26.12 前后差值 对照组 21 16.11 17.92 0.795 0.431 研究组 20 10.52 26.48,对差错的分析: 在这项研究中,可以看出 1.两组治疗后的标准差均大于均数; 2. 研究组的变异大于对照组很多.

19、这里使用t检验显然是不合适的. 虽然“个体之间的独立性”可以满足,但样本来自正态分布总体和两总体方差相等的前提条件尚得不到满足. 本题目错误的应用参数检验的方法分析, 导致错误的结论.,正确的方法: 指 标 N Mean 标准差 z P 治疗前 对照组 21 5.33 1.96 0.026 0.979 研究组 20 5.86 3.41 治疗后 对照组 21 21.44 18.15 2.465 0.014 研究组 20 16.38 26.12 前后差值 对照组 21 16.11 17.92 2.635 0.008 研究组 20 10.52 26.48 本检验用Wilcoxon 检验,为确定老年人

20、围手术期头孢唑啉钠的 和利用法合用量,某研究小组对老年人与60岁以下者的头孢唑啉钠药物动力学特征分别进行了测量,得到如下结果: 组别 (h-1) k10 (h-1) 老年组(n=7) 0.62130.1177 0.28560.0427 60 岁(n=5) 3.55053.5553 0.82573.5329 成组t检验 t 1.84 1.60 p 0.05 0.05,标准差大于均数 资料不符合正态分布 3. 方差不满足齐性要求,2、 错误使用 t 检验 胃癌或巨型胃溃疡13人, 在实行全胃切除术前后的体重(kg)如下:试比较手术前后体重有无变化? 术前 42.5 48.0 39.0 46.0 5

21、8.5 47.5 39.0 58.0 51.0 43.0 38.0 50.0 57.5 术后 52.0 51.5 45.0 52.5 49.0 55.0 52.0 52.0 50.5 50.0 41.0 51.5 72.2 本题目经 t 检验,得到 t = 1.536 p = 0.138 , 于是得到手术前后体重无显著性变化的结论。,对错误的分析: 本项目本身用的设计是自身治疗前后的两次测定,用选用配对 t 检验的方法。 Group Statistics N Mean S. D S. E 术前 1347.53857.2585 2.0131 术后 1351.86157.0875 1.9657 而

22、错误的选用独立样本检验时加大了误差,计算 t = 1.536 p = 0.138,使本来差异有显著性的变为无显著性。,按配对设计进行的检验结果 Paired Samples Statistics N MeanStd. DeviationStd. Error Mean Pair 1疗前13 47.5385 7.2585 2.0131 疗后13 51.8615 7.0875 1.9657 Paired Differences MeanStd. DeviationStd. Error Mean t Sig. (2-tailed) -4.3231 6.8671 1.904 -2.27 0.042 统计

23、结果:p0.05 手术前后体重有显著性变化,术后体重增加。,3、 t 检验代替方差分析 测量三组人的舒张压(mmHg),数据如下: A 组 B 组 C 组,NMean Std. DeviationStd. Error 10135.3 4.37 1.38 10138.2 4.18 1.32 139.6 2.63 .83,组别 t p 1-2 1.515 0.147 1-3 2.664 0.016 2-3 0.895 0.382,t 检验与方差分析的比较,比较的内容 t 检验 方差分析加q检验 资料的利用率 低:每次仅用两组 高:每次要用全部数据 对原试验设计的影响 残:割裂了整体设计 全:与原试

24、验设计呼应 犯假阳性错误的概率 大:1-(1-0.05)n 小:= 0.05 结论的可靠性 低:统计量的自由度小 高:统计量的自由度大 df=n1+n2-2 组内误差的自由度,4、重复测定数据的处理 重复测量资料系指同一受试对象的某项观测指标进行多次测量所得的数据。 这类数据间往往有相关性存在,违背了方差分析要求数据满足独立性的基本条件。此时若用一般方差分析方法,将会增大犯I类错误的概率。 单因素重复测量资料的方差分析 1、方差分析方法同随机区组资料的方差分析。 2、两两比较时可进行两组资料之间的配对t检验,但检验水准需进行转换, =/k, k 是进行两两比较的次数,两种不同剂型在血中的浓度(

25、g/ml) 剂型 受试者 服药后测定时间(j) (i) K 1h 2h 4h 6h 8h 1 胶 2 囊 3 组 . I=1 8 片 1 剂 2 组 3 I=2 . 8,方差分析表 变异来源 离均差平方和 自由度 F p 组间(剂型) 2635.81 1 4.03 0.0645 组内(时间) 41880.79 4 50.77 0.0001 剂型 时间 951.19 4 1.15 0.3413 (剂型)对象 9163.55 14 误差 11548.64 56 合计 66179.98 79 经过调整系数 统计学推断:不同剂型药物的血液浓度间的差别无统计学意义,不同时间的血药浓度间的差别有统计学意义

26、,剂量与时间之间无明显的交互作用。,应用中的错误 4. 相关和回归的应用,研究在专业上有一定联系的两个定量变量之间呈直线关系的密切程度和方向的统计分析方法称为直线相关分析。 相关分析: 1、计算相关系数 r 2、对相关系数进行检验 3、结合专业知识,评价此相关方法是否有临床实用价值 4、计数资料用Spearman秩相关,研究在专业上有一定联系的两个定量变量中一个变量随另一个变量变化的依赖关系的统计分析方法称为直线回归分析。 依据自变量的个数回归分类为: 自变量仅有一个时为一元回归分析 自变量有多个时为多元回归分析 若自变量个数相同,但同时考察有联系的多个应变 量时,称为多重回归分析。,为研究小

27、鼠S78-3 肉瘤体积Y(cm3) 随时间X(日)增长规律, 将以下数据 回归分析, 所得结果如下: 时间(日) 0 6 9 11 13 15 17 19 21 23 25 27 29 31 肉瘤体积 0.0042 0.0308 0.0614 0.0744 0.1028 0.1516 0.2101 (cm3) 0.3390 0.5201 0.7623 1.1020 1.5690 2.0214 2.7661 Y = -0.7178 + 0.00803 x t = -2.527 p = 0.027 r = 0.849,若按因变量的性质分类为: 因变量为连续性变量时 为非时间的连续性变量(如:身高、

28、体重、血压、胆固醇含量等),可用一元、多元回归分析,可直线化的曲线回归分析等。 为时间变量(如:患者治疗后的生存时间、复发时间等等),需要运用生存分析中的回归分析方法,如COX半参数回归分析或特定的参数回归模型进行分析。 为随时间变化的连续型随机变量(如:某种流行病的发病率等),则通常运用时间序列分析。,因变量为离散性变量时 为二值变量(如:患者经过治疗后在规定的一段时间内存活情况,常分为“生存”、“死亡”两种情况,患者经过治疗后在规定的一段时间内复发情况,常分为“复发”、“未复发”两种情况,等等)此时,若自变量多为连续性变量,可考虑选用多元逐步Logistic回归分析;若自变量多为定性变量,可考虑选用有序变量的多元逐步Logistic回归分析。 为多值有序变量(如:患者经过治疗后的疗效,分为治愈、显效、好转、无效、死亡;糖尿病患者经过一段时间治疗后血糖的测定结果可分为、,等等)此时可用有序变量的多元逐步Logistic回

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论