医学科研设计与统计学思维ppt课件.ppt_第1页
医学科研设计与统计学思维ppt课件.ppt_第2页
医学科研设计与统计学思维ppt课件.ppt_第3页
医学科研设计与统计学思维ppt课件.ppt_第4页
医学科研设计与统计学思维ppt课件.ppt_第5页
已阅读5页,还剩84页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医学科研设计与统计学思维,没有设计的临床干预试验1685年抢救英国国王查理二世(CharlesII,1630-1685):“一品脱(0.568L)血从右臂放出,半品脱血从左肩放出,服下催吐剂、两付汤药和一种由15成份的灌肠剂。刮国王的头部,直到起一个大泡。再服打喷嚏的药粉和更多的催吐剂。继续放血,加服止痛剂。把沥青和鸽子粪混合后敷于脚上。服一种含有10种成份的草药。最后服人头盖骨粉制成的40滴糖浆,外敷牛黄。然后,国王陛下死了。”,有设计的临床干预试验1747年5月20日,英国的J.Lind医生将12名病情相同似的患者带到一艘船上。患者的主要症状是牙龈溃烂,皮肤有出血点,双膝无力。Lind将12名患者分为6组,分别给予下列主要干预:A组:每天饮1夸脱(1.136L)苹果汁;B组:服25滴硫酸丹剂(elixirvitriol),每天3次;C组:服2匙醋,每天3次;D组:每天饮约半品脱海水,服缓和的泻药;E组:每天食2个桔子,一个柠檬;F组:每天服由大蒜、芥子等成份组成的干药。当6月16日船返回英国Plymouth港时,所有患者的病情都有好转,其中E组恢复的最快、最好,其中一人到第6天就可以工作了。B组也有一人比登船时健康。Lind医生的试验并没有得出明确的结论,直到160年后,通过动物实验才真正从科学意义上解释了E组疗效最好的真正原因。,J.Lind医生的研究有二点符合统计学的设计:1、设立了对照(相互对照);2、质量控制(消除了一些混杂)。如果我们今天重复J.Lind的研究,在统计设计的上还需要做到以下几点:1、研究对象的定义与纳入标准和排除标准2、足够多的观察对象3、效应指标的选择4、结论是否能外推,“非常痛心地看到,因为数据分析的缺陷和错误,那么多好的生物研究工作面临着被葬送的危险”F.Yates,M.J.R.Healy,医学论文中的统计问题统计知识的运用撰写论文:报告自己观察或实验的研究结果阅读论文:吸收新知识,了解学术进展1996年,对申报科技成果的4586篇科研论文分析,统计方法使用率为76%。医学论文中统计运用错误,除了影响论文的科学性,还可能导致严重的伦理学问题。,统计学方法用于干预试验1835年,法国医生P.C.A.Louis对当时流行的“放血”疗法治疗肺炎的效果进行了比较,发现“放血”的疗效不象预期的那么好,而且早期“放血”和晚期“放血”组比较,患者的诊断、病情、病程、年龄等方面的差异很大,比较平均治愈时间意义不大。因为晚期“放血”组的平均治愈时间长,但该组患者病情重、病程长、年龄大。Louis对医学研究的方法学作出了很大贡献:(1)用数字的方法表示不同疾病患者的特征和预后;(2)提出了临床疗效对比的前瞻性原则;(3)提出抽样误差和混杂(confounding)概念。其中前瞻性研究和减少混杂,分别成为当今临床试验和流行病学研究的基本研究方法;(4)在J.Gavarret的协助下,Louis的数字方法发展为“概率框架”,Gavarret也于1840年在巴黎出版了世界第一部医学统计学教科书。,“非常痛心地看到,因为数据分析的缺陷和错误,那么多好的生物研究工作面临着被葬送的危险”F.Yates,M.J.R.Healy,医学论文中的统计问题统计知识的运用撰写论文:报告自己观察或实验的研究结果阅读论文:吸收新知识,了解学术进展1996年,对申报科技成果的4586篇科研论文分析,统计方法使用率为76%。医学论文中统计运用错误,除了影响论文的科学性,还可能导致严重的伦理学问题。,“调查结果反映了医学论文作者统计知识和统计水平的低下,也再次强调了生物统计学者不是令人生畏的检查官。恰恰相反,生物统计学者是我们的可贵盟友。生物统计学不是远离我们的数学,而是现代医学的一门基本学科,就像大厦中的一个支柱”-JAMA的编辑部,60年代到80年代,国外医学杂志调查结果:有统计错误的论文20%72%。1984年对中华医学杂志、中华内科杂志、中华外科杂志、中华妇产科杂志、中华儿科杂志595篇论文的调查结果:相对数误用为11.2%抽样方法误用15.9%统计图表误用11.7%1996年对4586篇论文统计(中华医学会系列杂志占6.9%),数据分析方法误用达55.7%。,科学容不得半点虚假,造假者一旦被揭露就背上了永远洗脱不掉的耻辱。,伪造统计数据违反科学道德据1976年NewScience杂志关于科研舞弊行为的调查74%的调查表反映有不正当修改数据的情况,其中,17%拼凑实验结果,7%凭空捏造数据,2%故意曲解结果。就统计学本身来说,正确实验设计得出的统计结果,是用P值作为“重现性”的概率保证。P0.05,就是说实验结果显示的差别是机遇所致的可能性不足5%,或者说,别人在同样的条件下重复同样的试验,得出相反结论的可能性不足5%。,1.采用统计学方法,发现不确定现象背后隐藏的规律。变异(variation)是社会和生物医学中的普遍现象。变异使得实验或观察的结果具有不确定性,如每个人的身高、体重、血压等各有不同。,一、为什么要学统计学?,最大值=6.18,最小值=3.29,极差=2.89。算术均数=4.72,标准差=0.57。,2.用统计学思维方式考虑有关医学研究中的问题“阳性”结果是否是虚假联系?某感冒药治疗1周后,治愈率为90%,能否说该感冒药十分有效?“阴性”结果是否是样本含量不足?有人曾对发表在Lancet,NEnglJMed,JAMA等著名医学杂志上的71篇阴性结果的论文作过分析,发现其中有62篇(93%)可能是由于样本含量不足造成的假阴性。,如:当专业上有一定联系的两个变量之间的变化呈“S型”或“倒S型”曲线趋势时,若错误地用直线方程去描述,从统计学角度看效果也很好,但在专业上是解释不通的。再比如,某两个统计量(如均值、率等)之间的差别在统计学上有显著性意义,有时在专业上并无实用价值。如某种新的降压药,平均降低血压2mmHg,若样本含量较大,误差又较小,统计检验可能会得到“P0.05”的结果,但在临床上却认为此新药的疗效没有多大提高。另外,在运用统计学中,稍有不慎都可能犯这样或那样的错误。因此,统计结论的可靠性仍需通过实践去检验。所以,应当牢记:运用统计学时必须结合医学实际,才能真正发挥统计学应有的作用。,例:某医生用一种新的治疗某病的疗法(简称治疗组),用现在公认的疗法作为对照(简称对照组),经临床试验,对照组和治疗组的疗效分别为P1=75%与P2=95。问:能认为这两个有效率之间的差别有显著性意义吗?答:这两个有效率之间的差别可能有统计学意义,也可能没有统计学意义。因为其结论不仅取决于二者之差的绝对值大小,更主要的是取决于随机误差的大小和样本大小,千万不可轻率地作出统计推断。现假定这两个有效率分别来自下列甲、乙、丙三批实验的结果,则具有下列3种不同的统计检验结果(表11)。,表1、两个有效率的比较,甲实验中,P1与P2之间的差别无统计学意义(校正2=1.765,P0.05)乙实验中,P1与P2之间的差别有统计学意义(26.275,0.01P0.05);丙实验中,P1与P2之间的差别也有统计学意义(29.412,P0.01)。,3.保证你的研究论文能通过统计学审查据国外6080年代对不同医学杂志发表论文的调查,有统计错误的论文的百分比最高达72%,最低也有20%。国内1984年对中华医学杂志、中华内科杂志、中华外科杂志、中华妇产科杂志、中华儿科杂志595篇论文的调查结果,相对数误用为11.2%,抽样方法误用15.9%,统计图表误用11.7%。某研究者1996年对4586篇论文统计(中华医学会系列杂志仅占6.9%),数据分析方法误用达55.7%。,2019/12/5,JAMA,新英格兰医学杂志(NEJM)、英国医学杂志、中华医学会杂志对来稿都有统计学要求或统计学指导。国际生物医学杂志编辑协会在其生物医学期刊投稿的统一要求中也包含了统计学要求。UniformRequirementsforManuscriptsSubmittedtoBiomedicalJournals,中华医学杂志对来稿中统计学处理的有关要求1统计研究设计:应交代统计研究设计的名称和主要做法。如调查设计(分为前瞻性、回顾性或横断面调查研究);实验设计(应交代具体的设计类型,如自身配对设计、成组设计、交叉设计、析因设计、正交设计等);临床试验设计(应交代属于第几期临床试验,采用了何种盲法措施等)。主要做法应围绕4个基本原则(随机、对照、重复、均衡)概要说明,尤其要交代如何控制重要非试验因素的干扰和影响。2资料的表达与描述:用x和s表达近似服从正态分布的定量资料,用M(Q)表达呈偏态分布的定量资料;用统计表时,要合理安排纵横标目,并将数据的含义表达清楚;用统计图时,所用统计图的类型应与资料性质相匹配,并使数轴上刻度值的标法符合数学原则;用相对数时,分母不宜小于2O,要注意区分百分率与百分比。3统计分析方法的选择:对于定量资料,应根据所采用的设计类型、资料所具备的条件和分析目的,选用合适的统计分析方法,不应盲目套用t检验和单因素方差分析;对于定性资料,应根据所采用的设计类型、定性变量的性质和频数所具备的条件以及分析目的,选用合适的统计分析方法,不应盲目套用2检验。对于回归分析,应结合专业知识和散布图,选用合适的回归类型,不应盲目套用简单直线回归分析,对具有重复实验数据的回归分析资料,不应简单化处理;对于多因素、多指标资料,要在一元分析的基础上,尽可能运用多元统计分析方法,以便对因素之间的交互作用和多指标之间的内在联系进行全面、合理的解释和评价。4统计结果的解释和表达:当P005(或P40岁”3个组,进而按“性别、年龄分组、献血与否”3个定性因素编制统计表,见表81。性别和年龄分组进行组合,共有6种情况。然后,用t检验比较每种情况下的献血者与对照者骨矿含量均值之间的差别是否有显著性意义。,表81按性别和年龄分组后献血者对照者骨矿含量的均值和标准差,(2)差错的分析:年龄本是一个定量的观测指标,最好直接利用,可提供更多的信息。原作者将年龄分为3组,有人为因素的作用。因为分组方式不同,结果就可能不一样。从合理编制统计表的角度看,表的标目安排欠妥。因为受试对象的属性分组(即献血者与对照者)是本研究中的主要定性因素,未将它置于表的醒目位置上。修改后的表见82。,表82献血者与对照者的性别、年龄及骨矿含量的均值和标准差,统计分析方法选用得很不合理。因为根据表中所列的项目看,骨矿含量的高低至少受到3个因素(即是否献血、性别、年龄)的影响。在由性别与年龄组合而形成的6个组中分别进行t检验,似乎消除了性别和年龄的影响,很合理,但无法考察因素之间的交互作用,况且,进行多次t检验,会明显增大犯假阳性错误的概率。从实验设计的角度看,也存在问题。鲜血者年龄大的人数较少,而对照者中年龄大的人数较多,受试对象在年龄组间的人数构成上均衡性较差。,(3)释疑:本资料若按上表形式选用统计分析方法,应选用三因素析因设计资料的方差分析(资料需满足正态性和方差齐性,否则,应设法进行变量转换),以便考察因素之间的交互作用。若在专业上有理由认为三因素对骨矿含量的影响有主次之分,就应将其看作是三因素系统分组(或嵌套)设计,并运用相应的方差分析方法处理资料。若原始资料未丢失,最好按表83的格式整理资料。,对于像表83这样的原始资料,最适合运用计算机处理数据。若分析的目的是为了比较鲜血者(符号为“y”)与对照者(符号为“n”)骨矿含量均值之间的差别是否有显著性意义,同时希望排除性别(定性因素)和年龄(定量因素)的干扰和影响,就应当选用成组设计资料的多元协方差分析;若分析的目的是为了根据“献血与否”、“性别”、“年龄”的不同取值,去预测骨矿含量,并进一步考察这3个变量在预测骨矿含量上是否有显著性意义,就需要选用多元线性回归分析;若通过前述方法分析后得知献血者与对照者的骨矿含量之间的差别具有显著性意义,其数量在专业上也是不可忽视的。此时,还可运用判别分析建立判别函数式,用以判别一个新的个体属于鲜血者还是对照者,其方法是将此新个体的性别、年龄和骨矿含量(假定它们都是具有显著性判别能力的指标)数据代入已求得的判别函数,根据其计算结果便可作出判别。,表83献血者与对照者的性别、年龄和骨矿含量的测定结果,实例二忽视t检验的前提条件,(1)原先的设计、资料、统计分析方法、结果和结论:原作者将直肠癌根治术后会阴伤口感染的42例,按随机法分喷氧组(A组)21例,常规换药组(B组)21例,经治疗后观察伤口愈合时间。结果见表84。原作者采用t检验,结论是:A组伤口愈合时间平均9.48d,B组伤口愈合时间平均22.57d,A组与B组伤口愈合时间平均缩短13d,经统计学t检验p0.001,有显著性差异。,表84A组与B组治疗结果,(2)对差错的分析:资料不符合作t检验所要求的两个前提条件,即“正态性及方差齐性”。(3)释疑:将原计量资料转化有序列联表资料(表85)。因B组内有9例患者“伤口愈合时间”不够具体,无法按定量资料来作统计分析;又因为两组的例数都较少,故采用秩和检验较合适。得:HC15.9495,P0.0001,可以认为两组的伤口愈合时间之间的差别有非常显著性意义,具体地说,B组伤口愈合天数较长。,表85A组与B组伤口愈合情况比较,五、多变量分析与单变量分析多变量分析是对m个反应变量进行一次假设检验(HotellingT2检验或MANOVA),对组间差别作出推断。在大多数情况下,多变量假设检验结论与对m个反应变量进行m次单变量假设检验(t检验或ANOVA)的结论是一致的,即多变量假设检验拒绝H0,m次单变量假设检验至少有一次拒绝H0,SPSS、SAS等统计软件也是先给出多变量假设检验结果,再给出单变量假设检验结果,作为多变量分析的补充。,例:某妇幼保健院将孕妇随机分两组,一组接受孕期保健教育,另一组作为对照。表14-3是同一日出生的13名顺产婴儿的体重和身长,问孕期保健教育对婴儿生长发育有无促进作用?表中用两个指标反映婴儿的生长发育状况,通过孕期保健教育组和对照组婴儿样本均数比较,推论两组总体均数1和2是否相等,进而得出孕期保健教育对婴儿体格发育有无影响的结论。,体重:t=2.35,p=0.038身高:t=1.99,p=0.071,理论上单变量假设检验不能代替多变量假设检验,主要理由:m次单变量假设检验增加假阳性错误的概率,设每次单变量假设检验的检验水准定为a,做完m次检验I类错误的概率增加为am1-(1-a)m。单变量假设检验只说明某一变量在数轴分布上的组间差别,不能反映多个变量在平面或空间上的差别,两者的意义不同,各自说明各自的问题,不能相互代替。如表14-8的两组数据,分别对两组新生儿出生时的体重与身长做单变量t检验:体重t=2.35,p=0.038,身长t=1.99,p=0.071,结论不明确。但多变量的HotellingT2检验:T2=9.87,F=4.58,P=0.03,拒绝H0:1=2,两组在平面分布上差别如图14-1所示。,二组的平面分布,二组的空间分布,六、充分利用现有的监测或体检数据,信息量大(范围广、指标多)时间跨度长缺乏系统设计无质量控制缺省值多不能满足特定的研究,体检数据实例:,高血压监测数据:,(一)、分析的计划和步骤1、资料的整理原始数据往往是不能直接进行分析的,根据资料的类型和目的,将资料整理成所需要的形式。整理过程包括:(1)、原始体检表格的整理、核对。(2)、资料数据库的建立和资料输入根据样本大小可选择合适的软件建立数据库,资料输入时最好设计能自我纠错的功能,资料输入需要恰当的编码。2、统计描述描述体检对象的一般特征,如计算不同年龄、性别、职业、疾病类型的构成比,计算疾病发病频率指标、患病频率指标、死亡频率指标等等。3、统计推断统计推断主要是计算相关的指标,如比值比、患病率等,并进行假设检验。假设检验的方法既有单因素分析方法,也有多因素分析方法。如2检验、回归分析等。根据资料的类型,还可选择分层分析。,(二)、充分利用丰富的监测或体检资料,(1)一组体检资料的背景介绍:某体检中心收集了一批体检者的多项体检指标,其中是否有冠心病(G)、性别(X1)、年龄(X2)、是否有高血压(X3)、是否吸烟(X4)、胆固醇含量(X5)甘油三酯含量(X6)、低密度脂蛋白含量(X7)、高密度脂蛋白含量(X8)、脂蛋白含量(X9)、载脂蛋白A1含量(X10)、载脂蛋白B含量(X11)、基因型XbaI(X12)、基因型EcorI(X13)、用药情况(X14),资料的格式如表1所示。,表1多项指标的体检结果,(2)如何充分利用丰富的体检资料:有些人仅运用简单的统计分析方法处理多因素多指标的体检资料。例如,求一组定量指标的均值和标准差、用t检验分析某定性分组变量的某两个水平对定量观测结果的影响是否显著、用简单的直线相关和回归分析方法研究某两个定量指标之间的直线相关关系和直线回归关系等。这样一来,将会牺牲大量有用的信息,得到一些支离破碎,有时甚至是错误的结论。体检资料往往都是非常丰富的,它不仅包含有定性指标,也包含有定量指标。如何充分利用丰富的体检资料,发掘资料中所蕴藏的各种有用信息,尤其要注意揭示变量之间的内在联系,是一个值得重视的问题。,(3)根据研究目的合理选用统计分析方法:下面先给出研究者希望达到的一系列目的,并逐一选择相应的统计分析方法。1.对冠心病人而言,直接分析某种基因型取不同水平时7项血脂指标的均值和均值向量之间的差别有无显著性意义?2.对冠心病人而言,同时分析“性别、吸烟史、高血压史、某种基因型”对7项血脂指标的均值和均值向量的影响有无显著性意义?,3.对冠心病人而言,在设法排除“年龄、性别、吸烟史、高血压史和用药情况”等因素影响的前提下,分析某种基因型取不同水平时7项血脂指标均值之间的差别有无显著性意义?4.对冠心病人而言,试对7项血脂指标间的内部从属性作客观评价。5.对冠心病人而言,试对7项血脂指标间的亲疏关系作客观评价。6.对冠心病人而言,假定病情轻重可通过7项血脂指标来很好地反映出来,试根据7项血脂指标的数据,将它们划为3组,以便作出关于病情“轻、中、重”的评判,可有的放矢地采取不同方案对不同病情的患者进行治疗。,7.利用正常人与冠心病人的7项血脂指标数据,建立一种方法,用来对一个怀疑患有冠心病的就诊者进行辅助诊断。8.利用正常人与冠心病人的全部资料,建立一种方法,筛选出冠心病的危险因素,并且,当各危险因素在其取值范围内分别取某确定值时,预报某人患冠心病的概率有多大。,(4)分析:为回答上面的第1个问题,需要明白:基因型是一个定性的分组变量,而7项血脂指标都是定量的观测指标。通常把定性的分组变量称为“试验因素或影响因素”,把定量的观测指标称为“反应变量”。此时,若每次只分析一个反应变量,就需选用t检验(当影响因素的个数只有一个且仅有2个水平时)或方差分析;若每次分析的反应变量的个数2时,就需选用多元方差分析(当影响因素的个数2或虽影响因素的个数为1,但其水平数3时)。,为回答上面的第2个问题,需要明白:“性别、吸烟史、高血压史、某种基因型”都是“影响因素”。因此,需要选用“四因素析因设计的方差分析或多元方差分析”方法。为回答上面的第3个问题,需要明白:所谓“设法排除年龄、性别、吸烟史、高血压史和用药情况等因素影响”,就是要治安某种基因型取不同水平时,将前述诸影响因素的作用化成相等,以便正确地评价不同基因型对血脂指标取值的影响。在影响因素中,既有定性的,又有定量的(年龄),故应选用多元协方差分析。,为回答上面的第4个问题,需要明白:要研究一组冠心病人“7项血脂指标间的内部从属性”,显然,不涉及任何分组变量。此时,可选用的统计分析方法有主成分分析、因子分析。为回答上面的第5个问题,需要明白:所用的指标与问题4相同,只是目的不同,要研究指标之间的亲疏关系,就应选用变量聚类分析。为回答上面的第6个问题,需要明白:要根据7项血脂指标的数量大小对冠心病人进行分类,这当然需要选用样品聚类分析。,为回答上面的第7个问题,需要明白:欲实现对就诊者进行辅助诊断,就必须有能区分冠心病患者与正常人的判别函数,故应选用判别分析。为回答上面的第8个问题,需要明白:要想筛选冠心病的危险因素,又要进行预测预报,这就需要运用回归分析。由于现在的因变量Y是一个二值变量(即是否患冠心病,患病,令Y1,不患病,令Y=0),所以,对这样的因变量进行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论