版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
临床研究资料统计分析方法-1康德英四川大学华西医院临床流行病学/循证医学中心基本内容统计描述:反映样本及其结果基本特征统计图表(各类表格或图示)基本指标(均数/标准差;率、构成比)统计推断:样本推断总体参数参数估计(点估计及其95%可信区间)假设检验:差别(均数、率)推断;关联推断。FrancisGaltonKarlPearson贡献:重要术语和方法,包括SD、相关与回归、卡方检验等1890-1920RonaldFisher贡献:小样本统计推断方法、假设检验、确切概率法、方差分析(1915-33)JerzyNeymanEgonPearson贡献:I、II型错误;检验效能Power可信区间(置信)(1937-1949)AbrahamWaldDavidEddy贡献:统计决策理论1950-2000年,DavidEddy及其同事已将糖尿病、哮喘、冠心病和充血性心力衰竭这4种全球疾病负担最重的疾病的病程和转归成功转换成数学模型。2001年,受Bristol-MyersSquibb资助的美国糖尿病协会(ADA)与David签署了一份长期用“阿基米德模型”协助制定糖尿病治疗指南的协议,并用它来模拟身体的实际生物反应,推荐治疗方案和计算每种方法的成本。用该模型来验证如改善饮食、降低体重等生活方式的改变是否会比单纯服药效果更好,从而修改他们的治疗指南。EddydubbedthemodelArchimedesandtesteditbycomparingitwithtwodozenrealtrials.Oneclinicalstudycomparedcholesterol-loweringstatindrugstoaplaceboindiabetics.After41/2years,thedrugsreducedheartattacksby35%.TheexactsamethinghappenedinEddy'ssimulatedpatients.“TheArchimedesmodelisjustfabulousinthevalidationstudies"模型拟合(Archimedes模型)生物统计在国内外临床研究中的应用1747年英国Lind医生对船员坏血病进行干预研究。1835年法国研究者Louis对“放血疗法”治疗肺炎进行研究,否定了该种疗法。1948年在英国发表了用链霉素治疗肺结核的随机对照试验报告,使用生物统计方法进行分析。1960年Doll和Hill等利用队列研究首次证实了肺癌与吸烟有关,RR=23.7。1948年原中大(四军大)郭祖超教授编写出版了全国首部教材《医学与生物统计方法》1963年《医用数理统计方法》人卫社FrancisGaltonKarlPearson贡献:重要术语和方法,包括SD、相关与回归、卡方检验等1890-1920RonaldFisher贡献:小样本统计推断方法、假设检验、确切概率法、方差分析(1915-33)JerzyNeymanEgonPearson贡献:I、II型错误;检验效能Power可信区间(置信)(1937-1949)AbrahamWaldDavidEddy贡献:统计决策理论1950-BIGDATA大数据随着云计算、物联网等新技术的推广应用,大量新型数据、种类多元化数据出现,数据量呈爆炸式增长;全球大数据时代:220万TB/day+++。(相当于3亿张DVD)兆字节(megabyte,MB)吉字节(gigabyte,GB)太字节(terabyte,TB)1PB(Petabyte拍)=1024TB;2101EB(Exabyte艾)=1024PB;-----1ZB(Zettabyte泽)=1024EB;1YB(Yottabyte尧)=1024ZB;1BB(Brontobyte布)=1024YB。日渐成熟的数字技术和网络技术,可采集C、传输T、存储S、随时调用全球范围内的一切信息S,而对这些大数据用不同的工具和算法进行计算统计A、归类加工C,挖掘出其中的规律、结论,并用以指导人类的活动,将改变世界。“云物移大智”时代。“云”是云计算“物”是物联网“移”是移动互联“大”是大数据“智”是智慧城市或智慧地球。5V+3S+2C+1T+1A大数据(bigdata)的定义与特点定义:是指体量庞大且数据类型复杂多样的数据集,难以用传统数据库工具对其内容进行截取、管理、处理、并整理成为人类所能解读的信息。特点:4个“V”Volume(体量巨大)Variety(类型多样)Value(密度低、价值高)Velocity(处理速度快):时效性。1、RWS研究(realworldsetting)随着大型数据库链接的实现,“计算机化”的队列会在RWS研究中发挥日益重要的作用。使在短期内完成大规模队列研究有了可能;timelyassessmentofsafetyissuesrequiresmonitoringoflargepopulationsthatarerepresentativeoftheentirespectrumofmedicationusersaswellasanextensiveobservationperiod,particularlyforeventsthatarerareorhavealonglatency。数据通常是因其他目的而收集,研究费用较少;链接量大。典型案例分析利用Medco数据库的大数据分析揭示药物间相互作用。AsalargePBMthatcoversabout65millionlivesintheUnitedStates氯吡格雷(Plavix的™)是一种广泛使用的药物,用来预防心脏病发作或中风。氯吡格雷和质子泵抑制剂联用队列发生心脑血管不良事件(strokeorheartattack)风险比单用氯吡格雷队列增加50%;他莫昔芬联用抗抑郁药物队列的乳腺癌复发风险是单用他莫昔芬队列的2倍。建立大型数据库的方法在RWS研究中极有潜力,但也存在问题:harmonizationofmedicaldataextractionthroughhomogeneouscodingalgorithmsacrosshighlydifferentdatabasesisnecessary.Anothermainchallengeinvolveschoosingtheworkmodelsfordatamanagementandanalyseswhilstrespectingcountry-specificregulationsintermsofdataprivacyandanonymization.Finally,storageandsafeaccesstothedatafromdifferentdatabasesrequiresthedevelopmentofaproperremoteresearchenvironment.
注意:通常也需要通过调查补充一些数据库中没有的资料,并对来自各种数据库信息的真实性加以评价。2、数据挖掘datamining对于无法重构为回顾性队列研究、病例对照研究的大数据,考虑使用数据挖掘方法进行分析;相对“大数据”分析案例:关联分析JGinsbergetal.
Nature
000,1-3(2008)doi:10.1038/nature07634Acomparisonofmodelestimatesforthemid-Atlanticregion(black)againstCDC-reportedILIpercentages(red),includingpointsoverwhichthemodelwasfitandvalidated.案例1:通过Google搜索流感相关主题的人数与实际患有流感症状的人数之间存在着密切的关系:bigdata大数据研究成功案例案例2:“啤酒+尿布”的数据分析成果早已成了大数据技术应用的经典案例。大数据分析的方法学挑战对于大数据分析,常规统计分析方法往往无能为力:大数据对科学研究方法论的变革(因果性→相关性),线性因果分析往往仅适合于基于小数据的、简单封闭的系统,开放复杂的大数据系统时,寻找线性因果往往徒劳无功(全基因组关联研究,GWAS)关联分析:machine-learning,“reverseengineeringandforwardsimulation”(REFS).无预设假设的因果分析:贝叶斯网络分析(Bayesiannetworkanalysis:hypothesis-freeprobabilisticcausalapproaches)GOINGHYPOTHESIS-FREE:不预设假设,lettingthetechnologyrunwildandseeingwhatitcomesupwith。让数据说话临床研究的基本数据类型计量资料—数值变量资料numericaldata计数资料—分类变量资料categoricaldata二分类变量资料binarydata有序多分类变量资料---等级资料ordinaldata无序多分类变量资料
nominaldata
变量类型的判断病例号年龄(岁)性别身高(m)血型心电图尿WBC职业RBC1012/L135女1.65A正常-教师4.67244男1.74B正常-工人5.21326男1.80O正常+职员4.10425女1.61AB正常+农民3.92541男1.71A异常++工人3.49645女1.58B正常++工人5.48750女1.60O异常++干部6.78828男1.76AB正常+++干部7.10931女1.62O正常+军人5.24基于不同资料分型的分析方法数值变量资料(计量资料)统计描述(频数表/直方图、均数/标准差)统计推断(均数估计、t和u检验)分类变量资料(计数资料)统计描述(频数表/直条图、率/比)统计推断(总体率估计、卡方检验)中华医学系列杂志80篇治疗性研究的论文使用统计方法汇总统计方法篇数比例t检验290.36卡方检验23
0.29秩和检验100.13其他26未做统计分析13注:2001年测评结果,BMJ44%(t检验)评价实例[CJIM;16(5)]假设检验频数频率(100%)t检验13062%方差分析3115%卡方检验2713%秩和检验178%生存分析10.5%直线回归/相关10.5%未做假设检验21%合计209100%
未见多元分析方法使用评价实例[CJIM;16(5)]假设检验频数正确率错误t检验13026%方法不当:重复测量方差分析\方差分析方差分析3194%数据类型混用、未考虑设计方案卡方检验2774%P、FISHER、生存分析、秩和检验、检验水准未校正秩和检验1712%重复测量生存分析11/1直线回归/相关10/1回归、相关混淆未做假设检验2合计209一、计量资料的统计描述及结果表达统计图表:频数表、直方图、箱图定量描述临床研究中对于服从正态分布者用均数±标准差;服从对数正态分布者改用几何均数对于其它不服从以上分布者,用中位数和四分位间距(IQR)表达(interquartilerange,IQR)正态性判断正态性检验:判断资料是否服从正态分布。正态性检验偏度系数(Skewness)峰度系数(Kurtosis)W检验或D检验法(Shapiro-Wilk/D’Agostino)图形法(P-P图/Q-Q图)正态性判断正态性判断其它判断方法:比较均数与中位数(收入差距)比较均数与标准差(均数1S或2S中样本例数)借助医学专业知识对资料的正态性进行估计。
(龋齿数、患者年龄)
患者头孢唑啉钠药物动力学参数组别 (h-1)老年组(n=7)0.620.1260岁以下组(n=5)3.553.56二、计量资料的假设检验
t检验
u检验
t’检验方差分析秩和检验规则一:与比较组别和设计类型有关数值资料两组间的比较可以考虑使用t、u、方差分析、t’检验或者秩和检验。结合不同的设计类型又分为:样本与总体比较、配对设计、两组完全随机设计的假设检验。数值资料三组及三组以上间的比较则不能使用t检验和u检验。可考虑使用ANOVA方差分析、秩和检验等方法。结合不同的设计类型又进一步分为:多组成组设计、配伍设计、析因设计、交叉设计等设计方案假设检验。规则二:与样本含量有关当样本含量n较大时,其抽样分布服从正态分布(中心极限定理):*可考虑使用u检验当样本含量n较小时,其抽样分布服从t分布;*可考虑使用t检验当样本含量n较小时,若样本来源于偏态或未知分布,其抽样分布未知。
*则不能使用t、u检验,选用秩和检验
n=30/40/50/60/100?规则三:选用假设检验方法当且仅当用样本均数推断总体均数比较是否相等时;否则可直接或校正后比较。我校2015级研究生统计成绩男生(210人)80分6分我校2015级研究生统计成绩女生(190人)88分6分男生抽取20人866分女生20人806分总体样本t检验概述1908年,统计学家戈塞特(WilliamGosset)以Student笔名发表他发现统计量t的分布,他指出若X为正态分布,则t为自由度n-1的studentt分布;开创了小样本统计推断的新纪元。1926年,由费雪(Fisher)加以严格证明.当σ未知,尤其当样本数n值很小时,非常适宜采用t分布。t检验是以t分布为理论基础,以t值为统计量的假设检验方法,适用于例数较少,来源于正态分布资料.0t分布=∞(标准正态分布:u分布)=30=5Gosset假设检验目的:推断一个样本所代表的未知总体均数µ与已知总体均数µ0(常为理论值或标准值)有无差别。应用条件:已知样本服从正态分布一)单样本与总体比较的t检验实例分析:36名一线抗SARS医生的血红蛋白含量(150.8310.5)是否不同于一般水平?150.83g/l140g/l150.83~=140推断总体两总体均数相等H0两总体均数不等P值小概率事件拒绝H0不拒绝H0假设检验基本思想小概率+反证法1:建立假设,确定检验水准H0:µ=140g/LH1:µ≠140g/L检验水准=0.052:选定t检验,计算统计量
统计量t=4.11,自由度=353:确定P值,作出推断结论
P<0.001,按照=0.05水准,拒绝H0,接受H1,可以认为临床一线医生的血红蛋白含量高于一般水平。(自由度为36-1)
95%可信区间:146.8153.6(g/L),而一般水平为140g/L。统计推断假设检验参数及其区间估计是一种比较独特的设计方式,能很好控制非实验因素对结果的影响,有以下类别:①对同对两个受试对象分别给予不同处理(异体配对);②对同一受试对象分别给予不同处理(自身配对),目的都是推断两种处理的效果有无差别(窝沟封闭)二)配对设计的t检验检验目的、资料特点与应用条件假设检验目的:推断两总体均数相等,即配对差值的总体均数是否等于“0”。两组比较的配对计量资料,检验效能较高。应用条件:配对差值服从正态分布。
实例分析
某单位研究饮食中缺乏维生素E与肝中维生素A含量的关系,将同种属的大白鼠按性别相同,年龄、体重相近者配成对子,共8对,并将每对中的两只动物随机分到正常饲料组和维生素E缺乏组,过一定时期将大白鼠杀死,测得其肝中维生素A的含量,见下表,问不同饲料的大白鼠肝中维生素A含量有无差别?不同饲料大白鼠肝中维生素A含量大白鼠对号正常饲料组VE缺乏组差值
1355024501100220002400-400330001800120043950320075053800325055063750270010507345025009508305017501300
合计6500
差值均数=6500/8=812.5s=546.25(1)建立假设
H0:µd=0,即差值的总体均数为“0”,不同饲料的大白鼠肝中维生素A含量相同。H1:µd≠0,即差值的总体均数不为“0”,不同饲料的大白鼠肝中维生素A含量不相同。检验水准=0.05(双侧)(2)计算统计量(3)确定P值,作出结论
查t界值表,t0.05,7=2.365,t>t0.05,7,得P<0.05,按=0.05水准,拒绝H0,接受H1,可认为两种饲料所得肝中维生素A含量有差别,即维生素E缺乏对大白鼠肝中维生素A含量有影响。注意当样本含量n较大时,可用u检验.统计推断假设检验参数及其区间估计三)成组设计的t检验
成组设计又称为完全随机设计假设检验目的:推断两个样本所代表的总体均数是否相等。资料特点:成组设计两组比较的计量资料应用条件:
(1)两独立样本均来自服从正态分布总体
(2)两独立样本的总体方差齐性(方差相等)实例分析
目的:观察伢典(Carisolv)去腐法治疗老年人根面龋的疗效及对老年人血压、心率、治疗心理反应的影响。方法:选择老年根面龋患者64例,随机分为伢典(Carisolv)治疗组和对照组。伢典(Carisolv)治疗组30例,采用伢典(Carisolv)去腐法治疗患牙;对照组34例,采用传统牙钻去腐法治疗患牙,比较两种方法的治疗效果,并且去腐前后测量患者血压、心率及了解患者对治疗的心理反应,采用统计学方法进行比较。结果:两组患者治疗1年后复查,成功率无统计学差异(P>0.05);两组患者去腐治疗前后血压、心率的变化及对治疗的心理反应有统计学差异(P<0.05)。结论:伢典(Carisolv)对老年人根面龋的治疗安全、有效,可大大降低患者对口腔治疗的紧张和恐惧,有利于维护老年人的牙齿健康。(1)建立假设
H0:µ1=µ2两组去腐后DBP变化总体均数相等。H1:µ1≠µ2两组去腐后DBP变化总体均数不等。检验水准:=0.05(双侧)(2)计算统计量t=X-1
-
X-2SX1-
-
X2-
=3.89-9.83
0.827
=-6.5,n=n1+n2-2=62
SX1-
-
X2-
=(3.13)2(30-1)+(4.02)2(34-1)30+34-2
(
130
+134
)
=0.827
(3)确定P值,作出结论
查t界值表t0.05,62=1.99,t>t0.05,62
P<0.05,按=0.05水准,拒绝H0,接受H1
,可以认为两组的DBP变化均数不等。
注意当样本含量n较大时,可用u检验统计推断假设检验参数及其区间估计成组设计t检验的要求
(两独立样本均数比较)应用条件:独立性、正态性、方差齐性独立性:应确保两组样本是相互独立的,如应有明确的诊断标准等两样本同时满足:代表性、均衡性。代表性:(样本量、随机化)均衡性:除欲研究因素外,其它因素尽可能的均衡:对于临床资料,两组应在性别、年龄、病情轻重、诊断分期分级、有无并发症等基线比较具有均衡性。因此在设计阶段应控制混杂与偏倚。实例分析
四)u检验
u检验是以标准正态分布为理论基础,以u值为统计量的假设检验方法,适用于例数较多的数值资料。应用条件:样本例数较大,n>50或>100,或n虽小而总体标准差已知。实例分析某地男女红细胞数(×1012/L)的抽查资料:如下表资料,问该地男女红细胞数有无差别?组别例数均数标准差男性3604.660.58
女性2554.180.291.建立假设
H0:µ1=µ2
该地男、女红细胞数均数相等H1:µ1≠µ2
该地男、女红细胞数均数不相等检验水准=0.05(双侧)2.计算统计量3.确定P值,作出结论
查u值表u0.01=2.58,u>u0.01,P<0.01,按=0.05水准拒绝H0,接受H1,可认为该地男、女红细胞数的均数不相等。u检验的三种形式。1.正态性检验在做t、u检
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论