




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、临床科研统计方法与选择临床科研中数据的处理和统计方法是临床研究得出结论的步骤之一。而描述临床数据,应用正确的统计方法是获得正确的临床科研结果的前提。本文从描述数据到统计方法的选择介绍临床科研论文中常用的 统计方法、基本概念。一、数据的种类1 .数据种类:临床上的数据通常可简单地分成计量资料、等级资料和分类资料(计数资料)三种类型。计量资料指连续的数据,通常有具彳勺数值,如身高、体重、血压、血红蛋白、胆红素和白蛋白等。等级资料指有一定级别的数据,如:临床疗效分为治愈、显效、好转、无效 ,临床检验结果分为-、+、+ +、+ + + ,疼痛等症状的严重程度分为 0 (无疼痛)、1(轻度)、2 (中度
2、)、3 (重度)等,等级资料又称为半定量资料。分类资料指各数据之间没有顺序或等级关系,而是归于一定属性,可以是两类,也可以是多类。如性别资料,按男性和女性分类,计算男性与女性各有多少例;职业资料,按工人、农民、职员等归类,计算各自的例数;随访结果资料,按生存或死亡归类,计算各自的例数;接受干预措施资料,按用试验药物、用安慰剂归类;是否存在吸烟、饮酒、幽门螺杆菌(Hp)感染等暴露因素,按吸烟、不吸烟,饮酒、不饮酒,Hp ( + )、Hp(-)归类等。2 .数据的类别转换:计量资料可以根据需要或一定的标准分成两个或数个等级而变成计数或等级资如年龄资料是计量资料,但可以按大于65岁、4565岁、小于
3、45岁分为老、中、青年 3类而转变 为等级资料或计数资料。但需要注意的是:计量资料转换为等级资料或计数资料比较简单 ,但从等级资料或计数资料就无法再转换成计量资料 因此,在临床上收集数据或if算机储存数据时,应考虑收集或储存计量资料,只有在数据处理时根据需要再转 换为等级资料或计数资料。对两组病人的某项指标进行统计学检验时,数据从计量转换为计数或等级资料,统计的效率也可能 下降。二、数据的统计描述对于临床研究数据,通常我们不可能在论文中或在报道告诉读者每一个病人的具体特征。我们需要知道这批数据的特征,一方面便于描述,另一方面便于两组数据或特征的差异比较,这就是统计描述。1 .计量资料(数据)的
4、统计描述:计量资料的特征通常包括中心位置与离散程度。中心位置通常用均数来描述,如一组病人的年龄、体重、血红蛋白、白蛋白、胆红素、肌汗和尿素氮等,要求是这类数据应该服从正态分布;如果数据经对数转换后呈正态分布,则可以用几何均数表示其中心位置,如HBsAg 滴度(1 : 8 ,1 : 16 ,1 : 32 ,1 : 64);对于偏态数据,通常用中位数表示其中心位置,如研究急性肝炎时AL T、AST等范围从数十到上千变动较大,且每个病人的变化情况不一致。正态分布的数据离散程度可用标准差来描述;对于偏态数据,可以用4分位范围(inter2quartile range , IQR)描述离散程度,即:IQ
5、R为第25百分位数(P25)第75百分位数(P75)。2 .计数资料(数据)的统计描述:计数资料在分类时可以计算各类别在总数中的比重或百分比,称为枕成比,如性别资料,100例病人中,60例男性,40例女性,可表示为男性占60 %,女性占40 %;如果数据分为发生或不发生,如死亡、患病等,则可计算其死亡率、发病率等指标,表示其发生的强度,称率。构成比一般不能说明发生强度。临床上有很多率实际上只是个比例(构成比)。如患病率是一个比例,由于历史原因,仍称为患病率。所以不能将构成比混为发病率来说明发生强度。 当两个率进行比较时,如果某一指标足以对率的大小有影响(如 年龄对死亡率),而该指标的组成(如年
6、龄构成)在两组内不同,则需要对该指标进行标准化。3 .等级资料的统计描述:根据数据可以用构成比或率来计算。如临床疗效可表示为治愈率、好转率等。 腹痛根据程度分为无、轻、中、重,可计算各程度的构成比。即用各种程度病人数除以总病例数,各构成比之和应为100 %。4 .比数、优势比、相对危险度:在病因学研究中,是暴露因素与疾病之间的联系强度的指标。比数是阳性率与阴性率之比。 相对危险度(RR)是两种暴露条件下发病率之比,如研究Hp感染与胃癌 的关系,采用前瞻性队列研究,按Hp( + )与Hp (-)分为2组观察若干年后胃癌的发生率,计算两组的发病率 之比即估计相对危险度。优势比(OR)是在病例对照研
7、究中表示暴露与疾病发生之间的相关程度,是RR的近似值,如同样研究,采用病例对照设计,按胃癌与非胃癌分为两组,调查两组病人发病前 Hp感染t#况,评价Hp感染与胃癌之间的关系需用优势比。三、定量数据的统计学检验临床研究中要进行两个样本或多个样本间差异的统计学检验,以判定差异是真实存在或者由于抽样误差引起。1. t 检验与方差分析: 对于分组呈正态分布的定量资料, 如为两组比较,可用t 检验。t 检验有 2 种方法,取决于资料是成组比较还是配对比较。临床科研中对每一病人治疗前后的比较:如应用利胆药物后胆红素水平前后的比较;应用保肝药物后白蛋白水平的前后比较等多属于配对比较。临床上许多研究无法配对,
8、如新药与对照药物的比较,通常都是治疗组与对照组进行成组比较。在选用t 检验时 ,这两种 t 检验的方法是不同的。对两组以上(多组) 资料比较,则选用方差分析;方差分析也有二种方法,取决于研究设计。如研究血液放置时间对血糖测定值的影响,对 8 名健康人抽血后将每一个体的血液分为4 份 ,分别放置 0 、 45 、 90 、 135 min 后测定血糖浓度,这种设计每4 份血糖测定值均来自同一个体,称为随机区组随机 ,需要用随机区组分差分析。同样,如果我们的目的是比较三种不同降血糖药物的治疗效果,采用随机化方法将病人分为三组,每种药物应用于一组病人,三组病人最终的血糖比较则用完全随机设计方差分析。
9、需要注意的是,各组样本含量相等与不相等时,由于组间离均差平方和计算方法略有差别,所选用方差分析计算公式也不一样。需要指出的是,配对或配伍组设计比成组或完全随机设计的优点是对某一因素进行控制,如上述4 份血糖结果,除了放置的时间外,其余因素都一样(来自同一人) ,从而减少了偏倚误差,提高统计效率。在进行方差分析时,如对A、 B、 C 三种药物的疗效进行比较时,无效假设为三组疗效相同,即 H0 :A = B= C ,差异有统计意义而推翻此无效假设时, 其备选假设H1 为三种药物的疗效全不相同或不全相同,这时并不能区分是哪两种药物疗效相同,哪两种不同。一种自然的想法是不做方差分析而直接做三个t 检验
10、 ,即检验A = B 、 A = C、 B = C ,由此直接得出结论。从统计学角度看,这是不正确的,因为它增加了第一类错误,即假阳性错误的概率。这时统计上有意义的临界值概率a已超过a = 0. 05的标准,因而是不可取的。比较合理的方法是在方差分析后作多重比较(两两比较) 。多重比较的方法很多,常用的有SNK(Student2New2man2Keuls) 法、 Duncan 法、 LSD 法以及 Dunnett 法等。应用 t 检验和方差分析的前提是:小样本时,无论t 检验或方差分析,对数据的要求均应是正态分布,资料正态性问题可以用频数图考察或正态检验;成组 t 检验和方差分析要求各组的样本
11、方差间差异无显著性(方差齐性) 。两组方差齐性检验可以用 F 检验 ;多组方差齐性检验可以用Baetlett 检验。2. 数据转换:如果数据属于某种特殊分布或数据具有一定特征,经过一定转换后可转换成正态或方差齐性,则分析效果更好。如水中细菌数、单位时间放射性计数等符合普松分布,数据可通过平方根转换;非传染病患病率、白细胞百分数、淋巴细胞转换率、钡条胃排空检查的残留率等符合二项分布,数据可通过平方根反正弦函数转换;滴度资料等可通过对数转换。3. 非参数统计:非参数统计也针对两组或多组计量资料的比较,当 t 检验或方差分析的前提条件不能满足而对数据的总体分布不能确定或没有适当的转换方法时,可以用非
12、参数统计方法。相应于参数检验、配对比较的设计,非参数统计采用符号等级检验(Wilcoxon 法 ) ;两组比较采用两样本等级和检验(WilcoxonMann and Whitney ranksum 法 ) 或中位数检验;配伍组设计比较采用M 检验 (Friedman 法 ) ;多组比较采用H检验 ( Kruskal and Wallis) 。表 1 列出了计量资料比较时参数检验与非参数检验的选择。表 1 计量资料比较时参数与非参数统计方法选择非参数统计(注二)设计方法参数统计(注一)配对比较配对t检验符合检验,符号等级检验(Wilcoxon)两组比较成组比较t检验两样本等级和检验(Wilcox
13、2on Mann and Whitney 法),中位数检验配伍组比较随机区组方差分析M检验(Friedman法)多组比较完全随机设计方差分析H检验(Kruskal and Wallis法)注一:应用条件是数据正态分布,方差齐性;注二:应用范围主要为偏态资料且数据无法转换为正态,等级资料分组比较。等级资料分组比较也应用非参数检验,多组比较时采用H检验,两组比较时采用等级和检验(Wilcoxon Mann andWhitney检验)或中位数检验。如比较两种胃动力药物治疗功能性消化不良的疗效,疗效评价按显效、有效、好转、无效分为 4等级,两组比较可采用等级和检验。四、卡方检验研究两组或几组资料的性质
14、是定性或分类的,通常用率或构成比描述各组的特征。比较组间率或构成情况间的差异是否有统计学意义可以用卡方检验。1. 四格表资料的卡方检验:当比较两组定性或计数资料且资料的属性只有两种时,通常采用卡方检验,如研究Hp感染与胃癌关系时,胃癌病例组100例,Hp感染80例(感染比例80. 0 %),慢性胃炎对照组100 例,Hp感染60例(感染比例60 %),是否胃癌病例组Hp感染率高于慢性胃炎组,即Hp感染与胃癌有关是 否真实存在而不是由于抽样误差引起,统计学检验时即可采用四格表卡方检验。一般计算Pearson卡方,仅表示两组构成比不同,有一般联系。四格表中如果数据较少,理论值(根据无效假设计算得到
15、的各格应有的数值) 5,特别是总观察数40时,或有理论数 1时,需要用精确(Fisher)检验法。2. 行列表卡方检验:当比较组超过2 组或者资料的属性超过2 种时,这类表格称行列表。通常仍计算Pearson 卡方,表示一般联系的检验,即行变量与列变量都是计数或定性资料,变量的各水平之间都没有等级关系,检验的结果仅表示两变量之间是否存在联系。如果行变量为名义变量(定性)而列变量为等级变量时,可以采用非参数检验、趋势卡方或用行平均得分差进行检验。单纯Pearson 卡方检验往往不能说明问题。对组内分组资料的卡方检验或内部构成不同的两个率差异的统计意义检验,可采用加权卡方检验或M2H 卡方检验。
16、而如果需要分层的因素很多或者影响结果的因素很多,而分层太多样本量又无法满足时, 回归分析常是首先考虑的选择。3. 对生存率资料的比较:常采用寿命表法描述,除了可计算年生存率并进行卡方检验外,还可直接对生存曲线进行比较,通常采用Log Rank 检验。五、临床科研中统计方法应用的常见错误应用正确的统计方法可增加研究结果的可信度,而错误的统计方法常导致不正确的研究结论。临床科研中常见的统计方法错误包括:1. 构成比的误用: 由于医院资料的局限性,临床所获得的数据一般只能计算构成比而不是发病率。构成比通常不能说明事物发生的强度,而且构成比的大小受到很多其他因素的影响,因此比较构成比的大小或应用构成比
17、说明问题时不能滥用。只有纵向随访研究才能得到发病率的资料。2. 内部构成对统计指标的影响:临床研究中,比较两组药物的疗效或说明两组病人的预后时,常需要注意其他因素对结果的影响。标化或对可能影响结果的因素进行分层是解决这一问题的最好办法,如果影响因素很多,可能需要多因素分析来平衡各种因素的影响。而无视其他因素的影响可能得出错误的结果。3. 偏态定量数据统计描述和检验方法的误用:偏态定量数据的中心位置应当用中位数来描述(对数正态分布采用几何均数描述) ,但目前很多研究报道的资料仍只用均数描述。由于均数和标准差唯一刻划了正态分布资料的特征,对于正态分布资料只需表示均数± 标准差,但是均数&
18、#177; 标准差不是偏态分布资料的特征,通常应该用中位数(25 %百分位数75 %百分位数)刻划资料的中心位置和分布概况。对明显偏态资料的组间比较, t 检验或方差分析也是不正确的,应选择非参数检验。4. 配对(配伍) 比较和成组比较:配对t 检验与两组比较的t 检验选用要根据不同研究设计,完全随机设计和配伍组设计也要根据不同研究设计选用,配对研究设计和配伍组设计的资料属于非独立数据,只能采用相应的配对t 检验或配伍组方差分析,成组设计或完全随机设计的资料不能(也无法) 用配对 t 检验或配伍组方差分析方法进行检验。5. 一揽子比较的错误:对于多组或配伍组比较应当先做方差分析或非参数统计分析
19、,然后再用相应的多重比较,而不应直接做所有两两比较的t 检验或非参数检验,否则第一类错误会增大。临床研究和杂志上仍然常可见到这一错误。6. 统计方法应用的条件不符合:各种统计方法应用有一定的条件,如t 检验和方差分析要求数据为正态 ( 或近似正态) 分布和方差齐性,很多研究数据呈明显偏态仍然采用t 检验或方差分析是不正确的。对于非负值资料,如果标准差远大于均数,这样的资料常是偏态分布的。方差是否齐性对统计结果影响很大,要特别注意。 再如回归分析的方法选择,不能不管因变量是什么性质而乱用回归方法,因变量为定量数据可以用线性回归(或数据经转换后应用) ,因变量为分类数据可以用Logistic 回归
20、,而生存时间因变量可以用Cox 回归。乱用不适当的回归分析方法会得出无法解释的结果。7. 论文中应注明哪些与统计有关的结果:统计所用的方法、比较的样本量、统计量如卡方值、P 值等。最后需要指出的是,研究结果的准确性与研究设计有关,统计方法的选择也与收集资料的方法有关,因此 ,统计方法应当在研究设计阶段作出正确的选择,而不是等到数据收集好之后再来考虑。否则,研究结果的可信度就受到怀疑,而单纯依赖统计学方法对研究设计没有考虑的选择性偏倚和测量性偏倚是无法补救的。医学研究中的统计方法错误使用统计学的内容非常丰富,医学统计的方法很多,每种方法都有其适用条件,每种方法各适用于不同的实验设计类型。我国医学
21、论文统计方法的使用率,自1985 年后呈上升趋势,但医学杂志发表的论文存在不同程度的统计错误,统计方法的应用错误会使整个精确进行的研究得出错误的结论。为了减少这一现象,提高论文水平,以下对医学科研论文中统计方法方面经常出现的的问题归纳整理,列举如下:一、未使用必要的统计分析方法或仅用统计描述一些文章没有进行必要的统计分析,或者仅对研究结果的均数、率从样本大小进行比较。二、没有写清所用统计方法的具体名称或根本不写论文中应将所用统计方法交待清楚,如果交待不清或根本不予交待,则审稿者或读者对论文结论的正确与否将无法判断。配对设计与成组设计数据的统计方法就不同,如果只说用了t 检验,则很难判断其正确性
22、;有的文章中只提一句“经统计学处理”后,就写出结论;有的甚至干脆不提“统计 ”二字,直接用P 值说明问题了事。三、资料严重偏态却使用t 检验或方差分析t 检验和方差分析要求数据服从正态分布,而且方差齐,医学研究中大量的数据并不服从正态分布。当分布偏离正态分布不大时,对其结果的影响不大。但对于计量数据还是应当先做正态性检验,如果正态性检验结果认为数据不服从正态分布,可以进行变量变换,或进行非参数统计。有时从论文中的数据可以看出其资料严重偏离了正态分布,但仍然使用t 检验或方差分析。因为医学研究数据不可能是负数,当样本不太小时,平均数减3 个标准差不应是负数,否则就偏离了正态分布规律。t 检验代替
23、方差分析进行多组间的比较这种现象还不少见,在统计学上多组计量资料的比较时,应当先做总的检验( 各组间方差齐用方差分析,方差不齐需用非参数统计方法来处理) ,在得出差别有统计学意义的基础上,再做多重比较,如每两组均数都做比较的Student-Newmn-Keuls 法, 或多个处理组与同一个对照组比较的Dunnett 法, 以及比较k 组中某一对或某几对在专业上有特殊意义的均数的LSD 法等。文章中常见错误是将资料拆开,对各种组合下的两两均数分别做成组设计两样本比较的t 检验或配对t 检验,且每次比较的检验水准仍然为=0 05 ,这样就会增大犯错误的概率,将本来无统计学意义的差异误判为有统计学意
24、义。五、成组t 检验代替配对t 检验随机化分组是保证非处理因素均衡一致的重要手段,增加实验组与对照组间的可比性。配对设计的目的也是减少混杂因素对处理因素的影响,它比成组设计非处理因素更加均衡一致,二者关键是实验设计方案不同,分析目的不同,其统计方法也不同。六、区组设计的方差分析代替重复测量设计的方差分析重复测量设计看似随机区组设计,但与其不同的是试验结果按时间顺序排列,不像随机区组设计的处理那样经过随机排列,其不同时间之间是相关的、不独立的,不但可以分析两因素各水平间是否有差别,还可分析两因素有无交互作用。七、单向有序变量做检验临床上当疗效或检验结果分成多个等级,如疗效分为痊愈、显效、进步、无
25、效4 个等级,则Person 检验只能检验各组构成是否相同,而不能检验各组疗效是否有差别。八、误用检验公式检验中的公式较多,各有其适用条件,稍有不慎,即有误用的可能,应根据实验设计和资料的性质进行正确选择。常见的失误有:1. 普通四格表资料,当n>4O ,但有 1<T<5 时,没有计算校正Y 值。2. 普通四格表资料,当n<4O ,或有 T<1 时,仍然用检验,没有选用四格表确切概率法。3. R >C表资料,有理论数 T<1的格,或1<T<5的格数超过总格数的1 / 5 ,没有采用适当的处理方法,而直接套用 R X C表检验的公式,导致分析
26、的偏性。4. 配对四格表资料整理为普通四格表,二者设计方案不同,a 、 b 、 c 、 d 的意义不同,分析目的和方法也不同。九、直线相关与直线回归分析中的问题进行直线相关与回归分析时,得出回归方程式或算出了r 值,得出结论前,应先做假设检验,用以推断变量间是否存在直线性的依存关系或相关关系,至于相关的密切程度还要看r 绝对值的大小,因为r 的假设检验,无论P 值多么小,只能说明变量间是否相关,而不能提供相关密切程度的信息。r 绝对值越接近变量间的相关关系越密切。称为决定系数,表示回归平方和占总平方和的比例,当变量间有相关关系,但不是很大时,提示变量间的相关关系实际意义不大,有些科研工作者对此
27、缺乏了解,在论文中曾发现r 值为 0 126 ,P<0 O1 ,决定系数=1 59 ,而未引起研究者对其实际意义的关心。还有的用直线相关代替曲线相关,用直线相关代替等级相关,应变量为二分类变量却使用线性回归。十、多因素分析中的问题随着计算机的普及,多因素分析已日益广泛地应用于医学研究之中。医学研究中所应用的多因素分析有多元线性回归、Logistic 回归、 Cox 比例风险模型、判别分析、聚类分析、主成分和因子分析、典型相关分析、对应分析、多维标度法、Poisson 回归分析等。由于这些分析的复杂性,有些研究者对分析中的准则不十分熟悉,缺乏统计学原理的基本知识,对选用哪些数据,应用哪些计算以及怎样解释所得结果等,单靠计算机不可能圆满地全部完成。因为缺乏统计学基本知识,机械使用统计软件,导致拿着计算机给出的结果不知道是什么意思。在进行统计计算时,常常需要灵活地应用统计软件,这就需要对软件的计算方法有较深入的了解。人们在处理“多因素多指标统计资料”方面最常犯的错误是:1. 多元 ( 或多因素) 资料用一元( 或单因素) 统计分析方法处理:这样会导致资料的利用率低,不能 反映资料的整体情况,不能很好地揭示变量之间的交互作用和内在联系,容易得出片
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医院内医疗废弃物的智能回收系统
- AI辅助诊断系统在公共卫生应急中的应用
- 区块链技术引领未来商业变革
- 消防事故的统计与分析方法试题及答案
- 2025年入团自我战略试题及答案
- 医疗数据传输与存储的区块链安全保障方案
- 医疗健康数据治理中的伦理与法律问题探讨
- 医保政策与公共卫生体系的联动
- 审计职业发展的新方向与试题探讨试题及答案
- 医疗法规更新背景下的多科室联动策略调整
- 中医治疗失眠课件
- 处方大全完整版本
- 杏核破壳机的设计
- 肝性脑病的护理诊断和护理措施
- 出资建设厂房合同书
- 创建文武学校可行性方案
- 公招资格复审个人委托书
- Python程序设计项目化教程
- 双护筒旋挖钻孔施工工法
- 历史中考热点专题
- IATF16949内外部审核资料清单按条款
评论
0/150
提交评论