非劣效性试验_第1页
非劣效性试验_第2页
非劣效性试验_第3页
非劣效性试验_第4页
非劣效性试验_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、临床非劣效性与等效性评价的统计学方法临床非劣效性与等效性评价的统计学方法     以安慰剂作为对照的随机双盲临床试验一直被视为药物开发中的金标准,它在确认新的试验药物的疗效优于安慰剂方面发挥着重要的作用。然而,如果有现成的疗效肯定的药物,仍用安慰剂对照做临床试验,会面临伦理上的困难。随着愈来愈多可供应用的有效药物的出现,疗效有突破的新药愈来愈少,因而药物临床研究的目的发生了转变。在阳性对照试验中,更多的情形是探求新药与标准的有效药物相比其疗效是否不差或疗效相等(严格地说,疗效相等应该是既不比标准药差,也不比标准药好),而并不一定要知道新药是否优

2、于标准药,由此而提出了非劣效性/等效性试验(noninfer_iority/equivalencetrials)。非劣效性/等效性试验与通常意义下的优效性试验(superioritytrials)在设计和统计分析上是有区别的。近年来,尽管对设计和分析该类试验已给予强调,但遗憾的是,许多非劣效性/等效性临床试验的评价缺少针对性,仍仿照安慰剂对照试验的方式进行,因而导致了非劣效性/等效性试验的样本含量估计、无效假设和备选假设确定、统计学分析和结论推断等方面的不够合理,难以达到设想的目的。本文拟主要介绍有关非劣效性/等效性试验中涉及的统计学分析方面的一些具体问题,至于在设计时还必须考虑的有关对照的选

3、定等问题可参考文献及ICH文件E10:“临床试验对照的选择”。1非劣效性/等效性界值从临床上讲,一种新药的药效不比标准对照药差,到底临床上可接受的最大允许的范围是多少呢?或者说,新药比对照药最低到多大程度才能算“非劣效(noninferiority)”呢?类似地,新药和对照药的疗效相比,最低不能低于多少以及最高不能超过多少才可认为是“等效(equivalence)”呢?这就涉及到临床非劣效性/等效性界值(nonferiority/equivalencemargin)的问题。为叙述方便,我们统一用表示界值,并以-表示劣侧界值,以表示优侧界值。显然,非劣效性试验仅用-一个界值,而等效性试验要用-和

4、两个界值。是一个有临床意义的值,该值的选定至关重要。若选大了,将把药效达不到要求的药物判断为非劣效或等效而推向市场;若选小了,则可能会埋没一些本可推广使用的药物。这一数值不应大于安慰剂对照的优效性试验确认有效的效应差值。一般来说,的决定应该由临床学家和统计学家商讨联合做出,而不是单独地依赖统计学家。注意,选定时一定要从临床药效角度,结合以往的试验结果,必要时进行成本效益分析等诸多方面反复论证。界值必须在试验的设计阶段决定并在试验方案中阐明,一旦确定,事后不得随意更改。除非发现新的界值比原先选定的界值更合理,在揭盲之前可作更正,并在修订方案中陈述理由。一旦揭盲,不得更改。根据既往的经验,对有些临

5、床定量指标的等效界值,有学者提供了可供参考的建议标准,例如血压可取为0.67kPa(5mmHg),胆固醇可取为0.52mmol.L-1(20mg.dl-1),白细胞可取为0.5×109.L-1(500个/mm3);当难以确定时,可酌取1/51/2个标准差或参比组均数的1/101/5。对两组率而言,有人建议最大不应超过对照组样本率的1/5。有作者指出,不能过小,否则,所需的样本含量可能会不切实际。尽管值的选定并不容易,但若试验的目的就是为了确认非劣效性/等效性,人们也不得不面对这些困难并解决之。药理试验设计与统计例1:为了显示一种新药血管紧张素拮抗剂(Aantagonist)治疗轻中度

6、原发性高血压的降压效果是否不差于标准药血管紧张素转换酶抑制剂(ACEinhibitor),请按照非劣效性试验的要求制定非劣效界值。该试验以药物ACE作为阳性对照,试验的主要终点指标取仰卧舒张压(SDBP,单位为mmHg)。既往的许多ACE与安慰剂的对照试验显示,两组SDBP与基线相比平均舒张压下降值的差值至少达到10mmHg才能认可药物的疗效,即最小的药物效应差值=10mmHg。基于临床和统计学的综合考虑,经讨论认为用=3mmHg(约为的30)作为非劣效性试验的界值是合理的。2判定非劣效性/等效性的假设检验方法假设检验(hypothesestesting)是基于一定的检验假设进行推断的一类方法

7、。我们平时所做的绝大多数检验假设为两组相等的零假设,其统计推断往往仅限于两者的差别有无统计学意义,若P>,意味着统计上“不能拒绝零假设”,但并非说明零假设成立,更没有理由说两组相等,因为检验的效能(poweroftest)未知;如P,虽然可“拒绝零假设”,但也只能推断两者在统计上有差别,而不能评价差别的大小。这难以满足临床实际中需要评价疗效差别的要求。为了能对非劣效性/等效性进行推断,需要建立有别于传统的检验假设。为方便叙述,统一用如下符号作为组别或参数:T=试验治疗组,也泛指相应组效应的参数(均数或率)S=标准治疗组,即阳性对照组,也泛指相应组效应的参数(均数或率)=非劣效/等效界值。

8、非劣效性试验用-,等效性试验用-和2.1检验假设的构建和检验用统计量无效假设(nullhypotheses)和备选假设(alternativehypotheses)分别用H0和Ha表示。以作为总的检验水准。表1列举了几种不同情形下的检验假设和检验统计量计算的通用公式。表1不同试验类型的检验假设本表所示的检验统计量假设数据来自大样本,数据分布正常。其中d为T组样本效应值减去S组样本效应值的差值,即d=T-S,sd为d的标准误。z为检验统计量,服从标准正态分布。2.2结论的推断2.2.1非劣效性试验由于只进行一次单侧检验(one_sidedtest),若P,则H0被拒绝,可推论T非劣效于S;若P&

9、gt;,则还不能下非劣效的结论。这里的含义是,当T比S疗效差,其效应差值实际上超过时,错误地下T非劣效于S结论的概率。2.2.2等效性试验由于需要在两个方向上同时进行两次单侧检验(twoone_sidedtests),故亦需分别推断。若P1/2和P2/2同时成立(注意每次检验的水准只用总的检验水准的一半),则两个无效假设均被拒绝,前者推论T不比S差,后者推论T不比S好,因此综合的推断是T和S具有等效性;若P1和P2中的任何一个大于/2,则不可下等效的结论。这里的含义是,当T与S的疗效差值实际超过(包括差-以下或好以上两种情况)时,错误地下T和S等效结论的概率。2.2.3优效性试验有两种不同的情

10、形。一种是严格意义上的,从统计学的角度考虑的优效性,这时所用的假设为通常的零假设,为单侧检验。目前临床试验中一般用此概念。如果能拒绝无效假设,可下统计学意义上优效的结论。当然这种优效性较弱,有时可看作是边缘优效性。另一种是从临床意义上提出的优出一定量的优效性,姑且也用表示该量。此时若拒绝无效假设,可下临床优效性的结论。3判定非劣效性/等效性的可信区间方法可信区间方法亦可用于非劣效性/等效性的判定,该方法通过构建有关参数差别的可信区间(confidenceinterval,缩写为CI)作为评价的决策准则。CI方法在ICH的指导原则中曾予以推荐,指出:对非劣效性或等效性试验安全性与耐受性的评价,应

11、用可信区间比用假设检验更佳。一些具体的方法,可参见文献。假定总的可信度取100(1-),以CL表示可信区间的下限,以CU表示可信区间的上限。3.1非劣效性试验按单侧100(1-)可信度,计算出T-S可信区间的下限CL,若CL,)完全在-,)范围内,或者CL>-,可下非劣效性的结论。3.2等效性试验按双侧100(1-)可信度,计算出T-S可信区间的下限CL和上限CU,若完全在-,范围内,或者-<CL<CU<,可下等效性的结论。3.3优效性试验按单侧100(1-)可信度,计算出T-S可信区间的下限CL。若完全超出(-,)范围,或者CL>,可下临床优效性的结论。例2:继

12、续上例。假使:=3mmHg,两组合并标准差s=8mmHg,两组样本含量均为120,取单侧=0.05,方案规定可用两步法(见后)。主要指标结果:SDBP与基线相比平均下降值,T=14mmHg,S=12mmHg。经计算:d=14-12=2mmHg,sd=8(1/1201/120)1/2=1.033mmHg。第一步:非劣效性评价单侧假设检验:z=(23)/1.033=4.84>1.645(z0.95),P<0.05单侧95可信区间下限:CL=2-1.645×1.033=0.301>-3两种方法均显示,在抗高血压效果方面新药AII拮抗剂与标准药ACE抑制剂相比具有非劣效性。

13、第二步:优效性评价单侧假设检验:z=2/1.033=1.936>1.645,P<0.05单侧95可信区间下限:CL=0.301>0结果表明,新药AII拮抗剂比标准药ACE抑制剂的抗高血压效果具有统计学意义优效性。ICHE9指导原则中的建议更保守些,若按取0.025的标准判断,非劣效性评价的z=4.84>1.96(z0.975), P<0.025,可下非劣效性结论。但是,因优效性评价的z=1.936<1.96,P>0.025,尚不能认为具有统计学优效性,更达不到临床意义上的优效性。有一种情况值得注意,即求得的可信区间的下限大于-,但上限却比0小,管理当局

14、比如美国的FDA可能仍然把试验药看作和标准药不等效,甚至比标准药还差,尽管非劣效性的标准已经达到了。这一额外增加的标准之严格,似乎并不是从统计学意义上考虑的。事实上,这对很高效地完成试验而出现了窄小的CI可能是不公正的。4非劣效性/等效性试验样本含量估计及检验效能对服从正态分布的数据(定量指标)和服从二项分布的数据(率指标)分别介绍。 4.1定量指标4.1.1非劣效性试验按照单侧的检验水准,要求允许的二类误差概率不超过,在T=S的条件下,非劣效性试验每组需要的样本含量为:n=2(Z1-z1-)(s/)2检验效能为:1-=(2s2/n)-1/2-z1-式中s为两组的合并标准差。n为每组

15、的样本含量。代表标准正态分布下x左侧的概率Pr。例3:上例继续。若按非劣效性设计试验,假定,=0.05,=0.10,将有关量:z0.95=1.645,z0.90=1.282,s= 8mmHg,=3mmHg代入公式则可求得每组的样本含量为:n=2(1.6451.282)(8/3)2=121.81224.1.2等效性试验按照双侧的检验水准(等同于按单侧的/2),要求允许的二类误差概率不超过,在T=S的条件下,等效性试验每组需要的样本含量为:n=2(Z1-/2z1-)(s/)2检验效能为:1-=2(2s2/n)-1/2-z1-1例4:上例继续。假定各参数不变,只是按等效性试验来进行设计,则每组需要样

16、本含量:n=2(1.961.282)(8/3)2=149.5150可见,等效性试验设计的每组的样本含量要比非劣效性试验增加近30例。4.1.3优效性试验优于阳性标准对照组的试验:按照单侧的检验水准,要求允许的二类误差概率不超过,在T优于S的效应差量为,即T-S=的条件下,优效性试验每组需要的样本含量为:n=2(Z1-z1-)(s/)2检验效能为:1-=(2s2/n)-1/2-z1-例5:上例继续。假定单侧=0.05,=0.10,=2。即按0.05的检验水准,在90的把握度下,检出试验组比阳性对照组优2mmHg每组所需的样本含量为:n=2(1.6451.282)(8/2)2=274.2274优于

17、安慰剂组的试验:按照单侧的检验水准,要求允许的二类误差概率不超过,在T优于S有临床意义的差量为时,优效性试验每组需要的样本含量为:n=2(Z1-z1-)(s/)2检验效能为:1-=(2s2/n)-1/2-z1-例6:上例继续。假定设计为优于安慰剂的试验。单侧=0.05,=0.10,=10。即按0.05的检验水准,在90的把握度下,检出试验组比安慰剂组优10mmHg每组所需的样本含量为:n=2(1.6451.282)(8/10)2=10.9712由上可见,采用阳性对照的非劣效性试验、等效性试验、优效性试验所需的样本含量均比安慰剂对照试验要大。因为:z1-<z1-/2, <<,所

18、得的样本含量由少到多可依次排列为:安慰剂对照优效试验、非劣效性试验、等效性试验和阳性对照优效试验。例如,若取 /2,进行阳性对照等效性试验所需的样本含量至少是安慰剂对照优效性试验的4倍。上面的例子中为的1/3,阳性对照的非劣效性试验所需的样本含量约是安慰剂对照试验的10倍,其他的情形更甚。4.2率指标有关的数学符号及意义同定量指标。4.2.1非劣效性试验按照单侧的检验水准,要求允许的二类误差概率不超过,在两组总体率T=S=的条件下,非劣效性试验每组需要的样本含量为:n=2(1-)-2(z1-z1-)2检验效能为:1-=(1-)(2/n)-1/2-z1-例7:治疗手足癣常规推荐伊曲康唑100mg

19、用药4周方案,考虑到该药有极高的组织亲和性,停药后可在角质层持续停留4周,这种药动学特性提示服药 1周的短程疗法可能对皮肤真菌病有效。为此设计了400mg1周和100mg4周的比较试验,考察新方案的疗效是否不比常规方案差。以临床治愈率作为评价终点,假设两方案的疗效相同,根据以前的疗效及有关要求,取:T=S=0.80,=0.15,=0.05,=0.20。则z0.95= 1.645,z0.80=0.845,每组需要的样本含量按公式计算如下:n=2(1.6450.845)2=88.2884.2.2等效性试验按照双侧的检验水准(等同于按单侧的/2),要求允许的二类误差概率不超过,在两组总体率T=S=的

20、条件下,等效性试验每组需要的样本含量为:n=2(1-)-2(z1-/2z1-)2检验效能为:1-=2(1-)(2/n)-1/2-z1-1例8:上例如保持各项参数不变,只是按照等效性试验来设计,其每种方案所需的样本含量为:n=2(1.9600.845)2=111.9112值得提出的是,以上非劣效性等效性试验样本含量的计算均建立在两组的真实差别为0,即在T=S的前提下,按检验水准能检验出非劣效性等效性的概率作为检验效能。如果试验药效实际上低于阳性对照药,但在以内时(这在理论上和实际中均是完全可能的),此时如仍用上述的计算公式计算样本含量,将会低估这一检验效能时所应该需要的样本含量,或者说达不到目前

21、预定的检验效能。例如,按照T=S=0.90,=0.1,=0.05, =0.20设计的等效性试验每组需要142例,如果试验组的的真实疗效是85而不是90,两组差别仅为5,小于允许的10(=0.1),仍符合等效性的条件。此时如果每组用142例进行试验,则下等效结论的机会仅为25,检验效能很小,说明样本含量不够。当然,在实际工作中样本含量的估计还应考虑到病人的脱落等问题,此不祥述。5 讨论传统假设检验差别无显著性(P>)与非劣效性/等效性试验的非劣效/等效(P)是两种不同的概念,前者表示现有数据因例数少、误差大或参数本身相近等原因尚不能作出两组差别有统计学意义的结论,后者表示根据临床专业上的界

22、值标准及统计上的水准,可作出两组非劣效或等效且有统计学意义的结论。从理论及实际分析看,两组差别无统计学意义(P>),不一定存在非劣效性或等效性;两组差别有统计学意义(P),也可能是非劣效或等效的,因此,一般假设检验意义下的结论决不可代替非劣效性或等效性检验。从实际的结果看,若试验用药组和标准阳性对照组样本效应值的差值小于时,可进行非劣效性/等效性的评价。如果T组比S组样本效应的差值比还大时,则无需做上述的任何检验,因为即便做了也必定得不出非劣效或等效的结论。如果T组比S组的样本效应值好的幅度比大时,倒是可以做一下临床意义上的优效性检验,以确认T的疗效在临床疗效上确实比S好,这在临床研究中

23、也是具有非常重要实际意义的。如果开始是按照非劣效性试验来设计的,而且T样本的效应好于S样本,当非劣效性试验的无效假设被拒绝,而可以推断T比S具有非劣效性时,可进一步检验T的优效性。我们可称之为两步法或步进法。Morikawa和Yoshida概括为“单侧等效性检验与单侧优效性检验组合法”。尽管在实际中并不一定要求对检验水准进行校正,但是,要想这样做,应在设计阶段考虑到,并事先在试验方案中讲明,而不是到统计分析阶段根据检验结论的提示才想到要作进一步分析。因为我们经常用阳性对照,试验药和阳性药在临床疗效上非劣效、相当或优效时,习惯上都笼统地称为“等效”,可以批准上市。但严格意义上的等效性与之是有区别的,正如生物利用度等效性研究中的等效性一样,试验药比阳性药效应低到一定程度或高到一定程度都不能说等效。实际上,临床等效性并不要求这么严格,因为我们最关心的是新药是否不比阳性对照药差,至于在另一个方向上的好与不好并不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论