统计第十七章生存分析_第1页
统计第十七章生存分析_第2页
统计第十七章生存分析_第3页
统计第十七章生存分析_第4页
统计第十七章生存分析_第5页
已阅读5页,还剩75页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2022年8月5日生存分析主讲人: 胡平成2015年7月第十七章 生存分析2022年8月5日生存分析主要内容基本概念 Cox比例风险回归模型 生存曲线的log-rank检验 生存率估计与生存曲线2022年8月5日生存分析临床试验研究通常观察各个对象在各个时点上事件的发生情况(结局),以评价临床疗效。 在比较不同疗法的疗效时,不仅要考虑是否有效,还要考虑从试验开始到产生疗效的时间。例如:甲药平均3天治愈80%,乙药平均7天治愈80%,则可以认为甲药比乙药的疗效好。2022年8月5日生存分析生存分析(survival analysis)是将事件的结果(终点事件)和出现这一结果所经历的时间结合起来分

2、析的一种统计分析方法。能分析完全数据的资料,同时也可以分析包含不完全数据的资料生存分析不同于其它多因素分析的主要区别点就是生存分析考虑了每个观测出现某一结局的时间长短。基本概念2022年8月5日生存分析基本概念生存时间(survival time):是任何两个有联系事件之间的时间间隔,终点(失效)事件与起始事件之间的时间间隔,常用符号t表示。狭义的生存时间常指患某种疾病的病人从发病到死亡所经历的时间跨度,广义的生存时间定义为从某种起始事件到终点事件所经历的时间跨度2022年8月5日生存分析例:急性白血病病人从发病到死亡之间的时间,冠心病病人两次发作之间的时间间隔,戒烟开始到重新吸烟之间的时间长

3、短,接触危险因素到发病的时间跨度等。生存分析中最基本的问题就是计算生存时间,要明确规定事件的起点、终点及时间的测度单位(如小时、日、月、年等)。2022年8月5日生存分析失效事件(failure event)指反映治疗效果特征的事件,又称为死亡事件、终点事件。 据研究目的而定,设计时事先明确规定,研究中严格遵守。如肾移植病人因肾功能丧失引起的死亡,急性白血病患者的复发,癌症患者的死亡等。 2022年8月5日生存分析起始事件(initial event)是反映生存时间起始特征的事件,如疾病确诊、某种疾病治疗开始、接触毒物等,设计时也需要明确规定 2022年8月5日生存分析生存时间举例 起始事件

4、终点(失效)事件 服药 痊愈 手术切除 死亡 染毒 死亡 化疗 缓解 缓解 复发2022年8月5日生存分析临床试验及其随访资料的特点 一部分研究对象可观察到死亡,从而得到准确的生存时间,所提供的信息是完全的,称为完全数据(complete data) 一部分病人,或中途失访,或到观察结束时仍存活,对这部分病人无法知道准确的生存时间,只知道其生存时间比观察到的时间要长,它提供不完全的信息,称为不完全数据,亦称截尾数据(censored data) 2022年8月5日生存分析生存时间的类型完全数据complete data:从起点至死亡(死于所研究疾病)所经历的时间。截尾数据(删失数据,censo

5、red data)从起点至截尾点所经历的时间。截尾原因:失访、死于其它疾病、观察结束时病人尚存活等。2022年8月5日生存分析 2022年8月5日生存分析生存率:survival rate, survival function )指观察对象经历t个单位时段后仍存活的可能性。2022年8月5日生存分析资料收集随访内容 确定开始随访的时间 如入院时间、确诊时间、开始治疗时间等。例如:乳腺癌:乳腺切除的第一天,或出院日; 白血病:出院日,或开始治疗的日期确诊时间、手术时间、开始治疗时间、出院时间等相对较确切,常作为随访开始时间。2022年8月5日生存分析随访的结局可能有以下几种:“死亡”,即处理失效

6、,终止时间即为“死亡”时间;生存但中途失访,包括拒绝访问、失去联系或中途退出试验,其终止时间以最后一次访问时间为准;死于其他与研究疾病无关的原因,如肺癌患者死于心肌梗死、自杀或车祸等,其终止随访的时间为死亡时间;随访截止,随访研究结束时观察对象仍存活,终止随访时间为研究结束时间。2022年8月5日生存分析影响生存时间的有关因素(协变量) 如患者的年龄、病程、术前健康状况、经济、文化、职业等,以便分析这些因素对生存时间的影响。2022年8月5日生存分析随访方式全体观察对象同时接受处理措施,观察到最后一例出现结果,或者事先规定的随访截止时间,如图17-1a。全体观察对象在不同时间接受治疗处理,完成

7、一定数量随访病例后决定随访截止时间,或按事先规定的时间停止随访,这是临床试验最常见的形式,如图17-1b。 2022年8月5日生存分析图中“”表示“死亡”,“o”表示失访、退出研究或死于与本研究无关的其他原因。2022年8月5日生存分析生存分析研究的主要内容描述生存过程 研究生存时间的分布特点,估计生存率及平均存活时间,绘制生存曲线等。根据生存时间的长短,可以估计出各时点的生存率,并根据生存率来估计中位生存时间,同时也可根据生存曲线分析其生存特点。 采用Kaplan-Meier法,寿命表法2022年8月5日生存分析比较生存过程 可通过生存率及其标准误对各样本的生存率进行比较,以探讨各总体的生存

8、过程是否有差别。例如比较手术治疗和化学治疗乳腺癌患者的生存率,以探讨何种治疗方案效果较好。 采用log-rank 检验2022年8月5日生存分析影响生存时间的因素分析 其重点是通过生存分析模型来探讨影响生存时间的因素,通常以生存时间和结局作为应变量而将影响他们的因素作为自变量,比如年龄、性别、病理分型、治疗方式等。通过拟合生存分析模型,筛选影响生存时间的保护因素和有害因素。 采用COX比例风险模型分析2022年8月5日生存分析生存分析的基本方法非参数法 其特点是不论资料是什么样的分布形式,只根据样本提供的顺序统计量对生存率进行估计,常用的方法有乘积极限法和寿命表法。对于两个及多个生存率的比较,

9、其无效假设只是假定两组或多组总体生存时间分布相同,而不对其具体的分布形式及参数进行推断。2022年8月5日生存分析参数法 其特点是假定生存时间服从于特定参数的分布,然后根据已知分布的特点对影响生存时间进行分析,常用的方法有指数分布法、Weibull分布法、对数正态回归分析法和对数logistic回归分析法等。参数法通过估计的参数得到生存率的估计值。对于两组及以上的样本,可根据参数估计对其进行统计推断。 2022年8月5日生存分析半参数法 半参数法兼有参数法和非参数法的特点,主要用于分析影响生存时间和生存率的因素,属多因素分析方法,其典型方法是Cox模型分析法。2022年8月5日生存分析生存率的

10、估计与生存曲线小样本资料生存率及其标准误的计算生存率的计算:当随访的病例数较少时,不需要对病人的随访时间进行分组,而是直接计算其生存率。生存率的计算常采用乘积极限法(product- limited method),该法由Kaplan-Meier于1958年提出,故又称为Kaplan-Meier法。它利用条件概率及概率乘法的原理来计算生存率。2022年8月5日生存分析例17-1:有人研究了甲种手术方法治疗肾上腺肿瘤病人23例的生存情况,定义从手术后到病人死亡的时间为生存时间,得到的生存时间(月)如下,其中有“+”者是截尾数据,表示病人仍生存或失访,括号内为重复死亡数。1,3,5(3),6(3)

11、,7,8,10(2),14+,17,19+,20+ ,22+,26+,31+,34, 34+,44,59。试计算其生存率与标准误。2022年8月5日生存分析2022年8月5日生存分析2022年8月5日生存分析 2022年8月5日生存分析2022年8月5日生存分析2022年8月5日生存分析2022年8月5日生存分析生存率的标准误的计算 有两种方法,其公式分别为(17-3)(17-4)2022年8月5日生存分析2022年8月5日生存分析2022年8月5日生存分析2022年8月5日生存分析2022年8月5日生存分析生存曲线 以生存时间为横轴、生存率为纵轴绘制一条生存曲线(survival curve

12、),用以描述其生存过程。并根据两条生存曲线的高低,直观的比较不同治疗方式之间的生存过程。2022年8月5日生存分析例17-2 假定用乙种手术方式治疗了与上例病情一致的肾上腺肿瘤病人20例,其生存时间和死亡情况为1(2),2,3(2),4(3), 6(2),8,9(2),10,11,12,13,15,17,18,括号内为死亡人数,用例17-1相同的方法计算的生存率及其标准误见表17-2。2022年8月5日生存分析2022年8月5日生存分析根据表17-1和表17-2计算的生存率,绘制的生存曲线见图17-2。由于乘积极限法只估计生存时间上的生存率及其标准误,故其对应的生存曲线是阶梯曲线。从图中可以看

13、出,乙种手术方式生存曲线较低,说明其生存率较低,而甲种手术方式的生存曲线较高,说明其生存率较高,这种生存曲线又称为K-M曲线。2022年8月5日生存分析图17-2 两种手术治疗方式术后病人生存曲线的比较 2022年8月5日生存分析中位生存时间(median survival time ) 又称为生存时间的中位数,表示刚好有50%的个体其存活期大于该时间。它是生存分析中最常用的概括性统计量。计算中位生存时间的方法有两种,即图解法和线性内插法 2022年8月5日生存分析图解法是利用生存曲线图(见图17-2),从纵轴生存率为0.5处划一条对横轴的平行线与生存率曲线相交,然后自交点划垂线与横轴相交,此

14、交点即为中位生存时间。图解法比较简单直观,但其结果较粗略,在例数较少时,结果的误差较大 2022年8月5日生存分析2022年8月5日生存分析大样本资料的生存分析在样本较大时,随访病例的生存时间常可按年、月或日进行分组,得到具有若干时间段生存数据的频数表。对于分组的生存数据可按寿命表(life table)法计算生存率,其基本原理是首先求出患者在治疗后各时期的生存概率,然后根据概率的乘法原理,将各时期生存概率相乘,即得到从开始观察到各个时点的生存率。并对生存率或生存分布之间的差别进行假设检验。2022年8月5日生存分析计算生存率:将生存资料以经历时间的长短分成若干时间区间,死亡和截尾的例数分别列

15、入各时间区间内,并整理成表格的形式后计算生存率。2022年8月5日生存分析例17-3:某研究者收集了男性心绞痛患者2418例,经随访将有关资料整理后列于表17-3,其中生存时间是以年计算的,试计算其生存率及其标准误。2022年8月5日生存分析2022年8月5日生存分析2022年8月5日生存分析2022年8月5日生存分析2022年8月5日生存分析生存率曲线 分别将样本不同时点(时间区间的中点)的生存率绘在方格坐标纸上,以直线相连即得到生存率曲线图,不同样本间的生存率可进行直观的分析比较。图17-3是根据表17-3中生存时间及生存率所绘制的生存率曲线。对于大样本资料,同样可以采用图解法和线性内插法

16、计算其中位生存时间。其方法与小样本资料相同。2022年8月5日生存分析图17-3 男性心绞痛病人的生存曲线2022年8月5日生存分析生存曲线的log-rank检验 log-rank检验的基本思想是:实际死亡数与期望死亡数之间的比较。它是对各组生存率作整体的比较,故应用范围较广。它适用于两组及多组生存率之间的比较。这里只介绍两组生存率之间的比较方法。例17-4 据用例17-1和例17-2的资料,问甲种手术方式后和乙种手术方式后病人的生存率有无差别?2022年8月5日生存分析 2022年8月5日生存分析2022年8月5日生存分析2022年8月5日生存分析2022年8月5日生存分析2022年8月5日

17、生存分析对于大样本资料生存率的比较,可以将其整理成频数表的形式,其基本原理与上述方法相同。用log-rank检验对样本的生存率进行比较时,要求各组生存曲线不能交叉,生存曲线的交叉提示存在某种混杂因素,此时应采用分层的办法或多因素的办法来校正混杂因素。另外,当假设检验推断有差别时,可以通过生存曲线、半数生存期及相对危险度等指标来评价其效果。2022年8月5日生存分析 Cox比例风险回归模型(17-15) 2022年8月5日生存分析应用实例例17-5 为探讨某恶性肿瘤的预后,收集了63例病人的生存时间、结局及影响因素。影响因素包括病人的治疗方式、肿瘤的浸润程度、组织学类型、是否有淋巴结转移及病人的

18、性别、年龄,生存时间以月计算,变量的赋值和收集的原始资料见表17-5和表17-6。试用Cox模型进行分析。2022年8月5日生存分析2022年8月5日生存分析2022年8月5日生存分析采用逐步回归法进行Cox模型分析,配合模型时,进入模型和从模型中剔除变量的水准分别定为0.05和0.06。筛选后的最佳模型包含两个协变量,为x4和x5。默认的情况下,统计软件提供了检验Cox模型有无统计学意义的三种方法,分别为对数似然比检验、Wald检验和计分检验,其对应的P值分别为0.0001、0.0002、0.0007,表明配合的Cox模型具有统计学意义。具体结果见表17-7。2022年8月5日生存分析据表1

19、7-7,从协变量x4 治疗方式)来看,其对应的回归系数为1.7616,标准误为0.5480,值为0.0013,说明该协变量对生存时间有影响。其对应的相对危险度为5.822,说明传统的治疗方式和新的治疗方式相比,病人死亡的风险为5.822倍,总体相对危险度的95%的可信区间为1.98917.039。同样可以分析协变量的含义。 2022年8月5日生存分析Cox模型的注意事项及应用范围注意事项设计阶段应注意的问题 在收集资料时,都要注意研究资料的代表性及可靠性,保证研究对象是总体中的一个随机样本 研究的协变量在研究对象中的分布要适中,否则会给参数的估计带来困难,如一个协变量在每个观察对象中取值都相同

20、,则无法估计出该因素对生存时间的影响; 2022年8月5日生存分析不论是研究疾病的发病因素还是研究疾病的危险因素,应将一切可能因素都包括在调查分析之中,特别是对主效应有影响的因素,否则容易造成分析结果的偏差; 所研究的生存时间要有明确的规定,如果以“发病”作为观察的起点,则要对“发病”有一个明确的规定,对终止事件也要有一个明确的规定,如果将“治愈”作为结局的终止事件,则要对“治愈”有一个明确的规定; 2022年8月5日生存分析 Cox模型应用较灵活,观察对象进入研究队列的早晚、时间长短可以不一致,但在设计时要注意受时间影响的变量,如果研究的变量随时间而发生变化,可以采用伴时协变量的Cox模型进

21、行分析。Cox模型分析时,样本含量不宜过小,随着协变量的增加其样本含量应适当的增加,要求样本含量为观察协变量的520倍。如果比较两种药物治疗的效果,应使两组的样本例数基本一致,避免相差悬殊。尽管Cox模型可以分析截尾的生存时间,但在观察时,要尽量避免观察对象的失访,因为过多的失访容易造成研究结果的偏倚。2022年8月5日生存分析模型配合时应注意的问题 Cox模型作为一种多元统计分析方法,不可避免的会遇到多元共线性的问题。医学研究中的许多变量间并不是独立的,但通常不会影响分析的结果,如果变量间存在高度的相关,则会影响Cox模型的参数估计,此时可采用主成分分析法或R型聚类分析法消除多元共线性的影响

22、。在进行Cox模型分析前,应当对资料做单因素的统计分析,单因素分析常用的方法有2检验、log-rank检验等。选择单因素分析有统计学意义的变量进行Cox模型分析2022年8月5日生存分析 单因素统计分析的结果可与Cox模型分析的结果进行比较,以分析影响生存时间的因素。另外,Cox模型还要求病人的风险函数与基础风险函数呈比例,如果这一假定不成立,则不能用Cox模型进行分析。Cox模型与其他回归分析一样,当进入模型中的因素有统计学意义时,该因素与生存时间可能是因果关系,也可能是伴随关系。2022年8月5日生存分析 Cox模型要求病人死亡的风险与其基础风险在所有生存时间点上都保持一个恒定的比例。有些

23、情况下,病人死亡的风险与其基础风险之比随时间变化而变化,此时不宜用Cox模型筛选病人的危险因素。另外,当两组病人的生存率曲线呈明显交叉时,说明存在影响病人生存的混杂因素,此时需采用其他统计分析方法,剔除混杂因素的影响后,再配合Cox模型进行分析。2022年8月5日生存分析Cox模型的局限性 在用Cox模型估计参数时,首先要假定偏似然函数具有最大似然的性质,这一假定在理论上尚待进一步完善。Cox模型对异常值较为敏感,所以在进行模型拟合时要注意拟合优度的检验。Cox模型估计参数时的工作量较大,尤其在大样本和因素较多的情况下,进行Cox模型分析需耗费一定的时间。另外,该模型的理论复杂,这也是影响其应用的原因之一。2022年8月5日生存分析 Cox模型在估计参数时,不是利用精确的生存时间,而是利用生存时间的顺序统计量,损失了一定的样本信息。当引进的协变量随时间的变化而变化较大时,偏似然函数损失的信息也

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论