生存分析sun课件_第1页
生存分析sun课件_第2页
生存分析sun课件_第3页
生存分析sun课件_第4页
生存分析sun课件_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生存分析survival analysis 孙秀彬1何为生存分析2传统方法在分析随访资料时的困难时间和生存结局都成为了要关心的因素 除了生存结局作为判定标准以外,只要能让病人存活时间延长,这种药物也应当是被认为有效的。即时间延长也认为有效 如果将两者均作为应变量拟和多元模型,因为时间分布不明(一般不呈正态分布,在不同情况下的分布规律也不同),拟和多元模型极为困难3传统方法在分析随访资料时的困难存在大量失访的资料失去联系(病人搬走,电话号码改变)无法观察到结局(死于其他原因)研究截止 显然,将失访数据无论是算作死亡还是存活似乎都不大合理4生存分析的历史与应用17、18世纪:寿命表的提出及其应用。

2、1926年:Greenwood提出评价生存函数的误差的方法Greenwood公式。1958年:生存函数的计算方法Kaplan-Meier法(乘积极限法product-limit)的提出。1960年代中叶:生存时间的组间比较方法的开发广义Wilcoxon秩和检验(Gehan,1965年);对数秩检验(log-rank test)又称时序检验(Mantel,1966年)。1970年:将协变量的影响模型化参数模型:假设生存时间服从Weibull分布、对数正态分布等;半参数模型:比例风险模型(Cox,1972年),又称Cox回归模型。5一、基本概念 (一)生存时间(survival time):1定义

3、:广义的生存时间是指从某个起始事件开始到某个终点事件的发生(出现反应)所经历的时间。也称失效时间(failure time)。2特点:(1)分布类型不易确定。一般不服从正态分布, 有时近似服从指数分布、Weibull分布、 Gompertz分布等,多数情况下往往不服从任 何规则的分布类型。 7(2)生存时间的影响因素多而复杂且不易控制。(3)根据研究对象的结局,生存时间数据可分两种类型:完全数据(complete data):观察对象在观察期内出现反应(终点事件),这时记录到的时间信息是完整的,这种生存时间数据称为完全数据。 截尾数据(截尾值、删失数据,censored data):尚未观察到

4、研究对象出现反应(终点事件)时,即由于某种原因停止了随访,这时记录到的时间信息是不完整的,这种生存时间数据称为不完全数据或截尾值。常用符号“”表示。 8关于截尾或删失随访开始事件失访失访研究截止时仍存活研究截止时点患者进入期间删失的模式图101112141517风险函数与生存函数的关系18192021第二节 生存率估计的非参数法 2224252728293031323334第三节 生存率的比较 生存率比较的假设检验方法有参数法、半参数法和非参数法,非参数法是将生存率曲线作为整体进行曲线与曲线之间的比较,其零假设为各总体生存率曲线相同。常用的非参数检验方法有: log-rank 检验(时序检验)

5、生存时间分布近似呈weibull分布或者属于比例风险模型时效率较高; 似然比检验(likelihood ratio test)生存时间分布近似呈指数分布时效率较高; wilcoxon检验 (又称Breslow检验) 生存时间分布近似呈对数正态分布时效率较高;35363738394041续表42对于大样本资料生存率的比较,可以将其整理成频数表形式,采用寿命表法计算生存率然后进行比较,其基本原理与上述方法相同。 43第四节 Cox比例风险回归模型 4445一、Cox比例风险回归模型的基本形式 看下面例子46如果分析x1-x6这6个因素对生存时间t的影响,能否用线性回归分析建立时间t与影响因素间的线

6、性回归方程?或建立生存函数S(t)与影响因素间的线性回归方程? t=b0+b1x1+b2x2+b6x6 ?S(t) =b0+b1x1+b2x2+b6x6 ?1、生存时间t一般不服从正态 分布;2、生存时间t中含有截尾值。47利用生存率函数S(t,X)与风险函数h(t,X)的关系可导出 反映了协变量X与生存函数的关系 Cox模型的基本形式 48所有危险因素为0时的基础风险率,它是未知的,但假定它与h(t,X)是呈比例的。 右侧可分为两部分:h0(t)没有明确的定义,分布无明确的假定,参数无法估计,为非参数部分;另一部分是参数部分,其参数可以通过样本的实际观察值来估计的,正因为Cox模型有非参数和

7、参数两部分组成,故又称为半参数模型。 495051525354二、Cox回归分析的步骤: 确定自变量和因变量参数估计,拟和模型对模型的假设检验模型的解释及应用对模型的拟和优度检验 55模型的参数估计(一)参数估计-偏似然估计 5657代表ti时刻以后危险集R(ti)中对似然函数作贡献的个体 将n个病人死亡的 条件概率相乘 58两边取自然对数可以解决截尾值问题59(二) 建立最佳模型为建立最佳模型常需对研究的因素进行筛选,筛选方法有前进法、后退法和逐步回归法。实际工作中要根据具体情况选择使用,最常用的为逐步回归法。因素筛选时需规定显著性水平,一般情况下初步筛选因素的显著性水平确定为0.1或0.1

8、5,设计较严格的研究显著性水平可确定为0.05。另外,筛选因素时,还要考虑因素间共线性的影响。当存在共线性时,应考虑消除共线的影响,如采用主成分回归等方法。60模型的假设检验 616263Cox模型的解释及应用 探索结局事件发生的危险因素,分析各因素的作 用大小 。计算个体预后指数(prognosis index, PI),对个体进行定性的预后评价。 通过估计生存率,对群体定量地进行预后评价。 64影响因素Xi的标准差 u 分布的界值 相应偏回归系数的标准误 656667ti时刻的基础生存率公式 ti时刻的基础累计风险函数公式在ti时刻的死亡人数 ti时刻的生存率计算公式 68Cox模型的拟合

9、优度 可将研究对象按个体预后指数恰当地分组,用乘积极限法估计各组的生存率曲线,并与按Cox模型预后指数分类的生存率曲线在同一坐标系内进行比较,若两种曲线具有一致性,说明模型拟合较理想。 69Cox回归分析的应用实例 7071调用Cox模型分析模块 ,分析数据集为cox建立生存时间为t ,截尾指示变量为d 的Cox模型,d 取值为1时表示截尾 选入和剔出水平均为0.05计算筛选因素的相对危险度及其95%的可信区间 72 The SAS System 12:32 Wednesday, April 28, 2006 1 The PHREG Procedure Model Information Da

10、ta Set WORK.AA16 Dependent Variable t Censoring Variable d Censoring Value(s) 1 Ties Handling BRESLOW Summary of the Number of Event and Censored Values Percent Total Event Censored Censored 63 26 37 58.73数据集信息的简单描述73 Step 1. Variable x4 is entered. The model contains the following explanatory varia

11、bles: x4 Convergence Status Convergence criterion (GCONV=1E-8) satisfied. Model Fit Statistics Without With Criterion Covariates Covariates -2 LOG L 201.994 187.690 AIC 201.994 189.690 SBC 201.994 190.948 Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr ChiSq Likelihood Ratio 14.3038 1 0

12、.0002 Score 13.0399 1 0.0003 Wald 10.2634 1 0.0014逐步回归法筛选变量74Step 2. Variable x5 is entered. The model contains the following explanatory variables: x4 x5Convergence Status Convergence criterion (GCONV=1E-8) satisfied. Model Fit Statistics Without With Criterion Covariates Covariates -2 LOG L 201.99

13、4 182.777 AIC 201.994 186.777 SBC 201.994 189.293 Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr ChiSq Likelihood Ratio 19.2168 2 ChiSq 1 x4 1 13.0399 . 0.0003 2 x5 2 4.7039 . 0.0301筛选过程总结Analysis of Maximum Likelihood Estimat Parameter Standard Hazard 95%HR Variable DF Estimate Error

14、Chi-Square PrChiSq Ratio Confidence Limits x4 1 1.76128 0.54785 10.3356 0.0013 5.820 1.989 17.031 x5 1 0.93133 0.44455 4.3890 0.0362 2.538 1.062 6.066最大似然估计结果治疗方式(x4):相对危险度为5.820,说明传统的治疗方式和新的治疗方式相比,病人死亡的风险为5.820倍,相对危险度的95%的可信区间为1.98917.031;淋巴结是否转移(x5)的RR值的含义与治疗方式相同。76四、Cox模型的适用范围Cox模型适用于生存资料的统计分析,属半

15、参数模型,对资料没有特殊的要求,也可以估计各因素的参数,并能做多因素的统计分析。该模型的主要优点在于能从众多的影响因素中排除混杂因素的影响,找出影响生存时间的因素,根据各因素的参数估计出个体的生存率。Cox模型能分析具有截尾数值的生存时间。Cox模型在临床流行病学分析中,使临床观察的定性指标又加上定量指标进行分析,提高了分析的效率。 77五、Cox模型的适用范围及注意事项 1设计阶段应注意的问题 样本的代表性要好。要注意资料的代表性及可靠性;样本含量不宜过小,一般在40例以上。随着协变量的增加观察的样本应适当的增加,要求样本的含量为观察协变量的5-20倍。所有危险因素要在设计时考虑全面,避免漏

16、掉重要因素和加入无关因素。生存时间的定义要明确。起始事件和终点事件要有明确规定,时间尽可能精确测量。78 1设计阶段应注意的问题(续)研究的协变量在研究对象中的分布要适中,否则会给参数的估计带来困难。在设计时要注意影响时间的效应因素。如研究吸烟对肺癌患者生存率的影响,若本来吸烟的人因患肺癌而戒烟,则一般模型不易分析吸烟的作用,需考虑吸烟量随时间变化的趋势。如果研究的因素随时间而发生变化,必要时可以采用伴时协变量的Cox模型进行分析。 79 2模型拟合时应注意的问题 多重共线性问题:医学研究中的许多变量间并不是独立的,但通常不会影响分析的结果,如果变量间存在高度的相关,则会影响Cox模型的参数估

17、计,此时可采用主成分分析法或R 型聚类分析法消除多元共线性的影响。应注意Cox模型要求病人的风险函数与基础风险函数呈比例,如果这一假定不成立,则不能用Cox模型进行分析。 80 3模型应用时应注意的问题 结果的解释应结合专业知识。Cox模型与其他回归分析一样,当进入模型中的因素有统计学意义时,该因素与生存时间不一定有因果关系,其中有一部分因素与生存时间的关系为伴随关系。Cox回归的生存率一般不宜用于不同资料之间的比较,因为基准危险率函数只在同一份资料内保持相同,不同资料的基准危险率往往不同;而且在多因素分析的情况下,协变量组合也很难一致,可比性难以保证。 81(三)Cox模型的局限性 Cox模型估计参数时,首

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论