统计学-第十周生存分析—李琳琳老师_第1页
统计学-第十周生存分析—李琳琳老师_第2页
统计学-第十周生存分析—李琳琳老师_第3页
统计学-第十周生存分析—李琳琳老师_第4页
统计学-第十周生存分析—李琳琳老师_第5页
已阅读5页,还剩61页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、19 生存分析,举例:某医院泌尿外科医师选择1996-2000年间经手术治疗的膀胱肿瘤患者30例,对可能影响膀胱肿瘤术生存因素进行了调查,结果如下:,表19-2 30例膀胱肿瘤患者生存资料的原始记录表,对缺损数据无法处理。,Logistic分析的缺陷:,只考虑终点事件的出现与否。 但在研究中,还需要考察对象到达终点时所经历时间的长短,也就是说研究者对医学事件发生、发展所经历的时间感兴趣。 如恶性肿瘤、慢性病等各个观察对象随访各时间点的发生情况,以评价临床疗效和控制的好坏。,生存分析,19.1 概 述 19.2 生存率的估计 19.3 生存曲线的比较 19.4 Cox比例风险回归模型,19.1

2、概 述,主要特点:考虑到了每个研究对象出现某一结局所经历的时间长短。,生存分析(survival analysis) 将终点事件和出现终点时间所经历的时间结合起来分析的一类统计分析。,几个名词:,1., 疾病确诊 死亡 痊愈,死亡 治疗开始 复发 痊愈, 症状缓解 疾病恶化 接触毒物 出现毒性反映 接触危险因素 发病,2. 生存时间 (survival time) /失效时间(failure time) : 从规定的观察起点到某一给定终点事件出现的时间。,3. 完全数据 删失数据(截尾数据) 完全数据:当观测到某病人明确结局时,该病人提供的时间信息是完整的,称完全数据,用符号“ t ”表示。

3、删失数据:由于某种原因未能观察到病人的明确结局,不知道其确切的生存时间,就象病人生存时间在未达到规定的终点就被截尾一样,又称截尾数据,用符号“ t+ ”表示。, 研究结束时终点事件尚未发生; 失访:病人搬迁、失去联系等; 患者死于其它原因,或因严重药物反应而终止观察。,产生删失的原因:,随访研究:,患者进入期间,研究截止时点2000/12/30,删 失,生存分析的度量单位: 可以是年、月、日、小时等; 资料特点:生存时间不服从正态分布,常呈现指数分布,Weibull分布、对数正态分布、对数Logistic分布、Gamma分布或更为复杂的分布,因此需要有能提供这类分布的特殊方法。,在处理正偏态分

4、布数据时两种错误的做法: 错误1:采用平均生存时间而不是采用中位生存时间来表示生存时间的平均水平。 错误2:采用常规t 检验或方差分析进行组间比较。(应采用log-rank检验比较几组生存时间 ),生存分析的特点:,处理删失/截尾数据时两种错误的做法: 错误1:只考虑确切数据,丢弃截尾数据(损失信息); 错误2:将截尾数据当作确切数据处理(低估了生存时间的平均水平)。,针对单位时间的, 死亡概率(probability of death):表示某单位时段开始存活的个体,在该时段内死亡的可能性;如年死亡概率。,注意:如果年内有删失,则分母用校正人口数: 校正人口数 = 年初人口数删失例数/2,

5、生存概率(probality of survival) :单位时段开始 时存活的个体,到该时段结束时仍然存活的可能性。,注意:若年内有删失,分母用校正人口数。, 生存率(survival rate) :0 时刻存活的个体经历 tk时个单位时间段后仍存活的可能性。,若资料中无删失数据时:,若资料中有删失数据,则须分段计算生存概率,再应用概率乘法定理将分时段的生存概率相乘得到生存率:,区分:生存率生存概率 生存概率是针对单位时间而言的; 生存率是针对某个较长时段的,是生存概率的累计结果。,故生存率又称为累积生存概率(cumulative probability of survival ),它是随着

6、时间的变化而变化着的,是关于时间的函数,称为生存函数(survival function)。,生存率的标准误:,第 j 个时间段内死亡人数,第 j 个时间段期初人口数,【举例】手术治疗50例肺癌病人,术后1,2,3年的 死亡数分别为10,10,10例,无截尾数据。试求各年的生存概率和3年生存率。 各年生存概率 p1 = ( 5010 )/50 p2 = ( 4010 )/ 40 p3 = ( 3010 )/30 3年生存率 S(3)=P(T3)=(5030)/50 =0.4,生存期的四分位数间距: QP75-P25 是反映离散程度大小的指标。, 中位生存期及四分位数间距,中位生存期(media

7、n survival time) :也称半数生存期,是生存时间中位数(M/P50),表示恰有50%的个体存活的时间,即生存率为50时对应的生存时间,是描述集中趋势的指标。 中位生存期越长,表示疾病的预后越好。, 风险函数(hazard function) : t 时刻存活的个体在t 时刻的瞬时死亡率。,h(t)近似地等于t 时刻存活的个体在此后一个单位时段内的死亡概率。,19.2 生存率的估计,生存率估计,或称乘积极限法(product limit method),大样本资料:寿命表法,小样本资料:kaplan-meier法,19.2.1 寿命表法(life table method),例19

8、-2 收集374名某恶性肿瘤患者的随访资料,取时间区间均为1年,整理结果见下午表,试估计各年生存率。,解析: 该生存资料为大样本,生存时间粗略且含有删失数据。 方法原理: 1. 计算期初有效例数,注意删失数据 期初有效例数=期初病例数-期内删失数/2 2. 计算死亡概率、生存概率 死亡概率=期内死亡数/期初有效例数 生存概率=1-死亡概率 3. 计算生存率。 4. 作生存曲线。,寿命表法,寿命表法曲线为折线。 该法只估计时段右端点的生存率,省略了时段内的生存率估计。,恶性肿瘤患者确诊后5 年内生存率下降较快,5 年后下降较平缓,说明确诊5年内该恶性肿瘤患者的死亡威胁较大。,19.2.2 乘积极

9、限法kaplan-meier法,例19-2 按下表数据,14例膀胱肿瘤3.0cm患者和16例膀胱肿瘤3.0cm患者的生存时间(月)如下,试估计两组生存率。,解析: 以“3.0cm”组为例,n=14,样本含量较小且含删失数据。 方法原理: 1. 将生存时间由小到大依次排列, 2.在每个时间区间上,计算死亡人数、删失人数、期初人数、死亡概率、生存概率和生存率。 3.作生存曲线。,乘积极限法kaplan-meier法,Kaplan-Meier法生存曲线为阶梯形曲线。,中位生存期,19.2.3 生存率的区间估计, 假定标准误近似正态分布,则标准误的1-置信区间为:, Greenwood法求生存率的近似

10、标准误:,【电脑实现】SPSS,1.数据录入,生存分析Kaplan-Meier,【 Group 】 1: 3.0cm;2: 3.0cm 【 dtime 】 生存时间(月) 【 Status 】0:删失数据 1:完全数据(结局事件),2. SPSS过程,3. 结果及结果输出:,19.3 生存曲线的比较 (Log rank 检验),【例19-3】 比较上例中膀胱肿瘤3.0cm患者和肿瘤3.0cm患者的生存曲线,就总体而言,两个生存函数是否有差别?,检验过程:,【注意事项】 Log-rank检验可用于整条生存曲线的比较,也适用于寿命表资料及多组生存率间的比较; Log-rank检验属于单因素分析方法

11、,其应用条件是除比较因素外,影响生存率的各混杂因素在不同的组间均衡。否则,可采用Cox回归。 可计算两组死亡的相对危险度(relative ratio,RR),肿瘤3.0组对肿瘤3.0组:,意义:肿瘤3.0组的死亡风险是对肿瘤3.0组的2.69倍。,19.4 Cox比例风险回归模型,几种分析模型用于生存资料分析的缺陷:,Log-rank检验属于单因素分析法,一次只能分析一个因素,那么对影响因素比较多的情况,就无法应对。 Logistic回归模型:可以事件的结局(定性资料)为反应变量,可以解决各因素对结局的影响,但不能解决生存期时间长短的问题。 多重线性回归模型,它要反应变量为定量资料,且服从正

12、态分布,而生存时间通常不呈正态分布。,Cox回归模型: 是由英国伦敦大学的Cox于1972年提出的,它是一种半参数模型; Cox 模型以生存结局和生存时间为因变量,可同时分析众多因素对生存期的影响,分析带有删失数据的资料,且不要求资料服从特定的分布类型; 主要用于研究多个因子对生存时间的影响。,Cox模型表达式:,h( t ):具有协变量X1、X2、Xp的个体在t 时刻的风险函数,近似地表示t 时刻存活的个体在之后的一个单位时段内的死亡概率;,h0( t ):基准风险函数(baseline hazard) 表示当X1=X2=Xp=0时,个体在t 时刻的风险函数。, 1、 2、 p:各协变量所对

13、应的回归系数。,举例: 30例膀胱肿瘤患者的随访记录,试进行患者生存情况的影响因素分析。,【电脑实现】SPSS,1.数据录入,生存分析Cox analysis,2. SPSS过程,3. 结果及结果输出:,列出Cox回归方程(风险函数表达式):,19.5 结果报告,附图:肿瘤3.0cm组和3.0cm组生存曲线 (K-M法),以Kaplan-Meier法估计肿瘤3.0cm组和3.0cm组的生存率,生存曲线如图1所示。其结果显示 :两组中位生存期分别为20个月和36个月;经log-rank检验, 两条曲线的差别有统计学意义,肿瘤3.0cm组的生存率高于肿瘤3.0cm组的。,结果报告1:,结果报告2:

14、,膀胱肿瘤死亡的影响因素分析见附表示,经多变量Cox比例风险回归分析显示,肿瘤分级(RR=5.367,95%CI 2.54011.340,P0.001)、肿瘤大小(RR=2.939,95%CI 1.1937.242,P0.02),以及是否复发(RR=2.662,95%CI 1.0806.560,P0.05)与死亡有关。 .,小 结,生存分析是将终点事件和达到终点事件所经历的时间结合起来分析的一种统计学方法,可用于生存率的估计、生存曲线比较、影响因素分析和生存预测。 生存曲线的非参数估计方法:寿命表法和Kaplan-Meier法,前者适用于大样本的分组资料;后者适用于小样本或大样本未分组资料,两

15、者均利用概率乘积法定理计算生存率。 Log-rank检验是两条或多条生存曲线比较的非参数方法之一,因其能对各组生存曲线作整体比较,实际工作中应用研究较多。 Cox模型属比例风险模型、乘法模型;Cox可用于影响因素分析、校正混杂因素后的组间比较以及多因素生存预测。,区分多重线性回归、logistic回归和Cox回归的异同。,案例分析(一),某医师收集30例肺癌术后患者的生存情况,有1例由于电话和地址错误无法随访到患者,他设计了以下几种处理方法: 把该病例去掉; 把这例患者写入SPSS数据,但末次随访时间空白,让SPSS自动去分析; 因为某一天(比如2006年9月1日)想随访这例患者但是没有随访到

16、,所以将末次随访时间写为随访当天的日期。另欲分析肺癌术后患者的中位生存期,计算结果为10个月,但是检查原始数据发现,生存时间为10个月的这个患者一直存活到随访结束,似乎与中位生存期的定义相矛盾。 .,请问: (1)该医师对这例失访患者的处理是否恰当?为什么?正确的处理方法是什么? (2)另有1例患者死于脑梗死,生存分析时应如何处理? (3)该医师的发现是否与中位生存期的定义相矛盾?为什么?.,答案: (1)该医师对这例失访患者的三种处理都不恰当。应作为删失病例,删失生存时间的计算为从手术切除到最后一次随访的时间。 (2)死于脑梗死的病例同样应当作为删失病例。死于脑梗死的病例应当作删失病例,删失

17、生存时间的计算为从手术切除到死于脑梗死的时间。 (3)属于概念不清而产生的怀疑。该医师的发现与中位生存期的定义并不矛盾,中位生存期不能与个体生存时间相混淆。,案例分析(二),评价A、B两种治疗方案对某病的治疗效果,A组(group0)12人,B组(group1)13人。患者分组后检查其肾功能(kidney),功能正常者记为0,异常者记为1。治疗后生存时间为time(天),生存结局status0表示删失,status1表示死亡。 .,甲医师以生存结局为观察指标,整理得A、B两组死亡情况。考虑到例数较少,采用Fisher确切概率法,得P0.097,说明两种治疗方法疗效差别无统计学意义。,乙医师以生存时间为观察指标,考虑到肾功能是否异常为可能混杂因素,采用多重线性回归

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论