版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多元统计分析方法第一页,共四十九页,2022年,8月28日生存分析SurvivalAnalysis第十章第二页,共四十九页,2022年,8月28日主要内容什么是生存分析?生存分析的基本概念生存分析的基本方法非参数分析方法Cox比例风险回归分析方法生存分析的注意事项第三页,共四十九页,2022年,8月28日数据的收集方式:横断面数据(cross-sectionaldata)在同一个时间点上收集的数据;纵断面数据(longitudinaldata)在连续的若干个时间点上收集的数据。---随防数据:50个人的术后存活时间---时间序列数据:近20年每年的肺癌死亡率第四页,共四十九页,2022年,8月28日在医学研究中,常常用追踪(followup)的方式来研究事物发展的规律。例如:了解某药物的疗效了解手术后的存活时间了解某医疗仪器设备的使用寿命这种研究的特点是追踪研究的现象都要经过一段时间,统计学上将这段时间称为生存时间。第五页,共四十九页,2022年,8月28日生存分析就是用来研究生存时间的分布规律以及生存时间和相关因素之间关系的一种统计分析方法。一、什么是生存分析?第六页,共四十九页,2022年,8月28日二、生存分析的基本概念生存时间生存时间数据的类型生存时间数据的特点生存分析资料的收集方法描述生存时间分布规律的函数生存分析的主要研究内容第七页,共四十九页,2022年,8月28日A)生存时间(survivaltime):从某起始事件起到某终止事件止所经历的时间跨度称为生存时间。例如,在临床研究中,急性白血病患者从骨髓移植治疗开始到复发为止之间的时间间隔。冠心病患者在两次发作之间的时间间隔。在流行病学研究中,从开始接触某危险因素到发病所经历的时间。在动物实验研究中,从开始给药到发生死亡所经历的时间。第八页,共四十九页,2022年,8月28日B)生存时间数据的类型完全数据(completedata):它准确地度量了观察对象实际生存的时间。截尾数据(censoreddata):它没有准确地度量观察对象实际生存的时间。例如,在随访过程中某些观察对象失访;或死于其它原因;或在规定的研究过程结束时观察对象的终止事件还未发生。第九页,共四十九页,2022年,8月28日C)生存时间数据的特点:
1)所有观察值取值非负
2)存在截尾数据生存分析资料的收集方法:
1)确定随访内容(指标变量)
2)确定随访人数(样本数)
3)确定随访的起始和终止时间同时开始,同时结束不同时间开始,同时结束不同时间开始,不同时间结束第十页,共四十九页,2022年,8月28日E)描述生存时间分布规律的函数: 1、生存函数2、死亡函数3、死亡密度函数4、风险函数第十一页,共四十九页,2022年,8月28日生存函数S(t):观察对象的生存时间T大于某时刻t的概率称为生存函数(survivalfunction)。S(t)满足条件:S(0)=1,S(∞)=0,且0≤S(t)≤1。死亡函数F(t):观察对象的生存时间T不大于某时刻t的概率称为死亡函数(failurefunction)。F(t)满足条件:F(0)=0,F(∞)=1,且0≤F(t)≤1。第十二页,共四十九页,2022年,8月28日死亡密度函数f(t):观察对象在某时刻t的瞬时死亡率称为死亡密度函数(failuredensityfunction)。风险函数h(t):生存到时刻t的观察对象在时刻t的瞬时死亡率称为风险函数(hazardfunction)。第十三页,共四十九页,2022年,8月28日F)生存分析的主要研究内容:1、描述生存过程2、比较生存过程3、分析危险因素4、建立数学模型第十四页,共四十九页,2022年,8月28日1、描述法2、非参数分析法3、参数分析法4、半参数分析法三、生存分析的基本方法第十五页,共四十九页,2022年,8月28日1、描述法:根据样本观察值提供的信息,直接用公式计算出每一时间点或每一个时间区间上的生存函数、死亡函数、风险函数等,并采用列表或绘图的形式来显示生存时间的分布规律。优点:方法简单,且对数据的分布无要求。缺点:1)不能比较两组或多组生存时间分布函数的区别;2)不能分析危险因素对生存时间的影响;3)不能建立生存时间与危险因素之间的关系模型。第十六页,共四十九页,2022年,8月28日例1、某研究者收集了两组急性淋巴细胞性白血病患者治疗后的随访资料,其中,有淋巴结浸润组(LA)18人,无淋巴结浸润组(NLA)25人。生存时间T(月)的数据如下。协变量为淋巴结状态(SLN),负数代表截尾数据。LA组:1,2,3,4,5,7,8,9,10,11,13,14,15,18,-19,-20,-21,23NLA组:1,2,3,4,5,7,8,9,10,11,13,14,15,18,19,-20,21,23,26,28,31,37,66,73,-124第十七页,共四十九页,2022年,8月28日StandardNumberNumberTSurvivalFailureErrorFailedLeft0.0001.0000000181.0000.94440.05560.05401172.0000.88890.11110.07412163.0000.83330.16670.08783154.0000.77780.22220.09804145.0000.72220.27780.10565137.0000.66670.33330.11116128.0000.61110.38890.11497119.0000.55560.44440.117181010.0000.50000.50000.11799911.0000.44440.55560.117110813.0000.38890.61110.114911714.0000.33330.66670.111112615.0000.27780.72220.105613518.0000.22220.77780.098014419.000*...14320.000*...14221.000*...14123.00001.00000150LA组生存时间分布规律第十八页,共四十九页,2022年,8月28日StandardNumberNumberTSurvivalFailureErrorFailedLeft0.0001.0000000251.0000.96000.04000.03921242.0000.92000.08000.05432233.0000.88000.12000.06503224.0000.84000.16000.07334215.0000.80000.20000.08005207.0000.76000.24000.08546198.0000.72000.28000.08987189.0000.68000.32000.093381710.0000.64000.36000.096091611.0000.60000.40000.0980101513.0000.56000.44000.09931114NLA组生存时间分布规律第十九页,共四十九页,2022年,8月28日StandardNumberNumberTSurvivalFailureErrorFailedLeft14.0000.52000.48000.0999121315.0000.48000.52000.0999131218.0000.44000.56000.0993141119.0000.40000.60000.0980151020.000*...15921.0000.35560.64440.096616823.0000.31110.68890.094217726.0000.26670.73330.090618628.0000.22220.77780.085719531.0000.17780.82220.079320437.0000.13330.86670.070821366.0000.08890.91110.059622273.0000.04440.95560.0433231124.000*...230NLA组生存时间分布规律(续)第二十页,共四十九页,2022年,8月28日SurvivalFunctionEstimates1.0+**|**SDF|**N|L*N|L*NN0.5+LLNNN|LLNNNN|LLLNNN|L--LN-N--N||N-------------N---N0.0+LN----+----+----+----+----+----+----+----+----+----+----+----- 0102030405060708090100Time无淋巴结浸润患者(N)比有淋巴结浸润患者(L)的平均生存时间长。两组急性淋巴细胞性白血病患者治疗后的生存时间比较第二十一页,共四十九页,2022年,8月28日2、非参数法:估计生存函数时对生存时间的分布没有要求,并且检验危险因素对生存时间的影响时采用的是非参数检验方法。例如,乘积极限法和寿命表法。优点:
1)可以估计生存函数;
2)可以比较两组或多组生存布函数;
3)可以分析危险因素对生存时间的影响;
4)对生存时间的分布没有要求。缺点:不能建立生存时间与危险因素之间依存关系的数学模型。第二十二页,共四十九页,2022年,8月28日两种非参数生存分析方法乘积极限法(PL法):适用于离散数据,它用于建立时刻t上的生存函数。PL法是根据t时刻及其之前各时间点上的条件生存率的乘积来估计时刻t的生存函数S(t)和它的标准误SE(S(t))。累积生存率:标准误:例如:P260,表18.1第二十三页,共四十九页,2022年,8月28日寿命表法(LT)法:LT法适用于区间数据,它用于建立时间区间[t,t+Δt)上的生存函数。LT法是根据时间区间[t,t+Δt)左端点的生存率及其之前各区间左端点生存率之积来估计区间[t,t+Δt)的生存函数S(t)和它的标准误SE(S(t))。累积生存率:标准误:例如:P263,表18.3第二十四页,共四十九页,2022年,8月28日例1、某研究者收集了两组急性淋巴细胞性白血病患者治疗后的随访资料,其中,有淋巴结浸润组(LA)18人,无淋巴结浸润组(NLA)25人,数据如下。设因变量T为生存时间(月),协变量为淋巴结状态(SLN),截尾指标用censor表示,负数代表截尾数据。试用非参数的PL法进行生存分析,检验患者有无淋巴结浸润对其生存时间长短的影响。LA组:1,2,3,4,5,7,8,9,10,11,13,14,15,18,-19,-20,-21,23NLA组:1,2,3,4,5,7,8,9,10,11,13,14,15,18,19,-20,21,23,26,28,31,37,66,73,-124第二十五页,共四十九页,2022年,8月28日【SAS程序】datad1;inputsln$n;doi=1ton;inputt@@;ift<0thencensor=0;elsecensor=1;t=abs(t);output;end;cards;
LA1812345789101113141518-19-20-2123NLA251234578910111314151819-202123262831376673-124run;proclifetestplots=(s,ls,lls)method=pl;timet*censor(0);stratasln;run;第二十六页,共四十九页,2022年,8月28日TheLIFETESTProcedureProduct-LimitSurvivalEstimatesSLN=LASurvivalStandardNumberNumberTSurvivalFailureErrorFailedLeft0.0001.0000000181.0000.94440.05560.05401172.0000.88890.11110.07412163.0000.83330.16670.08783154.0000.77780.22220.09804145.0000.72220.27780.10565137.0000.66670.33330.11116128.0000.61110.38890.11497119.0000.55560.44440.117181010.0000.50000.50000.11799911.0000.44440.55560.117110813.0000.38890.61110.114911714.0000.33330.66670.111112615.0000.27780.72220.105613518.0000.22220.77780.098014419.000*...14320.000*...14221.000*...14123.00001.00000150第二十七页,共四十九页,2022年,8月28日SurvivalFunctionEstimates1.0+**|**SDF|**N|L*N|L*NN0.5+LLNNN|LLNNNN|LLLNNN|L--LN-N--N||N-------------N---N0.0+LN----+----+----+----+----+----+----+----+----+----+----+----- 0102030405060708090100Time无淋巴结浸润患者(N)比有淋巴结浸润患者(L)的平均生存时间长。两组急性淋巴细胞性白血病患者治疗后的随访资料第二十八页,共四十九页,2022年,8月28日TestofEqualityoverStrata Pr>TestChi-SquareDFChi-SquareLog-Rank2.203610.1377Wilcoxon1.559810.2117-2Log(LR)3.462710.0628生存曲线的比较:H0:k个组的生存函数曲线一致H1:至少两组生存函数曲线不一致。结论:两组患者的生存时间没有显著性差异。第二十九页,共四十九页,2022年,8月28日例2、医学研究人员用烷烃化剂对65名多骨髓瘤患者进行治疗,48名患者在研究过程中死亡,17名仍存活。在数据集eg10_2中,变量T表示从诊断开始所生存的月数;status由0和1两个值组成,分别表示患者在研究结束时的存活情况,若status=0,则表示相应的T是截尾数据。与生存有关的变量有:x1(诊断时的log(bun)值)、x2(诊断时的血红蛋白含量)、x3(诊断时的血小板含量:0=不正常,1=正常)、x4(诊断时的年龄,年)、x5(诊断时的log(WBC)值)、x6(诊断时是否骨折,0=否,1=是)、x7(log(骨髓中原生质细胞的含量))、x8(诊断时的尿蛋白含量)、x9(诊断时的血清钙含量)。试用非参数的LT法进行生存分析,并从这9个说明变量中找出重要的危险因素变量。因为数据多此处数据表省略。第三十页,共四十九页,2022年,8月28日【SAS程序】dataeg10_2;inputtstatusx1-x9;cards;1.2512.21759.41673.662811.95421210……77.0001.079214.01603.681200.9542012run;proclifetestplots(s,ls,lls)method=ltwidth=12;timet*status(0);testx1-x9;run;第三十一页,共四十九页,2022年,8月28日TheLIFETESTProcedureLifeTableSurvivalEstimatesConditionalEffectiveConditionalProbabilityIntervalNumberNumberSampleProbabilityStandard[Lower,Upper)FailedCensoredSizeofFailureError01221662.00.33870.0601122410635.00.28570.076424365121.50.23260.091136483115.50.19350.100448604211.00.3636000.33330.19257284013.50084.303.01.00000第三十二页,共四十九页,2022年,8月28日ForwardStepwiseSequenceofChi-SquaresfortheLOGRANKTestPr>Chi-SquarePr>VariableDFChi-SquareChi-SquareIncrementIncrementX118.51640.00358.51640.0035X2212.72520.00174.20890.0402X9315.30530.00162.58010.1082X4416.98730.00191.68200.1947X6517.62910.00340.64170.4231X7617.91200.00650.28300.5948X3718.15170.01130.23970.6244X5818.39250.01850.24080.6236X8918.45500.03020.06250.8025危险因素第三十三页,共四十九页,2022年,8月28日参数法:根据样本观察值来估计假定的分布模型中的参数,获得生存时间的概率分布模型。生存时间经常服从的基线分布有指数分布、Weibull分布、对数正态分布、对数Logistic分布和Gamma分布。优点:1)可以估计生存函数;2)可以比较两组或多组生存布函数;3)可以分析危险因素对生存时间的影响;4)可以建立生存时间与危险因素之间依存关系的模型。缺点:需要事先知道生存时间的分布。第三十四页,共四十九页,2022年,8月28日(1)指数分布:S(t)=exp(-λt)(2)Weibull分布:S(t)=exp(-λtγ)(3)对数正态分布:第三十五页,共四十九页,2022年,8月28日半参数法:不需要对生存时间的分布作出假定,但却可以通过一个模型来分析生存时间的分布规律,以及危险因素对生存时间的影响。例如:Cox比例风险回归模型。优点:1)可以估计生存函数;2)可以比较两组或多组生存布函数;3)可以分析危险因素对生存时间的影响;4)可以建立生存时间与危险因素之间依存关系模型。5)不需要事先知道生存时间的分布。第三十六页,共四十九页,2022年,8月28日Cox比例风险回归模型(1)数学模型:设x=(x1,x2,…,xk)是影响生存时间t的k个危险因素。设h(t,x)表示受危险因素x的影响下,在时刻t的风险率,又设h0(t)表示在不受危险因素x的影响下,在时刻t的风险率。显然h0(t)=h(t,0),并称h0(t)为基准风险率或基准函数。
Cox比例风险回归模型是:其中,β1,β2…,βk是待估未知参数,h0(t)是未知表达式。第三十七页,共四十九页,2022年,8月28日因为对于任意一时刻t,都有:所以,个体在任何时刻的风险率都正比于基准风险率,比例因子为:可见,RH(x)不随生存时间t的变化而变化。所以这个模型又称为比例风险模型。而且,RH(x)表示个体在因素x影响下的风险率相对于基准风险率之比。第三十八页,共四十九页,2022年,8月28日参数的估计方法---最大似然法参数的显著性检验方法:似然比检验法,Wald检验法和比分检验法等。
H0:βj=0vsH1:βj≠03. 模型的显著性检验:似然比卡方检验法
H0:β1=…=βk=0vsH1:βj≠0(2)Cox比例风险模型参数和模型的检验第三十九页,共四十九页,2022年,8月28日(3)Cox比例风险模型参数的解释对于一元Cox模型,如果因素x的取值为1和0,分别表示暴露与非暴露于危险因素之下,那么eβ表示受x影响与不受x影响的相对风险。对于一元Cox模型,如果因素x为连续变量,eβ表示相邻两个水平的风险率之比(相对风险率)。对于多元Cox模型,eβj表示在其它因素不变的情况下,因素xj的相邻两个水平的风险率之比。第四十页,共四十九页,2022年,8月28日例3:为研究某种药物是否会改进急性白血病人的预后,延长其缓解时间。将确诊病人随机给予不同的治疗。一组为用药组(传统治疗加某药),另一组为对照组(传统治疗)。治疗前检测病人白细胞计数(wbc),经一定时间随访,白血病病人的缓解时间列在下表中,其中带-号的是截尾数据。试作Cox模型回归分析。
本例以缓解时间长短来衡量治疗效果。缓解时间越长,效果越好。这里的缓解时间是生存分析中的生存时间t,其起点是接受某治疗开始,其终点是缓解结束。第四十一页,共四十九页,2022年,8月28日第四十二页,共四十九页,2022年,8月28日令treat=1表示治疗组,treat=0表示对照组;wbc表示白细胞计数,是连续变量。为了减少内部变异的影响,将白细胞计数取自然对数。datad1;doi=1to20;dotreat=1,0;inputtimewbc@@;iftime<0thencensor=0;elsecensor=1;time=abs(time);lgwbc=log(wbc);output;end;end;cards;-616001630……-35282393run;procphreg;modeltime*censor(0)=treatlgwbc/risklimits;run;SAS程序第四十三页,共四十九页,2022年,8月28日ThePHREGProcedureTestingGlobalNullHypothesis:BETA=0WithoutWithCriterionCovariatesCovariatesModelChi-Square-2LOGL177.760136.51641.245with2DF(p=0.0001)Score..40.746with2DF
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026海关面试题及解析题答案
- 2026韩企电商面试题目及答案
- 2026杭州辅警面试题目及答案
- 2026红色文旅面试题及答案
- 2026护理统考面试题目及答案
- 关于2026年年终财务结算流程安排的函(5篇)
- 河南省南阳市2025年秋期高中一年级期终质量评估生物试题(含答案)
- 数字货币审计节点(DLT Auditing)部署项目可行性研究报告
- 28nm成熟工艺MCU扩产可行性研究报告
- 2026届高考新课标卷冲刺模拟考试语文试题及答案
- 2026年中考语文模拟试卷(湖南卷)及答案
- 深圳湾水环境:综合评价与环境容量的深度剖析
- 热风炉燃烧与热平衡设计计算大纲
- 2026年康复治疗学专升本康复评定学真题单套试卷
- 2026《低密度奇偶校验码(LDPC码)译码算法综述》
- 2026年陕西咸阳市中考物理试卷及答案
- 电力变压器运行维修规程培训
- 上海中山公园案例分析
- (2025年)南京中医药大学针灸学考试题库及答案
- 顶级客诉处理与8D汇报的-情绪-逻辑-双线剧本
- 无人机吊运培训课件
评论
0/150
提交评论