卫生统计学-生存分析_第1页
卫生统计学-生存分析_第2页
卫生统计学-生存分析_第3页
卫生统计学-生存分析_第4页
卫生统计学-生存分析_第5页
已阅读5页,还剩90页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

19

生存分析回归分析1个因变量Y1个自变量XY是数值变量Y是分类型变量两个因变量生存分析Cox回归(结局分类变量+时间)④简单回归Simple

regressionLogistic

回归Logisticregression多重回归Multiple

regression①②2个以上自变量X③常用的回归分析中分类:曲线回归线性回归医学研究中,很多时候不仅需要分析疾病的结局状态如何,更要分析达到该结局状态的所用时间是多少。:例:为研究

肿瘤患者手术后生存的影响因素,某医院泌尿外科医师选择

1996-2000

手术治疗的

瘤患者30例进行了随访研究,截止日期

。期间通过查阅

/和

的方式

了可能影响者术后生存的因素,获得其生存结局情况(

与否)。:(岁)肿瘤分级:I级=1;II级=2;III级=3肿瘤大小/cm:<3cm=1;≥3cm=2是否复发(未复发=0;1=复发)手术日期(月/日/年)终止观察日期(月/日/年)生存时间/月结局事件(status)

生存结局(生存或删失=

0;

=

1)影响因素/协变量生存时间(time)编号(岁)肿瘤分级肿瘤大小/cm是否复发手术日期终止观察日期结局生存时间/月162I≤3.0002/10/199612/30/2000存活59264I≤3.0003/05/199608/12/2000死于

瘤54352II≤3.0104/09/199612/03/1999失访44460I≤3.0006/06/199610/27/2000死于冠心病53559II>3.0007/20/199606/21/1998死于

瘤23659I>3.0108/19/199609/10/1999死于

瘤37…表19-2

30例肿瘤患者生存资料的原始记录表三要素:1.生存时间(survival

time)——从规定的观察起点到某一特定终点事件出现的时间长短。终点事件生存时间观察起点⑴

疾病确诊⑵

治疗开始⑶

症状缓解⑷

接触毒物⑸

接触痊愈复发痊愈疾病出现毒性反映发病终点事件生存时间观察起点时间终点事件:死于肿瘤研究截止时点2000/12/30死于冠心病生存时间失访到截止时间事件尚未发生删失2.随访研究产生数据的类型:完全数据:在规定的观察期内,对某些观察对象观察到了终点事件发生,从起点到终点事件所经历的时间,称为生存时间的完全数据(complete

data)。用符号“t

”表示。删失数据(截尾数据):规定的观察期内,对某些观察对象,由于某种原因未能观察到就象的终点事件发生,并不知道其确切的生存时间,生存时间在未达到规定的终点就被截尾一样,称为生存时间的删失数据,又称截尾数据。用符号“t+”表示。产生删失数据的常见原因有:研究结束时终点事件尚未发生;失访;死于其它原因;由于严重药物反应而终止观察或改变治疗措施。有结局和生存时间两个因变量;生存时间分布不正态—非负且右偏;可能含有删失数据(censor)。生存资料特点:特点:可处理生存时间分布不正态的问题;可处理删失数据。生存分析(survival

ysis):将终点事件和出现终点时间所经历的时间结合起来分析的一类统计分析。同时考虑结局和生存时间两个因变量;生存分析简史:1972年Cox提出比例风险模型(ProportionalHazardModel),即Cox回归,已成为生存分析的标准统计方法。1656~1742年

表;1958年Kaplan-Meier提出刻画生存时间分布的乘积极限法;1966年用Log-rank检验法可实现对生存曲线的组间比较;生存率、率、中位生存时间生存曲线、中位生存时间组间比较的假设检验——单因素分析单因素分析及多因素分析生存分析的作用:以

肿瘤患者术后生存的影响因素的随访资料分析为例估计:根据样本生存资料,估计总体不同时间生存率、生存曲线及中位生存期等;比较:对不同特征组患者的生存状况进行比较,通过Log-rank

检验等,了解某因素与患者预后的关系。影响因素分析:用Cox回归等方法,研究患者生存的影响因素;或调整某混杂因素后,研究某因素对生存的影响。:对具有不同因素,水平的

进行生存/预后

。回归分析1个因变量Y1个自变量XY是数值变量Y是分类型变量两个因变量生存分析Cox回归(结局分类变量+时间)④简单回归Simple

regressionLogistic

回归Logisticregression多重回归Multiple

regression①②2个以上自变量X③常用的回归分析中分类:曲线回归线性回归生存分析概

生存率的估计

生存曲线的比较

Cox比例风险回归模型合格的研究对象出现结果尚未出现结果失访、脱落试验组对照组伴随因素干扰因素随访研究(follow-up

study)示意图随机对象的临床试验研究:随访研究:时间终点事件:死于肿瘤研究截止时点2000/12/30死于冠心病生存时间失访到截止时间事件尚未发生删失19.1

生存分析的基本概念常用概念:概率(probability

of

death);生存概率(

probability

of

survival);针对单位时间的生存率(survival

rate)及其标准误;中位生存期(median

survival

time)及四分位间距;风险函数(hazard

function):

t

时刻存活的 在t

时刻的瞬时

率。⑴概率(probability

ofdeath):表示某单位时段开始存活的

,在该时段内

的可能性;如年

概率。某年年初人口数人数概率(q)

某年内注意:如果年内有删失,则分母用校正人口数:校正人口数=年初人口数—删失例数/2末人口数:n-k初人口数:n期间人数:k⑵

生存概率(probability

of

survival)

:单位时段开始时存活的

,到该时段结束时仍然存活的可能性。注意:若年内有删失,分母用校正人口数。生存概率(p)

某年活满一年人数

1

q某年年初人口数末人口数:n-k初人口数:n期间人数:k经历tk⑶生存率(survival

rate):0

时刻存活的时个单位时间段后仍存活的可能性。观察总例数kkt

时刻仍存活例数S

(t)

P(T

t

)

ˆ若资料中无删失数据时:【举例】手术治疗50例肺癌,术后1,2,3年的数分别为10,10,10例,无截尾数据。试求各年的生存概率和3年生存率。解:1.各年生存概率p1

=

(

50–10

)/50

=0.80p2

=

(

40–10

)/40

=0.75p3

=

(

30–10

)/30

=0.672.3年生存率S(3)=P(T≥3)=(50–30)/50=

0.4

=

p1

×

p2

×

p3故生存率又称为累积生存概率(cumulativeprobability

of

survival),它是随着时间的变化而变化着的,是关于时间的函数,称为生存函数(survivalfunction)。若资料中有删失数据,则须分段计算生存概率,再应用概率乘法定理将分时段的生存概率相乘得到生存率:Sˆ(tk

)

P(T

tk

)

p1

p2

......

pk

Sˆ(tk

1

)

pk区分:生存率——生存概率生存概率是针对单位时间而言的;生存率是针对某个较长时段的,是生存概率的累计结果。⑷风险函数(hazard

function):t

时刻存活的

在t

时刻的瞬时率。h(t)近似地等于t时刻存活的在此后一个单位时段内的概率。tPt

T

t

t

T

t

t

0h(t)

lim①中位生存期(median

survival

time)

:也称半数生存期,是生存时间中位数(M/P50),表示恰有50%的

存活的时间,即生存率为50%时对应的生存时间,是描述集中趋势的指标。中位生存期越长,表示疾病的预后越好。②生存期的四分位数间距:Q=P75-P25是反映离散程度大小的指标。⑸中位生存期及四分位数间距1.刻画生存时间的分布:3.评价生存时间分布影响因子的效果2.生存时间分布的组间比较表法Kaplan-Meier法估计生存率(生存函数)、生存曲线在不考虑其它混杂因素的情况下,利用表法和

Kaplan-Meier法作生存时间的组间比较Log

rank

检验拟合Cox回归模型等评价生存时间分布与多个影响因子之间的关系。19.2

生存率的估计大样本资料-频数表资料:表法估计生存率小样本资料:Kaplan-Meier法或称乘积极限法(product

limit

method)绘制生存曲线19.2.1

表ife

tablemethod)患者的随访资料,取时间区例21-1

收集374名某间均为1年,整理结果见下午表,试估计各年生存率。解析:该生存资料为大样本,生存时间粗略且含有删失数据。方法原理:计算期初有效例数,注意删失数据期初有效例数=期初病例数-期内删失数/2计算 概率、生存概率数/期初有效例数概率概率=期内生存概率=1-计算生存率。作生存曲线。表法①②③④表法曲线为折线。该法只估计时段右端点的生存率,省略了时段内的生存率估计患者确诊后5年内生存率下降较快,5年后下降较平缓,说明确诊5年内该

患者的

较大。中位生存期【电脑实现】—SPSS1.数据录入:频数形式生存分析—表法)【Time

】生存时间(年)【Status

】0:删失数据1:完全数据(【Freq

】频数2.3.

SPSS过程4.结果及结果输出:期初 期内病例 删失数

数期初 期内有效例数数生存概率

概率生存率生存率标准误概率 概率密密度

度标准误风险率风险率标准误19.2.2

乘积极限法——kaplan-meier法例19-2

按下表数据,14例肿瘤<3.0cm患者和16例肿瘤≥3.0cm患者的生存时间(月)如下,试估计两组生存率。<3.0cm1419262829323640

42

44+

45

53+5459+≥3.0cm6791011121320

23

25

27

30343743

50解析:以“<3.0cm”组为例,n=14,样本含量较小且含删失数据。方法原理:将生存时间由小到大依次排列,在每个时间区间上,计算

人数、删失人数、期初人数、 概率、生存概率和生存率。作生存曲线。乘积极限法——kaplan-meier法+++①②③④Kaplan-Meier法生存曲线为阶梯形曲线。中位生存期【电脑实现】—SPSS生存分析—Kaplan-Meier1.数据录入【

Group

1: <3.0cm;2:

3.0cm【dtime

】生存时间(月)【Status

】0:删失数据1:完全数据(结局事件)2.

SPSS过程ase

Processing

SumgroupTotal

NN

of

Events<3.0cm1411>=3.0cm1616Overall30273.结果及结果输出:13141516Means

and

Medians

for

Survival

TimegroupMeanaMedianEstimateStd.

Error95%

Confidence

IntervalEstimateStd.

Error95%

Confidence

IntervalLower

BoundUpper

BoundLower

BoundUpper

Bound<3.0cm38.1523.74030.82245.48236.0007.48321.33350.667>=3.0cm22.3133.41015.62828.99720.00010.000.40039

600Overall29.6802.86024.07535.28528.0002.73922.63233.368a.

Estimation

is

limited

to

the

largest

survival

time

ifit

is

censored.Percentilesgroup25.0%50.0%75.0%EstimateStd.

ErrorEstimateStd.

ErrorEstimateStd.

Error<3.0cm54.0006.07536.0007.48328.0005.634>=3.0cm30.0006.06220.00010.00010.0001.732Overall42.0004.63328.0002.73914.0005.652Overall

ComparisonsChi-Square

df

Sig.Log

Rank

(Man

-Cox)

7.369

1

.007Test

of

equality

of

survival

distributions

for

the

different

levels

ofgroup.19.3

生存曲线的比较(Log

rank

检验)【例19-3】

比较上例中

肿瘤<3.0cm患者和肿瘤≥3.0cm患者的生存曲线,就总体而言,两个生存函数是否有差别?两组或多组频率比较

2

检验?Log-rank检验19.2.2

乘积极限法——kaplan-meier法例19-2

按下表数据,14例肿瘤<3.0cm患者和

16例肿瘤≥3.0cm患者的生存时间(月)如下,试估计两组生存率。<3.0cm14

19

26

28

29

32

36 40

42

44+

45

53+54

59+6

7

9

10

11

12

13 20

23

25

27

30

34

37 43

50≥3.0cm由度是1,

3.84

。2界值Log-rank检验:作用:通过

2检验对两组或多组生存曲线是否存在差异作出假设检验;与普通

2检验不同的是:它能充分利用生存时间(包括删失数据),而且能对各组的生存率作整体的比较;其检验统计量近似地服从

度为(组数-1)的

2分布;若作两条生存曲线的差异性比较,自H1:S1

t

S2

t

,两总H0:S1按生存时间由小到大排序

0.051.将两组数据例数di。数Tgi两组合计的期初例数ni和3.计算各组在时间ti上的理论例数dgi

,以及2.分别计算两组在时间ti上的期初例数ngi和30

141

0.4667igin

ngidiT组别数未数合计<3.0cm组01414≥3.0cm组11516合计12930可以认为两条生存曲线不同,肿瘤

3.0cm患者的生存曲线高于

3.0cm患者。(16

9.4584)2(1117.5416)2H0,接受H1,(A

T

)2总数总数和理论计算各组的实际计算统计量

7.379.4584Tg

17.5416

16.做出统计结论P

0.05,按

0.05水准,

2

g

g

Overall

ComparisonsChi-SquaredfSig.Log

Rank

(Man

-Cox)7.3691.007Test

of

equality

of

survival

distributions

for

the

different

levels

ofgroup.【注意事项】Log-rank检验可用于整条生存曲线的比较,也适用于表资料及多组生存率间的比较;Log-rank检验属于单因素分析方法,其应用条件是除比较因素外,影响生存率的各混杂因素在不同的组间均衡。否则,可采用Cox回归。可计算两组 的相对 度(relative

ratio,RR)肿瘤≥3.0组对肿瘤<3.0组:RR

A11/

T

16

458/49.

2.69A22/

T

11/17

5416.意义:肿瘤≥3.0组的 风险是对肿瘤<3.0组的2.69倍小结:生存分析和资料的特点:有结局事件status、有生存时间time,还要考虑删失数据;计算生存率:不能直接去计算,要考虑删失的数据;通过乘积极限法去计算,如果样本量大,则可用寿命表的方法。两个生存曲线的比较:Log-Rank或说时序比较的方法,它是用统计量来比较实际数据与理论数据之间的差异。估计生存率(生存函数)估计生存曲线评价生存时间影响因子的效果生存时间分布的组间比较表法Kaplan-Meier法在不考虑其它混杂因素的情况下,可用

表法和Kaplan-Meier法作Log

rank

检验Cox回归模型19.4

Cox比例风险回归模型编号(岁)肿瘤分级肿瘤大小/cm是否复发手术日期终止观察日期结局生存时间/月162I≤3.0002/10/199612/30/2000存活59264I≤3.0003/05/199608/12/2000死于

瘤54352II≤3.0104/09/199612/03/1999失访44460I≤3.0006/06/199610/27/2000死于冠心病53559II>3.0007/20/199606/21/1998死于

瘤23659I>3.0108/19/199609/10/1999死于

瘤37…表19-2 30例 肿瘤患者生存资料的原始记录表例:30例 肿瘤患者的随访记录,欲作患者术后生存的影响因素分析。1972年英国伦敦大学的Cox于Cox回归模型:它以生存结局和生存时间为因变量,不要求资料服从特定的分布类型;能分析带有删失数据的资料,可实现多因素对生存的影响分析。Cox回归模型的基本思想:在风险函数与影响因子之间建立起类似于广义线性模型的关联,从而分析多个影响因子对生存状况的影响效果。风险函数(hazard

function):

t

时刻存活的

在t

时刻的瞬时率。h(t)近似地等于t

时刻存活的在此后一个单位时段内的概率。tPt

T

t

t

T

t

t

0h(t)

lim2.Cox的模型结构:h(t)

h0

(t)

exp(

1

X1

2

X

2

...

p

X

p

)h(

t

):表示t

时刻存活的

,在协变量X1、X2、…、Xp概率的作用下,在t

时刻之后的一个单位时间内的(风险率);h0(t

):基准风险函数(baseline

hazard),表示当X1=0、X2=0…、Xp=0时,

在t

时刻基准

率(风险率);βi:各协变量的回归系数,需由样本资料作出估计。2.模型解释:任两个群体风险函数之比,即风险比(risk

ratio,

RR或hazard

ratio,HR)或相对

度(RR)RR

hi

(t)

h0

(t)

exp(1

Xi1

2

X

i

2

...

p

X

i

p

)i11hj

(t)

exp

(

X21jPiPj

2

12

i

2j1jj

X

)

(

X

X

)

...

(

X

X

)h0

(t)

exp(1

X

j

2X

...

p

X

p

)

1

iP

XXjP

)htj

()hit()RR

lnln

XXji2X22X111ji

ln

RR

j

jRR

j

exp(

j

)或βj的实际意义:在其他自变量固定不变的条件下,变量Xi每增加一个单位所引起的风险比的自然对数。RRi的实际意义:在其它协变量不变的条件下,变量Xi每增加一个单位所引起的风险比或相对

度。β值RR值含义>0>1X

增大是生存的=0=1X

的变化与生存无关<0<1X

增大是生存的保护因素RR

j

exp(

j

)估计参数:β0、β1、β2、…、βiCOX回归方程的假设检验统计应用部分似然估计列出回归方程回归系数的区间估计检验整个模型——似然比检验检验单个自变量——Wald检验h(t)

h0

(t)

exp(

1

X1

2

X

2

...

p

X

p

)阳性事件的风险概率分析影响因素,定量描述其作用举例:30例.肿瘤患者的随访记录,试进行患者生存情况的影响因素分析。

。【电脑实现】—SPSS1.数据录入生存分析—Coxysis2.

SPSS过程3.结果及结果输出:htht

0

exp1.

680

grade

列出Cox回归方程(风险函数表达式):相对

0.979sizree1la.0p7se8h(t)

h0

(t)

exp(

1

X1

2

X

2

...

p

X

p

)预后指数(Prognosticindes,PI):其取值越大,则风险函数的取值越大,预后越差。结果报告:肿瘤

的影响因素分析的多变量Cox回归的结果见下表示,结果表明:肿瘤分级(RR=5.367,95%CI

2.540~11.340,P<0.001)、肿瘤大小(RR=2.939,95%CI

1.193~7.242,P=0.019)

、以及是否复发(RR=2.262,95%CI1.080~

6.560,P=0.033)与有关。VariableβSE(β)WaldPRR95%CIStandard

βGrade1.6800.38219.385<0.0015.3672.540,11.3401.419Size1.0780.4605.4930.0192.9391.193,7.2420.546Relapse0.9790.4604.5250.0332.6621.080,6.5600.498Cox

回归的基本假定是比例风险假定(PH假定),即模型中的自变量效应不随时间而改变。只有在满足该假定前提下,基于此模型的分析才是可靠有效的;PH假定的判断,最简单的是观察Kaplan-Meier生存曲线。三、Cox

回归中PH假定及判断方法Cox

回归中PH假定的判定方法(1)Cox

回归中PH假定的判定方法(2)19.5

结果报告结果报告:⑴生存率的估计:报告生存率估计方法、生存曲线及中位生存期⑵生存曲线比较:报告生存曲线、生存曲线的比较方法、检验统计量及其P值。⑶影响因素分析:报告变量筛选方法、检验水准α、各变量RR值、RR值的95%置信区间及其P值。附图:肿瘤<3.0cm组和≥3.0cm组生存曲线(K-M法)以Kaplan-Meier法估计肿瘤<3.0cm组和≥3.0cm组的生存率,生存曲线如图1所示。其结果显示

:两组中位生存期分别为20个月和36个

log-rank检验,

2

7.37,P

0.01,两条曲线的差别有统计学意义,肿瘤<3.0cm组的生存率高于肿瘤≥3.0cm组的。结果报告1:结果报告2:肿瘤的影响因素分析见附表示,经多变量Cox比例风险回归分析显示,肿瘤分级(RR=5.367,95%CI2.540~11.340,P<0.001)、肿瘤大小(RR=2.939,95%CI1.193~7.242,P<0.02),以及是否复发(

RR=2.662,95%CI

1.080~6.560,P<0.05)与有关。小

结生存分析是将终点事件和达到终点事件所经历的时间结合起来分析的一种统计学方法,可用于生存率的估计、生存曲线比较、影响因素分析和生存。生存曲线的非参数估计方法和

表法和Kaplan-Meier法,前者适用于大样本的分组资料;后者适用于小样本或大样本未分组资料,两者均利用概率乘积法定理计算生存率。Log-rank检验是两条或多条生存曲线比较的非参数方法之一,因其能对各组生存曲线作整体比较,实际工作中应用研究较多。Cox模型属比例风险模型、乘法模型;Cox可用于影响因素分析、校正混杂因素后的组间比较以及多因素生存。回归分析:简单线性:多重线性logistic回归线性回归Y

0

1

X1

2

X

2

....i

X

ik

k

0

1x1

k

xke0

1x1

k

xk

X

X

....

x

1

2

20

1

1或

1

e多个X:ln

111

01-

1-Ln(OR)

Ln(

1

)

-

Ln(

0

)

OR

eY

X只1个X:(简单)1

ln

X0e0

X1

e0

X或

Cox回归h(t)

h0

(t)

ex

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论