生存分析概念

上传人：s*** IP属地：天津上传时间：2022-08-02 格式：DOCX 页数：38 大小：157.35KB 积分：20 举报 版权申诉

已阅读5页，还剩33页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、一、生存分析的概念: 将事件的结果和出现此结果所经历的时间结合起来分析的统计分析方法。研究生存现象和响应时间数据及其统计规律的一门学科。对一个或多个非负随机变量（生存时间）进行统计分析研究。对生存时间进行分析和推断，研究生存时间和结局与众多影响因素间关系及其程度的统计分析方法。在综合考虑相关因素（内因和外因）的基础上，对涉及生物学、医学（临床、流行病）、工程（可靠性）、保险精算学、公共卫生学、社会学和人口学（老龄问题、犯罪、婚姻）、经济学（市场学）等领域中，与事件（死亡，疾病发生、发展和缓解，失效，状态持续）发生的时间（也叫寿命、存活时间或失效时间，统称生存时间）有关的

2、问题提供相关的统计规律的分析与推断方法的学科。二、“生存时间”（Survival Time）的概念生存时间也叫寿命、存活时间、失效时间等等。医学：疾病发生时间、治疗后疾病复发时间可靠性工程系：元件或系统失效时间犯罪学：重罪犯人的假释时间社会学：首次婚姻持续时间人口学：母乳喂养新生儿断奶时间经济学：经济危机爆发时间、发行债券的违约时保险精算学：保险人的索赔时间、保险公司某一索赔中所付保费汽车工业：汽车车轮转数市场学中：报纸和杂志的篇幅和订阅费三、生存分析的应用领域：社会学，保险学，医学，生物学，人口学，医学，经济学，可靠性工程学等六、生存分析研究的目的1、描述生存过程：估

3、计不同时间的总体生存率，计算中位生存期，绘制生存函数曲线。统计方法包括Kaplan-Meier（K-M）法、寿命表法。2、比较：比较不同处理组的生存率，如比较不同疗法治疗脑瘤的生存率，以了解哪种治疗方案较优。统计方法log-rank检验等。3、影响因素分析：研究某个或某些因素对生存率或生存时间的影响作用。如为改善脑瘤病人的预后，应了解影响病人预后的主要因素，包括病人的年龄、性别、病程、肿瘤分期、治疗方案等。统计方法Cox比例风险回归模型等。4、预测：建立Cox回归预测模型。主要研究内容描述生存过程：研究人群生存状态的规律，研究生存率曲线的变动趋势，是人寿保险业的基础。生存过程影响因素

4、分析及结局预测：识别与反应、生存及疾病等相关风险因素，预测生存结局，在临床中应用的非常广泛。七、主要分析方法1、参数法方法：首先要求观察的生存时间t服从某一特定的分布，采用估计分布中参数的方法获得生存率的估计值。生存时间的分布可能为指数分布、Weibull分布、对数正态分布等，这些分布曲线都有相应的生存率函数形式。只需求得相应参数的估计值，即可获得生存率的估计值和生存曲线。2、非参数方法：实际工作中，多数生存时间的分布不符合上述所指的分布，就不宜用参数法进行分析，应当用非参数法。这类方法的检验假设与以往所学的非参数法一样，假设两组或多组的总体生存率曲线分布相同，而不论总

5、体的分布形式和参数如何。非参数法是随访资料的常用分析方法。3、半参数方法：只规定了影响因素和生存状况间的关系，但是没有对时间(和风险函数)的分布情况加以限定。这种方法主要用于分析生存率的影响因素，属多因素分析方法，其典型方法是 Cox比例风险模型。4、几种常用的统计软件：SAS，SPSS，Stata， Excel，R第二章数据类型一、完全数据(Complete data)每个个体确切的生产时间都是知道的。这样的数据称为完全数据(Complete data)。但在实际的生存分析中，数据在很多情况下是很难完全观察到的。III二、删失(Censoring)生存数据一个重要的特点是：在研

6、究结束时，无法获得某些个体确切的生存时间。例如：失去联系(病人搬走，电话号码改变)，无法观察到结局(死于其他原因)，研究截止，个体仍然存活在这些情况下获得的数据就是删失数据III(Censored data)。对存在删失的个体，只知道删失时间(Censoring time)。IIIIIIIIIIIIJJ删失分为右删失(Right censoring)、左删失(Left censoring)和区间删失(Interval censoring)1、右删失(Right censoring)o在进行观察或调查时，一个个体的确切生存时间不知道，而只知道其生存时间大于时间L,则称该个体的生存时间

7、在L上是右删失的，并称L 为右删失数据(Right-censored data)。右删失有三种类型(按结束时间差别)：I型删失(Type I censoring )、II 型删失(Type II censoring)和 III 型删失(Type III censoring)o(1) I型删失(Type I censoring):对所有个体的观察停止在一个固定的时间，这种删失即为I 型删失(或定时删失)。例如：动物研究通常是以有固定数目的动物接受一种或多种处理开始，由于时间和费用的限制，研究者常常不能等到所有动物死亡。一种选择就是在一个固定时间周期内观察，在截止时间之后仍可能有些动物活

8、着，但不继续观察了。这些动物的生存时间是不知道的，只知其不小于研究周期时间。I型删失的删IIIIII失时间是固定的。固图表1曜删失示例（2）II 型删失（Type II censoring）：同时对 n 个个体进行观察，一直到有一固定数目（r n）的个体死亡（失效）为止，这种删失即为II型删失。II型删失的删失时间是随机的。IIIIII（3）III型删失injj(Type III censoring)：所有个体在不同时间进入研究，某些个体在研究结束之前死亡，他们的确切生存时间是知道的，其他个体在研究结束之前退出研究而不被跟踪观察或在研究结束时仍然活着。进入研究的时间可能不同，删失

9、时间也可能不同，这种删失叫做m型删失，又称为随机删失(Random censoring)。IIIJJIIIJJIIIIIIin图表3 III型删失示例2、左删失(Left censoring)研究对象在时刻C开始接受观察，而在此之前我 l们感兴趣的时间已经发生，这就是左删失。例如：“您初次吸食大麻是在什么时候？ ”有一种回答：“我吸食过，但我不记得吸食的具体时间了。”这些回答的吸食时间数据就是左删失。通过测试确定儿童学会完成特定任务的年龄，有些儿童在进入研究前就已经可以完成某项特定IIIIIIIII任务，这些儿童的事件发生时间也是左删失。出现左删失同时，也可能出现右删失，称为双删

10、失(Double censoring)o例如:对吸食大麻的问卷还有一种回答：“我从来没有吸食过”，这样的数据就是右删失。3、区间删失(Interval censoring)：若个体的确切生存时间不知道，只知道其生存时间在两个观察时间L和R之间(LR)，则称该个体的生存时间在L,R上是区间删失的。实际工作中，凡是不能或者不愿作连续监测时就会遇到这样的区间删失。区间删失分两种：第一类区间删失( Case I Interval censoring )和第二类区间删失(Case II Interval censoring )。当对个体只进行一次观察，且个体的确切生存时间不知道，只知道其

11、生存时间是否大于观察时间 (即乙。或R 8)，这种删失称为第一类区间删失， L U R WIIIIIIIII也称为现实状况数据(Current data)。当对个体进行次观察，其观察时间L和R满足0LRs 时，这种删失称为第二类区间删失，也称为一般区间删失。如果初始时间(如艾滋病感染时间)和发生时间均为区间删失，则称生存时间为双重区间删失IIIIIIJJ(Double interval censoring )o三、截断(Truncation) 在研究或者观测中，淘汰了一些对象(样本)，使得研究者“意识不到他们的存在”。对截断数据的分析构造似然采用条件分布。截断包括两种：左截断(Left

12、 truncation)和右截断(Right truncation ) o1、左截断(Left Truncation):只有个体经历某种初始事件以后才能观察到其生存时间，称为左截断(Left truncation),此时获得的数据称为左截断数据(Left-truncated data)例如:暴露于某疾病、发生死亡前的中间事件等。退休中心老年居民死亡时间(没到年龄没有进入观测) 左截断与左删失的区别：在左截断的研究中，根本没有考虑那些在进入研究之前已经经历了感in兴趣时间的个体，而在左删失的研究中，我们能获得这些个体的部分信息。in即有左截断又存在右删失的情况，称为左截断右删失( Lef

13、t-truncation and right-censoring )2、右截断(Right Truncation)生存分析课程总结只有经历了某种终止事件才能观察到生存时间 (将要经历该事件的个体不包含在实验样本中)，称为右截断(Right truncation)，此时获得的数据称为右截断数据(Right-truncated data)。例如：对艾滋病感染和发病时间观测数据，有些个体感染病毒但尚未发病，这样的个体不在样本范围之内。3、截断的数学表示l=J设Y是一个非负的表示生存时间的随机变量；T 是另外一个表示截断时间的随机变量。在左截断下，只有当y2T时，才能观察到T和Y；在左截断下，

14、只有当yT时，才能观察到T和Y。第三章基本函数和模型一、生存函数(Survival Function)描述生存时间统计特征的基本函数，也叫生存率 (Survival Rate):设T表示生存时间，F(t)为T 分布函数，生存函数定义为：附=叩“)=1_皿0 T t) = 1 -F(t) = j f (u)dutf (t) = - S (t)=-华dt生存函数S (t)的图像叫做生存曲线(SurvivalCurve),如下图：陡峭的生存曲线表示较低的生产率或较短的生存时间；平缓的生存曲线表示较高的生存率或较长的生存时间。离散生存时间产生于舍入操作将失效（或死亡）时间分组从区间和寿命用整数计

15、量等。离散时间生存函数是非增的阶梯函数，当T取值为,日回八 a a ta tii1.0 T.8.6 .40.0离散时间生存函数是非增的阶梯函数二、危险率函数(Hazard Function)：危险率函数：描述观察个体在某时刻存活条件下，在以后的单位时间内死亡的(条件)概率:limh T0+当 T 连续=f(t) =_dlnS(t)；丽dt当T离散，取值为 A，Mm，a a a )=坎)ii i S (a )i-1S (a ) - S (a )S (a ) . 1Q .ii = 1 1 , I = 1,2, AS a 1)S a 1)s (t)=osm =n (1x)S (a )ia. ti1a

16、, t危险率函数在工程上叫做失效率函数或损坏函数，在生存分析和医学统计中又称为风险率函数或瞬时死亡率(Simultaneous death rate)、或死亡强度(Death intensity)、或条件死亡率生存分析课程总结(Conditional death rate)、或年龄死亡率(Age death rate)等。常见风险函数曲线谜增：自燃走化、磨损说减；辍少见q死亡发生辍早时浴盆：最常见：人口死亡率驼晦：手术成攻I后生存建模三、累积风险函数(Cumulative Hazard Function)累积危险率函数：a。)儿扁/ 人(u )du L 0当T连续，私)=expL

17、 A(t)= expA( )=-InS Q当T离散时，危险率函数有两种定义形式:A()=当氐)=& ln(1 X)ia t)= 4sO r (0)为平均寿命。五、常用的参数模型生存时间的分布一般不呈正态分布。常用的分布有：指数分布、威布尔（Weibull）分布、伽玛（Gamma）分布、对数罗吉斯蒂（logistic）分布、对数正态分布。1、指数分布生存函数形式为：q=好场o,t0密度函数为：八）=心（顷）危险率函数为：江）=入指数分布的一个重要性质：无记忆性（某事件的发生时间与历史记录无关），即P（T t + hT t）= P（T t）2、威布尔（Weibull）分布生存函数形式为：G= ex

18、p dtH 0心0其中、是尺度参数，a是形状参数，a=1时为指数分布。危险率函数为：饵玖而）.适用于危险率递增（取a 1）、递减（取a 1）和为常数（取a J等各种情形。 a = 13、伽玛（Gamma）分布生存函数:赢:j u P-i expQ uuTtpO其中guP-iexp(-uk称为伽玛函数。0第四章生存数据基本特征的非参数估计一、生存函数的估计假设事件发生在D个严格区分的时间点上:t t A t tt PTt tt A p(t Tzt 勿Tt tt )ii ii-1 i-1221 1存在右删失下：出.Y - d.*D PT t T t =i, i = 1,2, A , DiY :时刻

19、t,面临危险的个体数；乌:时刻t,失效个体数三、乘积限(product-limit)估计乘积限估计又称Kaplan-Meier估计阶梯函数，在观察时间点上发生跳跃；跳跃的高度t与上发生的事件数和t前删失数有ii关；超出观测上限的时间没有给出很好的估计。四、乘积限估计尾部修正Efron（1967）建议最大观察时间点以后的生存函数等于0，即等价于假定最大时间点上的生存者马上就会死亡。（负偏估计）Gill（1980）建议最大观察时间点以后的生存函数S或G），即假设最大时间点上的生存者永远-max不会死。（正偏估计）Brown、Hollander 和 Kowar（1974）建议尾部估计为一条指数

20、曲线，即S（t ）= exphnS（t 山 tmax max五、乘积限估计的方差dY（Y -d ） ti ti i iGreenwood 估计式：。2（t）“况（t）U以s六、生存函数点估计的置信区间利用渐进正态性的线性置信区间：C（t）-Z b （t）S（t）+ Z b （t）a Sa S11其他变换形式的非线性置信区间对数变换反正弦平方根IIIJJ七、累积死亡率的估计无删失条件下危险率函数的估计：）（）_在时间t开始的区间中死亡的个数in-在时间t存活着的个体数x区间宽度有删失条件下累计死亡率估计：直接利用累积死亡率与生存函数的关系氐）=Ink （t）方差为:Nelson-Aalen

21、估计为()_z0,勺 t t、心Y1具有更好的小样本性质Nelson-Aalen估计的应用1）用于选择事件发生时间的参数模型2）为危险率提供粗估计（对估计进行核平滑后计算斜率）八、累积死亡力函数的置信区间线性置信区间：（遍z b QM）+ z。）1 % Ha H1122其他变换形式的非线性置信区间对数变换区间反正弦平方根变化区间注：1、乘积限估计和Nelson-Aalen估计都是建立在非信息删失（non-informative censoring ）假设下2、乘积限估计的尾部估计：a）取0； b）取最大观测点的值；c）构造指数曲线S（t ）=expt lnG ）/t ） max maxIII

22、JJ3、无删失时，乘积限估计即为经验生存函数九、生命时间均值的估计平均生存时间：.fstk估计式为:0d =fs （t tT0方差为：vaTS（t）dt 丫土） i=1i i iIII十、左截断右删失数据生存函数的估计只有生存到某时刻之后才能进入观察乘积限估计（独立截断下是最大似然估计）双）=珂一弓（为条件估计） Yt. Vt L iY :在时刻t之前进入区研究，且至少被研究到t的个体数；iiidi:在时刻t,时死亡的个体数。Lai和Ying（1991）修正乘积限估计：（当风险集较小时忽略此处的死亡）S（）nh d,Y 待I为指数函数；n为样本大小； s 1 I / cnaY it Vt 1

23、 ic 0,0 51为常数。in十一、左删失数据生存函数估计利用“时间倒转法”：即不是从原点处测量时间，而是从很大的一个时间T倒着从相反的方向测量，用时间减去原始时间，得到右删失数据结构，利用乘积限估计式估计PG - X t）= P（X T -t）纯粹左删失情况很少见。十二、同时存在左、右删失情况设0=t t At为观察时间点，d表示t时的死亡12mjj数，,表示t时的右删失数，c表示t时的左删失数，则生存函数的迭代估计步骤为：in步骤0：忽略左删失获得乘积限估计作为S （）的0 j初始估计；s （） 5、（）K 1 - S 5），盘 i）K jp = Pt x t X tijj-1j i步

24、骤（K+1）1：使用S的当前估计值通过估计 i步骤（K+1）2：使用上一步骤的结果，估计在,j时发生的事件数为d = d 4pj j i i=j步骤（K+1）3：使用上一步修正后的右删失数据，仍然忽略左删失计算乘积限估计。如果这一估计在所有，处都有s G）接近S Q，则停止迭代，否则继续步醵1。心 K 十三、右截断数据生成函数的估计传染病的研究中比较常见。设广代表第个个体被 Ti传染的时间，X是从感染到发病的时间。研究样X i本包含从0到,期间病人的观测值T,X）.（只有在时间T之前发病的人才进入研究）。1 1 V利用颠倒时间轴法：令.K,X则变为.左截断的，=x XR便可构造贰小.0

25、）= M 5 .）的乘积限估计式。十四、生命表中生存函数的估计生命表（也称寿命表，life table）方法是测定死亡=j率和描述群体生存现象的最古老的技术之一。主要用于保险精算、人口学、医学等方面。一组（大规模）个体在整个考察时间上被连续观S 1个相邻但不重叠的区间内K十1a, a )(j = 1,A , k +1)察，它们的事件发生时间或删失时间被记入j1 j根据生命表方法应用的范围不同，可分为人口生命表和临床生命表，分析方法相似。生命表方法数据假设失和退出）与它们如果一直被观察到事件发生所得到的死亡时间是独立的。（1）独立删失：假定删失的事件时间（包括损IIIIII（2）假定删失时

26、间和死亡时间是均匀分布在每in个区间上的。（3）假定死亡力在区间内是常数。生命表的构造方法第一列给出相邻但不重叠的固定区间/A ,a）（j =盘,k + 1）,a = 0,a =8事件发生时间和删失时i j -1 j0k +1间将落入且只落入其中的一个区间。第二列给出进入第j个区间的对象数仃这些个体还没有经历观察事件的发生。j第三列给出在第j个区间中失去踪迹（死亡）或活着退出观察（迁出）的个体数w第四列给出在第j个区间中，面临观察事件风险的暴露数y的一个估计值，假设删失时间在区间上是均匀分布的，则_, w/2Y Y W / 2第五列是在第j个区尚申发里观察事件（如死亡）的个体数第六列给出在第j

27、个区间起点处的生存函数的估计北）对于第一个区间）= 1，且jj -1d / Y顼(-d / Yj10jjjji1生命表分析的主要任务就是估计S （），基本思想: 乘积限方法。j第七列给出估计的第.个区间中点处的概率密度函数f a )，其中1 * )/2它表示在第j个区间上单位时间内发生观束事件的概率，即 f a 其一 S C 此一 a ) TOC o 1-5 h z mjj -1j jj-1第八列给出在第j个区间中点处估计的危险率 Ja)，由 *G)=f(/)/S0有4 )j( )()()() D( ) ( )1 ( )C()()3)= f (a)/S(a)=f (a)/S(a)+ S、

28、)-S(月2史 2f (a)/(a)- S(a)mjmjmjmjjj - 1jmjj - 1j也可以定义为每个个体单位时间的时间发生率J (a )= d /k - a )(-d Smj j j j -1 j j:后一个区间在理论上是无限的，所以没有任何危险或概率密度函数的估计。第九列是第j个区间起点生存函数标准差的估计值，Greenwood(1976)将其定义为：S ():丈-1 d /Y Y - d)Xj j-1 i i i iL i=1祥。其中SE的估计的标准差为0 其形式与乘积限估计式的标准差估计第十列给出在第j个区间中点处概率密度函数标注差的估计值，它近似等于(j-j悻1 q/(Y

29、p)+Yp, (a - a1 i i i i i其中 q, =d /y ,p, = 1 -q,.生命表的最后一列给出了第个区间中点处j仇(。)Kmqj j危险率函数的标准差的估计，它近似等于1 一仄(a )(a a)/22i/2 TOC o 1-5 h z mj jj1第五章相对风险回归模型一、Cox相对风险模型设氐;X)= lim P(t T t, x)/ h = X (t) r(t, x) hT0+0t 0 x)成为相对风险。M)为基准风险函数。x为协，0变量。二、相对风险回归模型(Cox模型)取 r(t, x )= expt (t )P 唧得 C0X m0del&x)=M)expt伽

30、】其中：Z(r)=t(r)A ,t (j为协变量x和t的函级1X (t)= X(t|x)= (0,A ,0)p=U p)为未知的回归参数Relative risk model(Cox model)e冲11)，伪参数部分P=(3，A )为未知参数B )为非参数部分，未如基准函数，因此，相对风险模型为半参数模型。在Cox模型下：生存时间的分布函数为S(t; x) = P(T 11 x)=exp-/ 人(u)expZ(u) Pdu0密度函数为：f (t； x) = X(t; x) F (t; x)三、几个简单示例最简单模型:X(t; x)=k (t)exp( xp), x = 0,1 o0 : control group1: treatment groupP:

人人文库> 全部分类> 图纸下载 > 毕业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

生存分析概念

文档简介

温馨提示

最新文档

评论

生存分析概念

文档简介

温馨提示

最新文档

评论

相关文档