




已阅读5页,还剩48页未读, 继续免费阅读
(应用数学专业论文)基于生存数据的线性变换模型在股票市场中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 生存数据经过一个未知的单调变换后等于协变量的线性函数加上一个随机 误差,随机误差的分布可以是已知的,也可以是未知的,这就是线性变换模型, 这个模型的具体形式为 g ( t ) = 一卢7 z + 其中9 ( ) 为未知的光滑可逆的严格单调增加函数,z 为p 维协变量,卢为未知的p 维 回归系数变量,s 为误差项,本文研究的是e 已知的情形,我们想要通过这些值来 估计p 。 对于基于生存数据的线性变换模型,通常的做法是通过似然函数来推断卢, 但是本文所应用的是另外一种方法,即先求出变换函数夕( ) 的估计,进而再由最 t j 、- - 乘等方法求出p 的估计。 近些年来,人们对股市的研究非常多,对股市收益率特别是波动率有大量的 讨论,但是很少有人用生存分析的方法来研究股票的收益率。本文将生存分析的 方法引入对股市的分析,把股票价格的连续上涨和下跌看作是一种特殊的生存 过程,利用半参数线性变换模型的方法对这个生存过程进行分析,进而得到连 涨( 跌) 收益率与成交量的关系,分析成交量对收益率的影响。 关键词:生存分析,线性变换模型,c o x 比例危险模型,删失,回归,收益率 a b s t r a c t w ec o n s i d e rac l a s so fs e m i - p a r a m e t r i cl i n e a rt r a n s f o r m a t i o nm o d e l s ,u n d e r w h i c ha l lu n k n o w nt r a n s f o r m a t i o no ft h es u r v i v a lt i m ei sl i n e a rr e l a t e dt ot h e c o v a r i a t e sw i t hv a r i o u se r r o rd i s t r i b u t i o n ,w h i c hi sk n o w no ru n k n o w n ,t h a ti s g ( t ) = 一p 7 z + w h e r e 夕( ) i sa s s u m e dt ob eas m o o t h ,i n v e r t i b l ea n ds t r i c t l ym o n o t o n i c a l l yi n - c r e a s i n gf u n c t i o n ,zi sap 1c o v a r i a t e ,卢i sap 1c o e f f i c i e n tv e c t o r ,a n d i s a ne r r o r w ec o n s i d e rt h ec a s ei nw h i c h f o l l o w sak n o w nd i s t r i b u t i o n ,s u c ha s e x t r e m ev a l u ed i s t r i b u t i o n o u ra i mi st oo b t a i nt h ee s t i m a t i o no f 口 w ed i s c u s st h el i n e a rt r a n s f o r m a t i o nm o d e l sf o rs u r v i v a ld a t a ,t h ei n f e r e n c e s a r ee s s e n t i a l l yb a s e do nt h el i k e l i h o o df u n c t i o n ,a n dt h ei n f e r e n c ef o rt h em o n o t o n e t r a n s f o r m a t i o ni sa f t e rt h ee s t i m a t i o nf o rp i nt h i sp a p e r ,w ep r o p o s ead i f f e r e n t a p p r o a c h :a l le s t i m a t o ro ft h em o n o t o n et r a n s f o r m a t i o ni sg i v e n 矗r s t l y ,t h e nb a s e d o n at r a n s f o r m a t i o no ft h eo b s e r v e dd a t a ,a l le s t i m a t o ro fc o e f f i c i e n t sf o rc o v a r i a t e s i sd e r i v e df r o mt h eo r d i n a r yl i n e a rl e a s ts q u a r e sp r o c e d u r ea n dt h el a r g es a m p l e p r o p e r t i e sa l ea l s oo b t a i n e d i nr e c e n ty e a r s ,p e o p l eh a v em a d em a n ys c i e n t i f i cr e s e a r c h e so ns t o k em a r k e t , a n dm o r ed i s c u s s i o na b o u ty i e l d ,b u tf e wp e o p l ea p p l i e ds u r v i v a la n a l y s i st os t o k e m a r k e t w ea p p l ys u r v i v a lm o d e l st ot h ey i e l do fs t o k e ,a n dr e g a r ds u c c e s s i v er i s e s a n df a l l sa sat y p i c a ls u r v i v a lp r o c e s s w eu s es e m i - p a r a m e t r i cl i n e a rt r a n s f o r m a - t i o nm o d e l st oa n a l y s i st h i sp r o c e s s ,a n dt h e nd e r i v et h er e l a t i o no fs u c c e s s i v er i s e s ( f a l l s ) a n dv o l u m e s k e yw o r d s :s u r v i v a la n a l y s i s ,l i n e a rt r a n s f o r m a t i o nm o d e l s ,c o xp r o p o r t i o n a l h a z a r d sm o d e l ,c e n s o r e dd a t a ,r e g r e s s i o n ,y i e l d 、 n 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得墨鲞盘堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名: 券霍 , 签字日期:加o 年6 月日 学位论文版权使用授权书 本学位论文作者完全了解墨鲞盘堂有关保留、使用学位论文的规定。 特授权鑫盗盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 秀锭 签字日期:功0 7 年6 月7 日 翮躲驹气 签字日期:锄0 7 年6 月7 日 第一章绪论 第一章绪论 生存分析是2 0 世纪7 0 年代以来发展起来的数理统计新分支,是由现代医学、 生物学等科学研究的大量实际问题提出来的,着重对生存数据进行统计分析研究 的一门学科。生存分析的理论和应用受到了世界各国,特别是发达国家很大的重 视。 在许多学科领域,如医学、生物学、保险精算学、可靠性工程学、公共卫生 学、经济学以及人口统计学等领域,都存在对某给定事件发生的时间进行估计和 预测的问题。例如,疾病的发生时间、治疗后疾病复发的时间( 医学) ,机械及电 子器件或系统的失效时间( 可靠性工程学) ,犯人的假释时间( 犯罪学) ,首次婚 姻的持续时间,寻找工作及失业和再就业的时间( 社会学) ,经济危机的爆发时 间,发行债券的违约时间( 经济学) ,被保险人的索赔时间( 保险精算学) 等。研 究事件发生时间规律的问题就是生存分析问题,这类问题的解决通常采用统计学 的理论和方法。所以狭义来讲,生存分析就是利用统计学的理论和方法解决与特 定事件发生时间相关问题的一门学科。 具体来讲,生存分析主要研究生存时间,即一件产品可以正常地工作多长时 间,人或动物能够维持生命多长时间等。生存时间常用来表示自然界、人类社会 或技术过程中某种状态的持续时间。这个生存时间常常可以抽象地用一个非负 的随机变量来表示。生存分析就是对一个或多个非负随机变量进行统计分析,即 根据观测到的数据对其性能进行统计推断的学科。可见,生存分析可以广泛地应 用于生物医学、工业可靠性、社会科学和商业等领域。 根据上面介绍的内容,概括的说,生存分析就是在综合考虑相关因素( 内因 和外因) 的基础上,对涉及生物学、医学( 临床、流行病) 、工程学( 可靠性) 、保 险精算学、公共卫生学、社会学和人口学( 老龄问题、犯罪,婚姻) 、经济学( 市 场学) 等领域中,与事件( 死亡、疾病发生、发展和延缓、失效、状态持续) 的发 生时间( 也叫寿命、存活时间或失效时间,统称为生存时间) 有关的问题提供相 关的统计规律分析与推断方法的学科。 生存分析的核心问题是确定表征生存分布的特定模型,以及在这些模型的基 础上进行统计推断。包括生存数据和响应时间数据的统计分布( 确定抽样分布和 相应的似然函数) ,模型和分布的拟合,评估与预测( 生存概率、平均寿命、生存 分布比较) ,反应、生存及疾病等有关风险因素的识别。 由于试验方面的限制,进行分析的数据具有删失的特点,因此基于统计学方 法的生存分析的内容以及到目前为止的理论发展可以归纳如下:基本的数据类 型( 包括生存数据的来源、方式和类型) ,参数模型和极大似然估计,非参数方 第一章绪论 法( 乘积限估计、生命表法、t u r b u l l 估计) ,半参数模型,删失数据的回归分析、 假设检验以及多变量生存分析等。这些内容都可以在【1 】和【2 】中找到,【3 】中介绍了 生存分析近些年以来的发展情况。 本文考虑了由c o x 提出的半参数线性变换模型 9 ( t ) = 一卢7 z + ( 1 1 ) 其中9 ( ) 为未知的光滑可逆的严格单调增加函数,z 为p 维协变量,卢为未知的p 维 回归系数变量,为误差项。虽然半参数变换模型在分析生存数据时得到了广泛 的应用,但是推断一般是基于似然函数的,并且变换函数的估计在回归系数之 后。本文分析生存数据基于另一种方法,即先给出变换函数的估计,再对变换函 数做一个变换,此时可以把删失情形看作是非删失情形的回归模型,然后再利用 一般情形的最t j 、- - 乘等方法来估计回归系数,这种方法为分析含有协变量的生存 数据提供了一种简单而有效的估计方法。 近些年来,人们对股市的研究非常多,对股市收益率特别是波动率有 大量的讨论p 1 ,过去的一二十年里,关注的焦点在于运用时间序列模型 如a r c h | 6 1 和g a r c h f l 等研究波动率,并运用灵活的估计方法,如g m m 恻等 来估计参数。近年来,人们更关注于高频数据例恤卅、长记忆性u 1 、重尾和多维变 量的研究。国内方面魏巍贤、周晓明p 冽利用g a r c h 模型预测中国股票市场的波 动,吴长风p 驯利用回归- - g a r c h 模型对上证指数和深证指数波动之间的关系、 两市的总体有效性及各自的成交额与股价走势的相关程度进行了分析,汤果、何 晓群、顾岚4 1 利用f i g a r c h 模型对股市收益长记忆性进行了实证分析,朱国庆、 张维、程博驯对股市收益厚尾性进行的研究。可以说,在股市研究中广泛运用了 各种统计模型和方法。 但是很少有人用生存分析的方法研究股票收益率。在这篇文章中,将生存分 析方法引入对股市的分析,因为股票价格的连续上涨和下跌可以看作是一种特殊 的生存过程,当股价连续上涨到头转化为下跌时,可视作价格上涨的“死亡”;同 样当股价连续下跌到头转为上涨时,可视作价格下跌的“死亡,股价就是在这 两种状态下不停的进行着生死相互转化的。目前还很少有人用生存分析来研究 股票价格。 股票价格连续涨跌的收益率可以看作是连续的生存过程,而股价连续涨跌的 天数可以看作是离散的生存过程。本文只考虑股价连续涨跌收益率这种连续的 生存过程,在这里,股价连续涨跌的收益率,可以看作是一个生存过程的时间。 考虑都市股份从2 0 0 0 年1 月7 日至1 j 2 0 0 7 年4 月9 日的每日收盘价和成交量,这 第一章绪论 支股票的代码是沪市6 0 0 8 3 7 s s ,数据来自以下网址h t t p :c n f i n a n c e y a h o o t o m q h p ? s = 6 0 0 8 3 7 s s 。本文用基于生存数据的半参数线性变换模型这种生存分析的 方法分析这支股票的收益率与成交量之间的关系。 下面简单介绍一下本论文的结构。第二章首先介绍一些生存分析中的基本概 念和主要函数,然后在第三章中给出生存分析中已有的几种非参数和半参数估计 方法,紧接着在第四章中提出线性变换模型,并给出变换函数和回归系数的估计 式,最后在第五章中把前面的方法应用在刚才提到的都市股份这支股票相对收益 率的数据中去。 第二章生存分析基本理论 第二章生存分析基本理论 在生存分析中我们遇到的数据常常与一般的数据有很大的区别。例如,我们 在对一支二极管进行寿命检验时,发现它在第3 0 天时仍工作,我们并不知道它将 准确地在何时失效,我们只知道其寿命肯定比3 0 天还长,这种数据我们称之为删 失数据。忽略删失数据有时会产生非常严重的后果,所以我们必须对如何处理带 有删失的数据进行研究,这就是生存分析的基本内容。 2 1基本概念 2 1 1删失数据 用生存分析解决实际问题的数据资料往往与一般的数据不同,其区别在于它 常常是删失的。对于删失的情况我们还要进行细致分析,从形式上,它又分为下 列三种情况:如果我们在对二极管进行寿命检验时,在第3 0 天检验时发现一支二 极管仍工作,我们可以断言它的寿命肯定大于3 0 天,这种数据称为右删失数据; 如果对于另一支二极管,在第4 0 天检验时发现它已失效,但何时失效我们不知 道,可以肯定它的寿命小于4 0 天,这种数据称为左删失数据:还有一支二极管可 以肯定它的寿命超过3 0 天但小于4 0 天,这种数据称为区间删失数据。一般而言, 如果不知道观测的精确值而只知道其大于等于某一个值,则称这个观测值在这一 点右删失。类似的,如果不知道观测的精确值而只知道其小于等于某一个值,则 称这个观测值在这一点左删失;如果不知道观测的精确值而只知道其在某个区间 内,则称这个观测值在这一点区间删失。 在寿命数据中,右删失较为常见,右删失又分为i 型、i i 型、i l l 型删失这三种 类型,下面分别加以介绍。 1 i 型删失 由于观察时间和费用有时会受到一些限制,此时试验( 观察) 是在一定的时 间范围内进行的,这样,样本的寿命只有在小于或等于事先给定的时间范围内才 能被观测到,此时获得的数据被称为i 型删失。对于典型的动物试验和临床试验 而言,在开始进行治疗试验时,动物或患者的数目都是固定的,出于观察时间或 费用方面限制的考虑,研究者不会等到所有个体都发生感兴趣事件之后再终止试 验。在这种情形之下,如果没有意外事故发生导致研究对象( 样本) 减少,也不存 在人为的退出,那么所有删失观测的观察时间都与研究期间长度相等。 2 i i 型删失 另一种类型的右删失是i i 型删失,即研究持续至前7 个个体失效为止,其 中7 - 为事先确定的常数( r c ,那么该个体在观察结束时仍然活着,其事件发生时间在c 处 删失。通常用随机变量组( x ,6 ) 表示试验数据,其中,6 为示性变量,6 为o 时表 示删失,6 为1 时则表示未删失,显然x = 曲( t ,c ) ,即在可以观察到存活时间 时,x 等于t ;当发生删失时,x 等于c ,也就是说, 。f1 ,t c d = l0 ,t c 、 简单的说,生存分析就是对特定事件发生的时间进行分析和推断。根据研究 领域的不同,这一特定事件可以是设备失效、生物体的死亡、疾病的出现、疾病 的发展及复发、犯人的假释、失业、离婚、债券违约等。由于这些事件发生的时 间( 统称为生存时间) 受随机因素的影响,因此是一个随机变量。按照上面的说 法,用大写字母丁表示生存时间变量,因而它是一个非负随机变量,用小写字母 表示变量的取值。生存时间变量t 可以用生存函数、概率密度函数和危险率函数 三个函数来刻画,事实上,只要知道这三个函数中的任意一个,就可以唯一确定 其他三个函数,下面我们分别加以介绍。 第二章生存分析基本理论 定义2 1生存函数是描绘生存时间统计特征的基本函数,从寿命的角度 看,它反映观察个体生存至时间t ( 在时刻t 之后经历某事件) 的概率,即个体生存 时间长于t 的概率: s ( t ) = p ( 个体生存时间大于t ) = p ( t t )( 2 - 1 ) 当涉及机电设备或制成品的失效问题时,s ( t ) 称为可靠性函数。显然生存函 数是非增函数,且s ( o ) = l ,s ( o 。) = 0 。如果丁是连续型随机变量,则s ( t ) 是连续 的严格单调递减函数。 s ( 舌) 的图形叫做生存曲线,陡峭的生存曲线表示较低的生存率或较短的生存 时间,平缓的生存曲线表示较高的生存率或较长的生存时间。 定义2 2和任何其它连续随机变量一样,生存时间丁的概率密度函 数,( ) 定义为j 邢):恕型塑型业坐魁:删(2-2)t a t 。、7 卅 、7 其中f ( ) 是寿命的分布函数,( ) 的图形叫做密度曲线。 危险率函数是生存分析中的另一个基本函数,它描述的是观察个体在某时刻 存活的条件下,在以后的单位时间内死亡的条件概率。危险率函数也叫瞬时死亡 率、死亡强度或失效率。在可靠性研究中,也称为条件失效率,在人口学中称为 死亡力,在随机过程中称为密度函数,在流行病学中称为特定年龄事故率,经济 学中称为逆m i l l 比。我们也可以简单地称之为危险( 或失效) 率。生存时间t 的危 险率函数危( t ) 就是条件生存率,危险率的定义为: 定义2 3时间t 活着的个体,在往后的单位时间区间内死亡的( 条件) 概 率,即 f t ) :l i r a ! ( 生鳖墨! 竺全竺垄擘塑! ! :! 垒堂皇壅圭2 a t - - , ox t = 慨塑掣堂型= 器(2-3)lzm a tt = - l 二o :一 t o 5 ( ) dl o g s ( t ) 】 尸 出 危险率函数用于测量一定年龄的个体是否容易死亡。危险率函数给出了在年 龄增长的过程中单位时间内的死亡风险,在生存数据分析和可靠性分析中起着非 常重要的作用。 第二章生存分析基本理论 特定事件发生的危险率可以递增、递减、为常数、呈浴盆状或呈驼峰状等。 当存在自然的老化或磨损时,可能产生适用于危险率递增的模型。相对来说递减 的危险率函数要少见的多,但是当失效发生的较早时,偶尔也会用到它,比如某 些特殊型号的电子设备或某些类型的移植手术患者。最为常见的是浴盆状危险 率,适合于从出生开始进入观察的人群。同样,某些制造设备可能会因部件损坏 而在早期出现失效,其后一段时间危险率保持不变,到了该设备寿命的后期,危 险率又开始增加。许多人口死亡率数据的危险率函数属于这一类型。死亡率起初 不断下降,这主要是受婴儿患病和生命比较脆弱的影响,随后逐渐稳定化,最后 随着人口的自然老化过程死亡率又逐步上升,这是最常见的危险率模式。如果危 险率先增加,然后又开始下降,则称为驼峰状的危险率模型。这类危险率函数常 用于手术成功后的生存建模,开始时因术后感染、出血或其他并发症等原因使风 险增加,之后随着患者的康复,风险稳步下降。 与之相关的一个量是累积危险函数日( t ) ,其定义为 邢) = r 坼) 如- - - l o g 踯) 】( 2 - 4 ) 因此,对连续的寿命变量,有 踯) = 唧卜即) 】篁e x p 一o 。) 叫( 2 - 5 ) 故t = o 时,s ( t ) = 1 ,h ( t ) = o :t = 时,s ( t ) = 0 ,h ( t ) = o 。,累积危险率可以 取o n 无穷间的任何值。 2 1 3 生存时间函数的关系 上节中定义的生存时间的密度函数、生存函数和危险率函数这三个函数在数 学上是等价的,给出其中一个,另外两个就可以导出。其具体关系如下: 1 已知,( ) ,那么 2 已知s ( ) ,那么 s ( t ) = f i ( z ) 如 坤) = 器 ( 2 - 6 ) ( 2 - 7 ) 第二章生存分析基本理论 3 已知 ( ) ,那么 m ) = 剖d1 一刚】- 一( 舌) 邮) = 帮一辨d 删 阶e x p 一th 叫 f ( t 唧 一o 。) 叫 可见,知道了三个函数中的任何一个,非常容易导出另两个。 ( 2 - 8 ) ( 2 - 9 ) ( 2 1 0 ) ( 2 一1 1 ) 2 2 几种常见的参数模型 虽然在生存分析中常用的方法大部分都是非参数或半参数的,但参数模型 仍占重要地位。如果能够由所得数据确认它属于某种分布类型( 例如是来自正态 分布) ,那么这将大大降低问题的不确定性。因为一旦确定了分布类型,只剩下 具体的参数是不确定的,在适当地估计了参数之后,数据的分布就完全确定了下 来。在此基础上,我们可以进行分析并得出丰富的结论。我们常将这种处理问题 的方法称之为参数模型方法。对于这种问题,我们只要根据不太多的样本就可以 把整个情况搞清楚。 下面重点介绍几种常见的参数模型。 2 2 1指数分布 指数分布是首先得到广泛应用的寿命分布模型,在生存研究方面是最简单而 又最重要的分布。在2 0 世纪4 0 年代后期,研究者们开始用指数分布作为电子系统 的寿命模型。另外,在银行结单和总账单误差,工资支票误差,计算机失效以及 雷达接收机组成部分的失效等问题中,失效数据也都可用指数分布来刻画。指数 分布在寿命研究方面所起的作用类似于正态分布在统计学其它领域的作用。 当生存时间t 服从参数为p 的指数分布时,概率密度函数是 m ) = 吾唧( 一加扎川( 2 - 1 2 ) 第二章生存分析基本理论 分布函数是 生存函数是 危险率函数是 邢) - 1 一唧( 一加 o ,p 。( 2 - 1 3 ) 踯) = 唧( 一言) ,亡 0 ,口 。 ( 2 m ) = 石1 ,t o ,伊 o ( 2 1 5 ) 它是与时间t 无关的常数。 不难算出,该分布的均值和方差分别为0 和俨。指数分布的主要特点是其危 险率为常数,即给定事件在任意时刻之前尚未发生的条件下,事件在时刻发生 的条件概率与t 无关。危险率是指数分布的唯一参数,大的危险率表示高风险和 短生存,而小的危险率表示低风险和长生存。因为指数分布具有不依赖于个体年 龄的,不变的危险率的特性,所以不存在老化或变旧的问题,相当于是一种“永 远年轻”的分布,而且其失效或死亡是独立于存活时间的随机事件。尽管历史上 指数分布很受欢迎,但在健康领域和工业领域,其常数危险率的限制显得过于苛 刻。 2 2 2w e i b u l l 分布 w e i b u u 分布是最为广泛使用的寿命分布,它是指数分布的推广。然而,与指 数分布不同的是,它的危险率不是常数。w e i b u u 分布可用于调查深槽轮滚珠轴 承的疲劳寿命,描写电子管的失效,分析致癌物的实验,刻画放射反应概率的特 性以及模拟人类特殊病的致命性。 当生存时间t 服从参数为q 和口的w e i b u u 分布时,其概率密度函数、分布函 数、生存函数和危险率函数分别是 她,= 唧) 卢卜吣扎舢 协峋 第二章生存分析基本理论 f ( 0 = i - e x p 一( 三) ,t 。,q 。,p 。 s e t ,= e ) c p 一( 丢) 芦 ,0 ,n 。,p 。 是( 舌) = 石,t 妒- 1 , t o ,a o ,p 0 ( 2 1 7 ) ( 2 1 8 ) ( 2 - 1 9 ) 容易算出,w 西b i l l l 分布的均值和方差分别为q f ( 1 + 1 z ) 和a 2 j r ( 1 + 2 z ) 一 f 2 ( 1 + 1 3 ) 1 。w e i b u l l 分布的危险率函数在p 1 时是单调递增的,在p o , 入 哪 。( 2 - 2 4 ) 邢) = f o 高沁) 肛l e 砘如= m 邪” 。,久 咿 。 ( 2 2 5 ) s ( t ) = 1 一i ( m ,p ) ,t 0 ,a 0 , 0( 2 - 2 6 ) 酢) = 崭编扮叭 。d 。( 2 - 2 7 ) 以= 嘉p 吒如 是不完全伽马函数。 伽马分布的特性取决于两个参数p 和a ,当0 。,p 。,矿 。( 2 - 2 s ) 耶) = 志庄唧 - 击( 1 0 一叫蚓 帅 叩 0 ( 2 锄) 踯) = 而1z 。三唧卜刍( 1 0 扩d x 抄吣 咿 0 ( 2 - 3 0 ) 九( 亡) = 孑) 了6 j e i x ;p 王五 - _ 1 j 击二;( i l o 刁g e 运t i - i :# :) 硒2 , 。,p 。,仃 。( 2 3 1 ) 对数正态分布的均值和方差分别为e x p ( # + o = 2 ) 和 e x p ( a 鼍) 一1 】e x p ( 2 # + a 2 ) 。 对数正态分布在事件发生时间的数据中较为常用,原因有两个:一是因为它与 正态分布之间的关系,二是有些作者发现对数正态分布非常接近于某些疾病 的存活时间或发作时年龄的分布。对数正态分布的危险率函数呈驼峰状,即 当t = 0 时,h ( t ) = 0 ,接着增加到最大值,然后当t 趋近于无穷大时,其取值下降 。为0 。当t 较大时,对数正态分布的危险率递减,这在许多情况下都令人怀疑,但 是如果研究不是针对t 较大时的情况,该模型可以适用于许多场合下的应用。 2 2 6 l o g i s t i c 分布和对数l o g i s t i c 分布 l o g i s t i c 分布与正态分布十分接近,但其生存函数在数学上更易于处理。 设t 是服从参数为弘和盯的l o g i s t i c 分布的随机变量,其概率密度函数、分布函数、 生存函数和危险率函数分别是 邢,= 着犏p 叩刈 协3 2 , 刖= 再羽1 ,t 。,仃 。( 2 - 3 3 ) 刚= 再e x 诵p ( - - 字) ,t 。,仃 。 ( 2 3 4 ) 第二章生存分析基本理论 = 币石厕1 ,亡 。,口 。( 2 - 3 5 ) 可以算出,l o g i s t i c 分布的均值和方差分别为p 和7 r 2 盯2 3 。 同样,如果l o g t 是服从l o g i s t i c 分布的随机变量,则t 服从对数l o g i s t i c 分布, 其概率密度函数、分布函数、生存函数和危险率函数分别是 邢)=而丙exp(而-1。a-q学) ,川砂。 ( 2 3 6 ) 荆= 而司1 习,t 。,仃 。 ( 2 3 7 ) 刚= 再e x p 司( - 学鬲) , 。,伊 。 ( 2 3 8 ) 危( ) = 却鬲虱1 硐, 。,盯 。( 2 - 3 9 ) 可以算出,对数l o g i s t i c 分布的均值和方差分别为e 吓( 1 + 仃) r ( 1 一 盯) 和e 2 肛【r ( 1 + 2 a ) r ( 1 2 仃) 一f 2 ( 1 + ) r 2 ( 1 一盯) 1 。 第三章生存函数的估计方法 第三章生存函数的估计方法 3 1 估计生存函数的非参数方法 像普通统计分析一样,生存分析也有一套完整的统计方法,如求生存时间的 分位数、中数生存期、平均数、生存函数的估计、判断生存时间的图像等,以及 各种非参数检验和c o x 模型,详见【2 】o 对于删失情形的不同,有不同的估计生存函数的非参数方法,主要有乘积限 估计、生命表估计、t u r b u l l 估计等,下面分别加以介绍。 3 1 1 乘积限估计 若假定事件发生在佗个严格区分的时间点t 1 t 2 t , i t 如) = 弋y , - f d i ,i = 1 ,2 ,佗 式中,也为时刻死亡的个体数,k 为在时刻屯面临危险的个体数。 在上面论述的基础上,对任意时刻t i ( t o = 0 ) ,因为s ( o ) = 1 ,并且对于离 散分布,有s ( t 一1 ) = p ( t 厶一1 ) = p ( t 如) ,所以s ( 屯) 的估计可由下式推得: 第三章生存函数的估计方法 = 器渊器器删 = p ( t t d t t 1 ) p ( t t i _ l i t 南一1 ) p ( t t 2 1 t t 2 ) p ( t h i t t 1 ) 考虑在数据中可能出现的“打结现象,即假定事件发生在n 个严格区分的时 间点t 1 ,t 2 ,k 上,在时间t t 处有d i 个事件发生。设m 是t t 时暴露于风险中的个 体数,也就是在时刻如仍生存的个体数。这样d , y , 就是对某观察个体刚好在t i 前 生存,而在t l 经历了事件发生的条件概率的一个估计。这个量是构造生存函数和 累积死亡率的基础。简化上面的公式可以得到乘积限估计式。在存在数据的时间 范围内,乘积限估计式定义如下: 雪c t ,2 矗“9 ( 1 一安) , :三笔 c 3 - 1 , 式中,喀,的含义如前面所示。 乘积限函数是一个阶梯函数,在观察时间点上发生跳跃,跳跃的大小不仅依 赖于时间点t t 上发生的事件数,而且依赖于时间f t 前删失数据的模式。乘积限估 计式的方差由g r e e i l w o o d 公式给出,其形式如下: 鳓1 - 【鲫2 薹采与 ( 抛) 与其相应的标准差是上式的平方根。 乘积限估计式还可以简写为 i1 ,t 【0 ,t 1 ) 靴) = n ;:。( 赫) 魂,t 皑,“小乩2 ,礼一1 ( 删 10 ,t i t n , ) 后面的计算中我们主要利用( 3 - 3 ) 式。 3 1 2 生命表估计 生命表估计也称为精算估计,可以处理精确数据、右删失数据及区间型数 据。具体的说,只需要知道在每个寿命区间里有多少个精确数据或右删失数据, 第三章生存函数的估计方法 而不一定要知道其具体失效时间或右删失时间。它是历史上最悠久而目前仍大 量使用的生命表统计方法,主要用于估计生存函数、累积失效率和危险率、概率 和平均剩余寿命。 把区间( 0 ,。) 分成若干个小区间,若啦是进入第i 个小区间的个体数,也是 第i 个小区间中的失效数,毗是第i 个小区间中的删失数,嗡= m 一叫, 2 ,事件发 生的条件概率反= 盔,a = i 一蠡,那么精算估计所做出的生存函数的估计值 是: 讯) = “,拭( 3 - 4 ) 3 1 3t u r b u l l 估计 如果在一组数据中,既含有精确数据和右删失数据,又含有左删失数据,那 么如何估计生存函数呢? 前面介绍的乘积限估计和精算估计均无能为力,需要采 用新的方法。【1 9 】首先就分组数据的情形提出一种方法,在此基础上【2 0 】和【2 1 】就 非分组数据的情形也给出了估计法。两种估计方法在数学上是相似的,统称 为t u r n b u l l 估计。该估计利用迭代算法来对数据的累积分布函数进行非参数极大 似然估计,主要用于估计生存函数和累积失效率,下面简单介绍估算步骤。 1 利用精确数据把数据分割为一些区间厶,设在寿命数据中的最小值 为t 1 ,而t 1 不一定要求为精确数据,除去t 1 后剩下的互异的精确数据为t 2 t n ,记k + 1 三o 。,易= ( 如,岛+ 1 ) ,歹= 1 ,2 ,n ,这样将【l ,o 。) 分为礼个区 间j r l ,厶,厶。 2 计算各区间上的统计量嘭,心,其中心表示在区间易中精确数据的个 数,表示区间易中右删失数据的个数,心表示区间易中左删失数据的个数。 3 找出函数l ( 0 1 ,9 2 ,民) = n 墨1 ( 岛一一易) 呜咛( 1 一岛) 脚,( o o 兰1 ) 在闭 区域0 靠口1 1 上的最大值点( 巩,以) 。 4 生存函数估计值为 雪。,= 乏,t te b o , ,t 岛d + 。,j :1 ,2 ,n c s 一5 , 3 2 删失数据似然函数的构造 对给定的数据类型,为了进行推断,确定抽样分布相应的似然函数是最基本 的问题。在面对包含删失数据的生存试验设计时,构造似然函数需要格外小心。 第三章生存函数的估计方法 这里有一个严格的假定,即存活时间和删失时间是独立的。如果不满足这一条 件,就必须采用特殊的方法。在对删失数据构造似然函数时,需要仔细考虑每一 记录究竟能够提供什么样的信息。事件发生的精确时间提供了事件在这一时间 点上发生的概率信息,近似等于在该时点上t 的密度函数。对于右删失观测而言, 我们所知道的是事件的发生时间大于删失时间,所以提供的信息是在研究考察期 间的基础上计算的生存函数。类似的,对于左删失观察,我们只知道事件已经发 生,它对似然函数的贡献是在研究考察期间基础上计算的累积分布函数。对于区 间删失数据,我们只知道事件在某一时间段内发生,得到的信息是事件在该时间 段内发生的概率。 具体的,各种删失方案的似然函数都可以用下面的方法统一表示: 精确存活时间:( t ) 右删失观测:s ( g ) 左删失观测:1 一s ( a ) 区间删失观测:s ( l i ) 一s ( r ) 其中,g 表示右删失情形的删失点,q 表示左删失情形的删失点,厶表示区 间删失的左删失点,r 表示区间删失的右删失点。 按照上面的方法,构造的似然函数是 三o ci i ( t t ) n s ( g ) i i ( 1 一s ( a ) ) i i ( s ( 厶) 一s ( 风) ) ( 3 - 6 ) i drli , 式中,d 代表死亡观测集,r 代表右删失观测集,l 代表左删失观测集,代表区间 删失观测集。 3 2 1i 型删失数据的似然函数 用p ( t ,6 ) 表示构造似然函数时的贡献信息,以下是i 型删失似然函数的详细 推导过程。 若5 = 0 ,则有 p ( t ,6 = 0 ) = p ( x = g 1 6 = o ) p ( 5 = 0 ) = p ( 6 = 0 ) = p ( t g ) = s ( g ) 同样,若5 = 1 ,则有 第三章生存函数的估计方法 p ( t ,5 = 1 ) = p ( x = t 沁= 1 ) p ( 5 = 1 ) = p ( t = x l t g ) p ( t g ) = f ( t ) 这些表达式可以统一表示为: p ( t ,6 ) = 【,( t ) 卜【s ( 卯一石 如果我们有佗组随机变量( 五,魂) 0 = 1 ,2 ,礼) ,其似然函数为: 三= i ip ( t i ,盈) = i ) 产i s ( t o 1 一以( 3 - 7 ) i = 11 = 1 又因为f ( t 1 ) = h ( t f ) s ( t o ,所以上式还可以写为 ,2n i = 1 帜妫2 缈岍叫一z 。叫 ( 粥) 3 2 2i i 型删失数据的似然函数 对i i 型删失,数据由容量为礼的存活时间随机样本t 1 ,t 2 ,厶中的? - 个最小的 存活时间( 1 ) t ( 2 ) 亡( ,) 组成,假i g t o ) ,( 2 ) ,亡( ,) 相互独立且分布相同, 概率密度函数厂( 芒) 和生存函数s ( ) 是连续的,由此得到o ( 1 ) ,( 2 ) ,( r ) 的联合概 率密度函数为: 钿= 南匦蛾神,卜胪吖 c 删 3 2 3 随机删失数据的似然函数 对于随机删失数据,如果丁和g 不独立,记t 和g 的联合分布函数为s ( ,c ) , 则似然函数具有如下形式: 钿z o c 姗掣o s ( t , “ _ o s ( t l , o cc ) 耐。厂c , 本节所介绍的似然函数的构造主要适用于参数模型的分析,它们也是半参数 回归方法中构造条件似然函数的基础。 第三章生存函数的估计方法 3 3 c o x 比例危险模型 前面介绍的乘积限等估计针对于独立同分布的情况,如果由于某些因素使得 对每个人而言,面临死亡的机会并不相等,此时乘积限估计并不适用。对于此种 情形,c o x 于1 9 7 2 年提出了比例危险模型1 4 】,也称为c o x 模型,他把协变量引入危 险率函数中。 3 3 1比例危险模型的表示 像前面一样,令t 表示对应某一事件的发生时间,若数据来自于容量为n 的 样本,包括三个变量冯,如,乃( t ) d = 1 ,扎) 。其中冯表示第j 个个体的研 究时间,以是事件标识变量( 即如果事件发生,则c i f = 1 ;若数据为右删失, 则岛= o ) ,乙( ) = ( 乙1 ( t ) ,历p ( t ) ) 7 这饰维向量表示第j 个个体在时间t 时 的协变量向量,这将影响到t 的生存分布。历七( ) ( 七= 1 ,p ) 为依赖于时间 的协变量,其取值随时间而改变。本文将考虑协变量不随时间改变的情况,即 有乃( ) = 毛= ( 历l ,扬p ) 。令h ( t t z ) 表示具有危险向量z 的个体在时间t 时 的危险率,c 0 x 提出的半参数模型如下: 琊i z ) = h o ( t ) 唧( 3 z ) = h o ( t ) e x p 声 k = l 觑叫 c , 其中( t ) 是一个任意的基准危险率,卢= ( 岛,岛) 7 是一个参数向量。因 3 0 ( 3 - 1 1 ) 含有协变量效应,因而有参数形式,而基准危险率被当作是非参的,所 以p 1 1 ) 被称为半参数模型。 可以证明,( 3 - 1 1 ) 等价于 这是因为 s ( 亡) = 【s o ( t ) e x p ( p = ,凤犰) 踯,= 唧 一o ,叫 一 _ e x p ( a z ) o 。坼) 叫 = 卜c 一伽捌广刁 = ( ) 】唧( 刁 ( 3 - 1 2 ) 第三章生存函数的估计方法 其中岛( t ) = e x p 【- 后0 ) 如】称为基准生存函数,即与( t ) 相对应的生存函数。 c o x 模型常被称为比例危险模型,这是因为假如有两个个体,其协变量的值 分别为z 和z ,其危险率之比为: 丽h ( t l z ) = 糍鞘= 唧瞽( 磊吲 危( i z ) ( ) e x p ( :1 凤况)“中l 台雠p 嚣 7 l 该比值是一个常数,所以危险率是成比例的。 3 3 2比例危险模型的条件似然估计 如前所述,数据容量为n ,它包括三个变量码,岛,乃( ) 0 = 1 ,礼) ,令t 1 t 2 k 表示顺序事件时间,z ( i 、知是与在时间如时失效的个体相关的第七个协 变量。定义时间屯时的风险集为r ( 屯) ,它表示在t 之前仍处在研究过程中的所有 个体的集合。 假如r ( t i ) 中的一个个体在时间t i 时死亡,在此前提条件下,具有协变量z 的 个体在时间t t 时死亡的条件概率为 p 个体在时刻t i 死亡l 某个体在时刻t t 死亡l 尸【个体在时刻如死亡i 存活到屯】 尸f 某个体在时刻屯死亡 存活到毛】 h ( t i l z ( i ) ) h o ( 也) e x p ( 3 7 z “) ) e
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 摩托车涂装知识培训课件
- 内蒙古乌兰察布市2024-2025学年七年级下学期期末语文试题(解析版)
- 桥梁施工技术试题及答案
- 2025年版简易建筑工程合同与现行建筑工程合同对比分析
- 2025合作协议大棚合作协议范本
- 2025标准版房屋租赁合同范本协议书
- 投资建厂合作建设协议书
- 摄像相机基础知识培训课件
- 2025停车场使用权置换合同样本
- 2025有关餐饮行业购销合同范本
- 心之所向·素履以往+课件-2025-2026学年高三上学期开学第一课主题班会
- 2025秋人教版英语八年级上Unit 1 全单元听力材料文本及翻译
- 急性胰腺炎护理小讲课
- 电站安全急救课件
- 新型医药销售外包(CSO)行业跨境出海项目商业计划书
- 口腔诊室6S管理
- 临期保持食品管理制度
- 义务教育化学课程标准(2022年版)
- 旅游景区反恐管理制度
- 文印员考试题库及答案
- 安全总监考试试题及答案
评论
0/150
提交评论