删失数据分析.doc_第1页
删失数据分析.doc_第2页
删失数据分析.doc_第3页
删失数据分析.doc_第4页
删失数据分析.doc_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本科毕业论文(设计) 论文(设计)题目:有关删失数据的一些估计与模型 学 院:理学院 专 业:数学与应用数学 班 级:081 学 号:080701110241 学生姓名:黄玉春 指导教师:戴家佳 2012年 6月 2 日贵州大学本科毕业论文(设计)诚信责任书本人郑重声明:本人所呈交的毕业论文(设计),是在导师的指导下独立进行研究所完成。毕业论文(设计)中凡引用他人已经发表或未发表的成果、数据、观点等,均已明确注明出处。特此声明。论文(设计)作者签名: 日 期: 贵州大学本科毕业论文(设计) 第32页摘要 本文讨论了近几年有关删失数据的一些估计与模型,对删失数据的几种重要分类进行了讨论,并且针对这几种分类进行了叙述。本文在第二章着重说明了删失数据的几种重要估计,其中Kaplan-Meier估计、Nelson-Alan估计、Pererson估计、Breslow估计等都是近几年在医学等领域广泛应用的概念,本文详细的阐述了这几种估计,详尽的了解了它的构成与它的定义。本文在第三章讨论了有关删失数据的一个重要模型Cox模型,Cox模型是近年来在医学上极为重要的一个模型,在分析删失数据的时候,Cox模型对正确评价医学方面等的治疗效果和进一本改进的治疗方案具有重要的临床意义。本文引用Cox模型分析了乳腺癌因子与生存期之间的数量关系,建立生存模型,最后得到相对危险度来估计每个个体的生存率。最后对Cox模型的一些局限性与应用范围提出了意见。关键字:删失数据,Cox模型,kaplan-Meier估计,Nelson-Aalen估计The Estimation And Models Of Censored DataAbstract This paper discusses the relevant censored data in recent years and some of its important classifications, and gives an account of the classifications.The second chapter of this paper mainly focuses on several important estimate to censored data, among which Kaplan-Meier estimate, Nelson-Alan estimate, Pererson estimate, Breslow estimate are all widely applied in medical science and other fields in recent years. This paper expatiates these estimates, their structures and definitions.In section 3 of this paper discusses an important model about the censored data-Cox model, Cox model is an extremely important model in recent years in medical , when analysis the censored data , Cox model has important clinical significances for the evaluation of medicine, the treatment effect of the and into a treatment plan of this improvement . The paper quotes Cox model to analyze the quantitative relationship between the breast cancer factor and life cycle, and establishing survival model, then get the relative risk ratio to estimate the survival rate of each individual. Finally puts forward opinions about the limitations and application range of the Cox model.Key word: Censored data,model of Cox,kaplan-Meier estimate,Nelson-Aalen estimate目录摘要1第一章 前言31.1.研究现状41.2删失数据基本概念61.3删失数据的几种衍生数据9小结11第二章 删失数据的几种估计122.1 Kaplan-Meier估计122.2 Nelson-Aalen估计22142.3 Pererson估计142.4 Breslow估计23142.5 Buckley-James估计142.6 Lynden-Bell估计24162.7 Turnbull估计17小结17第三章 Cox模型173.1 Cox模型173.2 Cox模型的几种常用类型25183.3 Cox模型分析的步骤27203.4 Cox模型的统计描述213.5实例应用28223.6 Cox模型的应用范围及注意事项253.7 Cox模型的局限性27小结28第四章 总结28参考文献29致谢31第一章 前言 由于失访、改变防治方案、研究时间结束时事件尚未发生等情况, 所采集的数据中许多应该采集而未能采集, 应提交而未在一些时点上提交造成数据不完全, 这类数据称为统计学上的删失数据, 也称为截尾数据、终检数据() 。国内一些学者关于删失数据统计分析的研究主要集中在生存分析、线性回归、半参数回归参数估计等领域。但关于 回归、单指标回归参数估计的研究涉及较少。至于在信息随机缺失机制下的研究也主要涉及线性回归及半参数回归参数估计, 其他领域涉及较少。 作为数理统计学的一个重要分支,生存分析一直是一个非常活跃的研究领域,近年来也得到迅速的发展,并在医学、工业、保险以及经济等领域有着广泛的应用。 传统的独立删失情况下的生存分析的工具、从最早期的生存表方法,到截断数据的似然方法,时间序贯计划以及技术过程与鞍方法。此外还有生存函数的估计,截断数据线性回归的参数估计,极端数据的秩检验等重要的研究内容,产生了一系列良好的理论结果。随着考虑的问题越来越复杂,人们提出了一系列新的模型,譬如Cox模型、Aalen相加模型等等。其中模型是应用最为广泛的模型之一。 自从于1972年提出Cox比例风险模型之后,引起了很多学者的关注。等许多学者做出了一系列卓有成效的分析和对一些己有结果的扩展工作。现在Cox模型己经在工业,医疗领域得到了广泛的应用。模型中,有两个未知的部分,一是参数口,另一个是基准生存函数.因而模型是一种半参数模型。这两个未知的部分都需要利用观测数据来加以估计,当然这里个数参数的估计方法,在后人的整理中利用偏似然函数己经得到了完整的求参方法。1.1.研究现状国内一些学者关于删失数据统计分析的研究主要集中在生存分析、线性回归、半参数回归参数估计等领域。但关于回归、单指标回归参数估计的研究涉及较少。至于在信息随机缺失机制下的研究也主要涉及线性回归及半参数回归参数估计, 其他领域涉及较少1。线性回归模型领域文献有:秦更生等2证明了具有删失数据下近邻回归函数估计量的强相合性 。非线性回归模型领域文献有:周秀轻等3 研究了随机删失数据非线性回归模型的最小一乘估计问题。半参数回归领域文献有: 秦更生4 研究了当为一维待估参数和删失分布未知时, 基于核光滑和综合数据法, 导出了和 的估计量。非参数回归领域文献有:许冰等5 研究了删失数据非参数回归函数最近邻估计强收敛速度。单指标回归领域文献有:国外自20 世纪80 年代末以来, 一些统计文献从不同角度根据不同假设条件, 对该模型作了一定的研究, 并提出了一系列方法. 而在国内, 有关该模型的相关文献还很少。关于该模型删失数据的统计分析的文献更少。生存分析领域文献有:郑祖康6证明了在具有删失数据的生存分析中整体估计量在 空间的强收敛性以及弱收敛性。时间序列分析领域文献有:何书元等7研究了当平稳时间序列被另外的平稳序列删失后的协方差、相关系数的估计问题。密度估计领域文献有:王启华等8研究观察数据被随机右删失时参数分布族的局部渐近正态与渐近极小极大有效性。 国外文献尚未发现应用模型时对删失比例有何限制的报道。关于删失比例对模型影响的研究,的研究认为族线性回归模型在忽略删失数据情况下与模型和模型的效能相当,却优于简单线性回归模型,还认为族线性回归模型对删失比例的大小具有稳健性但并未考虑删失数据时其效能与模型的比较。关于不同删失数据类型情况下的参数估计有较多研究;如等10提出的混合加成模型适用于左右删失和区间删失,并对忽略区间删失对模型的影响进行了模拟研究,认为会降低模型的效能;用半过程对左右删失进行参数估计;用半参数及核估计法进行参数估计;应用模拟方法对缺失数据进行了诊断;则对协变量随时间变化的生存分析用核加权偏似然方法进行了参数估计;等对于混合删失用基于贝叶斯的非参数模型进行参数估计;将删失数据分为有意义和无意义删失数据两种,并改进模型对含有这两种删失数据进行参数估计,同时进行了模拟研究等。但是,上述研究均未讨论不同的删失比例对模型的影响,也未见应用方法模拟分析不同删失比例对比例风险模型回归结果的影响。只有和在研究模型特性时,比较了模型和模型的应用条件,提出要根据数据的删失比例、拟合效果、删失分布和生存分布形式等因素选择合适的方法,并建议当删失比例超过60%时使用回归模型,但并未讨论删失比例对回归结果的影响趋势,也未确定在应用Cox比例风险模型进行生存分析时删失比例的限度。1.2删失数据基本概念 在临床试验研究中,常对各个观察对象进行随访观察,记录各个时点上事件的发生情况,以评价临床疗效。在比较各种疗效之间的效果时,不仅要考虑是否有效,还要考虑从试验开始时发生疗效的时间。假定用甲、乙两药治疗某病,其疗效均为80%,我们也不能笼统地说两种药物的疗效一般,因为还要一个时间效应问题。如果甲药平均三天治愈80%的病人,而乙药平均7天治愈80%的病人,则可以认为甲药比乙药的疗效好。事实上每一种药物在治疗疾病时,都有一条时间生存曲线,全面科学的评价药物的疗效应是对时间生存曲线的全面评价,而不仅仅是对某个时点治愈率(或生存率)的评价。另外,在临床试验及其随访中,一部分研究对象可观察到死亡,从而得到准确的生存时间,所提供的信息是完全的。但往往另有一部分病人,或中途释放,或到观察结束时仍存活,对这些人无法知道准确的生存时间,只知道其生存时间比观察到的时间要长,这种现象称之为截尾,所得到的数据称为截尾数据,它提供不完全的信息,又称为不完全数据。而能观察到结果的数据称为完全数据。生存分析能同时分析有结局的生存时间数据和没有结局的截尾数据。因此,生存分析就是将时间发生的结果和随访时间两个因素结合在一起,同时进行分析的一种统计方法,它充分利用了研究所得的信息,更加准确地评价比较随访的资料。生存分析: 生存分析是根据生物学、医学、生命科学、可靠性工程以及保险等科学研究中的大量实际问题提出的。是对一个或多个非负随机变量(生存时间)进行统计分析研究。生存分析的实用方法和丰富理论可以应用于生物学、医学、生命科学、工程科学、社会学、心理学、经济学、保险精算学等领域。生存分析的起源于几个世纪之前对死亡表的研究及半个世纪前开始的工程研究。二战引起了人们对武器可靠性的兴趣,而且一直持续到今天的武器和商业产品上。生存时间: 生存时间广泛地定义为一给定的事件发生的时间。也称为失效时间或寿命时间。事件可以是疾病的发生,一种处理(治疗)的反映,病情的复发或死亡。因此,生存时间可以是无肿瘤时间,从一种治疗开始到有反应的时间,缓解时间的长度或出现死亡的时间。生存数据 包括生存时间、对治疗的反应以及与反应、生存和疾病发生有关的病人的特征等。生存数据不仅出现在生物医学中,而且出现在生命科学、工程科学、社会学、心理学、经济学、保险精算学等领域研究中。 例子:可靠性工程中电子设备(元件或系统)的寿命;犯罪学中重犯人的假释时间;社会学中首次婚烟的持续时间;汽车工业中汽车车轮的圈数(它可以不是时间);市场学中报纸或杂志的篇幅和丁费;保险公司在某一索赔中所付的保险费等。生存函数定义1.2.1设表示生存时间,表示的分布函数,则的生存函数定义为它实际上是个体生存时间长于的概率。 又称为累计生存率,它的图形叫做生存曲线。陡峭的生存曲线表示低的生存概率;较平坦的曲线表示高的生存概率。在工程上称为可靠性函数或可靠度。 是的非增函数,且 当有分布密度函数时,危险率函数定义1.2.2危险率函数是刻画生存函数的重要特征之一,它实际上是条件生存率。记为生存时间T的危险率函数,其定义为可以直观地解释为在时间t或者的个体在接下来的单位时间区间内死亡的条件概率。 危险率函数在工程上叫做失效率函数或损坏函数、而在生存分析中医学统计中又称为风险率函数,或瞬间死亡率,或死亡强度,或条件死亡率,或年龄死亡率等。定义1.2.3 称为累计危险率函数,满足及如果的分布函数为且有密度函数,则有下列计算公式:或如果为取值的离散随机变量且有概率函数则在处的危险率为其中删失数据 删失分为右删失和左删失两种,若在进行观察或调查时,一个个体确切生存时间不知道,但只知道其生存是时间大于,则称该个体的生存是在上是右删失的,并称L为右删失数据。若个体的确切生存时间不知道,只知道其生存时间小于,则称该个体的生存时间在上是左删失的,并称为左删失数据。 右删失有三种类型:I型删失,II型删失,III型删失。定义1.2.4 I型删失:对所有个体的观察停止在一个固定的时间,这种删失就是I型删失。 例如:动物研究通常是以有固定数目的动物接受一种或多种处理开始。由于时间和费用的限制,研究者常常不能等到所有动物死亡。一种选择是在一个固定时间周期内观察,在截止时间之后仍可能有可能有些动物活着,但不继续观察了。这些动物的生存时间是不知道哦的,只知其不小于研究周期时间,这些称为I型删失数据。定义1.2.5 II型删失:同时对n个体在不同时间进入研究,某些个体在研究结束之前死亡,他们的确生存时间是知道的,其他个体在研究结束之前退出研究而不被跟踪观察,或在研究结束时仍然活着。定义1.2.6对于那些中间退出而失去跟踪的个体,生存时间至少是从他们进入研究到失去联系这段时间,对于仍然活着的个体,其生存时间至少是从进入研究到研究结束这段时间。这后两种观察就是删失观察。由于进入研究的时间可能不同,删失时间也可能不同。这种删失就是III型删失,又称为随机删失。其数学表示如下:设是非负独立同分布表示生存时间的随机变量; 是非负独立同分布表示删失时间的随机变量,由于随机删失,我们不能完全观察到,而仅能观察到,其中表示和中的最小值,表示和中的最小值1.3删失数据的几种衍生数据1.3.1竞争风险数据18 在生物医学和工程科学中,个体的死亡(或失效)往往是由多个原因引起的,例如器官移植,病人可能经历各种并发时间(即原因),最后死亡。一般观察到个体的死亡时间和死亡的一个原因,由此获得的数据称为竞争风险数据。对于这种数据,当某个原因发生了,其他原因就不可能发生了。定义1.3.1.1设是死亡时间,引起死亡的原因有类, 表示死亡原因的示性函数。观察到的数据位,其中 表示个体死亡是由第个原因引起的, 。对于第类原因,其分原因危险函数或粗危险率定义为第j类子分布函数或累计发生率函数或边际概率函数是:它与分原因危险函数的关系是1.3.2集群失效时间数据 集群失效时间数据时对多个有关系的成员分别观察同种类型的生存时间多获得的数据,即考察的对象是由多个并具有某种联系的成员组成的单位。这种数据也称为成组数据。其特点是同组内个体的生存时间是相关的。例如,在流行病的群体研究中,必须对整个家庭中每个成员进行观察,记录每个成员的发病时间:在眼科学中,对于视力的减弱,必须分别对个体的双眼进行测试:在肾脏的疾病研究中,为了比较某些透析中心的治疗成功率,必须对这些中心的多个病人进行观察。1.3.3截断数据19 只有个体经历某种初始事件以后才能观察到其生存时间,称为左截断。此时所获得的数据,称为左截断数据。例如暴露于某疾病,发生死亡前的中间事件等。只有经历了某种终止时间,才能观察到其生存时间,称为右截断。此时所获得的数据,称为右截断数据。 其数学表示如下: 设是一个非负的表示生存时间的随机变量;是另外一个表示截断时间的随机变量。在左截断下,只有当时,才能观察到和;在右截断下,只有当时,才能观察到和。1.3.4左截断右删失数据20 既有左截断又存在右删失的情况,称为左截断右删失,获得的数据位左截断右删失数据。其数学表示如下: 设是一个非负的表示生存时间的随机变量;是一个表示截断时间的随机变量;C是一个表示删失时间的随机变量。在左截断右删失下,只有当时,才能观察打,其中表示和中的最小值,表示删失状态的示性函数。1.3.5区间删失数据21 若个体的确切生存时间不知道,只知道其生存时间再两个观察时间和之间(L0时,表示该病人对应的危险度大于平均水平;当PI0时,表示该病人对应的危险度小于平均水平。在实际工作中,为了便于计算,常把上式变换成回归系数和各协变量的函数,此时对应的个体预后指数为:式中是所有病人的常数项,和X表示病人对应的各因素及其回归系数。根据实际工作的需要,在分析时,也常估计病人的生存率并绘制人群的生存曲线。3.5 实例应用28在探讨乳腺癌的预后,收集了54名女性病人的年林、月经情况、生存时间、结局及肿瘤的治学类型、临床分期、是否有淋巴结转移等影响因素,探讨影响因素与预后的关系。各变量的意义如表2所列。表2 乳腺癌的影响因素及量化值变量含义量化值病人的年龄岁月经有无有1无0肿瘤大小10淋巴结是否转移否1是0组织学类型低分化1中高分化0PR阳性1阴性0T病人的生存呢时间月Y病人的结局截尾1死亡0引用数据统计年鉴2007表3 54名女性乳腺癌患者预后的影响因素及生存时间nn147100011171285501111821244011115812940111014503360101129030331111111314420111066131541000011305421000187132481001111316460111111513328000113074001111601344100011180839111017013532111001181938010117036491000011311042011116913748111111501158111017713844000114012541000110113943011101131133801110981406611101112114481110163141740001170154310000113142400001116016401110166043720101124017380001191144481001011311853111009114532011112401919000112404644000111902037000009014769000111802143100111504842000102022656510009314963100001101234900011305037000115024501100189051440001011312553111011131524211101111126620001111315361010104002750100102705445100001081 为便于说明,本实例的运算结果在SAS软件包中实现,先将上述数据转化为SAS数据集,然后根据以下程序进行分析。第一句程序为调用Cox模型分析模块;第二句程序为建立生存时间为T,截尾指示变量为Y的Cox模型,当Y取值为1时表示截尾。其中的选择项表示采用逐步回归法对影响生存时间的因素进行筛选,进入模型的变量及模型中剔除变量的检验水准为0.1和0.05,表示要求计算筛选因素的相对危险度及其95%的置信区间。 共有54名病人参加了分析,筛选后的最佳模型包含3个协变量,分别为和,模型默认的情况下提供了三种检验的方法,分别为对数似然比检验、检验和得分检验。其对应的P值均小于0.05,表明配合的模型具有统计学意义,具体结果见表4表4 Cox模型筛选的危险因素及参数估计变量参数估计值标准误PRR95%区间上限上限下限-1.343400.556710.01580.2610.0880.7771.813700.626950.00386.1331.79520.958 从协变量X1来看,其对应的偏回归系数为-1.34340,标准误为0.55671,统计量对应的P值为0.0158,说明该协变量对生存时间的影响具有统计学意义,其对应的相对危险度为0.267,说明有淋巴结转移者的死亡风险是无淋巴结转移者死亡风险的3.83倍,该相对危险度对应的95%的置信区间为0.0880.777。自变量X5的偏回归系数为1.8137,标准误为0.62695,统计量对应的P值为0.0038,其对应的相对危险度为6.133.说明组织学分型中低分化与高中分化相比,病人死亡的风险为6.133,该相对危险度对应的95%的置信区间为1.79520.958.在SAS程序中增加估计个体的生存率选择项,则可得到每个个体的生存率估计值。3.6 Cox模型的应用范围及注意事项3.6.1 使用范围Cox模型使用于生存资料的统计分拆。它由于不受生存时间分布的影响,比其他生存分析方法应用范围更广。在医学上经常遇到诸如病人的生存期、疾病的潜伏期、慢性病的复发期、病人的治愈期及药物的生效时间等资料,这些资料具有以下特点:一个起点和一个重点,中间有一个过程的时间跨度,它们也可以看做生存数据。生存分析就是研究这个过程的持续时间及其影响因素的一种统计分析方法。这类资料可以用多种参数或非参数方法分析,非参数分析方法在利用资料的信息方面存在一定的缺陷,而参数分析方法要就资料服从于特定的参数分布、在应用上有一定局限性。而Cox模型属半参数模型,对资料没有特殊的要求,可以估计各因素的参数 并能做多因素的统计分析。该模型的主要优点在于能从众多的影响因素中排除混杂因素的影响,找出影响生存时间的因素,根据各因素的参数估计出个体的生存率。另外,Cox模型还能分析具有截尾值得生存时间,这是其他线性回归模型做不到的。3.6.2 Cox模型的应用 Cox模型是一种多元统计分析方法,可以分析多种因素对疾病预后的影响,这种分析方法使生存分析更适合于临床的随访研究。临床流行病学中,一个重要的目的就是分析因素与发病的关系及因素与疾病预后的关系,Cox模型可很好的解决上述问题。Cox模型使临床观察的定性指标又加上定量指标进行分析,提高了分析的效率。传统的临床疗效指标多是定性的指标,如病人的治愈、死亡等,同时还分析病人的生存时间,增加了数据的信息量,用较少样本就可以得到可靠的结论。 Cox模型具有一般回归分析的特点,在其他因素固定的情况下,可以比较某一因素的不同水平的生存时间的影响。在各病人因素已知的情况下,可以预测不同时刻病人的生存期。Cox模型与回归分析相比具有相似之处,即在估计出回归系数后,可以得到相应因素的相对危险度,但分析时只考虑了事件的结果,而没有考虑生存时间的长短,因此,Cox模型更多地利用了资料的信息。同时,回归分析模型需要满足资料事件的发生率低的假定,Cox模型则不受其他条件的限制。3.6.4 注意事项3.6.4.1设计阶段应注意的问题1) 不论是前瞻性的队列研究、回顾性的队列研究还是临床的随访研究,在收集资料时,都要注意研究资料的代表性及可靠性,保证研究对象是总体中的一个随机样本。研究的协变量在研究对象中的分布要适中,否则会给参数的估计带来困难,如一个协变量在每个观察对象中都有,则无法估计出该因素对生存时间的影响。2) 不论是研究疾病发病因素还是研究疾病的危险因素,应将一切可能因素都包括在调查分析中,特别是对主效应有影响的因素,否则容易造成分析结果的偏差。3) 所研究的生存时间的始末要有明确的规定,如果以发病作为观察的起点,则要对发病有一个明确的规定,对终止时间要有一个明确的规定,如果将治愈作为结局的终止事件,则要对治愈有一个明确的规定。4) Cox模型应用上较灵活,观察对象进入研究对列的早晚、时间长短可以不一致,但在设计时要注意影响时间的效应因素。如果研究的因素随时间而发生变化,可以采用伴时协变量的Cox模型进行分析。 Cox模型分析时,样本含量不宜过小,一般在40例以上。随着协变量的增加,观察的样本应适当的增加,要求样本的含量为观察协变量的520倍。如果比较两组治疗的效果,要使两组的样本例数解百纳一直,避免相差悬殊。尽管Cox模型可以分析截尾的生存时间,但在观察时,要尽量避免观察对象的失访。因为过多的失访容易造成研究结果的偏倚。3.6.4.2模型配合时应注意的问题 Cox模型作为一种多元统计分析方法不可避免的会遇到多元共线性的问题。医学研究中的许多变量间并不是独立的,但通常不会影响分析的结果,如果变量间存在高度的相关,则会影响Cox模型的参数估计,此时可采用主成分分析法或R型聚类分析法消除多元共线性的影响。生存分析方法和其他同级分析方法一样,在进行多元统计分析以前,应当做单因素的统计分析,通常采用检验、对数秩检验等对变量进行单因素分析,提出单因素分析中无统计学意义的变量。选择单因素分析中有统计学意义的变量进入Cox模型进行分析。单因素统计分析的结果可以与多元Cox模型分析的结果进行比较,以验证影响生存时间的因素。该模型还要求病人的风险函数与基础风险函数呈比例。如果这一假定不成立,则不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论