生存分析logrank检验和Cox回归样本含量估计的研究.doc_第1页
生存分析logrank检验和Cox回归样本含量估计的研究.doc_第2页
生存分析logrank检验和Cox回归样本含量估计的研究.doc_第3页
生存分析logrank检验和Cox回归样本含量估计的研究.doc_第4页
生存分析logrank检验和Cox回归样本含量估计的研究.doc_第5页
免费预览已结束,剩余35页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生存分析logrank检验和Cox回归样本含量估计的研究 山西医科大学硕士学位论文生存分析log-rank检验和Cox回归样本含量估计研究姓名:陈芊申请学位级别:硕士专业:流行病与卫生统计学指导教师:余红梅20090315山两医科火学硕.:学位论文生存分析?检验和回归样本含量估计研究中文摘要研究者在设计一个对照试验时遇到的第一个实际问题就是样本含量的选择。同样地,在评价一个已发表的对照试验的结果时,我们也要通过样本含量来评价其结果是否可靠。随着世界经济的增长,卫生保健事业的发展,疾病谱的变化和平均寿命的提高,有关肿瘤、慢性病、老年性疾病的临床试验和流行病学方面的随访研究越来越重要,越来越多,这些临床试验和随访研究的资料都可整理为生存资料,与此相关的研究设计必须事先估算所需的样本含量,以保证统计分析结果的一确性和可靠性。生存资料由于同时考虑生存结局和生存时间,生存时问可能含有删失数据,生存时间的分命和常见的统计分布有明显不同,因此样本含量的估计比较复杂。本文介绍应用于生存资料?检验样本含量估计的模型:模型、?模型、模型以及应用于比例风险回归模型样本含量估计的模型。通过模拟研究从众多方法中筛选出可靠有效的生存分析样本含量估计方法,为医学科研工作者在今后的研究中提高研究效率、节省人力物力财力提供了一定的科学依据。通过分析证实,生存分析样本含量估计除受统计学要求及治疗效果影响外,还有许多不确定性影响因素,例如患者入组的时闻、删失数据、时阳的分碌、患者在试验阶段的依从性、以及是否满足比例险等等。对于某具体的试验,本研究介绍的模型能很好地利用资料提供的众多复杂信息拟合一个独特的生存过程,能更好适应临床试验的复杂性和多样性,巧妙解决多种复杂因素并存对样本含量的影响问题。另外本文介绍了比例风险回归模型样本含量估计的模型,有效地解决了?在生存分析中广泛应用的回归模型的样本含量估算问题。关键词:生存分析,样本含量,检验效能., .,?,., .:; ;.:,? , . ,. . , ,., .,.: ,山西医科人学硕学位论文学位论文独创性声明本人声明,所呈交的学位论文系在导师指导下本文独立完成的研究成果。文中任何引用他人的成果.均已做出明确标注或得到许可。论文内容未包含法律意义上己属于他人的任何形式的研究成果,也不包含本人已用于其他学位申请的论文或成果。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。本文如违反上述声明,愿意承担以下责任和后果:、交回学校授予的学位证书;、学校可在相关媒体上对作者本人的行为进行通报:、本文按照学校规定的方式,对因不当取得学位给学校造成的名誉损害,进行公开道歉。、本人负责因论文成果不实产生的法律纠纷。论文作者签名:同期:?年?月?同学位论文版权使用授权书本人完全了解山西医科大学有关保留、使用学位论文的规定,同意学校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅;本人授权山西医科大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存论文和汇编本学位论文。本人离校后发表或使用学位论文或与该论文直接相关的学术论文或成果时,署名单位仍然为山西医科大学。保密论文在解密后应遵守此规定论文作者签名:期:?年?月?同指导教师签名:同期:?年?月?同本声明的版权门山硝医科人学所有,朱经午可,任何单何及任何个人不得擅白使山西医科人学顾二学位论文第一章前言一、研究意义随着世界经济的增长,卫生保健事业的发展,疾病谱的变化和平均寿命的提高,有关肿瘤、慢性病、老年性疾病的临床试验和流行病学方面的随访研究越东越重要,越来越多,这些临床试验和随访研究的资料都可整理为生存资料。与此相关的研究设计必须事先估算所需的样本含量,以保证统计分析结果的讵确性和可靠性。国内医学统计学教材中,样本含量估计只涉及传统的定量资料和定性资料不同设计类型所需观察例数,有关生存资料分析样本含量的估计方法尚属空白。有鉴于此,进行生存资料分析样本含量估计的研究具有重要的理论意义和实践意义。对于许多临床试验,主要的反应变量是发生某些结局,因此需要去比较这些结局在每组发生的比例。这种情况的样本含量估计方法已经比较成熟。而生存数据对发生这些结局所经历的时问特别感兴趣。例如,如果某一组发生死亡或其它结局的时闽延长,那么即使在某些时间点各组的终点事件发生率非常接近,我们也可以认为该组的干预可能是有效的【翔。生存数据由于同时考虑尘存结局和生存时闯,生存时可能含有删失数据,生存时问的分布和常见的统计分布有明显的不同,因此样本含量的估计比较复杂。比较各组的生存曲线是一个基本的方法。尘存曲线描述的是到给定的时问点生存率或者不发生某个结局的可能性的曲线。生存曲线的比较现在广泛应用的是非参数法,常用的方法是?检验。生存曲线比较的样本一般来自简单的生存分布,即单变量问题,但实际上所遇到的问题,特别是在疾病影响因素的研究中,病人的生存情况与病人的某些特征及影响疾病的许多因素有关,因此在考虑某一因素对病人生存时阳的影响时,还必须考虑其它因素的影响,这些因素称为协变量。对具有协变量问题的研究,需建立多因素回归模型,回归模型是一个广泛应用的回归模型引。一个调查或试验最重要的问题之一是确定合适的样本含量。样本含量太小可能无法解决问题:样本含量太大却可能浪费资源训。生存分析的样本含量要达到山两医科大学硕:学位论文设计的目的依赖于很多因素,如效应大小; 检验水准;检验效能;删失比例;时间因素等,使样本量的计算变得非常复杂, 因此,直到今天,这个问题依然是国内外统计学者研究的热点之一。二、国内外研究现状国外一些学者针对生存资料样本含量估计,提出了不同的解决方法,为实际分析应用拓宽了视野,但有关生存资料样本含量估计的讨论,国内相关文献报道甚少。 一 在进行慢性肺病的死亡、肿瘤的复发等一些结局发生的时徊比较时,假设实验组和对照组结局的发生率不变,且没有删失,提出了一个关于检验样本含量估计的模型,但是这个模型没有明确地利用时问信息,仅仅考虑了某年事件发生率。假设两组的率保持不变,且没有删失的情况下提出一个简单的模型。同样地这个模型对时间信息也只是考虑了某年事件发生率。他们的模型仅仅适用于假设所有的研究对象都随访到终点事件发生的研究。考虑到绝大部分生存分析在所有研究对象发生终点事件前就终止试验,存在删失数据的情况下,就研究对象进入研究的三种不同方式:一种是研究对象在研究丌始时统一进入研究;一种是研究对象在研究期间陆续进入研究;还有一种是研究对象统一都是在不年内进入研究,然后继续随访至年提出了三个样本含量估计的模型。以往,对于回归模型所需样本量往往凭经验去估计,即至少需要相当于协变量个数倍的阳性结局事件。针对考虑其它协变量对生存时日的影响,要求主要感兴趣的研究变量与其它变量问相互独立,提出一个计算比例风险回归模型样本含量的模型。然而,在实际工作中,变量之、日有时并不能满足独立性【.。截止以上时间,生存分析样本含量估计的公式都是源自于关于试验的特性和病例行为的单一化假设。这些方法假设所有的病例在试验中对治疗完全顺从,所山西医科大学硕十学位论文有的病例都随访到研究结束,并且每一个病例都出现结局,风险比例固定不变,生存时蒯服从指数分布。对于临床试验数据,每一个病例的随访时间或发生终点事件的可能性都相等的情况很少,很多时候试验的复杂性背离了之前的假设使得计算的样本含量无法接受。一般地,如果试验背离了这个方法的假设就需要增大样本含量以达到预期的检验效能【。针对这种情况制提出.模型,设置一个潜在的失效时问模型但是允许背离基本的假定,它是一个简单而又灵活的闭型样本含量计算的表达式。【软件采用了这一模型来估计生存数据的样本含量。另一种方法是设计者在建模时就试验中可能发生的情况来考虑各种情况。这个方法不需要参数生存模型,而是要求设计者在无效假设和备择假设的基础上详细地考虑试验的过程。幡构造了一系列状念和周期,在每一个周期每个病例处于众多状态中的一个,在整个试验过程中病例经历了受马尔可夫过程控制的一系列转移,提出马尔可夫模型。, , .在两组生存率比较时,考虑期望效应大小、两组样本比例、预期失访率等的前提下提出了一个样本含量估计模型。该模型假设风险比例固定不变,生存时问服从指数分布,在这些单一化的假设前提下可以产生比较合理的样本含量。本方法简单灵活,但是仅考虑了生存率为某年生存率,没有考虑病例招募的时间和整个临床研究的时间。,. ,.四指定生存时间服从指数分布,利用研究者进入研究的时问、随访时间、失访率等提出一个样本含量估计模型。软件采用了这一模型来估计生存数据的样本含量。.针对以往的方法计算样本含量时要求严格的假设,即协变量必须是二分类或至少是多分类的,而对于连续变量却不适用,利用最大似然渐进协方差矩阵、条件期望和泰勒展丌式方法,提出一个比例风险模型的样本含量估计方法,适用于二分类和正态分布协变量。考虑到实际工作中变量间有时不能满足独立性,将关于比例风险回归模型样本含量的计算公式进行了扩展,引入了“方差膨胀因子,亦即当变量问不满足独立性时,需要通过来增加山两医科大学硕:学位论文参数估计值的方差。国内赵耐青在所提出的单因素生存分析的最小样本含量计算公式基础上,推广到多因素等级资料生存分析的最小样本含量计算公式。陈素领等以离散性链拟合生存过程,介绍生存分析资料的.检验所需样本含量的估计法【。李河等以实例介绍了.检验样本含量估计在中的实现引。路浩等提出了一种迭代非中心法,用于.检验所需样本含量的测定,并同.法进行了比较 。徐英等介绍了两个关于比例风险回归模型样本含量的计算模型及软件实现。山两医科大学硕士学位论文第二章样本含量估计模型介绍用于生存分析样本含量估计的方法很多,其中常用于.检验的样本含量估计主要有模型、.模型及模型,比例风险回归模型样本含量估计常用的是和提出的模型。.检验样本含量估计模型.模型模型是最基本的?检验样本含量估计模型,是其它模型的基础。其函数形式是:.等七?:埙乳 ”叩一南等/万。石 一/其中吸、一是终点事件在对照组和试验组的发生率;:。/一嘎为风险比;轰刮:和舅一口是给定检验水准和检验功效时的界值;为发生终点事件的样本数;为样本含量。本方法是较早提出的关于生存数据样本含量估计的方法,计算样本含量简单快捷,可用于样本含量的粗略估计。该公式是源自关于试验的特性和病例行为的单一化假设,假设所有的病例在试验中对治疗完全顺从,所有的病例都随访到研究结束,并且每一个病例都出现结局,风险比例固定不变,生存时问服从指数分布,它没有考虑生存资料的特殊性,尤其没有考虑时间因素和删失对样本含量的影响,估计的样本含量偏差较大。.模型对于临床实验数据,每一个病例随访时问或发生终点事件的可能性都相等的情况很少。如病例收集的时问为年,然后再随访到年,因此随访的时间最短为年,最长的为年,而且不是所有病例都会发生终点事件。很多时候试验的复杂性背离了之前的假设使得计算的样本含量无法接受。一般地,如果试验背离了这个方法的假设,则需要增大样本含量以达到预期的检验效能。针对这种情山西医科大学硕士学位论文况,模型。提出?岛 .刀【 卜广?小这里氧.口,:、袅一口表示给定检验水准和检验功效时的界值;九、为对照击者舞一厂协,组与实验组的危险率;、珊表示两组的删失率;圪、如为形状参数;、鳞表示两组样本量占总样本量的比例;表示病例招募的时间;表示整个临床研究的时问。这是一个简单而又灵活的样本含量计算方法。这个模型假设样本个体在时间段内进入研究,然后再随访一段时间直到达到总时间为。因此第一个样本随访时阳是,最后一个进入研究的样本随访时是。本方法考虑到删失数据可能对样本信息的丢失,所以在计算样本含量时将删失率引进了公式;在计算样本含量时利用了随访时间、样本收集时间;考虑了时问因素对样本含量的影响;两组的样本含量分别占样本总数的比例也考虑在内。.模型充分利用了生存数据的特点。但是该模型所利用的风险率、删失率是一个固定值,而临床试验中情况复杂多变,在不同的时间病例的风险率、删失率可能不同,所以该模型还不能很好地拟合一个合理的生存过程。. 模型这个方法基于马尔可夫模型。将随访期划分为个相等的时间间隔,假定有两个处理组试验组与对照组,马尔可夫过程对两组分别建模,但思路相同。假设每个接受治疗的患者在试验丌始后的任一时刻,可能处于种状态,即:失访、死亡、存活。所有状态构成个状态空间:,。进一步假设,患者失访后不再参与试验,患者死亡后停止观察,即患者进入状态或后将不再转移到其他状态,称状态和状态为吸收状念。各时刻各患者处于各山两医科大学硕士学位论文状态的比例称为概率分配向量。试验开始时,所有患者均处于“存活状态,即:。,。,。随着试验进行,患者的状态可能发生转移,有的患者死亡了从状态转移到状念,有的患者失访了从状态转移到状态,还有的患者存活未转移。即不同时刻各状态的患者数在发生改变,因此各状态的概率分配也在发生变化。在某时刻患者从某状念转移为另一状态的可能性称为转移概率。理论上,状念转移是一个连续过程,为了简化运算,我们用离散性马尔可夫模型来近似。首先,根据需要将试验期等分成个区间,每一区问对应一个概率分配向量。每进入下一个区间时,就面临一次状态间的转移。状态间相互转移的概率分配,构成进入下一区间时的概率转移矩阵,简称转移矩阵。转移矩阵与本区问概率分配向量相乘,即得到下一区间的概率分配向量。这就构成一个离散性马尔可夫链。已知初始概率分配向量,则可通过递推求出第个时间区间的,.,概率分配向量:,?检验的渐进平均值和方差:.驴。;隧害,考静】荟。善蹁.;冬荟,著尚九;坠 ?.”謦以。盯、,:“分别为实验组和对照组在第时间间隔第个病人死亡前生存的人山西医科大学硕:学位论文数。、:矗分别为实验组和对照组在第时间间隔第个病人死亡前的死亡危险率。为第个时间间隔的死亡人数。设级/,反僻旦其中 。吼.卫生一鱼协四”南.以豺/砬尾式中魄、舷为试验木试验组和对照组的事件发生率。在随访研究中,样本含量除受统计学要求及治疗效果影响外,还有许多不确定性影响因素,例如患者入组、失访、治愈时间的分布,患者在试验阶段的依从性,以及是否满足比例风险等等。.检验除考虑最后结局,还考虑了出现结局的时间,并充分利用失访资料所提供的不完全信息。对于具体的试验,本法都能拟合一个独特的生存过程,较好反映实际情况,应用灵活,因此是一种有效、可行的样本含量估计方法,能更好适应临床试验的复杂性和多样性,巧妙解决多山两医科人学硕二:学位论文种复杂因素并存对样本含量的影响问题。.比例风险回归模型样本含量估计模型比例风险回归模型在生存分析中应用非常广泛,然而,关于应用该模型究竟需要多少样本含量的问题一直未得到很好的解决。以往,对于比例风险回归模型所需样本量往往凭经验去估计,即至少需要相当于协变量个数倍的阳性结局事件。提出一个计算比例风险模型样本含量的公式:?%明其中指发生终点事件的总人数,指分配到其中一组的样本所占的比例。指对数风险比。该公式主要是用来计算随机化分组研究的设计所需的样本含量,适用于二分。类自变量。当考虑到其它协变量对生存时的影响时,则要求主要感兴趣的研究变量与其它变量自互独立。然而,在实际的工作中,变量之日有时并不能满足独立性。在,服从正念分布的前提下给出一个关于样本含量,口、和的公式。样本含量的公式为:.。面忒/面一砌其中是终点事件数;,:,。一多表示给定检验水准和检验功效时的界值;为协变量。的方差;该公式引入了“方差膨胀因子,即/.,表示,其他协变量作回归分析时的确定系数;表示对数风险比。上式没有包括删失例数,如果要获得样本含量我们将上式除以删失比例即:一?/丽一恼.,山两医科人学硕:学位论文为比例风险回归模型所需的样本含量。该公式适用于任何分布的生存时问,只要满足比例风险假定即可。另外,该公式不仅适用正态分布的自变量,也适用非正念分布的自变量,比如二分类的自变量,此时,可以计算出近似所需的样本量。该公式不仅仅局限于对单个影响因素的研究,还可以综合考虑其他协变量的影响。这一点在公式中主要体现在尺的取值上。对于单个自变量的研究,尺取“”即可;对于多个自变量的研究,则需要通过回归分析估计。该公式相对较简单,办可以直接计算。因此在生存分析中得到广泛的应用,以提高研究的工作效率。另外,当己知样本含量时,也可以利用该公式和软件估计检验功效,以判断当阴性结果出现时,是否由于样本含量不足导致。本研究中提到的公式,有效地解决了在生存分析中广泛应用的比例风险回归模型的样本含量的计算问题,为医学科研工作者在今后的研究中提高研究效率、节省人力物力财力提供了一定的科学依据。山两医科人学颀:学位论文第三章生存分析样本含量估计的影响因素生存数据由于同时考虑生存结局和生存时白,生存时间可能含有删失数据,生存时间的分布和常见的统计分布有明显的不同,所以样本含量的估计比较复杂,影响生存资料样本含量估计的因素也有所不同。下面我们通过实例来探讨生存分析样本含量估计的影响因素。.检验样本含量估计的影响因素例、研究者设计一个试验来检验新方法对某疾病的治疗效果,新方法的生存率为%,现有方法生存率为%,试验第一年收集病例然后随访两年。假设病人在第一年内统一进入试验,研究者估计对照组和试验组删失率都为%,该试验要达到预期的检验效能需要多少样本我们可知对照组生存率.,试验组生存率.,两组的失访率都为%,病例收集时间为年,整个试验的时问为年,病例收集完后的随访时间为年即?。应用软件中的.模型模块,设置不同的参数计算该例的样本含量末研究?检验样本含量估计的影响因素。.检验水准口和检验效能其他参数都固定不变的前提下,在检验水准分别为,、.、.时估计检验效能达到.、.、。时的样本含量。结果见表和图。通过表和图我们可以看出要达到相同的检验效能,设定的检验水准越小,所需的样本含量越大;其他参数一致的情况下,预期要达到的检验效能越高,所需要的样本含量越大。山西医科大学硕士学位论文 . . . . /一/田?./。鼻?.彩/.一/一一一. . . . 圈不同口和时估计的样本含量.风险比和对照组样本的比例 其他参数都固定不变的前提下,在风险比分别为.、.、.时估计对照组样本的比例分别为.、.和.时的样本含量。结果见表和图。山西医科大学硕士学位论文时估计的样本含量表不同和 翼 . . :.瑕. .时估计的样本含量图不同和 由表和图我们可以看出其他参数都固定不变的前提下,风险比越小,所估计的样本含量越大;试验组和对照组例数越均衡,所估计的样本含量越少。坐堕堕型奎兰堡主兰堡望苎.随访时间,其他参数都固定不变的前提下,假设病例收集完成后随访年、年、年估计所需的样本含量。结果见表和图。裹不同时估计的样本含量口. . . . . . . . . . . .肿. . . .肿. . . 肿 %. . .舶 舛. . . .肿盯. . . .王舶 弛. . . . . . . 日.二乏 ?一一. . . . . .图不同时估计的样本含量由表和图可知,其他参数都固定不变的前提下,随访的时间越长,所估计的样本含量越少。山西医科大学硕士学位论文.删失率其他参数都固定不变的前提下,在删失率分别为%和%时估计检验效能达到.、.、.、.时的样本含量。结果见表、图和图。裹不同捌失率时估计的样本含量 . . . .上. . . .圈翻失率为%时估计的样本含量山西医科大学硕士学位论文 . . . ././?一/母.矗/一.一。.,.?。,一。. . . . .图删失率为%时估计的样本含量由表、图和图可知,其他参数都固定不变的前提下,删失率越大,所估计的样本含量越大。.单双侧检验其他参数都固定不变的前提下,分别估计单双侧检验时检验效能达到.、.、.、.时的样本含量。结果见表、图和图。襄单双侧检验时估计的样本含量山西医科大学硕士学位论文 . . :. .一. . . .圈单侧检验时估计的样本含量 . . . ?.?芒. . . . .圈双侧检验时估计的样本含量通过表、图和图可知,其他参数都固定不变的前提下,双侧检验所需的样本含量多于单侧检验。通过以上的模拟计算,我们可以得出检验水准包括单双侧检验、预期的检验效能、风险比、试验组和对照组例数是否均衡、随访的时间、删失率等因素都山两医科人学顾.学位论文会影响.检验样本含量估计。.比例风险回归模型样本含量估计的影响因素例、 ,/开究多发性骨髓瘤患者预后的影响因素,一共个变量具体数据参见过程中的数据集捌。如研究者主要感兴趣的变量为,预估计其对数风险比,研究结束时死亡率即终点事件发生率 /.%,按照单侧.的检验水准和预期%的检验效能,试估计所需的样本含量。估计的标准差,得盯.。对和其他协变量作多重线性回归分析,得尺.。利用软件带入上述参数,得到所需的样本含量为。下面我们设置不同的参数,利用软件来研究影响比例险回归模型样本含量估计的因素。.检验水准口和检验效能其他参数都固定不变的前提下,在检验水准分别为.、.、.时估计检验效能达到.、.、.时所需的样本含量。结果见表和图表不同和时估计的样本含量山西医科大学硕士学位论文. . . 一心.钿一、 每。厶.、,?一、二、. . . .图不同口和时估计的样本含量通过表和图我们可以看出,其他参数都固定不变的前提下,检验水准越小,估计的样本含量越大;预期要达到的检验效能越高,估计的样本含量越大。.对数风险比和终点事件发生率其他参数都固定不变的前提下,假设对数风险比分别为.、.、.时估计终点事件发生率为.、.、.时所需的样本含量。结果见表和图。表不同和时估计的样本含量觚曩稻一鬈?.,煳.曲.曷山西医科大学硕士学位论文 . . . . . .围不同尺时估计的样本含量通过表和图我们可以看出,其他参数都固定不变的前提下,确定系数越大,也就是方差膨胀因子/.越大,估计的样本含量越大。.单双侧检验其他参数都固定不变的前提下,分别估计单双侧检验时检验效能达到.、.、.时的样本含量。结果见表、图和图。表单双侧检验时估计的样本含量山西医科大学硕士学位论文 . . . 一 心.钿、一每。山一.一、:弋、?、。.。. . . .图单侧检验时估计的样本含量 . . . 一.弋每。乱一.一一、心.。. . . .圈双侧检验时估计的样本含量通过表、图和图我们可以看出,其他参数都固定不变的前提下,双侧检验估计的样本含量大于单侧检验。山西医科火学硕.:学位论文第四章样本含量估计模型的比较.检验样本含量估计的三种模型:模型、.模型及模型广泛应用于生存曲线比较研究的样本含量估计,在实际临床试验中,哪种模型能更加准确有效地估计样本含量,为医学科研工作者在今后的研究中提高研究效率,节省人力物力财力提供科学依据通过上一章对生存分析样本含量估计常用的几种方法的介绍,我们可以看出模型可以很好地拟合生存过程,能满足生存资料复杂性和特殊性,比较其他方法用于.检验样本含量估计较合理。下面我们通过实例柬研究。.检验三种样本含量估计模型的比较仍以例为例,估计在检验水准为.时检验效能要达到.、.和.所需的样本含量。分别以模型、.模型及模型估计所需的样本含量,结果见表。表?检验三种样本含量估计模型的比较通过表可知,在相同的条件下,要达到预删的榆验效能,模型估计的样本含量最大,.模型及模型估汁的样本含量较小且结果相近。模型在估计样本含量时没有应用信息,而.模型及模型将该研究的病例收集时年随访时.日应用到样本含量的估计当中,这样充分利用资料提供的信息估计出较小的样本含量,有利于提高研究效率、节省人力物力财力。山两医科火学硕.:学位论文.模型的应用在随访研究中,样本含量除受检验效能、检验水准、单双侧检验的影响外,还有许多不确定性影响因素,例如患者入组的时问、各个时间段的删失率和风险率可能不同、生存时间的分和,患者在试验阶段的依从性,以及是否满足比例风检验除考虑最后结局,还考虑了出现结局的时间,并充分利用险等等。删失资料所提供的不完全信息。对于具体的试验,模型都能拟合一个独特的生存过程,风险率、删失率、患者的依存性等在各个时段可以不同,可以计算出每个时段的转移矩阵,能更好适应临床试验的复杂性和多样性,巧妙解决多种复杂因素并存对样本含量的影响问题。下面通过实例来研究。例、在预试验中发现新的治疗方法与现有方法相比险率降低了一半,因此研究者设计了年的随访试验来证实预试验的研究。通过预试验可知对照组患者的不服从率为.,在各个时间段对照组的风险率。、对照组和试验组的删失率和、试验组患者的不服从率和患者在各个时间段进入研究的比例,具体数据见表。表各时间段的具体值根据以上信息估计本试验要达到预期的检验效能所需的样本含量。本例在各个时段风险率、删失率、患者的依存性等不同,受多个复杂因素的影响,不能利用模型和?模型来估计样本含量,但是模型可以拟合一个独特的生存过程,将试验分成个区间,每一区日剥应一个概率分配向量。转移矩阵与本区间概率分配向量相乘,即得到下一区间的概率分配向量。这就构成一个离散性马尔可夫链,可以解决复杂因素并存对样本含山西医科大学硕士学位论文量的影响。应用软件中的模块估计本例的样本含量,结果见表和图。襄 模型估计的样本含量注:为风险比;为病例收集的时间; 总的试验时间;为需要出现终点事件的倒数 :腿. . ./ 四 ?一/。?.?,/. . . . .一/。十圈 模型估计的样本含量.模拟研究为了解生存分析样本含量估计模型估计的样本含量是否能达到预期的检验效山两医科人学硕学位论文能,进行模拟研究。首先利用模型估计所需的样本含量,然后模拟产生相同样本含量的数据,估计这些数据.检验的检验效能。以模型为例进行模拟研究。例、为比较经颈静脉肝内门体分流术手术和分流手术对治疗出血性食管静脉曲张的效果,研究者设计一个临床对照试验。对照组和试验组分别接受分流手术和手术治疗,对患者随访年,所有患者在第一个月全部收集完毕,在整个试验过程中没有删失数据,应用检验末检验两组治疗效果在检验水准为.时是否有差别。预实验可知对照组和试验组的生存率分别为%和%,预期达到的检验效能为%。应用模型来估计要达到预期的检验效能所需的样本含量,根据以上。资料带入模型得到每组所需的样本含量这样模拟的样本含量为,我们将每个样本分别重复、和次。软件中有用于.检验样本含量估计模拟研究的模块 , ,【本模块产生模拟数据是应用随机数字生成器。我们将已知条件:口.,%,%,失访率,模拟次数俗/,每组样本含量输入软件就可以通过产生模拟数据,并对产生的模拟数据的.检验效能进行估计,结果见表。表模拟研究结果通过表可知对模型估计的样本含量分别进行次、次、山西医科火学硕士学位论文次、次和次模拟研究,其.检验的总检验效能都能达到预期的检验效能,即模型能较好地估计生存分析中.检验所需的样本含量。山西医科大学硕一学位论文第五章讨论与小结.讨论、模型是较早提出的关于.检验样本含量估计的方法,其他方法是在其基础上不断完善发展而来的。该模型对数据的要求非常严格,病例在进入研究后必须完全依从,每例病人必须随访到出现终点事件,且数据完全服从指数分布,但是现实试验中病人的依从性并不会与研究者设定的情况吻合,由于研究时间和经费的限制不可能随放到所有病例都出现终点事件,而且在随访过程中很多研究对象会由于其他冈素的影响而出现删失数据,所以该模型只能在已知条件有限的情况下对样本含量进行简单粗略的估计。、.模型是一个简单而又灵活的.检验样本含量估计方法。由于生存分析中每例研究对象不可能在相同的时间进入研究而且由于很多复杂因素的影响受试对象的依存性和出现终点事件的时间也不经相同,所以该模型将病例招募的时间和随访的总时、都考虑在内,而且将研究中可能出现的删失数据也利用到样本含量的计算中,更加接近的拟合现实生存数据的实际情况,估算的样本含量更加合理。但是该模型所利用的风险率、删失率是一个固定值,而临床试验中情况复杂多变,在不同的时间病例的风险率、删失率可能不同,所以该模型还不能很好地拟合一个合理的生存过程,所以当病例的风险率、删失率不是固定时估计的样本含量有一定的偏差。、模型充分考虑到临床试验中众多的复杂因素如:不同的时段的病例风险率、删失率和病人对治疗的依从性可能不同,每例受试对象进入研究的时间和结束研究的时间也不相同且病例在不同的时问区间都会处于不同的状态失访、死亡、存活即每例研究对象都有一个独特的生存过程。鉴于这些复杂因素的影响模型利用离散性马尔可夫模型来近似样本的生存过程。根据需要将试验期等分成个区间,每一区问对应一个概率分配向量。每进入下一个区间时,就面临一次状态间的转移。转移矩阵与本区间概率分配向量相乘,即得到下一区间的概率分配向量。这就构成一个离散性马尔可夫链,已知初始概率分配向量,则可通过递推求出第个时间区间的概率分配向量。因此本方法对于每一个具体的试验本法都能拟合一个独特的生存过程,能更好适应临床试验的复杂性和山两医科火学硕学位论文多样性,巧妙解决多种复杂因素并存对样本含量的影响问题,更容易反映实际情况,所以利用模型估计的样本含量比较科学合理。、三种模型的特点及功能比较、比例风险回归模型是对生存资料的多因素分析最常用的方法,以往对于比侧风险回归模型所需样本量往往凭经验去估计,郎至少需要楣当于协变量个数倍,这样估计样本含量只考虑了协变量的个数很容易出现偏差。本文介绍的比例风险回归模型样本含量估计的模型适用于任何分郝的生存时间,只要满足比例风险假定即可。另外,该公式不仅适用念分布的自变量,也适用非证念分钮的自变量,比如二分类的自变量,此时可以计算出近似所需的样本量。该公式不仅仅局限于对单个影响因素的研究,还可以综合考虑其他协变量的影响。.小结、本文介绍了四种常用的生存分柝样本含量估计的模型:模型、.模型、模型及.模型的原理和方法。通过分析山两医科大学硕:学位论文得出影响.检验样本含量估计的主要因素有:检验水准、检验效能、风险比率、试验组和对照组样本例数是否均衡、随访时间、删失率和单双侧检验等。比例风险回归模型样本含量估计的影响因素有:检验水准、检验效能、对数风险比、终点事件发生率、确定系数和单双侧检验等。所以在计算样本含量时要尽可能的考虑这些影响因素,更加接近的拟合试验的生存过程,这样才能科学合理的估计出所需的样本含量,得出的试验结果才更加真实可信并为研究者节约时间、经费、提高试验效率。、通过模拟研究可知模型利用马尔科夫模型很好地拟合复杂的生存过程,更容易反映实际情况,估计的样本含量达到了预先设定的检验效能,因此估计.检验的样本含量比另两种方法更加合理。.模型在对比例风险回归模型样本含量进行估计时,适用于满足比例风险假定的任何分布的生存时间:态分布的自变量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论