(概率论与数理统计专业论文)关于生存分析中的统计方法及其应用.pdf_第1页
(概率论与数理统计专业论文)关于生存分析中的统计方法及其应用.pdf_第2页
(概率论与数理统计专业论文)关于生存分析中的统计方法及其应用.pdf_第3页
(概率论与数理统计专业论文)关于生存分析中的统计方法及其应用.pdf_第4页
(概率论与数理统计专业论文)关于生存分析中的统计方法及其应用.pdf_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 在生存分析的研究中,经常会遇到几组数据的比较分析例如在药物试 验分析中,研究某种药物是否能延长某种疾病的患者寿命,通常采用对照试 验分析方法,随机地选取两组试验对象:一组为控制组,一组为处理组。控 制组往往服用安慰剂,处理组服用试验药物。经历一段试验观察后,对于两 组不同的试验得到了相应的试验数据,希望通过这两组数据的分析,来证明 该药物是否有利于延长某种疾病的患者寿命。对于这些数据的分析通常采用 两种基本的统计方法,一种是参数模型分析方法,另一种是非参数统计模型 的分析方法。 本文主要是在前人研究的基础上,对老鼠注射某种药物,然后进行试验 观测,共设计了四组试验,观察老鼠的生存时间。利用非参数统计方法一对 数秩( 1 0 9 - r a n k ) 检验理论,对观测到的数据进行生存分析。 关键词:生存分析;参数模型分析方法;非参数统计方法;对数秩 ( 1 0 9 - r a n k ) 检验; a b s t r a c t i ns u r v i v a ld a t aa n a l y s i s ,s c v c r a lg r o u p so fd a t aa r eo f t e nu s e df o rc o m p a r i s o n f o r e x a m p l e ,i nm e d i c i n ee x p e r i m e n ta n a l y s i s ,t h es t u d yw h e t h e rac e r t a i nm e d i c i n ec a n p r o l o n gac e r t a i np a r o x y s mp a t i e n t sl i f es p a n ,u s u a l l ya d o p t sc o n t r o l - t r e a t m e n t e x p e r i m e n t s ,t w og r o u p so ft h ee x a m i n a t i o no b j e c t ss e l e c t e d o n eg r o u pi st h ec o n t r o l g r o u p a n dt h eo t h e rf o rt h et r e a t m e n tg r o u p 1 1 l ec o n t r o lg r o u pu s u a l l yt a k e st h e p l a c e b o ;t h eo t h e rt a k e st h ee x p e r i m e n t a lm e d i c i n e a f t e rt h eo b s e r v a t i o nf o rs o m e p e r i o d ,t h er e s u l to ft w os e t so fd a t ac a nb cc o l l e c t e df o ra n a l y s i sa n dt h ec o n c l u s i o ni s m a d ew h e t h e rt h em e d i c i n ec a ne x t e n dac e r t a i np a r o x y s ms u f i e r e r sl i f es p a nb a s e d o nt h ec o l l e c t e dd a t a t w os t a t i s t i c sm e t h o d sa l eu s u a l l ya d o p t e d :p a r a m e t r i c a lm o d e l s a n d n o n - p a r a m e t r i c a lm o d e l s o nt h eb a s i so fo t h e r sr e s e a r c h e s f o u re x p e r i m e n t sa r ec o n d u c t e do n t ot h er a t s i n j e c t i n gac e r t a i nm e d i c i n ei n t or a t sb o d ya n do b s e r v i n gt h e i rs u r v i v a ll i v i n gt i m e a n dt h e nt h ed a t af r o mt h eo b s e r v a t i o ni sa n a l y z e dw i t ht h en o n p a r a m e t r i c a lm e t h o d s - l o g r a n ks t a t i s t i c s k e yw o r d s :s u r v i v a la n a l y s i s ;p a r a m e t r i c a lm o d e l s ;n o n - p a r a m e t r i c a lm o d e l s ; l o g r a n ks t a t i s t i c s 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。 据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过 的研究成果,也不包含为获得东北师范大学或其他教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:日期: 学位论文版权使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定,即: 东北师范大学有权保留并向国家有关部门或机构送交学位论文的复印件和磁盘, 允许论文被查阅和借阅。本人授权东北师范大学可以将学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或其它复制手段保存、汇编学 位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名# ;! :鱼蓥指导教师签名: 1 7 1 期:a 颦厶1 日 期: 学位论文作者毕业后去向: 工作单位: 通讯地址: 电话: 邮编: 岛 引言 对于许多领域的工作者,尤其是对工程界和生物医学界,各种各样的与 寿命、存活时间、或者失效时间有关的数据的统计分析已经发展成一个重要 的专题。寿命分析方法,从产品的耐用性研究到涉及人类各种疾病的研究, 都有广泛的应用。例如: 机械部件或电子元件这样的产品常常要经过寿命试验才能获得有关耐 用性信息,这就需要做一些试验,使一些产品处于工作状态,并常常在实验 室中进行,然后观测它们直到失效为止。这里通常把寿命称为“失效时间”。 在对致命疾病的医疗研究中,我们感兴趣的是从诊断之日或其它某个起 始点算起,患有该疾病的个体的生存时间。比如,对患某种疾病的患者采取 不同的治疗方案,通过患者的存活时间分布来比较对这种疾病的不同治疗效 果。 在研究某种有毒物质的试验中,让实验动物接受一定剂量的毒物,观察 它们是否长出肿瘤。从动物接受药剂时算起,到其长出肿瘤的时间,或者到 该动物死亡的时间。 “生存时间”一词在这里可以广泛地定义为一个给定的事件出现的时 间。这个时间可以是疾病的发生时间,一种处理( 治疗) 的反应时间,疾病 复发或死亡的时间。生存数据可以包括生存时间、对治疗的反应以及与反应、 生存及疾病有关的病人特征。在肿瘤治疗过程中,生存时间是指个体发现时 间到死亡时的时间段;在可靠性产品分析中,生存时间是表示产品从出厂到 实效为止的时间段。 生物和人的生存时间的评估和预测是生物学和医学的重要研究对象,这 方面的研究涉及基础科学和技术科学等许多领域,其中数学方法特别是统计 方法起着重要作用。从数学角度来看,这种研究是对一个或多个非负随机变 量( t k 存时间) 进行统计分析。这种统计分析已形成现代数理统计学的重要分 支一生存分析( s u r v i v a la n a l y s i s ) 。 生存分析就是根据试验或调查得到的数据,对生物或人的生存时间进行 分析和推断。过去,生存分析的研究集中在预测反应的概率、生存概率、平 均寿命以及比较试验动物的生存分布或比较病人的生存分布。近年来,研究 与反应、生存及疾病发生有关的风险和预后( p r o g n o s t i c ) 因素的识别已经 成为生存分析的重要组成部分。 生存分析在生物医学研究、流行病研究、可靠性分析、药物试验分析、 保险学、心理和行为科学研究等方面有着广泛的应用背景,可以参考这方面 的专著,如l e e ( 1 9 9 2 ) 的生存数据分析的统计方法( 陈家鼎等翻译( 1 9 9 8 ) ) 。 和任何其他数学方法一样,生存分析的方法和理论有广泛的应用,不限 于生物学和医学领域,而且可应用于工程科学( 如可靠性工程) 、社会学、 心理学、经济学、保险精算学等等。生存分析含有许多实用的的方法和丰富 的理论。随着医疗实践、工程实践及其它领域的推动,不断有新的统计方法 出现,应用范围越来越广。 统计学灵魂在于其应用价值,如何结合其他学科的相关内容与知识背 景,选择合理的统计分析方法,通过对相关数据的分析,得到可靠的统计推 断结果一直是统计学家追求的目标。本文拟从如下的几个方面进行初步的探 讨。首先总结已有统计分析方法,并且进行一些比较分析。其次与其他学科 进行横向联系,如医学、生命科学,做些实际数据分析。本文最关键的部分 是统计方法的筛选,一旦统计方法确定了,其他问题便迎刃而解。 2 正文 就数据本身特点而言,生存数据有其自身的特殊性。因为随着观测的时 间增加,会投入巨大的人力和物力,对于相对有限的资金来说是不可能的。 通常采用定时结尾的方法来解决上述的矛盾,既在试验时间给定的情形下, 对试验者进行观测,利用在给定试验时间内所得到的数据进行统计分析。这 样得到数据是不完全的,即试验终止时往往存在一些个体观测不到希望出现 的结果,如在药物初期试验中,通常的方法是用动物来进行试验,在动物体 内注射要试验药物。然后进行一段观测,记录每一个试验个体出现反应的时 间,当试验终止时往往会出现一部分个体观测不到出现希望的反应( 如死亡 等) ,通常把这样的数据称为删失数据( c e n s o r e dd a t a ) 。删失数据在生 存分析中是普遍存在的,并且造成删失数据的因素多种多样,比如由于试验 个体迁移而退出试验方案等因素。 其次在生存分析的研究中,经常会遇到几组数据的比较分析。例如在药 物试验分析中,研究某种药物是否能延长某种疾病的患者寿命,通常采用对 照试验分析方法,随机地选取两组试验对象:一组为控制组,一组为处理组。 控制组往往服用安慰剂,处理组服用试验药物。经历一段试验观察后,对于 两组不同的试验得到了响应的试验数据,希望通过这两组数据的分析,来证 明该药物是否有利于延长某种疾病的患者寿命。对于这些数据的分析通常采 用两种基本的统计方法,一种是参数模型分析方法,另一种是非参数统计模 型的分析方法。 本文主要是在前人研究的基础上,对老鼠注射某种药物,然后进行试验 观测,共设计了四组试验,观察老鼠的生存时间。利用非参数统计方法一对 数秩( 1 0 9 r a n k ) 检验理论,对观测到的数据进行生存分析。 所用数据来自科学试验,真实可靠。 3 第一章相关概念 一、删失数据m 生命科学中的生存数据有一个最重要的特点:动物研究通常是以有固定 数目的动物接受一种或多种处理( t r e a t m e n t ) 开始。由于时间和费用受到 限制,研究者常常不能等到所有动物死亡。一种选择是在一个固定时间周期 内观测,在截止时间之后仍可能有些动物活着,但不继续观测了,这些动物 的生存时间是不知道的。只知其不小于研究周期的长度,这些称为删失观测 值。对于在试验期间死亡的动物,所记录的生存时间是从试验开始到其死亡 的时间,这些数据叫做准确的或非删失观测值。某些动物可能意外失踪或死 亡,它们的生存时间一从试验开始到意外失踪或死亡一也是删失观测。删失 有三种类型: ( 一) i 型删失 在i 型删失里,没有意外的失踪,所有的删失观测值均等于研究周期的 长度。 例如,在六只老鼠脚趾上注入肿瘤细胞,放在致癌物质的环境中,观测 肿瘤出现的时间。研究者决定3 0 周后停止试验。结果发现,老鼠a ,b ,d 净别 在第1 0 周,第1 5 周,第2 5 周出现肿瘤;老鼠c 和e n 研究结束时仍没有肿瘤, 它们的无肿瘤时间至少是3 0 周;老鼠f 在1 9 周后意外死亡,身上并无肿瘤。 这样生存时间( 无肿瘤时间) 是l o ,1 5 ,3 0 + ,2 5 ,3 0 + ,1 9 + ( 周) ,这里+ 号表示是删失观测。 ( 二) i i 型删失 在动物研究中的另一种选择是试验进行到有一固定数目的动物死亡为 止。在这种情况下,如果没有意外失踪,删失观测值等于最大的非删失观测 值。 例如,在有六只老鼠的试验里,研究者决定有4 支出现肿瘤就停止试验。 结果发现,老鼠a ,b ,d ,e 分别在第1 0 周,第1 5 周,第2 5 周,第3 5 周出现肿瘤; 老鼠c 到第3 5 周仍没有肿瘤;老鼠f 在1 9 周后意外死亡,身上并无肿瘤。那么 生存时间( 无肿瘤时间) 是l o ,1 5 ,3 0 + ,2 5 ,3 5 ,1 9 + ( 周) 。 ( 三) i i i 型删失 在大多数临床研究中,研究期间是固定的,病人在此期间的不同时间进 4 入研究,某些人可能在研究期间结束之前死亡,他们的确切生存时间是知道 的,可能有些人在研究结束之前退出研究而不被跟踪观察,还有些人在研究 结束时仍活着。对于那些中间退出而失去跟踪的人,生存时间至少是他们进 入研究到最后离开那一段时间。对于仍然活着的人,其生存时间至少是从进 入研究到研究期间结束那一段时间。这后两种观测乃是删失观测。 i 型删失数据和i i 型删失数据也叫单式删失数据,而i i i 型删失数据则是 不必同时开始的删失数据,也叫逐次删失,随机删失。所有这几种删失都是 右删失或删失于右。如果没有删失观测值,称生存时间的集合是完全的。 对完全数据、单式删失数据及逐次删失数据的描述和分析方法包括参数 方法和非参数方法。 二、生存分布的基本概念嘲 ( 一) 连续模型 设t 表示寿命总体,则t 是一个非负随机变量,假设t 是一连续性随机变 量。 令厂( f ) ,f o ) 分别表示t 的密度函数、分布函数,则它们都定义在【0 ,+ m ) 上。 生存函数s ( f ) 表示个体在时间t 仍存活的概率,则 s ( t ) p 口 f ) = f ( x ) 出 s ( f ) 是连续单调递减函数,满足: s ( o ) # 1 s ( 。) 21 i m s ( f ) - 0 危险函数 o ) 表示个体存活到时间t ,在t 时刻瞬间死亡率或失效率。即 o ) 。l i m 丛型型型 a t e 。 a t 。l i m ! 垡竺! 二! 垡! 。盟 血- 。厶f s ( f )s ( f ) 函数,( f ) ,( f ) ,s ( f ) 及 o ) 在数量上是等价的: ( f ) - 1 - f ( t ) ; ( 2 ) ,( f ) f ( f ) 一- s ( f ) - ( 3 ) j l o ) - 一孚l o g s o ) 扛x 5 ( 4 沁( f ) _ e x p ( o 皿) ( 5 ) ,o ) th ( t ) e x p ( - ;h ( x ) d x ) ( 二) 离散模型 有时候寿命变量t 需作离散化处理。假设t 取值f 1 ,乞,r t l 0 表明t 时刻瞬间死亡率或失效率可以看作常数。由此式可分别得到密度函数和生 存函数 f ( t ) 一z e x p ( 一知) 和s o ) 一e x p ( 一舡) ,t2 0 当a 一1 时,分布称为标准指数分布。含参数a 的指数分布的均值和方差分别是 6 三和三。密度函数和生存函数也常写成 aa f q ) 。吉腿“一0 一l f ) 和s ( f ) t e x p ( 一0 一) t 苫0 此时口一代表了总体的平均寿命。 该分布的一个显著特点是与过去的生存时间的长短没有关系,通常把该 特点称为永保“年轻”。从历史上看,指数分布是首先得到广泛应用的寿命 分布模型。一方面是因为它容易得到简单的统计方法,另一方面是因为指数 分布适合用来描述许多对象的寿命。 ( 二) 威布尔( w e i b u il ) 分布 w e i b u l l 分布式最为广泛使用的寿命分布。它可以用来作为多种类型产 品的寿命分布模型,如真空管、滚珠轴承、电器的绝缘材料。在生物医学上, w e i b u l l 分布也被广泛应用,比如研究人类或实验动物的肿瘤出现时间。 g e i b u l l 分布的危险函数为 j l o ) - l 声( 加) 4 4 这里a ,o , p ,0 都是参数。当p - 1 时就是指数分布。其密度函数和生存函数分 别是 f ( o 一 卢( m ) 纠e x p 一( 知) 4 】 s ( t ) - e x p 一( 知) 4 】,t o w e i b u l l 分布的均值是 “r o + w ) 。 a 方差是 嘉【r ( 1 + 万2 ) _ r 2 ( 1 旁】 这里 t 一蠹j 一- 1 e 。d x 为著名的g a m m a 函数。 w e i b u l l 分布密度函数的形状依赖于芦值,有时称为该分布的形状参数。 w e i b u l l 分布对许多类型的寿命数据都能给出很好地描述。 ( 三) 伽玛( g i n ) 分布 g a m m a 分布密度函数形式为 7 川t 笔茅一。 这里i ,0 ,a 0 :j j l 为尺度参数,k 为指数或形状参数。当t 。1 时g a m m a 榔 为指数分布。g a n g a a 分布的分布函数为 f ( f ) 最缸a ( a 。1 e “出一专万f “分“如;, ,舡) 这里 , ,工) 。而1 l k - l e - u 幽 称为不完全的g a m m a 函数。g a m m a 分布的生存函数和危险函数分别是 一1 r 刹1 2 t t x k - l e - x 砒 m = 器 g a 咖a 分布的均值和方差分别是妥和鲁。 g a m m a 分布也可以作为寿命模型,但是不及w e i b u l l 分布那样常用,一定 程度上是由于g a m m a 分布的生存函数和危险函数不能以简单的形式表达,因 而用起来 = 7 w e i b u l l 分布困难。 ( 四) 对数正态分布 当寿命丁取对数以后y l o g t 一( p ,盯2 ) ,称r 服从对数正态分布,y 的密 度函数为 g ( y ) 一击c x p 【一z 1 ( y 口- t , ) 2 】,”o 由此得n t 的密度函数为 f q ) 一去e x p 【一i 1 粤2 刈 对数正态分布的生存函数和危险函数分别是 s ( t ) - 1 - 中( 警朋卜器t 盯j ll 这里中( ) 是标准正态分布函数,p 和盯是参数。 两个参粒的对数i f 杰分布的蚴信和方算分别县1 8 e x p ( m + 妻口2 ) 和【c x p ( a 2 ) 一1 e x p ( 2 p + 盯2 ) 二 对于参数模型来说,依据所得到的数据估计其中的参数即可,估计方法 通常有极大似然估计、距估计等。然后可以利用检验理论来检验药物是否对 某种疾病的治疗有显著性效果。关于这方面的讨论和应用可以参考f l e m i n g a n d h a r r i n g t o n ( 1 9 9 1 ) 的专著,c o u n t i n g p r o c e s sa n ds u r v i v a l a n a l y s i s :k a l b f l e i s h a n dp r e n t i c e ( 2 0 0 2 ) 的专著,t h es t a t i s t i c a l a n a l y s i s f a i l u r et i m ed a t a :寿命数据中的统计模型与方法 ( l a w l e s s ( 1 9 8 2 ) ,茆诗松等翻译( 1 9 9 8 ) ) 。当模型建立比较合理时,模型方法 可以提高统计效率,能够准确地反映生存规律,产生巨大经济价值。由参数 估计或检验得到统计方法往往强烈地依赖统计模型,所以当模型建立不合理 时,产生的偏差( 真实的效果与统计量得到的效果的差) 也是显著的,得到 不正确的结论诱导决策者作出错误的判断与决策,造成巨大浪费和损失。非 参数模型方法可以避免参数模型方法的不足,非参数方法具有较强的稳健性。 模型做某些调整不会影响到统计分析结果,有强的抗干扰性。 四、非参数统计方法m 常用的非参数统计方法,有以下几种; ( 一) 经验生存分布函数 描述不分组的单变量生存函数的一个常用方法是计算和图示经验生存 函数,或等价的经验分布函数,这对所研究的生存分布的生存函数或分布函 数给出一个非参数估计。若在容量为n 的样本中没有截尾观测,则经验生存 函数( e s f ) 定义为 j 。翌型篁兰塑全塑 ( f 苫0 ) 一 以 这是一个阶梯函数,若所有观测值都两两不同,则该函数在每个观测值之后 递减三。若有d 个生存时间等于f ,则在过f 之后e s f 递减堕 nn 大样本理论证明了样本量趋于无穷时,经验生存分布函数依概率一致收 敛于总体生存分布函数,考虑两组生存数据是否相同时,可以比较其经验生 存分布函数。令对照组与处理组的生存函数分别为s c ( f ) 与s r ( t ) ,则检验统 计量为 d 。m i l l l & ( f ) 一品( f ) l 9 该统计量被称为k o l m o g o r o v - s m i r n o v 统计量。在对照组与处理组无差异 的情况下,h a j e ka n ds i d a k ( 1 9 6 7 ,第5 章) 证明了 熙p ( 争叫小z 扣广2 n 2 其中玛肌分别为对照组与处理组的样本量,n f n + m ,万n - 口,0 t a t l 。 该统计量主要应用于数据完全的情形下的统计分析。 ( 二) 乘积限估计 k a p l a na n dm e i e r ( 1 9 5 8 ) 提出了基于不完全数据下生存函数的乘积限估 计,该估计同时也被称为k a p l a na n dm e i e r 估计。该估计的定义如下: 假定有n 个样品的观测,在k ( k 主n ) 个不同的时闻 t 2 t ( f i 发生死亡, 这里允许在f ,可能有多于一个死亡发生,令吒为时刻f j 死亡的个数,疗,为时刻, 面临危险的样品数,即在时刻f ,之前仍活着且未被截尾的样品数。s ( f ) 的乘积 限估计定义为 蚋取孚 估计量j ( f ) 是数项乘积构成,乘积中的每一项可以认为是恰在时刻f ,之前 仍存活的条件下活过f :的条件概率。同样在样本容量趋于无穷时,该估计依概 率收敛于相应生存分布。 ( 三) m a n n w h i t e n y - i l c o x o n 秩统计量。m 町 该统计量是由f r a n kw i l c o x o n ( 1 9 4 5 ) 和m a n n a n dw h i t e n y ( 1 9 4 7 ) 提出的, 该统计量主要用来分析当控制组与处理组的观测值是完全的情形,考虑控制 组与处理组是否有显著的差异。首先给出秩的定义。 在一容量为弗的完全组数据墨,中,某数据的秩是指该数据在该组 数据从小到大排列中所对应的位置。即将弹个数据按自小到大的次序编号排 列成 2 ) t 若耳一唧) ,则称而的秩为z ,i - 1 , 2 , ,一 设# ,来自于控制组的观测值,来自于处理组的观测值,将 1 0 它们混合在一起,令砰,表示# ,在混合后的秩。 m a n n w h i t e n y w i l c o x o n 秩统计量为 r 一 当处理无效时,e 仃) - 华,y 仃) 一n m ( n r + m + 1 ) 。 对于显著性水平口,若 t s q ( 争 或 r 苫g ( 争 则认为控制组与处理组有显著的差异。其中临界点g ( 争与c 工9 分别是满足 即s q 9 s 詈与即g ( 争 詈 的最大整数与最小整数。 该统计量简单,易于计算,并具有较好的统计性质和较大的优势。但该 统计量仅仅适用完全数据的统计分析,许多情况下面临的数据分析是不完全 的,进而提出了广义的m a n n w h i t e y - w i l c o x o n 统计量。g e h a n ( 1 9 6 5 ) 提出了 广义m a n n w h i t e y - w i l c o x o n 秩统计量,该统计量完全可以处理不完全数 据。但该统计量的在计算p 一值时计算量比较大,通常采用其大样本分布来计 算p 一值。 ( 四) 对数秩( 1 0 9 - r a n k ) 统计量“1 对于非参数检验,s a v a g e ( 1 9 5 6 ) 提出了指数得分检验( e x p o n e n t i a l s c o r et e s t ) ,m a n t e l ( 1 9 6 6 ) 对该检验进行了推广,在p e t o & p e t o ( 1 9 7 2 ) 的 论文里被称为对数秩检验统计量: r 。羹c 4 一争嘶耋等 其中k 表示在k 个不同的时刻气t 乞 ( k 控制组与处理组完全观测 值的总个数,足表示在生存时间为一时控制组与处理组中个体面临风险的总 个数,同样民表示在生存时间为一时控制组中个体面临风险的总个数,吃表 示在生存时间为一时处理组中个体面临风险的总个数,当在时刻观测到的 死亡个体来自控制组时4 1 ;当在观测到的死亡个体来自处理组时岛- 0 。 1 1 1 一嗔,表示观测到的来自控制组的死亡个体数。感兴趣的是原假设风, 即两组的分布函数f 相同。 在控制组与处理组无显著差异的情形下,对数秩统计量有如下的渐近分 布 l r ( o ,1 ) u m h 其中吃一粪警。 ( 五) 线性秩统计量 关于线性秩统计量可以参考p e t o p e t o ( 1 9 7 2 ) ,p r e n t i c e ( 1 9 7 8 ) 等人论 文,关于这方面的研究仍然很活跃,在近几年j a s a 、b i o m e t r i k a 等杂志上仍 有关于该方面的研究。 其他非参数统计量女【l c o x 的f 检验等也有着广泛的应用。 第二章数据分析 一、数据的收集 将老鼠分成4 组a ,b ,d ,e 进行药物实验,各组的研究周期不同。每组试 验中,对老鼠注射不同的药物,观察其生存天数。针对获取的数据,利用对 数秩( 1 0 9 r a n k ) 检验法,分析药物的疗效。 a 组数据见表l ,共4 组,1 、2 组1 1 只,3 、4 组1 5 只。观察到1 5 2 天截止。 表14 组观测数据 ln a i v em o c k 2 6 ,3 2 ,8 0 ,2 5 ,3 4 ,4 9 ,7 8 ,4 7 ,4 1 ,1 5 2 ,3 9 2n a i v et - m f i l7 8 ,1 5 2 ,1 5 2 ,6 6 ,1 5 2 ,1 5 2 ,5 7 ,1 5 2 ,3 3 ,1 5 2 ,1 5 2 3 i p m o c k 4 7 ,1 5 2 ,2 6 ,4 7 ,1 5 2 ,4 4 ,2 7 ,4 2 ,5 0 ,1 0 0 ,9 8 ,6 1 ,4 4 ,1 5 2 ,1 0 5 4 i p t - m f l l 4 1 ,9 2 ,5 5 ,5 6 ,1 3 2 ,1 3 5 ,6 2 ,1 5 2 ,1 5 2 ,9 8 ,1 5 2 ,1 5 2 ,5 4 ,7 5 ,4 4 8 组数据见表2 ,分3 组,每组各1 0 只,观察到1 1 5 天截止。第3 组( t 一1 ) 中有1 只到第1 1 5 天时还存活着。 表2 口组观测数据 天。 1t m f i l 3 0 ,3 2 ,5 5 ,3 2 ,4 2 ,4 7 ,3 5 ,4 6 ,4 4 ,3 0 2m o c k 2 7 ,2 9 ,2 3 ,3 2 ,2 7 ,2 1 ,2 4 ,3 3 ,2 6 ,2 9 3t 一1 2 9 ,3 1 ,3 2 ,2 7 ,2 7 ,2 9 ,3 6 ,3 2 ,1 1 5 ,2 9 d 组数据见表3 ,共3 组,每组各2 0 只,这3 组老鼠全部死亡 表3d 组观测数据 1m o c k 1 5 ,1 6 ,1 1 ,2 6 ,1 2 ,1 4 ,1 3 ,1 4 ,1 5 ,1 5 。 1 3 ,1 3 ,1 3 ,1 2 ,1 4 ,2 5 ,1 2 ,1 2 ,1 3 ,1 5 2t - 11 4 ,3 4 ,1 6 ,2 5 ,1 7 ,1 5 ,3 3 ,2 2 ,1 9 ,1 2 , 1 2 ,1 1 ,1 2 ,1 9 ,1 l ,9 ,t 7 ,2 5 ,2 5 ,1 2 3t - m f i l1 4 ,1 2 ,2 0 ,1 6 ,3 1 ,2 8 ,2 8 ,1 2 ,1 9 ,1 4 , 2 7 ,1 6 ,2 6 ,1 8 ,9 ,2 2 ,1 1 ,1 4 ,1 7 ,2 6 e 组数据见表4 ,共3 组,每组各1 0 只。只有第2 组有1 只老鼠活到1 8 0 表4e 组观测数据 lm o c k 2 4 ,2 6 ,3 6 ,3 6 ,3 6 ,4 0 ,3 6 ,3 6 ,3 6 ,3 2 2t l 4 3 ,3 6 ,4 4 ,4 7 ,4 0 ,3 2 ,4 0 ,2 8 ,1 8 0 ,4 3 3t - m f i l 3 6 ,4 0 ,5 1 ,7 1 ,4 0 ,6 8 ,5 5 ,3 9 ,3 6 ,5 2 二、数据的处理 如前所述,对数秩( 1 0 9 r a n k ) 检验统计量为 z 一耋c 4 一争嘶耋等 在两组之间无显著差异的情形下,对数秩统计量有如下的渐近分布 ! 一三一( 0 ,1 ) o m h 其中也= 耋警。 将每组试验中的若干组数据进行两两比较,利用对数秩( 1 0 9 - r a n k ) 检 验法进行显著性检验。注意观察的截止日期,以此来确定n 1 的取值。具体步 骤如下: ( - - ) 数据捧列 首先将数据做成行向量,将将要进行比较的两组数据分别按照由小到大 的顺序排列,再将两组数据混合到一起由小到大进行排列。并确定n l 的取值。 ( 二) 计算风险向量 按照混合排列的数据将生存时间t 一划分成k 个时间段( 单位:天) : 百 c f : 根据r 和民的定义,墨表示在生存时间为一时两组合并之后个体面临风 险的总个数,民表示在生存时间为一时a l 组中的个体面临风险的总个数,得 到风险向量,记为 r 一假,心,r ) , g it 。,墨:,岛) ( 三) 进行显著性检验 利用公式 1 4 r 一耋c 4 一分川一耋等与吒一:l 警 算得于与,又由公式 p p ( 1 老i 爿丢i ) 地。一m ( 1 三o m ,1 ) ) i 吒耐q 目ji7 算得p 一值。其中m ( ) 是标准正态分布的分布函数。根据p 一值可以得出两组 数据是否有显著性差异的结论。 结论 一、对a 组试验的处理结果 将a 组中的4 组数据进行两两比较,利用对数秩( 1 0 9 r a n k ) 检验法进行 显著性检验。观察到1 5 2 天截止,以此来确定n l 的取值。 首先将a 组中的4 组数据做成行向量: a 1 = ( 2 6 ,3 2 ,8 0 ,2 5 ,3 4 ,4 9 ,7 8 ,4 7 ,4 1 ,1 5 2 ,3 9 ) h 2 = ( 7 8 ,1 5 2 ,1 5 2 ,6 6 ,1 5 2 ,1 5 2 ,5 7 ,1 5 2 ,3 3 ,1 5 2 ,1 5 2 ) a 3 = ( 4 7 ,1 5 2 ,2 6 ,4 7 ,1 5 2 ,4 4 ,2 7 ,4 2 ,5 0 ,1 0 0 ,9 8 ,6 1 。4 4 ,1 5 2 ,1 0 5 ) a 4 = ( 4 1 ,9 2 ,5 5 ,5 6 ,1 3 2 ,1 3 5 ,6 2 ,1 5 2 ,1 5 2 ,9 8 ,1 5 2 ,1 5 2 ,5 4 ,7 5 ,4 4 ) ( 一) a 1 与a 2 之间的比较 1 、将数据按由小到大的顺序排列 s o r t ( a t ) = ( 2 5 ,2 6 ,3 2 ,3 4 ,3 9 ,4 1 ,4 7 ,4 9 ,7 8 ,8 0 ,1 5 2 ) s o r t ( a 2 ) = ( 3 3 ,5 7 ,6 6 ,7 8 ,1 5 2 ,1 5 2 ,1 5 2 ,1 5 2 ,1 5 2 ,1 5 2 ,1 5 2 ) s o r t ( a 1 ,a 2 ) = ( 2 5 ,2 6 ,3 2 ,3 3 ,3 4 ,3 9 ,4 1 ,4 7 ,4 9 ,5 7 ,6 6 ,7 8 ,7 8 ,8 0 ,1 5 2 , 1 5 2 ,1 5 2 ,1 5 2 ,1 5 2 ,1 5 2 ,1 5 2 ,1 5 2 ) n i = 1 0 2 、将生存时间t 一划分为以下时刻( 单位:天) 。2 5 - 2 6 f :6 6 f 五一7 8 r 2 一c ( 1 1 ,1 1 ,l l ,1 1 ,1 0 ,1 0 ,1 0 ,1 0 i 0 ,1 0 ,9 ,8 7 ) n1=10 t - n 1 一s u m ( r 1 r ) t 【1 】5 3 2 6 7 8 1 s i g m a 4 2 - s u m ( ( r 1 r 2 ) r 2 ) s i g m a 2 【1 】2 8 7 6 7 0 9 p 一2o 【1 一p n o r n l ( t s q r t ( s i v a ) ) ) p 【1 10 0 0 1 6 8 5 8 4 2 该结果表明a 1 与a 2 之间有显著性差异。 其它情形的讨论与上述过程类似,略去。结果列表如下: 表5 对a 组试验的显著性分析 序号t 值s i g m a 2双边p v a l u e 显著性 1 a l 与a 2 5 3 2 6 7 8 i2 8 7 6 7 0 90 0 0 1 6 8 5 8 4 3 有显著 2 a 1 与a 34 4 2 5 6 3 93 7 3 5 4 7 90 0 2 2 0 3 1 2 9有显著 3a l 与a 44 9 7 3 0 5 43 6 1 4 3 30 0 0 8 9 0 1 1 1 2有显著 4 a 2 与a 3 - 3 3 4 6 6 1 63 4 2 5 5 2 80 0 7 0 5 7 8 1 8 无显著 5 a 2 与a 4 - 3 1 3 7 9 9 63 7 0 9 1 60 1 0 3 2 3 8 7无显著 6 a 3 与a 4 2 0 4 7 1 3 74 5 8 0 5 60 3 3 8 8 1 6 8无显著 二、对b 组试验的处理结果 结果见表6 。 1 7 表6 对口组试验的显著性分析 序号t 值 s i g m a 2双边p v a l u e 显著性 1b l 与b 2- 3 9 9 9 8 6 91 8 4 8 2 30 0 0 3 2 5 9 2 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论