白血病临床治疗优秀数模论文.doc_第1页
白血病临床治疗优秀数模论文.doc_第2页
白血病临床治疗优秀数模论文.doc_第3页
白血病临床治疗优秀数模论文.doc_第4页
白血病临床治疗优秀数模论文.doc_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2011高教社杯全国大学生数学建模竞赛承 诺 书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。我们参赛选择的题号是(从A/B/C/D中选择一项填写): 我们的参赛报名号为(如果赛区设置报名号的话): 所属学校(请填写完整的全名): 参赛队员 (打印并签名) :1. 2. 3. 指导教师或指导教师组负责人 (打印并签名): 日期: 年 月 日赛区评阅编号(由赛区组委会评阅前进行编号):2011高教社杯全国大学生数学建模竞赛编 号 专 用 页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):白血病临床治疗的统计分析摘要白血病是造血组织的恶性疾病,又称“血癌”。为了提高白血病在临床试验中的治疗效果,本文将针对药物6-MP能否缓解病痛时间和预测以后用药的病人病痛缓解时间的相关参数及对药物效果的一定置信度的评估这两个问题进行如下的研究和分析:问题一:此问是将42位白血病患者随机地分成两组,一组病人用药物6-MP治疗以缓解病痛,而另一组病人则用安慰剂,根据所得到处理组和控制组病痛缓解的持续时间来确定药物6-MP是否能够显著缓解病痛的持续时间。本问题的核心是检验两组数据的差异性是否显著,这类统计问题常用到参数检验和非参数检验。(一)本文首先将删失数据丢弃截尾部分,转化为完全数据,来检验两样本是否来自正态总体,从而建立模型一:基于偏度、峰度的正态分布检验,通过计算,我们得到结果为:两样本均不是来自正态总体,以此确定使用非参数检验方法来解决问题一。 (二)确定检验方法后,我们建立了模型二:基于秩和检验的两配对样本均值差异性检验模型,秩和检验是通过两个样本的观察值来判断两个总体的分布是否相同,通过建立假设、比较期望秩与秩和检验临界值、检验两样本一致的显著性概率p等步骤,我们求得,在显著性水平=0.05的条件下,其概率值p=0.0042=0.05,并且期望秩W=568大于临界值C=517,所以拒绝原假设,得出“处理组有明显增加效应”的结论。秩和检验模型中,并没有考虑删失数据,而且只从均值差异角度来分析,并不全面。 (三)为了进一步改进上述模型,我们考虑删失数据,并借鉴医学上常用的生存分析方法,建立了模型三:基于乘积极限估计法的生存分析模型。对两样本数据适当处理后,通过spss软件进行Kaplan-Meier生存分析,得到结果:处理组中位生存时间为23周,控制组中位生存时间为8周,而中位生存期越长,表示疗效的的效果越好;通过log-rank检验分析,得到统计量返回值P=0.00001=26)的95%置信下限为:0.52,未来病人使用6-MP后有80%的可能性缓解持续时间不短于某个下限值的95%置信下限为:8.90。关键词:显著性差异 秩和检验 生存分析 极大似然估计 置信区间一、问题重述1.1问题背景白血病是造血组织的恶性疾病,又称“血癌”。其特点是骨髓及其它造血组织中有大量无核细胞无限制地增生,并进入外周血液,将正常血细胞的内核明显吸附,该病居年轻人恶性疾病中的首位。为了能够对抗这种病,很多医院都对该病进行了临床医学实验。1.2涉及材料背景 在持续1年的急性白血病治疗的临床试验中,研究者将42位急性白血病患者(进入项目的时间有先后)随机地分成两组(各21人)。对一组病人用药物6-MP治疗以缓解病痛,而另一组病人用安慰剂。安慰剂的外形和颜色与药物完全相同,但不含任何药物,病人自己并不知道实际服用的是药物还是安慰剂。研究者记录下每个病人病痛缓解的持续时间(以周为单位),持续时间越长则疗效越好。数据如下: 处理组和控制组各21人的病痛缓解的持续时间(周)处理组(使用6-MP)21人6,6,6,7,10,13,16,22,23,6+,9+,10+,11+,17+19+,20+,25+,32+,32+,34+,35+,控制组(使用安慰剂)21人1,1,2,2,3,4,4,5,5,8,8,8,8,11,11,12,12,15,17,22,23表中数据后面有+者表示,当项目结束时缓解仍在持续。例如,处理组中的20+表示:该病人在项目结束前20周进入临床治疗,使用6-MP后,缓解持续到项目结束。因此,该病人的实际缓解持续时间至少为20周,很可能大于20周。这种数据在统计学中称为删失数据。1.3问题提出 (一)6-MP能否显著延长缓解的持续时间? (二)如果不能得到肯定的回答,则对该药物没有必要进一步研究;反之,如果结论是肯定的,预测以后的病人在使用6-MP后的缓解持续时间的有关参数,对6-MP的效果给出有足够置信度的量化评估。二、问题分析问题一:该问题是问“6-MP能否显著延长缓解的持续时间”。回答“6-MP能否显著延长缓解的持续时间”这个问题,就是要看两组不同的病人,接受不同的处理后,其病痛缓解的持续时间是否有明显的差异。如果说,处理组的病痛缓解的持续时间显著高于控制组的,那么说明,6-MP能够显著延长缓解的持续时间。问题的解决,就转化到了分析两组数据之间的差异上了,这是一个统计学问题。统计学问题,首先是要找数据之间的规律。如果能从样本中找到数据服从的某种分布,问题好解决很多,而一般都从正态分布着手(正态分布式自然界最常见的分布),看样本数据是否满足正态分布。分析了数据的分布规律后,就要对两样本进行假设检验,分析样本之间是否有明显的差异。对于符合正态分布的两样本,可以用配对t检验,而不符合正态分布的两样本,采用wilcoxon秩和检验。确定方法之后,作出假设,并给定置信水平,就可以检验了。问题二:问题二是在问题一的基础上提出的。如果6-MP能够显著延长缓解的持续时间,就预测以后的病人在使用6-MP后的缓解持续时间的有关参数,并对6-MP的效果给出有足够置信度的量化评估。如果6-MP不能够显著延长缓解的持续时间,则对该药物没有必要进一步研究,问题结束。在第一问求解结束后,我们得到的结论是6-MP能够显著延长缓解的持续时间。现在我们要对其治疗效果的有关参数进行预测,并给出有足够置信度的的量化评估。对于以后的病人在使用6-MP后病痛缓解时间的有关参数,我们考虑到了三个参数:未来病人使用6-MP后的期望缓解持续时间;未来病人使用6-MP后的缓解持续时间超过半年(26周)的概率;未来病人使用6-MP后有80%的可能性缓解持续时间不短于某个下限。为求解出这三个参数,本文利用最大似然法来进行求解。要对6-MP的效果给出有足够置信度的量化评估,本文就是对上面提到的三个参数利用概率论的相关知识进行了一定的量化评估。三、模型假设1.假设预测模型中,服药病人所处环境与实验组人员所处环境相同。2.假设在试验过程中,处理组和控制组所处的环境都相同。3.假设不考虑病人服药后产生的副作用对本题的影响。4.假设每个人在临床试验前体质都一样,并且年龄、性别、体重等对此试验均无影响。5.假设题目所给的数据均为可靠数据。四、符号说明 i=1,2,21,Xi表示处理组样本中第i个观察值i=1,2,21,Yi表示处理组样本中第i个观察值 表示样本的标准差 表示样本的偏度 表示样本k阶中心矩表示Xi在混合样本中的秩 表示从1,2,N中取n个数其和恰为d的取法的个数表示死亡概率 表示生存概率 表示生存率 表示死亡数据 表示删失数据五、模型建立与求解5.1关于问题1的模型建立与求解5.1.1建模前的准备(处理组数据去掉截尾)在建立模型前,为了对数据样本有个初步的认识,本文首先将数据进行了一定的处理,这些处理包括求平均值、中位数、偏度、峰度,画直方图等。对于容量为n的样本(X1,X2,Xn):1.表示位置的统计量平均数和中位数平均值: (1)中位数:将数据从小到大排序后,其中位于中间位置的那个数值。2.变异程度的统计量标准差和方差标准差: (2)它是各个数据与均值偏离程度的度量。 方差:标准差的平方。3.表示分布形状的统计量偏度和峰度偏度: (3)峰度: (4)由上述的式子计算可得以上统计量的值,如下所示:表1 两样本的各统计量的值统计量平均值中位数标准差方差偏度峰度处理组17.095169.999599.990.512861.9479控制组8.666786.467941.8330.808262.8125由上表的数据可以看出:处理组的平均数大于控制组的平均数,这表明处理组中病人的病痛缓解平均持续时间大于处理组中病人的病痛缓解平均持续时间,从这个角度,可以看出6-MP能显著延长缓解的持续时间;对于标准差而言,处理组的标准差大于控制组的标准差,说明处理组中的各数据与均值的偏离程度比控制组中的各数据与均值的偏离程度要大,从这个角度,可以看出,处理组中病人病痛的缓解时间有一定的差距。偏度反映分布的对称性,g10称为右偏态,此时数据位于均值右边的比位于左边的多;g11.96,|u2|=12.01891.96,故拒绝假设H0,认为数据不是来自正态总体。 用同样的方法可以算得控制组的数据不是来自正态总体。分析完了两样本的一些基本特性,接下来就要对两样本的差异性进行分析检验。样本的检验有参数检验和非参数检验。参数检验,即总体分布类型已知,用样本指标对总体参数进行推断或作假设检验的统计分析方法。非参数检验:即不考虑总体分布类型是否已知,不比较总体参数,只比较总体分布的位置是否相同的统计方法。而由上述的分析可知,两组样本不符合正态分布,也很难找到其满足的参数分布,所以,对这两组样本的检验,只能用非参数检验。样本的检验有参数检验和非参数检验。参数检验,即总体分布类型已知,用样本指标对总体参数进行推断或作假设检验的统计分析方法。非参数检验:即不考虑总体分布类型是否已知,不比较总体参数,只比较总体分布的位置是否相同的统计方法。而由上述的分析可知,两组样本不符合正态分布,也很难找到其满足的参数分布,所以,对这两组样本的检验,只能用非参数检验。 两配对样本的非参数检验是对总体分布不甚了解的情况下,通过对两组配对样本的分析,推断样本来自的两个总体的分布是否存在显著差异的方法。两配对样本非参数检验的方法主要包括McNemar检验、符号检验、Wilcoxon秩和检验等。 根据本题的特殊性,我们采用非参数统计中一种常用的检验方法Wilcoxon秩和检验,其中“秩”又称等级、即按数据大小排定的次序号。上述次序号的和称“秩和”,秩和检验就是用秩和作为统计量进行假设检验的方法。5.1.2模型二:基于秩和检验的两配对样本均值差异性检验模型 数据的处理:将处理组中删失数据的截尾去掉,转化成完全数据,然后对转化后的处理组样本和控制组样本,进行均值的差异性检验。一、秩和检验的引入: 本题是针对同样的急性白血病患者,将其分成两组,分别给予不同的处理,即一组使用药物6-MP治疗,而另一组另一组病人用安慰剂(安慰剂不含任何药物),分析两种不同处理效果的差异,即6-MP的效果是否明显比使用安慰剂好。将两组病人的治疗效果分别看做两组样本,问题的解决需要对这两组样本进行检验。 在实践中我们常常遇到以下一些资料,如需比较患者和正常人的血铁蛋白、血铅值、不同药物的溶解时间、实验鼠发癌后的生存日数、护理效果评分等,这类资料有如下特点:资料的总体分布类型未知或者资料分布类型已知,但不符合正态分布或者某些变量可能无法精确测量。对于此类资料,传统的u检验、t检验和方差分析都是假定样本的数据来自正态或近似正态分布的总体,在实际工作中往往碰到非正态资料或不了解现有的数据来自何种分布,难以解决问题。而秩和检验是一种非参数统计方法。此法可用于多种总体分布或分布不明确的情况,尤其在分析两配对样本的差异性时,有很好的效果。 在秩和检验中会涉及到一下基本概念:(1) 秩次:指将观察值由小到大按次序排列后所编的次序号。(2)秩和:用秩次号代替原始数据后,所得的某些秩次之和。(3)秩和检验:用统计量秩和进行的检验。 二、模型的建立: 我们要研究的问题是两总体均值的差异性假设检验,设有两个配对样本X:,Y:,要检验第二个总体是否有增加效应,首先建立假设:(1)第二个总体没有增加效应,即H0: (2)第二个总体有增加效应,即H1:Wilcoxon秩和检验的方法是:将两个样本混合为:混合之后样本容量为,每个样本点在样本中从小到大排列的名次称为该样本点的秩,用表示在混合样本中的秩,用表示在混合样本中的秩,检验统计量为 (19)例如诸为 1.1,3.3,5.5,7.7,诸为2.2,4.4,6.6,以下列表给出混合样本及秩:表2 混合样本及其秩混合样本6.6秩1357246则。若H0成立,则的值应该适中。注意到每个秩序的平均值为,故H0成立时,W期望值为: (20) 的值在此值附近应该是正常的。若的值异常偏大,说明第二个总体确有增加效应。利用matlab自身的函数p = ranksum(X,Y)(3)可以进行双侧的秩和检验。返回的p值小于给定的显著性水平则拒绝原假设,认为H1:成立。H0成立时,可以证明关于对称,要检验H1:,只要判定,并且p = ranksum(X,Y)即可。根据以上分析推导,W的求解,使用matlab编程,编写如下函数(程序源代码见附录二)来完成:function W=rsum(x,y)(6)其中,x,y分别为对照组样本、实验组样本。为了求出Wilcoxon秩和检验的临界值,在H0成立时,的概率分布为: (21) 其中表示从中取个数其和恰为的取法的个数。可用如下初始条件及递推公式计算: 当 结合上述公式的推导,的求解,使用matlab编程,编写函数(程序源代码见附录二)来完成:function tmn=tmnd(m,n,d)可以证明,H0成立时,的概率分布关于E=n*(m+n+1)/2对称,我们给出单侧检验临界值的求法,自定义函数(程序源代码见附录三)function c=wr(m,n,alpha)其中输入参数m,n,alpha分别是对照组样本容量、实验组样本容量、检验的显著性水平,而输出值c表示右侧临界值,即满足的最小正整数。上述函数可用于右侧检验。若左侧检验,只需将程序中的“c1”与“c”换位,即为左侧临界值。若双侧检验,先求出c2=wr(m,n,alpha/2),再由c1=2*E-c2即可。三、模型的求解: 根据上述模型的分析,下面将结合本文的实际,来具体的求解: 两配对样本分别为:控制组: x=1,1,2,2,3,4,4,5,5,8,8,8,8,11,11,12,12,15,17,22,23;处理组: y=6,6,6,7,10,13,16,22,23,6,9,10,11,17,19,20,25,32,32,34,35; 两个假设:H0:处理组没有明显增加效应;H1:处理组有明显的增加效应;将两个样本混合为: x,y=1,1,2,2,3,4,4,5,5,8,8,8,8,11,11,12,12,15,17,22,23,6,6,6,7,10,1 3,16,22,23,6,9,10,11,17,19,20,25,32,32,34,35;将上述混合样本重新按照从小到大的顺序排列后得:x,y=1,1,2,2,3,4,4,5,5,6,6,6,6,7,8,8,8,8,9,10,10,11,11,11,12,12,13,15,16,17,17,19,20,22,22,23,23,25,32,32,34,35;混合之后,样本容量为: N=m+n=42,,由函数W=rsum(x,y),可求得W=rsum(x,y)=568。而=451.5,此时W明显大于E(W)。我们给定显著性水平值,此时P=ranksum(x,y)=0.0042482生存Survival Kaplan-Meier导入具体参数(具体过程详见附录) 图六 spss软件求解流程图得到以下结果:两组的中位生存期估计: 图七 均值、中位数结果图 由上图可知,处理组生存时间的均数为23.287周,中位生存时间为23.000周;控制组生存时间均数为7.211周,中位生存时间为8.000周。对比两组不同处理方法的中位生存时间,可知处理组显著高于控制组,而中位生存期越长,表示疗效的的效果越好,这也就证明了处理组的生存时间显著高于控制组。图八 估计值置信区间图水平间的整体比较:图九 三种检验结果图3种检验方法的检验统计量P(对应上图中的Sig)均远小于0.05,证明两种疗法的生存率的差异有统计学意义。习惯取log-rank统计量。所以,本例2=16.793,P0.05,按a=0.05水准,拒绝H0,接受H1,可认为2种疗法的生存率的差异有统计学意义,处理组生存率明显高于控制组。生存曲线: 图十 两样本组生存曲线图从生存曲线来看,处理组的生存率也是明显高于控制组,而且处理组整体处在一个较高的生存率水平,控制组的生存率水平分布叫均匀,但总体处在较低水平。结论:我们从中位生存时间、假设检验、生存曲线等三个方面,综合比较了处理组与控制组的生存时间,得出的结论都是处理组显著高于控制组,处理组的生存率显著高于控制组的生存率。而模型二(秩和检验)中,通过均值差异的检验得到的结论也是处理组显著高于控制组,前后一致,从多个方面分析检验了两样本总体的差异,基于此,我们认为,6-MP能够显著延长缓解的持续时间。5.3针对问题二的模型建立与求解5.3.1模型的建立:预测以后的病人在使用6-MP后的缓解持续时间的有关参数,我们考虑到以下三点:(1) 未来病人使用6MP后的期望缓解持续时间;(2) 未来病人使用6MP后的缓解持续时间超过半年(26周)的概率;(3) 未来病人使用6MP后有80%的可能性缓解持续时间不短于某个下限。首先,我们进行以下的分析:对于完全数据x1,x2,xn,似然函数(26)而删失数据zi表示的是,死亡发生在zi之后,所以它提供的信息不是密度函数值,而是概率值。因此,当存在删失数据时,记死亡数据为y1,y2,,yD,删失数据为z1,z2,,zC,(都允许重复),则似然函数为:(27)对于指数分布,可以算出对数似然函数为:(28)的极大似然估计为: (29) 接下来用X表示未来病人使用6MP后的缓解持续时间。对上述考虑到的三点分别对应三个统计推断问题:(1) 估计EX;(2) 估计;(3) 估计分位数,满足上述三个统计量的值求解式子如下:(30)(31)(32) 理想的结果应该是为真实的参数提供一个可能的范围,以相当大的概率保证真实的参数在这个范围内,即在一定的置信度下给出置信区间或置信下限(上限)。所以与上面对应的就应该考虑三点:(1) 估计EX的95%的置信区间;(2) 估计的95%置信下限;(3) 估计分位数x0.2的95%置信下限。首先估计的95%置信区间,最大似然估计的一个重要性质是:记,则近似服从正态分布。对于指数分布,利用上述性质得到:(33)因此,EX的95%置信区间为:(34)注意到和x0.2都是的单增函数,且的95%置信下限为:所以,的95%置信下限为:;的95%置信下限为:5.3.2模型的求解: 处理组死亡数据为:6,6,6,7,10,13,16,22,23;删失数据为:6+,9+,10+,11+,17+,19+,20+,25+,32+,32+,34+,35+。 利用式(29)可以得到: 以后的病人在使用6-MP后的缓解持续时间的有关参数为:未来病人使用6MP后的期望缓解持续时间:未来病人使用6MP后的缓解持续时间超过半年(26周)的概率:;未来病人使用6MP后有80%的可能性缓解持续时间不短于某个下限,这个下限为:下面是对6-MP的效果给出有足够置信度的量化评估:未来病人使用6MP后的期望缓解持续时间EX的95%置信区间为:的95%置信下限为:未来病人使用6MP后的缓解持续时间超过半年(26周)的概率的95%置信下限为:;未来病人使用6MP后有80%的可能性缓解持续时间不短于某个下限,这个下限的95%置信下限为: 六、模型评价与推广基于秩和检验的两配对样本均值差异性检验模型的优缺点: 优点:不受总体分布的限定、适用范围广。对数据的要求不像参数检验那样严格,不论研究的是何种类型的变量,包括那些难以准确测量、只能以严重程度、优劣等级、次序先后等表示的资料;或有的数据一端或两端是不确定数值等,均可用秩和参数检验。特别对于不符合正态分布的两配对样本,效果很好。缺点:符合作参数检验的资料(如两样本均数比较的检验),如用非参数的秩和检验,因没有充分利用资料提供的信息,检验效率低于参数检验。一般犯第二类错误的概率()比参数检验大,若要使()相同、非参数秩和检验要比参数检验需要更大的样本含量。故适合参数检验条件的资料,应首选参数检验。本模型的分析中,直接将删失数据的截尾去掉,对结果会有一定的影响。 因此对适合参数统计资料或经变量变换后适合参数统计的资料,应最好用参数统计。当资料不具备参数统计条件时,用非参数统计分析方法。基于乘积极限估计法的生存分析模型的优缺点:优点:能同时分析有结局的完全数据和没有结局的删失数据,能充分利用信息。七、参考文献1盛骤,谢式千,潘承毅,概率论与数理统计,北京:高等教育出版社,20082郜艳晖,生存分析,http:/wenku.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论