肾炎诊断问题.doc_第1页
肾炎诊断问题.doc_第2页
肾炎诊断问题.doc_第3页
肾炎诊断问题.doc_第4页
肾炎诊断问题.doc_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

肾炎的诊断摘要 本文是一个这是一个判别类型的问题,在医学上是一个诊断问题,即从样本个体的若干个量化特征来判断肾炎与否。我们针对这些信息根据logistic回归分析的相关功能,建立logistic回归分析判别模型。对于样本属性为肾炎与否,这是一个二值响应的问题,我们采用二类样本判别分析方法,即响应变量只有两个值,肾炎时就是1,健康的时候就是0。用logistic模型回归分析处理二类样本判别时,选取阈值0.5,使预报值在阈值0.5上下波动,当预报值大于0.5时则说明样本属性为健康,当预报值小于0.5时则说明样本属性为肾炎。同时利用连接函数logit将二值响应和影响到样本属性的多因素有机的结合起来,使模型函数化,运用最大似然估计得到函数中的参数,得到一个模型表达式,然后利用这个模型进行判别。在消除logistic回归模型分析中各变量存在的多重共线性上面,我们采用主成分分析法,同样在最后利用得到的新模型进行判别。 问题一中通过建立的模型对样本进行检验得出总预测准确率为90%,对问题二中待判别的样本个体进行模型检测时有17个肾炎患者,13个正常人;问题三中对样本进行检验得出总预测准确率为90.91%,对问题四中待判别的样本个体进行模型检测时有17个肾炎患者,13个正常人;综合问题二和问题四,就判别准确率而言,医生应该在检测的时候根据模型中对侧重元素所反映的信息量对样本属性起主要作用的元素进行检测,这样便可以减少检测指标。 关键字 判别 logistic回归分析 二值响应 二类样本判别分析 阈值 连接函数 主成分分析问题重述人们到医院就诊时,通常要化验一些指标来协助医生的诊断。诊断就诊人员是否患肾炎时通常要化验人体内各种元素含量。表B.1是确诊病例的化验结果,其中130号病例是已经确诊为肾炎病人的化验结果;3160号病例是已经确诊为健康人的结果。表B.2是就诊人员的化验结果。我们的问题是:1. 根据表B.1中的数据,提出一种或多种简便的判别方法,判别属于患者或健康人的方法,并检验你提出方法的正确性。2. 按照1提出的方法,判断表B.2中的30名就诊人员的化验结果进行判别,判定他(她)们是肾炎病人还是健康人。3. 能否根据表B.1的数据特征,确定哪些指标是影响人们患肾炎的关键或主要因素,以便减少化验的指标。4. 根据3的结果,重复2的工作。5. 对2和4的结果作进一步的分析。问题的假设(1)不考虑化验人体的身高、体重、性别和年龄以及其它方面对记录数据的影响;(2)医生在化验前对被化验的人所做的处理方式都是一样的,比如被检查的人在化验前都不能是空腹;(3)忽略人体内其它元素对问题中七种元素含量的影响;(4)七种元素之间存在着一定的相互关系;符号说明i:被化验的个体;j:被化验的特征,即元素的种类;: 代表不同化验特征组合值:第i个个体的第j个特征值,统计学上叫做协变量;:第i个个体肾炎属性,可取0和1,0代表没有患肾炎,1代表患有肾炎;m:样本中用于分析求解的个体数目;p :特征量为x时属性为肾炎的概率;:模型中各变量的系数 (j=0,1,2,3,4,5,6,7);:主成分分析之中的主因子 (i(1,2,3,4,5,6,7))问题分析(1) 分析题意可知这是一个判别类型的问题,在医学上是一个诊断问题,即从样本个体的若干个量化特征来判断肾炎与否。在统计学上,这是一个所谓的二值响应问题,也称为二类样本判别分析方法,即响应变量只有两个值,肾炎时就是1,健康的时候就是0;(2) 问题中已经分别给定30个肾炎病人和30个健康人的训练样区的7个特征Zn,Cu,Fe,Ca,Mg,K,Na的含量数据,根据这些数据确定一个评判模型,然后利用这个模型来协助医生诊断待确定肾炎属性样本个体,最重要的是要保证模型诊断精确度,确保在实际运用中的可信度和可行性,从而有效的预测和判定样本个体的类别属性;(3) 由于在化验的过程中,根据问题本身及有关经验,人们罗列出来可能与因变量有关的特征量往往太多(问题中研究的数据中有7个),其中有些变量对因变量可能影响很小或者根本没有影响,如果在最后的指标中把这些变量都包含起来,不但计算量大,而且估计和预报的精度也会降低,也会使这个指标在应用时的费用不必要的增高,因此我们在模型中对进入模型中的特征量做精心的选择是十分必要的;(4) Logistic模型是一种非线性的回归分析模型,它通常是用于预测和判定未知单元的类别属性。Logistic模型这些功能恰好切合以上问题,先根据训练样区,计算出样本个体的肾炎属性与各因子之间的关系式,进而得到肾炎概率分布表达式,选取一定的阈值(0.5),最终在需要化验的样本区域里面确定每个样本的肾炎属性;(5) 在建立Logistic模型后,还要消除logistic回归模型分析中各变量存在的多重共线性,即对所选取的特征量进行分类选择,选择出能够反映影响人们患肾炎的关键或主要因素;模型的建立问题一Logistic回归模型的基本原理(1)模型的连接对于问题分析(1)中提到的二值响应数据,统计学上常用广义线性模型来处理,即引进一个适当的严格增函数G,称为连接函数。记P(y=1X)=P为给定特征量为x时肾炎的概率,而当为特征量为x正常的概率时是P(y=0X)=1-P则把 G(x)= 称作连接函数为G的广义线性模型。常用的链接函数有logit,probit和log-log。我们采用logit函数作为连接函数,Logit函数定义为,它有明确的统计意义,就是Y取值为1和0的概率比的对数。 采用logit函数作为联系函数的广义线性模型,称为logistic回归模型。令 G(x)=logit P= P属性为肾炎的概率,1-P属性为正常的概率经变换 P=令= (i=1,2,3,4,)其中为参数向量,通常用最大似然估计来估计。由最大似然准则,的最大似然估计是使得似然函数 (;) 取得最大值者,其中(,)为第i个个体。(2)最大似然估计求参数向量P(y=1X;)=P P(y=0X;)=1-P如上两式合并为紧凑形式:P(yx;)=其中(;) =为了计算方便,取对数似然:lnL() = 合理回归就是选择,使得l()取得最大值。对L()进行关于求偏导,=0,=0(i=1,2,7)从而求出系数矩阵,最后求出模型的表达式。 在已知就诊者Zn,Cu,Fe,Ca,Mg,K,Na含量的基础上,只要根据logistic回归模型计算出其肾炎属性概率,再与概率值0.5进行比较,即可以判断就诊者是否患有肾炎。若P0.5,则表明就诊者患有肾炎,否则就表明就诊者健康。问题三消除logistic回归模型分析中各变量存在的多重共线性数据的初始处理和主成分分析设选取的原始数据为其中: 先消除量纲的影响,先对样本数据进行标准化: 其中: .标准化后的数据记为 (i=1,2,7)。为了消除logistic回归模型分析中各变量存在的多重共线性,并对选取的指标进行分类,对7个指标进行采取主成分分析法进行因子分析,即寻找因子保持原始的信息,并且互不相关。(二)主因子确定的思路在已经确诊样本属性的60个个体样本中选取49个样本,即在患肾炎的30个样本中选取25个,2630号;在健康的30个样本中选取24个,3154号。将这49个样本数据组成一个77方阵,先求出相关系数矩阵 , (i,j=1,2,.7)计算相关系数矩阵的特征值,和特征向量,所求特征值依大小顺序排列,对应的特征向量为,主成分为.主成分的贡献率为这样可只考虑少数几个主成分而不损失较多信息,抓住主要矛盾,揭示规律性。并对其通过方差最大化法进行正交因子旋转。旋转过程对主成分提取的结果只改变信息量在不同主成分之间的分布,从而可以找到合理的经济解释。根据主成分的累计贡献率,利用spss软件可以确定累计贡献率大的主因子,并求出(i(1,2,3,4,5,6,7)。(三)logistic回归分析建立logistic回归模型表述如下: 其中: (i(1,2,3,4,5,6,7),m (1,2,3,4,5,6,7)其中为影响变量, (j=0,1,27)为需要判定的系数。P的函数对象呈s型分布,且为递增函数,p(0,1),因为 。对于各个样本个体i,(i=1,2,n)若p0,表明样本个体属性为正常的概率大,若p1,样本个体属性为正常的概率大,称p为样本个体属性为肾炎的概率。令 其中 我们采取极大似然函数法求参数,n个个体是独立的,则样本的联合密度似然函数为:两边取对数: 其中 (i(1,2,3,4,5,6,7),m (1,2,3,4,5,6,7)其中为影响变量,即上述的个主成分。使上述函数达到最大,求出系数 (j=0,1,2m),求偏导数且等于0: (j=1,2,m)利用的回归方法为向前逐步选择引入法,即通过最大似然估计所得的似然比的概率作为引入变量的标准,采取迭代法逐步计算,直到对数似然比不再变化为止。联立上述方程利用spss软件求出最后的主因子并求出相应的各个估计的参数值。模型的求解问题一采用医院化验的30名健康人和30名肾炎患者,将选区的样本40人(健康人120号,肾炎患者3150号)如附录表1,另外10名肾炎患者和10名健康人我们可以当做是需要化验的样本个体。将样本40人7种元素直接输入spss软件,应用最大似然估计法求出系数如下表1。表1 各元素回归系数特征变量系数系数值-44.659-0.522-0.4641.4340.10.005-0.073-0.043代入logistic回归方程得 (i=1,2,3,4,)(=)= 将剩余的20个样本个体的各特征数据如附录表2代入logistic回归方程,并同时与概率值0.5进行比较,结果如表4所示.表2 20例已经确诊病例的logistic回归分析结果样本号2122232425概率 P1.0810-687.7110-684.7510-741.3610-654.8110-69是否患有肾炎样本号2627282930概率 P7.4910-405.2910-596.3610-651.2110-631.0910-50是否患有肾炎样本号5152535455概率 P10.99991.6810-2011是否患有肾炎样本号5657585960概率 P0.999910.044811是否患有肾炎注:“”表示样本属性患有肾炎,“”样本属性为健康。Logistic回归分析判定模型的正确率 利用MATLAB进行回代,计算得出表中结果。由表4可知对于已经确诊的10例属性为肾炎的样本个体,可得预测正确率为100对于已经确诊的10例属性为健康的样本个体,可得预测正确率为80总的预测正确率为90以上分析表明Logistic回归分析判定模型是可行的。问题二logistic回归分析模型为 (i=1,2,3,4,)(=) =对于给定的30个需要判别样本属性的个体,i=1,2,3,30,数据如附录表4所示将30个样本个体的各特征数据如表5代入logistic回归方程,并同时与概率值0.5进行比较,结果如表3所示.表3样本号6162636465概率 P7.717310-173.433510-97.550810-53.611810-376.611510-26是否患有肾炎 样本号6667686970概率 P9.610010-94.675210-328.362810-303.862710-381是否患有肾炎 样本号7172737475概率 P1.190010-641.2101310-402.311610-4011是否患有肾炎样本号7677787980概率 P3.590210-20110.40561是否患有肾炎 样本号8182838485概率 P111.435510-1313.327210-11是否患有肾炎 样本号8687888990概率 P19.877810-7111是否患有肾炎 注:“”表示样本属性患有肾炎,“”样本属性为健康。Logistic回归分析判定由表3可知对于已经需要判别样本属性的30个个体中有 17个属性为肾炎的个体,有 13个属性为健康的个体,具体如表3所示问题三(1)主因子分析采用SPSS16.0统计软件中AnalyzeData ReductionFactor进行因子分析, 前5个主成分的特征值的累计贡献率已经达到了95.895%,如表4选取F1,F2,F3,F4,F5作为最终指标进行分析,可以分别有原来7个协变量表示为: 由上表达式可以看出,F1主要表达了X2、X3、X4、X5等三个变量的信息量,反映的是Cu、Fe、Ca、Mg在预测样本属性时所起作用;属性时F2主要表达了X6、X7等两个变量的信息量,反映的是K、Ca在预测样本属性所起的作用; F3主要表达了X1一个变量的信息量,反映Zn在预测样本属性所起的作用; F4主要表达了X3一个变量的信息量,反映Fe在预测样本属性所起的作用;F5主要表达了X6一个变量的信息量,反映K在预测样本属性所起的作用。(2)logistic回归分析采用SPSS16.0分析软件中 AnalyzeRegressionBinary Logistic进行回归模型分析。回归方法为向前逐步选择引入法,即通过最大似然估计所得的似然比的概率作为引入变量的标准,采取迭代法逐步计算,直到对数似然比不再变化为止。如表5由图表可知,经过逐步的迭代和剔除,最终确定主成分因子为F1和F4,以F1、F4为新变量的Logistic回归分析判定模型的表达式为 (=) =预测概率和患者的分布频数对样本个体判断的样本属性为健康时的准确率为96%,对样本个体判断的样本属性为肾炎时的准确率95.8%,对模型总的判断准确率为95.9% 将剩余的11个样本个体的各特征数据如附录表4代入logistic回归方程,并同时与概率值0.5进行比较,如表6表6样本号12345概率 P7.862510-203.154110-141.272110-202.206510-171.635510-8是否患有肾炎样本号5556575859概率 P11112.212510-5是否患有肾炎样本号60概率 P1是否患有肾炎注:“”表示样本属性患有肾炎,“”样本属性为健康。Logistic回归分析判定模型的正确率 利用MATLAB进行回代,计算得出表中结果。由表4可知对于已经确诊的10例属性为肾炎的样本个体,可得预测正确率为100对于已经确诊的10例属性为健康的样本个体,可得预测正确率为83.33总的预测正确率为90.91以上分析表明Logistic回归分析判定模型是可行的问题四将60个样本个体的各特征数据如表5代入logistic回归方程,并同时与概率值0.5进行比较,结果如表6所示.表6样本号6162636465概率 P1.788110-233.759610-143.235110-144.774310-364.972410-27是否患有肾炎样本号6667686970概率 P6.209410-290.17013.080210-81.449210-171是否患有肾炎样本号7172737475概率 P0.97696.499910-105.857810-2411是否患有肾炎样本号7677787980概率 P6.196510-50.4932111是否患有肾炎样本号8182838485概率 P110.974511.674110-5是否患有肾炎样本号8687888990概率 P10.1699111是否患有肾炎注:“”表示样本属性患有肾炎,“”样本属性为健康。Logistic回归分析判定由表3可知对于已经需要判别样本属性的30个个体中有 15个属性为肾炎的个体,有 15个属性为健康的个体,具体如表6所示。问题五问题二中的模型 模型的总的预测正确率为90对待诊断的样本个体进行判别:有 17个属性为肾炎的个体,有 13个属性为健康的个体。问题四中的模型 模型的总的预测正确率为90.91对待诊断的样本个体进行判别:有 15个属性为肾炎的个体,有 15个属性为健康的个体。对于问题二中我们考虑了全部7个变量,即Zn、Cu、Fe、Ca、Mg、K、Na对样本属性的影响,而在问题四中我们建立的新的变量F1,F4,则是对7个变量的综合反映,只是侧重点不同,F1主要表达了Cu、Fe、Ca、Mg、K等五个变量的信息量,F4主要表达了Fe一个变量的信息量,这可能就是导致最后两种模型的总的预测正确率不同的原因,同时我们还必须知道两种模型都受样本属性的变量个数和用于检验的样本个体数目限制,因为变量个数和检验的样本个数会也是会影响到模型的总的预测正确率。需要强调的是在问题四中,我们在模型中引进新的变量,由于侧重点不同,因此我们建议医生在检查以上7个变量时,可以根据新变量的侧重点的特征,首先对信息量大的几个元素进行检验,这样的话就可以达到减少化验指标的目的。模型评价模型的优点:(1) 利用二类样本判别分析法分析二值响应问题,即模型中的的取值(0和1),当=1时表示为属性为肾炎的样本,当=0时表示属性为健康的样本,用logistic模型回归分析处理二类样本判别时,选取阈值0.5,使预报值在阈值0.5上下波动,当预报值大于0.5时则说明样本属性为健康,当预报值小于0.5时则说明样本属性为肾炎,这样的话在协助医生诊断样本属性时提供了一个很明确的标准,为实际操作中提供了很多的便利;(2) 建立logistic回归分析模型,利用logistic模型本身的优越性,结合所给数据多因素的特点,利用logit连接函数把两者之间有机结合起来,构成一个能反映所给数据规律的模型表达式,然后利用建立的表达式来处理分析题意中所需要解决问题,这就为解决问题提供了一个很好的突破口,也为处理类似多因素问题提供了一种有效可行的思路;(3) 运用spss16.0分析统计软件迅速计算模型中的参数,同时在数据的检验时,利用MATLAB软件进行运算分析,迅速快捷的计算出结果,为进行进一步分析提供了很大的便利,并且在一定程度上保证了模型计算时的精确性。(4) logistic回归分析模型在处理错判的问题上有很大优势,利用阈值的思想,在很大程度上减小了错判的可能性,在最后判断的精确度上一直保持的较高,在实际运用中的在实际运用中的可信度和可行性都很高;(5) 在处理模型分析中各变量存在的多重共线性时,我们对数据做了一系列的处理,最终在最大程度上保持原信息的基础上采取主成分分析法,剔除对样本属性较小的因素,从而减少了检查量和其他方面的分析计算,从实际意义上奖更减少了在这些方面的费用;模型的缺点:(1) 选取的样本个体数目较少,不能有效的反映模型的准确度;(2) 在确定样本个体的样本属性时选取的变量也较少,可能会出现除选取的变量之外的其他变量影响样本属性的现象,这样的话给模型的预报带来了很大的阻碍,在诊断时准确度也会随之减低;参考文献(1)logistic回归模型分析 作者:施朝键,张明哲;(2)以spss软件包拟合条件logistic回归模型的探索作者:潘宝俊 张文彤 张锡斌 吴思英附录表1样本属性为肾炎的个体:病例号ZnCuFeCaMgKNa116615.824.5700112179513218515.731.570112518442731939.8025.9541163128642415914.239.789699.2239726522616.223.860615270.321861719.299.2930718745.5257720113.326.655110149.4141814714.530.065910215468091728.857.8655175.798.43181015611.532.56391071035521113215.917.757892.4131413721218211.311.3767111264672131869.2637.195823373.0347141628.2327.162510862.4465151506.6321.06271401796391615910.711.761219098.53901711716.17.0498895.51365721818110.14.0414371841015421914620.723.8123212815010922042.310.39.7062993.7439888样本属性为健康的个体:病例号ZnCuFeCaMgKNa3121319.136.2222024940.01683217013.929.8128522647.93303316213.219.8152116636.21333420313.090.8154416298.903943516713.114.1227821246.31343616412.918.6299319736.394.53716715.027.0205626064.62373815814.437.0102510144.672.53913322.831.016334011808994015613532267471090228810411698.00308106899.153.02894224717.38.65255424177.9373431668.1062.81233252134649442096.4386.9215728874.0219451826.4961.738704321433674623515.623.4180616668.81884717319.117.0249729565.82874815119.764.220314031828744919165.435.053613921376885022324.486.0360335397.7479表2确诊的样本属性为肾炎的个体:病例号ZnCuFeCaMgKNa2128.212.453.137044.14548522215413.853.36211051607232317912.217.9113915045.22182413.53.3616.813532.651.6182251755.8424.980712355.61262611315.847.362653.61686272750.511.66.360858.958.91392878.614.69.742170.813346429903.278.1762252.37708523017828.832.499211270.2169确诊的样本属性为健康的个体:病例号ZnCuFeCaMgKNa5122120.11553172368150739522172528.223433731104945316422.235.52212281153549541738.993616242161032575520218.617.737852253167.35618217.324.8307324650.7109572112417383642873.53515824621.593.2211235471.71955916416.138213515264.3240601792135156022647.9330表3就诊人员的化验结果病例号ZnCuFeCaMgKNa6158.25.4229.7323138179513621061.8740.5542177184427631520.8012.513321761286466485.51.703.9950362.3238762.6651440.7015.154779.771.0218.56685.71.094.279017045.8257.9671440.309.1141755249.5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论