化验结果的处理_第1页
化验结果的处理_第2页
化验结果的处理_第3页
化验结果的处理_第4页
化验结果的处理_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

化验结果的处理(本论文是井冈山大学2009年数学建模暑假集训训练题目)摘要医生根据化验结果给出正确的诊断是对病人健康的重要保证.本文通过对题目中提供的1-60号确诊病例化验结果信息的分析和处理,运用数学建模的知识,给出了几种判断61-90号就诊人员是否患病的方法,并确定化验的关键指标.针对问题1和2,通过表B.1中的信息处理和分析,我们提出了三种判别方法.分别如下:(1) 判别分析法此方法中依据3个判别法则,即Mahalanobis距离判别,贝叶斯判别和费歇尔判别.模型一中讨论了在这3种原则下对表B.1中数据进行分析,分别得出三种不同的判别方法.根据表B.1数据的验证及相关统计方法检验,证明这三种判别准确率达到所需水平.根据此模型可以诊断出B.2中就诊人员的化验结果有 15个患者,有15个健康者.(2) 神经网络判别法模型二引进神经网络中的BP算法.将7个反指标作为输入层,患病和健康作为两个输出层,利用matlab对神经网络中的BP算法进行实现.首先我们用表B.1中数据进行回判检验得出:1-30号中误判率为零,31-60号中误判病例有四个,因此我们可们认为这种判别方法是有效的.然后我们根据在本模型的建立的方法对表B.2中的30个化验结果进行判定,得出:有16个肾炎患者,有14个健康者.(3)伪变量回归判别法在本模型中我们用题中所给的7个指标作为自变量x1x,定义1和-1为因变量.利用表B.1所给的两类样品,通过回归分析,求得该函数的线性近似为:我们通过样品检验可知准确率大于80%,则可确定此方法是可行的.并利用此种方法对表B.2中有有15 个肾炎患者,有15个健康者.针对问题3和4,通过对数据特征分析,提出了主成分分析模型:主成分分析模型我们先将表B.1数据进行标准化后得出一相关矩阵,计算其特征根贡献率,再根据累积贡献率挑选出关键因素.最后求得的关键因素有:Fe Ca Mg K Na. 最后我们对结果作了进一步分析.关键字:判别分析、距离判别、神经网络、伪变量回归、主成分分析1.问题重述人们到医院就诊时,通常要化验一些指标来协助医生的诊断.诊断就诊人员是否患肾炎时通常要化验人体内各种元素含量.表B.1是确诊病例的化验结果,其中130号病例是已经确诊为肾炎病人的化验结果;3160号病例是已经确定为健康人的结果.表B.2是就诊人员的化验结果.我们的问题是: 1. 根据表B.1中的数据,提出一种或多种简便的判别方法,判别属于患者或健康人的方法,并检验你提出方法的正确性. 2. 按照1提出的方法,判断表B.2中的30名就诊人员的化验结果进行判别,判定他(她)们是肾炎病人还是健康人. 3. 能否根据表B.1的数据特征,确定哪些指标是影响人们患肾炎的关键或主要因素,以便减少化验的指标. 4. 根据3的结果,重复2的工作. 5. 对2和4的结果作进一步的分析. 2.问题分析 这是一个判别问题,需要我们根据附表B.1中确诊病例的化验结果给出几种简便有效的判别方法,而且还要找出这几个指标中的影响确症的关键因素,从而减少化验指标.首先我们运用判别分析法,提出了三种不同的判别原则:距离判别法,贝叶斯判别法,费歇尔判别法.这三种方法给出的判断结果既简单有效而且准确率高,我们还提出了神经网络算法以及伪变量回归分析法,运用这些方法对B.2表中的化验结果进行了判别.最后综合这些方法判别的化验结果,使最终结果的准确达到最高.在B.1的数据特征的分析过程中,我们可以找出一些主要的指标.这些指标在人体内的含量变化是影响人们患肾炎的关键因素,在解决如何对数据分析中,我们给出的一个逐个判别法,找出几个主要的因素.为了进一步验正此算法的正确性,我们又建立了一个主成分分析法模型.主成分分析中我们考虑了各种变量之间的相关性,这可使判断结果更有说服性,并分析确定影响的主要指标,最后我们再对结果进一步进行分析,得出相关结论.3.问题假设1不考虑除题中所给的以外的能够判断患有肾炎的指标.2只能通过化验表中的指标含量来确诊是否患有肾炎.3不对肾炎患者进行归类为何种肾炎.4人体中各元素含量变化不会影响其他元素的含量变化.5题中所给数据均为合理的统计结果,数据的误差性不是很大.6每个人员体内化验的各种元素的含量具有相同的单位.4.符号说明:当i=1,27时 分别表示Zn,Cu,Fe,Ca,Mg,K,Na这7种元素; :当j=1,290时,分别表示1-90号病例;:第i个元素在第j号人员体内的含量 (i=1,27;j=1,290);:第i个神经员到第j个神经员之间的权值;G:第i个样本总体;:第i个样本第j个指标均值i=1,2 j=1 27;: 第i样本的总体估计均值;S:第样本的离差值;:第样本的协方差值;:阈值;:损失概率; 5.模型的建立与求解一 判别分析模型 判别分析简介: 判别问题的一般提法如下:设有m个总体,假定某个体 的样品,其指标为X是可测量的,X可以是一维的,也可以是多维的,当总体为时,X有一定的概率分布,它们或为书籍,或为部分未知,以往曾经鉴别过一些样品,知道它们各自所属的类别,就组成了所谓“训练样本”,现在有了新的样品x,要判断它所属的类别,当分布未知或部分未知时,训练样本可以提供这些分布的有关信息.简单地说,所谓判别分析问题,就是在已有给定的若干总体(即若干类别)的观测资料的基础上,构造出一个或多个判别函数,能由此函数对未知其所属总体的新的样品作出判断,决定其应属哪能个总体. 由以上简介可知,本题很显然是可以运用此方法解题.这是我们给的三种不同的判别方法.模型 Mahalanobis距离判别法假设有相同的协方差矩阵的情况.(1) 计算样本均值向量(i=1 27).然后令: ,此分别为总体估计均值向量.(2) 计算各总体样本离差矩阵类似的(3) 计算协方差矩阵的无偏估计量.由上面的假设可知:(4) 建立判别函数 (5) 我们以的正确得到归类结论,通过给出的样本化验结果.我们判定为负数时该人为患者,反之为健康者.通过matlab 编程对样本进行回判检验,我们发现患者当中有二个为负,而健康者当中有一个为正.可见,该作法的误码差非常小,所以我们有理由认为这种作法是可行的.模型 Bayes判别方法 上面的距离判别法简单实用且结果明确,但该判别法与各自总体出现的概率的大小完全无关,与错判之后造成的损失也无关,这显然不够合理.Bayes判别法则考虑了这两种因素提出的一种判别方法.(1) Bayes方法简介设m个总体,它们出现的概率密度分别为且互不相同,假设m个总体各自出现我概率为,这些概率称为先验概率,它们可由经验给出,甚至可以人为假定,显然,又假设将本来属于总体时,造成的损失为,显然. 由于把样品x=看成是p维空间中的点,因此一个判别规则上是对p维空间合理划分为,再据此判定给定的样品x应属于哪一类.因此可以记一个判别规则为,当时,判定x属于第i类,i=1,2,m.下面为叙述上方便起见,假定m=2,即假定,且总体只有. 对于一个给定的判别规则R,在执行中总会两类可能的错误发生.第一类错误把本属于1的个体判归2类,其错判概率为: 第二类错误是把本属于2类的个休判归1类,其错判断概率为: 错判概率大小衡量一个判别好坏的重要的标志.(2) 模型的建立我们定义为 (1) 下面我们能否找出密度函数,在这儿我们假设和均为7维正态分布的情形,可以有两种不同的情况: 两个正态总体(等协方差阵)的情形设均为p维正态总体,其分布分别为和,这里为已知的p维实向量,为已知的p阶正定矩阵,用表示v的行列式.这时有:.由于式(1)等价于若k=,则此时的判别规则为其中经计算 现在我们令时代入样品进行回判,具体见表 两个正态总体(协方差矩阵不同)的情形同上步骤我们也可得到: 对两边取对数,得取,记 则Bayes规则为 .模型 Fisher判别法 Fisher简介设有m个总体,相应的均值向量和协方差矩阵分别为且为正定矩阵(i=1,2m),从总体中抽取容量为的样本,.则为在u轴上的投影.记. Fisher判别步骤a 列出样本观测阵b 求出各个总体的样本均值向量及总体平均向量.c 计算.d 计算.e 计算.f 求的最大特征值及对应的特征向量u,当m=2时,可算出=(164.9 17.1 42.5 1604.6 204.3 145.8 447)g 写出判别函数=164.9h 阈值的确定判别规则为:若y(x)c,则为健康者,否则,x为患者.二 神经网络模型根据模型一提供的判别分析法能够比较准确地对化验结果进行判别,但此法计算过程比较复杂.下面我们引进另一种有效的判别方法神经网络算法.(一)BP算法的引进 误差反向传播法,简称BP法,是美国加州大学的一个研究小组在1985年提出的.在神经网络模型中,此算法不仅能够由已知输入层导出未知输出层,为判别分类提供方案,而且通过反向逐层传播输出层的误差来减少每次输入所导致的误差,使我们的结果更为准确.(二)建立神经网络模型 在本题中,我们令表中人体内检验的7种元素含量作为输入层,分别记为.中间隐含层定为3个,记为.根据题目可知我们所要得到患者和健康人两种结果,所经我们将输出定为两个,记为表示患者,表示人.返回的目标值分别定为向量为=(1 0)和=(0 1).由以上假定,我们可以构造一个神经网络示意图,如下图(1):(三)模型求解过程 用BP算法解决化验结果处理的问题时,关键在于输入的7种元素含量值,经过隐含层的处理得到输出层,我们只要根据输出层就能判断最终的诊断结果,即患病或健康.基于这点分析,首先选定sigmoid函数为输出函数即.然后再将神经网络分成两阶段:输入层到隐含层,隐含层到输出层.再次,一个样本的每个阶段具体反向传播算法步骤如下:(1) 用趋近于0的随机函数初始化各层次之间的权系数 i=1,27 j=1 ,2,3(2) 分别输入样本,从前往后计算得(3) 令为理想输出值.则计算输出层梯度为(4) 从后向前隐函数为(5) 计算并保存各权值修正量.其中与为小于1的数n=1 2 3.(6) 修正权值 n=1 2 3. 按照以上步骤,输入1-60个样本反复进行,直到网络收敛值输出误差小于允许值.(四) 神经网络matlab实现了解以上神经网络BP算法原理,我们很容易得出用计算机处理的算法.利用题中表B-1中1-60个样本的数据,我们通过此算法代入计算机可得出结果: 我们可以判定1-30号输出结果基本上为(1,0),这就是患病者.31-60输出结果基本为(0,1),则为健康者.得到的结果如表(1)中的第4行.利用同样的方法对表B-2中61-90号样本进行处理,得出结果为表(2)中的第4行.详细程序见附录:(五) 结果的分析与检验1 分析结果 由表1中输出结果可以看出,已诊断为健康者中有0000个误判,已诊断为患者有0000个误判.他们的化验输出结果为这可说明题中所给数据存在不合理数据,或上述判别方法在处理数据存在偏差.但是,大部分的输出结果都是与我们的理想目标输出值相近而且其误判率,所以此种算法是可行的.2 模型检验 由于我们已根据题中表B.1中患病者与健康者体内7种元素含量多少建立了神经网络模型,得出判别结果与已知结果相吻合.那么,我们这时利用的检验方法 为样本回判验证法.即将题中表B.2中数据依照此模型中提供的算法处理分析.看输出的结果与理想目标值之间的相似程度大小.由第四步的表2输出值能够判断61-90号病人是否患有肾炎的事实.三 伪变量回归模型1.模型的建立模型一与二已经介绍了两种具体有效的判别方法,下面我们将引进另一种方法:伪变量回归.由表B-1中已知确证人员的患病结果,我们假设伪变量回归算法计算的两个返回值为1与-1,分别表示诊断结果为患病和健康.要利用表B-1中确诊人员的化验结果来判断表B-2中就诊人员的患病情况,通过回归分析,我们假设输出结果与各指标之间的关系,即函数与各变量之间的线性近似.可假设为 (1)令 (2)极小,定出,当这八个系数得到后,为判定61-90好就诊人员的诊断结果,只需将各个自变量带入(1)式,若函数值接近1则认为属于患者,接近-1则认为属于健康者.2.模型的改进以上建立的模型可以更加的简洁.令(2)式对的导数等于零,首先将解出,有 (3)再利用(3)将(1)式化为 = (4)因此可以利用回归分析,求解出仅含 7个未知数的上(4)式.对应各个就诊人员的函数值为1,取值为;函数值为-1,取值为.3.模型的评价我们是在自行定义返回值为1与-1的基础上,来建立这个伪变量回归模型,由表(1)得出的结果,可以看出这种判别方法的准确率已达到了定义水平,可见此方法的灵活适用性与可行性.123456789101112131415A111111111111111B111111111111011C111111111111111D111111111111111E111111111111011161718192021222324252627282930A111111111111111B111111111111111C111111111111111D111111111111111E010111101011111313233343536373839404142434445A010000011000000B000000000000000C011100010010100D000000000000000E000000010000000464748495051525354555657585960A000000000000001B000000000000000C000000000000001D000000000000000E000000000000000对表B.1确诊病例回判的结果表(1)注:表示A,B,C,D,E表示判别的方法的种类依次为:距离法,贝叶斯法,费歇尔法,神经网络法,伪变量回归法.1 260表示病例子号.0表示健康,1表示患者. 616263646566676869707172737475A110111011011101B110110001011100C111111111011101D111111011111100E110111011011101767778798081828384858687888990A100100010100000B100100010100000C111100010101000D100000011001000E100100010100000对表B.2就诊人员的化验结果判断表(2)注:表中A,B,C,D,E 表示判别的方法的种类依次为:距离法,贝叶斯法,费歇尔法,神经网络法,伪变量回归法.61,6290表示病例子号.0表示健康,1表示患者. 四 主成分分析模型一 问题3的理解与分析事实已经证明,医生通常可以通过化验题中给出的7种元素的含量作为指标来判断就诊人员是否患 肾炎.各种元素在人体内含量的不同对确诊患有肾炎这一诊断有着不同程度的影响,当某一指标的改变对诊断结果的影响效果不显著时,我们通常可以将其剔除 ,即排除化验元素之外.从相反角度考虑,可以认为在这7种指标中,当确定 了某些指标是影响人们患 有肾炎的关键或主要因素时,就可以减小化验的指标,只需要化验关键因素即可.针对于问题3,我们利用 主成份分析法对表B.1的数据牲进行分析讨论.最终提取关键因素的目的.二 模型的建立(1) 对原始数据进行标准化处理. 为了消除各指标之间在量纲上的不同,首先将每个进行标准化处理. 的标准化值为,其中.其中将每个指标看成是一个变量.则与分别表示第j个变量的平均值和标准差.另外,变量的标准化值为一个分布在标准正态分布上的变量,其平均值为0,方差为1.(2)求出标准化数据的相关矩阵R由于标准化后的数据其均值为0,方差为1.则其协方差矩阵与相关矩阵完全一样,即.(3)求R的特征根与特征向量令,则特征根为0.025 0.0077 0.0353 0.569 0.3656 0.7285 1.5543令,则特征根贡献率为别为 (i=1 27),累积贡献率为 m=2(4)确定关键因素的个数 根据概率估计法,当所取主成分个数m使得累积贡献率达到80%以上即菌,则说明将对应的前m个元素含量化验出来时,医生即可诊断是否患病的准确率达80%,那么这m个指标即为影响人们患肾炎的关键因素,我样在化验时只需对这些进行记录判别,则可达到关少化验的指标的目的.最终我们得出关键因素为:Fe Ca Mg K Na(1) 写出这m个关键因素,为相应于的特征向量.(2) 计算关键因素的因子负荷 因子负荷是关键因素与原变量的相关系数.由于可以更清楚地反映关键因素与各原变量之间的亲疏关系.我样就用它来解关键因素.(8)计算每个确诊病例1-60的关键因素得分为.(9)构造综合评价函数:三 模型的分析和检验由上述求出的构造综合评价函数,我们能够确定每个关键因素的综合得分大小排队.即可自然排出每个就诊病例患病程度的高代,.综合函数评价值越大,患病越重,这样,我们就可以根据同一个人在每个元素不同情况下患病的严重程度.参照模型一,二,三对表B.2中就诊人员进行分析的诊断结果,在这时,我们将上述提出的关键指标利用模型一,二,三所提供的判别方法进行诊断结果如下表(3)由表(3)可知,最后诊断结果与模型一,二,二中诊断结果相同率达到85%,则可判定用主成分分析法来确定关键因素的方法是完全可行.616263646566676869707172737475A110111011011100B110111011011100C111111111011100D110111011011100E110111011011100767778798081828384858687888990A100000000101000B100000010100000C111100010101000D101100010001000E101100010100000关键元素对表B.2就诊人员的化验结果判断表(3)注:表中A,B,C,D,E 表示判别的方法的种类依次为:距离法,贝叶斯法,费歇尔法,神经网络法,伪变量回归法.61,6290表示病例子号.0表示健康,1表示患者. 6.结果的分析由模型的已知条件可知,各个确诊人员的诊断结果,我们设定两个分数值来代表两个结果:患病和健康.在此基础上建立了5个简便合理的判别方法,经过计算机对数据精确地处理,得出了比较优化的判别结果.对问题2结果的分析:根据表(1)可以看出:16,18,23,25号确诊人员在利用伪变量回归判别时与其他方法得出的结果明显不同.相类似可以找出:32,39,60号在距离判别发上,32,33,34,41,43,60号在Fisher判别法上都与其他结果有明显出入.一种方面,这种偏差可能是由于题中给出的统计值的误差或统计量不足所引起的,另一种方面,也可能是我们在运用各种不同的判别方法时导致的误差.我们从这两个方面进行考虑,可对结果进行分析,综合判断每个就诊人员的患病情况.为了更直观地确定最终的诊断结果,我们定义了一个准确率水平为80%,从所得的数据可以看出,每种判别结果均达到所需水平,这一点很充分地体现了模型建立的合理性.对问题4结果的分析:确定关键因素以后,我们只考虑关键因素Fe,Ca,Mg,K,Na时,重新对表B.2中就诊人员进行判别,得出结果见表(2).很容易看出,61-90号就诊人员基本上与表(1)诊断结果类似,准确率也达到了80%.综上分析,我们所提出的各种判别模型很合理,与实际相符合,并能够很好地协助医生对肾炎作出正确的诊断.7.模型的评价1 模型的优点(1) 准确利用了题中提供的数据,并对数据进行了较透彻地分析.(2) 模型一、二、三先后提出了五种简便的判别方法,并对每种方法得出的结果进行分析,检验其可行性与适用性.(3) 模型五中运用的确定关键因素的主成份分析法还可以得出每一个关键因素的得分大小,可进一步判断患病者中患病程度的大小,以至病人更了解自己的病情.2 模型的缺点(1) 在模型一中,运用判别分析法判别得出的结果,与确症病例之间仍有差异,值得修改.(2) 模型四中提出的简便算法中,忽略各指标的相关性,对指标独立进行分析,与实际情况有些不符.(3) 文中只对题目所给的那些人员进行了分析与推断,统计量不是很大,故而我们以此得出的结论与实际情况存在一定的偏差.(4) 应用伪变量回归判别法时,因变量是我们主观所定义,所以所得结果可变性太大.参考文献1 雷功炎,数学模型讲义,北京:北京大学出版社,2005 2 郑煜,温广玉.数学模型,哈尔滨:东北林业大学出版社,20063 吴今培,孙德山.现代数据分析,北京:机械工业出版社,20064 吴锐涛,徐正达.数学建模,湖北:华

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论