化验结果的处理.doc_第1页
化验结果的处理.doc_第2页
化验结果的处理.doc_第3页
化验结果的处理.doc_第4页
化验结果的处理.doc_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

化验结果的处理摘要医学化验是协助医生诊断疾病的重要手段。在化验过程中,医院希望可以用简便的判别方法,通过尽量少的化验指标判别出就诊人员是否患病。本问提出了距离判别和费希尔判别等判别法,并借助主成分分析法和均值偏离大小减少了化验指标。针对问题一,我们提出欧氏距离、马氏距离和费希尔三种判别是否患病的方法,然后对已确诊的60个病例重新判断,并且与正确结果作对比得到正确率,最终我们选出正确率为88.33%的马氏距离判别法和正确率为93.33%的费希尔判别法。在问题二中,根据问题一提出的两种判别法,对30名就诊人员的化验结果作出判断,结果如下:马氏距离判别法得出结果是,患者:61,62,64,66,71,72,76,83,85健康人:63,65,67,68,69,70,73,74,75,77,78,79,80,81,82,84,86,87,88,89,90费希尔判别法得出结果是,患者:61,62,64,65,66,68,69,71,72,73,75,76,79,83,85健康人:63,67,70,74,77,78,80,81,82,84,86,87,88,89,90.对于问题三,我们从均值分析和方差分析两个角度,借助主成分分析法和偏离均值大小建立模型,利用统计软件SPSS求解,最终通过综合分析得到影响人们患肾炎的四项主要指标,即Cu,Ca,Mg,K四种元素。在问题四中,根据问题三中的结果,再用问题一中提出的两个有效判别方法重新对30名就诊人员是否患肾炎进行判别,结果如下:马氏距离判别法判别的结果是,患者:61,62,64,71,72,76,79,83健康人:65,66,67,68,69,70,73,74,75,77,78,80,81,82,84,85,86,87,88,89,90费希尔判别法判别的结果是,患者:61,62,64,65,69,71,72,73,75,76,79,83,85健康人:63,67,68,70,74,77,78,80,81,82,84,86,87,88,89,90 在问题五中,我们对问题二的结果进一步分析,得出两种判别方法判别结果的一致率达到80%,在此基础上,我们提出了一种更准确的判别方法。在对问题四的结果进一步分析后,我们发现仅用Cu,Ca,Mg,K四项指标,由马氏距离和费希尔判别法得到的结果与问题一中的结果一致率达到90%和96.7%,这充分说明了这四种指标确实是影响患病的主要指标。 最后我们还给出了模型的检验和优缺点。1. 问题的重述人们到医院就诊时,通常要化验一些指标来协助医生的诊断。诊断就诊人员是否患肾炎时通常要化验人体内各种元素含量。表B.1是确诊病例的化验结果,其中130号病例是已经确诊为肾炎病人的化验结果;3160号病例是已经确定为健康人的结果。表B.2是就诊人员的化验结果。我们的问题是:根据表B.1中的数据,提出一种或多种简便的判别方法,判别属于患者或健康人的方法,并检验你提出方法的正确性。 按照1提出的方法,判断表B.2中的30名就诊人员的化验结果进行判别,判定他(她)们是肾炎病人还是健康人。能否根据表B.1的数据特征,确定哪些指标是影响人们患肾炎的关键或主要因素,以便减少化验的指标。根据3的结果,重复2的工作。对2和4的结果作进一步的分析。2. 基本假设1题中给出的数据和判断结果真实无误。2除去表中的七项指标外,忽略其余指标对肾炎判别的影响。3病人的指标变化完全由肾炎引起的,健康人没有患影响这七项指标的其他疾病。3. 符号说明符号含义健康人和肾炎患者的总体,每一样本到总体均值的距离每个总体的均值向量每个总体的协方差阵判别指标的数量费希尔判别法的判别函数费希尔判别法判别函数的系数费希尔判别法两组间离差平方和样品个数主成分分析法中第个主成分每一主成分中各指标的系数肾炎患者第种指标的均值健康人第种指标的均值偏离均值的大小4. 问题的分析在肾炎的诊断中,医院通常要化验一些指标来协助医生的诊断。我们的目标是提出简便的判别方法在保证一定检验正确率的同时,还要尽量减少化验指标。问题一中,要求提出一种或多种简便的判别属于患者或健康人的方法,我们考虑这是多元统计分析中的判别分析问题,可以根据常用的距离判别和费希尔判别作为判别方法建立出模型,并用已知的确诊结果对模型进行检验,然后根据检验结果的正确性确定出有效的判别方法。问题二中,我们采用问题一中提出的有效判别方法对30名就诊人员的化验结果进行判别,判别他们是肾炎患者还是健康人。问题三中,可以从方差分析和均值分析两个角度考虑,分别根据主成分分析法和偏离均值大小确定确定出哪些指标是影响人们患肾炎的关键或主要因素,以便减少化验指标。问题四中,在问题三的基础上,根据已确定出的主要指标,运用问题一中的有效判别方法对30名就诊人员的化验结果进行判别。问题五中,对问题二和问题四的判别结果作分析,得出减少化验指标对化验结果的影响。5. 模型的建立与求解问题一: 此问中,要求提出判别属于患者或健康人的方法,问题的实质是对给出的样本判别其所属类别,而判别分析是用于判别样本所属类别的一种多元统计分析方法,此类问题都可以这样描述:设有个维的总体,其分布特征已知,对给定的一个新样本,我们需要判别其属于那个总体。所以,我们根据常见的判别分析方法建立了两种判别模型,即距离判别和费希尔判别,并分别进行求解,验证其正确性。模型一:距离判别距离判别的基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值。判别准则是对任给的一次观测,若它与第类的重心距离最近,就认为它来自第类,即:首先计算到,总体的距离,分别记为和,按距离最近准则判别归类,则可写成: 当 待判 当=记 . (1)如果距离定义采用欧氏距离,则可以计算出然后比较和大小,按距离最近准则判别归类。我们运用Excel中的函数功能,先计算出了两个总体的重心为:根据判别准则对已确诊的60例做出判别,不妨用1表示患病,用0表示健康,将判别结果与准确结果对比,检验此方法的正确性,其结果如下表:欧氏距离判别法的正确性检验病例号准确结果判别结果病历号准确结果判别结果111310021132013113301411340151135006113600711370081138019113900101140001111410112114200131143011411440015114500161146001711470018114800191149002011500021115100221152002311530024115400251155002611560027115700281158002911590030116001从表中可以发现,用欧氏距离判别法对已确诊的60例重新作出判别时,1-30号完全正确,31-60号中有7例判别错误,分别是32,33,34,38,41,43,60.(2) 如果距离定义采用马氏距离,设分别为的均值向量和协方差阵,即根据判别准则对已确诊的60例做出判别,将判别结果与准确结果对比,检验此方法的正确性,其结果如下表:马氏距离判别法的正确性检验病例号准确结果判别结果病历号准确结果判别结果111310021132003113300411340051135006103600711370081138009113900101140001111410012114200131043001411440015114500161046001711470018104800191149002011500021115100221152002310530024115400251055002611560027115700281158002911590030106000从表中可以发现,用马氏距离判别法对已确诊的60例重新作出判别时,31-60号完全正确,1-30号中有7例判别错误,分别是6,13,16,18,23,25,30.模型二:费希尔判别基本思想:从两个总体中抽取具有个指标的样品观测数据,借助方差分析的思想造一个判别函数或称判别式:其中系数确定的原则是使两组的区别最大,而使每个组内的离差最小。有了判别式后,对于一个新的样品,将它的个指标值代入判别式中求出值,然后与判别临界值进行比较,就可以判别它应属于哪一个总体。确定判别函数:此时最优的线性判别函数为:两组间离差平方和越大越好,两个组内的离差平方和越小越好。记为两组间离差平方和。为两组内的离差平方和。即就是要求越大越好。则利用微积分求极值的必要条件可求出使达到最大值的从而求得判别函数为模型求解:我们采用统计软件spss(82)中的判别分析,对已确诊的60例做出判别,将判别结果与准确结果对比,检验此方法的正确性,其结果如下表:费希尔判别法的正确性检验病例号准确结果判别结果病例号准确结果判别结果111310021132013113300411340051135006113600711370081138019113901101140001111410012114200131143001411440015114500161146001711470018114800191149002011500021115100221152002311530024115400251155002611560027115700281158002911590030116001从表中可以发现,用费希尔判别法对已确诊的60例重新作出判别时,1-30号完全正确,31-60号中有4例判别错误,分别是32,38,39,60综述以上三种判别方法,可以得到它们各自的正确率,如下表欧氏距离判别法马氏距离判别法费希尔判别法30病人正判率100%76.67%100%30健康正判率76.67%100%86.67%总人数正判率88.33%88.33%93.33%从表中的结果可以明显看出费希尔判别法的正确率明显高于两种距离判别方法,所以毫无疑问的先选择费希尔判别法。对于欧氏距离和马氏距离判别法而言,虽然两者正确率一样,但是我们考虑下面一个问题,在欧氏距离的定义下,设有两个总体,和,现有一个新的样品位于处,如下图从图中不难发现:到的中心的欧氏距离比到的中心的欧氏距离近,但是并不能说处样品属于总体,这是因为从概率的角度来看总体的样本比较分散,而总体的样本则非常集中,因此处样品属于总体的概率明显大于属于总体的概率,也就是说,处的样品属于总体的可能性明显大于属于总体的可能性!这也说明了用欧氏距离来度量样本到总体距离的局限性。因此,我们淘汰这种做法。所以,我们最终选择马氏距离判别法和费希尔判别法作为判别属于患者或健康人的方法。问题二: 这一问中,我们根据第一问中的两种判别方法分别对30名就诊人员的化验结果进行判别,判定他(她)们是肾炎患者还是健康人。1. 采用马氏距离判别法,运用Matlab6.5求解,判别结果如下表30名就诊人员的判别结果(马氏距离判别法)病历号判别结果病历号判别结果611761621770630780641790650800661810670820680831690840700851711860721870730880740890750900从表中的结果可以得出:患者:61,62,64,66,71,72,76,83,85健康人:63,65,67,68,69,70,73,74,75,77,78,79,80,81,82,84,86,87,88,89,902. 采用费希尔判别法,运用SPSS求解,判别结果如下表30名就诊人员的判别结果(费希尔判别法)病历号判别结果病历号判别结果611761621770630780641791651800661810670820681831691840700851711860721870731880740890751900从表中的结果可以得出:患者:61,62,64,65,66,68,69,71,72,73,75,76,79,83,85健康人:63,67,70,74,77,78,80,81,82,84,86,87,88,89,90问题三: 本问中,要求确定出哪些指标是主要因素,我们从分析方差和分析均值两个角度,借助主成分分析法和偏离均值大小建立模型并求解,然后确定出主要因素。模型一: 基本思想:主成分分析法是利用降维的思想,在力保数据信息损失最少的原则下,把多个指标转化为少数几个综合指标的一种对多变量数据进行最佳综合简化的多元统计方法。我们可以根据确定出的若干个主成分(原始变量的线性组合),然后选取每一主成分中得分较高的指标作为主要因素,以达到减少指标的目的。 建立模型:在本问题中,设有个样品,每个样品观测个指标,我们把这个指标看做个随机变量,记为。设随机变量的均值为,协方差矩阵为。主成分分析法就是要把这个指标的问题,转变为讨论个指标线性组合的问题。对进行线性变换,可以生成新的指标即主成分,记为。则要想确定主成分就是要确定系数,即就是原来变量在各个主成分上的载荷,经过证明它们是相关矩阵的个较大的特征值所对应的特征向量。现在来确定系数,因为是不相关的主成分,即。 模型求解:在此问题中,变量水平差异较大,所以应该选择基于相关系数矩阵的主成分分析。首先计算相关系数阵,检验待分析的变量是否适合作主成分分析。如果个指标之间完全不相关,那么压缩至表示不可能的即不适合作主成分分析;两个指标之间完全相关,保留一个指标;指标之间有一定的相关性但不完全相关,即,指标压缩才可能,适合作主成分分析。我们用SPSS先对七个变量(即七个指标)进行相关性分析,得到结果如下表相关性x1x2x3x4x5x6x7x1Pearson 相关性07*.353*-.357*-.322*显著性(双侧).378.301.001.006.005.012N60606060606060x2Pearson 相关性.1161.556*.710*.798*.015.206显著性(双侧).378.000.000.000.908.113N60606060606060x3Pearson 相关性.136.556*1.429*.557*-.037.112显著性(双侧).301.000.001.000.779.396N60606060606060x4Pearson 相关性.407*.710*.429*1.845*-.167-.065显著性(双侧).001.000.001.000.201.624N60606060606060x5Pearson 相关性.353*.798*.557*.845*1-.119.093显著性(双侧).006.000.000.000.366.478N60606060606060x6Pearson 相关性-.357*.015-.037-.167-.1191.715*显著性(双侧).005.908.779.201.366.000N60606060606060x7Pearson 相关性-.322*.206.112-.065.093.715*1显著性(双侧).012.113.396.624.478.000N60606060606060*. 在 .01 水平(双侧)上显著相关。*. 在 0.05 水平(双侧)上显著相关。从表中结果可以看出,七个变量之间都存在一定的相关性,所以适合作主成分分析。 然后得到方差贡献表如下解释的总方差成份初始特征值提取平方和载入合计方差的 %累积 %合计方差的 %累积 %13.12944.70244.7023.12944.70244.70221.97328.19272.8941.97328.19272.8943.72310.32783.2214.5708.14791.3685.2844.05295.4206.2042.91298.3327.1171.668100.000提取方法:主成份分析。从表中可以看出,第一个主成分的特征根是3.129,方差贡献率为44.702%,第二个主成分的特征根是1.973,方差贡献率为28.192%,两个主成分的累计方差贡献率为72.849%,一般来说,累计贡献率达到70%90%就比较满意了,所以提取两个主成分是比较合适的。 最后得到因子载荷矩阵,如下表成份矩阵a成份12x1.453-.538x2.852.293x3.682.195x4.898-.051x5.941.094x6-.206.856x7-.005.904提取方法 :主成份。a. 已提取了 2 个成份。其中的数值是主成分与原始变量的相关系数,绝对值的大小代表了主成分与原始变量的相关程度。在第一个主成分中, 3个指标占载荷最大,在第二个主成分中,2个指标占载荷最大。综上所述,我们选择Cu,Ca,Mg,K,Na五种指标作为简化后的指标。模型二:设,分别为肾炎患者第种指标的均值和健康人第种指标的均值,记为健康人第种指标的均值与患者第种指标的均值的差除以健康人第种指标的均值的绝对值,即越大,表示第种指标对患病这一结果的影响越大。根据以上公式我们计算得到结果,如下表指标ZnCuFeCaMgKNa0.2330.4370.6280.7220.6161.2260.435从表中可以看出,影响最大的五项指标是Cu,Fe,Ca,Mg,K。综合以上两个模型,模型一确定出Cu,Ca,Mg,K,Na五项指标,以这五项指标对前60号病例进行马氏距离判别和费希尔判别。利用Matlab程序和SPSS软件,得到结果如下:病例号准确结果费希尔判别法马氏判别法病例号准确结果费希尔判别马氏判别法111131000211132000311133000411134000511135000611036000711137000811138010911139000101114000011111410101211142000131104300014111440001511145000161114600017111470001810048000191114900020111500002111151000221115200023110530002411054000251105500026111560002711157000281115800029111590003011060010由结果得出用Cu,Ca,Mg,K,Na五项指标采用马氏距离判别,费希尔判别得到的正确率分别为88.33%,93.33%。而模型二确定出Cu,Fe,Ca,Mg,K五项指标,以这五项指标对前60号病例进行马氏距离判别,费希尔判别,利用Matlab程序和SPSS软件得到结果如下:病例号准确结果费希尔判别法马氏判别法病例号准确结果费希尔判别法马氏判别法111131000211132010311133000411134000511135000611036000711137000811138010911139000101114000011111410001211142000131104300014111440001511145000161104600017111470001810048000191114900020111500002111151000221115200023110530002411054000251105500026111560002711157000281115800029111590003011060010由结果得出用Cu,Fe,Ca,Mg,K五项指标采用马氏距离判别,费希尔判别得到的正确率分别为86.67%,93.33%。综上所述,模型一和模型二确定的两组指标,对于每组指标由马氏距离判别法和费希尔判别法得到的结果正确率都很高,而Cu,Ca,Mg,K,Na五项指标与Cu,Fe,Ca,Mg,K五项指标的公共指标是Cu,Ca,Mg,K四项指标,这说明另外两种指标Na和Fe对判定结果影响不大,所以我们取它们的公共元素即Cu,Ca,Mg,K四项指标作为影响是否患病的主要指标。问题四:这一问中,我们根据问题三中确定出来的四项指标,再分别采用马氏距离判别法和费希尔判别法对30名就诊人员的化验结果进行判别,用Matlab和SPSS求解,判别结果如下表30名就诊人员的判别结果(马氏距离判别法/费希尔判别法)病例号费希尔判别法马氏距离判别法病例号费希尔判别法马氏距离判别法611176116211770063007800641179116510800066108100670082006800831169108400700085107111860072118700731088007400890075109000从表中可以看出:根据马氏距离判别法判别的结果是,患者:61,62,64,71,72,76,79,83健康人:65,66,67,68,69,70,73,74,75,77,78,80,81,82,84,85,86,87,88,89,90根据费希尔判别法判别的结果是,患者:61,62,64,65,69,71,72,73,75,76,79,83,85健康人:63,67,68,70,74,77,78,80,81,82,84,86,87,88,89,90问题五:1.对问题二的结果做进一步分析在问题二中,我们使用马氏距离判别法和费希尔判别法对30名就诊人员是否患病作出判别。通过比较两种判别结果,可以得到,两种方法判别结果一致的是:61,62,63,64,66,67,70,71,72,74,76,77,78,80,81,82 83,84,85,86,87,88,89,90.判别结果不一致的是:65,68,69,73,75,79.两种判别法的判别结果一致率是80%。 为了更准确的判别是否患病,我们可以认为两种方法判别一致的结果是可靠的,然后将它们作为新的确诊病例补充到原有两个样本中,再根据新的两个样本(有新的均值且更接近总体均值)对两种方法判别结果不一致的病例作出判别,然后将结果一致的补充到两个样本中再判别不一致的,重复此工作,直至对所有病例得到可靠的判别结果。2.对问题四的结果做进一步分析2.1 用马氏距离判别法(包含七项指标)和马氏距离判别法(包含简化后的四项指标Cu,Ca,Mg,K)判别30名就诊人员是否患病的结果中,73,86和92号不一致,其余结果均一致,一致率达到90%。用费希尔判别法(包含七项指标)和费希尔判别法(包含简化后的四项指标Cu,Ca,Mg,K)判别30名就诊人员是否患病的结果中,只有75号不一致,其余结果均一致,一致率达到96.7%。 可以看出,减少指标后的两种判别方法判别结果与未减少时判别结果一致率很高,这可以充分说明,我们简化后的四项指标,即Cu、Ca、Mg、K确实是影响人们患肾炎的主要因素。2.2 因为马氏距离判别法和费希尔判别法在总体间均值差别较小时容易造成误判,而在问题四中,我们选取出的主要指标都是总体间均值差别较大的,所以误判率反而会降低,从而提高判别的正确性。 综合上述两点分析,可以得出用四项主要指标,即Cu、Ca、Mg、K判别出的结果是可靠的。6. 模型的检验针对问题一的距离判别模型和费希尔判别模型,我们利用Matlab和SPSS对160号病例重新判别,结合问题一的结果,从中可以看出距离判别模型和费希尔判别模型的正确率分别为88.33%,93.33%。因而可以说明距离判别模型和费希尔判别模型均具有合理性,相对而言,费希尔判别模型有较强的实用性,较广的适用性。问题三中的两个模型分别是借助主成分分析法和偏离均值大小的方法对距离判定模型和费希尔判别模型进行求解,同样利用Matlab和SPSS对160号病例重新判别,在判别结果(见附录)中,可以得到减少指标后距离判别模型和费希尔判别模型的正确率分别为85%,93.33%,说明改进的两个模型具有一定的科学性和准确性,而且更为实用。7. 模型的优缺点7.1马氏距离判别法:优点:可以不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关;还可以排除变量之间的相关性的干扰。缺点:夸大了微小变化变量的作用,在均值差别不大时,会造成误判。7.2费希尔判别法:优点:判别函数是线性函数,使用起来比较方便容易。缺点:在均值差别很小的情况下,容易产生误判。7.3主成分分析法与偏离均值大小优点:1. 主成分分析法处理数据客观性强,对数据的前处理和合理性分析有其独特性,是从分析方差的角度筛选出影响是否患病的主要因素。 2. 偏离均值的大小反映出对是否患病结果影响的大小。 3. 取两种方法的交集确定出主要因素。缺点:1. 当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确,命名清晰性低。2.为了消除量纲和数量级,通常需要将原始数据进行标准化,将其转化为均值为0方差为1 的无量纲数据。3.有时得到的主成分对原指标的信息的反映较分散,即各主成分无明显的实际意义。8.参考文献参考文献:1西北工业大学数学建模指导委员会,数学建模简明教程,高等教育出版社,2008年9月2库路巴依,白云鹏,王玲,主成分分析方法在水库水质综合评价中的应用,,访问时间2011.6.7. 22:003数学建模课程设计报告, ,访问时间2011.6.7 22:004主编:汪冬华,多元统计分析与SPSS应用,华东理工大学出版社,2010年9月 5 主编:刘焕彬,库在强,廖小勇,陈文略,张忠诚,数学模型与实验,科学出版社,2008年5月附录马氏距离判别法的Matlab程序(以检验七种元素的马氏距离判别法为例)如下:u1=143.103333312.3343333323.06666667698.1666667113.3933333201.1333333526.8333333;u2=186.621.9236666762.011666672511.133333295.136666790.37367.21;A=16615.824.570011217951318515.731.57011251844271939.825.954116312864215914.239.789699.223972622616.223.860615270.32181719.299.2930718745.525720113.326.655110149.414114714.5306591021546801728.857.8655175.798.431815611.532.563910710355213215.917.757892.41314137218211.311.37671112646721869.2637.1958233733471628.2327.162510862.44651506.632162714017963915910.711.761219098.539011716.17.0498895.513657218110.14.04143718410154214620.723.81232128150109242.310.39.762993.743988828.212.453.137044.145485215413.853.362110516072317912.217.9113915045.221813.53.3616.813532.651.61821755.8424.980712355.612611315.847.362653.616862750.511.66.360858.958.913978.614.69.742170.8133464903.278.1762252.377085217828.832.499211270.2169;A=cov(A);A=inv(A);B=21319.136.222202494016817013.929.8128522647.933016213.219.8152116636.21332031390.8154416298.939416713.114.1227821246.313416412.918.6299319736.394.51671527205626064.623715814.437102510144.672.513322.831163340118089915613532267471090228810169830810689938.65255424177.93731668.162.812332521346492096.4386.92157288742191826.4961.7387043214336723515.623.4180616668.818817319.117249729565.828715119.764.2203140318287419165.435536139213768822324.486360335397.747922120.115531723681507392172528.2234337311049416422.235.522122811535491738.9936162421610325720218.617.737852253167.318217.324.8307324650.71092112417383642873.535124621.593.2211235471.719516416.138213515264.32401792135156022647.9330;B=cov(B);B=inv(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论