[数学]化验结果处理的数学模型论文.doc_第1页
[数学]化验结果处理的数学模型论文.doc_第2页
[数学]化验结果处理的数学模型论文.doc_第3页
[数学]化验结果处理的数学模型论文.doc_第4页
[数学]化验结果处理的数学模型论文.doc_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

化验结果处理的数学模型摘要 医学化验是协助医生诊断疾病的重要手段。在化验过程中,医院希望可以用简便的判别方法,通过尽量少的化验指标判别出就诊人员是否患病。本篇论文针对于化验结果的处理提出了Ca含量判别法和费希尔判别等判别法,并采用逐个剔除的方法来排除无关紧要的元素,从而减少化验指标,找出关键元素。针对问题1和2,我们提出了马氏距离判别法、fisher判别法、偏离程度判别法和Ca含量判别法共四种方法。通过运用这四种方法分别计算1-60号病例的化验结果来检验其的正确率来进行筛选,算得四种方法的综合正确率分别为:88.33%,93.33%,90%和95%。所以最终决定采用准确率较高的Ca含量判别法和费希尔判别法来作为诊断就诊人员是否患有肾炎的最终方法。针对问题3和4,通过对数据特征分析,提出了多元线性回归法和主成分分析模型法两种方法。前者利用偏离程度建立多元线性回归方程,通过F检验,最后求得的关键因素有:Cu Fe Mg K Na;后者通过建立主成分分析赋权模型,对数据进行标准化并确定相关系数矩阵,求出相关矩阵的特征值和特征向量,从而得到各种元素的权值,得出关键元素为:Cu Ca Mg K Na。针对问题5,我们对前后作了进一步分析。将问题二、四的结果进行比较我们得知:以我们确定的关键元素Cu Ca Mg K Na为指标,得到问题四的结果,我们从被诊断为健康人的数据中发现了1组患肾炎的,而原被诊为患肾炎的数据数目没有发生改变。根据我们在诊断的过程中不会把患肾炎的诊断成健康人,从而进一步验证了我们选取的元素指标的正确性。关键字:马氏距离判别法、fisher判别法、Ca含量判别法、偏离程度 MATLAB,Excel,SPSS,主成分分析一问题的提出(一)问题的背景 人们到医院就诊时,通常要化验一些指标来协助医生的诊断。以诊断肾炎为例,一般情况下,医生是通过就诊人员的尿液的化验结果,即其中某些元素含量的高低判断就诊人员是否患有肾炎,这些元素一般包括Zn、Cu、Fe、Ca、Mg、K、Na等7种元素。(2) 问题的设置 本题中所给的表(A1)是确诊病例的化验结果,其中130号病例是已经确诊为肾炎病人的化验结果;3160号病例是已经确定为健康人的结果。表(A 2)是就诊人员的化验结果。据此数据,需要我们解决以下问题:1、 根据表(A1)中的数据,提出一种或多种简便的判别就诊人员属于患者或健康人的方法,并检验你提出方法的正确性。2、 利用问题1提出的方法,判断表(A2)中的30名就诊人员的化验结果进行判别,判定他(她)们是肾炎病人还是健康人。3、 能否根据表A1的数据特征,确定哪些指标是影响人们患肾炎的关键或主要因素,以便减少化验的指标。4、 根据3的结果,重复2的工作,即利用问题3判断出的影响人们患肾炎的关键指标,判断表(A2)中30名就诊人员额化验结果,从而得出他们是否患有肾炎。5、 对2和4的结果作进一步的分析,即利用全部指标及减少影响较小的指标两种方法,对判断表(A2)中30名就诊人员是否患有肾炎的结果进行分析。二模型的假设及符号说明(1) 模型的假设1、 诊断病人是否患有肾炎的因素只考虑Zn、Cu、Fe、Ca、Mg、K、Na等7种元素,其他因素(如其他元素、外界环境、病人本身个体差异等)不予考虑;2、 在表(A1)中130位病患均患有同一类型的肾炎,并且只患有肾炎这一种病;3、 表A1、A2中的数据时随机抽样获得的数据,具有合理性。(2) 符号说明G1,G2分别表示肾炎患者类总体和健康者类总体;d1,d2分别表示到G1,G2的马氏距离,d=d1-d2;g1,g2,g3分别表示肾炎患者类样本、健康者类样本和待定样本;:第i号就诊人员;:第i号就诊人员第j种元素的含量(i=1,2,90;j=1,2,7);B j:Zn、Cu、Fe等7种元素各含量的均值(j=1,2,7);C i:第i号就诊人员7中元素含量与健康人标准含量的均方差(i=1,2,90);D k:患病与健康两类就诊人员与健康人标准含量的均方差(k=1,2),k=1表示 患病组,k=2表示健康组;E:其值为就诊人员是否患病的界限指标;F:其值取1或0,取1时,表示就诊人员患有肾炎,取0时表示就诊人员身体健康;三问题的分析 问题1:该问题需要通过对130和3160这两组数据的分析得出能够判别就诊人员是否患病的指标,可以通过计算得出能够衡量各元素间偏离程度的量,用此作为指标判断就诊人员是否患病。也可以通过判别分析中的距离判别法和fisher判别法分别作出判断,利用SPSS软件,得出相应的判别函数。不论用何种方法,都可以得到该方法相对应的错判率,根据该错判率,可以初步判断出不同方法的合理程度。 问题2:该问题是对问题一中建立的数学模型的应用,利用问题一中建立的不同数学模型判断出表(A2)中30名就诊人员的患病情况。 问题3:利用问题一中建立的数学模型得出包含七个变量的判别函数,通过该函数中不同变量所对应的系数,分析出该变量在判别过程中的重要程度,从而得出影响人们患肾炎的关键指标有哪些,进而判断出在化验中可以减少哪些指标。 问题4:将问题3中得出的关键指标重新建立一个判别函数,对表(A2)中的30名就诊人员再一次进行判别。 问题5:利用全部指标及减少影响较小的指标两种方法,对判断表(A2)中30名就诊人员是否患有肾炎的结果进行分析。四模型的建立与求解(1) 问题一及问题二的求解1、 判别方法一:马氏距离判别 设X、Y是从均值为,协方差矩阵为的总体G中抽取的两个样品,称 为X,Y两点间的马氏距离。马氏距离判别法是通过计算待定样本到两个(或多个)总体的马氏距离并比较其大小来判断样本的归属的方法。 本问题中涉及两个总体(肾炎患者类G1与健康者类G2),且总体的方差与均值未知。给出了三个样本,其中两个已经确定分别属于肾炎患者和非肾炎患者g1、g2,另外一个为待定样本g3。我们利用Matlab软件分别计算出待定样本g3到肾炎患者样本g1与非肾炎患者样本g2的马氏距离之差d=d1-d2作为其到总体G1,G2的近似估计,其判别准则为:若d0,则g3属于G2;结果:61,62,64,66,71,72,76,83,85为肾炎患者。马氏距离判别法的重判及误判率的计算: 我们通过对马氏距离判别法进行重判来分析其准确性,并得到误判率。具体过程是将g1,g2中的数据回代如马氏距离公式,再次计算出马氏距离之差,并对其为肾炎患者或非肾炎患者做出判断。最后将结果与实际情况作比较,找出误判个数,并计算误判率。结果:6,13,16,18,23,25,30为误判,误判率为7/60,即11.67%,则正确率为88.33%。2、 判别方法二:Fisher线性判别函数判别Fisher判别分析就是根据观察或测量到的若干变量值,判断研究对象如何分类的一种统计分析方法。它就是要从各变量中筛选出能够提供较多信息的变量并建立判别函数,使得利用推导出的判别函数对观测量判断其属性类别时的错误率最小。判别函数的一般形式是: 其中为判别值;为变量值,为变量系数,也称判别系数。所以,我们这里设健康状况与各元素之间的判别函数为: 其中分别表示、元素的值, 分别为其对应判别系数。于是,为了求出这些关系,我们利用SPSS软件进行求解,由表1容易得到分别为0.061、-1.205、0.372、1.165、0.524、0.052、-0.350。从而我们得到判别函数: 表1-2-1 标准化的典型判别式函数系数函数1Zn.061Cu-1.205Fe.372Ca1.165Mg.524K.052Na-.350 表1-2-2分类函数系数组别12Zn.097.101Cu.069-.131Fe-.001.018Ca.000.003Mg-.010.001K.001.002Na.011.007(常量)-10.259-14.965Fisher 的线性判别式函数 表1-2-3:Fisher判别结果分类结果a组别预测组成员12合计初始计数130030242630%1100.0.0100.0213.386.7100.0a. 已对初始分组案例中的 93.3% 个进行了正确分类。 表1-2-4组统计量组别有效的 N(列表状态)均值标准差未加权的已加权的1Zn143.10353.68043030.000Cu12.3345.05263030.000Fe23.06713.74953030.000Ca698.167270.19563030.000Mg113.39346.84613030.000K201.133259.78263030.000Na526.833300.58373030.0002Zn186.60029.68293030.000Cu21.92423.75493030.000Fe62.01275.77853030.000Ca2511.1331271.60453030.000Mg295.137177.56893030.000K90.37051.31813030.000Na367.210244.24303030.000合计Zn164.85248.27486060.000Cu17.12917.70016060.000Fe42.53957.45486060.000Ca1604.6501290.85606060.000Mg204.265158.03306060.000K145.752193.86896060.000Na447.022283.21236060.000由表1-2-2、表1-2-3可以看出采用Fisher判别法判别正确率为93.3%,得到患者和健康人的线性判别函数为:其中,分别为肾炎患者和健康人的函数值。由表1-2-4可知,两组各指标均值:代入判别函数可得:根据表2-5中各判别函数值列与临界值1681.94。比较可知:30名就诊者中有13名健康人,17名患者。结果如下:表1-2-5 30名就诊人员的判别结果(fisher判别法)就诊者病历号判别函数值诊断结果61286.43患病62603.57患病631437.52患病64368.76患病65619.79患病66927.02患病67739.91患病681013.44患病69353.96患病702300.87健康711126.39患病72261.09患病73266.49患病742560.41健康751892.36健康76754.75患病771815.62健康781781.21健康791273.51患病802732.73健康813511.63健康822510.77健康83947.63患病842015.56健康851025.08患病862972.44健康871308.14患病882628.06健康894639.96健康902133.00健康从表中结果得出:患者:61,62,63,64,65,66,67,68,69,71,72,73,76,79,83,85,87健康人:70,74,75,77,78,80,81,82,84,86,88,89,903、 判别方法三:偏离程度判别法 在判断就诊人员是否患病问题上,我们希望可以通过数据处理获得一个指标,该指标的大小可以衡量人是否患有肾炎。在进行数据处理时,可以利用EXCEL软件,先求出健康人体内Zn、Cu、Fe等7种元素各含量的均值B j(j=1,2,7):表1-3-1 Zn、Cu、Fe等7种元素各含量的均值元素ZnCuFeCaMgKNaB j186.6000 21.9237 62.0117 2511.1333 295.1367 90.3700 367.2100 以健康人体内这7种元素的均值含量(B1,B2,B3,B4,B5,B6,B7)作为标准,计算160号就诊人员化验数据的均方差(i=1,2,60),从均方差的数值大小上可以看出每一名就诊人员与该标准的偏离程度。= (i=1,.,60)表 1-3-2 第160号就诊人员化验数据的均方差病例号病例号1691.2434 31136.5285 2688.5640 32464.8730 3753.7812 33388.6409 4632.3637 34369.3701 5724.6411 35131.1212 6835.5699 36214.3420 7749.6853 37180.3400 8714.3662 38577.7704 9746.0446 39392.2453 10714.7928 401641.8933 11947.9271 41559.2841 12676.2985 4240.4870 13587.6801 43495.3225 14717.6226 44145.9240 15722.9904 45516.6208 16719.3018 46280.3936 17586.9669 4736.7542 18414.0928 48269.5689 19560.1152 491084.8859 20755.8781 50415.7572 21848.5265 51291.2218 22731.0848 5286.9067 23525.1145 53135.1530 24908.9313 54339.4539 25654.0929 55496.1765 26726.1696 56235.3666 27732.1717 57503.7144 28796.8352 58167.8768 29787.1550 59160.3334 30583.3398 60361.2302 130号就诊人员已确诊为肾炎患者,3160号就诊人员已确定为健康人,因此可以求出这两种类别的就诊人员的均方差的平均值(k=1,2),以此作为每一种类别与健康人标准值的偏离程度。 计算求得,=707.7782,=370.6519。 为了获得一个可以直接判别就诊人员是否患有肾炎的综合指标,该指标既考虑到了患病者之间的共性,又考虑了健康患者之间的差异,因此,我们对求得的D k作了如下处理,以求得的E值为界限指标作为最终的判据。=(+)/2求得的E=539.2151.可以利用上公式求得(i=61,62,90),即未确诊的就诊人员的均方差值,再进行如下比较:若,则患病;若C iE,则健康。为了检验公式的合理性,我们再用该方法对前60位人员重新进行判断。利用EXCEL软件中的IF函数,若,则患病,函数值即为1;若,则健康,函数值即为0。通过统计,在130号患病人群中,A18、A23被误判为健康;在3160号患病人群中,A38、A40、A41、A49被误判为患病,综合得出该方法的误判率为10%,正确率为90%。因此,该方法具有一定合理性。利用上模型,对表30名就诊人员进行是否患有肾炎的判别。首先计算表30名就诊人员的验数据的均方差,再对和E值的大小进行比较,得出判断若,则患病,F即为1;若,则健康,F即为0。利用EXCEL,得出如下表中的结果:表 1-3-3 6190号就诊人员各项指标与标准值的偏离程度及健康情况表病例号C iF病例号C iF61833.1980 176697.9099 162747.4858 177388.6409 063461.0212 078369.3754 064781.8419 179557.4943 165749.3987 180141.5255 066655.2918 181193.3422 067802.5913 182206.7657 068605.4703 183602.2752 169831.5494 184340.4201 070217.7726 085576.4732 171775.5997 18640.5155 072837.4287 187504.8948 073851.8757 188145.8082 074118.7935 089516.6209 075355.0331 090280.3925 0从上表中,可以看出,在6190号就诊人员中,为肾炎患者的是61、62、6469、7173、76、79、83、85共15名,其余均身体健康。4、 判别方法四:Ca含量判别法在对数据进行分析时,我们将数据分为7组,每组为肾炎患者和健康人体内同一元素的含量,并使用Matlab分别绘制出7种元素在肾炎患者和在健康人体内的含量比较图,如图1-4-1。通过对第4个图进行观察,我们发现,肾炎患者与健康人体内Ca元素的含量有明显的不同,肾炎患者中Ca元素的含量都比较小,大多在1000以下,健康者中Ca元素的含量均在1000以上。进一步求出30名肾炎患者中Ca含量的最大值为Max(Ca)=1437,而30名健康人中Ca含量的最小值Min(Ca)=1025,即Min(Ca)F(1,n-k-1),变量x i(i=1,2,7),则拒绝H0,变量x i(i=1,2,7作用显著;否则,接受原假设H0,变量x i作用不显著,因此可以剔除。Fi值越小,变量x i作用越不显著。对7个变量的系数的绝对值进行大小排序,得:a2a1a5a3a6a4a7.易知,F(1,52)4,S回=3004486.3755。(1) 若剔除x7重新利EXCEL进行回归分析,得到新的回归方程的S回=3004467.8295 ,故u i=18.546,利用软件又可求得Qe=102354006.2212,所以F i=0.0000094F(1,52),故接受原假设H0,变量x 7作用不显著,剔除x7。(2)若继续剔除x4 重新利EXCEL进行回归分析,得到新的回归方程的S回=2728580.7637,故ui=275905.612,利用软件又可求得Qe=4041758.5712 ,所以F i=3.55F(1,52),故拒绝原假设H0,变量x 6作用显著。(4) 若继续剔除x3重新利EXCEL进行回归分析,得到新的回归方程的S回= 2560752.7529 ,故ui=443733.6226,利用软件又可求得Qe=1629472.8351 ,所以F i=14.16F(1,52),故拒绝原假设H0,变量x 3作用显著。同理可知,x2、x1、x5作用都很显著。综上所致,x1、x2、x3、x5,x6都是作用显著的因子。即在肾炎化验中,Zn、Cu、Fe、Mg、K为主要化验指标。由此可知,在剔除作用不显著的变量后的回归方程为:=755.5539+(-1.8259*x1)+13.7004*x2+0.6003*x3+(-1.04045*x5)+0.2537*x6回代160号就诊人员的数值,计算y值,将该值与E(值为539.2151)比较大小,利用IF函数,将患病者记为1,将健康者记为0。得到如下数据: 表2-1-1 正确性检验病例号y患病与否病例号y患病与否1612.5101 131401.1217 02568.3927 132430.4859 03415.8471 033488.9586 04641.0351 134474.0467 05438.8208 035429.7390 06393.1577 036448.2477 07494.1786 037418.2147 08636.7553 138592.7881 19513.6680 039472.1332 010562.5808 1401437.3172 111980.2210 141651.8099 112536.3249 042315.7809 013341.1686 043372.9290 014492.2428 044233.3246 015484.8582 045135.9989 016446.1575 046398.9805 017701.8664 147421.3167 018400.0462 048415.1522 019691.7353 149950.7242 120839.1395 150391.8014 021975.1204 151375.6239 022626.7716 152358.5912 023462.0078 053528.0155 024766.1949 154385.8445 025417.1096 055425.9383 026780.9412 156432.0564 027779.7129 157282.6381 028777.9652 158306.7601 029781.8611 159557.6587 130745.8443 160514.4472 0 由检验结果可知,错判率为30%。因此,该模型的准确性不高,需要进一步优化。 此外,在不剔除变量的情况下,对回归函数=725.7715+(-1.43105*x1)+15.19547*x2+0.415726*x3+(-0.10423*x4)+(-0.46495*x5)+0.221055*x6+0.003106*x7的正确性进行检验,发现,在对160号就诊人员诊断时,有15名患者被误判,其误判率为25%,准确性不高。在误判的这15名就诊人员中,有13名与剔除变量x4、x7后得到的回归函数的错判人员重叠,这表明,剔除x4、x7这两个变量后,仅带来5个误差数据,但这并不能肯定剔除变量x4、x7的合理性和准确性,因为该模型在起初建立时其准确性就是不高的,本身存在缺陷,在剔除变量后,其自身存在的误差就又被放大了,并且在剔除变量时,也是受该回归函数本身存在误差影响的。因此,在最后得出结论即剔除哪一个变量时,结论是存在一定误差的。方法二:主成分分析法 主成分分析法是利用降维的思想,在力保数据信息损失最少的原则下,把多个指标转化为少数几个综合指标的一种对多变量数据进行最佳综合简化的多元统计方法。我们可以根据确定出的若干个主成分(原始变量的线性组合),然后选取每一主成分中得分较高的指标作为主要因素,以达到减少指标的目的。 建立模型:在本问题中,设有个样品,每个样品观测个指标,我们把这个指标看做个随机变量,记为。设随机变量的均值为,协方差矩阵为。主成分分析法就是要把这个指标的问题,转变为讨论个指标线性组合的问题。对进行线性变换,可以生成新的指标即主成分,记为。则 要想确定主成分就是要确定系数,即就是原来变量在各个主成分上的载荷,经过证明它们是相关矩阵的个较大的特征值所对应的特征向量。 现在来确定系数,因为(?)是不相关的主成分,即。 模型求解:在此问题中,变量水平差异较大,所以应该选择基于相关系数矩阵的主成分分析。首先计算相关系数阵,检验待分析的变量是否适合作主成分分析。如果个指标之间完全不相关,那么压缩至表示不可能的即不适合作主成分分析;两个指标之间完全相关,保留一个指标;指标之间有一定的相关性但不完全相关,即,指标压缩才可能,适合作主成分分析。我们用SPSS先对七个变量(即七个指标)进行相关性分析如下表:相关性ZnCuFeCaMgZnPearson 相关性1.116.136.407*.353*显著性(双侧).378.301.001.006N6060606060CuPearson 相关性.1161.556*.710*.798*显著性(双侧).378.000.000.000N6060606060FePearson 相关性.136.556*1.429*.557*显著性(双侧).301.000.001.000N6060606060CaPearson 相关性.407*.710*.429*1.845*显著性(双侧).001.000.001.000N6060606060MgPearson 相关性.353*.798*.557*.845*1显著性(双侧).006.000.000.000N6060606060KPearson 相关性-.357*.015-.037-.167-.119显著性(双侧).005.908.779.201.366N6060606060NaPearson 相关性-.322*.206.112-.065.093显著性(双侧).012.113.396.624.478N6060606060*. 在 .01 水平(双侧)上显著相关。*. 在 0.05 水平(双侧)上显著相关。从表中结果可以看出,七个变量之间都存在一定的相关性,所以适合作主成分分析。通过spss主成分分析可得下表:解释的总方差成份初始特征值提取平方和载入合计方差的 %累积 %合计方差的 %累积 %13.12944.70244.7023.12944.70244.70221.97328.19272.8941.97328.19272.8943.72310.32783.2214.5708.14791.3685.2844.05295.4206.2042.91298.3327.1171.668100.000提取方法:主成份分析。 从表中可以看出,第一个主成分的特征根是3.129,方差贡献率为44.702%,第二个主成分的特征根是1.973,方差贡献率为28.192%,两个主成分的累计方差贡献率为72.849%,一般来说,累计贡献率达到70%90%就比较满意了,所以提取两个主成分是比较合适的。最后得到因子载荷矩阵,如下表:成份矩阵a成份12Mg.941.094Ca.898-.051Cu.852.293Fe.682.195Na-.005.904K-.206.856Zn.453-.538提取方法 :主成分分析法。a. 已提取了 2 个成份。 其中的数值是主成分与原始变量的相关系数,绝对值的大小代表了主成分与原始变量的相关程度。在第一个主成分中,Mg,Cu,Ca 3个指标占载荷最大,在第二个主成分中,Na,K 2个指标占载荷最大。综上所述,我们选择Mg,Cu,Ca,Na,K 五种指标作为简化后的指标。由以上分析,我们选择主成分分析法的结果,即选择Mg,Cu,Ca,Na,K 五种指标作为简化后的指标。(3) 问题四的求解这一问中,我们根据问题三中确定出来的五项指标,采用fisher判别法对30名就诊人员的化验结果进行判别,用SPSS求解。由表3-1-1得到如下结果,即判别函数为:其中分别为Cu,Ca,Mg,K,Na的含量。表3-1-1标准化的典型判别式函数系数函数1Cu-1.085Ca1.107Mg.679K.033Na-.351 表3-1-2分类结果a组别预测组成员12合计初始计数129130232730%196.73.3100.0210.090.0100.0a. 已对初始分组案例中的 93.3% 个进行了正确分类。由表3-1-2知,经过主成分分析筛选后,采用上述五种元素进行判别,正确率仍为93.3%,只是组内结果不同于之前七元素的判别(与判别方法三中表3比较)。表3-1-3组统计量组别有效的 N(列表状态)均值标准差未加权的已加权的1Cu12.3345.05263030.000Ca698.167270.19563030.000Mg113.39346.84613030.000K201.133259.78263030.000Na526.833300.58373030.0002Cu21.92423.75493030.000Ca2511.1331271.60453030.000Mg295.137177.56893030.000K90.37051.31813030.000Na367.210244.24303030.000合计Cu17.12917.70016060.000Ca1604.6501290.85606060.000Mg204.265158.03306060.000K145.752193.86896060.000Na447.022283.21236060.000由表3-1-3知,两组各指标均值为:代入判别函数可得:根据表3-1-4中各判别函数值列与临界值1671.94,比较可知:30名就诊者中有12名健康人,18名患者。结果如下:表3-1-4 30名就诊人员的判别结果就诊者病历号判别函数值诊断结果61271.23患病62574.34患病631370.64患病64337.46患病65584.54患病66899.77患病67788.07患病68982.08患病69333.10患病702214.22健康711046.91患病72240.07患病73254.23患病742444.44健康751804.31健康76716.51患病771736.65健康781669.90患病791217.50患病802618.81健康813351.71健康822412.46健康83877.85患病841961.36健康85955.87患病862843.61健康871241.70患病882501.67健康894446.10健康902031.32健康从表中结果得出:患者:61,62,63,64,65,66,67,68,69,71,72,73,76,78,79,83,85,87健康人:70,74,75,77,80,81,82,84,86,88,89,90(5) 问题五对问题二和问题四的结果进行分析(fisher法):问题二患病61,62,63,64,65,66,67,68,69,71,72,73,76,79,83,85,8717个健康70,74,75,77,78,80,81,82,84,86,88,89,9013个问题四患病61,62,63,64,65,66,67,68,69,71,72,73,76,78,79,83,85,8718个健康70,74,75,77,80,81,82,84,86,88,89,9012个我们可以看出,以我们确定的关键元素为指标得到问题四的结果。我们从原被判定为健康人的数据中发现了1组患肾炎的数据。而原被判别为患肾炎的数据没有发生改变。根据我们定义的原则,不会将患病的诊断成没患病的。但是实际中就像问题四的情况,我们会把一些指标值不太明显的健康人诊断成患肾炎的,而这个很类似住院做进一步检查,并且我们得出的结果只有一组结果不同,已经相当精确。所以以关键元素为指标确定的结果与问题二的结果实质上并不违背,从而也进一步验证了我们选取的关键元素的正确性。五模型的评价与改进针对肾炎化验结果处理的问题,起初我们建立了4个模型,其中有两个利用的是判别分析法中的马氏距离判别法和fisher判别法,余下两种方法,一种是以偏离程度作为指标进行判别,一种是先主观判断出Ca离子是进行判别的关键因素,然后以此为指标进行判别。由于题目中仅给出了60个训练样本,样本量较小,而我们的模型是以这60个样本为根源建立的,具有极大的样本依赖性,如果样本不具有代表性、随机性,那么所建立的模型也会存在较大误差。此外,针对问题一所建立的4个模型,我们根据回判正确率的大小对其进行了简单的评估,发现这4种模型正确率都比较高,其中fisher判别法和Ga离子判别法的正确率更高些,但由于考虑到Ga离子判别法存在极大的主观性和偶然性,我们最终选择了fisher判别法为较优的方法。其次,以偏离程度

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论