




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、一, 问题的重述人们到医院就诊时,通常要化验一些指标来协助医生的诊断。诊断就诊人员是否患肾炎时通常要化验人体内各种元素含量。表B.1是确诊病例的化验结果,其中130号病例是已经确诊为肾炎病人的化验结果;3160号病例是已经确定为健康人的结果。表B.2是就诊人员的化验结果。我们的问题是:1根据表B.1中的数据,提出一种或多种简便的判别方法,判别属于患者或健康人的方法,并检验你提出方法的正确性。2按照1提出的方法,判断表B.2中的30名就诊人员的化验结果进行判别,判定他(她)们是肾炎病人还是健康人。3能否根据表B.1的数据特征,确定哪些指标是影响人们患肾炎的关键或主要因素,以便减少化验的指标。4根
2、据3的结果,重复2的工作。5对2和4的结果作进一步的分析。二, 问题的假设一,人体中各元素都会有一个标准值,并且健康人的各元素相对含量都和标准值的偏差不大。二,元素相对值的偏离状况能反映人的健康情况,偏离过大则患病。三,年龄,性别,生活环境对人体内的元素的标准值影响不大,使用该方法均可以判别。四,所有的检测数据都准确可靠。五,该就诊群体中只有患肾炎和不患肾炎两种人。三, 部分符号的说明x:就诊人员个体元素含量的行向量;G1:表示患病的总体; G2:表示正常的总体;d(x,G1):到总体一的距离;d(x,G2):到总体二的距离;:马氏距离判别函数;:马是距离判别法修正因子;,:fisher判别法
3、的两个判别函数名称;P:不患肾炎的概率;Q:患肾炎的概率;E:变量的组内离差阵;T: 变量的总离差阵;:wilks统计量;:含有h个因子的组内离差平方和阵;:含有h个因子的总离差平方和阵;:Rao近似式中的检验统计量;四, 与问题相关的模型建立与求解对问题一建模和求解对于问题一和问题二可以归结为判别分析问题。判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则,从而判别样本点所属的类别。首先我们用excel对B.1做了初步的处理,分别针对7种元素,先分两类即患肾炎和不换肾炎按该元素从低到高排序,然后分别画出各元素在患肾炎和非患肾炎
4、群体中的折线图:Zn元素的分布折线图,系列一为肾炎患者,系列二为正常人群Cu元素的分布折线图,系列一为肾炎患者,系列二为正常人群Fe元素的分布折线图,系列一为肾炎患者,系列二为正常人群Ca元素的分布折线图,系列一为肾炎患者,系列二为正常人群Mg元素的分布折线图,系列一为肾炎患者,系列二为正常人群K元素的分布折线图,系列一为肾炎患者,系列二为正常人群Na元素的分布折线图,系列一为肾炎患者,系列二为正常人群从上面的七个图中,我们可以直观的观察到患肾炎的和正常人之间元素的差异性总体说还是很大的,可以使用判别分析法进行分类判别。我们还可以定性的给出Ca,Mg三种元素正常人与患者之间的分布差异比较大,可
5、能是决定判断的关键因子。Zn,Na,Fe元素正常人与患者之间的分布差异适中,而Cu,K正常人与患者之间的分布差异较小。马氏距离判别法然后,针对该判别分析,我们首先使用了比较传统的马氏距离判别法对样本进行判别分析。我们把样本中患病和正常化成两个总体,G1(患病),G2(正常)。定义到总体G1和G2的距离为d(x,G1)和d(x,G2)用如下规则进行判别:若样本x到G1的距离小于到总体G2的距离,则认为样品x属于总体G1,反之,则认为属于G2。如果距离相等则让它待判。用下式描述:距离选用马氏距离,即:,分别表示G1,G2的均值和协方差阵。通过SPSS软件求解可以发现协方差阵并不相等,用判别规则可简
6、化为:SPSS软件中也提供了相应工具进行求解,通过回带对判别效果进行检验,我们可以得到回带判别结果:马氏距离判别验证回带的结果(0患病,1健康)患者编号123456789101112131415不患病概率000000000000000患者编号161718192021222324252627282930不患病概率000000000000000患者编号313233343536373839404142434445不患病概率100111100111111患者编号464748495051525354555657585960不患病概率111111111111110对结果进行分析我们发现32,33,38,3
7、9,60号在回带验证时出现了误判,并且都将正常人误判成患者,误判率为8.3%。对此,我们针对模型进行了更深入的思考,对于判别的结果可能的解释为:一,误差都出现在正常人被误判成患者,说明距离判断出现误差,可以考虑加入修正判别函数的修正因子:修正因子与有一定的函数关系,由于本问题中样本数已经确定,在可直接用常数代替进行试算,直到不出现回带误判,或者回带误判出现在患者和健康人中分布均匀为止。二,考虑到马氏距离判别法要求样本中各判别变量之间具有多元正态分布,即每个变量对于其他变量的固定值有正态分布,本题中由于样本数量有限,没有办法验证是否满足此条件,故判别结果可能有所偏差。三,样本个别个体的元素含量偏
8、离总体过大,比如40,41号的Fe含量比平均值高出8倍左右,可能由于该个体的特殊的生活工作环境有关,并不能反映整体特征,但是本问题中样本容量小,在马氏距离求解中可能会对距离值产生较大影响,从而造成误差。可以考虑删除个别异常数据在进行求解。fisher判别法通过上述的分析抗可以发现,传统的马氏判别法存在很大局限性和判定结果的不稳定性,而且各判别变量之间具有多元正态分布这一假设前提较难满足。我们用fisher判别法进行了进一步的判别分析,该法对总体的分布没有什么特定的要求,其基本原理是利用投影技术,将k组p维的数据投影到某个方向,使得数据的投影组与组之间尽可能的分开。组与组的分开借用了方差分析思想
9、,本题中即考虑2组7维的分布投影问题。本题中研究的是从两个总体中抽取具有p(p=7)个指标的样品观察数据,根据方差分析的思想构造一个判别函数:其中系数确定的原则是使两组间的区别最大,而使每个组内部的离差最小。有了判别式后,对于一个新的样品,将它的个指标值代入判别函数中求出值,然后与判别临界值(或称分界点后面给出)进行比较,就可以判别它应属于哪一个总体。2.判别函数的导出本题中有两个总体,总体的样品个数为30个。假设新建立的判别函数为,现将属于不同总体的样品观测值代入判别函数中,得: 对上边两式分别左右相加,再除以相应的样品个数,则有: 第一组样品的“重心” 第二组样品的“重心”此时,最优的线性
10、判别函数为:两重心的距离越大越好,两个组内的离差平方和越小越好。综合上述思想,就是要求愈大愈好。在费希尔模型的计算中,我们使用spss软件中的Discriminant模块进行判别分析。该软件直接给出了预测的结果,并对前六十个数据给出了回代判别,最终对初始分组案例中的93.3%进行了正确分类。在该分析中,我们还采用了交叉验证的方法进行分类验证,对分组案例中91.7%个进行了正确分类。这些数据说明我们的判别分析方法是有效的。下面给出spss软件进行费希尔判别分析的计算过程:分类函数系数VAR00009.001.00VAR00002.097.101VAR00003.069-.131VAR00004-
11、.001.018VAR00005.000.003VAR00006-.010.001VAR00007.001.002VAR00008.011.007(常量)-10.259-14.965Fisher 的线性判别式函数上表从spss输出结果中导出,该表是费希尔线性判别函数的系数。根据系数可以总结出各类判别函数如下:肾炎患者: =0.097* Zn+0.069* Cu-0.001* Fe+0* Ca-0.01* Mg+0.001* K+0.011* Na-10.259健康者:=0.101*Zn-0.131*Cu+0.018*Fe+0.003*Ca+0.001*Mg+0.002*K+0.007* Na-
12、14.965判别方法为:将待检测人员的七种元素含量代入上面两式中,得到两个函数值。比较这两个函数值,若大,则该待检测人员患有肾炎,反之为健康者。fisher判别验证回带的结果患者编号123456789101112131415不患病概率000000000000000患者编号161718192021222324252627282930不患病概率000000000000000患者编号313233343536373839404142434445不患病概率101111100111111患者编号464748495051525354555657585960不患病概率111111111111110对结果的分析
13、和进一步思考:一,从上述表中可以看出32,38,39,60回带时出现了误判,误判率为6.6%。其中四组误判与前面的马氏距离判别分析相同,并没有明显的回带误判率的降低,而且出现误判的也都出现在后三十组中。二,与马氏距离判别类似,我们可以对F1和F2的常数进行修正,使得回带误判个数减少或消失,或者误判在患病和不患病群体中分布均匀。三,Fisher判别法也是建立在各判别变量不能高度线性相关的基础上,所以其结果也不是十分理想和同样也不具有很好的理论解释能力。不过,fisher判别法的假设前提条件较马氏距离判别法有所降低,回带误判率有一定的下降,模型的适应能力和稳定性都有所提高,总体说还是优于马氏距离判
14、别法。四,fisher判别分析计算量大于马氏距离判别分析不适合对大规模数据进行处理分析。logisitic回归法从前面的分析中我们看到判别分析依赖于严格的多元正态性和相等协方差阵的假设,这种情况在实际种可能达不到。用0表示患病表示健康,可知判别结果的解释变量只有两个。由于上述因素,我们用logisitic回归法进行判断。Logisitic回归没有类似的假设,而且这些假设不满足时,结果非常稳定。另外,logistic回归类似于回归分析,两者都有直接的统计检验,都能包含非线性效果和大范围的诊断。因为本文的研究对象是就诊人员患肾炎和不患肾炎实际问题只研究二分类Logistic回归。Logistic模
15、型概率计算公式如下:本文中,p为不患肾炎的概率,x1,xk,表示17种化学元素含量,上式所确定的模型相当于广义线性模型,可以系统的应用线性模型方法在处理时比较方便。SPSS软件里提供了求解过程:我们得到:b1b2b3b4b5b6b7b0logistic系数-0.489-0.3471.4790.088-0.021-0.234-0.015-33.47 我们将系数回带到上式中验证表B.1已知的诊断结果,即:这样,通过matlab回带B.1中60组数据进行判别效果检验,我们得到回带结果:logistic回归判别的回带验证结果(0患病,1健康)患者编号123456789101112131415不患病概率
16、000000000000000患者编号161718192021222324252627282930不患病概率000000000000000患者编号313233343536373839404142434445不患病概率111111111111111患者编号464748495051525354555657585960不患病概率111111111111111对结果的分析和进一步思考:一,我们发现logistic回归法的回带误判数为0,即六十组数据的判别结果完全正确,误判率为0%。从原理上说,这与logistic回归法对数据具有非常高的敏感性有关。二,对比前面的方法,logistic回归法在适用条件上
17、要求有很大降低而回带验证的精度却有显著提高,而且计算量也并不是很大,所以,我们推荐使用logistic回归法进行判断。三,由于样本的数目不多而且logistic本身就是通过预留样本迭代修正的,所以并不能说明它对后30组数据的判断也具有100%的准确率。四,对比马氏距离判别法和fisher判别法,logistic回归法的具有稳定性相当高,回带误判率很低,要求前提条件很少三方面的优势。所以,logistic无疑要优于前两种判别算法。对问题二的求解在提出的上述几种判别模型以及方法之后,我们分别用这几种方法对表B.2中的30名就诊人员的化验结果进行判别。其结果如下表所示:判别结果(0患病,1健康)编号
18、616263646566676869707172737475fisher判别001000100100010马氏距离判别001000000100010logistic回归判别000000000100011编号767778798081828384858687888990fisher判别011011101011111马氏距离判别001011100011111logistic回归判别011011101010111对结果的分析和进一步思考:一,不同的判别方案对样本的判别结果是不同的,可以从表中看出63,67,75,77,84,87三种方法的判别结果不一致,不一致率为20%。说明三种方法的误差出入率还是相
19、当大的。两两之间的的不一致个数可由下表给出:不一致数fisher判别马氏距离判别logistic回归判别fisher判别034马氏距离判别05logistic回归判别0二,从回带误差来看,马氏和fisher判别法具有8.3%和6.7%误判率。如果在后三十个中的误判率相同,那么马氏误判个数的期望是2.49。而fisher判别法的误判个数期望是2.01。实际的不一致数都超过了这一范围。三,针对医院实际诊断情况,从上述结果中看出两两判别法之间的出入率相当,对判别结果不同的就诊人员我们建议医院进行进一步的化验和诊断措施才能判别出来。问题三和问题四的建模与求解要根据表B.1的数据特征,确定哪些指标是影响
20、人们患肾炎的关键或主要因素,以便减少化验的指标。我们用到前面的有关结论和图表。一,根据元素分布折线图定性判断并验证首先,如问题一中所述,我们从各元素在患肾炎和非患肾炎群体中的折线图中可以定性的看出Ca,Mg三种元素正常人与患者之间的分布差异比较大,可能是决定判断的关键因子。Na,Zn, Fe元素正常人与患者之间的分布差异适中,而Cu, K正常人与患者之间的分布差异较小。所以我们先是选取Zn,Fe,Ca,Mg,Na作为影响人们患肾炎的关键或主要因素。通过这五种元素,我们选用回带误判率最低的logistic模型进行判别分析并得出结果。考虑到是不是可以进一步的删减元素,然后我们尝试分别去掉正常人与患
21、者之间的分布差异适中的Na,Zn,Fe元素,分别只利用(Zn,Ca,Mg,Fe),(Fe,Ca,Mg,Na),(Zn,Ca,Mg,Na)进行判断;进一步删减元素,只留下分布差异较大的Ca,Mg再一用logistic进行判断。其结果如下图所示:选取不同元素的logistic的判别的回带误判率选取的元素回带误判率Zn,Fe,Ca,Mg,Na0%Zn,Ca,Mg,Fe0%Fe,Ca,Mg,Na0%Zn,Ca,Mg,Na6.7%观察前三组数据我们发现使用logistic的回带误判率都只有0%,且三组元素中都含有Fe,Ca,Mg元素。表示这三种元素对判别分析会有很大意义,使我们联想到只用这三种元素进行进
22、一步的筛选工作,其结果如下:选取不同元素的logistic的判别的回带误判率选取的元素回带误判率Fe,Ca,Mg0%Fe,Ca0%Ca,Mg6.7%Fe,Mg8.3%从上述结果中可以发现Fe,Ca两个元素对判断产生至关重要的影响,我们利用(Fe,Ca,Mg)和(Fe,Ca)对表B.2中的数据再次进行判别分析其结果为:选取Fe,Ca,Mg对表B.2中的数据再次进行判别的结果编号616263646566676869707172737475logistic判别结果000000000100011编号767778798081828384858687888990logistic判别结果0110111110
23、11111选取Fe,Ca对表B.2中的数据再次进行判别的结果编号616263646566676869707172737475logistic判别结果000000000100011编号767778798081828384858687888990logistic判别结果011011111011111对比上述两个表格可以发现选取(Fe,Ca,Mg)和(Fe,Ca)的判别结果完全相同;且其结果与问题二中通过7种元素进行判别只有83,87号出现偏差,其他结果完全相同,利用全部元素和利用(Fe,Ca)元素判对表B.2别结果的吻合率达到93.3%。通过上述从定性的图形直观判断到定量的logistic逐步演化
24、试算以及相关的结果,我们筛选了(Fe,Ca)作为影响人们患肾炎的关键或主要因素。对结果的进一步思考:一,通过图形直接进行判断元素对判别结果的影响具有一定的不稳定性,比如说从图像中发现Ca,Mg三种元素正常人与患者之间的分布差异比较大,但是最终的结果Mg元素的去除对判别结果影响并不明显。反而,正常人与患者之间的分布差异适中的Fe元素对判别分析起到关键的作用。二,该方法并没有考虑到元素之间具有相关性这一特点,比如Ca,Mg具有显著的线性相关性,表明Ca,Mg所含有的信息量是重复的。所以两者只需取其一。二,追求最高的判别准确率来进行筛选元素在第三问中,我们还有一种思路是通过追求最高的判别准确率来进行
25、筛选元素。具体的算法如下:(1)依次舍去七种元素中的一种元素,用另外六种元素进行fisher判别分析,考察判别分析得到的回代准确率,并且和用七种元素进行fisher判别分析时得到的结果进行比对,可以得出缺少某种元素进行判决时的准确率,舍掉准确率最高对应的那个元素。(2)按照第一步进行判别,直到找到判别时使用元素较少,而准确率又相对较高的元素组合。算法实现的过程:用(1,2,3,4,5,6,7)代表(Zn, Cu, Fe, Ca, Mg, K, Na);第一步:分别去掉七种元素中的一种元素:去掉的元素号1234567去掉元素后回代准确率93.3%91.7%91.7%85%91.7%93.3%91
26、.7%由上表发现,元素1和元素6在回代准确率上持平,再比较与 预测的吻合度去除元素1去除元素6吻合度100%93.3% 因此从表中看出,在去除元素以后吻合度为100%,所以应该去除元素1。第二步:分别去掉剩余六种元素中的一种元素:去掉的元素号234567去掉元素后回代准确率93.3%93.3%88.3%91.7%93.3%93.3%由上表发现,元素2、3、6、7在回代准确率上持平,再比较与 预测的吻合度去除元素2去除元素3去除元素6去除元素7吻合度86.67%93.33%100%96.67%可以看出3、6、7这三种元素相差不大,而且影响都不太大。元素2与其它元素的差别挺大,在以上的两步回代判别
27、中,我们可以发现4号和5号元素一直对准确率有较大的影响,所以我们初步判断出能留下的三种元素序号为2、4、5。第三步:在2、4、5号元素的基础上,分别加入3、6、7号元素,进行fisher判别分析,进而比较判别的结果。发现:元素号2、4、5、32、4、5、62、4、5、7回代准确率86.7%86.7%86.7%回代准确率都相同,再比较与预测的吻合度:元素号2、4、5、32、4、5、62、4、5、7吻合度90%96.67%93.33%经过比较,发现元素组合为2、4、5、6时的吻合度最高。因此我们最总确定下来的元素为2、4、5、6是影响人们患肾炎的关键或主要因素。用这四种元素进行费舍尔分析的结果为:
28、选取Cu、Ca、Mg、K元素进行费希尔判别的结果编号616263646566676869707172737475判别结果001000110100010编号767778798081828384858687888990判别结果011011101011111通过上述的方法筛选判别再筛选重复进行操作得到相关的结果,我们筛选了(Cu、Ca、Mg、K)作为影响人们患肾炎的关键或主要因素。对结果的进一步思考:一,该种方法遍历了几乎所有可能的元素组合,然后对比回带误判率,选出几种元素作为主要判别因素,具有较高统计意义和可实现行。从结果可以看出吻合率高达96.67%,结果相当精确。二,该种方法比较繁杂,而且同样
29、没能顾及到元素之间的相关性对判别结果的影响,是一种较为粗糙的算法模型。三,逐步判别法由于上述两种方法是通过定性判断和穷举遍历的方法进行的,不一定能反映元素中的内在联系和对判别结果的影响程度。从第一问中建立的判别函数可以看出各个变量在判别式中所起到的作用不同,我们可以在不影响判别准确率的前提下剔除部分次要指标,使判别函数更加简洁。为此,我们引入逐步判别法,采用“有进有出”的算法,通过假设检验找出显著性变量,最终确定参加判别分析的主要化验指标。逐步判别法的引入变量 假定计算h步,并且变量,已选入(k不一定等于h),今考察第h+1步添加一个新变量的判别能力。此时将变量分为两组,第一组为前k个已选入的
30、变量,第二组仅为一个变量,这k+1个变量的组内离差阵和总离差阵分别为E和T。= = 含有k个因子的判别方程的判别能力通过wilks统计量表示。 =式中表示含有h个因子的组内离差平方和阵,表示含有h个因子的总离差平方和阵。越小表示判别方程的判别能力越强。第h+1步添加一个新变量的判别能力以表示,可以证明: =*, 其中=所以: -1= 其中=服从Wilks分布,但是由于Wilks分布的数值表一般书上没有,所以常用Rao近似公式。将上式带入Rao近似式中得到引入变量的检验统计量:=*F(i-1,n-h-i)若>(i-1,n-h-1),则判别能力显著,我们将判别能力最显著的变量中最大的变量作为
31、入选变量记为。逐步判别法的剔除变量考察对已入选变量的判别能力,可以设想已计算了h步,并引入了包括在内的某L个为量。现在假设在第h+1步中剔除变量的判别能力,为方便起见,可以假设是在第h步引入的。因此问题转化为考察第h步引入变量的判断能力,此时有: =对相应的、,再作一次消去变换,可证明: =从而得到剔除变量的检验统计量: =*F(i-1,n-(k-1)-i)在已入选的所有变量中,找出具有最大的一个变量进行检验。若<= ,则认为判别能力不显著,可把它从判别式中剔除。逐步计算后再次建立判别函数对样本判别分类:筛选出重要变量之后,再次通过fisher判别法建立判别函数和判别准则(重复问题一的过
32、程)对后30名就诊人员的化验结果进行判断。通过SPSS软件进行结果分析:输入的/删除的变量a,b,c,d步骤输入的Wilks 的 Lambda统计量df1df2df3精确 F统计量df1df2Sig.1Ca.4991158.00058.347158.000.0002Cu.3932158.00044.083257.000.0003Fe.3583158.00033.470356.000.000上表显示了逐步判别中变量进入和剔除的情况。从表中可以看出,第一步纳入的是Ca,到第三步就停止纳入新的变量;精确F栏中的统计量的值是变量均方与误差均方的比值,该值越大,Sig值越小,Sig值最小对应的变量先进入
33、判别方程。所以说该剔除变量过程中,最终只选择了Ca,Cu,Fe,三种元素进入判别方程。分析中的变量步骤容差要删除的 FWilks 的 Lambda1Ca1.00058.3472Ca.42377.333.925Cu.42315.366.4993Ca.40780.574.873Cu.32621.693.497Fe.7115.415.393该表格显示了每一步变量进入判别方程的统计情况。根据Wilks Lambda 逐步的进行变量选择和F检验,每步都使得Wilks Lambda中的最小值的变量进入判别函数。Wilks 的 Lambda函数检验Wilks 的 Lambda卡方dfSig.1.35858.
34、0323.000该表格给出了典型判别方程的有效性检验。从表中的Sig栏我们可以看到该典型判别能力是显著的。标准化的典型判别式函数系数 函数1Ca1.503Cu-1.155Fe.440由图我们可以根据系数写出标准化典型判别函数表达式:Y1=1.503*Ca-1.155*Cu+0.44*Fe典型判别式函数系数 函数1Ca.002Cu-.067Fe.008(常量)-1.815非标准化系数根据系数写出为标准化的典型判别方程:Y1=-0.002*Ca-0.067*Cu+0.008*Fe-1.815分类函数系数 VAR00008.001.00Ca.001.005Cu.013-.164Fe.003.024(
35、常量)-1.014-5.792Fisher 的线性判别式函数该表给出了贝叶斯的fisher线性判断方程的系数。方程为:Y1=-0.001*Ca-0.013*Cu-0.003*Fe-1.014Y2=-0.005*Ca-0.164*Cu-0.024*Fe-5.792分类结果b,cVAR00008预测组成员合计.001.00初始计数.00300301.0052530未分组的案例181230%.00100.0.0100.01.0016.783.3100.0未分组的案例60.040.0100.0交叉验证a计数.00300301.0052530%.00100.0.0100.01.0016.783.3100
36、.0a. 仅对分析中的案例进行交叉验证。 在交叉验证中,每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。b. 已对初始分组案例中的 91.7% 个进行了正确分类。c. 已对交叉验证分组案例中的 91.7% 个进行了正确分类。选取Cu、Ca、Fe元素进行判别的结果编号616263646566676869707172737475判别结果001000000100010编号767778798081828384858687888990判别结果001011100011111对结果分析和作进一步的分析:一,由该表中我们可以清楚的看到对初始分组案例中的91.7%进行了正确分类,对交叉验证分组案例
37、中的91.7%进行了正确的分类。所以我们从结果来看,只用了Ca,Cu,Fe三个化验指标就可以对就诊人员进行较为准确的判断。二,逐步判别法通过引入新变量,剔除对判别影响不大的旧变量,不断重复筛选,这套方案具有更强的数学理论依据,从问题的本质上给出筛选的结果。对问题五分析对问题二和问题四的结果作进一步的分析:一,在问题四的求解结果中我们已经得到三种减少化验指标的方法和利用关键或主要因素对表B.2进行再判断的详细结果,对比发现使用第一种方案对表B.2与问题二中的判断结果有2个不吻合,使用第二种方案对表B.2与问题二中的判断结果有1个不吻合,使用第三种方案对表B.2与问题二中的判断结果有3个不吻合。吻
38、合率都达到了90%以上。二,三种方案中都保有Fe,Ca元素,说明这两种元素对判断起着重要的作用,医院里可做相关的研究以确定Fe,Ca元素的含量与肾炎之间的类在联系,从而根据内在原因更好的判断。三,针对上述的结果,我们可以得知,适当的减少化验指标是可行的,且利用剩下的元素检验回带误判率并没有明显上升,对B.2的的再一次分析判别吻合率也是很高。我们针对不同的算法给出了三种不同的减少化验指标的方案,可以看出三种方案中都含有Fe,Ca元素。我们对医院的建议是,可以适当减少化验指标但是不能去除Fe,Ca元素这两个指标,否则将大大影响到判别精确度。根据实际情况提高模型的实用价值和对模型进行稳定性检测考虑到
39、实际情况中,我们需要知道某一个就诊人员的患病概率决定是否对其进行进一步的化验和检查以确定该就诊人员是否患肾炎。所以我们引入神经网络模型:(1)、初始化网络权重:每两个神经元之间的连接权重被初始化为一个很小的随机数,同时,每个神经元有一个偏置,也被初始化成一个随机数。(2)、向前传播输入:首先,根据训练样本X提供网络的输入层,通过计算得到每个神经元的输出。每个神经元的输入具体公式:=,是上一层的单元i的输出;是本单元的偏置,用来充当阀值,可以改变单元的活性。(3)、反向误差传播:由步骤(2)一直向前,最终在输出层输出,可以通过与预期输出相比较得到每个输出单元j的误差。得到的误差需要从后向前传播,
40、前面的一层单元j误差可以通过和它连接的后面一层的所有单元k的误差计算所得,具体公式:=(1-) 依次得到最后一个隐含层到第一个隐含层每个神经元的误差。(4)、网络权重与神经元偏置调整:调整权重是从输入层与第一隐含层的连接权重开始,依次向后进行,每个连接权重根据公式=+=+(L)进行调整。神经元偏置的调整方法是对每个神经元j进行如公式:=+=+(L)所示的更新。其中L是学习效率,通常取0-1之间的常数。(5)、判断结束:对于每个样本,如果最终的输出误差小于可以接受的范围或者迭代次数t达到了一定的阀值,则选取下一个样本,转到步骤(2)重新执行;否则迭代次数t加1,然后转向步骤(2)继续使用当前样本
41、进行计算。SPSS软件里提供了对Bp神经网络模型的计算方案。定义Q为患病的概率,在20次重复求解中,该就诊个体判别结果为0的次数设为N,Q=N/20;Q=0或者Q=1,我们认为结果稳定。首先,我们通过SPSS软件对全部元素进行20次重复求解并归纳总结判别结果:在前60组中我们发现只有第13,30,38,43就诊个体数据值不稳定, 其他就诊个体均给出明确的判断,经过验证发现Bp神经网络进行判别分析的回代准确率为100%,所以应用该模型来判断后30组就诊个体是可行的。经过SPSS软件的操作,我们发现后30组只有第67,79就诊个体数据值不稳定,说明利用该模型预测结果稳定,对于67,79就诊个体我们不能判断是否患病,建议医院采取进一步化验分析。然后,我们用神经网络模型检验了三种元素筛选法选出的主要因素稳定性。利用问题三中的筛选结果,我们利用神经网络模型再次进行了了20次重复求解并归纳总结判别结果:通过SPSS软件对问题(3)中第一种筛选方案选出的Fe,Ca元素进行求解的结果:在前60组中我们发现只有第18,38就诊个体数据值不稳定,对于已经给出明确判断结果的回代验证准确率为100%,同样说明应用该模型来判断后30组就诊个体是可行的。经
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 计算机信息处理工作技能试题及答案
- 行政法学与社会公共事务试题及答案
- 网络安全攻防案例分析试题及答案
- 2025年法学概论考试中的法律文件研究与试题及答案
- 经济政策评估的标准与方法试题及答案
- 2025年软件考试各类试题及答案
- 行政法学课程教学中的创新要素试题及答案
- 与同事建立良好关系的练习计划
- 高效人际关系的建立与维护计划
- 法学概论的法律环境构建与试题及答案
- 试卷交接签字单
- 调压器技术规范
- 学校生均占地面积
- 《康复医学》第四章 常见疾病的康复 第二节 肿瘤康复课件
- 2016年度高考全国3卷文综地理试题(解析版)
- SIPOC培训教材学习教案
- 2019年重庆江津小升初数学真题及答案
- 《菱形的判定》教学设计(共3页)
- 配电箱系统图
- 电缆井工程量计算
- 初中音乐--人声的分类--(1)pptppt课件
评论
0/150
提交评论