




已阅读5页,还剩14页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。我们参赛选择的题号是(从A/B/C/D中选择一项填写): 我们的参赛报名号为(如果赛区设置报名号的话): 所属学校(请填写完整的全名): 广东商学院 参赛队员 (打印并签名) :1. 2. 3. 指导教师或指导教师组负责人 (打印并签名): 日期: 2012 年 8 月 18 日赛区评阅编号(由赛区组委会评阅前进行编号):2010高教社杯全国大学生数学建模竞赛编 号 专 用 页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):17疾病诊断问题摘要随着就医压力增加,好的诊断方法对诊断的正确性和效率起重要影响,本文通过已确诊病例数据建立判别模型,并筛选出影响人们患病的主要指标,对就诊人员进行诊断。针对问题(1),依据60名已确诊病例数据,分别建立Fisher判别模型、Logistic回归模型和BP神经网络模型,运用matlab、spss求解,得出判别准则,并对模型进行显著性检验和回代检验,得出各模型的准确率。结果显示Fisher判别模型的准确率为93.3%,Logistic回归模型和BP神经网络模型准确率均为100%,而Logistic回归模型既简便又精确。针对问题(2),依据模型的准确率,分别选择100%高准确率的Logistic回归模型和BP神经网络模型对40名就诊人员进行诊断,诊断结果如下表: Logistic回归模型BP神经网络模型健康者1821患病者2219 针对问题(3),建立Logistic逐步回归模型,对各元素进行逐步引入,利用spss软件求解,确定Ca和Fe是影响人们患这种病的主要因素,并对仅含Ca与Fe的Logistic回归模型进行回代检验,准确率为100%。针对问题(4),以Ca和Fe为指标,分别利用Logistic回归模型和BP神经网络模型对40名就诊人员进行诊断,结果这两个模型的诊断结果完全吻合,如下:健康者10 19 20 22 23 25 26 27 28 29 30 31 32 33 34 36 37 38 39 40患病者1 2 3 4 5 6 7 8 9 11 12 13 14 15 16 17 18 21 24 35针对问题(5),对比问题二与问题四中就诊人员的诊断结果,发现无关元素会影响模型进行诊断的准确率,并且模型的误诊一般出现在判别准则的分界线处。 关键词 Fisher判别模型 Logistic回归模型 BP神经网络模型 逐步回归模型一、 问题重述人们到医院就诊的时候,通常通过化验一些指标来协助医生诊断。医生根据化验所得的元素含量,利用某种指标,判断病人是否患病。本题给出了附录1(确诊人数),和附录2(待诊人数),其中附录一中1至30号是确定患病的病人,而31至60号是没有患病的健康人,要求回答以下问题:(1)、根据附件1中的数据,提出一种或多种简便的方法,判断属于患病者或健康人的方法,并检验你提出方法的正确性。(2)、按照(1)提出的方法,对附件2中的40名就诊人员的化验结果进行判定他(她)是患病者还是健康人。(3)、能否根据附件1的数据特征,确定哪些指标是影响人们患这种病的关键或主要因素,一边减少化验的指标。(4)、根据(3)的结果,对附件2中的40名就诊人员的化验结果进行判别,判定他(她)们是患病者还是健康人。(5)、对(2)和(4)的结果作进一步分析。二、问题分析随着就医压力增大,简便的医学化验标准和方法可以大大提高医生诊断的效率。依据已确诊的病例数据特征,对就诊病例进行分类,协助医生做出准确的医疗判断。针对问题(1),要求利用附录1已确诊的病例数据找出一种或多种简便的方法,判断就诊人员患病与否。依据附录1中60位已确诊病例,分为两个整体,即健康者与患病者,并可从患病者与健康者体内的7种元素含量入手,即分析确诊人员的体内元素含量和患病与否的关系。因此,可构造各种判别分析法,得出其各自的判别准则,同时对其进行显著检验,最后利用已知病例数据回代,分别计算不同判别方法的准确率并进行比较。针对问题(2),依据问题(1)各判别模型的准确率,选择两个准确率最高的判定模型分别对附录2的40名就诊人员进行病例判诊,诊断出其是否健康并区别诊断结果的差异。针对问题(3),问题(2)中两个准确的模型出现不同结果,猜测可能确定存在一些影响不明显的干扰因素,但对模型的准确性出现些许偏差,因此可利用Logistic向前条件逐步回归模型对各元素逐步引入和移除,确定影响疾病判别的主要元素,提高诊断的准确率与速度。针对问题(4),排除无关元素后,以仅包含影响显著的元素为指标,分别以logistic回归模型和BP神经网络模型,对40名就诊人员重新进行诊断。针对问题(5),通过比较问题(2)和问题(4)元素以及诊断结果的改变,通过横向和纵向思考,分析影响诊断结果的原因。 三、模型假设(1)假设60名确诊病例数据准确无误,即不存在医生误判的情况;(2)样本个体间相互独立;(3)假设这100名人员无其它疾病,即可将它们二分类为有无患病或有无患这种病。 四、符号说明符号符号说明判别模型的准确率,即判别准确人数占总人数之比确诊病例总体,总体数据矩阵疾病判别函数的各系数,的判别值网络学习样本,为样本输入,为期望输出隐含层第个神经元的输出各层权系数阀值BP神经网络的学习率输出层输出值与期望输出值的误差在自变量的条件下y=1的期望或概率Sig统计显著性,即出现元素的机率Score单元素的得分五、模型的建立与求解5.1 问题一的求解依据检查结果,对就诊人员进行健康与否诊断的方法有多种,根据已知限制条件,本文选择其中三种判别分析模型:Fisher判别模型、二类logistic回归判别模型以及BP神经网络模型。同时,为了检验三种判别分析模型的准确率,我们引入一个变量P为准确率。5.1.1 Fisher判别模型5.1.1.1 Fisher判别模型的建立与求解将患病和健康为两个总体:、,并且都以体内检测的7个元素作为其集合元素。Fisher判别主要借助方差分析的思想,利用投影,将这两个总体投影到一个方向,建立线性判别函数,并利用判别规则,通过计算后得出检查结果属于或。(1)确定原始数据矩阵以各元素为列向量,以就诊人员为行向量,构造关于病患和健康者的两个矩阵。的数据矩阵为:的数据矩阵为:(2)计算两组各元素数据的平均值。矩阵,的列平均数分布为:=(143.10,12.33,23.07,698.17,201.13,526.83)=(186.6,21.92,62.01,2511.13,298.14,90.37,367.21)(3)利用微分学的方法,计算系数,=1,2,3,4,5,6,7要体现出分组的两个特征:、组间差距越大越好;、组内差距越小越好。可得出以下公式:对其求偏导,得出=。(4)确定判别函数(5)计算、代表的判别值得出判别值为:(6)上述计算过程,可由matlab编程实现,代码见附录(一)得出结果如下:因此,在本题中,当y时,y的样本属于,即样本属于患病者。反之样本属于,即样本属于健康者。5.1.1.2 Fisher判别法的检验利用F检验,设显著性水平=0.05.计算统计量如下:F=14.7(7,52)(7,50)=2.20因此,F(7,50) (7,52).说明判别函数是有效的,从而可以用来做判别。5.1.1.3 Fisher判别回代检验将已确诊样本数据回代判定函数,得出健康者检验值如表5.1.1-1和患病者检验值表5.1.1-2(见附录表5.1.1-2):表5.1.1-1:健康者检验值病例号检验值病例号检验值病例号检验值31-0.1389023859341-0.1566953109451-0.2246818836632-0.0787391973242-0.1450712530452-0.1288583279033-0.0922783693243-0.0926614320653-0.1080153559534-0.1048084160144-0.200566-559754-0.1225218303135-0.1475102020545-0.3171631414655-0.2327619404936-0.1935060282146-0.1050131208856-0.1956441999437-0.1347417354547-0.14896771679457-0.2407317081738-0.0537011573948-0.11832053095758-0.1649440808639-0.0683401315149-0.17006175389459-0.1177260065640-0.2425618333450-0.22626838387260-0.07374184224由表5.1.1-1和表5.1.1-2可知,患病者检验准确,而健康者被误诊为患病的个案有4个,分别为就诊人员32、38、39和60,它们都大于-0.0811。因此,Fisher判别模型的准确率为:=93.333%.5.1.2 BP神经网络3层BP神经网络(包括输入层),可以以任意精度逼近任何非线性函数。并且,有导师学习的BP神经网络实质是在对学习样本进行学习的过程中,利用梯度下降法,不断反馈修改权值,直到网络输出与期望值的误差小于给定标准,结束学习训练,并固定联结权值,输入待测样本就可给出适当的输出。因此,BP网络对于解决判别就诊人员健康与否的问题非常实用、有效。5.1.2.1 有导师学习的BP神经网络模型的建立(1)确定学习样本以样本作为学习样本,其中,输入数据为,为相应的期望输出值。当,表示已确诊为患病的1-30号病例;当时,表示已确诊为健康的31-60号病例。(2)构造前向三层网络前向三层网络含有输入层、输出层和隐含层,并依据R.P Lippmann研究:对于任给k个实数值样本,有2k+1个隐节点的三层网络可以记忆它们,这个隐单元的激发函数可以是任何渐近函数,可设隐含层节点N=5,即能使网络记忆全部样本信息。其结构如图5.1.2-1: 输出层 权重 隐含层(节点数为5) 输出层图5.1.2-1 神经网络结构图(3)计算各层输出对于隐含层的第个神经元的输出,有:,其中,Sigmoid函数,各层权系数随机初始化,而输出层输出值.(4)求各层的学习误差输出层误差为,隐含层误差为.(5)修正权系数和阀值,有:输入层与隐含层的连接权重:,隐含层与输出层的链接权重:.其中,为学习次数,为学习效率,即步长,一般比较小。(6)判断学习结束,检验网络误差给出误差函数的标准,若满足误差要求,学习结束,固定权系数,并重新对样本进行检验,计算出网络命中率;否则,一直循环至最大迭代次数。(7)输入待测病例样本,对病例样本进行健康与否分类。5.1.2.2 BP神经网络模型的求解利用Matlab编程,设置学习率=0.09,最大迭代次数为50000次,误差为,网络学习训练固定权重后,再以学习样本作为待测样本进入网络进行健康与否检验,分类检验结果如表5.1.2-1:表5.1.2-1:患病病例检验值病例号检验值病例号检验值病例号检验值11.00000000000111.00000000000211.0000000000021.00000000000121.00000000000221.0000000000031.00000000000130.99998392503230.9999999561341.00000000000141.00000000000240.9999999999951.00000000000151.00000000000250.9999839250360.99999963667161.00000000000261.0000000000071.00000000000171.00000000000270.9999720992281.00000000000180.99999997713281.0000000000091.00000000000191.00000000000291.00000000000101.00000000000200.99999997765301.00000000000由检验结果表明,BP神经网络的检验准确率P=100%,无误判情况出现。5.1.3 Logistic回归分析模型Logistic回归分析是对定向变量的回归分析,而由于因变量分为两类,取值只有1(患病者)和0(健康者),因此不能用一般的回归分析。此处可将只取0和1的因变量离散值,改为连续的函数,从而得到它与7种元素的关系,然后通过这种关系即可判断就诊人员是否患病。5.1.3.1 Logistic回归分析模型的建立与求解(1)设因变量为y,且有以下简单线性回归方程:由于y取值是离散型的,记,即得到期望:则有: =表示在自变量的条件下y=1的期望或概率。即其logistic回归方程为:(2)由于对x的变化缓慢,因此引入的logistic变换,即:显然,以=0为中心对称,且在=0和=1间变化幅度大,如图:图5.1.3-1:logistics回归曲线显示(3)根据所给的样本值,进行参数估计,可利用spss求得logistic回归方程系数估计,得到方程:(4)将回代,求出回归方程=若(0,0.5),则属于健康人,记为0;反之属于患病者,记为1。(5)模型检验由上表得,-2对数似然值为0,说明模型对数据达到完美拟合,且Cox &Snell R方和Nagelkerke R方统计量分别为0.750和1,说明由方程解释的回归变异比较大,拟合效果很好。将60名已确诊患病与否的就诊人员检测结果代入,得到准确率为:P=100%5.2问题二的求解基于问题一,Fisher判别、BP神经网络以及logistic回归模型的准确率分别为93.333%、100%、100%,在此处选择BP神经网络和logistic回归模型对40名就诊人员进行健康与否判别,得出诊断结果如表5.2-1和表5.2-2:表5.2-1:BP神经网络对就诊人员的分类诊断病例号测定值病例号测定值病例号测定值病例号测定值10.99999999968110.9999999999210.9999999996310.000000419520.99999999968120.9999999996220.0000053185320.000005318530.99999999968130.9999999997230.0000053185330.999999999940.99999999998140.9999999996240.0005059846340.000005318550.99999999963150.9999999997250.0000061100350.999999999760.00000532784160.9999999999260.0000004195360.000005318570.00007056189170.9999999997270.0000004195370.999999999680.99999999968180.9999999996280.0000053185380.000005318590.99999999963190.0000053185290.0000053185390.0000004195100.00000531848200.0000053185300.0000053185400.0000053186由上表可看出,健康者为病例号6,7,10,19,20,22,23,24,25,26,27,28,29,30,31, 32,34,36,38,39,40,共21人;患病者为病例号1,2,3,4,5,8,9,11,12,13,14,15,16,17,18,21, 33,35,37,共19人。表5.2-2:logistic回归分析对就诊人员的分类诊断待检验检验值待检验检验值待检验检验值待检验检验值111112113102112122032031131230331411412413405115125035061161260360711712703718118128038091190290390100200300400由上表可看出,健康者为病例号10,19,20,22,23,25,26,27,28,29,30,31, 32,34,36,38,39,40,共18人;患病者为病例号1,2,3,4,5,6,7,8,9,11,12,13,14,15,16,17,18,21,24,33,35,37,共22人。BP神经网络和logistic回归在6,7,24号病例就诊时出现偏差,6,7,24号病例在BP神经网络测试中分为健康者,而在logistic回归中则为患病者。 5.3问题三的求解5.3.1二项logistic逐步回归模型的建立与求解基于问题一中二项logistic回归模型,在SPSS数据分析选择二元logistic回归的向前LR方法,经多次试验,取进入步进概率=0.05,删除步进概率=0.10,进行二项logistic逐步回归过程。(1) 拟合起步前不包含检验元素(常量)的logistic模型对单元素变量进行卡方检验,Sig(2) 假设已逐步到第步,引入变量对个单元素的得分Score,自由度以及Sig值,最为显著的元素即Sig最小最先引入到logistic模型,若不止一个,其中Score最大优先选择。得分公式为:Score=其中,为患病人数占总就诊人数,为第个元素测定值的平均值。基于此,从各元素中寻找显著性最大的,再从剩余的元素中再寻找最大的,直到剩余的元素进入后解释率上升达不到显著水平。(3) 将数据输入SPSS中,得到以下结果: 从上表可看出,所有的Sig都是0,而卡方越来越大,说明越来越显著。(4) 判别拟合效果。由Hosmer和Lemeshow检验的随机性表可观察到观测值与期望值接近,说明模型拟合得比较理想。由上图“如果移去项则建模”的步骤1可看出,移去Ca项时,会引起70.110的数值更改,只剩下常数项。在步骤2中,移去Fe项时,会引起3912.153的数值改变,只剩下Ca和常数项。步骤1和步骤2中,不管移除哪一项,更改的显著性都非常小,因此两项都不能移除。由此,可得出一个新的logistic回归模型:即:= =与问题(1)的logistic回归相同,当(0,0.5)时,就诊者属于健康人,记为0;反之,属于患病者,记为1.利用附录1病例数据,验证上述公式。得出结果与问题(1)的结果相同,准确率为P=100% 。5.4 问题四的求解利用问题二的方法,根据问题三得出的结论,利用Ca和Fe作为检测指标,求解未确诊的40名就诊人员。得到如下结果:表5.4-1 利用Ca和Fe作为指标的BP神经网络病例测定待检验检验值待检验检验值待检验检验值待检验检验值10.999997885110.999999569210.999998286310.00000580920.999997809120.999998280220.000004136320.00000513330.999999803130.999998289230.000000357330.00001083040.999999466140.999999370240.999999128340.00000299950.999998965150.999998140250.000000812350.99999799260.999999708160.999998866260.000005822360.00000580170.999999068170.999997786270.000004465370.00000122480.999999707180.999998355280.000000354380.00000041690.999997945190.000004854290.000005511390.000005766100.000004348200.000003980300.000005728400.000004774由上表可看出,健康者为病例号10,19,20,22,23,25,26,27,28,29,30,31,32,34, 33,36,37,38,39,40,共20人;患病者为病例号1,2,3,4,5,6,7,8,9,11,12,13,14,15,16,17,18,21,24,35,共20人。表5.4-2 利用Ca和Fe作为指标的logistic模型病例测定待检验检验值待检验检验值待检验检验值待检验检验值111112113102112122032031131230330411412413405115125035161161260360711712703708118128038091190290390100200300400由上表可看出,健康者为病例号10,19,20,22,23,25,26,27,28,29,30,31,32,34, 33,36,37,38,39,40,共20人;患病者为病例号1,2,3,4,5,6,7,8,9,11,12,13,14,15,16,17,18,21,24,35,共20人。5.5 问题五的求解对问题(2)和问题(4)的结果进行分析对比,总结如表5.5-1:表5.5-1 问题(2)与问题(4)结果分析模型对比健康者诊断变异病例号变异率题(2)BP神经网络6,7,10,19,20,22,23,24,25,26,27,28,29,30,31, 32,34,36,38,39,4067245%题(2)logistic10,19,20,22,23,25,26,27,28,29,30,31, 32,34,36,38,39,40题(4)BP神经网络10,19,20,22,23,25,26,27,28,29,30,31,32,34, 33,36,37,38,39,40完全吻合0题(4)logistic10,19,20,22,23,25,26,27,28,29,30,31,32,34, 33,36,37,38,39,40题(2)BP神经网络6,7,10,19,20,22,23,24,25,26,27,28,29,30,31,32,34,36,38,39,406733346.67%题(4)BP神经网络10,19,20,22,23,25,26,27,28,29,30,31,32,34,33,36,37,38,39,40题(2)logistic10,19,20,22,23,25,26,27,28,29,30,31, 32,34,36,38,39,4033373.33%题(4)logistic10,19,20,22,23,25,26,27,28,29,30,31,32,34, 33,36,37,38,39,40Logistic模型和BP神经网络模型是以已确诊样本为基础建立的,经过检验后两个模型的准确率都是100%,而在问题二中对40名待诊者进行诊断出现不同结果 ,说明两个模型在建立过程中,有干扰因素影响了模型的准确性,在问题三中筛选出主要影响元素后,再对同样的就诊者进行检验,出现的结果是完全一致的,说明选取与疾病关系很小的元素作为检验指标会影响模型的准确性。在问题四中进一步说明两个模型都能够比较准确的对患者进行诊断。分析问题二和问题四中出现的结果,说明在医学检验中,筛选主要因素不单单可以提高检验效率,更可以提高检验模型的准确率,避免误诊。六、模型评价模型的优点:1、Fisher判别模型的运用简单,在模型建立以后,直接利用指标值和线性判别函数就可以进行诊断。2、Logistic回归模型可以直接利用建立的回归方程进行诊断,且具有相当的准确性。3、BP神经网络模型具有较高的准确性,进行诊断时,具有相当的可靠性。模型的缺点1、Fisher判别模型缺乏准确率,比较容易出现误判的现象。2、BP神经网络模型在实际医院就诊时操作比较复杂,推广性相对弱。3、在建立模型过程中,利用所有样本数据进行建模,进行回代检验,缺乏一定的客观性。七、模型改进建立模型过程中,因为数据样本量的限制,没有将数据分为训练组和检验组,这导致模型的建立缺乏一定的客观性。为了提高模型的客观性和准确性,对数据进行收集,在样本量达到一定量的情况下将数据分为训练组和检验组,使模型更具客观性和准确性。八、参考文献1韩方群.人工神经网络理论设计及应用M,北京化工工业出版社,2007. 2袁曾任.人工神经网络及其应用,清华大学出版社,1999.3张德丰.MATLAB模糊系统设计,北京国防工业出版社,2009,4.4倪雪梅.SPSS统计分析,清华大学出版社,2010,35任康.Logistic回归模型在判别分析中的应用J,南京信息工程大学,2007,11(6):71-73.附录附录(一)Fisher判别代码:clear;clc;close all;w1=load(m.txt);% 患病者总体数据w2=load(n.txt);%健康者总体数据xx=22616.223.860615270.3218; % 待确诊病人数据m1= mean(w1); % 患病者样本均值向量m2= mean(w2); % 健康者样本均值向量k=m1;m1;m1;m1;m1;m1 m1;m1;m1;m1;m1;m1 m1;m1;m1;m1;m1;m1 m1;m1;m1;m1;m1;m1 m1;m1;m1;m1;m1;m1;j=m2;m2;m2;m
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 桃红葡萄酒发酵工艺
- 2025年视觉设计岗位面试常见题
- 栽蒜苗课件教学课件
- 2025年人力资源招聘面试题详解及技巧指导
- 公务员海关面试题及答案
- 2025年嵌入式开发工程师中级面试题库及答案解析
- 2025年互联网产品经理招聘考试题库及解析
- 2025年建筑设计师的高级面试技巧及实战模拟题集
- 2025年初级工程师英语模拟考试试题及答案
- 六年级叙事作文人间处处有真情650字10篇
- 大学班助培训
- 学校公文写作培训
- 药品责任赔偿管理制度
- 中国2030年能源电力发展规划研究及2060年展望
- 子公司设立管理制度
- 阿氏圆教学课件
- 陇南市成县县属国有企业招聘笔试真题2024
- 公安擒拿教学课件
- 内蒙古自治区“十五五”农牧业发展计划
- 中等职业学校幼儿保育专业《婴幼儿行为观察与引导》课程标准
- 产后耻骨护理
评论
0/150
提交评论