




免费预览已结束,剩余10页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2009高教社杯全国大学生数学建模竞赛承 诺 书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。我们参赛选择的题号是(从A/B/C/D中选择一项填写): 我们的参赛报名号为(如果赛区设置报名号的话): 所属学校(请填写完整的全名): 参赛队员 (打印并签名) :1. 2. 3. 指导教师或指导教师组负责人 (打印并签名): 日期: 年 月 日赛区评阅编号(由赛区组委会评阅前进行编号):2009高教社杯全国大学生数学建模竞赛编 号 专 用 页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):摘要本文就是针对健康人与肾炎病人体内Zn、Cu、Fe、Ca、Mg、K、Na七种元素含量的不同,通过建立七种元素含量的数学模型,来寻找一种方法来判断任意一个就诊人员是否为肾炎病人。在问题一的求解中,我们采用了费歇尔判别模型。利用表B.1中前20名肾炎患者和前20名健康人的数据对模型进行求解,提出了一种简单的判别方法,然后我们把剩余的10名肾炎患者和10名健康人的数据代入模型进行检验,发现该判别方法的正确率高达95%。接着我们以此模型对表B.2中61到90号就诊人员进行判断,求得结果,其中15人为患者,15人健康,具体见正文表3。在问题二的求解中,我们采用了主成分分析模型。在对表B.1中的60组数据进行主成分分析后,我们选取Zn,Ca,Mg,K,Na五个指标为影响人们是否患肾炎的关键因素。然后重复对问题一的求解,提出了新的判别方法,在对新的判别方法进行检验时,我们发现新的判别方法的正确率有所下降,达80%。接着利用新模型对B.2中的就诊人员重新进行判断,其中16人患肾炎,14人健康,具体结果见正文表6。最后,我们通过对两个模型对同一组未知数据的判断结果的比较,发现两种模型判断结果的一致率为83.33%。基于以上两个问题的求解,我们发现两个模型各有优缺点。一种需要测量的元素种类较多,但结果相对准确;另一种操作简便,但误差相对较大。因此我们得出结论:认为应结合实际情况,在不同情况下使用不同的模型。关键字:肾炎诊断 费歇尔判别模型 主成分分析 诊断判别方法一、问题重述肾炎是一种困扰人们生活和健康的疾病,及时发现和治疗能够有效地避免和遏制肾炎恶化。人们到医院就诊时,通常要化验一些指标来协助医生的诊断。诊断就诊人员是否患肾炎时,通常要化验人体内各种元素含量。表B.1是确诊病例的化验结果,其中130号病例是已经确诊为肾炎病人的化验结果;3160号病例是已经确定为健康人的结果。表B.2是就诊人员的化验结果。基于上面的数据我们要完成下面的问题:1:根据表B.1中的数据,提出一种简便的判别方法,判别属于患者或健康人的方法,并检验你提出方法的正确性。并按照提出的方法,判断表B.2中的30名就诊人员的化验结果进行判别,判定他(她)们是肾炎病人还是健康人。2:能否根据表B.1的数据特征,确定哪些指标是影响人们患肾炎的关键或主要因素,以便减少化验的指标。根据所得结果,重复1中的工作,然后将所得的结果与问题1的结果进行比较,作进一步的分析。二、模型假设和变量符号说明2.1模型假设1) 题中所给的内容和数据都是真实可信的;2) 除了表中列出的元素外,其他元素对是否会患肾炎的影响很小;3) 没该病的个体都是健康体;4) 假设病例没有其他疾病导致某种元素含量不正常;5) 检测是在同等条件下进行的,即同样的外界环境和生理条件。2.2变量符号说明:某个病人的7种元素组合;:某个病人的费歇尔判别函数;:总体1的协方差矩阵;:总体2的协方差矩阵;:总体1的均值向量;:总体2的均值向量;:判别临界值;:某病人第i种元素的值;:第i种元素的判别系数;:第i个主成分。三、问题分析及思路对于该问题的第1问,实际上就是利用30名肾炎患者和30名健康者人体内的Zn,Cu,Fe,Ca,Mg,K,Na这7种微量元素的含量,给出一个简单的判别方法,判定其是肾炎患者还是健康人。然后对未诊断的30名就诊人员进行判别,判定他(她)们是肾炎病人还是健康人。在已知健康人和肾炎患者各自体内微量元素含量的基础上,我们可以采用某医院化验的30名肾炎患者和30名健康人体内的Zn,Cu,Fe,Ca,Mg,K,Na7种微量元素的含量作为基础数据,先从中选取20名肾炎患者和20名健康人的数据作为样本,进行采样分析,建立费歇尔(Fisher) 判定模型,然后利用剩余的10名肾炎患者和10名健康人的数据对判定模型进行检验,并计算该判定模型的正确率。再利用该判定模型对30名就诊人员进行判别,判定他(她)们是肾炎病人还是健康人。对于问题的第2问,实际上就是根据表B.1的数据特征,确定哪些指标是影响人们患肾炎的关键或主要因素,以便减少化验的指标。因此,我们选择了主成分分析模型来求出影响人们是否患肾炎的关键或主要因素,进而减少化验的指标。接着重复问题1的求解过程,给出新的判别方法,对30名就诊人员进行重新判别,将结果与问题1的结果进行对比分析。四、模型建立与求解4.1问题1的建模求解费歇尔(Fisher)判别是按照各类(总体)中的方差尽可能小,不同类中的均值之间差距尽可能大的原则,即类间距离最大而类内离散性最小的原则求判别函数,并利用判别函数进行最小距离分类。2个总体(总体1和总体2)的基本函数表达为:式中: 和 分别为总体1和总体2的协方差矩阵;和分别为总体1和总体2的均值向量。判别规则:其中:在此题中总体1就是指肾炎病人,总体2指健康人,X就是每个样本中的7种元素的值构成的一个向量。通过化简,原判别函数就可以转换为 : 其中:为样本中第i种元素的值,为第i种元素的判定系数。 现选取20名肾炎患者和20名健康人的数据作为样本,通过matlab编程求出判定函数的各个判定系数,然后确定判定函数。结果如下: 确定判定临界值。 依据求出的判定函数表达式和判定临界值就得到了一种简单的判定方法,即:根据每个就诊人员中各元素值,计算出判定函数的值,然后将计算出的判定函数的值与判定临界值进行比较,如果判定函数的值大于等于判定临界值,则判定其为患病,否则判定其为健康。现利用剩下的10名肾炎患者和10名健康人的数据对该费歇尔判别模型进行检验,并计算该判定模型的准确率。计算结果如表1、表2所示。表1 10名肾炎患者对模型的检验病例号21222324252627282930f(X)1.5982171.422755-0.577880.230936-0.773171.4644740.1438761.5295810.6096031.104563与d的比较大于大于大于大于大于大于大于大于大于大于是否患病患病患病患病患病患病患病患病患病患病患病表2 10名健康人对模型的检验病例号51525354555657585960f(X)-4.39821-1.80257-1.62888-2.17763-5.43523-4.37493-5.10223-2.8534-2.26974-0.71405与d的比较小于小于小于小于小于小于小于小于小于大于是否患病健康健康健康健康健康健康健康健康健康患病从表1、表2可以看出在对剩余20人的判定中,仅有1个判定错误,所以该模型的判定正确率高达95%。根据该判定模型,对30名就诊人员的化验结果进行判别,具体结果如表3所示。表3 对30组就诊人员进行预测病例号61626364656667686970f(X)0.411117-0.62626-1.15810.929443-0.40762-1.14984-2.13477-0.292270.018507-2.65306与d的比较大于大于小于大于大于小于小于大于大于小于是否患病患病患病健康患病患病健康健康患病患病健康病例号71727374757677787980f(X)0.3131330.95390.455611-1.7666-0.855320.274089-1.53291-1.51958-0.10697-3.13663与d的比较大于大于大于小于大于大于小于小于大于小于是否患病患病患病患病健康患病患病健康健康患病健康病例号12345678910f(X)-4.14866-2.924811.336701-1.746660.675634-2.3804-0.75702-4.1025-7.368-1.50392与d的比较小于小于大于小于大于小于大于小于小于小于是否患病健康健康患病健康患病健康患病健康健康健康从表3可以看出在对30名就诊人员的化验结果进行的判定中,其中15名就诊人员为肾炎病人,15名就诊人员为健康人。4.2问题2的建模求解4.2.1主成分分模型介绍主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。在力求数据信息丢失最少的原则下,对高维的变量空间降维,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。这些综合指标就称为主成分。要讨论的问题是:(1) 基于相关系数矩阵还是基于协方差矩阵做主成分分析。当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。(2) 选择几个主成分。主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。(3)如何解释主成分所包含的经济意义。假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为X1,X2,Xp,主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合的问题,而这些新的指标F1,F2,Fk(kp),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。满足如下的条件:(1)每个主成分的系数平方和为1。即:(2)主成分之间相互独立,即无重叠的信息。即:(3)主成分的方差依次递减,重要性依次递减,即:根据B.1中的数据,我们利用Matlab7.0中的princomp命令实现,具体程序见附录。通过计算,我们求出了前三个主成分,即:第一主成分贡献率为44.702,第二主成分贡献率为28.192,第三主成分贡献率为10.327,前三个主成分累计贡献率达83.221。如果按80 以上的信息量选取新因子,则可以选取前三个新因子。第一新因子包含的信息量最大为44.702,它的主要代表变量为(Ca),(Mg),其权重系数分别为-0.50744、-0.53169,反映了这两个变量与是否患病密切相关,第二新因子包含的信息量次之为28.192%,它的主要代表变量为 (K),(Na)其权重系数分别为0.60908、-0.643,第三新因子包含的信息量为10.327,代表变量为(Zn),权重系数为-0.71858。这些代表变量反映了各自对该新因子作用的大小,它们是判别是否患病中最重要的影响因素。因此我们选择Zn,Ca,Mg,K,Na五个指标为影响人们患肾炎的关键因素。重复问题1的过程,依据前20名肾炎患者和前20名健康人的数据得到新的判定函数为:判定临界值为d=-0.21104,用剩下的10名肾炎患者和10名健康人的数据对该费歇尔判别模型进行检验,并计算该判定模型的准确率。计算结果如表4,表5所示。表4 选取新的指标后10名肾炎患者对模型的检验病例号21222324252627282930f(X)1.6228561.366988-0.366990.33135-0.286311.044392-0.216210.8139851.257566-0.37118与d的比较大于大于小于大于小于大于小于大于大于小于是否患病患病患病健康患病健康患病健康患病患病健康表5 选取新的指标后10名健康人对模型的检验病例号51525354555657585960f(X)-1.03331-0.80554-0.64242-0.78181-3.40137-2.59551-2.67073-1.29735-1.35379-0.48463与d的比较小于小于小于小于小于小于小于小于小于小于是否患病患病健康健康健康健康健康健康健康健康健康从表4、表5可以看出在对剩余20人的判定中,有4个判定错误,所以该模型的判定正确率达80%。所以我们得出结论:在减少了化验指标后,模型的正确率下降了。根据该判定模型,对30名就诊人员的化验结果进行判别,具体结果表6所示。表6 选取新的指标后的预测结果病例号61626364656667686970f(X)1.0101080.6273760.4779221.4523760.161853-0.011480.2420430.9949020.692971-0.30443与d的比较大于大于大于大于大于大于大于大于大于小于是否患病患病患病患病患病患病患病患病患病患病健康病例号71727374757677787980f(X)1.8644211.4895470.795372-0.76593-0.953450.390303-0.98806-0.32014-0.5215-1.8363与d的比较大于大于大于小于小于大于小于小于小于小于是否患病患病患病患病健康健康患病健康健康健康健康病例号12345678910f(X)-2.22245-1.664681.406294-0.774141.233737-1.318170.650579-1.34248-2.73572-1.06872与d的比较小于小于大于小于大于小于大于小于小于小于是否患病健康健康患病健康患病健康患病健康健康健康从表6可以看出在对30名就诊人员的化验结果进行的判定中,其中16个就诊人员为肾炎病人,14个就诊人员为健康人。4.3结果比较对简化前后的结果进行对比发现,病例号为3、6、7、15、19共5位急诊人员的诊断结果不同,占总人数的83.33%基于以上两个问题的求解,我们发现主成分分析前后的两个模型各有优缺点。一种需要测量的元素种类较多,但结果相对准确;另一种操作简便,但误差相对较大。因此我们最终得出结论,认为应结合实际情况,在不同情况下使用不同的模型。医疗条件相对较差的医院,可以采用操作简便的模型,医疗条件相对较好的医院因采用准确率较高的模型。在初步诊断的情况下,可以采用测量元素相对较少的模型可以省时省事,在复诊或对准确率较高的情况下,对7种元素进行测量,保证结果的准确率。五、模型评价5.1 优点:1.本文采用的费歇尔判别模型对总体的分布类型没有要求;2.该模型简单,但对是否患病的判别正确率较高;5.2 缺点:1.本文采用的费歇尔判别模型由于变量之间的相关性和多元线性函数变量之间可能存在多重共线性,从而将影响判别的准确性;六、模型的应用与推广这种判别在实际生活中很多,所以这些判别法在日常发挥着很多的作用,除了看病外,地质学中判断有矿无矿,工厂判断产品合格不合格,为新发现的物种分类都可以用这些方法进行分析。在对某一事物的影响因素进行研究时,可以通过主成分分析,在多个影响因素中选取几个最重要的因素进行研究,以减少研究的难度,加快研究的效率,又不减少研究的准确率。因此在研究或疾病诊断中有很好的推广前景。七、参考文献1钟冲,郭强,费歇尔判别法及其应用,西南交通大学学报,第43卷第1期:第136页至第141页,2008年。2范金城,梅长林,数据分析,北京:科学出版社,2002年。3研学论坛,如何用matlab中主成分分析的函数princomp,/viewthread.php?tid=798666,2009年8月28日。附录程序:clear;x=Sheet1;stdr=std(x); 求各变量标准差n,m=size(x);sddata= x.stdr(ones(n,1),:); 标准化变换p,princ,egenvalue=princomp(sddata) 调用主成分分析程序p3=p(:,1:3) 输出前三个主成分系数sc=princ(:,1:3) 输出前三个主成分得分egenvalue 输出特征根per=100*egenvaluesum(egenvalue) 输出各个主成分贡献率表B.1 确诊病例的化验结果病例号ZnCuFeCaMgKNa116615.824.5700112179513218515.731.570112518442731939.8025.9541163128642415914.239.789699.2239726522616.223.860615270.321861719.299.2930718745.5257720113.326.655110149.4141814714.530.065910215468091728.857.8655175.798.43181015611.532.56391071035521113215.917.757892.4131413721218211.311.3767111264672131869.2637.195823373.0347141628.2327.162510862.4465151506.6321.06271401796391615910.711.761219098.53901711716.17.0498895.51365721818110.14.0414371841015421914620.723.8123212815010922042.310.39.7062993.74398882128.212.453.137044.14548522215413.853.36211051607232317912.217.9113915045.22182413.53.3616.813532.651.6182251755.8424.980712355.61262611315.847.362653.61686272750.511.66.3060858.958.91392878.614.69.7042170.81334642990.03.278.1762252.37708523017828.832.499211270.21693121319.136.2222024940.01683217013.929.8128522647.93303316213.219.8152116636.21333420313.090.8154416298.903943516713.114.1227821246.31343616412.918.6299319736.394.53716715.027.0205626064.62373815814.437.0102510144.672.53913322.831.016334011808994015613532267471090228810411698.00308106899.153.02894224717.38.65255424177.9373431668.1062.81233252134649442096.4386.9215728874.0219451826.4961.738704321433674623515.623.4180616668.81884717319.117.0249729565.82874815119.764.220314031828744919165.435.053613921376885022324.486.0360335397.74795122120.115531723681507395221725.028.223433731104945316422.235.52212281153549541738.9936.016242161032575520218.617.7378522531.067.35618217.324.8307324650.71095721124.017.0383642873.5351582
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年保健食品计划试题及答案
- 2025年验船师考试(C级船舶检验专业实务)测试题及答案一
- 2025年注册验船师资格考试(C级船舶检验法律法规)经典试题及答案二
- 2025年环境科学与可持续发展考试试题及答案
- 北京市门头沟区2024-2025学年八年级上学期期末考试英语试题及答案
- 北京市门头沟区2023-2024学年九年级上学期期末质量监测语文试题及答案
- 2025年英语四六级考试作文范文与技巧解析
- 校长建议课件
- 2025年殡仪馆服务流程优化与管理模拟题及解析
- 2025年招聘考试宝典从模拟题看项目经理的必-备知识
- 输血法律法规培训PPT
- 海姆立克急救(生命的拥抱)课件
- 越南语基础实践教程1第二版完整版ppt全套教学教程最全电子课件整本书ppt
- 标准化项目部驻地建设方案(五星级)
- 220kv升压站质量评估报告
- C语言程序设计(第三版)全套教学课件
- 软件系统平台对接接口方案计划
- 硅的基本性质
- 大连市劳动用工备案流程
- 某顶级小学2015-2018幼升小考试题
- 办公楼装饰装修 安全保证措施
评论
0/150
提交评论