数学建模 心脏病的判别.doc_第1页
数学建模 心脏病的判别.doc_第2页
数学建模 心脏病的判别.doc_第3页
数学建模 心脏病的判别.doc_第4页
数学建模 心脏病的判别.doc_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

心脏病的判别这次最大的错误:未认真读题!读数据!最后一天的晚上才明白数据怎么处理,可是已经晚了。摘 要本文研究的是一个判别分析类问题,解决的是如何根据就诊者的各项生理指标数据,判别就诊者是否患有心脏病以及患病的程度,并确定哪些指标是影响人们患心脏病的关键因素,从而减少化验的指标,以便人们可以及时发现疾病。首先我们对题目中给出的数据进行了处理,通过查找资料以及合理的判断,将-9进行了合理的赋值。亮点所在,应该用较大的篇幅进行介绍。问题一中,我们将250个就诊者按患病程度分为五个总体,建立了多总体fisher判别模型,利用spss软件对13个样本进行分析,剔除,最后得出判别函数,并根据Fisher后验概率最大这一判别规则进行回代,最终得出运用本判别方法判断“是否患病”的正确率为97.2%,判断“患病程度”的正确率为85.6%。0问题二中,我们以问题一的判别函数和判别准则为基础,通过分析,剔除、,得到了新的判别函数。然后我们运用matlab软件,将44名就诊人员13项指标的数据代入判别函数求解,通过判断,得出各自的患病情况结果未写出来。问题三中,题目要求确定影响人们患心脏病的关键或主因素,以便减少化验的指标。为此我们运用逐步剔除法,结合spss软件,将F分布统计检定值中数值小的指标进行剔除。当剔除F、G、B、A、D、E时,分类正确率为82.4%,而将H也剔除时,正确率降为79.6%。因此,我们得出H、C、K、J、I、M为主要因素。问题四中,我们运用与问题二相同的方法,将44名就诊人员13项指标的数据代入问题三得出的判别函数中进行求解,将得出的结果与问题二比较,我们发现:所建判别方法及判别准则在判断“是否患病”时,正确率较高;而在判别“患病程度”时,就有一定的偏差数据。这与模型以及算法本身的准确度有一定的关系,也与我们处理数据时的正确性有一定关系。本文最后对所建模型的优缺点进行了分析,并提出了改进与推广。关键字: 多总体fisher判别 spss软件 逐步剔除法 心脏病的判断1问题重述1.1问题背景心脏是维持全身血液循环的最重要器官。由于现代人不正确的饮食和运动习惯等因素,心脏病患者人数逐年上升,心脏病已经成为威胁人类生命的十大疾病之一,除了老年人,中青年也成为心脏病猝死的高危人群。年轻人的心脏病突发往往没有明显先兆,突然发作时很危险,心脏病的病因很多,有时很难判断一个人是否患有心脏病。附录一是到某医院做心脏病检测的一些确诊者的生理指标数据。(指标A,B,M的含义见附录二,指标N表示是否确诊为心脏病以及患病的程度)1.2需解决的问题问题一:根据附录一中的数据,提出判别心脏病以及患病程度的方法,并检验你提出方法的正确性。问题二:按照问题一提出的方法,判断附录三中的44名就诊人员的患病情况。问题三:能否根据附录二的数据特征,确定哪些指标是影响人们患心脏病的关键或主因素,以便减少化验的指标。问题四:根据问题三的结果,重复问题二的工作,并与问题二的结果对比作进一步分析。2模型的假设与符号说明2.1模型假设假设1:假定就诊人员的身体状况只有患心脏病和健康(非心脏病患者)两类,不考虑就诊人员的其他疾病因素以及身体素质的差异对疾病的影响。假设2:假设除了表中列出的指标外,其他指标对是否患心脏病影响很小。假设3:假设题目中所给的数据是在相同的条件下测得的。假设4:假设样品的估计平均值、协方差分别等于总体的平均值、协方差2.2符号说明年龄;性别;胸痛类型;静息血压;血清中胆固醇含量 mg/dl;空腹时血糖 120 mg/dl;静息时心电图结果;最大心跳速率;运动是否诱发心绞痛;运动心电图ST下降程度;ST段斜坡;大血管属性;地中海贫血;心脏疾病的诊断结果;总体;样品;判别系数;F分布统计检定值3问题分析内容有些少,没得时间写啊本题研究的是多元分析中的判别分析类问题。针对问题一:在已知就诊者各项生理指标及患病情况的前提下,提出判别心脏病以及患病程度的方法,并检验提出方法的正确性。考虑到此题通过研究个体的观测指标来推断该个体的所属类型,我们采用判别分析法进行求解。判别分析法包括:距离判别法、fisher判别法、bayes判别法。综合考虑了这三种判别方法的优缺点,我们决定采用fisher判别法进行求解。首先,我们可以通过spss软件处理原始数据,衡量该十三项指标的相应的标准差、方差、均值等。然后,利用所给数据求解出判别函数,建立判别准则,从而得到确定心脏病以及患病程度的方法。最后,通过回代法,将确诊者的各项指标代入判别函数,通过判别准则得出分类情况,再与原来的分类情况进行对比,即可计算出正确率,从而验证所得出方法的正确性。针对问题二:在第一问的求解基础上,我们分析了待诊断者的信息,排除了一些影响较小的指标,利用spss软件重新分析确诊者的数据,得到新的判别函数。然后通过matlab软件,将附录二中44名待诊断者的数据代入判别函数中,即可求出判别结果。针对问题三:该问要求找出人们患心脏病的主要因素,我们通过spss软件分析得出的各指标F值(分布统计检定值)大小来衡量其对判别函数的影响,然后剔除系数绝对值最小的项,并用原数据进行检验,最终确定主要元素。针对问题四:只需要根据问题三得到的判别方法,重新进行诊断,然后与问题二的结果进行对比作进一步的分析即可。 第 34 页 共 34 页4数据分析数字进行归一处理?根据确诊者的表格信息(具体见附录一),其中患心脏病人数为93个,正常的为157个。由于数据中有-9这一异常数据,我们特将数据作如下处理(各指标属性见符号说明):1M表示地中海贫血,其中3表示正常,6表示固定的缺陷,7表示可逆缺损。查资料可知,地中海贫血能够诱发心脏病,我们将正常人的M指标下的-9置为3,患病程度为1、2情况下的-9均置为7,患病程度为3、4情况下的-9均置为6。2L为大血管属性,其有效数据只有3个,对整体判定结果影响不大,故我们将L数据舍弃。3K表示ST段斜坡,1: 上升,2: 平,3: 下降,我们将正常人的K指标下的-9置为2,患病情况下的-9随机置为1或3。4H为最大心跳速率,我们将正常人的该指标下的-9置为正常人的该指标的平均值,其他患病情况分别根据患病程度置为其范围内平均值。5E为血清中胆固醇含量,将该指标下的-9分别置为其有效范围的平均值。6F为空腹时血糖 ,处理如5所示。 7G为指标静息时心电图结果,0: 正常,1: 有ST-T波异常,2: 可能左心室肥大,观察数据,G指标下有一个数据为-9,我们将之置为1。 以下是我们的处理结果:应该一开始就加着的。 序号E处理F处理G处理K处理M处理11321320022-92-9322432430000-92-933-9234.30000-92-9342372370011-92675270270000022-9762192190011-92-9372542540000-92-9382252250000-92-9395295290000-9-9-9610246246000022-97112982980000-92-93122142140011-92-93131561560000-9-9-97141611610000-92-93152642640000-92-93161671670000-92-93171601600011-92-93183083080022-92-93192572570000-9-9-9720267267000022-97212092090000-92-932234034000002237232832830011-92-9324207207000022-97252112110000-92-93262232230000-9237272602600000-92-93281941940000-92-93291731730011-92-93303153150000-92-93311961960000-9-9-97322972970000-92-93332822820000-9-9-97342922920000-92-9335-9285.4000022-9636117117000022-9737275275-9000-92-93383393390000-92-93392042040000-92-93403073070000-92-93411821820011-92-93421471471100-92-93432412410000-92-9344-9234.3001111-93452732730000-92-9346-9234.30000-92-93472802800000-9-96648200200000022-93492892890000-92-93502152150000-92-9352466466-91002267532752750000-92-9354-9234.30000-92-93552812810000-92-9356172172001122-93572502500011-92-93582892890000-9-967592452450000-92-93602692690000-92-93612912910011-92-9362237237-910022-97631841840000-92-93642952950000-92-93652502500000-92-9366336336000022-97672112110011-92-9368228228000022-93691981980000-92-93701961960000-92-93712682680000-92-93721471470000-92-93732012010000-92-93742232230000-92-93751861860000-92-93761751750000227677-9234.30000-9237782912910011-9-9-96792072070000-92-93802152150011-92-9381247247000022-97822492490011-92-9383288288000022-97842662660000-92-9385184184000022-9386288288000022-96874124120000-92-93882152150000-92-93892182180011-92-9390290290000022-93912372370000-92-93922242241100-92-93932242240000-92-93942972970000-92-9395-9234.30000-92-9396219219001122-9697277277000022-9798163163-9000-92-93991861860000-9-9771002402400011-92371012022020000-9-9-97102272272110022-931032382380000-90-90104238238001122371052802800011-92-931062302300000-92-931072222220000-9-9-961092762761100-92-931102482481100-9-9-96111291291001122-971122632630000-92-931132492490000-92-93115214214000022-931162842840000-92-93117-9234.31111-92-93118227227000022-93119329329000022-961202542540011-9-9-93121163163000011-93122-9234.30000-92-931232382380000-92-931242452450000-92-931252632631100-9-9-971261951950000-92-93127355355000022-96128193193000022-96129268268000022-97130275275111133-96131180180000022-97132234234000022-961332012010000-92-931342532530000-92-931352062060000-9-9-97136-9234.30000-92-931372072070011-92-931382652650000-9-9-97139-9234.30000-92-931402122120000-9-9-96141-9234.30000-92-931421871870000-92-93143297297-900022-931442162160000-92371462022020000-92-931471291290000-92-93148341341001122-971491681680000-92-93150231231001122-97151328328000022-931522092090011-92-931532152150000-92-931542882880000-9-9771552642640000-9-9-971561881880000-92-931571941940000-92-931581791790000-92771592242240000-92-93160303303000022-971612842840000-92-931622592590011-92-93163180180000022-93164342342001122-96165246246001122-961661821820000-9-9-961671001000000-92-931681961960000-92-931692102100000-92-931702722720000-92-931713313310000-9-9-96172-9234.30000-92-93173266266000022-97174225225000022-97175404404000022-96176260260001122-93177468468-9000-92-931785185180000-9-9-96179216216000022-931802432430000-92-931813203200000-92-93182285285001122-931832462460000-9-9-961841951950000-92-93185-9234.30000-92-931862082080000-92-93187273273000022-93188224224000022-971892302300000-92-93190294294001122-97191365365001111-931922382380000-92-931932462460000-92-931942302301100-92-93195-9285.40000-9-9-96196603603110022-96197195195001111-93198216216000022-961993123120000-92-932002162160000-9-9-972012172170000-92-93202309309-9011-92-93203198198000022-96204171171000011-932052372370000-9-976206268268000022-962072772770000-92-93208229229000022-932092702700000-92-932101961960000-9-9772112562561100-92772123263260000-92-93213292292110022-96214-9234.30000-9-9-93215213213110022-9621685276.30000-92-93217388388001122-96218230230001122-93219279279000022-96220342342110022-972211841840000-92-93222219276-9010-9177224265265001122-972252602601100-9267226255255000022-96227308308000022-93228164164001122-932292132130011-9-967230263263000022-96231393393000022772322302300000-92-932332222220000-92-932341791790000-92-932352112111111-9-9-962362512510000-92-93237188318000022-97239338338111122-972402642641122-9-9-962412872870000-92-93242248248000022-97243294294001122-932441931930000-92-932452232230000-9-9-97246306306110022-97247263263110022-96248275275001122-97249-9281.4000022-96 经过以上我们对数据的特殊处理,然后再运用spss软件对数据分析,得出表格1,具体见附录四。表1组统计量N均值标准差有效的 N(列表状态)未加权的已加权的0A46.237.692157157.000B.66.477157157.000G.20.435157157.000J.19.508157157.0001J2.081.3671313.000I1.00.0001313.000K.314.1311313.000M6.92.2771313.000H121.0021.2961313.000F.08.2771313.000E292.6955.6991313.000D141.7717.6261313.000C3.77.5991313.000上表中表示各组变量的统计描述情况,其中给出了各个类型的均值、标准差等统计量。通过这些数据,可以大致了解5种类型在这12个指标上的差异(人工舍弃一个变量L)。5问题一解答5.1模型一的分析本问题为多元分析中的判别分析,现在利用Fisher判别法来处理该问题。Fisher判别法的基本思想: 从个总体中抽取具有个指标的样品观测数据,借助方差分析的构造一个线性判别函数: ,其中系数确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。有了线性判别函数后,对于一个新的样品,将它的个指标值代入以上线性判别函数式中求出 值,然后根据一定的判别规则,就可以判别新的样品属于哪个总体。通过利用软件SPSS来求解,得出的数据在分析比较后,就可以得出结果。5.2模型的建立与计算不搭,所以以后写的时候,如果不懂模型,就把计算和模型写一起,有一个对应。本问题为多元分析中的判别分析,我们建立多个总体的fisher判别分析模型。1假设共有个总体,抽取样品数分别为,则令;第i个总体的第a个样品的观测向量为。则,建立的判别函数为:其中,。2根据求随机变量线性组合的均值和方差的性质可知,在总体上的样本均值和样本方差分别为:其中,和分别是总体内x的样本均值向量和样本协方差矩阵。记为总的均值向量,则,Fisher准则下的目标就是要选取系数向量c,使得如下值最大,即:其中是人为的正的加权系数,它可以取为先验概率。3如果取,并将代入上式可化为:其中A为总体之间样本协方差矩阵,E为组内离差阵,即:4为求的最大值,根据极值存在的必要条件,令,利用对向量求导的公式:因此,。这说明及c恰好是A、E矩阵的广义特征根及其对应的特征向量。由于一般都要求加权协差阵E是正定的,因此由代数知识可知,上式非零特征根个数m不超过min(k-1,p),又因为A为非负定的,所以非零特征根必为正根,记为,于是可构造m个判别函数:5对于每一个判别函数必须给出一个用以衡量判别能力的指标定义为:m0个判别函数的判别能力定义为:6当取m0=1时(即只取一个判别函数),此时有两种可供选用的方法i)不加权法若则判ii)加权法将按大小次序排列,记为,相应判别函数的标准差重排为。令:则可作为与之间分界点。如果x使得,则判。7当取时,也有类似两种供选用的方法i)不加权法记对待判样品,计算若则判。ii)加权法考虑到每个判别函数的判别能力不同,记其中是由求出的特征根。若则判。我们按照上面的模型将样本分为5个总体,分别为0,1,2,3,4,从而建立了五个总体的fisher判别模型,然后通过spss软件进行求解。5.3模型解答过程附录打开spss软件,新建一个数据数据输入完后点“分析”菜单下的“分类”,选择子选项“判别”点击变量N,点击“分组变量”旁的箭头把N加入到分组变量中,点击其他变量,分别点击“自变量”旁的箭头,把其他变量加入到“自变量”中。点击“分组变量”中的N,一次填入“最小值”和“最大值”。点击“统计量”,勾选“描述性”中的“均值”和“单变量”,以及“函数系数”中的“Fisher”和“未标准化”,然后点“继续”。点击“分类”按钮,勾选“输出”中的“个案结果、摘要表、不考虑该个案时的分类”,以及“图”中的“合并组”和“区域图”,然后点“继续”。点击“保存”按钮,勾选全部,然后点“继”续,点“确定”,得到spss软件分析结果。5.4确定判别函数Fisher判别函数的输出如表2所示。表 2:各分类判别函数系数分类函数系数N01234A1.2141.0901.0831.1211.076B1.6631.0161.4601.152.300G1.111-.196.2651.3661.092J-.1093.0253.4643.7005.032I-3.318-.345.744-.5651.438K.254-.893-.952-.657-.934M5.45512.86612.73614.85114.774H.560.549.529.523.524F-.690-1.543-.815-.890-.928E.063.066.078.076.081D.440.435.459.465.463C6.5488.0207.8977.3097.709(常量)-124.170-158.082-161.822-174.316-177.159根据分类函数系数表格可得出各类型的Fisher判别函数为:;。将某待诊者的十二项生理指标分别带入到上述各类型对应的Fisher判别函数,得到五个对应的Fisher函数值,根据Fisher后验概率最大这一判别规则,即所得函数值最大,可以判断某待诊者所属的类型。5.5运用模型一进行检验根据得出的判别函数以及判断准则,将原确诊者的各项指标分别带入各类型对应的Fisher判别函数,进行判别,并将其与原确诊信息对比如下:(其中序号表示人数排号,N表示判断所得的数据,验证表示确诊数据)。缩略表格如下表3,具体见附录三。表3序号N验证序号N验证序号N验证序号N验证100640012700190332006500128001913130066001290019232400670013000193335006800131001943360069001320019533570012000183222462458001210018422247245900122001852224831600012300186242494361001240018724250136200125001882263001260018932经过比对,我们可以看出,有7个人在“是否患病”中被判断错误,有36个人在“患病程度”中被判断错误,由此,我们得出:判断“是否患病”的准确率为 , 判断“患病程度”的准确率为 。5.6模型一的检验分析通过spss软件得出的分类结果如下表:表4分类结果b,cN预测组成员合计01234初始计数0150016015710228313420513052330221362340013913%095.5.0.63.8.0100.01.064.723.58.82.9100.02.021.756.5.021.7100.03.08.78.756.526.1100.04.0.07.723.169.2100.0交叉验证a计数0150016015710191041342077272330321262340114713%095.5.0.63.8.0100.01.055.929.411.82.9100.02.030.430.48.730.4100.03.013.08.752.226.1100.04.07.77.730.853.8100.0a. 仅对分析中的案例进行交叉验证。 在交叉验证中,每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。b. 已对初始分组案例中的 82.8% 个进行了正确分类。c. 已对交叉验证分组案例中的 78.0% 个进行了正确分类。由上表可得,该模型判别的正确率为82.8%,与原结果较为吻合。而从上面所判别的患病情况中,是否患病准确率为97.2%,患病程度的准确率为85.6%,吻合度比较高,结果较为理想。6问题二的解答6.1问题二的分析通过分析44位就诊者的数据(具体见附录二),我们发现L、M、E指标下的数据有均含有-9这一项,而L 、M指标下-9特别多,使得其对判别函数的影响很小,所以我们将L、M这两项舍弃。然后,通过将E指标的数据分为-9和非-9的两部分进行计算,我们发现将E指标去除后,通过spss软件重新分析所得的判别函数准确率更高,达到了83.2%。所以针对问题二,我们舍弃掉L、M、E三个判断指标,通过问题一的方法,重新求解判别函数。6.2判别函数的确定Fisher判别函数的输出如表5所示:表5分类函数系数N01234A1.2181.0931.0871.1251.080B1.7351.0911.5491.238.392C6.6918.1698.0737.4817.891D.446.441.466.472.470F-1.551-2.442-1.879-1.931-2.029G.929-.386.0401.146.859H.554.543.522.517.517I-3.332-.360.726-.5821.420J-.4222.6993.0773.3214.631K.286-.859-.911-.617-.892M5.38712.79612.65214.76914.688(常量)-116.824-150.091-150.599-163.568-165.137Fisher 的线性判别式函数根据分类函数系数表格可得出Fisher判别函数,如下:;。然后将待诊者的各项生理指标分别带入到上述各类型对应的Fisher判别函数,得到五个对应的Fisher函数值,根据Fisher后验概率最大这一判别

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论