数学建模数据分析题_第1页
数学建模数据分析题_第2页
数学建模数据分析题_第3页
数学建模数据分析题_第4页
数学建模数据分析题_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国矿业大学数学建模常规赛竞赛承 诺 书我们仔细阅读了中国矿业大学数学建模常规赛论文格式规范和2016年中国矿业大学数学建模常规赛通知。我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或资料(包括网上资料),必须按照规定的参考文献的表述方式列出,并在正文引用处予以标注。在网上交流和下载他人的论文是严重违规违纪行为。我们以中国矿业大学大学生名誉和诚信郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。我们授权中国矿业大学数学建模协会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。我们的参赛队号: 25 参赛队员 (打印并签名):1. 易阳俊 2. 令月霞 3. 刘景瑞 日期: 2016 年 10 月 日(请勿改动此页内容和格式。此承诺书打印签名后作为纸质论文的封面。以上内容请仔细核对,如填写错误,论文可能被取消评奖资格。)中国矿业大学数学建模常规赛竞赛编 号 专 用 页评阅记录(可供评阅时使用):评阅人备注评阅统一编号(数学建模协会填写):题目:数据的分析问题摘要本文需要解决的问题是如何根据就诊人员体内7种元素含量来判别某人是否患有疾病G和确定哪些指标是影响人们患疾病G的主要因素。通过解读题目可知,此类问题为典型的分析判别问题。我们先对数据进行了预处理,剔除了有异常数据的样本,然后采用元素分布判别法、马氏距离判别法和Fisher判别法,应用Excel、SPSS和MATLAB等软件来对某人是否患病进行判别,并通过绘制7种元素含量的折线图等来确定患该疾病的主要因素,最后应用综合判别法对之前的结论进行了检验。对于问题一,在对数据预处理之后,我们删除了序号为10这个高度异常数据样本,然后我们分别采用元素分布判别法、马氏距离判别法和Fisher判别法对49个已知病例进行判别。对于元素分布判别法,我们通过数据预处理知道7种元素含量分布均符合正态分布,然后我们确定了以均值为大致中心的元素正常含量范围,得出其判别准确度为96%;对于马氏距离判别法,通过编写MATLAB程序(见附录)来进行判别,得出其判别准确度为90%;对于Fisher判别法,通过SPSS软件来进行判别,得到线性判别函数,其判别准确度为96%;针对问题二:我们运用问题一中建立的三个判别模型对25名就诊人员(见附录)的化验结果进行检验,判别结果如下表1:表1判别方法元素分布判别法马氏距离判别法Fisher判别法健康人数151411患病人数101114对于问题三,我们运用Excel对健康人和患者的7种元素分别绘制折线图进行对分析,我们初步判定元素4与元素5是影响人们患疾病G的主要因素,然后用方法一的三种判别方法进行检验,其准确度在85%以上;对于问题四,我们根据问题三得出的主要因素,分别用三种判别方法对25名就诊人员进行判别,再与问题二的判别结果进行对比,可知它们判断结果之间的差异性最高为24%。对于问题五,由于三种判别法都有不足,所以我们采用了综合判别法,将三种判别方法的结果进行综合判断,最终我们通过主要因素进行判别的差异性下降到了12%,与问题一的判断结果的一致性达到了88%。关键词:马氏距离判别,Fisher判别,综合判别,MATLAB,SPSS一 、问题重述.随着大数据时代的到来,人们在处理问题时往往要借助一些实验或检测数据的分析;病人到医院就诊时,医生通常要通过化验和检测得到的数据分析来协助诊断。在医疗诊断中,要诊断一个人是否患上疾病G时,通常要检测人体内7种元素的含量。表1是50个确诊病例的检测结果,其中125号病例是已经确诊为疾病G的病人的检测结果;2650号病例是已经确定为健康人的检测结果。表2是25个就诊人员的检测结果。试解决下列问题:问题1:根据表1中的数据,提出一种或多种简便的判别方法,判别属于疾病G的病人或健康人的方法,并检验你提出方法的正确性。问题2:按照问题1提出的方法,对表2中的25名就诊人员的检测结果进行判别,判定他(她)们是疾病G的病人还是健康人。问题3:能否根据表1的数据特征,确定哪些指标是影响人们患疾病G的关键或主要因素,以便减少化验的指标。问题4:根据问题3的结果,重复问题2的工作。问题5:对问题2和问题4的结果作进一步的分析。二、模型假设(1)假设题目中所给的数据绝大多数真实可靠,不排除出现少数异常数据的可能;(2)假设就诊人员在化验前不会采取增加体内这7种元素的措施;(3)题目中所给的样本只有因这7种元素含量而患G病的患者或者为健康人员,不会受到其他疾病和其他元素的干扰;(4)不考虑各种元素之间的相互作用对机体产生的影响; 三、问题的分析对于此题,我们需要通过对已知病例数据进行分析,从而找到疾病确诊方法。我们首先运用Excel对健康人的7种元素含量绘制散点图进行分析和W检验,得知这7种元素的分布均符合正态分布,再通过拉依达准则法排除了高度异常数据10号样本。针对问题一,我们建立了元素分布判别、马氏距离判别和Fisher判别三种模型。首先,已知7种元素含量分布均符合正态分布,于是我们以健康人员的7种元素含量的均值为大致中心值,确立了一个元素正常含量范围,对于只要存在一个不在正常范围内的元素含量的待诊人员,我们就判定为患者,从而建立了元素分布判别模型;其次,我们利用马氏距离判别法,对原始数据直接进行分析归类,并排除了元素之间的相关性的干扰,运用MATLAB编程中得到的判别函数来对患者和健康人员这两组样本进行马氏判别分析,从而建立了马氏距离判别模型;然后,我们运用SPSS软件对患者和健康人员这两组样本进行Fisher判别,得到区分人员是否患病的线性判别函数和判断准确率,从而建立了Fisher判别模型。最后,我们用已知的49个病例数据对这三个模型分别进行了检验,得到的判别准确率均在90%以上。 针对问题二,我们利用问题一中建立的三个判别模型分别对25位就诊人员是否患病进行判别,结果见表1: 表1判别方法元素分布判别法马氏距离判别法Fisher判别法健康人数151411患病人数101114针对问题三,为了确定影响人们患病G的关键或主要因素,我们运用Excel图表功能对7种元素分别绘制折线图进行对比。通过分析,可知绝大多数健康人员的元素4和元素5含量均大于患者在这两种元素含量的最大值,健康人员与患者含量呈现明显数值差异;而健康人与患者在其他5种元素上的分布差距没有元素4与元素5如此明显,所以我们初步判定元素4与元素5是影响人们患疾病G的主要因素。然后我们用问题一中的三种判别模型对已知病例进行检验,得到的判别准确率均在85%以上。针对问题四,虽然利用问题三中得到的主要元素来进行分析判别的准确率在85%以上,但在与问题二的判别结果进行对比后,可知两种判别结果的差异性(见下表2)。 表2判别方法差异性元素分布判别法16%马氏距离判别法24%Fisher判别法12%由上表可知,问题二与问题四的判别结果的最大差异性有24%,表明此时利用这两个主要因素进行判别结果无法较好达到问题二的判别效果。针对问题五,已知问题四中得到的两个主要因素的判断结果与问题二的判断结果差异性大,而且这三种判别方法均有各自的缺点,于是我们建立了一个综合判别模型,通过三种判别方法来得到最后的判别结果,最终使得两个判别结果的差异性降到了12%,一致性达到了88%。四、符号及变量说明符号意义显著性水平马氏距离判别函数Fisher判别线性函数Fisher判别临界值五、数据预处理5.1数据分析处理实验数据的时候,我们常常会遇到个别数据值偏离预期或大量统计数据值结果的情况,如果我们把这些数据值和正常数据值放在一起进行统计,可能会影响实验结果的正确性。我们首先通过Excel做出了26-50号健康人的7种元素的散点图(如下图):图1 图2 图3 图4图5 图6 图7由图可知:1、序号为10的健康人员的元素数据十分异常,我们暂且忽略这个样本。2、我们可以发现忽略掉少数几个异常数据外,每种元素数值大都集中在中间某个数值附近,则我们可以初步判断这7种元素的含量可能服从正态分布,于是我们认为可以通过统计学知识中的W检验来对这些数据分别进行正态性检验。5.2 W检验W检验全称Shapiro-Wilk检验,是一种基于相关性的算法,通过计算可得到一个相关系数,它越接近1就越表明数据和正态分布拟合得越好。W检验是检验样本容量8n 50时,样本是否符合正态分布的一种方法。我们已知25个病人数据和24个健康人员数据,计算公式为:其检验步骤如下: 5.3 正态性检验通过编写MATLAB程序(见附录),我们可以得到健康人员的7种元素的W值(见下表3): 表3元素j1234567W值0.94290.66740.62620.90510.95480.91250.9187 通过进一步对元素2和元素3的散点图(见表2和表3)的观察可知,其中的一些异常数据可能干扰了判断结果,在先忽略掉序号为19的健康人员的元素2数据和序号为11、21的健康人员的元素3的数据后,再对它们进行一次W检验(见下表3): 表4元素序号i230.95850.8617认为它也应该满足正态分布。5.4 数据检测拉依达准则法是最常用的异常值判定与剔除准则,优点是简单,无需查表,测量次数较多或要求不高时用。在这种情况下,异常值是指一组测定值中与平均值的偏差超过两倍标准差的测定值。与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。在处理数据时,应剔除高度异常的异常值。异常值是否剔除,视具体情况而定。在统计检验时,指定为检出异常值的显著性水平=0.05,称为检出水平;指定为检出高度异常的异常值的显著性水平=0.01,称为舍弃水平,又称剔除水平(reject level)。由于我们已知7种元素含量分布均符合正态分布,所以我们可以用以下计算公式来判断异常值是否存在,公式如下:当s0时,为异常值;当s0 x(i)=0 ;%0代表被判定为健康人员,1则代表被判定为患者。else x(i)=1; end end %判别结果x9.3 SPSS的Fisher判别分析结果:逐觀察值統計資料個案編號實際群組最高群組第二高群組預測的群組P(Dd | G=g)P(G=g | D=d)重心的馬氏 (Mahalanobis) 距離平方群組P(G=g | D=d)重心的馬氏 (Mahalanobis) 距離平方1pdf原始111.9161.994.0112.006211.7721.979.0842.021311.7681.996.0872.004411.6811.998.1692.002511.5251.941.4042.059611.4931.932.4702.068711.6581.967.1962.033811.5261.999.4032.001911.7461.997.1052.0031011.7561.997.0962.0031111.4231.999.6422.0011211.5501.999.3582.0011312*.1501.5752.0721.4251411.8391.995.0412.0051511.8311.995.0462.0051611.4791.928.5002.0721711.7601.997.0932.0031811.5431.946.3702.0541911.19211.0001.7022.0002011.5461.999.3652.0012111.5611.999.3382.0012211.6081.998.2622.0022311.2711.7931.2132.2072411.9321.989.0072.0112511.3121.8351.0232.1652622.9631.990.0021.0102722.1961.6801.6731.3202822.2261.7331.4641.2672922.2061.6981.6021.3023022.7741.979.0831.0213122.8031.996.0621.0043222.9081.988.0131.0123321*.1981.6841.6562.3163422.5051.936.4451.0643622.5031.999.4481.0013722.3731.880.7941.1203822.1411.5522.1631.4483922.4061.999

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论