基于bayes判别法的胃病鉴别.doc_第1页
基于bayes判别法的胃病鉴别.doc_第2页
基于bayes判别法的胃病鉴别.doc_第3页
基于bayes判别法的胃病鉴别.doc_第4页
基于bayes判别法的胃病鉴别.doc_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于bayes判别准则的胃病分类模型 摘要(针对什么问题,采用了什么方法原理,建立了什么模型,得到了什么结果,10分,3/4最合适)本文解决的问题是如何根据被检验者的各项生化指标,建立合理的判别准则,将被混淆的12个样本结果区分开来,并且判别胃病的类别。在合理的假设下,利用系统聚类原理,将所给的12组数据进行分类,计算分类后患胃癌、萎缩性胃炎、非胃病的概率分别为、,再利用bayes判别函数求出待测样本的的得分,判别待测样本的所属类型。 针对问题一,首先利用spss软件对样本A、B、C(题中已给定类别的三组)数据进行系统聚类。再利用bayes判别模型,由分类后数据求出判别函数,带入样本的指标计算得分,判别出混淆的12个样本的所属类型。 针对问题二,由问题一得出的判别准则,把待判数据X、Y、Z带入判别函数,得出X、Y为胃炎患者,Z为非胃病患者。本文最后将被混淆的12个样本区分开来,并且判别就诊者中有两个胃炎患者,另一个是非胃病患者,文章的末尾给出模型的评价及模型的改进方向。关键词:系统聚类;bayes函数判别法;SPSS统计1问题重述胃癌患者易误诊为萎缩性胃炎患者以及非胃病患者。进行胃癌的鉴别主要是通过化验4项生化指标:血清铜蓝蛋白(X1)、蓝色反应(X2)、尿吲哚乙酸(X3)、中性硫化物(X4)。本来从胃癌患者、萎缩性胃炎患者以及非胃病患者中一共抽取了12人进行指标化验,但是由于医护人员的疏忽,将化验结果搞混了。现有以前对胃癌患者、萎缩性胃炎患者以及非胃病患者化验的结果各一例,依次为(228,134,0.20,0.11)、(150,117,0.07,0.06)、(135,108,0.02,0.12),混淆的化验结果见附件医学上一般根据临床的经验认为,患同一种病的人所表现出来的特征往往是相似的。现在需要解决两个问题(1.)建立一种判别准则,把上述混淆的结果区分开来。(2).再给你三个病人的化验指标如下:(210,142,0.10,0.08)、(180,120,0.08,0.21)、(150,130,0.05,0.14),试区分他们各属于哪一类人群。2问题分析:题中有三个已知样本,一个胃癌患者、一个萎缩性胃炎患者、一个非胃病患者,但是样本量太小,为得到一个可靠的标准,首先对混淆的十五个样本聚类,然后用聚类后得到的样本建立判别准则。第一步:利用系统聚类的方法,将13、14、15三个已知样本加入到十二个混淆样本中进行聚类,聚成三类得到一个较大样本的,成为待判三个样本的判别标准。第二步:,由第一步得到的判别标准,利用bayes判别法判断这三个待判病人(210,142,0.10,0.08)、(180,120,0.08,0.21)、(150,130,0.05,0.14)。分别属于哪一类3模型假设:(要合理,要与模型相关,不要无中生有)假设1:被检测的人员除本题研究的疾病相关外无任何疾病。假设2:被检测的人员种族,血缘之间没有任何关联。假设3:被检验的四项生化指标两两之间无关联。 4符号说明:(一定要做两次说明,在模型建立的时候还要做一次说明,要让阅卷老师看起来方便)为第i个函数(i=1、2、3)为第i个方程第j个指标前的系数(i=1、2、3;j=1、2、3、4)为第i个方程的常数项(i=1、2、3)为胃病的样本(i=1、2、3),其中1为胃癌,2为胃炎,3为非胃病为两两样品间的距离()5 模型建立(一般模型的建立与求解是写在一起的,占4060分)5.1模型一利用系统聚类的方法处理数据(交代所采用的方法的原理)由于各指标的单位和数量级差异较大,应先将所有数据标准化。定义为不同指标,为待测数据序号,公式如下: (1)先把12个混淆样本和三个已知样本单独视为一类,即分成15类,算出每两类间的距离共个距离,定义两两样品间的距离为, 其中我们采用欧氏距离计算。定义分别表示不同的类别,(1、2、3、4)表示维数。则为: (2)然后根据距离最小的原则,依次选出一对分类对象,并成新类。如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。每一次归并,都划去该对象所在的列与列序相同的行。经过14次就可以把全部分类对象归为一类,这样就可以得到谱系聚类图。对于新类与当前类的距离,我们需先重新确定新类的重心,再用重心坐标算欧氏距离即可。假设将类和合并成新类。则的重心为: (3)聚类的过程如下:各自确定一个聚点计算两两类之间的距离,将距离最近的聚成一类重新确定聚点分类是否合理分类结束修改模型YesNo经过数据处理后我们就得到了一个已知类型的样本,其中13、14、15分别属于一类。5.2模型二经过模型一处理后我们就得到了一个已知类型的样本,其中13、14、15分别属于一类,在模型一的求解过程中可以得到胃癌患者、胃炎患者、非胃病患者的发生的概率分别为、,利用bayes判别法就可以建立三个判别函数,根据判别函数,将待测数据标准化后带入判别函数,计算得分,得到样本发生的后验概率,就可以判别出待测样品的类型。贝叶斯公式: (4)我们用byes判别法,确定三个类的判别函数这一组的分类函数是=+这组的分类函数是 (5)=+这组的分类函数是=+根据这三个函数我们可以计算出待判的三个样本的得分。 取max(,)=,得出待判样本属于第i类。6模型求解(表格两边不封口,表名用五号字体,字不如表,表不如图) 我们将混淆的十二个样本与已知的三个样本作为一个有十五个数据整体,进行多次快速聚类,将已知的三个样本分别标号13、14、15。当我们把数据分成三类时,我们发现我们并不能将14、15,明确的区分开来,于是我们采用先聚两类,聚类结果如表1: 表1(第一次聚类的结果)从表1中我们看到胃癌患者从中分离出来,有1、2、5、13,共四个样本,画出散点图(图1),看到胃癌患者离其他两类的距离较远。 图1(典型判别函数的散点图)于是可以将四个样本从中分离出来后,进行二次聚类。结果如表2;表21(去掉胃癌样本后的第一次聚类结果) 表2 2(去掉胃癌样本后的第二次聚类结果) 表21、表22是经过这两次分类后依然无法将14、15分开,说明5、7这两个样本影响了我们的正常分类,将聚类的模型稍作修改即我们先将它们去掉,在做聚类得到表3如下: 表3(去掉两个特殊样本后将胃炎与非胃病患者分开的结果)表3说明14、15已经被分开在两个不同的类别中。 此时我们已经将三个已知的样本成功的分在了不同的类别当中,这是以这十五个样本作为判别标准,建立bayes判别函数,判别5、7这两个特殊样本。表4(利用bayes判别法判别5、7的结果)我们看到加入前面的数据后利用beyes判别法可以将5、7判别出来、于是利用聚类我们就得到了一个新的、样本容量更大的判别准则。利用得出样本分类结果,我们可以建立相应的模型,得到判别准则,判断出待测样本的类型。 Bayes判别函数系数患病类型胃炎非胃病胃癌X1.176.144.170X2.741.568.567X3-113.130-91.85040.401X4-88.350-63.595-52.272常数项-57.759-35.843-56.166利用spss软件求解出三个beyes判别函数的系数,在上图中读出相应的系数,带入模型,得到如下判别函数这一组的分类函数是=0.176+0.741-113.130-88.350-57.759这组的分类函数是=0.144+0.568-91.850-63.595-35.843这组的分类函数是=0.170+0.567+40.401-52.272-56.166解出三个判别函数后,将待判样本带入判断,得到如下表5结果:表5(待测样本的分类结果)从表5的结果我们看到,根据判别函数,判别出待判的三个样本中,有两个胃炎患者,另一个是非胃病患者,而没有胃癌患者。7模型分析与检验:7.1模型的优点采用beyes判别函数得到的结果与先验相比,准确率达到了92.3%,说明函数判别的准确率很高,模型是合7.2模型的缺点(判别法有与生俱来的缺点,要找到他的原理的相关的书籍,把东西说明白)7.3模型的改进参考文献:(格式是,作者,书名,出版社,连标点符号都不能错)【1】数学建模章绍辉 科学出版社;【2】概率论与数理统计万星火 科学出版社;【3】SPSS统计分析卢纹岱 电子工

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论