版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2013高教社杯全国大学生数学建模竞赛承 诺 书我们仔细阅读了全国大学生数学建模竞赛章程和全国大学生数学建模竞赛参赛规则(以下简称为“竞赛章程和参赛规则”,可从全国大学生数学建模竞赛网站下载)。我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。如有违反竞赛章程和参赛
2、规则的行为,我们将受到严肃处理。我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。我们参赛选择的题号是(从A/B/C/D中选择一项填写): A 我们的参赛报名号为(如果赛区设置报名号的话):02014 所属学校(请填写完整的全名): 东北农业大学参赛队员 (打印并签名) :1. 张永明2. 卜宪勇3. 宋雪松指导教师或指导教师组负责人 (打印并签名): 日期: 2013 年 8 月 24日赛区评阅编号(由赛区组委会评阅前进行编号):2013高教社杯全国大学生数学建模竞赛编 号 专 用 页赛区评阅编号(由
3、赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):14地贫患者的基因筛查问题解决方案摘要 本文解决的是地中海贫血的诊断问题。人们到医院就诊时,其是否患地中海贫血一般要通过化验人体内各种元素的含量来协助医生的诊断。为了解决此问题,我们建立了马氏距离判别法,fisher 判别模型及主成分分析赋权模型。 对于问题一:我们首先提出了马氏距离判别法和 fisher 模型来判别就诊的人是否患有地中海贫血。我们选取表A1 中1-20号和21-40号的数据和已确诊的结果作为模型确立的样本, 用马
4、氏距离判别法总体判断的准确率达到 88.33%, 在 fisher 判别法中,利用 Matlab 软件求解得到 fisher 线性判别函数,软件分析的结果的正确判断率为 93.33%,故最终我们选用 fisher 模型。 其次我们选用 fisher 模型对表 A1 中的41-60号就诊人员的基因诊断结果进行判别,得到如下结果: 诊断患病病例号:41,42, 45,48,55,57, 诊断健康病例号:43,44,46,47,49,50,51,52,53,54,56,58,59,60 对于问题二:为了确定影响人们患地中海贫血的关键或主要因素,我们选取表A1中数据作为样本,建立主成分分析赋权模型,通
5、过对表A1 中的数据进行标准化并确定相关系数矩阵,求出相关矩阵的特征值和特征向量,然后通过前m 个主成分的累计贡献率满足来确定贡献率矩阵,从而得到各种元素的权值,又利用初始特征值需大于 1,再运用逐步剔除法得出关键元素为:Mg Ca Na K 。 关键词:fisher 模型; ;主成分分析法; Matlab; SPSS一 问题重述地中海贫血(简称“地贫”)是全球广为流行、危害极为严重的遗传性溶血性疾病,全世界至少有3.45亿人携带地中海贫血的致病基因。全球地中海贫血基因携带者频率高达2.62%,包括中国南方在内的东南亚地区、印度次大陆、地中海地区、中东、东非和太平洋地区都是该疾病的高发地区。由
6、于携带者婚配的下一代有1/4的机会患严重溶血性贫血症状的重症地中海贫血,估计全球重型地中海贫血患儿的出生率不低于万分之四,因而构成了严重的公共健康问题。地贫是一种单基因遗传的血红蛋白病,目前没有根治方法,患者轻则无任何临床表现,重则表现为“进行性”溶血性贫血。医学上通过大人群的基因筛查来预防地贫患儿的出生。附件(基因链.xls)中给出了60个人的基因链样本(每个人的基因链均给出了110个基因)。按人员编号划分:编号120是地贫患者的样本,编号2140是健康人员的样本,编号4160个是待筛查人员的样本。(1)试设法找出描述地贫患者样本与健康人样本在基因链上的区别,建立数学模型和筛查方法,去预测待
7、筛查样本是“地贫”还是“健康”。(2)设计图示(可视化)方法,使所建立的数学模型尽可能清楚地表达“地贫”样本与“健康”样本在基因链上的区别。以及癌症样本中是否有子类。二 问题分析问题一:我们根据已知确诊病例的两大总体(地中海贫血) 、(健康人)来对就诊人员进行分类,确定了两种比较好判别病号是否患有地中海贫血的方法。一种是马氏距离判别法, 首先取表A1 中病例号 1-20号和 21-40 号为样本, 采用马氏距离判别法1,得到判别公判别检测数据并进行回代,进一步改进模型。另一种是费希尔模型1,利用 Matlab 软件求解得到 fisher 线性判别函数,由软件分析的结果可知费希尔模型有较高的判别
8、正确率。 问题二:问题二其实是问题一的延伸,根据建立的模型对就诊病例进行判别分析,分别采用距离判别法和 fisher 线性判别函数,通过 Matlab 软件计算出结果。三问题假设和符号说明3.1 问题假设 1. 假设所给数据精确无误。 2. 假设样品中化验的七种元素与是否患地中海贫血症有一定的关系。 3. 40名确诊病例与20名就诊病例是随机抽取的,无特殊情况,符合一般规律。 4. 假设此期间不会发生特大疾病灾害3.2 符号说明n样本点的个数,即模型求解中作为已知的样本点个数p地中海贫血症诊断的化验指标个数,也即原始主成分个数G、GG为地中海贫血症患者类,G为健康类S协方差矩阵S i=1,2类
9、内离散度 i=1,2x病例号i在第 j 项指标的化验数据结果x病例号i的化验结果x=(x,x,x)x第j项指标的化验数据结果y病例号的Fisher判别函数值,i=1 表示病人,i=2 表示健康人d、d分别代表地中海贫血症患者和健康人到其均值水平的马氏距离X观察样本矩阵R指标数据的相关矩阵第 个主成分方差贡献率D主因子载荷矩阵四模型的建立与求解问题一:基于费希尔模型,对20名就诊病例进行判别分析的结果见表A.1。表A.141.健康42.健康43.贫血44.贫血45.健康46.贫血47.贫血48.健康49.贫血50.贫血51.贫血52.贫血53.贫血54.贫血55.健康56.贫血57.健康58.贫
10、血59.贫血60.贫血 属于G类:43,44,46,47,49,50,51,52,53,54,56,58,59,60,总计16人;G类:41,42,45,48,55,57,总计4人。6.1 利用Fisher判别法的模型检验 3 代入数据可得出下列结果:= -0.0108,= -0.1515,= -0.0812。进行判别函数的检验,检验其是否有效:计算统计量,其中,p为向量维数,p = 7:给定显著水平a=0.05,从F分布表中查出:所作出的判别函数有效问题二:模型的建立及解答我们建立了多元统计的模型,将两个变量,即癌症病患和正常者分别设为1及0。其110个基因设为输入层,且这110个基因标号为
11、v29v110。首先针对这20个癌症及20个正常样本的110个基因进行处理,利用统计软件spss,对这114个基因进行判别筛选,最终得到1个与之相关系数最大的基因,这些基因就成为了判断一个人是否为病者的重要因素。通过这个软件,还可以得到这1个基因的非标准化判别方程系数,从而得出非标准化方程D。将题目所给的数据录入到该软件中,所得到的结果为:成份矩阵a成份1VAR00001-.055VAR00002.784VAR00003.786VAR00004.679VAR00005-.687VAR00006.721VAR00007.024VAR00008.114VAR00009-.729VAR00010.0
12、34VAR00011-.386VAR00012-.675VAR00013.617VAR00014.081VAR00015.795VAR00016-.316VAR00017.343VAR00018.323VAR00019.118VAR00020.345VAR00021-.404VAR00022-.731VAR00023.110VAR00024.151VAR00025.283VAR00026.292VAR00027.697VAR00028-.718VAR00029.809VAR00030-.221VAR00031.796VAR00032.119VAR00033-.433VAR00034-.313V
13、AR00035.677VAR00036.313VAR00037.854VAR00038.854VAR00039.854VAR00040.854VAR00041.449VAR00042-.846VAR00043-.005VAR00044-.096VAR00045.311VAR00046-.423VAR00047.867VAR00048-.178VAR00049.562VAR00050-.467VAR00051-.559VAR00052-.665VAR00053.858VAR00054-.690VAR00055.681VAR00056-.487VAR00057-.200VAR00058-.045V
14、AR00059-.588VAR00060.696VAR00061.186VAR00062-.690VAR00063.316VAR00064-.414VAR00065-.162VAR00066.538VAR00067-.223VAR00068-.403VAR00069-.268VAR00070.132VAR00071.448VAR00072-.435VAR00073.433VAR00074-.121VAR00075-.537VAR00076.726VAR00077.746VAR00078.825VAR00079-.399VAR00080.524VAR00081.866VAR00082-.017V
15、AR00083-.069VAR00084.381VAR00085-.876VAR00086.799VAR00087-.751VAR00088-.815VAR00089-.546VAR00090.261VAR00091-.241VAR00092.759VAR00093.166VAR00094-.626VAR00095-.050VAR00096.766VAR00097-.635VAR00098.343VAR00099.440VAR00100-.137VAR00101-.532VAR00102-.773VAR00103-.244VAR00104.332VAR00105.681VAR00106-.56
16、6VAR00107.077VAR00108.858VAR00109-.760VAR00110-.314提取方法 :主成份。a. 已提取了 1 个成份。成份矩阵a成份1VAR00001-.366VAR00002.263VAR00003.643VAR00004.419VAR00005-.445VAR00006.387VAR00007.144VAR00008.081VAR00009-.212VAR00010.271VAR00011-.574VAR00012-.109VAR00013.343VAR00014-.396VAR00015.600VAR00016-.318VAR00017.150VAR000
17、18-.202VAR00019.174VAR00020.368VAR00021-.409VAR00022-.473VAR00023.116VAR00024.163VAR00025.224VAR00026-.145VAR00027.009VAR00028-.133VAR00029.484VAR00030-.203VAR00031.572VAR00032.433VAR00033.245VAR00034-.070VAR00035.435VAR00036.003VAR00037.634VAR00038.634VAR00039.634VAR00040.634VAR00041.384VAR00042-.5
18、13VAR00043-.371VAR00044-.040VAR00045.389VAR00046-.497VAR00047.554VAR00048.400VAR00049.235VAR00050-.715VAR00051.095VAR00052-.352VAR00053.458VAR00054-.121VAR00055.443VAR00056-.515VAR00057.253VAR00058.211VAR00059-.099VAR00060.232VAR00061-.213VAR00062-.707VAR00063-.042VAR00064-.683VAR00065-.300VAR00066.
19、380VAR00067-.378VAR00068-.339VAR00069-.673VAR00070-.324VAR00071-.318VAR00072-.176VAR00073.101VAR00074.119VAR00075-.504VAR00076.540VAR00077.439VAR00078.611VAR00079-.192VAR00080.032VAR00081.682VAR00082.171VAR00083-.186VAR00084.538VAR00085-.685VAR00086.617VAR00087-.844VAR00088-.699VAR00089-.640VAR00090
20、.223VAR00091-.604VAR00092.498VAR00093.203VAR00094-.362VAR00095.570VAR00096.534VAR00097-.495VAR00098-.025VAR00099.152VAR00100-.705VAR00101-.884VAR00102-.778VAR00103.364VAR00104-.051VAR00105.628VAR00106-.104VAR00107.409VAR00108.641VAR00109-.088VAR00110.356提取方法 :主成份。a. 已提取了 1 个成份。这个显示出与癌症相关的基因大致只有这26个,且表中右侧为各项系数,则可得非标准化判别 由SPss软件可以算出方程则表示若D大于0,则该样本为癌症病者;若D小于0,则该样本为正常者。所以,对于题目给出的20个待测样本,我们将其对应的41个基因表达水平代入到此方程中。所以求得这20个待测样本的D值分别为41.393-8.4529-85.8241.068-3.87093.0568128.917.4152-28.7665.189652.6235.034310.23131.258-143.6414.69-83.623 13.522 50.4
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 泉州职业技术大学《儿童发展》2025-2026学年期末试卷
- 泉州华光职业学院《广告文案写作》2025-2026学年期末试卷
- 河道河床整平施工技术
- 福建技术师范学院《病原微生物与免疫学》2025-2026学年期末试卷
- 芜湖航空职业学院《临床检验基础》2025-2026学年期末试卷
- 管道施工机械化方案
- 漳州城市职业学院《保险学》2025-2026学年期末试卷
- 长治医学院《工程电磁场》2025-2026学年期末试卷
- 2026年银行从业资格考试个人理财单套试卷(含答案解析)
- 2025年保密岗位教育试题库带答案详解(突破训练)
- 小儿猩红热的护理
- 中国船舶集团校招面笔试题及答案
- 2025-2030中国珠宝首饰设计制造市场艺术风格分析及品牌营销策略规划
- 2026江苏苏州市健康养老产业发展集团有限公司下属子公司招聘44人(第一批)笔试历年典型考点题库附带答案详解
- 2026年临沂市工业学校公开招聘教师(32名)笔试参考题库及答案解析
- 建筑行业绩效考核管理办法
- 初中地理新课标测试题及答案
- 浙江强基联盟2026年3月高三语文联考作文题目解析及范文:有的时候人们主动选择预制
- 2026年大学生军事理论知识竞赛题库及答案(共80题)
- T-ZAHA 011-2025 智慧牧场建设指南
- 2026年贵州贵阳云岩区街道招聘笔试模拟试题附答案
评论
0/150
提交评论