




免费预览已结束,剩余17页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数学建模数学建模 疾病的诊断疾病的诊断 现要你给出疾病诊断的一种方法 胃癌患者容易被误诊为萎缩性胃炎患者或非胃病者 从胃癌患者中抽 取 5 人 编号为 1 5 从萎缩性胃炎患者中抽取 5 人 编号为 6 10 以 及非胃病者 中抽取 5 人 编号为 11 15 每人化验 4 项生化指标 血清铜蓝蛋白 蓝色反应 尿吲哚乙酸 中性硫化物 测得数 1 X 2 X 3 X 4 X 据如表 1 所示 表表 1 1 从人体中化验出的生化指标从人体中化验出的生化指标 No 12345678910 1 X 228245 200170100255130150120160 2 X 134134 167150167125100117133100 3 X 0 20 1 0 12 0 07 0 20 0 07 0 06 0 07 0 10 05 4 X 0 11 0 4 0 27 0 08 0 14 0 14 0 12 0 06 0 26 0 10 1112131415 185170165135100 115125142108117 0 05 0 06 0 05 0 02 0 07 0 19 0 04 0 08 0 12 0 02 根据数据 试给出鉴别胃病的方法 论文题目 胃病的诊断论文题目 胃病的诊断 摘摘 要要 在临床医学中 诊断试验是一种诊断疾病的重要方法 好的诊断试验方法将对临 床诊断的正确性和疾病的治疗效果起重要影响 因此 对于不同疾病不断发现新的诊 断试验方法是医学进步的重要标志 传统的诊断试验方法有生化检测 DNA 检测和影 像检测等方法 而本文则通过利用多元统计分析中的判别分析及 SPSS 软件的辅助较好 地解决了临床医学中胃病鉴别的问题 在临床医学上 既提高了临床诊断的正确性 又对疾病的治疗效果起了重要效果 同时也减轻了病人的负担 判别分析是在分类确定的条件下 根据某一研究对象的各种特征值判别其类型 归属问题的一种多变量统计分析方法 其基本原理是按照一定的判别准则 建立一个或多个判别函数 用研究对象的 大量资料确定判别函数中的待定系数 并计算判别指标 首先 由判别分析定义可知 只有当多个总体的特征具有显著的差异时 进行判 别分析才有意义 且总体间差异越大 才会使误判率越小 因此在进行判别分析时 有必要对总体多元变量的均值进行是否不等的显著性检验 其次 利用判别分析中的费歇判别和贝叶斯判别进行判别函数的建立 最后 利用所建立的判别函数进行回判并测得其误判率 以及对其修正 本文利用 SPSS 软件实现了对总体间给类变量的均值是否不等的显著性检验并根据 样本建立了相应的费歇判别函数和贝叶斯判别函数 最后进行了回判并测得了误判率 从而获得了在临床诊断中模型 给临床上的诊断试验提供了新方法和新建议 关键词关键词 判别分析 判别函数 Fisher 判别 Bayes 判别 一一 问题的提出问题的提出 在传统的胃病诊断中 胃癌患者容易被误诊为萎缩性胃炎患者或非胃病患者 为 了提高医学上诊断的准确性 也为了减少因误诊而造成的病人死亡率 必须要找出一 种最准确最有效的诊断方法 为诊断疾病 必须从人体中提取 4 项生化指标进行化验 即血清铜蓝蛋白 蓝色反应 尿吲哚乙酸 中性硫化物 但是 从人体中化验出的生 化指标 必须要确定一个精准的指标来判断疾病所属的类型 设想 使用判别分析法 利用 SPSS 软件对各个变量进行系统的分析 使该问题得到有效地解决 二 问题的分析二 问题的分析 由题意可知 目的就是为了建立一种模型 解决医学上的这种误诊问题 在该问 题中 必须确定血清铜蓝蛋白 蓝色反应 尿吲哚乙酸 中性硫化物与胃癌 萎缩性 胃炎的关系 衡量该四项指标的数学要点必然是相应的标准差 方差 均值等 同时 会建立一个或几个函数分析其间关系的正相关或负相关 即其具有一定的相关性 然 后利用所给数据求解出一定的数学模型表达式 便可求解出胃病的鉴别方法 三 符号的说明三 符号的说明 X1 血清铜蛋白 X2 蓝色反应 X3 尿吲哚乙酸 X4 中型硫化物 N 被调查的样本数 Wilks的lambda 组内平方和与总平方和之比 当所有观测的组均值相等时 Wilks的 lambda值为1 当组内变异与总变异相比小时 Wilks的lambda值接近于0 因此 Wilks的lambda值大 表示各个组的均值基本相等 Wilks的lambda小表示组间有差 异 在判别分析中 只有组均值不等时 判别分析才有意义 F F值 F分布中的统计检定值 df 自由度 sig 统计显著性 即出现目前样本的机率 P p值 四 问题的假设四 问题的假设 1 该四项生化指标是分别可以测得的 2 每个生化指标都不是其他三个指标的线性组合 即两两之间无相关性 3 被抽取的三类人员中彼此没有任何血缘关系 4 除了本题研究的疾病外 被调查的人员无任何疾病 五 模型的建立五 模型的建立 根据以上的分析 回忆所学的知识 发现该问题符合判别分析法的要求 因此可 以用判别分析法来求解 其中 判别分析法可以分为 距离判别法 Fisher 判别法 Bayes 判别法等 SPSS 软件是统计分析软件之一 它可以进行各种统计分析工作 另 外 它所具有的强大的图形输出功能 使运行该软件不仅可以得到各种数字分析结果 还可以得到各种直观 清晰 漂亮的统计图形 从而利用软件 SPSS 将所有的数据输 入进去 便可以得到协方差矩阵 自由度 p 值 均值 标准差等与该问题相关的有 利于分析问题的数据及图形 现在主要利用 Fisher 判别法 Bayes 判别法来处理该问题 Fisher 判别法的基本思想 从个总体中抽取具有个指标的样品观测数据 借kp 助方差分析的构造一个线性判别函数 其中系 1122 pp Uu Xu Xu X Xu X 数确定的原则是使得总体之间区别最大 而使每个总体内部的离差 21 p uuu u 最小 有了线性判别函数 U 后 对于一个新的样品 将它的个指标值代入以上线性p 判别函数式中求出值 然后根据判别一定的规则 就可以判别新的样品属于哪个 U X 总体 Bayes 判别法的基本思想 设有个总体 k GGG 21 其各自的分布密度函数k 互不相同的 假设个总体各自出现的概率分别为 21 xxx k fff k 先验概率 假设已知若将本来属于总体的样品错 k qqq 21 0 i q1 1 k i i q i G 判到总体时造成的损失为 kji 2 1 在这样的情形下 对于新的样品 j G ijC 判断其来自哪个总体 X 通过这两种方式利用软件 SPSS 来求解 得出的数据在分析比较后 就可以得出结果 六 模型的求解六 模型的求解 1 spss操作步骤如下 1 建立数据文件 在数据窗口中输入上入待分析的数据 2 按顺序单击分析 分类 判别菜单项 如图 1所示 系统弹出判别分析的对话框 如图 2所示 图 1 先选择菜单进入判别分析对话框 注 X1 血清铜蛋白 X2 蓝色反应 X3 尿吲哚乙酸 X4 中型硫化物 3 选择参与判别分析的变量及其他相关设置 1 分组变量框 从左侧选入分类变量 类型 于分组变量框中 2 定义范围按钮 定义分类变量的取值范围 单击分类变量按钮 系统弹出一个对 话框 如图 3所示 最小值输入1 最大只输入3 完成设置后 单击继续按钮 返 回判别分析主对话框 见图 2 图 2 判别分析的主对话框 图 3 指定分类变量范围对话框 3 自变量列表框 从左侧的变量列表将参与判别分析的变量 X1 X4 于其中 如 图 4所示 4 一起输入变量单按钮 表示选择所有变量参与判别分析 如图 4所示 图 4 4 判别分析的统计输出设置 单击统计量按钮 系统弹出一个对话框 如图 5所示 图 5 判别分析的统计输出设置 1 描述性框 描述统计量选项组 包括3个复选框项 复选均值复选框和单变量复 选框 如图 5所示 均值复选框 各类中个变量的均值 标准差和各自变量总样本的均值 标准差 单变量复选框 变量均值的单因子差异假设实验 2 函数系数框 判别函数系数选项组 复选Fisher复选框和未标准化复选框 如图 5所示 Fisher复选框 给出贝叶斯判别函数的系数 未标准化复选框 给出未标准化的Fisher判别函数的系数 5 指定判别分析的有关参数及有关输出结果设置 单击分类按钮 系统弹出一个对 话框 如图 6所示 图 6 指定参数与结果对话框 1 先验概率框 先验概率选项组 包括两个单选项 单选所有组相等框如图 6所示 所有组相等框 个二类先验概率相等 2 输出框 分类结果选项组 包括三个复选项 复选个案结果 摘要表和不考虑该个 案时的分类复选框如图 6所示 个案结果复选项 对每个样品输出判别函数值 实际类 预测类和后验概率 摘要表复选项 输出分类小结 给出正确分类的样品数 错分样品数和错分率 不考虑该个案时的分类复选项 交叉验证的判别分类结果 3 使用协方差矩阵框 分类使用的协方差矩阵 单选在组内单选项如图 6所示 在组内单选项 使用合并类内协方差矩阵 4 图框 复选合并组 分组和区域图复选框如图 6所示 合并组复选项 使出包括各个类的散点图 分组复选项 每类输出一个散点图 区域图复选项 输出领域图 所有设置完成后 单击继续按钮返回判别分析主对话框 图 7 建立新变量对话框 6 单击保存按钮 系统弹出一个对话框 复选预测组成员 判别得分和组成员概率 复选项如图 7所示 1 预测组成员复选项 根据判别函数的值 按后验概率计算预测分类结果 2 判别得分复选项 建立判别函数值变量 3 组成员概率复选项 建立新变量 表明每一个样品属于某一类的概率 所有设置完成后 单击继续按钮返回判别分析主对话框 7 上述设置完成后 单击确定按钮进行判别分析 得到输出结果 七 模型的结果七 模型的结果 1 1 描述性输出 描述性输出 分析案例处理摘要分析案例处理摘要 未加权案例 N 百分比 有效 15100 0 缺失或越界组代码 0 0 至少一个缺失判别变量 0 0 缺失或越界组代码还有至少一 个缺失判别变量 0 0 排除的 合计 0 0 合计 15100 0 图 8 图 8表示有效样本及样本变量的实际情况 组均值的均等性的检验组均值的均等性的检验 Wilks 的 Lambda Fdf1df2Sig x1 888 758212 490 x2 4268 074212 006 x3 4427 564212 007 x4 7861 633212 236 图 9 由图 9可知显著水平X2 X3最大 而X1 X4显著水平最小 但是由于判别变量间可能 相互关联 仅单独检验是不够的 但是通过将X1和X4分别与X2和X3联合后发现 他们 对判别的提高有很大的贡献 组统计量组统计量 有效的 N 列表状态 类型均值标准差未加权的已加权的 x1188 600057 1384355 000 x2150 400016 5015255 000 x3 1380 0593355 000 1 x4 2000 1332355 000 x1163 000053 8052055 000 x2115 000014 8155355 000 x3 0700 0187155 000 2 x4 1360 0753755 000 x1151 000033 8008955 000 x2121 400013 0115355 000 x3 0500 0187155 000 3 x4 0900 0678255 000 x1167 533348 475131515 000 x2128 933321 049151515 000 x3 0860 052211515 000 合计 x4 1420 100941515 000 图 10 上表 图 10 表示各组变量的描述统计情况 给出了各个类型的均值 标准差等统计 量 通过这些数据 可以大致了解3种类型在这4个指标上的差异 2 2 判别函数的检验 判别函数的检验 特征值特征值 函数特征值方差的 累积 正则相关性 12 768a93 593 5 857 2 192a6 5100 0 402 a 分析中使用了前 2 个典型判别式函数 图 11 WilksWilks 的的 LambdaLambda 函数检 验Wilks 的 Lambda卡方 dfSig 1 到 2 22315 7758 046 2 8391 8473 605 图 12 特征值 图 11 表格给出了两个典型判别函数所能解释的方差变异 其中第一个 函数解释了所有变异的93 5 第二个函数解释了余下的6 5 因而第二个函数的相对 重要性远远小于第一个函数 Wilks的lambda 图 12 表格用来检验各个判别函数有无统计学上的显著意义 根据该表反应的值 这些数据表明 第二个判别函数对判别组仍有显著贡献 犯错概 率为60 5 3 3 典型判别式函数摘要典型判别式函数摘要 标准化的典型判别式函数系数标准化的典型判别式函数系数 函数 12 x1 382 011 x2 567 861 x3 673 633 x4 296 515 结构矩阵结构矩阵 函数 12 x3 670 314 图 13 图 14 标准化的典型判别 式函数系数 表格 图 13 是两个判别函数中各个变量 的标准化系数 由此可以判断各个函数主要受那些变量 的影响 结构矩阵 图 14 给出的是判别变量和标 准化判别函数之间的相关性数据 同样可以用来判断各个函数受那些判别变量的影响 最大 对于判别函数1 变量X2 X3的判别意义最大 而对判别函数2变量X3 X4的 判别意义最大 4 未标准化系数和质心函数 未标准化系数和质心函数 典型判别式函数系数典型判别式函数系数 函数 12 x1 008 000 x2 038 058 x317 95416 880 x43 0625 327 常量 8 2045 228 非标准化系数 图 15 图 16 非标准化系数在使用时可以直接通过原始变量进行计算 如图 15所示 组质心处的函数 图 16 表格给出的是各类别的重心在平面上的坐标 如类型一 的坐标是 2 095 0 053 只要根据这里的典型判别函数 未标准化的 计算出每 个观测的平面坐标 再计算它们和各类重心的距离 就可以判断其类型归属 5 5 FisherFisher判别函数判别函数 x1 208 178 x2 673 696 x4 296 390 判别变量和标准化典型判别式函 数之间的汇聚组间相关性 按函数内相关性的绝对大小排序 的变量 每个变量和任意判别式函数间 最大的绝对相关性 组质心处的函数组质心处的函数 函数 类型 12 12 095 053 2 873 505 3 1 221 452 在组均值处评估的非标准化典型 判别式函数 分类函数系数分类函数系数 类型 123 x1 127 104 101 组的先验概率组的先验概率 用于分析的案例 类型先验未加权的已加权的 1 33355 000 2 33355 000 3 33355 000 合计 1 0001515 000 图 17 图 18 Fisher判别函数的输出如图 17 图 18所示 根据分类函数系数表格可得出各类型的Fisher判别函数为 525 45537 7 382 2 611 0 101 0 041 43376 1 723 24 569 0 104 0 993 71742 4 599 68 715 0 127 0 43213 43212 43211 xxxxxg xxxxxg xxxxxg 将某待诊者的四项生化指标分别带入到上述各类型对应的Fisher判别函数 得到三个 对应的Fisher函数值 根据Fisher后验概率最大这一判别规则 即所得函数值最大 可以判断某待诊者所属的类型 6 6 典型判别的散点图 典型判别的散点图 x2 715 569 611 x368 59924 7232 328 x44 742 1 376 7 537 常量 71 993 43 041 45 525 Fisher 的线性判别式函数 图 19 图 20 图 21 以上三图给出的是胃癌 萎缩性胃炎 非胃病三种类型的判别函数值的散点图 第一 个图形表示将类型 1 即胃癌的 5 个样本分别代入两个典型判别函数 得到 5 对判别 函数值 从而构成散点图 其中 横坐标是第一典型判别函数值 纵坐标是第二典型 判别函数值 在用 SPSS 软件进行判别分析时 都可以得到类似的判别函数值散点图 以上三点图比较直观地反映了各组观测的分类情况和各组的重心 图 22 上图给出了三种类型的典型判别函数值总的散点图 同样是把各类的样品分别代入两 个典型判别函数 计算得到15对判别函数值 从而构成这样的散点图 其中 横坐标 是第一典型判别函数值 纵坐标是第二典型判别函数值 从图中可以看出 三种类型 在图中有各自的分布领域 说明所建立的判别函数的判别精度不太好 7 7 每个个体的判别结果每个个体的判别结果 按照案例顺序的统计量按照案例顺序的统计量 最高组第二最高组判别式得分 案例数 目 P D d G g 实际组预测组 pdfP G g D d 到质心的平方 Mahalanobis 距 离组 P G g D d 到质心的平方 Mahalanobis 距 离函数 1函数 2 111 2732 9942 5972 00513 0742 6101 474 211 3692 9491 9942 0478 0201 8341 335 311 5572 9981 1702 00114 9292 709 944 413 1142 5974 3361 2376 180 347 1 821 511 6582 999 8382 00115 4612 974 309 622 4702 4871 5123 3302 290 233 033 722 4752 6751 4873 3252 950 1 9311 113 823 9072 516 1962 480 340 1 130 019 922 4412 5641 6361 2433 321 401 618 1022 5352 6161 2523 3842 195 1 939 844 1132 9992 611 0033 383 936 897 460 1233 9102 664 1882 3301 585 910 754 1333 3172 7782 2972 1905 111 356 1 696 1433 5082 6191 3542 3812 328 2 304 025 初始 1533 8972 614 2182 3861 147 1 639 244 112 0004 58338 0671 41638 741 212 0054 91314 9501 05920 424 311 3904 9974 1192 00117 190 413 3944 8554 0892 1457 639 511 0044 99915 5392 00130 588 621 1484 8246 7743 16310 019 722 5214 5353 2253 4653 502 823 9754 566 4892 4291 044 921 1934 9186 0843 05911 580 1022 6994 5072 1983 4922 258 1132 9694 723 5463 2672 541 1233 8744 6011 2222 3882 096 1333 3284 6124 6262 2806 189 1432 5894 5262 8193 4743 029 交叉验证a 1532 6314 5182 5773 4812 726 对初始数据来说 平方 Mahalanobis 距离基于典则函数 对交叉验证数据来说 平方 Mahalanobis 距离基于观察值 错误分类的案例 a 仅对分析中的案例进行交叉验证 在交叉验证中 每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的 图 23 上表中的案例数目列 是所有个体的编号 实际组列是每个个体实际上所在的类 型 在最高组 具有最大分辨率 下的预测组列 是按照计算结果的类型 可以看到 编号4经过判别分析后被判到了第三种类型中 即非胃病 编号8经过判别分析后被判 到了第三种类型中 即非胃病 编号11经过判别分析后被判到了第二种类型中 即萎 缩性胃炎 上表中的最高组 具有最大分辨率 下的P D d G g 列和df列 是在样本属 于该类型而判别不是相应类型的条件概率及其自由度 表中P D d G g 列是判别 样本属于相应类型 而样本确实是相应类型的后验概率 从表中可以看出后验概率还 是比较大的 表中的最高组下的到质心的平方 Mahalanobis 距离列 是相应个体距类 别重心的马氏距离的平方 上表中的第二最高组 具有第二大分辨率 下的组列 是把相应判为相应类型的 情况 表中的第二最高组下的P D d G g 是判别样本属于相应类型 而样本确实 是相应类型的后验概率 表中第二最高组下的到质心的平方 Mahalanobis 距离列 与 表中最高组下的定义相同 表中最后一列是两个典则判别函数之值 分类结果分类结果b c b c 预测组成员 类型 123 合计 14015 20415 计数 30145 180 0 020 0100 0 2 080 020 0100 0 初始 3 020 080 0100 0 12215 22215 计数 30325 140 040 020 0100 0 交叉验证a 240 040 020 0100 0 3 060 040 0100 0 a 仅对分析中的案例进行交叉验证 在交叉验证中 每个案例都是按照从该案例 以外的所有其他案例派生的函数来分类的 b 已对初始分组案例中的 80 0 个进行了正确分类 c 已对交叉验证分组案例中的 40 0 个进行了正确分类 图 24 由图 24可以得出该模型的判别正确率为80 较低 八八 模型的评价与改进方向模型的评价与改进方向 在此模型下 我们是假设把所有存在的判别变量都选入判别函数 并说明如何通 过计算标准化判别函数系数 辨认出不重要的判别变量 但最后的判别正确率不太高 因此我们必须对模型进行改进 根据图 11和图 13可计算各个指标对整个判别函数总体的判别系数 对X1 其判别系数为 0 935 0 382 0 065 0 011 0 357885 对X2 其判别系数为 0 935 0 567 0 065 0 861 0 47418 对X3 其判别系数为 0 935 0 673 0 065 0 633 0 6704 对X4 其判别系数为 0 935 0 296 0 065 0 515 0 310235 根据以上平均判别系数的数据 可以发现X3的平均判别系数最大 判别意义最大 X4的平均判别系数最小 即其判别意义最小 因此 我们在此过程中可以考虑将X4舍 去 通过以上类似过程 我们可以得到每个个体的判别结果如图 25和图 26所示 则 最后的判别正确率为93 3 按照案例顺序的统计量按照案例顺序的统计量 最高组第二最高组判别式得分 P D d G g 案例数 目实际组预测组 pdfP G g D d 到质心的平方 Mahalanobis 距 离组 P G g D d 到质心的平方 Mahalanobis 距 离函数 1函数 2 111 0432 9966 3062 00417 4522 7882 365 211 6542 815 8482 1274 5641 223 434 311 4152 9961 7603 00213 9222 526 1 253 初始 411 1332 4424 0313 4004 232 641 1 485 511 6562 999 8452 00115 1142 924 192 622 4112 4591 7791 2852 731 420 385 722 4742 6261 4933 3742 524 2 049 877 822 9822 547 0363 447 438 957 244 922 5642 4541 1443 4541 145 054 209 1022 5492 6251 1983 3752 219 1 926 843 1132 9532 523 0963 472 304 1 043 146 1233 8712 533 2762 448 623 593 293 1333 3382 6852 1722 2394 281 094 1 472 1433 4592 6371 5572 3632 681 2 354 351 1533 8822 531 2522 468 504 1 451 036 111 0003 93126 3602 06931 563 211 1913 5154 7462 3265 665 311 3183 9923 5243 00514 081 413 2563 6794 0492 2925 737 511 0013 99915 5272 00130 175 621 1603 8815 1733 0989 559 723 3823 5173 0612 4833 199 822 9893 536 1233 455 447 923 5273 5762 2272 2713 736 1022 5793 5331 9673 4662 236 1132 9423 567 3923 425 969 1233 9163 503 5122 473 637 1333 2303 4864 3122 3205 151 1433 4453 5182 6722 4822 816 交叉验证a 1532 6233 5911 7643 4072
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- can总线协议书详解
- 东方时尚驾校退费协议书
- 保安服协议书
- 18. Out!教学设计小学英语3a典范英语(Good English)
- 带货保量协议书
- 抖音资料协议书
- 2025合作合同协议书范本模板
- 2025餐饮企业员工服务协议
- 中国联通大理白族自治州2025秋招笔试行测题库及答案市场与服务类
- 中国广电商丘市2025秋招笔试行测题库及答案通信技术类
- 新12123交管学法减分考试题库及答案
- DB32T3728-2020工业炉窑大气污染物排放标准
- 重大风险管控方案及措施客运站
- 基于STM32智能书桌设计
- 《北京市基本概况》课件
- 设备维保中的环境保护与能源管理
- 混合型脑性瘫痪的护理课件
- 眼科专业视野培训教材
- 青蓝工程教师成长档案
- 中建室内中庭墙面铝板、玻璃安装施工方案(改)
- 中秋佳节给客户的一封信(10篇)
评论
0/150
提交评论