




已阅读5页,还剩37页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
判别分析法建模 蠓虫的分类MCM89问题判别分析 程序计算 序列 蠓虫的分类MCM89问题 两种蠓Af和Apf已由生物学家W L Grogan等于1981年根据它们的触角长和翼长加以区分 9只Af蠓用 表示和6只Apf蠓用 表示 根据给出的触角长和翼长识别出一只标本是Af蠓还是Apf蠓是重要的 1 给定一只Af蠓或Apf蠓 你如何正确地区分它属于哪一族 2 将你的方法用于触角长和翼长分别为 1 24 1 80 1 28 1 84 1 40 2 04 的三个标本 3 设Af为宝贵的益虫 Apf是某种疾病的载体 是否应该修改你的分类方法 若需修改 怎么改 简单分类思想 引一条直线将点分成两类 如图所示 确定直线的方法 1 回归线方法 分别就Af和Apf数据引两条回归线 Afy 0 85x 0 637 Apfy I 10 x 0 576 平均y 0 9625x 0 6065 简单分类思想 用它来判定发现不好 2 心型平分线 取Af和Apf的中心 1 41 1 80 1 22 1 93 垂直平分线方程是 y 1 52576x 0 1485 蠓虫的分类MCM89问题 判别分析方法建模1997 3 数理统计与管理 均值向量 均值矩阵 矩阵转置 均值的无偏估计向量 总体样本离差矩阵 其中m是总体个数 将数据代入 计算A的特征根及最大特征根对应的特征向量u a1 a2 T 两个总体的均值向量 代入 Y1 3 5717Y2 0 3511其他样本点代入计算判别函数值并计算他们的绝对值d1和d2 可见均是Af蠓 可见均是Apf蠓 三个样品的判别函数值代入并求出距离 可见均是Apf蠓 判别分析是一种应用十分广泛的数学方法 2000年的DNA序列也可以运用此法 判别分析 引言距离判别 程序计算 引言 判别分析是用于判别个体所属群体的一种多元统计分析方法 产生于30年代 近年来在自然科学 社会学及经济管理学科中都有广泛的运用 例 特点 根据已掌握的历史信息 总结出客观事物分类的规律性 建立判别公式和判别准则 然后对新的样本点 只要根据准则就可以判别它属于哪一类别 从概率统计的角度来看 判别分析问题可归结为 设有k个组 所有组的样品都测量了相同的p个指标 指标可表示成p维向量 这k个组的分布函数是F1 x F2 x Fk x 对于给定的新样品x 要求判别它属于哪一类 距离判别 马氏距离 马哈拉诺比斯Mahalanobis 印度 通常我们理解的距离指欧氏距离 即p维空间中的两个点x x1 x2 xp 和y y1 y2 yp 它们之间的距离是 不合适 设有两个总体 X N 1 Y N 2 4 设x和y是从均值为 协方差为 0 的总体 中抽取的两个样品 p维 则总体 内两点x和y之间的平方马氏距离定义为 点x和总体 之间的平方马氏距离定义为 二组距离判别 设 1 2组的均值分别为 1 2 协方差矩阵分别为 1 2 i 0 i 1 2 1 1 2 1 2 是新样品 如何判别它来自哪一组 计算x到两个组 1 2的距离 可按如下规则判别 化简 其中 令 错判概率 实际运用 1 2的无偏估计是 其中 和 协方差矩阵的联合无偏估计 举例 2 1 2 1 2 判别函数 判别准则 例题 对28名一级和25名健将级标枪运动员测试了6个影响标枪成绩的训练指标 30米跑 x1 投小铅球 x2 挺举重量 x3 抛实心球 x4 前抛铅球 x5 五级跳 x6 对 个未定级的运动员定级 1 2 假设 计算逆矩阵 代入公式 判别函数 程序计算 Datadiscat1 inputnox1x2x3x4x5x6type Labelx1 30m x2 throwsmallball x3 weightlifting x4 throwmedicinemedicineball x5 shotput x6 5stepandjump Cards 3 604 3082 3070 0090 0018 5213 304 1087 4880 00100 0018 481 3 204 2089 2085 00115 0019 813 404 00103 0095 00110 0024 802 3 504 3097 8075 00100 0024 102 Run Datadiscdat2 inputnox1x2x3x4x5x6 Labelx1 30m x2 throwsmallball x3 weightlifting x4 throwmedicinemedicineball x5 shotput x6 5stepandjump Cards 3 504 1085 3075 00105 0018 65 3 404 3097 3975 00110 0022 12 Run Procdiscrinmdata discdat1testdata discdat2crosslisterrtestlist Classtype Varx1 x6Run 2000网易杯全国大学生数学建模竞赛题目A题DNA序列分类2000年6月 人类基因组计划中DNA全序列草图完成 预计2001年可以完成精确的全序列图 此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的 天书 这本大自然写成的 天书 是由4个字符A T C G按一定顺序排成的长约30亿的序列 其中没有 断句 也没有标点符号 除了这4个字符表示4种碱基以外 人们对它包含的 内容 知之甚少 难以读懂 破译这部世界上最巨量信息的 天书 是二十一世纪最重要的任务之一 在这个目标中 研究DNA全序列具有什么结构 由这4个字符排成的看似随机的序列中隐藏着什么规律 又是解读这部天书的基础 是生物信息学 Bioinformatics 最重要的课题之一 虽然人类对这部 天书 知之甚少 但也发现了DNA序列中的一些规律性和结构 例如 在全序列中有一些是用于编码蛋白质的序列片段 即由这4个字符组成的64种不同的3字符串 其中大多数用于编码构成蛋白质的20种氨基酸 又例如 在不用于编码蛋白质的序列片段中 A和T的含量特别多些 于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果 此外 利用统计的方法还发现序列的某些片段之间具有相关性 等等 这些发现让人们相信 DNA序列中存在着局部的和全局性的结构 充分发掘序列的结构对理解DNA全序列是十分有意义的 目前在这项研究中最普通的思想是省略序列的某些细节 突出特征 然后将其表示成适当的数学对象 这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构 作为研究DNA序列的结构的尝试 提出以下对序列集合进行分类的问题 1 下面有20个已知类别的人工制造的序列 见下页 其中序列标号1 10为A类 11 20为B类 请从中提取特征 构造分类方法 并用这些已知类别的序列 衡量你的方法是否足够好 然后用你认为满意的方法 对另外20个未标明类别的人工序列 标号21 40 进行分类 把结果用序号 按从小到大的顺序 标明它们的类别 无法分类的不写入 A类B类 请详细描述你的方法 给出计算程序 如果你部分地使用了现成的分类方法 也要将方法名称准确注明 这40个序列也放在如下地址的网页上 用数据文件Art model data标识 供下载 网易网址 教育频道在线试题 教育网 Newsmcm2000教育网 Art model data1 aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg2 cggaggacaaacgggatggcggtattggaggtggcggactgttcggggaattattcggtttaaacgggacaaggaaggcggctggaacaaccggacggtggcagcaaagga3 gggacggatacggattctggccacggacggaaaggaggacacggcggacatacacggcggcaacggacggaacggaggaaggagggcggcaatcggtacggaggcggcgga4 atggataacggaaacaaaccagacaaacttcggtagaaatacagaagcttagatgcatatgttttttaaataaaatttgtattattatggtatcataaaaaaaggttgcga5 cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggctacaccaccgtttcggcggaaaggcggagggctggcaggaggctcattacggggag6 atggaaaattttcggaaaggcggcaggcaggaggcaaaggcggaaaggaaggaaacggcggatatttcggaagtggatattaggagggcggaataaaggaacggcggcaca7 atgggattattgaatggcggaggaagatccggaataaaatatggcggaaagaacttgttttcggaaatggaaaaaggactaggaatcggcggcaggaaggatatggaggcg8 atggccgatcggcttaggctggaaggaacaaataggcggaattaaggaaggcgttctcgcttttcgacaaggaggcggaccataggaggcggattaggaacggttatgagg 9 atggcggaaaaaggaaatgtttggcatcggcgggctccggcaactggaggttcggccatggaggcgaaaatcgtgggcggcggcagcgctggccggagtttgaggagcgcg10 tggccgcggaggggcccgtcgggcgcggatttctacaagggcttcctgttaaggaggtggcatccaggcgtcgcacgctcggcgcggcaggaggcacgcgggaaaaaacg11 gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaattaaatatttatt12 gtttaattactttatcatttaatttaggttttaattttaaatttaatttaggtaagatgaatttggttttttttaaggtagttatttaattatcgttaaggaaagttaaa13 gtattacaggcagaccttatttaggttattattattatttggattttttttttttttttttttaagttaaccgaattattttctttaaagacgttacttaatgtcaatgc14 gttagtcttttttagattaaattattagattatgcagtttttttacataagaaaatttttttttcggagttcatattctaatctgtctttattaaatcttagagatatta15 gtattatatttttttatttttattattttagaatataatttgaggtatgtgtttaaaaaaaatttttttttttttttttttttttttttttttaaaatttataaatttaa16 gttatttttaaatttaattttaattttaaaatacaaaatttttactttctaaaattggtctctggatcgataatgtaaacttattgaatctatagaattacattattgat17 gtatgtctatttcacggaagaatgcaccactatatgatttgaaattatctatggctaaaaaccctcagtaaaatcaatccctaaacccttaaaaaacggcggcctatccc 18 gttaattatttattccttacgggcaattaattatttattacggttttatttacaattttttttttttgtcctatagagaaattacttacaaaacgttattttacatactt19 gttacattatttattattatccgttatcgataattttttacctcttttttcgctgagtttttattcttactttttttcttctttatataggatctcatttaatatcttaa20 gtatttaactctctttactttttttttcactctctacattttcatcttctaaaactgtttgatttaaacttttgtttctttaaggattttttttacttatcctctgttat21 tttagctcagtccagctagctagtttacaatttcgacaccagtttcgcaccatcttaaatttcgatccgtaccgtaatttagcttagatttggatttaaaggatttagattga22 tttagtacagtagctcagtccaagaacgatgtttaccgtaacgtqacgtaccgtacgctaccgttaccggattccggaaagccgattaaggaccgatcgaaaggg23 cgggcggatttaggccgacggggacccgggattcgggacccgaggaaattcccggattaaggtttagcttcccgggatttagggcccggatggctgggaccc24 tttagctagctactttagctatttttagtagctagccagcctttaaggctagctttagctagcattgttctttattgggacccaagttcgacttttacgatttagttttgaccgt25 gaccaaaggtgggctttagggacccgatgctttagtcgcagctggaccagttccccagggtattaggcaaaagctgacgggcaattgcaatttaggcttaggcca26 gatttactttagcatttttagctgacgttagcaagcattagctttagccaatttcgcatttgccagtttcgcagctcagttttaacgcgggatctttagcttcaagctttttac 27 ggattcggatttacccggggattggcggaacgggacctttaggtcgggacccattaggagtaaatgccaaaggacgctggtttagccagtccgttaaggcttag28 tccttagatttcagttactatatttgacttacagtctttgagatttcccttacgattttgacttaaaatttagacgttagggcttatcagttatggattaatttagcttattttcga29 ggccaattccggtaggaaggtgatggcccgggggttcccgggaggatttaggctgacgggccggccatttcggtttagggagggccgggacgcgttagggc30 cgctaagcagctcaagctcagtcagtcacgtttgccaagtcagtaatttgccaaagttaaccgttagctgacgctgaacgctaaacagtattagctgatgactcgta31 ttaaggacttaggctttagcagttactttagtttagttccaagctacgtttacgggaccagatgctagctagcaatttattatccgtattaggcttaccgtaggtttagcgt32 gctaccgggcagtctttaacgtagctaccgtttagtttgggcccagccttgcggtgtttcggattaaattcgttgtcagtcgctctrtgggtttagtcattcccaaaagg33 cagttagctgaatcgtttagccatttgacgtaaacatgattttacgtacgtaaattttagccctgacgtttagctaggaatttatgctgacgtagcgatcgactttagcac 34 cggttagggcaaaggttggatttcgacccagggggaaagcccgggacccgaacccagggctttagcgtaggctgacgctaggcttaggttggaacccggaaa35 gcggaagggcgtaggtttgggatgcttagccgtaggctagctttcgacacgatcgattcgcaccacaggataaaagttaagggaccggtaagtcgcggtagcc36 ctagctacgaacgctttaggcgcccccgggagtagtcgttaccgttagtatagcagtcgcagtcgcaattcgcaaaagtccccagctttagccccagagtcgacg37 gggatgctgacgctggttagctttaggcttagcgtagctttagggccccagtctgcaggaaatgcccaaaggaggcccaccgggtagatgccasagtgcaccgt38 aacttttagggcatttccagttttacgggttattttcccagttaaactttgcaccattttacgtgttacgatttacgtataatttgaccttattttggacactttagtttgggttac39 ttagggccaagtcccgaggcaaggaattctgatccaagtccaatcacgtacagtccaagtcaccgtttgcagctaccgtttaccgtacgttgcaagtcaaatccat40 ccattagggtttatttacctgtttattttttcccgagaccttaggtttaccgtactttttaacggtttacctttgaaatttttggactagcttaccctggatttaacggccagttt 二 模型的合理假设各序列中DNA碱基三联组 即3字符串 的起始位置和基因表达不影响分类的结果 64种3字符串压缩为20组后不影响分类的结果 较长的182个自然序列与已知类别的20个样本序列具有共同的特征 三 模型建立与求解研究DNA序列具有什么结构 其A T C G4个碱基排成的看似随机的序列中隐藏着什么规律 是解读人类基因组计划中DNA全序列草图的基础 也是生物信息学 Bioinformaties 最重要的课题之一 题目给出了20个已知为两个类别的人工制造的DNA序列 要求我们从中提取特征 构造分类方法 从而对20个未标明类别的人工DNA序列和182个自然DNA序列进行分类 这是模式识别中的 有人管理分类 问题 即事先规定了分类的标准和种类的数目 通过大批已知样本的信息处理找出规律 再用计算机预报未知 给出的已知类别的样本称为学习样本 对于此类问题 我们通过建立分类数学模型 这包括形成和提取特征以及制定分类决策 考查分类模型的效率 预报未知这几个步骤来进行 特征的形成和提取为了有效地实现分类识别 首先要根据被识别的对象产生一组基本特征 并对基本特征进行变换 得到最能反映分类本质的特征 这就是特征形成和提取的过程 在列举了尽可能完备的特征参数集之后 就要借助于数学的方法 使特征参数的数目 在保证分类良好的前提下 减到最小 这是因为 1 多余的特征参数不但没有多少好处 而且会带来噪音 干扰分类和数学模型的建立 2 为了保证样本数和特征参数个数的比值足够大 而又不必要用太多的样本 最好使特征参数的个数降至最少 模式识别计算一般要求样本数至少为变量数的3倍 否则结果不够可靠 本问题的学习样本数为20个 故特征参数的个数以6 8个为宜 我们通过研究4个字符A T C G在DNA序列中的排列 组合特性 主要是研究字符和字符串的排列在序列中出现的频率 从中提取DNA序列的结构特征参数 一 特征的形成分别列举一个字符 2个字符 3个字符的排列在序列中出现的频率 构成基本特征集 1个字符的出现频率表1列出了20个样本中A T C G这4个字符出现的频率 由于在不用于编码蛋白质的序列片段中 A和T的含量特别多些 因此我们将A和T是否特别丰富作为一个特征 在表一中 列出了A和T出现的频率之和 程序见附录一 ACTGA T1 29 7317 1213 5139 6443 242 27 0316 2215 3241 4442 343 27 0321 626 3145 0533 334 42 3410 8128 8318 0271 175 23 4223 4210 8142 3434 236 35 1412 6112 6139 6447 757 35 149 9118 9236 0454 058 27 9316 2218 9236 9446 859 20 7220 7215 3243 2436 0410 18 1827 2713 6440 9131 8211 35 454 5550 0010 0085 4512 32 732 7350 0014 5582 7313 25 4510 0051 8212 7377 2714 30 008 1850 0011 8280 0015 29 09 0064 556 3693 6416 36 368 1846 369 0982 7317 35 4524 5526 3613 6461 8218 29 0911 8250 009 0979 0919 21 8214 5556 367 2778 1820 20 0017 2756 366 3676 36 表1 2 2字符串的排列出现的频率A T C G这4个字符组成了16种不同的2字符串 表2列出了20个样本中各2字符串出现的频率 用 滚动 算法 如attcg有at tt tc cg共4个2字符串 程序与附录一类似 表2AAACATAGTATCTGTTCACTCCCGGAGTGCGG1 9 019 013 608 114 50 904 503 603 603 601 808 1111 712 705 4118 922 9 917 213 605 412 701 805 415 414 501 80 909 019 914 505 4121 623 5 4111 713 605 412 701 80 90 905 41 90 9014 4113 51 907 2123 424 18 925 4111 715 4110 811 805 4110 815 411 80 902 706 314 502 704 505 6 318 111 807 211 802 702 703 605 414 502 7010 819 91 909 0121 626 15 322 706 319 913 601 801 805 414 50 00 008 1110 81 908 1119 827 15 321 8010 817 214 502 706 315 41 901 80 906 3113 51 904 5016 228 8 113 606 319 915 413 602 707 212 703 601 808 1110 811 807 2116 229 9 01 904 506 31 003 607 214 503 602 702 7011 717 213 6013 5118 0210 6 363 641 826 361 825 452 733 645 453 644 5513 644 553 6413 6418 1811 15 452 7314 552 7316 36 911 8230 00 91 91 911 822 734 55 002 7312 13 64 9110 916 3615 451 821 8230 91 91 91 00 912 737 27 004 5513 6 364 5510 004 5512 731 822 7334 552 732 731 821 823 644 551 822 7314 8 18 9112 737 2713 646 361 8228 182 734 55 00 915 454 55 91 9115 13 64 0012 731 8213 64 002 7348 18 00 00 00 001 823 64 00 9116 16 363 6415 45 9113 644 554 5522 731 825 45 00 914 552 73 001 8217 17 275 4510 911 8210 006 364 555 454 557 279 092 733 642 733 643 6418 8 187 2711 821 8215 451 82 9130 913 643 641 822 731 823 64 912 7319 2 732 7313 641 8214 559 09 9131 821 828 181 822 732 732 73 91 9120 6 366 366 36 919 0910 003 6432 732 7313 64 91 001 823 64 00 91 3 3字符串的排列出现的频率A T C G这4个字符组成了64种不同的3字符串 这64种3字符串构成生物蛋白质的20种氨基酸 在参考文献 1 的Figur2中 给出了这20种氨基酸的编码 见图1 因此 在计算3字符串的出现频率时 我们根据图1将代表同一种氨基酸的3字符串合成一类 只统计20类3字符串的出现频率 不考虑字符串在序列片段中的起始位置 也采用 滚动 算法 如acgtcc中就有acg cgt gtc tcc共4个3字符串 见表3 程序与附录一类似 Figure2 Symmetriesofthediamondcodesortthe64codonsinto20classes indicatedhereby20colors Allthecodonsineachclassspecifiedthesameaminoacid 图1BrianHayes在论文 TheInventionoftheGeneticCode 中给出的图形 注 图中DNA被转录为RNA U 代表 T 表3b1b2b3b4b5b6b7b8b9b10b11b12b13b14b15b16b17b18b19b2011 773 542 650 880 000 007 960 884 422 6517 7010 623 544 424 427 081 773 5413 277 0821 891 890 940 940 000 941 890 944 7212 267 5511 328 493 773 776 609 436 607 552 8330 980 000 005 880 988 822 940 000 002 9410 785 8813 730 004 903 9219 611 968 825 8840 000 000 000 870 000 8713 041 746 092 6111 3013 043 485 223 488 703 481 7414 787 8352 860 000 003 810 953 813 810 003 813 819 529 5212 382 869 524 767 622 867 629 5260 000 000 882 630 001 7513 160 884 391 7514 049 657 025 264 3911 402 631 7510 536 1471 920 000 002 880 964 812 880 001 924 8112 506 7313 461 926 734 8110 583 859 627 6982 563 420 000 850 850 8512 820 851 710 8520 512 563 429 405 9811 110 854 2711 973 4290 000 000 002 972 979 902 970 000 993 966 931 9813 861 982 973 9623 762 978 916 93101 870 933 742 800 000 002 800 007 488 419 357 483 7414 9512 150 002 804 677 487 48110 000 890 000 000 001 798 040 005 364 4615 188 048 934 463 578 044 466 2513 395 36122 730 000 912 730 913 644 553 643 641 829 095 453 645 456 367 278 185 4510 919 09131 800 900 900 900 000 909 010 003 607 2114 418 117 216 317 214 501 807 2111 714 50142 940 000 005 880 006 861 960 003 926 863 929 8013 730 985 882 9410 780 9810 789 80152 911 942 911 940 005 831 940 001 949 715 838 7410 681 943 883 888 742 9111 6510 68162 860 950 0011 431 901 902 860 004 763 815 718 578 576 679 524 765 712 867 627 62171 920 961 924 811 923 851 920 960 966 734 818 6510 582 886 732 889 626 738 657 69181 710 851 710 850 852 5616 240 851 710 8516 245 136 845 983 4211 111 715 1311 113 42190 940 941 890 940 940 941 890 9410 387 555 669 438 498 497 555 666 6011 326 600 94200 860 860 001 720 860 8617 240 862 591 7215 527 765 173 454 319 485 175 179 485 17 其中b1 aaa atab2 aca agab3 cac ctcb4 ccc cgcb5 gag gtgb6 gcg gggb7 tat tttb8 tct tgtb9 aac caa atc ctab10 aag gaa atg gtab11 aat taa att ttab12 acc cca agc cgab13 acg gac ctg gtcb14 act tca agt tgab15 cag gac ctt ttcb16 cat tac ctt ttcb17 ccg gcc cgg ggcb18 cct tcc cgt tgcb19 gat tag gtt ttgb20 gct tcg ggt tgg 综合起来 形成了有41个变量的基本特征集 二 特征的提取上述基本特征集中有41个变量 即样本处于一个高维空间中 特征的提取就是通过变换的方法用低维空间来表示样本 使得X的大部分特性能由Y来表达 即将p维随机向量X变换成q维随机向量Y q p 我们用主成分分析法进行特征的提取 其步骤是 求X的均方差矩阵V的特征根 记为 1 2 k 0 k 1 P 0求 1 2 K对应的标准正交的特征向量r1 r2 rK得到第i个主成分为yi riX i 1 2 K求第i个主成分的贡献率ui i j i 1 2 K及前m个主成分的累计贡献率vm ui 求得q 使得Vq V0 V0一般在0 85到1之间 则取W r1 r2 rq Y XW第3步所求的贡献率 代表主成分表达X的能力 贡献率越大 对应的主成分表达X的能力越强 只要前q个主成分的累计贡献率超过给定的百分比V 就可以用低维特征Y y1 y2 yq 来反映高维特征 x1 x2 xp 的变化特性 现将反映20个已知类别样本的41个特征的随机向量X进行特征提取 计算得前4个主成分的累计贡献率为96 故提取特征为4个变量 取W r1 r2 r3 r4 则Y XW Y的4个分量就是从基本特征集提取所得的特征参数向量 程序及结果见附录二 分类决策的制定前面已选取了特征参数 把特征参数张成的多维空间称为特征空间 分类决策就是在特征空间中用统计的方法把被识别对象归为某一类别 基本作法是在学习样本集的基础上确定某个判决规则 使按这种判决规则对被甄别对象进行分类所造成的错误识别率最小或引起的损失最少 这里 我们的分类决策选取Fisher线性判别法 即选取线性判别函数U x 使得 U x E1 U x E2 U x 2 D1 U x D2 U x max 1 其中Ei与Di分别表示母体i的期望和方差运算 i 1 2 1 式的含义是 构造一个线性判别函数U x 对样本进行分类 使得平均出错概率最小 即应在不同母体下 使U x 的取值尽量分开 具体地说 要使母体间的差异 E1 U x E2 U x 2相对于母体内的差异D1 U x D2 U x 为最大 取U x 1 2 1 2 1X就可满足 1 其中i为第i类母体的均值矩阵的估计 i为第i类母体的方差矩阵的估计 取分类门槛值为 U0 U 1 1 2 其中0U0 U 2 U0 就认为X取自母体1 当U X U0 就认为X取自母体2 用上面得出的4个主成分构成的特征组和此分类决策 对20个学习样本进行分类 能得出正确的结果 但是 若取W r1 r2 r3 求Y XW 以Y的3个分量作为特征参数向量 再用Fisher线性判别法对20个学习样本进行分类 则第四个样本不能正确分类 因此 得出分类的数学模型为 特征选取 取W r1 r2 r3 r4 求Y XW 得出特征参数向量就是Y的4个列向量 其中X是反映20个学习样本的41个特征的随机向量 分类决策 Fisher线性判别法 三 分类模型的有效性考查前面建立的分类数学模型对20个学习样本进行了正确分类 为了进一步考查分类模型的有效性和可靠性 我们采用的方法是 预先留一部分学习样本不参加训练 然后用分类决策模型对其作预报 将预报成功率作为预报能力的指标 每次取出一个学习样本 以其余学习样本作训练集 用分类决策模型对取出的一个样本作预报 同时对给出的后20种样本作预报 结果见表4 从表4可以看出 每次取出一个学习样本 以其余学习样本作训练集 用分类模型对该学习样本的预报的成功率是100 每次取出一个学习样本 以其余学习样本作训练集 用分类模型对未知类别的第21 40个样本进行预报 其结果有以下特点 除分别取出4 15 17 20的预报结果不同外 分别取出其余16中一个 预报结果均为 22 23 25
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 修井工程考试试题及答案
- 山东航空考试试题及答案
- 中考监考考试试题及答案
- 建筑实务考试题及答案
- 食管癌患者的临床观察
- 外科三基试题及答案
- 家电公司税务风险防范办法
- 班主任初中工作计划总结
- 山东省宁阳四中2026届化学高一上期末调研试题含解析
- 2020-2025年消防设施操作员之消防设备中级技能综合检测试卷B卷含答案
- 现场液位计培训课件图片
- 氧气安全培训课件
- 景区演艺演员管理制度
- 2024年甘肃省张家川回族自治县教育局公开招聘试题含答案分析
- 亲子活动热狗活动方案
- 2025年黑龙江、吉林、辽宁、内蒙古高考生物真题试卷(解析版)
- 河南省郑州市2023-2024学年高一下学期6月期末物理试题(解析版)
- 2024年中级统计师《统计基础理论及相关知识》真题及答案解析
- 智能制造虚拟仿真实训基地建设目标
- 《慢性乙肝治疗策略》课件
- 施工用电合同协议书
评论
0/150
提交评论