模糊方法建模实例.doc_第1页
模糊方法建模实例.doc_第2页
模糊方法建模实例.doc_第3页
模糊方法建模实例.doc_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

建模实例:DNA序列分类2000年6月, 人类基因组计划中DNA全序列草图完成, 预计2001年可以完成精确的全序列图, 此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”. 这本大自然写成的“天书”是由4个字符A, T, C, G按一定顺序排成的长约30亿的序列, 其中没有“断句”也没有标点符号, 除了这4个字符表示4种碱基以外, 人们对它包含的“内容”知之甚少, 难以读懂. 破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一. 在这个目标中, 研究DNA全序列具有什么结构, 由这4个字符排成的看似随机的序列中隐藏着什么规律, 又是解读这部天书的基础, 是生物信息学(Bioinformatics)最重要的课题之一.虽然人类对这部“天书”知之甚少, 但也发现了DNA序列中的一些规律性和结构. 例如, 在全序列中有一些是用于编码蛋白质的序列片段, 即由这4个字符组成的64种不同的3字符串, 其中大多数用于编码构成蛋白质的20种氨基酸. 又例如, 在不用于编码蛋白质的序列片段中, A和T的含量特别多些, 于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果. 此外, 利用统计的方法还发现序列的某些片段之间具有相关性, 等等. 这些发现让人们相信, DNA序列中存在着局部的和全局性的结构, 充分发掘序列的结构对理解DNA全序列是十分有意义的. 目前在这项研究中最普通的思想是省略序列的某些细节, 突出特征, 然后将其表示成适当的数学对象. 这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构.作为研究DNA序列的结构的尝试, 提出以下对序列集合进行分类的问题: 1)下面有20个已知类别的人工制造的序列(见后面), 其中序列标号110 为A类, 11-20为B类. 请从中提取特征, 构造分类方法, 并用这些已知类别的序列, 衡量你的方法是否足够好. 然后用你认为满意的方法, 对另外20个未标明类别的人工序列(标号2140)进行分类, 把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入): A类 ; B类 . 请详细描述你的方法, 给出计算程序. 如果你部分地使用了现成的分类方法, 也要将方法名称准确注明. 这40个序列也放在如下地址的网页上, 用数据文件Art-model-data 标识, 供下载:网易网址: 教育频道 在线试题;教育网: News mcm2000教育网: /mcm2)在同样网址的数据文件Nat-model-data 中给出了182个自然DNA序列, 它们都较长. 用你的分类方法对它们进行分类, 像1)一样地给出分类结果.提示:衡量分类方法优劣的标准是分类的正确率, 构造分类方法有许多途径, 例如提取序列的某些特征, 给出它们的数学表示:几何空间或向量空间的元素等, 然后再选择或构造适合这种数学表示的分类方法;又例如构造概率统计模型, 然后用统计方法分类等. Art-model-data1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg2.cggaggacaaacgggatggcggtattggaggtggcggactgttcggggaattattcggtttaaacgggacaaggaaggcggctggaacaaccggacggtggcagcaaagga3.gggacggatacggattctggccacggacggaaaggaggacacggcggacatacacggcggcaacggacggaacggaggaaggagggcggcaatcggtacggaggcggcgga4.atggataacggaaacaaaccagacaaacttcggtagaaatacagaagcttagatgcatatgttttttaaataaaatttgtattattatggtatcataaaaaaaggttgcga5.cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggctacaccaccgtttcggcggaaaggcggagggctggcaggaggctcattacggggag6.atggaaaattttcggaaaggcggcaggcaggaggcaaaggcggaaaggaaggaaacggcggatatttcggaagtggatattaggagggcggaataaaggaacggcggcaca7.atgggattattgaatggcggaggaagatccggaataaaatatggcggaaagaacttgttttcggaaatggaaaaaggactaggaatcggcggcaggaaggatatggaggcg8.atggccgatcggcttaggctggaaggaacaaataggcggaattaaggaaggcgttctcgcttttcgacaaggaggcggaccataggaggcggattaggaacggttatgagg9.atggcggaaaaaggaaatgtttggcatcggcgggctccggcaactggaggttcggccatggaggcgaaaatcgtgggcggcggcagcgctggccggagtttgaggagcgcg10.tggccgcggaggggcccgtcgggcgcggatttctacaagggcttcctgttaaggaggtggcatccaggcgtcgcacgctcggcgcggcaggaggcacgcgggaaaaaacg11.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaattaaatatttatt12.gtttaattactttatcatttaatttaggttttaattttaaatttaatttaggtaagatgaatttggttttttttaaggtagttatttaattatcgttaaggaaagttaaa13.gtattacaggcagaccttatttaggttattattattatttggattttttttttttttttttttaagttaaccgaattattttctttaaagacgttacttaatgtcaatgc14.gttagtcttttttagattaaattattagattatgcagtttttttacataagaaaatttttttttcggagttcatattctaatctgtctttattaaatcttagagatatta15.gtattatatttttttatttttattattttagaatataatttgaggtatgtgtttaaaaaaaatttttttttttttttttttttttttttttttaaaatttataaatttaa16.gttatttttaaatttaattttaattttaaaatacaaaatttttactttctaaaattggtctctggatcgataatgtaaacttattgaatctatagaattacattattgat17.gtatgtctatttcacggaagaatgcaccactatatgatttgaaattatctatggctaaaaaccctcagtaaaatcaatccctaaacccttaaaaaacggcggcctatccc18.gttaattatttattccttacgggcaattaattatttattacggttttatttacaattttttttttttgtcctatagagaaattacttacaaaacgttattttacatactt19.gttacattatttattattatccgttatcgataattttttacctcttttttcgctgagtttttattcttactttttttcttctttatataggatctcatttaatatcttaa20.gtatttaactctctttactttttttttcactctctacattttcatcttctaaaactgtttgatttaaacttttgtttctttaaggattttttttacttatcctctgttat21.tttagctcagtccagctagctagtttacaatttcgacaccagtttcgcaccatcttaaatttcgatccgtaccgtaatttagcttagatttggatttaaaggatttagattga22.tttagtacagtagctcagtccaagaacgatgtttaccgtaacgtqacgtaccgtacgctaccgttaccggattccggaaagccgattaaggaccgatcgaaaggg 23.cgggcggatttaggccgacggggacccgggattcgggacccgaggaaattcccggattaaggtttagcttcccgggatttagggcccggatggctgggaccc24.tttagctagctactttagctatttttagtagctagccagcctttaaggctagctttagctagcattgttctttattgggacccaagttcgacttttacgatttagttttgaccgt25.gaccaaaggtgggctttagggacccgatgctttagtcgcagctggaccagttccccagggtattaggcaaaagctgacgggcaattgcaatttaggcttaggcca26.gatttactttagcatttttagctgacgttagcaagcattagctttagccaatttcgcatttgccagtttcgcagctcagttttaacgcgggatctttagcttcaagctttttac 27.ggattcggatttacccggggattggcggaacgggacctttaggtcgggacccattaggagtaaatgccaaaggacgctggtttagccagtccgttaaggcttag28.tccttagatttcagttactatatttgacttacagtctttgagatttcccttacgattttgacttaaaatttagacgttagggcttatcagttatggattaatttagcttattttcga29.ggccaattccggtaggaaggtgatggcccgggggttcccgggaggatttaggctgacgggccggccatttcggtttagggagggccgggacgcgttagggc30.cgctaagcagctcaagctcagtcagtcacgtttgccaagtcagtaatttgccaaagttaaccgttagctgacgctgaacgctaaacagtattagctgatgactcgta31.ttaaggacttaggctttagcagttactttagtttagttccaagctacgtttacgggaccagatgctagctagcaatttattatccgtattaggcttaccgtaggtttagcgt32.gctaccgggcagtctttaacgtagctaccgtttagtttgggcccagccttgcggtgtttcggattaaattcgttgtcagtcgctctrtgggtttagtcattcccaaaagg33.cagttagctgaatcgtttagccatttgacgtaaacatgattttacgtacgtaaattttagccctgacgtttagctaggaatttatgctgacgtagcgatcgactttagcac34.cggttagggcaaaggttggatttcgacccagggggaaagcccgggacccgaacccagggctttagcgtaggctgacgctaggcttaggttggaacccggaaa35.gcggaagggcgtaggtttgggatgcttagccgtaggctagctttcgacacgatcgattcgcaccacaggataaaagttaagggaccggtaagtcgcggtagcc36.ctagctacgaacgctttaggcgcccccgggagtagtcgttaccgttagtatagcagtcgcagtcgcaattcgcaaaagtccccagctttagccccagagtcgacg37.gggatgctgacgctggttagctttaggcttagcgtagctttagggccccagtctgcaggaaatgcccaaaggaggcccaccgggtagatgccasagtgcaccgt38.aacttttagggcatttccagttttacgggttattttcccagttaaactttgcaccattttacgtgttacgatttacgtataatttgaccttattttggacactttagtttgggttac39.ttagggccaagtcccgaggcaaggaattctgatccaagtccaatcacgtacagtccaagtcaccgtttgcagctaccgtttaccgtacgttgcaagtcaaatccat40.ccattagggtttatttacctgtttattttttcccgagaccttaggtttaccgtactttttaacggtttacctttgaaatttttggactagcttaccctggatttaacggccagttt本题是2000年网易杯全国大学生数学建模竞赛题目A题.作者:李清亮 王晓波 杜皓 华中农业大学 问题的简述生物学家发现DNA序列是由四种碱基A, T, C, G按一定顺序排列而成, 其中既没有“断句”, 也没有标点符号, 同时也发现DNA序列的某些片段具有一定的规律性和结构. 例如, 在全序列中有一些是用于编码蛋白质的序列片段, 即由这4个字符组成的64种不同的3字符串, 其中大多数用于编码构成蛋白质的20种氨基酸. 而在不用于编码蛋白质的序列片段中, A和T的含量特别多些. 由此人工制造两类序列 (A类编号为110, B类编号为1120 ), 现在的问题是如何找出比较满意的方法来识别未知的序列 (编号为2140 ), 并判断它们各属于哪一类. 问题的分析由于DNA序列全是A, T, C, G组成, 且长短不一, 所以我们采用提取DNA序列中A, T, C, G的百分含量这一特征来对已知DNA序列进行模糊分类和对未知DNA序列进行模糊识别.表5-7和表5-8中分别列出了已知DNA序列和未知DNA序列中含A, T, C, G的个数 ( A类编号为110, B类编号为1120 ; 未知DNA序列编号为2140).表5-7 已知DNA序列含碱基(A,T,C,G)的个数No.1234567891011121314151617181920A3330304726393931232039362833324039322422T151773212142121171555555755715129556262C19182412261411182330531190927131619G4446502047444041484511161413710151087表5-8 未知DNA序列含碱基(A,T,C,G)的个数No.2122232425262728293031323334353637383940A3130182426252430153127193024252422262923T4123194723442452192740363717212221512550C2225262224242117222620252124223226203023G1926392232213518452325292337352734202220 已知类别DNA序列的模糊分类 模糊聚类提取已知类别的20 个DNA序列的A, T, C, G的百分含量构成如下矩阵:X = (xij)204,其中xi1, xi2, xi3, xi4分别表示第个DNA系列中的A, T, C, G的百分含量. 采用切比雪夫距离法建立模糊相似矩阵,然后用传递闭包法进行聚类,动态聚类图如图5-12.图5-12 已知DNA系列的分类图 l - 特征值 r - 分类数 确定最佳分类 设, 称为总体样本的中心向量, 对应于l 值的分类数为r, 第j类的样本数为nj , 样本记为:x1(j), x2(j), , xn(j), 聚类中心为向量, 其中为第k个特征的平均值:,作F - 统计量: 上式中为与的距离, 为第j类中样本xi(j)与中心的距离.由于F服从自由度为r - 1, n - r的F分布,其分子表示类与类间的距离,分母表示类本身的距离,那么F的值越大,则说明类与类间的距离越大,即分类的结果越好. 如果FFa ( r - 1, n - r) ( a = 0.05 ),则根据数理统计方差分析理论知道类与类之间差异是显著的,说明分类比较合理,如果满足不等式FFa ( r - 1, n - r) 的F值不止一个,则可进一步考查差 (F - Fa ) / Fa 的大小,从较大者中找一个满意的F值即可.根据上述的原则,分别计算出各种分类的F值 ( 表5 - 9 ) 得,当l = 0.971, F = 43.13, (F- Fa ) / Fa = 12.74时,将20个已知DNA序列分成如下11类为最佳:A1 = 1, 2, 8, A2 = 6, A3 = 3, 5, 9, A4 = 10, A5 = 7, A6 = 4, A7 = 17,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论