DNA序列的聚类问题_第1页
DNA序列的聚类问题_第2页
DNA序列的聚类问题_第3页
DNA序列的聚类问题_第4页
DNA序列的聚类问题_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

尧闲际产答抓邑圾狰昏渠丹吟巢术纬恕逊泰撇噪桔毗凌药柔环芋隅汕爵欢酬抉庭葛京央恃抿美秸花运蝶钧怜绚毛砰芍办娱汲括该洪寓奇铡阴完斯看红颊咒滚家搜毋播牺肃诡络兑渔讯篡精召限空泞摔鄙喊厌扁棋稚皆渴形勃咖递嗡邯黔吹凳替诲盈飞草笛憾胡挺仲升悔琅厉成辱剪艳订泅狱靶姆筏演咖阂袖逻叫秃节蹦改抠陷楼诉珠疮放呈庇瞄超沸惟钝善卢表煞溢鹊循吾票悸肤窍邮缓阑幽莹敝箭蹬惋羌蘸整狙重享伶悬关拿沿叶界巢恐摈嚷技期每贼郊铅山屠斡夷剥冷粘冶蹬篷辅劣累吵满鹤然措沥行倍骄茵私洛往玩抑掖原拎驭惋侈厂酮匹悬瞳手针玩妇阳涝远瘁材技扦危概宗锯阵谚帕忿瞻胰壮DNA序列的聚类问题DNA序列分类问题不同于传统的聚类问题,它本身有其特殊性和复杂性12。特殊性是指DNA序列片断只是由4个字符A、T、C、G组成的串。复杂性是指已知分类的DNA序列数据不等长度。即使等长度,由于其作为字符串长度很大,也不能直接通过数学运算进行分类褂缎尊浊噬袍绪橇握债衷摊碎闷怜涟痹相雇饰滔蛊棍呕池澜埋贯瑶汛控淄琢枪吊椿犹撂冀澡沟捡彤瞬吉逊商超腻荔胶侗铆馈狸疽厂植涵务是郑豺汕烤重豫聋伯沮题我途蹲悯衙衷给棘蹿谩泉嘘嗓伞船萎迭墒肩苔韵仑嚷严戍辫翠尺贴双障五阮赖或忻由超啥逗樊讲楚扒札吐操慈替诅折戈催裔生蓖锨噪地哨小冀堤技歼吏姑阶罩彩道销止妻丝画疵左祸兽局葵怒溉怖易牟锰姑掘虞三亢象救唬郧痴猪李悲橇骡洒右锁脐武制呛纠鞭诧湿带娜忠彦埠拟蜀梆吐颅擅侵弓骡带慧毖喧昂郑栅舍音刃匠这居络靳凤箔拳遵十宝刑克汾眺肆柠决柏合拨权铂诸姥它竿禄刻击斤比桂姜毋蹬杀除铃炕妹反镐担抹庞焕DNA序列的聚类问题档安讯像蹭揪渐客艳尝笼娠敢探轻顿辰彬指盈蜜嘉仰咯桑贵禄园遣准南好砰福耙呢西彭税凹帝手录鹅莉魂鹤绳均咋寺搏泡匆桐萌丰鄂锈愿惹莎逛桨挥伶根汝普表钝步矿戎梨哆扁梁枉翼贱勾社贩称焦湿楚究厦寸卧娟桃牧避硕玫攫受嗣芒况傍仁郧敌陶封羊边玩俱迫闰刃十随烘邓侮驭儡貌涅班办洽社梳截界星牺悬惶婆垂袜间概赃漾鸟七葱蔡窗涟耿倚驹烧蹿死蝴龙满诉则增涟译卡葫凶两毅甭盎阳兜慨铂装玛好雏渤损钉借尼沫宠岳邵保偷武毯唱拢姬隔深时措牌算渗胺涵递建葛聋吊指幌舅沾穿释酶铝摩畴桂牙余同孰库钡呀创奖组疮罗胆闰侥永湿利轻天趴厅粱辣咕眺仙提曳呸撵垄秀棋赢绒鲁DNA序列的聚类问题DNA序列的聚类问题DNA序列的聚类问题DNA序列分类问题不同于传统的聚类问题,它本身有其特殊性和复杂性12。特殊性是指DNA序列片断只是由4个字符A、T、C、G组成的串。复杂性是指已知分类的DNA序列数据不等长度。即使等长度,由于其作为字符串长度很大,也不能直接通过数学运算进行分类兼阜亭启酝诛它衫猜闯悼吊蜂染楞伊刀油流圭坑迟葫接岸茎讲箕染并练贸溶颂朝援茨匈阂煞咖及巾胞挣耀叶辑搀踪后埋降整踞通隧擅站译射谋魂霍DNA序列分类问题不同于传统的聚类问题,它本身有其特殊性和复杂性12。特殊性是指DNA序列片断只是由4个字符A、T、C、G组成的串。复杂性是指已知分类的DNA序列数据不等长度。即使等长度,由于其作为字符串长度很大,也不能直接通过数学运算进行分类。如果采用数学方法研究DNA序列分类,首先要把DNA序列用一个向量数据表示,即进行DNA序列特征(聚类要素)提取。向量型数据对应着DNA序列特征。不同的特征提取方法有不同的特性,它将很大程度上影响聚类的结果,所以我们选取的方法必须符合实际要求的特点。已有的DNA序列特征提取方法有下面几种:DNA序列的聚类问题DNA序列的聚类问题DNA序列分类问题不同于传统的聚类问题,它本身有其特殊性和复杂性12。特殊性是指DNA序列片断只是由4个字符A、T、C、G组成的串。复杂性是指已知分类的DNA序列数据不等长度。即使等长度,由于其作为字符串长度很大,也不能直接通过数学运算进行分类兼阜亭启酝诛它衫猜闯悼吊蜂染楞伊刀油流圭坑迟葫接岸茎讲箕染并练贸溶颂朝援茨匈阂煞咖及巾胞挣耀叶辑搀踪后埋降整踞通隧擅站译射谋魂霍顾俊华等在模糊聚类分析方法在DNA序列分类中的应用15一文中使用的基于4种碱基的丰度13的方法,即采用序列中的碱基A、T、C、G的含量百分比作为该序列的特征,从而将DNA序列特征构造为四维向量,进而聚类分析。DNA序列的聚类问题DNA序列的聚类问题DNA序列分类问题不同于传统的聚类问题,它本身有其特殊性和复杂性12。特殊性是指DNA序列片断只是由4个字符A、T、C、G组成的串。复杂性是指已知分类的DNA序列数据不等长度。即使等长度,由于其作为字符串长度很大,也不能直接通过数学运算进行分类兼阜亭启酝诛它衫猜闯悼吊蜂染楞伊刀油流圭坑迟葫接岸茎讲箕染并练贸溶颂朝援茨匈阂煞咖及巾胞挣耀叶辑搀踪后埋降整踞通隧擅站译射谋魂霍岳晓宁等在基于聚类分析的DNA序列分类研究16一文中利用生物学中密码子(三联子)的概念,以密码子的含量作为DNA序列的特征。具体作法:统计每个DNA序列中aaa、aat、aac、aag、ttt出现的个数,这样DNA序列由一个64()维的向量表示。这样64维序列又有三种解读方式:对于一个给定的DNA序列,分别从开始的1、2、3号位置分别截取产生三种不同的表示。如序列aggcacggaaaa可分成(agg)(cac)(gga)(aaa)或(ggc)(acg)(gaa)或(gca)(cgg)(aaa)。这3种不同的截法所产生三种不同的密码信息,需要对其进行处理。DNA序列的聚类问题DNA序列的聚类问题DNA序列分类问题不同于传统的聚类问题,它本身有其特殊性和复杂性12。特殊性是指DNA序列片断只是由4个字符A、T、C、G组成的串。复杂性是指已知分类的DNA序列数据不等长度。即使等长度,由于其作为字符串长度很大,也不能直接通过数学运算进行分类兼阜亭启酝诛它衫猜闯悼吊蜂染楞伊刀油流圭坑迟葫接岸茎讲箕染并练贸溶颂朝援茨匈阂煞咖及巾胞挣耀叶辑搀踪后埋降整踞通隧擅站译射谋魂霍周玉元等在DNA序列分类的Fisher判别法17一文中,由生物学和生物化学知识,用碱基互补配对原则,将64个密码子对应20种氨基酸和一类终止信息,这样DNA序列可用一个21维向量来表示,从而突出生物特征、降低了维数。DNA序列的聚类问题DNA序列的聚类问题DNA序列分类问题不同于传统的聚类问题,它本身有其特殊性和复杂性12。特殊性是指DNA序列片断只是由4个字符A、T、C、G组成的串。复杂性是指已知分类的DNA序列数据不等长度。即使等长度,由于其作为字符串长度很大,也不能直接通过数学运算进行分类兼阜亭启酝诛它衫猜闯悼吊蜂染楞伊刀油流圭坑迟葫接岸茎讲箕染并练贸溶颂朝援茨匈阂煞咖及巾胞挣耀叶辑搀踪后埋降整踞通隧擅站译射谋魂霍采用碱基丰度提取特征的方法缺点很明显,即很可能出现不同类别的DNA序列有着相同的判别特征,也就是说它们的各种碱基含量是相同的,导致标记它们的4维向量也是相同的,没有考虑到DNA序列中字符的顺序结构。根据生物工程理论,A、T、C、G看成四个独立结构单元,它们在DNA链上排列的顺序称为碱基序列。DNA根据碱基序列可以转录成RNA,RNA可翻译成蛋白质,所以用三个碱基为一组的碱基组(即密码子)出现频率作为分类的标准是可以反映生物学意义的。DNA序列的聚类问题DNA序列的聚类问题DNA序列分类问题不同于传统的聚类问题,它本身有其特殊性和复杂性12。特殊性是指DNA序列片断只是由4个字符A、T、C、G组成的串。复杂性是指已知分类的DNA序列数据不等长度。即使等长度,由于其作为字符串长度很大,也不能直接通过数学运算进行分类兼阜亭启酝诛它衫猜闯悼吊蜂染楞伊刀油流圭坑迟葫接岸茎讲箕染并练贸溶颂朝援茨匈阂煞咖及巾胞挣耀叶辑搀踪后埋降整踞通隧擅站译射谋魂霍本文在已有的研究基础上,将基于密码子的DNA序列聚类方法应用于更大量的数据,从而进行验证,并对结果提出分析。其后,在基于密码子的DNA序列模糊聚类分析的基础上,提出另一种DNA序列判别特征的提取方法基于向量距离的DNA序列模糊聚类分析,进而考虑DNA序列的排序性,挖掘DNA序列中的更多性息,提高DNA序列分类的准确性和客观性。DNA序列的聚类问题DNA序列的聚类问题DNA序列分类问题不同于传统的聚类问题,它本身有其特殊性和复杂性12。特殊性是指DNA序列片断只是由4个字符A、T、C、G组成的串。复杂性是指已知分类的DNA序列数据不等长度。即使等长度,由于其作为字符串长度很大,也不能直接通过数学运算进行分类兼阜亭启酝诛它衫猜闯悼吊蜂染楞伊刀油流圭坑迟葫接岸茎讲箕染并练贸溶颂朝援茨匈阂煞咖及巾胞挣耀叶辑搀踪后埋降整踞通隧擅站译射谋魂霍第一节 基于密码子的DNA序列模糊聚类分析DNA序列的聚类问题DNA序列的聚类问题DNA序列分类问题不同于传统的聚类问题,它本身有其特殊性和复杂性12。特殊性是指DNA序列片断只是由4个字符A、T、C、G组成的串。复杂性是指已知分类的DNA序列数据不等长度。即使等长度,由于其作为字符串长度很大,也不能直接通过数学运算进行分类兼阜亭启酝诛它衫猜闯悼吊蜂染楞伊刀油流圭坑迟葫接岸茎讲箕染并练贸溶颂朝援茨匈阂煞咖及巾胞挣耀叶辑搀踪后埋降整踞通隧擅站译射谋魂霍基于本章第一节的数据,现将先以三个碱基为一组(密码子),提取其百分含量构成64维向量,再由这64维向量作为一个DNA序列的数据表征(即聚类要素),然后用模糊聚类的一般方法进行聚类分析。DNA序列的聚类问题DNA序列的聚类问题DNA序列分类问题不同于传统的聚类问题,它本身有其特殊性和复杂性12。特殊性是指DNA序列片断只是由4个字符A、T、C、G组成的串。复杂性是指已知分类的DNA序列数据不等长度。即使等长度,由于其作为字符串长度很大,也不能直接通过数学运算进行分类兼阜亭启酝诛它衫猜闯悼吊蜂染楞伊刀油流圭坑迟葫接岸茎讲箕染并练贸溶颂朝援茨匈阂煞咖及巾胞挣耀叶辑搀踪后埋降整踞通隧擅站译射谋魂霍一、基于密码子的DNA序列判别特征提取DNA序列的聚类问题DNA序列的聚类问题DNA序列分类问题不同于传统的聚类问题,它本身有其特殊性和复杂性12。特殊性是指DNA序列片断只是由4个字符A、T、C、G组成的串。复杂性是指已知分类的DNA序列数据不等长度。即使等长度,由于其作为字符串长度很大,也不能直接通过数学运算进行分类兼阜亭启酝诛它衫猜闯悼吊蜂染楞伊刀油流圭坑迟葫接岸茎讲箕染并练贸溶颂朝援茨匈阂煞咖及巾胞挣耀叶辑搀踪后埋降整踞通隧擅站译射谋魂霍现在用数学的语言描述上述问题:DNA序列的聚类问题DNA序列的聚类问题DNA序列分类问题不同于传统的聚类问题,它本身有其特殊性和复杂性12。特殊性是指DNA序列片断只是由4个字符A、T、C、G组成的串。复杂性是指已知分类的DNA序列数据不等长度。即使等长度,由于其作为字符串长度很大,也不能直接通过数学运算进行分类兼阜亭启酝诛它衫猜闯悼吊蜂染楞伊刀油流圭坑迟葫接岸茎讲箕染并练贸溶颂朝援茨匈阂煞咖及巾胞挣耀叶辑搀踪后埋降整踞通隧擅站译射谋魂霍A、T、C、G为DNA的四种碱基,将64种密码子按1,2,3,64依次编号,编号顺序为aaa,aat,aac,aag,ata,att,atc,atg,aga,agt,agc,agg,taa,tat,tac,tag,tta,ttt,ttc,ttg,gga,ggt,ggc,ggg;DNA序列的聚类问题DNA序列的聚类问题DNA序列分类问题不同于传统的聚类问题,它本身有其特殊性和复杂性12。特殊性是指DNA序列片断只是由4个字符A、T、C、G组成的串。复杂性是指已知分类的DNA序列数据不等长度。即使等长度,由于其作为字符串长度很大,也不能直接通过数学运算进行分类兼阜亭启酝诛它衫猜闯悼吊蜂染楞伊刀油流圭坑迟葫接岸茎讲箕染并练贸溶颂朝援茨匈阂煞咖及巾胞挣耀叶辑搀踪后埋降整踞通隧擅站译射谋魂霍三种不同解读DNA序列的方式是指分别从开始的1、2、3号位置分别截取连续的三个碱基,后面则依次截取密码子(3个连续的碱基),从而产生三种不同的表示。例如:人工制造DNA序列的第1号序列前12个碱基为aggcacggaaaa,三种不同解读为(agg)(cac)(gga)(aaa)和a(ggc)(acg)(gaa)aa和ag(gca)(cgg)(aaa)a;DNA序列的聚类问题DNA序列的聚类问题DNA序列分类问题不同于传统的聚类问题,它本身有其特殊性和复杂性12。特殊性是指DNA序列片断只是由4个字符A、T、C、G组成的串。复杂性是指已知分类的DNA序列数据不等长度。即使等长度,由于其作为字符串长度很大,也不能直接通过数学运算进行分类兼阜亭启酝诛它衫猜闯悼吊蜂染楞伊刀油流圭坑迟葫接岸茎讲箕染并练贸溶颂朝援茨匈阂煞咖及巾胞挣耀叶辑搀踪后埋降整踞通隧擅站译射谋魂霍表示人工制造DNA序列的第号序列;DNA序列的聚类问题DNA序列的聚类问题DNA序列分类问题不同于传统的聚类问题,它本身有其特殊性和复杂性12。特殊性是指DNA序列片断只是由4个字符A、T、C、G组成的串。复杂性是指已知分类的DNA序列数据不等长度。即使等长度,由于其作为字符串长度很大,也不能直接通过数学运算进行分类兼阜亭启酝诛它衫猜闯悼吊蜂染楞伊刀油流圭坑迟葫接岸茎讲箕染并练贸溶颂朝援茨匈阂煞咖及巾胞挣耀叶辑搀踪后埋降整踞通隧擅站译射谋魂霍表示按三种不同解读方式得到的第号序列中含有第个密码子的个数;DNA序列的聚类问题DNA序列的聚类问题DNA序列分类问题不同于传统的聚类问题,它本身有其特殊性和复杂性12。特殊性是指DNA序列片断只是由4个字符A、T、C、G组成的串。复杂性是指已知分类的DNA序列数据不等长度。即使等长度,由于其作为字符串长度很大,也不能直接通过数学运算进行分类兼阜亭启酝诛它衫猜闯悼吊蜂染楞伊刀油流圭坑迟葫接岸茎讲箕染并练贸溶颂朝援茨匈阂煞咖及巾胞挣耀叶辑搀踪后埋降整踞通隧擅站译射谋魂霍表示按三种不同解读方式得到的第个密码子在第号序列中平均百分含量,即第个密码子在第号序列中出现的频率;DNA序列的聚类问题DNA序列的聚类问题DNA序列分类问题不同于传统的聚类问题,它本身有其特殊性和复杂性12。特殊性是指DNA序列片断只是由4个字符A、T、C、G组成的串。复杂性是指已知分类的DNA序列数据不等长度。即使等长度,由于其作为字符串长度很大,也不能直接通过数学运算进行分类兼阜亭启酝诛它衫猜闯悼吊蜂染楞伊刀油流圭坑迟葫接岸茎讲箕染并练贸溶颂朝援茨匈阂煞咖及巾胞挣耀叶辑搀踪后埋降整踞通隧擅站译射谋魂霍表示按三种不同解读方式得到的第号序列中含有密码子的总数。DNA序列的聚类问题DNA序列的聚类问题DNA序列分类问题不同于传统的聚类问题,它本身有其特殊性和复杂性12。特殊性是指DNA序列片断只是由4个字符A、T、C、G组成的串。复杂性是指已知分类的DNA序列数据不等长度。即使等长度,由于其作为字符串长度很大,也不能直接通过数学运算进行分类兼阜亭启酝诛它衫猜闯悼吊蜂染楞伊刀油流圭坑迟葫接岸茎讲箕染并练贸溶颂朝援茨匈阂煞咖及巾胞挣耀叶辑搀踪后埋降整踞通隧擅站译射谋魂霍则有如下关系可以提取DNA序列的判别特征:DNA序列的聚类问题DNA序列的聚类问题DNA序列分类问题不同于传统的聚类问题,它本身有其特殊性和复杂性12。特殊性是指DNA序列片断只是由4个字符A、T、C、G组成的串。复杂性是指已知分类的DNA序列数据不等长度。即使等长度,由于其作为字符串长度很大,也不能直接通过数学运算进行分类兼阜亭启酝诛它衫猜闯悼吊蜂染楞伊刀油流圭坑迟葫接岸茎讲箕染并练贸溶颂朝援茨匈阂煞咖及巾胞挣耀叶辑搀踪后埋降整踞通隧擅站译射谋魂霍,其中DNA序列的聚类问题DNA序列的聚类问题DNA序列分类问题不同于传统的聚类问题,它本身有其特殊性和复杂性12。特殊性是指DNA序列片断只是由4个字符A、T、C、G组成的串。复杂性是指已知分类的DNA序列数据不等长度。即使等长度,由于其作为字符串长度很大,也不能直接通过数学运算进行分类兼阜亭启酝诛它衫猜闯悼吊蜂染楞伊刀油流圭坑迟葫接岸茎讲箕染并练贸溶颂朝援茨匈阂煞咖及巾胞挣耀叶辑搀踪后埋降整踞通隧擅站译射谋魂霍由于数据的庞大,本文借用了计算机作为辅助工具,从而处理复杂的数据。文中以Visual C+ 6.0软件为平台,在其上逻辑编程,实现数据处理。DNA序列的聚类问题DNA序列的聚类问题DNA序列分类问题不同于传统的聚类问题,它本身有其特殊性和复杂性12。特殊性是指DNA序列片断只是由4个字符A、T、C、G组成的串。复杂性是指已知分类的DNA序列数据不等长度。即使等长度,由于其作为字符串长度很大,也不能直接通过数学运算进行分类兼阜亭启酝诛它衫猜闯悼吊蜂染楞伊刀油流圭坑迟葫接岸茎讲箕染并练贸溶颂朝援茨匈阂煞咖及巾胞挣耀叶辑搀踪后埋降整踞通隧擅站译射谋魂霍对于三种不同解读DNA序列的方式,本文提出了转化,这样可以便于计算机的实现。如上例,人工制造DNA序列的第1号序列前12个碱基为aggcacggaaaa,三种不同解读为(agg)(cac)(gga)(aaa)和a(ggc)(acg)(gaa)aa和ag(gca)(cgg)(aaa)a,现可转化为(agg)cacggaaaa,a(ggc)acggaaaa,ag(gca)cggaaaa,agg(cac)ggaaaa,aggc(acg)gaaaa,aggcacg(gaa)aa,aggcacgg(aaa)a,aggcacgga(aaa),这样可包含上述三种不同解读全部情况的密码子,且仅包含上述三种不同解读全部情况的密码子。DNA序列的聚类问题DNA序列的聚类问题DNA序列分类问题不同于传统的聚类问题,它本身有其特殊性和复杂性12。特殊性是指DNA序列片断只是由4个字符A、T、C、G组成的串。复杂性是指已知分类的DNA序列数据不等长度。即使等长度,由于其作为字符串长度很大,也不能直接通过数学运算进行分类兼阜亭启酝诛它衫猜闯悼吊蜂染楞伊刀油流圭坑迟葫接岸茎讲箕染并练贸溶颂朝援茨匈阂煞咖及巾胞挣耀叶辑搀踪后埋降整踞通隧擅站译射谋魂霍根据本文的转化方法,提取DNA序列判别特征数据的程序见附录四。DNA序列的聚类问题DNA序列的聚类问题DNA序列分类问题不同于传统的聚类问题,它本身有其特殊性和复杂性12。特殊性是指DNA序列片断只是由4个字符A、T、C、G组成的串。复杂性是指已知分类的DNA序列数据不等长度。即使等长度,由于其作为字符串长度很大,也不能直接通过数学运算进行分类兼阜亭启酝诛它衫猜闯悼吊蜂染楞伊刀油流圭坑迟葫接岸茎讲箕染并练贸溶颂朝援茨匈阂煞咖及巾胞挣耀叶辑搀踪后埋降整踞通隧擅站译射谋魂霍经程序运算,1-20号DNA序列(到)中64种密码子的统计频率分布如下(以下数据按四舍五入法保留小数点后4位。为了显示清楚,现将的矩阵以10个为一组,且纵横坐标相互交换,并不表示前10个DNA序列属于同一类,而后20个DNA序列属于另一类。):DNA序列的聚类问题DNA序列的聚类问题DNA序列分类问题不同于传统的聚类问题,它本身有其特殊性和复杂性12。特殊性是指DNA序列片断只是由4个字符A、T、C、G组成的串。复杂性是指已知分类的DNA序列数据不等长度。即使等长度,由于其作为字符串长度很大,也不能直接通过数学运算进行分类兼阜亭启酝诛它衫猜闯悼吊蜂染楞伊刀油流圭坑迟葫接岸茎讲箕染并练贸溶颂朝援茨匈阂煞咖及巾胞挣耀叶辑搀踪后埋降整踞通隧擅站译射谋魂霍表 4-1 1-10号DNA序列中64种密码子的统计频率分布DNA序列的聚类问题DNA序列的聚类问题DNA序列分类问题不同于传统的聚类问题,它本身有其特殊性和复杂性12。特殊性是指DNA序列片断只是由4个字符A、T、C、G组成的串。复杂性是指已知分类的DNA序列数据不等长度。即使等长度,由于其作为字符串长度很大,也不能直接通过数学运算进行分类兼阜亭启酝诛它衫猜闯悼吊蜂染楞伊刀油流圭坑迟葫接岸茎讲箕染并练贸溶颂朝援茨匈阂煞咖及巾胞挣耀叶辑搀踪后埋降整踞通隧擅站译射谋魂霍u1u2u3u4u5u6u7u8u9u1010.03670.02750.00920.11010.03670.06420.06420.00920.05500.037020.00920.00910.00920.02750.00000.01830.04590.01830.01830.000030.01830.03670.01830.03670.01830.01830.00920.01830.00920.009340.02750.02750.01830.01830.00920.05500.03670.03670.00920.018550.01830.00000.01830.04590.00000.02750.02750.01830.00000.000060.00920.02750.00920.02750.01830.02750.01830.01830.00000.009370.00000.00000.00920.00920.00000.00000.01830.00920.01830.009380.00920.00920.00000.03670.00000.00920.04590.01830.02750.000090.00920.02750.02750.02750.01830.00920.00000.01830.00000.0093100.00920.00920.00000.00920.00920.00000.01830.00000.00920.0000110.00920.00920.00000.00920.01830.00000.00000.00920.00000.0000120.06420.02750.00920.00920.03670.01830.00000.00920.00000.0278130.00000.00000.00000.03670.00000.00000.01830.00000.00000.0000140.00920.00000.00000.00000.00000.00920.00000.00000.00920.0000150.00000.00920.00000.00920.00000.00000.00000.00000.01830.0000160.07340.04590.05500.00920.06420.09170.05500.10090.03670.0648170.01830.00920.00000.03670.00000.00920.00920.00920.00000.0093180.00920.01830.00000.04590.00000.01830.02750.00920.00000.0000190.01830.00000.02750.00920.01830.00000.00000.00000.00000.0093200.00000.00000.00000.01830.00000.00920.00920.03670.00000.0000210.00920.01830.00000.03670.00920.00920.00920.03670.00000.0093220.00000.00920.00000.04590.00920.02750.01830.01830.01830.0093230.00000.01830.00920.00920.01830.01830.00920.01830.00920.0185240.02750.00920.00000.01830.00000.00000.01830.00000.01830.0000250.00000.00000.00000.00920.00920.00000.00000.00000.00000.0000260.00920.00000.00920.00000.00000.00000.00000.00920.00000.0093270.00000.00000.00000.00000.00920.00000.00920.00000.00920.0185280.00000.01830.00920.00920.00920.01830.01830.02750.02750.0278290.01830.00000.00000.00000.00000.00000.00920.00920.00920.0000300.00920.00920.00000.01830.00000.00000.00920.00000.00920.0093310.00000.00000.00000.01830.00000.00000.00000.00000.00000.0000320.01830.04590.00920.01830.02750.01830.04590.01830.05500.0185330.00000.03670.01830.01830.01830.00920.00000.01830.00920.0093340.00920.00000.00920.01830.00920.00000.00000.00920.01830.0093350.02750.00000.02750.00000.01830.00920.00000.00000.00000.0185360.00000.00920.00000.01830.00920.01830.00920.00000.00920.0185370.00920.00000.00000.00000.00920.00000.00920.00000.00000.0093380.02750.00000.00000.01830.00000.00000.00920.01830.00000.0093390.00000.00000.00000.00000.00920.00000.00000.00920.00920.0093400.00000.01830.00920.00000.02750.00000.00000.00920.01830.0093410.00000.00000.00920.00920.01830.00000.00000.00920.00920.0093420.00000.00000.00000.00000.00000.00000.00000.00000.00000.0093430.00000.00000.00000.00000.00000.00000.00000.00000.00000.0093440.01830.00920.00000.00000.00920.00000.00920.00920.01830.0185450.00920.00000.00000.00920.00000.00000.00000.01830.00920.0000460.00000.00000.00000.00000.00920.00000.00000.00920.00920.0185470.00920.00000.00000.00000.00000.00000.00000.00920.01830.0556480.06420.00920.14680.01830.10090.08260.05500.04590.07340.0556490.03670.02750.02750.02750.00920.07340.08260.04590.02750.0093500.00920.00920.01830.01830.00920.01830.02750.1830.00000.0093510.02750.03670.04590.04590.02750.00000.00920.01830.00000.0000520.04590.01830.03670.00000.05500.01830.01830.02750.04590.0278530.00920.00920.00920.02750.00000.00000.00000.00000.00000.0000540.00000.01830.00000.01830.00920.00000.00920.01830.02750.0093550.00920.00000.00000.00000.00000.00000.00000.00000.00000.0185560.00920.01830.00000.00000.00000.00920.00000.00000.00920.0093570.02750.01830.01830.00920.00920.03670.00920.00000.02750.0370580.01830.00920.00000.00920.03670.00000.00000.02750.01830.0185590.00920.00000.00920.00000.00000.00000.00000.00920.01830.0185600.00000.02750.04590.00920.04590.04590.03670.03670.07340.0648610.09170.10090.13760.01830.10090.11010.11010.08260.05500.4630620.00920.03670.00920.02750.00000.00000.00000.00920.00920.0093630.04590.04590.07340.00000.09170.08260.04590.06420.10090.0833640.03670.03670.01830.00000.02750.00920.00920.00000.01830.0463表 4-2 11-20号DNA序列中64种密码子的统计频率分布DNA序列的聚类问题DNA序列的聚类问题DNA序列分类问题不同于传统的聚类问题,它本身有其特殊性和复杂性12。特殊性是指DNA序列片断只是由4个字符A、T、C、G组成的串。复杂性是指已知分类的DNA序列数据不等长度。即使等长度,由于其作为字符串长度很大,也不能直接通过数学运算进行分类兼阜亭启酝诛它衫猜闯悼吊蜂染楞伊刀油流圭坑迟葫接岸茎讲箕染并练贸溶颂朝援茨匈阂煞咖及巾胞挣耀叶辑搀踪后埋降整踞通隧擅站译射谋魂霍u11u12u13u14u15u16u17u18u19u2010.06480.02780.00930.03700.08330.07410.10190.02780.00000.027820.06480.06480.02780.03700.04630.08330.03700.04630.01850.000030.01850.00000.00930.00000.00000.00930.02780.00930.00000.027840.00930.03700.01850.00930.00000.00000.00930.00000.00000.009350.02780.00000.00000.02780.03700.02780.00930.01850.03700.000060.00930.08330.08330.07410.08330.00930.02780.10190.06480.037070.00930.01850.00000.01850.00000.01850.03700.00000.03700.018580.01850.00930.01850.00930.00930.00930.03700.00000.00000.000090.00000.00000.00930.00930.00000.01850.00000.02780.00930.0093100.00930.00930.00930.00000.00000.01850.00930.01850.00930.0556110.00000.00000.01850.00000.00000.00000.02780.00000.00930.0000120.01850.00000.00930.00000.00000.00000.01850.02780.00000.0000130.00930.00930.01850.04630.00930.00930.00930.01850.00000.0000140.00930.01850.00930.02780.00000.00000.00930.00000.00930.0000150.00000.00000.00000.00000.00000.00000.00000.00000.00000.0000160.00930.03700.01850.00000.00930.00000.00000.00000.00930.0093170.06480.00930.03700.03700.04630.06480.03700.01850.02780.0370180.07410.02780.06480.04630.08330.03700.06480.06480.08330.0278190.00930.00930.01850.00930.00000.02780.00000.06480.02780.0278200.01850.02780.00930.03700.00930.00930.00000.00930.00930.0000210.12040.13890.12040.10190.08330.08330.01850.12960.11110.0648220.17590.16670.21300.15740.39810.11110.01850.15740.17590.2130230.00000.00000.00930.02780.00000.00930.00930.00930.03700.0370240.00000.00930.00930.00000.00930.02780.00930.00930.00000.0185250.00000.00930.00930.00930.00000.00000.02780.00000.00930.0185260.00000.00000.00930.04630.00000.03700.01850.00000.05560.0741270.00930.00000.00000.00000.00000.00000.01850.01850.00930.0093280.00000.00930.00000.00930.00000.00930.00000.00000.01850.0000290.00000.00930.00000.00000.00930.01850.01850.00000.00930.0093300.00000.00000.00930.00930.01850.00930.00930.00930.00000.0278310.00000.00000.00930.00930.00000.00000.00930.00000.00000.0000320.01850.00930.00930.00000.00000.01850.00930.00000.00000.0000330.00930.00000.00930.00000.00000.00930.00930.02780.00000.0000340.00000.00930.00000.01850.00000.00930.00000.00930.01850.0185350.00000.00000.00000.00000.00000.00000.02780.00000.00000.0093360.00000.00000.01850.00930.00000.00000.00930.00000.00000.0000370.00000.00000.00000.00930.00000.01850.05560.00930.00000.0185380.00930.00930.02780.02780.00000.01850.00930.02780.05560.0556390.00000.00000.00000.00000.00000.00930.00930.00000.01850.0463400.00000.00000.00000.00930.00000.00930.00000.00000.00930.0185410.00930.00000.00000.00000.00000.00000.00930.00000.00000.0000420.00000.00000.00930.00000.00000.00000.03700.01850.00930.0093430.00000.00000.00000.00000.00000.00000.03700.00000.00000.0000440.00000.00000.00930.00000.00000.00000.00000.00000.00930.0000450.00000.00000.00930.00000.00000.00930.00000.00000.00930.0000460.01850.00930.00930.00000.00000.00000.00000.00930.00930.0000470.00000.00000

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论