注册 |

微信扫一扫登录

x

人人文库网 > 教育资料 > 课件下载 > DNA序列的分类

DNA序列的分类

预览图

编号：53698353 类型：共享资源大小：288.11KB 格式：PDF 上传时间：2020-03-02 上传人：我*** IP属地：北京

6
积分

版权申诉

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

关键词：: DNA 序列分类

资源描述：: 第31卷第1期 2001年1月数学的实践与认识 MA THEMA T ICS I N PRACT ICE AND THEORY Vol131 No11 Jan 2001 任意选出比较多的为了保证较高的准确性利用keyword作为分类标准然后利用本文提供的加权系数的确定方法就可以定出一个具体的定量标准具有一定实用价值参考文献 1 李涛贺勇军等 MATLAB工具箱应用指南应用数学篇电子工业出版社 1 2 袁亚湘最优化方法科学出版社 1 3 张乃孝裘宗燕数据结构 c 与面向对象的途径高教出版社 1 4 汪仁官概率论引论北京大学出版社 1 5 陈家鼎孙山泽等数理统计学讲义高教出版社 1 The Grouping of DNA SequencesM odel YAN G Jian WAN G Chi YAN G Yong Peking U niversity Beijing 100871 Abstract In this paper a method to classify the DNA sequences is proposed M athematical methods such as statistics and opti m ization are used to build the model The data is analysed sufficiently and the critical words is got which can represent the characteristics of each group A ccording to this a quantitative standard for grouping is brought forward Thismodel can properly classify the given data through testing First the stringswhich appear repeatedly called words in the given data are scanned out The standard frequency and dispersion for each word are calculated Second using the L east Squares method the priority function is fixed Through stepw ise opti m ization the coefficients are made stable Third the key words are selected out and calculate the weight according to the priority function A t last using the analyse hierarchy process the undeterm ined data is classified This method can classify the undeterm ined data No 21 No 40 fairly well it can also give good result for the last 182 sequences DNA序列的分类韩轶平余杭刘威指导老师杨启帆浙江大学杭州 310027 编者按本文借助于计算机符号处理的能力来把握序列中不同碱基的丰度特征从而进行了利用数理统计方法的分类研究而后引入相关度分类判别算法及反馈机制来比较碱基的相对位置在既定方向上颇具新意地把工作推向深入不足之处在于未能使用相关度工具对各类样本分别进行分析此外纯数学必须与其他学科紧密结合才会有优秀的建模工作本文虽然对编码氨基酸的三联体进行初步探讨着墨处自是轻淡许多 1994 2008 China Academic Journal Electronic Publishing House All rights reserved 更多数学建模资料请关注微店店铺数学建模学习交流摘要本文对A题中给出的DNA序列分类问题进行了讨论从不同序列中碱基含量不同入手建立了欧氏距离判别模型马氏距离判别模型以及Fisher准则判定模型又从不同序列中碱基位置不同入手建立了利用序列相关知识的相关度分类判别算法并进一步研究了带反馈的相关度分类判别算法对于题中所给的待分类的人工序列和自然序列本文都一一作了分类接着本文又对其它各种常见的分类算法进行了讨论并着重从分类算法的稳定性上对几种方法作了比较 1 问题的重述略 2 模型的条件和假设略 3 符号约定 na 任一给定序列中碱基A 的百分含量 ng 任一给定序列中碱基G 的百分含量 nt 任一给定序列中碱基T 的百分含量 nc 任一给定序列中碱基C的百分含量 Gi 由某些具有相同属性的个体组成的类 4 问题的分析和解答 411 概述根据题意我们首先要提取出一个序列的特征然后给出它的数学表示最后选择并构造基于这种数学表示的分类方法对于一个任意一个DNA序列我们认为反映该序列特征的方面有两个 11 碱基的含量反映了该序列的内容 21 碱基的排列情况反映了该序列的形式 412 基于碱基含量特征分类的模型首先我们考虑采用序列中的A G T C的含量百分比作为该序列的特征这样的抽取特征的方法具有其生物学的意义前面提到过在不用于编码蛋白质的序列片断中 A和 T的含量特别多些因此以某些碱基特别丰富作为特征去研究DN A序列的结构是具有可行性的将序列中的A G T C的含量百分比分别记为na ng nt nc 则得到一组表征该序列特征的四维向量 na ng nt nc 考虑到na nt ng nc线性相关 na ng nt nc 1 所以我们采用简化的三维向量 na nt ng 来进行计算对于标号为i的序列记它的特征向量为X i 显然任意序列的特征向量与一个3维空间的点对映一般的判别问题为设有k个类别G1 G2 Gk 对任意一个属于Gi类样品x 其特征向量X的值都可以获得现给定一个由已知类别的一些样品x1 x2 xn组成的学习样本要求对一个来自这k个类别的某样品x 根据其特征向量X的值作出其所属类别的判断在本题DNA序列分类中 k 2 G1 A G2 B 特征向量X是三维的学习样本共包含n 20个样本其中10个属于A 10个属于B 我们分别采用了欧氏距离 Euclid 分类模型马氏距离 M ahalanobis 分类模型和Fisher判别模型来对序列样本分类 931期韩轶平等 DNA序列的分类 1994 2008 China Academic Journal Electronic Publishing House All rights reserved 41211 欧氏距离 Euclid 分类模型在欧氏距离 Euclid 分类模型中把每个样本视为三维空间的一个点以其到不同集合几何中心的欧氏距离作为判据具体的算法如下 11 计算属于A类与属于B类的10个样本点的集合各自的几何中心 CA 1 10 10 i 1 Xi CB 1 10 20 i 11X i 21 对于给定的样本点Xi 分别计算该点到CA的欧氏距离DA Xi CA 以及该点到 CB的欧氏距离DB Xi CB 31 判别准则如下 1 若DADB 则将Xi点判为B类 3 若DA DB 则将Xi点判为不可判类用上述算法对已知样学习样本A 1 A 20进行分类结果是除了A 4被错误的分到了B 类外其余的19个样本全部正确分类准确率达到95 用上述算法对未知的人工序列A 21 A 40进行分类得到的结果是 A类 22 23 25 27 29 30 32 34 35 36 37 39 B类 21 24 26 28 31 33 38 40 用上述算法对未知的自然序列N 1 N 182进行分类得到的结果见附录略用欧氏距离作为判据虽然简便直观但存在着明显的缺陷从概率统计的角度来看用欧氏距离描述随机点之间的距离并不好因此当待分类样本是随机样本具有一定的统计性质时这个模型并不能很好的描述两个随机点之间的接近程度 41212 马氏距离 Mahalanobis 分类模型为了克服采用欧氏距离时的缺陷我们采用马氏距离来代替欧氏距离改进后的算法如下设三维总体G的均值为 1 2 3 T 协方差矩阵为非奇异阵V3x3 则三维样本X 到总体G的马氏距离为 dm X G X TV 1 X 其中未知的可用学习样本的均值来代替协方差矩阵V可用学习样本的样本协方差矩阵来代替将马氏距离用于判别模型遵循判据如下 11 若dm X A dm X B 则判定x为B类 31 若dm X A dm X B 则判定x为不可判类用上述算法对已知样学习样本A 1 A 20进行分类结果是除了A 4被错误的分到了B 类外其余的19个样本全部正确分类准确率达到95 用上述算法对未知序列A 21 A 40进行分类得到的结果是 A类 22 23 25 27 29 30 32 33 34 35 36 37 B类 21 24 26 28 31 38 39 40 用上述算法对未知的自然序列N 1 N 182进行分类得到的结果见附录 1 略 04数学的实践与认识31卷 1994 2008 China Academic Journal Electronic Publishing House All rights reserved 41213 Fisher准则分类模型在多维空间里分类的方法不仅仅是距离分类法一种常用的Fisher分类法就是另一种基于几何特性的分类法在距离判别模型中三维空间的样品X被映射为一维的距离d来作判断 Fisher分类法的思想也是把三维空间的样本映射为一维的特征值y 并依据y来进行判别具体的作法是先引入一个与样本同维的待定向量u 再将y取为X坐标的线性组合y u T x 而u的选取要使同一类别产生的y尽量聚拢不同类别产生的y尽量拉开这样我们便可将样品X到某一类G的距离定义为y u T x与yc u T c之间的欧氏距离 L X G y yc u T x c 其中c为G的几何中心 Fisher分类的判据为 1若L X A L X B 则判定x为B类 3若L X A L X B 则判定x为不可判类根据对u的要求 Fisher提出了比较有效的选择算法利用该算法从学习样本中获得 u 0 3365 0 087 0 9377 T L X A 0133653 na 0 2860 0 0873 nt 0 1550 0 93773 ng 0 3830 L X B 0133653 na 0 2940 0 0873 nt 0 5010 0 93773 ng 0 1010 用上述算法对已知样学习样本A 1 A 20进行分类结果仍然是除了A 4被错误的分到了B类外其余的19个样本全部正确分类准确率达到95 对于未知序列A 21 A 40进行分类得到的结果是 A类 22 23 25 27 29 34 35 36 37 B类 21 24 26 28 30 31 32 33 38 39 40 用上述算法对未知的自然序列N 1 N 182进行分类得到的结果见附录 1 略 41214 三种距离分类模型的比较表1 欧氏距离法马氏距离法Fisher准则法 30AAB 32AAB 33BAB 39ABB 这三种模型在分类结果上有一定的区别对于序列A 30 A 32 A 33及A 39 三种方法给出了不同结果见表1 对于这种情况我们提出一个联合判定准则对于任一个序列当三种分类法结果完全一致时认为它判别有效若不然当三种分类法结果不一致时认为该序列为不可判类对于三种方法都无法正确分类的A 4序列可认为是异常情况不影响算法的性能 413 基于碱基位置特征分类的模型虽然上述采用碱基A T G C在DNA序列里的含量作为该序列的特征的方法有一定的生物学意义并且在DNA序列的分类中获得了比较理想的结果但是用这种方法抽取特征没有充分体现碱基排列的信息量仅仅考虑碱基含量并没有体现碱基在序列中的排列情况例如序列 A TGC 与序列 CGTA 有着相同的碱基含量他们的特征向量是完全一样的并不能体现在排列结构上的不同因此直接从序列本身的碱基排列顺序来考察序列就成为一种更加合适的提取特征的方式因此采纳数值序列中的相关性分析设计了算法 141期韩轶平等 DNA序列的分类 1994 2008 China Academic Journal Electronic Publishing House All rights reserved 通常任意两个数值序列的相关性都是通过这两个序列的相关函数来刻画的由于本题中的DNA序列是非数值的序列同时无法将碱基按通常的方式进行数值化因而刻画任意两个序列的相关程度的变量需要重新定义表2 AGTC A1000 G0100 T0010 C0001 41311 定义一相关运算对于任意碱基m和n 相关运算 m n 的值由表2定义 41312 定义二哑元O 除四个碱基外我们另行定义一个哑元O 规定任意碱基与哑元作相关运算的结果都为0 41313 定义三序列的延拓对于任意一个长度为N的序列A i 其中0 i N 定义它的延拓为如下一个无限序列 A j 当0 j N时 A j Aj 当 j 0及N j 1 则将X点判为A类若W 1 则将X点判为B类若W 1 则将X点判为不可判类 51W可作为衡量该序列分类的可信性的一个标准显然当W越接近于1 该序列与A 类的相关性和与B类的相关性区别就越小分类结果就越不可信反之 W与1差的越远该序列与A类的相关性和与B类的相关性区别就越小分类结果就越可信这个变量对我们下面带有反馈的相关度分类算法具有重要的意义用上述算法对已知样学习样本A 1 A 20进行分类得到的结果是分类完全正确 A B 类可以完全分开准确率达到100 对于未知序列A 21 A 40进行分类得到的结果是 A类 22 23 25 27 29 34 35 36 37 B类 21 24 26 28 30 31 32 33 38 39 40 用上述算法对未知的自然序列N 1 N 182进行分类得到的结果见附录略 1 41317 相关度分类算法的改进带有反馈的分类算法上述的相关度分类算法是一次性学习过程学习的过程只体现在学习样本的过程中而在对未知样本分类的过程中没有对已分类情况作出修正即是属于无反馈型的学习然而采用反馈型的学习过程会有更好的分类结果一般说来带反馈的算法以神经网络算法最具有代表性但对于一般的分类算法而言可以采用多次反复分类的办法来实现反馈的目 341期韩轶平等 DNA序列的分类 1994 2008 China Academic Journal Electronic Publishing House All rights reserved 的针对上述的相关度分类算法我们设计了如下带反馈的相关度分类算法 11 对全部182个样本进行相关度分类 21 计算全部182个W的值 31 在所有被判为A类的待分类序列中取出W值最大的一个作为标准学习样本加入到A类的标准样本中若有多个则全部加入到A类中若无被判为A类的序列则保持 A类标准学习样本不变 41 在所有被判为B类的待分类序列中取出W值最小的一个作为标准学习样本加入到B类的标准样本中若有多个则全部加入到B类中若无被判为B类的序列则保持 B类标准学习样本不变 51 重复对剩余的待分类序列进行相关度分类并按上述步骤不断扩充标准学习样本直至全部的待分类序列都被加入到标准学习样本中我们用新算法编程对182个序列进行了重新分类得到了不同于原无反馈分类算法的结果而且新的分类结果的W值明显与1离开的更大这使我们有理由相信反馈对算法的性能有一定的改进 5 进一步研究的问题 511 基于生物学的特征抽取我们上述的两种特征抽取方法更多的是从纯数学眼光来研究序列的特征除此之外我们还可以考虑DNA序列在生物学意义下的数学特征一个比较容易考虑到的方面便是三联体在DNA序列中的出现由于具有三联体形式的遗传密码子对蛋白质的合成具有决定性作用有理由认为它在序列中的出现体现了该序列的本质特征题中没有明确的指明所给的序列是全序列还是序列片断我们无法对三联体在序列中的出现位置进行定位一种代替的方法是将序列假定为全序列从第一个碱基开始三个三个一组的划分为密码子然后统计64个密码子的出现概率形成64维的向量再使用距离分类等模型或利用生物学的知识先将64维向量的某几维合并降维后再分类我们编程演算后觉得该种分类方法比较依赖于密码子的划分一位碱基的缺失或错位均会造成分类错误所以必须加以修改一条思路是尝试将序列移一位或二位再划分密码子由于时间所限没有进一步研究 512 基于人工神经网络的模型人工神经网络是一种带反馈的自适应算法随着计算机速度提高被广泛应用对于本题的情况采用神经网络模型是合适的它可以在给定特征向量的情况下代替一般的距离分类模型对于基于碱基含量的特征向量 na nt ng 构造了如下的反向传播算法 11 网络简单的分为两层一层为输入层有3个单元分别为权重a b c 一层为输出层有1个单元为判别结果各单元均为Sigmoid型函数激励 21 设定 a b c 的初值为 0 0 0 A类学习样本的标准输出定为1 B类学习样本的标准输出定为0 31 对每一个学习样本计算S a3na b3nt c3ng作为输出 41 将学习样本的标准输出与S相减所得的差用来指导权重的改变权重的改变遵从 W idrow2Hoff准则 44数学的实践与认识31卷 1994 2008 China Academic Journal Electronic Publishing House All rights reserved 51 反复学习样本到权重值稳定收敛 61 代入待分类样本分类用上述算法所得到的结果与普通的分类模型没有区别事实上当权值稳定收敛后 S a3na b3nt c3ng就是特征空间的一张超平面从这一点来说人工神经网络模型与一般的距离分类模型得到的结果没有两样考虑到人工神经网络模型还存在结果对初值有较强敏感性缺乏选择理想步长的准则和收敛性等问题在一定的时间内我们无法较好的解决这些问题所以我们也没有作进一步讨论 6 算法的稳定性前面比较算法的时候曾多次提到分类算法的稳定性问题分类算法的稳定性是除了算法的成功率之外的另一较重要的指标所谓分类算法的稳定性是指算法在样本发生了轻微变化时作出正确判别的能力对于本题是指算法在样本序列发生了轻微的碱基缺失错位错排情况时作出正确判别的能力因为本题要求我们研究的是DNA序列粗粒化和模型化的问题所以分类时是对序列的整体特征进行区分局部碱基的组成变化应该对算法的分类结果没有影响我们所提出的几个模型均较好的满足了这一点参考文献 1 孙乃恩孙东旭朱德煦分子遗传学 1 南京大学出版社 19961 2 白其峥 1 数学建模案例分析 1 海洋出版社 20001 3 潘德惠 1 数学模型的统计方法 1 辽宁科学技术出版社 19861 4 阎平凡黄端旭 1 人工神经网络 1 安徽教育出版社 19911 5 李振刚 1 分子遗传学概论 1 中国科学技术大学出版社 19901 6 Duane Hanselman1BruceL ittlefield M asteringMATLAB a comprehensive tutorial and reference 1Prentice Hall 19961 Classif ication of DNA Sequences HAN Yi2ping YU Hang L I U W ei Zhejiang U niv Hangzhou 310027 Abstract This paper proposes several methods for the classification of DNA sequences W e noticed that different sequences have different alkali radicals and therefore set up models using Euclidean distance M ahalanobis distance and Fisher principle W e also noticed that different sequences have different permutations of alkali radicals and an algorithm using relativity analysis is proposed Further we discussed a relativity analysis algorithm w ith feed2back mechanism A s to the natural and artificial data given our algorithm swork well and fine results are given A t last several other common algorithm s are compared especially ontheir stabilities 541期韩轶平等 DNA序列的分类 1994 2008 China Academic Journal Electronic Publishing House All rights reserved

内容简介：: -

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人人文库网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：DNA序列的分类
链接地址：https://www.renrendoc.com/p-53698353.html

官方联系方式

网站客服

网站客服

侵权投诉

1:下载资料失败解决办法

2:不支持迅雷下载,请使用浏览器下载

3:不支持QQ浏览器下载,请用其他浏览器

4:下载后的文档和图纸-无水印

5:文档经过压缩，下载后原文更清晰

点击下载此资源

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

网站客服QQ：2881952447

copyright@ 2020-2025 renrendoc.com 人人文库版权所有联系电话：400-852-1180

备案号:蜀ICP备2022000484号-2 经营许可证: 川B2-20220663 川公网安备: 51019002004831号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知人人文库网，我们立即给予删除！