




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、多序列比对 (Multiple Alignments),分析多个序列的一致序列,识别蛋白质家族的序列模式 辅助预测新序列的二级或三级结构,相似的蛋白质序列往往具有相似的结构与功能 PCR 引物设计 用于进化分析,是用系统发育方法构建进化树的初使步骤,寻找同源基因,我们为什么做多序列比对?,一个多序列比对例子,VTISCTGSSSNIGAG-NHVKWYQQLPG VTISCTGTSSNIGS-ITVNWYQQLPG LRLSCSSSGFIFSS-YAMYWVRQAPG LSLTCTVSGTSFDD-YYSTWVRQPPG PEVTCVVVDVSHEDPQVKFNWYVDG- ATLVCLISD
2、FYPGA-VTVAWKADS- AALGCLVKDYFPEP-VTVSWNSG- VSLTCLVKGFYPSD-IAVEWWSNG-,多序列比对与进化研究例子,图中NYLS为树根,多序列比对方法,全局序列比对 动态规划算法 (Dynamic Programming Algorithm) 分而治之方法 (Divide and Conquer Methods) SP方法 (Sum of Pairs Methods) 累进方法 (Progressive Methods) 迭代方法 (Iterative Methods) 遗传算法 (Genetic Algorithms) 局部序列比对 概形分析 (
3、Profile Analysis) 区块分析 (Block Analysis) 统计学方法 (Statistical Methods),多序列比对总体思路,在多序列比对前要考虑的问题,比对的优劣与序列条数正相关 避免在比对中包括相似度差异过大的序列 每个亚群应分别先比对,然后再整体比对,全局序列比对,动态规划算法 (Dynamic Programming Algorithm) 分而治之方法 (Divide and Conquer Methods) SP方法 (Sum of Pairs Methods) 累进方法 (Progressive Methods) 迭代方法 (Iterative Met
4、hods) 遗传算法 (Genetic Algorithms),序列长度为 n 的双序列比对 n2 比对 比对数目成指数增长 例如:序列长度为n,序列数为N 的多序列比对数目是nN 对于数目较少且较短的序列来说都不切实际,动态规划算法(Dynamic Programming),Sequence 1,Sequence 2,Sequence 3,多维的动态规划算法,分而治之 (Divide and Conquer, DCA)方法(Stoye,et al,1997) 将MSA的空间复杂度减小 DCA在线MSA http:/bioweb.pasteur.fr/seqanal/interfaces/dc
5、a-simple.html,分而治之方法,So in effect ,Sequence 1,Sequence 2,Sequence 3,SP(Sum of Pairs)方法,为了找到最佳比对,并解决解决动态规则算法的计算复杂问题,Carrillo B表示天冬氨酸 or 丙氨酸,ACDVWY,sequence,profile,Profile-sequence alignment,A C D . . Y,ACDVWY,profile,profile,Profile-profile alignment,用CLUSTALX进行Profile比对,区块分析,与概形分析相似,区块也代表MSA中的保守区 区
6、块无插入与缺失,每一个位置只有匹配与错配 每一条序列中的同一区块具有相同的长度 BLOCKS 数据库/,MSA中的统计学方法 (Statistical Methods),最大期望运算法则(Expectation Maximization Algorithm,EM) 吉布斯取样器(Gibbs Sampler) 隐马尔可夫模型(Hidden Markov Model,HMM) 位置特异性记分矩阵(Position-Specific Scoring Matrix, PSSM) 序列标语(Sequence Logo),最大期望运算法则,用来从未比对的蛋白序列
7、中寻找保守功能域 从DNA序列中找蛋白质结合位点 通过EM算法找到的这些模体(Motif)允许空位的存在,EM算法策略,先对模体所在每一个序列中的位置和大小进行一个大致预测,并将序列中的这些部分比对,这一比对估计模体中每一位置上的残基或核甘酸的大致组成 使用期望步骤:从上述已有的模体中通过每列中的组成来估算每一序列的每一位置上找到这一位点的概率,这些概率又反过来为该位点期望的碱基和氨基酸分布提供新的信息 使用最大化步骤:使用以上所得数据重复上面的步骤,直到期望步骤的数据不再发生变化为止,这样就得到了每个序列的最好比对和每列残基的最好估计,MEME(Multiple EM for Motif E
8、licitation),MEME程序是由加州大学san Diego 分校的超级计算中心所创立 MEME可对单个DNA或蛋白质序列或一系列DNA或蛋白质序列中对一个或多个无间隔的模式(Pattern)定位 MEME的三种模体(Motif)模型: OOPS每条序列中预期出现一次motif ZOOPS每条序列出现零次或一次motif TCM每条序列中出现任意次数的motif 在线MEME工具: MEME Discover motifs (highly conserved regions) in groups of related DNA or protein sequences http:/meme
9、./meme/website/meme.html MAST Search sequence databases using motifs /meme/website/mast.html,MEME结果,吉布斯取样器(Gibbs Sampler),随机地从所有序列中抽出一个或几个作为外围序列用来计算背景噪音,然后对剩下的序列随机地选择假设存在的模体的开始位置,并来回移动其位置,直到模体概率相对于背景概率之比达到最大值,来发现所有序列共有的最可能模式 调整序列比对以获得较好的记分,但保留寻找其它更好位置的余地。当在几个序列中选择了模体的正确开始位
10、置后,模体的组成便开始反映在其余序列中所能找到的模体 集合最佳模体,并确定模体在每一序列中的精确位置 被广泛应用于蛋白序列中发现复杂和可变的模体 /gibbs/gibbs.html,隐马尔可夫模型(HMM),定义:一种统计模型,它考虑有关匹配、错配和间隔的所有可能的组合来生成一组序列排列 HMM用来序列分析、产生概形HMM、分析序列组成和模式并通过预测开放阅读框(Open Reading Frame, ORF)来定位基因及预测蛋白质结构 原理:先产生一个序列家族模型,并用先验信息初始化,然后用一组序列(序列条数20) 来训练HMM模型。训
11、练过程中包括的序列越多,分析的精确性越高,隐马尔可夫模型(HMM),优点:植根于概率论,无须序列的顺序信息,无需插入/缺失和罚分,可以用到很多先验信息 缺点:需要至少20条序列,有时需要更多才能了解进化历史 分析工具:HMMER(/) Pfam: http:/www.sanger.ac.uk/Software/Pfam/ (protein domain alignments and profile HMMs),HMM示意图,图示:NKYLT是通过BEG-M1-I1-M2-M3-M4-END.每个氨基酸的概率为:0.330.05 0.33 0.05 0.
12、33 0.05 0.33 0.05 0.33 0.05 0.5,一个转换的平均值为0.33,因为大多存在3种转换方式(只有从M4和D4上离开时有2种方式,平均概率为0.5),How to create a HMM,多序列比对,相关序列选取,模型构建,模型训练,参数调整,应用,确立模型,Example: 1. Sequence selection,选取相关的序列,2.Alignment,Save result as ms format,多序列比对,模型建立,3.Hmmbuild 4.Hmmt 5.Hmmcalibrate,模型建立,用相关序列对模型进行训练,参数调整,位置特异性记分矩阵,对于序列
13、保守区进行MSA分析可以产生位置特异记分矩阵(Position-specific scoring matrix,PSSM) 与Profile相似,都是用一个数值表示每一个氨基酸或核苷酸在每一位置上出现的频率,不同的是PSSM使用频率的对数值(log2)为其数值,用PSSM来搜寻一条序列,以找到此序列具有PSSM所代表的序列模体(motif) 的可能位置 用来搜索整个数据库以寻找额外的具有相同模体(motif)的序列 寻找蛋白质家族所共有的序列模式、转录因子结合位点和内含子与外显子交界区共有的序列模式,PSSM用途,序列标语(Sequence Logos),序列标语是一种用图形来表示模体(mot
14、if)中每一列残基信息的 在线序列LOGO:,X轴表示模式的位置,Y轴上字母高度代表该字母在此位置上出现的频率,MSA编辑,通过编辑比对得到更为合理的MSA,这并不是一种欺骗行为 如何选择合适的MSA编辑器? 支持氨基酸彩色显示 能识别多种MSA格式 有合适的视窗界面,可用鼠标进行序列的添加、删除和移动,MSA编辑器,CINEMA (Colour Interactive Editor for Multiple Alignments) 广泛使用的序列和点阵图编辑工具 特点是拖放式编辑,使用分割屏幕来显示比对的不同区域,多模体的选择与操作,显示蛋白质结构 http:/www.biochem.ucl.ac.uk/bsm/dbbrowser/CINEMA2.02/index2.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度钢铁材料采购运输协议
- 2025版特色餐饮总经理聘用合同
- 二零二五年度泵站设备租赁与维护服务合同范本
- 二零二五年度新媒体内容编辑与运营合作协议
- 2025版新能源汽车销售居间代理协议
- 2025版茶叶茶点专卖店经营管理与服务合同
- 二零二五年度14年国际贸易合同范本-国际贸易新能源项目合作协议
- 二零二五年度精密仪器采购及供应商协同研发合同
- 2025届北京市丰台区北京第十二中学物理高二第二学期期末联考模拟试题含解析
- 二零二五年度高端商务楼全面清洁与维护服务合同模板
- 氧化铝溶出机组热试方案
- 小学阅读理解提分公开课课件
- esd防静电手册20.20标准
- 教育政策与法规课件
- 养老护理员职业道德27张课件
- 少儿美术课件-《长颈鹿不会跳舞》
- 人教版五年级数学下册单元及期中期末测试卷含答案(共16套)
- GB∕T 17989.1-2020 控制图 第1部分:通用指南
- EN485.32003铝及铝合金薄板、带材和厚板第三部分(译文)
- 商混企业整合方案
- 连续波多普勒无线电引信论文
评论
0/150
提交评论