生物信息学7_第1页
生物信息学7_第2页
生物信息学7_第3页
生物信息学7_第4页
生物信息学7_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

课程名称 生物信息学Bioinformatics 主讲人 刘顺会所在单位 生命科学与生物制药学院 F 多重序列比对 基因和蛋白家族 F1 多重序列比对和家族关系F2 蛋白家族和模式数据库F3 蛋白结构域家族 F1 多重序列比对和家族关系 F11 多重比对F12 软件F13 渐进性比对 F11 多重比对 多序列比对可以用来揭示两条或多条序列之间的关系 当所考察的序列不同时 保守的残基往往是维持稳定结构或生物学功能的关键残基 多序列比对可以揭示关于蛋白质结构和功能的许多线索 F11 多重比对 多序列比对经常会比两序列比对告诉我们更多的信息 因为通过它可以发现更多的关于进化保守方面的信息 F11 多重比对 F12 软件 Thebest knownsoftwareistheClustalWpackage availablebyftpfromftp ftp igbmc u strasbg fr pub ClustalX F13 渐进性比对 大多数常用软件使用渐进的比对方法 该法有运行速度较快的优点 该法以两序列比对来初步评价序列是如何相关的 并在此基础上构建树 guidetree 然后使用向导树逐步添加序列到比对中 从最密切相关的序列开始到距离最远的序列结束 F13 渐进性比对 F13 渐进性比对 渐进性比对方法通常非常有效 但也存在一个问题 即过程中早期产生的比对错误不能被及时矫正而是被 冻结 在比对结果中 从而影响后续的比对结果 另外 独立的生物化学信息有时能给出序列正确比对的信息 比如 结构和功能上的关键残基二硫键 F13 渐进性比对 F13 渐进性比对 几种渐进性比对的精炼方法 空位罚分发生改变以使空位插入更有可能发生在亲水性的环状区域 loop区 根据序列之间的相关程度采用不同的氨基酸替代矩阵 F2 蛋白质家族和模式数据库 F21 蛋白家族F22 一致序列F23 PROSITEF24 PRINTS和BLOCKS F21 蛋白质家族 把序列分配到蛋白质家族中是预测蛋白质功能的一种非常有价值的方法 有许多方法来代表蛋白质家族信息 这些方法和信息存储在二级蛋白质家族数据库 secondaryproteinfamilydatabases 中 人以类聚物以群分 F21 蛋白质家族 多序列比对信息的表示方法 序列比对本身 一致序列 保守残基和残基模式 序列轮廓 其他的序列家族的概率模型 二级数据库 F22 一致序列 这些序列把多序列比对的信息压缩至单条序列 主要缺点 只能表示特定位置最常见的残基信息 而不能表示任何概率信息 另外 一致序列表示蛋白家族的信息是有偏向的 因为用于产生一致序列的来源序列是有偏向的 F22 一致序列 THRB HUMANLESYIDGRIVEGSDAEIGMSPWQVMLFRKSPQELLTHRB BOVINFESYIEGRIVEGQDAEVGLSPWQVMLFRKSPQELLTHRB MOUSELDSYIDGRIVEGWDAEKGIAPWQVMLFRKSPQELTHRB RATLDSYIDGRIVEGWDAEKGIAPWQVMLFRKSPQELFA9 RATEPINDFTRVVGGENAKPGQIPWQVILNGEIE AFFA9 RABITQSSDDFTRIVGGENAKPGQFPWQVLLNGKV AFConsensusXXSYIXGRIVEGXDAEXGXXPWQVMLFRKSPQEL F23 PROSITE PROSITE数据库包含与蛋白质家族成员 特定蛋白功能及翻译后修饰有关的序列模式 F23 PROSITE 几个例子 LIVM ST A STAG H C6residues DNSTAGC CSTAPIMV x 2 G DE S G GS SAPHV LIVMFYMH PA LIVMFYSTANQH 14residues Note LT anyresidueexceptLorT F23 PROSITE PROSITE序列模式的缺点 1 它们长度较短使得不相关序列中有假阳性存在 2 虽然它们允许描述特定位置的变化 但无法计算该变化的概率 LIVM L I V M F24 PRINTS和BLOCKS PRINTS和BLOCKS是密切相关的 它们分别通过来自一组蛋白或蛋白家族中最高度保守区域的多序列比对无空位片段 blocksandmotifs 的形式来表示蛋白质家族 F24 PRINTS和BLOCKS Motif1Motif2Motif3GYVSALYDYDADELSFDKDDIISVEYDWWEARSLYTAVALYDYQAGDLSFHAGDRIEVEGDWWLANSLRWARALYDFEAEEISFRKGDTIAVDGDWWYARSLExamplesequencesforthefourconservedmotifsusedtorepresenttheSH3domaininthePRINTSdatabase F24 PRINTSandBLOCKS 这些数据库中的motifs要比PROSITE模式覆盖更大的序列区域 与PROSITE不同 序列中motifs的匹配通常要考虑氨基酸替换矩阵 因而对某一固定模式不要求严格的匹配 因此 PRINTS和BLOCKS模式的匹配比PROSITE模式的匹配更为敏感 可以找到更多远距离关系 和更加特异 更少的假阳性出现 F3 蛋白结构域家族 F31 结构域家族F32 序列轮廓F33 隐马尔可夫模型F34 网上资源 F31 结构域家族 许多蛋白质是由结构域以模块化的方式构建的 因此蛋白质家族的研究其实是对蛋白质结构域家族的研究 F31 结构域家族 Prodom是由自动方法产生的蛋白质结构域序列的数据库 这一数据库来自于蛋白质序列数据库 F32 序列轮廓 又称为权重矩阵 它们表示完全的结构域序列 是一种描述蛋白结构域家族相关序列的方法 多序列比对中每个位点的氨基酸都有分值 并且特定位置插入或缺失的可能性均有一定的衡量方法 序列轮廓可以被用作某些PROSITE数据库条目中序列模式之外的替代方法 F33 隐马尔可夫模型 这类模型是蛋白质结构域家族序列的一种严格的统计模型 包括序列的匹配 插入和缺失状态 并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列 F33 隐马尔可夫模型 d1 i0 m0 d2 d3 d4 i1 i2 i3 m1 m2 m3 代表某蛋白结构域家族的模型从该家族中生成序列的概率较高 从其他家族中生成序列的概率较低 F33 隐马尔可夫模型 现在已有算法可以近似地得出从某特定家族模型中生成一条新的蛋白序列的概率 而且它们可以用来把新的蛋白序列归类到某一蛋白家族中 F33 隐马尔可夫模型 F34 网上资源 Pfam和SMART可以被用于蛋白质结构域家族的分析 Interpro联合了PROSITE PRINTS Pfam Prodom和SMART 从而形成了一个整合的资源 Presentations 第七组 举例查询Interpro蛋白质家族资源 Helpfultips Wehaveonlytouchedsmallpartsofth

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论