




已阅读5页,还剩57页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章序列比对 为什么要序列比对 基于同源物鉴定的功能预测基本假设 序列的保守性功能的保守性因为 1 蛋白质一般在三级结构的层面上执行功能 2 蛋白质序列的保守性决定于其编码DNA的保守性 序列比对中的进化假设 1 所有的生物都起源于同一个祖先 2 序列不是随机产生 而是在进化上 不断发生着演变 3 基本假设 序列保守性结构保守性注意 反之并不为真 结构保守性序列保守性 contents 3 1概述3 2两条序列比对方法3 3多条序列比对方法 3 1概述 3 1 1序列比对的概念3 1 2生物序列之间的关系 序列比对 Sequencealignment 序列比对是序列相似性分析的常用方法 又称序列联配 通过将两个或多个核酸序列或蛋白序列进行比对 显示其中相似的结构域 这是进一步相似性分析的基础 通过比较未知序列与已知序列的一致性或相似性 可以预测未知序列功能 3 1 1序列比对的概念 两条序列比对 pairwisealignment 通过比较两条序列之间的相似区域和保守性位点 寻找二者之间可能的进化关系 多重序列比对 multiplealignment 不同物种中 许多基因的功能保守 序列相似性较高 通过多条序列的比较 发现保守与变异的部分2 可构建HMM模型 搜索更多的同源序列3 构建进化的树的必须步骤4 比较基因组学研究5 两类 全局或局部的多序列比对 同源性和相似性 如果两个序列有一个共同的进化祖先 那么它们是同源的 这里不存在同源性的程度问题 这两条序列之间要么是同源的 要么是不同源的 所谓同源序列 简单地说 是指从某一共同祖先经趋异进化而形成的不同序列 同源蛋白质的氨基酸序列具有明显的相似性 这种相似性称为序列同源性 同源性 homology 相似性 similarity 相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低 相似性本身的含义 并不要求与进化起源是否同一 与亲缘关系的远近 甚至于结构与功能有什么联系 当相似程度高于50 时 比较容易推测检测序列和目标序列可能是同源序列 而当相似性程度低于20 时 就难以确定或者根本无法确定其是否具有同源性 直系同源和旁系同源 直系同源 orthology 是指不同物种内的同源序列 它们来源于物种形成时的共同祖先基因 1 在进化上起源于一个始祖基因并垂直传递 verticaldescent 的同源基因 2 分布于两种或两种以上物种的基因组 3 功能高度保守乃至于近乎相同 甚至于其在近缘物种可以相互替换 4 结构相似 5 组织特异性与亚细胞分布相似 旁系同源 paralogy 基因是指同一基因组 或同一物种的基因组 中 由于始祖基因的加倍而横向 水平方向 horizontal 产生的几个同源基因 即 旁系同源是基因复制的结果 两份拷贝在一个物种的历史上时平行演化的 这样的基因就被称为旁系同源基因 直系同源和旁系同源 直系与旁系的共性是同源 都源于各自的始祖基因 其区别在于 在进化起源上 直系同源是强调在不同基因组中的垂直传递 旁系同源则是在同一基因组中的横向加倍 在功能上 直系同源要求功能高度相似 而旁系同源在定义上对功能上没有严格要求 可能相似 但也可能并不相似 尽管结构上具一定程度的相似 甚至于没有功能 如基因家族中的假基因 序列比对的数学模型 对序列从头到尾进行比较 试图使尽可能多的字符在同一列中匹配 适用于相似度较高且长度相近的序列如 Needleman Wunsch算法 全局比对 局部比对 寻找序列中相似度最高的区域 也就是匹配密度最高的部分 适用于在某些部分相似度较高 而其他部位差异较大的序列 如 Smith Waterman算法 序列比对的数学模型大体可以分为两类 一类从全长序列出发 考虑序列的整体相似性 即整体比对 第二类考虑序列部分区域的相似性 即局部比对 局部相似性比对 局部相似性比对的生物学基础是蛋白质功能位点往往是由较短的序列片段组成的 这些部位的序列具有相当大的保守性 尽管在序列的其它部位可能有插入 删除或突变 此时 局部相似性比对往往比整体比对具有更高的灵敏度 其结果更具生物学意义 BLAST和FastA等常用的数据库搜索程序均采用局部相似性比对的方法 具有较快的运行速度 而基于整体相似性比对的数据库搜索程序则需要超级计算机或专用计算机才能实现 3 2两条序列比对方法 序列两两比对分析是最简单 最基本的对齐分析 三种方法 点阵分析法动态规划法 Needleman Wunsch算法 Smith Waterman算法词或K串法 BLASTorFASTA中应用 3 2 1采用Blast进行序列两两对齐分析3 2 2采用本地化软件进行两条序列比对 3 2 1采用Blast进行序列两两对齐分析 Blast是一个局部比对搜索工具 用来确定一条查询序列和一个数据库的比对 最早的版本不引入间隙 但现在所用的版本已经允许比对中引入间隙 Bl2Seq 是NCBI上Blast程序的一部分 允许两条序列之行局部双序列比对 使用这个程序执行蛋白质 或DNA序列 的双序列比对非常容易 网络服务如NCBI的 bl2seq 程序 地址 http blast ncbi nlm nih gov Blast cgi 点 特殊BLAST 蛋白质序列比对用blastp DNA序列比对用blastn 例 拟南芥和菠菜的抗坏血酸过氧化物酶基因的两两比对 粘贴sequence1 粘贴sequence2 竖线 一致性 identities 缺口 gap 不同之处 双序列比对的显著性 一致性百分比 核酸和蛋白质序列进行对库检索的结果中是否具有生物学意义是一个很重要的问题 蛋白质序列对齐分析得到的结论是 对于有70个氨基酸残基的比对 40 的氨基酸一致性 identities 是一个认为两个蛋白同源的合理阈值 即它们一般具有相类似的生物学性质 在此标准之下 两条蛋白质序列可能具有相似的功能 也可能是性质上完全不同的蛋白质 对于DNA序列需要具有75 以上的同源性才可能具有潜在的生物学意义 3 2 2采用本地化软件进行两条序列比对 做多重比对分析的本地软件也可以做两两比对分析 如clustalX软件等 Clustal是一个单机版的基于渐进比对的多序列比对工具 其基本思想就是基于相似序列通常具有进化相关性的这一假设 当然 DNAStar DNAMan等软件也可以进行比对 生物软件网 http bio 载入的序列必须是fasta格式 存储在记事本 txt 中 参数可以选择 或者默认 Clustal比对后的结果 3 3多条序列比对方法 3 3 1序列对数据库的比对检索分析3 3 2多重序列的本地化软件对齐3 3 3Clustal比对结果的编辑 多重序列比对 用于描述一组序列之间的相似性关系 以便了解一个基因家族的基本特征 寻找motif 保守区域等 用于描述一个同源基因之间的亲缘关系的远近 应用到分子进化分析中 其他应用 如构建profile 打分矩阵等 3 3 1序列对数据库的比对检索分析 一条序列对整个数据库进行相似性分析 以发现其同源性是生物信息学分析中一个极重要的方面 本质上 这种分析方法类似于将序列两两对齐重复成百上千次 目前在单条序列对库检索中使用最广泛的程序是FASTA和BLAST FASTA不会漏检较强的结果 但有时无法检出弱的但是具有显著性的匹配 BLAST 基本局域联配搜索工具 BasicLocalAlignmentSearchTool 只匹配连续序列 缺失片断将被分段显示 以BLAST检索为例 BLAST是一个序列数据库搜索程序家族 BLAST检索的网络资源较多 http www ncbi nlm nih gov BLASThttp www ebi ac uk blast2http blast genome jp 当然 也可以将数据库下载到本地进行本地Blast 前面讲的两两比对是一种特殊的blast 基因组BLAST 基本blast 基本BLAST有5种 粘贴序列 结果显示 结果显示 结果显示 3 3 2多重序列的本地化软件对齐 例如 可采用ClustalX软件CLUSTAL是一种渐进的比对方法 先将多个序列两两比对构建距离矩阵 反映序列之间两两关系 然后根据距离矩阵计算产生系统进化指导树 对关系密切的序列进行加权 然后从最紧密的两条序列开始 逐步引入临近的序列并不断重新构建比对 直到所有序列都被加入为止 Clustal的渐进比对过程 在比对过程中 先对所有的序列进行两两比对并计算它们相似性分值 然后根据相似性分值将它们分成若干组 并在每组之间进行比对 计算相似性分值 根据相似性分值继续分组比对 直到得到最终比对结果 在比对过程中 相似性程度较高的序列先进行比对而距离较远的序列添加在后面 Clustal的工作原理 Clustal输入多个序列 快速的序列两两比对 计算序列间的距离 获得一个距离矩阵 采用邻接法 NJ 构建一个树 引导树 根据引导树 渐进比对多个序列 Clustal的输入输出格式 输入序列的格式比较灵活 可以是前面介绍过的FASTA格式 还可以是PIR SWISS PROT GDE Clustal GCG MSF RSF等格式 输出格式也可以选择 有ALN GCG PHYLIP和NEXUS等 用户可以根据自己的需要选择合适的输出格式 将要比对的多个序列以Fasta格式保存 以多个物种的抗坏血酸过氧化物酶的的蛋白质序列进行比对为例 载入多个序列后 选择输出选项 选择输出格式 或者在比对完成之后 在 文件 中选择 序列另存为 同样可以选择合适的输出格式 选择 进行完全比对 输出的文件路径自动与原始的序列文件的路径一致 Clustal比对结果 星号 完全一致 峰 表示一致程度高谷 表示一致程度低 3 3 3Clustal比对结果的编辑 Clustal比对之后的结果 可以采用其他软件进行编辑 如BioEdit软件 GeneDoc软件 但必须注意所用软件的输入文件的格式 BioEdit软件不能识别 aln 格式 但可识别 pir 或 phy 格式文件 也可以采用一些在线的着色软件来编辑Clustal比对结果 如Boxshade软件 网址 http www ch embnet org software BOX form html 本地软件编辑比对结果 以BioEdit软件为例 各种调整图形的参数可选 相当于 复制 键 可黏贴到其他文件 如 word PowerPoint 等 这是粘贴后的结果 2 以GeneDoc为例 选择Clustal比对后的结果 其中的 aln 文件 将其打开 当然 如果Clustal比对的之后 有将文件另存为其它格式 也可以打开 如 PIR phy 格式文件 在 Edit 中选择 SelectBlocksforcopy 即 选择某个区域用于复制 选择了某个block后 再选择 copyselectedblocksto metflie 等 相当于将所选的block复制了 然后再黏贴到word文件中 复制到word中的结果 在线的着色软件编辑clustal比对结果 以Boxshade为例 网址 http www ch embnet org s
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 健康咨询服务平台方案
- 2025年金属基复合材料项目规划申请报告
- 2025年微信生态项目提案报告模板
- 咨询项目驻场方案怎么写
- 智慧校园咨询方案怎么写
- 旅游观光索道施工方案
- 基层营销方案
- 科研报告会活动方案策划
- 咨询农家鱼缸设计方案
- 奉贤广告彩钢板施工方案
- (完整版)室外散水专项方案
- 智能物流行业智能化运输装备应用前景研究报告
- 2025云南黄金矿业集团股份有限公司第二次招聘8人笔试备考试题及答案解析
- 三级眼科医院评审标准实施要点
- 化疗药物使用顺序课件
- 车位退还协议书
- GB/T 9948-2025石化和化工装置用无缝钢管
- 三基三严培训课件
- 重心的讲课课件
- 2025至2030全球及中国军事无线电系统行业产业运行态势及投资规划深度研究报告
- CJ/T 244-2007游泳池水质标准
评论
0/150
提交评论