




已阅读5页,还剩90页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1,第四章核酸序列分析,对实验室中获得的一条新的核酸序列进行生物信息学分析是实验深入研究前的标准操作。,常规分析(掌握三种软件)序列比对分析基因结构识别,2,常规分析_以水稻瘤矮病毒RGDV基因组S8片段编码区序列为例,使用BioEdit软件进行分析,核酸序列组分分析(BioEdit、DNAMAN、Dnastar)分析核酸序列的分子质量、碱基组成、碱基分布等。序列变换(BioEdit、DNAMAN、Dnastar)根据分析需要,对核酸序列进行各种变换,如寻找序列的互补序列、反向序列、反向互补序列等。限制性内切酶分析(BioEdit、DNAMAN、Dnastar)确定核酸序列的酶切位点。,3,步骤一:下载水稻瘤矮病毒RGDV基因组S8片段编码区序列,4,文本编辑器UltraEdit,5,步骤二:安装打开BioEdit软件,6,步骤三:载入序列(“File”“Open”),7,步骤四:序列分析,互补,反向互补,核酸组成分析,限制性酶切分析,8,核酸序列组分分析步骤五:结果解读,9,序列变换步骤五:结果解读(互补序列),10,限制性内切酶分析,11,12,限制性酶切分析步骤五:参数设置,13,限制性酶切分析步骤六:结果解读,14,限制性内切酶在线分析工具,15,Dnastar,序列格式转换限制性内切酶分析序列拼接,下载网址:,16,17,18,19,20,21,22,23,结果,24,25,26,27,28,29,显示出所有的酶切位点,30,只需要切1次的位点,则要选择切的频率,31,在最低和最高都选择“1”,32,切1次的酶切位点,33,序列比对,定义:序列比对是比较两个或两个以上符号序列的相似性或不相似性。理论基础:如果两个序列之间具有足够的相似性,就推测二者可能有共同的进化祖先,经过序列内残基的替换、残基或序列片段的缺失、以及序列重组等遗传变异过程分别演化而来。意义:从核酸、氨基酸的层次分析序列的相似性,推测其结构功能及进化上的联系,是基因识别、分子进化、生命起源研究的基础,34,序列比对的方式,数据库搜索比对(BLAST)将查询序列与整个数据库中所有序列进行比对,来获得数据库中与其最相似序列的已有数据,作为查询序列的参考信息。序列两两比对(BLAST2sequences)通过比较两个序列之间的相似区域和保守性位点,寻找两者可能的分子进化关系。多序列比对(ClustalX)将多个序列同时进行比较,寻找它们之间共同的保守区域、位点和profile。,35,序列相似性:指两个序列之间相同碱基或氨基酸残基顺序所占比例的高低。在蛋白质序列比对中,有时也指两个序列之间具有相似特性(侧链基团的大小、电荷性、亲疏水性等)的残基所占的比例。序列一致性:指两个序列相同位置上出现同样的碱基或氨基酸残基的比例。同源性:用来描述蛋白质或核酸来自同一祖先。,相似性(similarity)、一致性(identity)和同源性(homology),36,identity=8/45=17.8%similarity=(8+9)/45=37.8%相似的碱基:小分子、疏水性、带芳香基的氨基酸:A,V,F,P,M,I,L,W;酸性氨基酸:D,E;碱性氨基酸:R,H,K;带羟基、胺基、碱性氨基酸:S,T,Y,H,C,N,G,Q.,图中:“|”表示相同的残基,“+”表示相似残基。,37,相似性vs同源性,序列比对(sequencealignment)的结果显示序列的相似性,而不是同源性。同源性可以根据序列相似性来推断。当相似程度高于50%时,可以推测检测序列和目标序列可能是同源序列;而当相似性程度低于20%时,就难以确定或者根本无法确定其是否具有同源性。相似性可以量化,如50%similarity;而同源性是定性的概念,如果来自同一祖先就是同源,否则为不同源.%homology。,38,直系同源(orthology)VS旁系同源(paralogy),直系同源(orthology)是比较基因组学中最重要的定义。直系同源的定义是:(1)在进化上起源于一个始祖基因并垂直传递(verticaldescent)的同源基因;(2)分布于两种或两种以上物种的基因组;(3)功能高度保守乃至于近乎相同,甚至于其在近缘物种可以相互替换;(4)结构相似;(5)组织特异性与亚细胞分布相似,旁系同源(paralogy)基因是指同一基因组(或同系物种的基因组)中,由于始祖基因的加倍而横向(horizontal)产生的几个同源基因。,39,直系与旁系的共性是同源,都源于各自的始祖基因。其区别在于:在进化起源上,直系同源是强调在不同基因组中的垂直传递,旁系同源则是在同一基因组中的横向加倍;在功能上,直系同源要求功能高度相似,而旁系同源在定义上对功能上没有严格要求,可能相似,但也可能并不相似(尽管结构上具一定程度的相似),甚至于没有功能(如基因家族中的假基因)。旁系同源的功能变异可能是横向加倍后的重排变异或进化上获得了另一功能,其功能相似也许只是机械式的相关(mechanisticallyrelated),或非直系同源基因取代新产生的非亲缘或远缘蛋白在不同物种具有相似的功能。,40,局部比对vs整体比对,序列比对的数学模型大体可以分为两类,一类从全长序列出发,考虑序列的整体相似性,即整体比对;第二类考虑序列部分区域的相似性,即局部比对。局部相似性比全局相似性更具有生物学意义。两条DNA长序列,可能只在很小的区域内(密码区)存在关系。不同家族的蛋白质往往具有功能和结构上的相同的一些区域(motif)。,41,影响相似性分数的因素,WORDSIZE的设定是否允许空位且空位罚分策略相似性分数矩阵(PAM和BLOSUM),42,点阵图,评估两条序列相似度最简单的方法之一是利用点阵图。第一条被比较的序列排列在点阵图空间的横轴,第二条序列则排列在纵轴。点阵空间中两条序列中的残基相同时,在对应的位点上画上圆点,两条序列间连续相同的区域在图中会形成由圆点组成的上斜线。,43,具有连续相似区域的两条DNA序列的简单点阵图,对人类与黑猩猩的球蛋白基因序列进行比较的完整点阵图,44,滑动窗口技术使用滑动窗口代替一次一个位点的比较是解决噪音问题的有效方法。假设窗口大小为10,相似度阈值为8,则每次比较取10个连续的字符,如相同的字符超过8个,则标记基于滑动窗口的点矩阵方法可以明显地降低点阵图的噪声,并且明确无误的指示出了两条序列间具有显著相似性的区域。,45,(a)对人类(Homosapiens)与黑猩猩(Pongopygmaeus)的球蛋白基因序列进行比较的完整点阵图。(b)利用滑动窗口对以上的两种球蛋白基因序列进行比较的点阵图,其中窗口大小为10个核苷酸,相似度阈值为8。,(a)(b),46,简单比对,比对就是两条序列字符间简单的两两匹配。比对可以反映出两条或多条同源序列间的进化关系.最简单的情况下即不考虑空位,当两条序列对比时,要做的仅是为较短的序列选择比对的起始点。,47,考虑这样的两条核苷酸序列:AATCTATA和AAGATA仅有三种比对方式,不考虑空位的简单比对,它的打分函数是有对比奖励和罚分的和来决定,上例中三个比对从左至右分别是4、1、3,匹配得分:1失配得分:0,48,空位,两条或多条序列比对时,如果考虑到插入与删除事件发生地可能性,那么候选的比对数量就会大大增加,也就导致了比对的复杂性。,等等,上节中两条核苷酸序列,在不考虑空位时仅有三种比对,而较短的那条加入了两个空位后,便产生了28种不同的比对,例如:,49,简单空位罚分,对含有空位的比对打分时,空位罚分就必须包含到打分函数中,空位比对的简单打分公式如下:,例如:假设匹配得分为1,失配得分为0,空位罚分为-1,三种空位比对的得分从左至右分别是1、3、3,50,起始罚分与长度罚分,使用简单空位罚分对两条序列进行比对时,经常能找到若干同格式最优的比对。进一步区分这些比对的方法是找出哪些比对包含较多的不连续空位,哪些包含较少长度较长的空位片段。,51,插入/删除事件,假设两条序列长度分别是12和9假设这两条序列是真正的同源序列,那么它们之间长度的差异可以解释为(1)较长的序列有核苷酸的插入,或者(2)较短的序列发生了核苷酸的删除,或者(3)两者都发生了。在不知道原始父辈序列的情况下,无法判断导致空位的原因是由于一条序列的插入事件还是另一条的删除事件,通常把这类事件称为插入/删除事件。,52,多联核苷酸的插入删除事件相对于单个核苷酸来说会较经常发生。统计结果表明,两条序列长度上的差异更可能是单个三联核苷酸的插入删除事件导致的,而多个不连续核苷酸插入删除事件的可能性比较小。空位罚分由序列中产生的新空位串引起的起始罚分和根据缺少的字符数而定的长度罚分。预设长度罚分小于起始罚分,以此建立的打分函数便能奖励空位连在一起的比对。,53,假设起始罚分为-2,长度罚分为-1,匹配得分为+1,失配得分为0,则对于,这三个比对,从左至右比对的得分分别是-1,+1,+2,在后两种比对在使用简单空位罚分时,最后得分都是+3,现在却得到了不同的分数。,这三个比对,从左至右比对的得分分别是-1,+1,+2,在后两种比对在使用简单空位罚分时,最后得分都是+3,现在却得到了不同的分数。,54,大的起始罚分配以很小的长度罚分被普遍证实是最佳的设定思路。,55,打分矩阵,正如空位罚分可以奖励与进化相关的比对,失配罚分也可以用来进一步区分相似比对。统计结果表明,两条同源的序列比对时,某些替换比其他替换常见的多。例:两条蛋白质序列,其中一条在某一个位置上是丙氨酸,如果该位点被替换成另一个较小的且疏水的氨基酸,比如缬氨酸,则对蛋白质的影响很小,如果被替换成较大且带电的残基,比如赖氨酸,那么对蛋白质的影响可能就会非常大。直观的讲,比较保守的替换比随机替换更可能维持蛋白质的功能,更不容易被淘汰,因此在打分上更倾向于缬氨酸而不是赖氨酸。,56,打分矩阵(ScoringMatrix),核酸打分矩阵设DNA序列所用的字母表为=A,C,G,Ta.单位矩阵b.BLAST矩阵c.转换-颠换矩阵(transition,transversion)(嘌呤:腺嘌呤A,鸟嘌呤G;嘧啶:胞嘧啶C,胸腺嘧啶T),单位矩阵,转换-颠换矩阵,BLAST矩阵,分别利用三种矩阵计算序列1:GCGCCTC和序列2:GCGGGTC在不考虑空位的情况下比对的得分,57,构建方式:收集序列一致性达到99%的序列进行计算,得到PAM1矩阵.如要产生PAMn矩阵,则把PAM1矩阵自乘n次.缺点:一旦PAM1矩阵有小的误差,自乘n此以后得到的PAMn矩阵误差有可能非常大.,PAM矩阵,构建方式:根据BLOCKS数据库中的序列数据计算得到.BLOSUMn矩阵由BLOCKS数据库中一致性为n%的序列计算得到.优点:不会出现误差放大,被广泛使用.,BLOSUM矩阵,58,针对不同的进化距离采用PAM矩阵,序列相似度=40%50%60%,|打分矩阵=PAM120PAM80PAM60,PAM25014%-27%,59,PAM-n中,n越小,表示氨基酸相似的可能性越大;相似的序列之间比较应该选用n值小的矩阵,不太相似的序列之间比较应该选用n值大的矩阵.PAM-250用于约20%相同序列之间的比较。BLOSUM-n中,n越小,表示氨基酸相似的可能性越小;相似的序列之间比较应该选用n值大的矩阵,不太相似的序列之间比较应该选用n值小的矩阵。BLOSUM-62用来比较62相似度的序列,BLOSUM-80用来比较80左右相似度的序列。,60,PAM100=Blosum90PAM120=Blosum80PAM160=Blosum60PAM200=Blosum52PAM250=Blosum45Blosum矩阵更适合用于局部比对Blosum62矩阵适合于大多数的蛋白质序列比对,61,突变数据相似性分数矩阵PAM250,主对角线上分数值是指两个相同残基之间的相似性分数值,有些残基的分值较高,如色氨酸W为17、半胱氨酸C为12,说明它们比较保守,不易突变;有的残基的分值较低,如丝氨酸S、丙氨酸A、门冬酰氨N三种氨基酸均为2,这些氨基酸则比较容易突变。不同氨基酸之间的分数值越高,它们之间的相似性越高,进化过程中容易发生互相突变,如苯丙氨酸F和酪氨酸Y,它们之间的相似性分数值是7。而相似性分数值为负数的氨基酸之间的相似性则较低,如甘氨酸和色氨酸之间为-7,它们在进化过程中不易发生互相突变,62,模块替换矩阵BLOSUM62,63,数据库搜索,尽管序列比对是比较两条已知序列的极为重要的工具,然而序列比对的更为常见的用途是用来搜索大量序列的数据库,以找到与特定序列相似的那些序列。在数据库搜索过程中,由于被搜索序列很长,而且数量巨大,用简单而直接的方法将数据库中的每条序列与查询序列进行比对并返回得分最高的序列难以奏效。作为替代方法,各种索引方法与启发方式被用来加快搜索的过程,虽然不能保证与查询序列比对的最好的,但是能返回大部分与查询序列比对较好的,而且这些方法的效率很高。,64,数据库搜索的比对得分与统计显著性,搜索结果的比对得分为S,E值表示比对结果的统计学显著性,指的是用于随机找出的一条或多条序列,比对得分大于等于S的可能性。数据库搜索引擎一般都为每个搜索结果提供E得分E的值比较低说明该结果与查询序列具有进化上的关系。,65,BLAST,BLAST是目前常用的数据库搜索程序,它是BasicLocalAlignmentSearchTool的缩写,意为“基本局部相似性比对搜索工具”。为了有效地搜索大型数据库,BLASTP首先将查询序列打碎成一个个单词,查询序中所有可能的单词是通过查询序列上滑动与单词等长的窗口来得到的。除了BLASTP,还有BLASTN和BLASTX等等,66,BLASTP搜索算法概述,67,BLAST程序检测序列和数据库类型,68,69,70,71,72,73,74,75,76,77,78,79,80,81,多序列比对,定义:将两条以上可能有系统进化关系的序列进行比对的方法。复杂性:O(m1m2m3mn),其中m1为第一条序列的长度,m2为第二条序列的长度,mn是最后一条序列的长度。n个序列进行比对时的算法复杂性则为这n个序列长度的乘积。显然,随着序列数量的增加,多序列比对的算法复杂性呈指数增长。意义:通过多个序列的相似性,可以了解它们在进化上亲缘关系的远近,推断分子起源和进化规律等。研究多个序列中的保守区域,可以猜测这些区域对结构和功能的重要性,从而进行分子设计。,82,多序列比对工具CLUSTALW,免费共享软件,基于动态规划算法对DNA或蛋白质序列作全局比对的多序列联配工具,结果生成具有生物学意义的多序列联配排列、并构建出表征比对序列间亲缘关系的系统树。下载:ftp:/ftp-igbmc.u-strasbg.fr/pub/ClustalW/ftp:/ftp-igbmc.u-strasbg.fr/pub/ClustalX/在线分析:/software/ClustalW.htmlhttp:/www.ebi.ac.uk/clustalw/,83,CLUSTALW算法执行的步骤,Step1.简单的两序列比对和距离矩阵对所有序列做两序列比较,并对关系密切序列加权,两序列比对的得分用来构建距离矩阵;假如有n个序列,将要做n(n-1)/2次两序列比对(pairwisealignment)。Step2.用邻接法(Neighbor-Joining)计算系统树基于两序列比对得到的距离矩阵,用邻接法计算系统树。Step3.累进排列,依据系统树进行排列从关系最紧密的两个序列开始,以系统树示出的关系为指导,逐步放入临近的序列或序列簇,并重新构建比对,直到所有的序列被加入,最后产生一个多重排列。,84,CLUSTALW在线分析,登录ClustalW主页输入要比较的序列(Fasta格式)按Run键,85,得到比对结果,86,下载比对结果(有5种文件格式)和树状图,87,clustal格式输出的多重排列结果,88,可用GeneDoc软件对ClustelW比对结果进行美化,GeneDoc可用各种方式标记序列,生成发表质量的输出报告,注:GeneDoc只能打开GCG/MSF格式文件,89,用Treeview处理ClustalW结果(Phylip格式保存的文件),生成进化树,90,基因结构识别,ORF预测(ORFFinder)分析核酸序列的开放阅读框。启动子及转录因子结合位点分析(PromoterScan)重复序列分析(RepertMasker
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025安徽芜湖凤鸣控股集团及其子公司选调10人笔试参考题库附带答案详解
- 2025国家电投集团国家核电招聘27人笔试参考题库附带答案详解
- 2025四川南充临江东方发展实业集团有限公司招聘15人笔试参考题库附带答案详解
- 2025中国铁建投资集团有限公司校园招聘25人笔试参考题库附带答案详解
- 地铁安全教育培训资料课件
- 固定资产计提折旧课件
- 固定可摘义齿课件
- 地磅安全记录培训课件
- 固体废物管理规划课件
- 回族安全培训班课件
- 异博定治疗方案
- GB/T 5008.2-2023起动用铅酸蓄电池第2部分:产品品种规格和端子尺寸、标记
- Unit3+Understanding+ideas+The+New+Age+of+Invention外研版(2019)高中英语必修第三册
- 锻造操作机安全检查表模版
- 钢结构深化设计工作流程
- 落地式钢管脚手架验收记录表
- GA 1814.2-2023铁路系统反恐怖防范要求第2部分:旅客列车
- 个人养老保险重复缴费退费申请表
- 大气污染控制工程课程设计 车间除尘系统设计说明书1
- JJF 1059.2-2012用蒙特卡洛法评定测量不确定度
- GA/T 1788.3-2021公安视频图像信息系统安全技术要求第3部分:安全交互
评论
0/150
提交评论