序列特征分析ppt课件_第1页
序列特征分析ppt课件_第2页
序列特征分析ppt课件_第3页
序列特征分析ppt课件_第4页
序列特征分析ppt课件_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章(续) 多序列比对;Clustal Omega/ClustalX的运用 ;第三章 序列特征分析;第一节 根本概念一、基因构造一、基因构造 基因的概念是随着遗传学、分子生物学、基因的概念是随着遗传学、分子生物学、生物化学等领域的开展不断完善的。从分子生物化学等领域的开展不断完善的。从分子生物学角度来看,基因是负载特定生物遗传生物学角度来看,基因是负载特定生物遗传信息的信息的DNADNA分子片段,在一定的条件下可以分子片段,在一定的条件下可以表达这种遗传信息,产生特定的生理功能。表达这种遗传信息,产生特定的生理功能。;原核生物基因构造:;支配子模型构造 原核生物大多数基因表达调控是经过支配子

2、机制实现的。原核生物大多数基因表达调控是经过支配子机制实现的。所谓支配子通常由调理基因、启动子、支配基因以及所谓支配子通常由调理基因、启动子、支配基因以及2 2个以上个以上的编码序列构造基因在原核生物基因组中成簇串联组成。的编码序列构造基因在原核生物基因组中成簇串联组成。其中构造基因的表达遭到支配基因的调控。调理基因能产生其中构造基因的表达遭到支配基因的调控。调理基因能产生作用于支配基因的阻遏物一种蛋白质,支配基因接近它作用于支配基因的阻遏物一种蛋白质,支配基因接近它所控制的构造基因,阻遏物与支配基因的结合能阻止构造基所控制的构造基因,阻遏物与支配基因的结合能阻止构造基因的转录。因的转录。 ;

3、真核生物基因构造:;二、蛋白质构造;蛋白质的一级构造蛋白质的一级构造决议二级构造蛋白质的一级构造决议二级构造蛋白质的二级构造决议三级构造蛋白质的二级构造决议三级构造 ;蛋白质的二级构造H H表示螺旋表示螺旋 E E表示折叠表示折叠 B B表示表示桥桥G G表示表示3-3-螺旋螺旋 I I表示表示螺旋螺旋 T T表示氢键转角表示氢键转角S S代表转向代表转向 ;蛋白质空间构造 蛋白质的生物学功能在很大蛋白质的生物学功能在很大 程度上取决于蛋白质的空间构造,程度上取决于蛋白质的空间构造, 但蛋白质的空间构造又取决于蛋白但蛋白质的空间构造又取决于蛋白 质一级构造中的氨基酸组成和陈列质一级构造中的氨基

4、酸组成和陈列 顺序,蛋白质构造构象多样性导致顺序,蛋白质构造构象多样性导致 了不同的生物学功能。蛋白质分子了不同的生物学功能。蛋白质分子只需处于它本人特定的空间构造情况下,才干获得它特定的生只需处于它本人特定的空间构造情况下,才干获得它特定的生物活性,空间构造稍有破坏,就很能够会导致蛋白质生物活性物活性,空间构造稍有破坏,就很能够会导致蛋白质生物活性的降低甚至丧失,由于它们的特定的构造允许它们结合特定的的降低甚至丧失,由于它们的特定的构造允许它们结合特定的配体分子。知道了基因密码,科学家们可以推上演组成某种蛋配体分子。知道了基因密码,科学家们可以推上演组成某种蛋白质的氨基酸序列,却无法绘制蛋白

5、质空间构造。因此,提示白质的氨基酸序列,却无法绘制蛋白质空间构造。因此,提示人类每一种蛋白质的空间构造,已成为后基因组时代的制高点,人类每一种蛋白质的空间构造,已成为后基因组时代的制高点,这也是构造基因组学的根本义务。这也是构造基因组学的根本义务。 ;第二节 DNA序列特征分析 分析分析DNA序列,除了进展序列比对之外,更重要的任务序列,除了进展序列比对之外,更重要的任务是从序列中找到基因及其表达调控信息。寻觅基因的任务有是从序列中找到基因及其表达调控信息。寻觅基因的任务有两个:一是识别与基因相关的特殊序列信号,如启动子、起两个:一是识别与基因相关的特殊序列信号,如启动子、起始密码子,经过信号

6、识别大致确定基因所在的区域;二是预始密码子,经过信号识别大致确定基因所在的区域;二是预测基因的编码区域,或预测外显子所在的区域。在此根底上,测基因的编码区域,或预测外显子所在的区域。在此根底上,结合两个方面的结果确定基因的位置和构造。绝大部分基因结合两个方面的结果确定基因的位置和构造。绝大部分基因表达调控信息隐藏在基因序列的上游区域,在组成上具有一表达调控信息隐藏在基因序列的上游区域,在组成上具有一定的特征,可以经过序列分析识别这些特征。定的特征,可以经过序列分析识别这些特征。; 一、开放阅读框ORFopen reading frame 二、CpG岛 CpG islands 三、转录终止信号

7、四、启动子promoters;一、开放阅读框ORFopen reading frame 开放阅读框指的是从开放阅读框指的是从5端开场翻译起始密码子端开场翻译起始密码子ATG到终止密码子到终止密码子TTA、TAG、TGA的蛋白质编码碱基序列。的蛋白质编码碱基序列。每个序列都有每个序列都有6个能够的开放阅读框,其中个能够的开放阅读框,其中3个开场于第个开场于第1、2、3个碱基位点并沿着给定序列的个碱基位点并沿着给定序列的5 3的方向进展延伸,而另的方向进展延伸,而另外的外的3个开场于第个开场于第1、2、3个碱基位点但沿着互补序列的个碱基位点但沿着互补序列的5 3的方向进展延伸。在开场这项任务之前,

8、我们并不知道的方向进展延伸。在开场这项任务之前,我们并不知道DNA双链中哪一条单链是编码链,也不知道准确的翻译起始双链中哪一条单链是编码链,也不知道准确的翻译起始点在何处,由于每条链都有点在何处,由于每条链都有3种能够的开发阅读框,种能够的开发阅读框,2条链合条链合计计6种能够的开放读框,我们的目的就是从这种能够的开放读框,我们的目的就是从这6个能够的开放个能够的开放阅读框中找出一个正确的开放阅读框。根据这个开放阅读框阅读框中找出一个正确的开放阅读框。根据这个开放阅读框翻译得到的氨基酸序列才是真正表达的蛋白质产物。翻译得到的氨基酸序列才是真正表达的蛋白质产物。 ;真核生物的开放阅读框;利用GE

9、NSCAN识别基因开放阅读框 GENSCAN是美国麻省理工学院的是美国麻省理工学院的Chris Burge于于2019年开发胜利的人类或脊椎动物基因预测年开发胜利的人类或脊椎动物基因预测软件,它是根据基因组软件,它是根据基因组DNA序列来预测开放阅读框序列来预测开放阅读框及基因构造信息的开放式在线资源,尤其适用于脊及基因构造信息的开放式在线资源,尤其适用于脊椎动物、拟南芥和玉米等真核生物。椎动物、拟南芥和玉米等真核生物。GENSCAN的网址为:的网址为:/GENSCAN.html;GENSCAN在线操作页面;用GENSCAN预测AC002390序列的基因/外显子 ;用

10、GENSCAN预测AC002390序列的基因/外显子的位置图 起始外显子起始外显子终止外显子终止外显子;二、CpG岛 CpG islands CpG岛是指岛是指DNA序列上的一个区域,此区域含有大序列上的一个区域,此区域含有大量相联的胞嘧啶量相联的胞嘧啶C、鸟嘌呤、鸟嘌呤G,以及使两者相连,以及使两者相连的磷酸酯键的磷酸酯键p。CpG岛的概念是岛的概念是Gardiner-garden和和Fromner于于1987年提出的,基因中平均每年提出的,基因中平均每100 Kb即可出现。即可出现。CpG岛位于基因的启动子和第一个外显子区,约有岛位于基因的启动子和第一个外显子区,约有60%80%的人类基因

11、的启动子和起始外显子含有的人类基因的启动子和起始外显子含有CpG岛,岛,其中其中GC含量大于含量大于50%,长度超越,长度超越200bp。因此搜索。因此搜索CpG岛可以为基因及其启动子预测提供重要线索。岛可以为基因及其启动子预测提供重要线索。;利用CpGPlot预测分析CpG岛 CpGPlot是预测是预测CpG岛的在线工具,它是由欧洲岛的在线工具,它是由欧洲分子生物学实验室分子生物学实验室EMBL European Molecular Biology Laboratory提供的。提供的。其网址为:其网址为:ebi.ac.uk/Tools/seqstats/emboss_cpgplot/;CpG

12、Plot在线操作页面;用CpGplot预测AC002390序列的CpG岛的结果 ;用CpGReport预测AC002390序列的CpG岛的结果 ;三、转录终止信号 转录终止信号是在转录终止信号是在mRNA序列的序列的3端终止密码子下游端终止密码子下游位置上的加尾信号位置上的加尾信号tailing signal。前体。前体mRNA 3端多聚端多聚腺苷酸化是真核细胞内腺苷酸化是真核细胞内mRNA转录后处置的三个最主要步转录后处置的三个最主要步骤之一,这三个步骤包括:骤之一,这三个步骤包括:5帽子构造的构成、内含子的帽子构造的构成、内含子的剪切及剪切及3端的多聚腺苷酸化,因此,前体端的多聚腺苷酸化,

13、因此,前体mRNA 3端多聚端多聚腺苷酸化与腺苷酸化与mRNA稳定性的调理、稳定性的调理、mRNA的细胞内转运、的细胞内转运、翻译的起始以及一些其他的细胞机制和疾病机制有着重要翻译的起始以及一些其他的细胞机制和疾病机制有着重要关系。关系。;真核生物前体mRNA3端的多聚腺苷酸化包括两个步骤:1. 特异性的核苷酸内切酶在特异性的核苷酸内切酶在PolyA位点处进展断裂;位点处进展断裂;2. 腺苷酸聚合酶在断裂位点处添加腺苷酸聚合酶在断裂位点处添加PolyA尾巴,其主要标志尾巴,其主要标志 为为AATAAA或或ATTAAA两种序列,称为多聚腺苷酸信号两种序列,称为多聚腺苷酸信号 polyadenyl

14、ation signal,简称,简称PolyA信号序列,也称为信号序列,也称为 转录终止信号。转录终止信号。 在在3UTR区存在多个潜在区存在多个潜在PolyA位点,因此对位点,因此对PolyA位点位点的准确识别,对于预测基因构造、了解的准确识别,对于预测基因构造、了解mRNA的构成机制及的构成机制及某些疾病的分子机制具有宏大的作用。某些疾病的分子机制具有宏大的作用。;利用POLYAH预测分析转录终止信号 ;POLYAH在线页面;用POLYAH预测AC002390序列的转录终止信号的结果 ;四、启动子promoters;利用PromoterScan预测分析启动子区域 ;PromoterScan

15、在线网页;用PromoterScan预测AC002390序列的启动子区域的结果 ;第三节 蛋白质序列特征分析; 一、蛋白质的理化性质 二、蛋白质的亲水性或疏水性 三、蛋白质的跨膜区 四、信号肽signal peptide 五、蛋白质的卷曲螺旋coiled-coil;一、蛋白质的理化性质 蛋白质是由氨基酸组成的大分子化合物,对组蛋白质是由氨基酸组成的大分子化合物,对组成蛋白质的氨基酸进展理化性质的统计分析是对一成蛋白质的氨基酸进展理化性质的统计分析是对一个未知蛋白质进展分析的根底。蛋白质的理化性质个未知蛋白质进展分析的根底。蛋白质的理化性质包括蛋白质的分子量、氨基酸的组成、等电点、消包括蛋白质的

16、分子量、氨基酸的组成、等电点、消光系数、亲水性和疏水性、跨膜区、信号肽、翻译光系数、亲水性和疏水性、跨膜区、信号肽、翻译后修饰位点等。后修饰位点等。;利用ProtParam分析蛋白质的理化性质 ExPASyExpert Protein Analysis System是由瑞士生是由瑞士生物信息学中心维护,并与欧洲生物信息学中心物信息学中心维护,并与欧洲生物信息学中心EBI及蛋及蛋白质信息资源白质信息资源protein in formation resource,PIR组成组成Universal Protein Knowledgebase联盟。联盟。ExPASy数据库提供数据库提供了一系列蛋白质理

17、化分析工具,以便于检索未知蛋白质的理了一系列蛋白质理化分析工具,以便于检索未知蛋白质的理化性质,并基于这些理化性质鉴别未知蛋白质的类别,为后化性质,并基于这些理化性质鉴别未知蛋白质的类别,为后续实验提供协助。其中续实验提供协助。其中ProtParamphysico-chemical parameters of a protein sequence 就是计算氨基酸理化参就是计算氨基酸理化参数常用的在线工具。数常用的在线工具。其网址为:其网址为: /protparam/;ProtParam在线页面;用ProtParam分析G00016序列理化性质的结果 ;二、蛋白质的亲

18、水性或疏水性蛋白质的根本组成单元是氨基酸。蛋白质的根本组成单元是氨基酸。;蛋白质的亲水性或疏水性;利用ProtScale分析蛋白质的亲水性或疏水性 ;ProtScale在线页面;用ProtScale分析P02699序列疏水性结果的图形显示 ;三、蛋白质的跨膜区 生物膜所含的蛋白质叫膜蛋白,是生物膜功能的主要承生物膜所含的蛋白质叫膜蛋白,是生物膜功能的主要承当者。根据蛋白质分别的难易及在膜中分布的位置,膜蛋白当者。根据蛋白质分别的难易及在膜中分布的位置,膜蛋白根本可分为两大类:外在膜蛋白和内在膜蛋白。根本可分为两大类:外在膜蛋白和内在膜蛋白。 外在膜蛋白约占膜蛋白的外在膜蛋白约占膜蛋白的20%3

19、0%,分布在膜的内外,分布在膜的内外外表,主要在内外表,为水溶性蛋白,它经过离子键、氢键外表,主要在内外表,为水溶性蛋白,它经过离子键、氢键与膜脂分子的极性头部相结合,或经过与内在蛋白质的相互与膜脂分子的极性头部相结合,或经过与内在蛋白质的相互作用间接与膜结合;作用间接与膜结合; 内在膜蛋白约占膜蛋白的内在膜蛋白约占膜蛋白的70%80%,是双亲媒性分子,是双亲媒性分子,可不同程度的嵌入脂双层分子中。有的贯穿整个脂双层,两可不同程度的嵌入脂双层分子中。有的贯穿整个脂双层,两端暴露于膜的内外外表,这种类型的膜蛋白又称跨膜蛋白。端暴露于膜的内外外表,这种类型的膜蛋白又称跨膜蛋白。;蛋白质的跨膜区;利

20、用TMpred分析蛋白质的跨膜区 TMpred是是EMBnet开发的一个分析蛋白质跨膜区的在线开发的一个分析蛋白质跨膜区的在线工具,工具,TMpred基于对基于对TMbase数据库的统计分析来预测蛋白质数据库的统计分析来预测蛋白质跨膜区和跨膜方向。跨膜区和跨膜方向。TMbase来源于来源于Swiss-Prot库,并包含了每库,并包含了每个序列的一些附加信息,如:跨膜构造区域的数量、跨个序列的一些附加信息,如:跨膜构造区域的数量、跨膜构造域的位置及其侧翼序列的情况。膜构造域的位置及其侧翼序列的情况。TMpred利用这些信息利用这些信息并与假设干加权矩阵结合来进展预测。并与假设干加权矩阵结合来进展

21、预测。其网址为:其网址为: /software/TMPRED_form.html ;TMpred在线网页;用TMpred分析P51684序列所得到的能够的7个跨膜螺旋区 ;用TMpred分析P51684序列所得到的7个能够的跨膜螺旋区的相关性列表 ;用TMpred分析P51684序列所得到的7个能够的跨膜螺旋区的建议的跨膜拓扑模型 ;用TMpred分析P51684序列所得到的7个能够的跨膜螺旋区的图形显示结果 ;四、信号肽signal peptide 信号肽是指新合成多肽链中用于指点蛋白质跨膜转移信号肽是指新合成多肽链中用于指点蛋白质跨膜转移的末端通常为的末端通常为N

22、末端的氨基酸序列。信号肽中至少含末端的氨基酸序列。信号肽中至少含有一个带正电荷的氨基酸,中部有一个高度疏水区以经过有一个带正电荷的氨基酸,中部有一个高度疏水区以经过细胞膜。信号肽假说以为,编码分泌蛋白的细胞膜。信号肽假说以为,编码分泌蛋白的mRNA在翻译在翻译时首先合成的是时首先合成的是N末端带有疏水氨基酸残基的信号肽,它末端带有疏水氨基酸残基的信号肽,它被内质网膜上的受体识别并与之相结合。信号肽经由膜中被内质网膜上的受体识别并与之相结合。信号肽经由膜中蛋白质构成的孔道到达内质网内腔,随机被位于腔外表的蛋白质构成的孔道到达内质网内腔,随机被位于腔外表的信号肽酶水解,由于它的引导,新生的多肽就可

23、以经过内信号肽酶水解,由于它的引导,新生的多肽就可以经过内质网膜进入腔内,最终被分泌到胞外。质网膜进入腔内,最终被分泌到胞外。;蛋白质的前导肽leader Peptide;利用SignalP分析蛋白质的前导肽 SignalP是丹麦技术大学的生物序列分析中心开发的信是丹麦技术大学的生物序列分析中心开发的信号肽及其剪切位点检测的在线工具,该软件基于神经网络方号肽及其剪切位点检测的在线工具,该软件基于神经网络方法,用知信号序列的革兰氏阴性原核生物、革兰氏阳性原核法,用知信号序列的革兰氏阴性原核生物、革兰氏阳性原核生物及真核生物的序列分别作为训练集。生物及真核生物的序列分别作为训练集。SignalP预

24、测的是预测的是分泌型信号肽,而不是那些参与细胞内信号传送的蛋白。分泌型信号肽,而不是那些参与细胞内信号传送的蛋白。其网址为:其网址为: genome.cbs.dtu.dk/services/SignalP/;SignalP在线网页;用SignalP神经网络方法分析P05019序列前导肽的结果 ;五、蛋白质的卷曲螺旋coiled-coil 卷曲螺旋是蛋白质空间构造中的一种,它是由卷曲螺旋是蛋白质空间构造中的一种,它是由2 7个个螺旋相互缠绕而构成超螺旋构造的总称。卷曲螺旋区域螺旋相互缠绕而构成超螺旋构造的总称。卷曲螺旋区域普通由普通由7个氨基酸残基为单位组成,以个氨基酸残基为单位组成,以a、b、

25、c、d、e、f、g位置表示,其中位置表示,其中a和和d位置为疏水性氨基酸,而其他位置位置为疏水性氨基酸,而其他位置的氨基酸残基为亲水性。许多含有卷曲螺旋构造的蛋白质的氨基酸残基为亲水性。许多含有卷曲螺旋构造的蛋白质具有重要的生物学功能,例如基因表达调控中的转录因子。具有重要的生物学功能,例如基因表达调控中的转录因子。 含有卷曲螺旋构造最知名的蛋白质有原癌蛋白含有卷曲螺旋构造最知名的蛋白质有原癌蛋白oncoproteinc-fos和和jun,以及原肌球蛋白,以及原肌球蛋白tropomyosin。;利用COILS分析蛋白质的卷曲螺旋 COILS是由是由Swiss EMBNet维护的预测卷曲螺旋的在

26、维护的预测卷曲螺旋的在线工具,该软件是基于线工具,该软件是基于Lupas算法,将查询序列在一个由算法,将查询序列在一个由知包含卷曲螺旋蛋白构造的数据库中进展搜索,同时也将知包含卷曲螺旋蛋白构造的数据库中进展搜索,同时也将查询序列与包含球状蛋白序列的查询序列与包含球状蛋白序列的PDB次级库进展比较,并次级库进展比较,并根据两个库搜索得分决议查询序列构成卷曲螺旋的概率。根据两个库搜索得分决议查询序列构成卷曲螺旋的概率。COILS也可以下载到本地进展运算。也可以下载到本地进展运算。其网址为:其网址为:/software/COILS_form.html;COILS在线网页;用

27、COILS分析GO45_HUMAN卷曲螺旋的图形显示结果 ;用COILS分析GO45_HUMAN卷曲螺旋的文本显示结果 ;第四节 序列综合分析软件包;一、Vector NTI软件包 Vector NTI是由是由Informax公司开发的一种高度公司开发的一种高度集成、功能齐全的分子生物学运用软件,可以对集成、功能齐全的分子生物学运用软件,可以对DNA、蛋白质分子进展分析和操作。、蛋白质分子进展分析和操作。 有关有关Vector NTI更多的信息可以登录更多的信息可以登录Vector NTI的官方网查询:的官方网查询: lifetechnologies/; Vector NTI主要功能1. DNA序列的开放阅读框、序列方式、功能区搜索、序列的开放阅读框、序列方式、功能区搜索、限制酶图谱、蛋白质翻译。限制酶图谱、蛋白质翻译。2. PCR引物、测序引物、杂交探针的设计和评价。引物、测序引物、杂交探针的设计和评价。3. DNA测序片断的拼接。测序片断的拼接。4. 4. 同源比较和系统发育树构建。同源比较和系统发育树构建。5. 5. 蛋白质构造预测蛋白质构造预测 三维构造、化学键、翻译后三维

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论