第四章核酸序列-2_第1页
第四章核酸序列-2_第2页
第四章核酸序列-2_第3页
第四章核酸序列-2_第4页
第四章核酸序列-2_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章第四章 DNA序列分析序列分析2主要内容主要内容4.1 引言引言4.2 序列的一般分析序列的一般分析4.3 基因预测与鉴定基因预测与鉴定4.4 非编码区分析与调控元件识别非编码区分析与调控元件识别4.3 基因预测与鉴定基因预测与鉴定4功能基因组学(功能基因组学(Functional genomicsFunctional genomics):利利用用结构基因组学结构基因组学研究所得的各种信息在基因组研究所得的各种信息在基因组水平上研究水平上研究编码序列编码序列及及非编码序列非编码序列生物学功能生物学功能的学科。的学科。 基因组学(基因组学(genomics)genomics):研究生物体全

2、基因组研究生物体全基因组DNADNA的序列和属性的学科。包括的序列和属性的学科。包括结构基因组学结构基因组学和和功能基因组学功能基因组学两个方面。两个方面。5一、基因预测方法一、基因预测方法 基因预测方法包括两类:基因预测方法包括两类:1 1 从基因组序列入手,识别基因从基因组序列入手,识别基因2 2 基于表达序列标签(基于表达序列标签(ESTEST)的基因鉴定的基因鉴定从整体到局部从整体到局部从局部到整体从局部到整体目前还没有一个基因预测工具可以完全正确地预测一目前还没有一个基因预测工具可以完全正确地预测一个基因组中的所有基因个基因组中的所有基因(Mathe et al. 2002)6二、从

3、基因组序列预测新基因二、从基因组序列预测新基因从基因组预测新基因的方法大体上又可分为两类:从基因组预测新基因的方法大体上又可分为两类: 1)从头预测法)从头预测法 2)相似性比较预测法)相似性比较预测法随着随着HGPHGP和其他模式生物基因组测序计划的进行,大和其他模式生物基因组测序计划的进行,大量的基因组序列数据随之产生,接下来一个重要的量的基因组序列数据随之产生,接下来一个重要的课题就是如何从这些序列中找到可能具有编码产物课题就是如何从这些序列中找到可能具有编码产物的功能基因。的功能基因。7概念:概念:是指直接利用基因以及外显子是指直接利用基因以及外显子/ /内含子结构内含子结构在基因序列

4、上已知的一些统计特征或信号,在基在基因序列上已知的一些统计特征或信号,在基因组序列中直接预测基因的位置与组成。因组序列中直接预测基因的位置与组成。方法及常用软件:1 以隐马尔可夫模式为基础的算法:以隐马尔可夫模式为基础的算法:GENSCAN、Genie、HMMgene、Veil2 以神经网络为基础的算法:以神经网络为基础的算法:Grail 、GrailEXP_Perceval3 以决策树为基础的算法:以决策树为基础的算法:MZEF、MZEF-SPC4 整合预测方法:整合预测方法: Fgene H5 其它算法:其它算法:GeneID、GeneVeiw1 1 从头预测(从头预测(ab initio

5、 prediction ):8GENSCAN基因预测程序基因预测程序GENSCANGENSCAN是美国麻省理工大学是美国麻省理工大学( (Massachusetts Institute of Technology,缩写缩写:MIT ) )的的Christopher Christopher BurgeBurge于于19971997年开发成功的人类(包括脊椎动物)基年开发成功的人类(包括脊椎动物)基因预测软件。因预测软件。20012001年又推出了升级版预测软件年又推出了升级版预测软件GenomescanGenomescan。后者整合了后者整合了从头预测从头预测和和相似性搜索相似性搜索两种两种观测

6、方法。观测方法。( /GENSCAN.html )GENSCANGENSCAN是目前是目前“从头从头”预测算法中应用最广泛,预测算法中应用最广泛,尤其是对基因编码区预测最为成功的软件之一。尤其是对基因编码区预测最为成功的软件之一。NCBINCBI开发的参考序列(开发的参考序列(RefSeqRefSeq)数据库采用数据库采用GenomescanGenomescan,而而EMBLEMBL开发的开发的ENSEMBLENSEMBL采用采用GENSCANGENSCAN9目前目前Christopher BurgeChristopher Burge还开发了适用于果蝇、拟

7、南芥、还开发了适用于果蝇、拟南芥、玉米的专用版本。对于非版本专用的物种,其预测准确率玉米的专用版本。对于非版本专用的物种,其预测准确率会下降。会下降。用脊椎动物版本进行基因预测的准确率用脊椎动物版本进行基因预测的准确率 101 1 基因数目基因数目可能将两个基因的外显子归并到一个基因,或者相反。可能将两个基因的外显子归并到一个基因,或者相反。2 2 物种物种GENSCAN主要是针对人类(或脊椎动物)基因组序列设计,主要是针对人类(或脊椎动物)基因组序列设计,用于其他物种准确性可能降低。目前有适用于果蝇、玉米、拟用于其他物种准确性可能降低。目前有适用于果蝇、玉米、拟南芥菜、秀丽线虫的版本。南芥菜

8、、秀丽线虫的版本。原核生物和酵母的基因预测,建议原核生物和酵母的基因预测,建议用用Glimmer或或GeneMark软件。软件。3 根据测试集得到的准确性指标可能与实际的情况不同根据测试集得到的准确性指标可能与实际的情况不同4 对各个结构元件的预测准确性不同对各个结构元件的预测准确性不同总体来说,对中间外显子预测的准确性高于起始外显子和末端总体来说,对中间外显子预测的准确性高于起始外显子和末端外显子,外显子的准确性高于外显子,外显子的准确性高于polyA或启动子。对或启动子。对启动子启动子的预的预测较不可靠,建议用测较不可靠,建议用NNPPprogram 预测启动子。预测启动子。5 植物基因植

9、物基因剪接位点剪接位点的预测建议用的预测建议用Splice Predictor程序程序GENSCAN可能出现的误差:可能出现的误差:11以以人类基因组序列人类基因组序列Z83819 为例进行为例进行基因预测。基因预测。中国生物信息中心(中国生物信息中心(BiosinoBiosino )也提供了也提供了GENSCANGENSCAN的的WebWeb基因预测界面基因预测界面/pages/lab.htm应用实例应用实例12步骤步骤1 进入页面,设置参数进入页面,设置参数1 1)序列来源物种;)序列来源物种;2 2)显示次优外显子(推荐)显示次优外显子(推荐0.

10、10.1););3 3)输出结果)输出结果13步骤步骤2 上传序列文件或粘贴序列上传序列文件或粘贴序列可以可以TXT文本格式或文本格式或Fasta格式(格式(*.fasta) 14步骤步骤3 点击按钮点击按钮Run GENSCAN,开始开始GENSCAN的预测程序,的预测程序,获得预测结果获得预测结果预测的基因和预测的基因和外显子统计结外显子统计结果果两种结果表示两种结果表示形式:形式:1)文字结果)文字结果2)图形化结果)图形化结果15将预测出的基将预测出的基因翻译成蛋白因翻译成蛋白序列序列16文字部分:文字部分:1 1)预测出的所有外显子详细)预测出的所有外显子详细统计信息统计信息2 2)

11、开放阅读框序列及其所编码的氨基酸序列)开放阅读框序列及其所编码的氨基酸序列3 3)第三部分是对第一部分结果中出现的统计)第三部分是对第一部分结果中出现的统计参数进行解释参数进行解释图形结果:图形结果:PDFPDF格式和格式和PS PS 格式格式17Z83819Z83819预测结果预测结果PDFPDF18表头说明表头说明19Z83819-Reversed Z83819-Reversed 预测结果预测结果20如果对原核生物及酵母的基因组进行预测,建议采用如果对原核生物及酵母的基因组进行预测,建议采用Glimmer或或GeneMark程序程序http:/genemark.biology.gatech

12、.edu/GeneMark/或或NCBI站点提供的站点提供的Glimmer和和GeneMark/genomes/MICROBES/glimmer_3.cgi/genomes/MICROBES/genemark.cgi21利用相似性搜索的方法来发现新基因是目前国际上另利用相似性搜索的方法来发现新基因是目前国际上另一个非常通用且成熟的方法。一个非常通用且成熟的方法。2 相似性比较预测比较基因组学:比较基因组学:就是直接通过比较各个不同物种就是直接通过比较各个不同物种之间的基因组序列来对那些进化上

13、保守的基因进之间的基因组序列来对那些进化上保守的基因进行研究。行研究。通过对不同物种来源的基因组序列进行相似性比通过对不同物种来源的基因组序列进行相似性比较,以实现较,以实现同源新基因同源新基因的快速识别是的快速识别是比较基因组比较基因组学学的一个重要研究方向。的一个重要研究方向。22有有2 2个重要的软件可实现全基因组比较预测个重要的软件可实现全基因组比较预测1 1) SGP-1SGP-1SGP-1SGP-1是德国是德国Max PlanckMax Planck研究所生物信息学小组开发的同研究所生物信息学小组开发的同源基因预测程序。源基因预测程序。http:/jakob.genetik.uni

14、-koeln.de/bioinformatik/software/sgp-1/2)VISTA2)VISTAVISTAVISTA是美国伯克利国家实验室开发的一个基因比对工具。是美国伯克利国家实验室开发的一个基因比对工具。/vista/index.shtml23主要区别:主要区别:SPG-1SPG-1能同时对基因组序列进行外显子预测后再进行同源性能同时对基因组序列进行外显子预测后再进行同源性比较。比较。尤其适用于比较两个完全未知的基因组序列尤其适用于比较两个完全未知的基因组序列。VISTAVISTA则要求提供一个所谓的基础物种的基因组序列结构信则要求提供一个

15、所谓的基础物种的基因组序列结构信息,然后在此基础上来预测其他物种的基因组序列中高度息,然后在此基础上来预测其他物种的基因组序列中高度同源的基因结构。同源的基因结构。尤其适用于预测已知某个物种的基因在尤其适用于预测已知某个物种的基因在其它物种基因组中的同源基因其它物种基因组中的同源基因。24SGP-1SGP-1主页主页25VISTAVISTA主页主页26VISTAVISTA比较预测页面比较预测页面27除了基因组序列,目前最容易得到的也是信息量最除了基因组序列,目前最容易得到的也是信息量最大的基因鉴定数据来源就是各个物种的表达序列标大的基因鉴定数据来源就是各个物种的表达序列标签(签(ESTEST)

16、数据库。数据库。这一方法又称为基因的这一方法又称为基因的电子克隆电子克隆或电子延伸。或电子延伸。三、从三、从EST鉴定新基因鉴定新基因概念:概念: EST(EspressedEST(Espressed Sequence Tag Sequence Tag,表达序列标签表达序列标签) )指在进行指在进行cDNAcDNA序列测定过程中所获得的序列片段(序列测定过程中所获得的序列片段(200-600200-600bpbp) )。它们它们代表了代表了mRNAmRNA序列的一部分,也代表了相应基因的表达情况。序列的一部分,也代表了相应基因的表达情况。 28其基本过程是:其基本过程是:将待分析的序列(称为种

17、子序列)用将待分析的序列(称为种子序列)用BlastBlast搜索搜索ESTEST数据库数据库,选择与种子序列具有较高同源性的选择与种子序列具有较高同源性的ESTEST序列(序列(一般要求在重一般要求在重叠叠4040个碱基范围内有个碱基范围内有9595以上同源性,称为匹配序列以上同源性,称为匹配序列)将匹配序列与种子序列装配成新生序列,此过程称为将匹配序列与种子序列装配成新生序列,此过程称为片片段重叠群分析段重叠群分析(contigcontig analysis) analysis)再以此新生序列作为种子序列重复上述过程,直至没再以此新生序列作为种子序列重复上述过程,直至没有新的匹配序列入选,

18、从而有新的匹配序列入选,从而生成最后的新生序列生成最后的新生序列。29重叠群(重叠群(contigcontig):):是两个或两个以上的是两个或两个以上的ESTEST序列或序列或转录序列组成的一致序列(转录序列组成的一致序列(consensus sequence)consensus sequence)对于一个新的序列,如何进行新基因的鉴定,我们必须对于一个新的序列,如何进行新基因的鉴定,我们必须首先考虑的几个问题:首先考虑的几个问题:1 1)该序列是否可能为新基因?)该序列是否可能为新基因?2 2)该序列是否被包含在某个)该序列是否被包含在某个ESTEST重叠群?重叠群?3 3)如何进行)如何

19、进行ESTEST重叠群的拼接和组装?重叠群的拼接和组装?4 4)拼接后的一致序列是否为全长)拼接后的一致序列是否为全长cDNAcDNA? ?301 1)该序列是否可能为新基因?)该序列是否可能为新基因?采用相似性搜索的方法来考察新序列代表的基因是否已采用相似性搜索的方法来考察新序列代表的基因是否已被他人测序并存储至被他人测序并存储至GenBankGenBank数据库中。一般地,应同时数据库中。一般地,应同时在核酸和氨基酸水平上进行相似性搜索。在核酸和氨基酸水平上进行相似性搜索。如果至少有一个匹配结果满足匹配长度大于如果至少有一个匹配结果满足匹配长度大于100100bpbp,序列序列一致性大于一

20、致性大于9595,匹配长度占新序列总长度的,匹配长度占新序列总长度的8080以上,以上,说明该序列代表的基因序列已被收录入说明该序列代表的基因序列已被收录入GenBankGenBank中。中。312 2)该序列是否被包含在某个)该序列是否被包含在某个ESTEST重叠群?重叠群?由于目前基于由于目前基于ESTEST的计算机克隆是在的计算机克隆是在ESTEST重叠群基础上进重叠群基础上进行的,因此如果一个实验中所获得序列在行的,因此如果一个实验中所获得序列在ESTEST数据库中找数据库中找不到任何部分相似的不到任何部分相似的ESTEST,那么就意味着无法构建相应的那么就意味着无法构建相应的ESTE

21、ST重叠群,从而也不能进一步进行计算机克隆。重叠群,从而也不能进一步进行计算机克隆。由于由于ESTEST数据库海量增长,这种可能性很小。数据库海量增长,这种可能性很小。两种方法建立重叠群两种方法建立重叠群(1 1)利用)利用BlastnBlastn直接搜索直接搜索ESTEST,对于获得的对于获得的ESTEST重叠群可重叠群可利用拼接程序进行人工拼接,得到一致序列。利用拼接程序进行人工拼接,得到一致序列。(2 2)直接利用)直接利用UniGeneUniGene数据库的衍生数据库如数据库的衍生数据库如GenexpressGenexpress IndexIndex、GeneNestGeneNest系

22、统、系统、TIGRTIGR的的THCTHC等,将获等,将获得的得的ESTEST重叠群自动拼接得到一致序列。重叠群自动拼接得到一致序列。323 3)如何进行)如何进行ESTEST重叠群的拼接和组装?重叠群的拼接和组装?(1)(1)人工拼接程序:人工拼接程序:CAP(contigCAP(contig assembly program) assembly program)该程序是中国人所编制的序列拼接工具,最早出于该程序是中国人所编制的序列拼接工具,最早出于19921992年。目前的版本是年。目前的版本是CAP4CAP4,已成为世界上许多测序已成为世界上许多测序中心首选的序列拼接工具。中心首选的序列

23、拼接工具。 http:/pbil.univ-lyon1.fr/cap3.php(2)(2)自动拼接程序:自动拼接程序:GeneNestGeneNest系统,系统,http:/genenest.molgen.mpg.de/33CAP3CAP3拼接程序拼接程序序列格式要求:序列格式要求:1 1)必须为)必须为FastaFasta格式格式2 2)序列中不能有数字和)序列中不能有数字和空格。空格。34拼接结果拼接结果35双序列比对结果,两条序列双序列比对结果,两条序列100100匹配匹配364 4)拼接后的一致序列是否为全长)拼接后的一致序列是否为全长cDNAcDNA? ?确定全长确定全长cDNAcD

24、NA的策略大致包括对一致序列进行的策略大致包括对一致序列进行转录起始转录起始位点区、第一个起始密码子、位点区、第一个起始密码子、KozakKozak规则、开放阅读框、规则、开放阅读框、终止密码子和终止密码子和33端端UTRUTR中的中的polyApolyA加尾信号加尾信号等的基因特征等的基因特征序列的确认。序列的确认。KozakKozak规则规则:该规则是基于真核基因结构的分析统计结果。:该规则是基于真核基因结构的分析统计结果。第一个起始密码子第一个起始密码子ATGATG侧翼序列的碱基分布所满足的统计规律,侧翼序列的碱基分布所满足的统计规律,若第一个若第一个ATGATG中的碱基中的碱基A A、

25、T T、G G分别标为分别标为1 1、2 2、3 3位,则位,则KozakKozak规规则可描述如下:第则可描述如下:第4 4位的偏好碱基为位的偏好碱基为G G;ATGATG的的55端约端约1515bpbp范围的侧翼序列内不含碱基范围的侧翼序列内不含碱基T T;在在-3-3,-6-6,和,和-9-9位置,位置,G G为偏为偏好碱基;除好碱基;除-3-3,-6-6,和,和-9-9位,在整个侧翼序列区,位,在整个侧翼序列区,C C是偏好碱是偏好碱基。基。4.4 非编码区分析与调非编码区分析与调控元件识别控元件识别38真核生物基因序列中,绝大部分序列是非编码序真核生物基因序列中,绝大部分序列是非编码

26、序列。人类基因组中,仅有列。人类基因组中,仅有3 3的序列为编码序列。的序列为编码序列。非编码序列并非没有生物意义,相反这部分序列非编码序列并非没有生物意义,相反这部分序列中蕴藏着大量的信息,这些信息主要是与中蕴藏着大量的信息,这些信息主要是与基因的基因的表达调控表达调控密切相关,因而对这部分序列的研究吸密切相关,因而对这部分序列的研究吸引着越来越多的生物学家参与其中。引着越来越多的生物学家参与其中。39真核生物基因表达在时间和空间上的有序性已吸引越来真核生物基因表达在时间和空间上的有序性已吸引越来越多的科学家,并成为越多的科学家,并成为2020世纪世纪9090年代以来分子生物学研年代以来分子

27、生物学研究最为活跃的领域之一。究最为活跃的领域之一。真核生物真核生物基因调控基因调控瞬时调控瞬时调控(可逆调控),相当于原核(可逆调控),相当于原核细胞对环境条件变化作出的反应。细胞对环境条件变化作出的反应。发育调控发育调控(不可逆调控),是真核基(不可逆调控),是真核基因调控的精髓部分,它决定了核细胞因调控的精髓部分,它决定了核细胞生长、分化、发育的全部过程。生长、分化、发育的全部过程。40启动子启动子是指确保转录精确而有效地起始的是指确保转录精确而有效地起始的DNADNA序列。序列。基因调控按其发生时间的先后顺序以可分为:转录水基因调控按其发生时间的先后顺序以可分为:转录水平调控、转录后水

28、平调控、翻译水平调控和蛋白质加平调控、转录后水平调控、翻译水平调控和蛋白质加工水平调控。工水平调控。基因组序列中启动子的存在与否以及含有何种启动基因组序列中启动子的存在与否以及含有何种启动子对于了解相应基因的转录调控具有重要意义。子对于了解相应基因的转录调控具有重要意义。某些某些保守的功能区保守的功能区如如启动子启动子、增强子增强子、转录因子结转录因子结合位点合位点、内含子与外显子、内含子与外显子剪接位点剪接位点等都可通过生物等都可通过生物信息学技术分析。信息学技术分析。41重复序列重复序列是指在基因组中不同位置出现的相同或对是指在基因组中不同位置出现的相同或对称性片段,相同包括同一个基因组中

29、相似的片段,称性片段,相同包括同一个基因组中相似的片段,也可以是不同物种间基因组中的相似片段。也可以是不同物种间基因组中的相似片段。现象:从原核生物到真核生物,其基因组中现象:从原核生物到真核生物,其基因组中的重复序列呈递增趋势。的重复序列呈递增趋势。功能:重复序列主要参与到功能:重复序列主要参与到顺式调控元件顺式调控元件、表表观遗传修饰观遗传修饰、染色质的重建染色质的重建等重要程序中。等重要程序中。一、基因组重复序列分析一、基因组重复序列分析42真核生物中各种重复序列所占比例很高。真核生物中各种重复序列所占比例很高。RepBase,是真核生物是真核生物DNADNA中重复序列数据库,由中重复序

30、列数据库,由遗传信息研究所(遗传信息研究所(Genetic Information Research Genetic Information Research InstituteInstitute,GIRI)GIRI)维护。维护。/repbase/index.htmlCensor,是是RepBaseRepBase提供的重复序列检查工具。提供的重复序列检查工具。著名的著名的RepeatMasker程序就是基于该数据库工作程序就是基于该数据库工作的重复序列分析工具。的重复序列分析工具。http:/ftp,/cgi-

31、bin/repeatmasker43RepbaseRepbase数据库主页数据库主页44CensorCensor主页主页 /censor/45启动子(启动子(promoterpromoter):DNADNA分子上能与分子上能与RNARNA聚合酶结合聚合酶结合并形成转录起始复合体的区域,在许多情况下,还包并形成转录起始复合体的区域,在许多情况下,还包括促进这一过程的调节蛋白的结合位点。括促进这一过程的调节蛋白的结合位点。二、基因启动子分析二、基因启动子分析启动子是基因(启动子是基因(genegene)的一个组成部分,控制基因表达的一个组成部分,控制基因表

32、达(转录)的起始时间和表达的程度。启动子就像(转录)的起始时间和表达的程度。启动子就像“开开关关”,决定基因的活动。启动子本身并不控制基因活动,决定基因的活动。启动子本身并不控制基因活动,而是通过而是通过转录因子转录因子(一种蛋白质)结合而控制基因活动(一种蛋白质)结合而控制基因活动的。转录因子就像一面的。转录因子就像一面“旗子旗子”,指挥着酶,指挥着酶 (RNA(RNA聚合聚合酶酶polymerases) polymerases) 的活动。的活动。 46EPD(EukaryoticEPD(Eukaryotic Promoter Database Promoter Database),),真核生物启动子数据库真核生物启动子数据库http:/www.epd.isb-sib.ch/已注释的非冗余真核生物已注释的非冗余真核生物RNAR

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论