版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五章核酸序列分析第五章核酸序列分析生命之书的阅读1、对生物个体的阅读
2、同种生物不同个体之间的比较分析3、不同物种比较
更重要的是找出差异的结果核酸序列分析课件一段核酸序列上可能有什么?一段核酸序列上可能有什么?我们能用生物信息学对核酸序列进行哪些分析?在DNA序列中那些是基因?外显子?内含子?这些基因编码什么蛋白?这些基因有那些不同,不同会产生什么效果?会不会引起蛋白的改变?这一段核酸序列上有没有特殊的功能位点?物种之间有什么差距?这段序列中是否有重复序列我们能用生物信息学对核酸序列进行哪些分析?在DNA序列中那些基因识别基因识别是生物信息学领域里的一个重要研究内容基因识别问题,在近几年受到广泛的重视当人类基因组研究进入一个系统测序阶段时,急需可靠自动的基因组序列翻译解释技术,以处理大量已测定的但未知功能或未经注释的DNA序列基因识别基因识别是生物信息学领域里的一个重要研究内容
基因识别——使用计算机手段识别DNA序列上的具有生物学特征的片段,其对象主要是蛋白质编码基因,也包括其他具有一定生物学功能的因子,如RNA、MicroRNA基因等一些非编码基因,基因识别是生物信息学领域里的一个重要研究内容。 基因识别——使用计算机手段识别DNA序列上的具有生物学特征基因语言的特点真核生物中有很多重复序列,拷贝在几十几百到几万。通常是不编码的序列真核生物基因是不连续的真核生物的启动子和增强子真核生物的基因有一些特定的模式由于进化的原因,基因序列比较保守核酸序列分析课件基因预测的基本原则1、
如果一个序列中某一区域出现重复序列,该区域不大可能出现在编码区域。2、
如果某一片段与其它基因或基因产物有序列相似性,该片段是外显子的可能性极大。3、
一段序列上存在统计的规则性,表现为
密码子偏好,是蛋白编码区最明显的标志。4、与模板模式相符可能指出DNA上功能位点的位置。
基因预测的基本原则密码子偏好
编码蛋白对某一个物种有偏好使用某一密码子的现象,称为密码子偏好。
密码子偏好
编码蛋白对某一个物种有偏好使用某一进行基因预测的基本方法
1、遮蔽重复序列
寻找DNA序列中基因不可能出现的区域,
并将此遮蔽起来;
2、进行序列对比寻找相似性
将预测的DNA与数据库中的DNA数据aligment,
寻找保守区域;
3、寻找功能性位点
寻找起始密码、终止密码和剪接位点等;
4、找出编码区
将全部收集到的信息汇总成总体上尽可
能连贯的谱图。
5、DNA翻译进行基因预测的基本方法
1、遮蔽重复序列
寻找DN神经网络系统
大多数进行预测的软件都采用了神经网络系统,赋予软件“学习”的功能,在应用之前必须经过输入一定的训练集的一个学习的过程,所以在使用预测工具时一定注意该工具的训练集是什么。
神经网络系统
大多数进行预测的软件都采用了神经网络系1.原核基因组的特点长开放阅读框简单的基因结构高基因密度GC含量具有操纵子结构1.原核基因组的特点长开放阅读框转录起始位点起始密码子终止密码子转录终止位点5’启动区5’UTR开放阅读框3’UTR终止区3’原核基因的典型结构GC含量(GCcontent):
不同原核生物中,GC含量从25%~75%。基因水平转移(horizontalgenetrasfer)许多细胞基因组表现具有不同GC含量的区域的组合物,这些区域反映了细菌的进化历史。转录起始位点起始密码子终止密码子转录终止位点5’启动区5’U非翻译区域(untranslatedregions,UTR)编码区域两端的DNA,有一部分被转录,但是不被翻译,这一部分称为非翻译区域5’UTR---基因上游区域的非翻译区域3’UTR---基因下游区域的非翻译区域非翻译区域(untranslatedregions,UT对于任何给定的核酸序列(单链DNA或mRNA),根据密码子的起始位置,可以按照三种方式进行解释。例如,序列ATTCGATCGCAA这三种阅读顺序称为阅读框(readingframes)CAAAATTCGATCGATTCGATCGCAAATTCGATCGCA(1)(3)(2)对于任何给定的核酸序列(单链DNA或mRNA),根据密码子的一个开放阅读框(ORF,openreadingframe)是一个没有终止编码的密码子序列。原核基因识别任务的重点是识别开放阅读框,或者说识别长的编码区域。一个开放阅读框(ORF,openreadingframe形成6个开放读码框
由于氨基酸是由三联密码子编码的,因此DNA序列就包含三个不同的开放读码框,取决于从第一、第二或第三位核苷酸开始(第四位和第一位同框)。而双链DNA的两条链都可以转录RNA,后者翻译蛋白质。因此,一个DNA序列及其互补链可以有6个不同的读码框(readingframes)。形成6个开放读码框2.真核基因识别问题真核基因远比原核基因复杂:一方面,真核基因的编码区域是非连续的,编码区域被分割为若干个小片段。另一方面,真核基因具有更加丰富的基因调控信息,这些信息主要分布在基因上游区域。
2.真核基因识别问题真核基因远比原核基因复杂:真核基因组特点:规模庞大——人类基因组3×109bp
大肠杆菌基因组5×107bp巨大的非编码序列复杂的基因结构启动区5’UTR外显子内含子外显子内含子内含子5’外显子3’UTR终止区3’转录位点起始密码子终止密码子剪切给体位点剪切受体位点真核基因组特点:启动区5’UTR外显子内含子外显子内含子内含复杂的基因转录调控方式内含子GT----AC规则CpG岛真核生物基因组GC含量没有原核生物差异那么明显.但在人基因5‘端有CpG岛,大约有45,000这样的岛,有一半和持家基因有关。等值区可变剪接(alternativeesplicing)密码子使用偏性复杂的基因转录调控方式cDNA序列基因组序列蛋白质序列翻译CodonbiasGCContent酶切位点引物设计编码区预测基因结构分析选择性剪切SNP序列比对功能注释KEGGGO系统发育树蛋白质理化性质二级结构预测结构域分析重要信号位点分析三级结构预测cDNA序列蛋白质序列翻译Codonbias编码区预测基因contents1.分子质量、碱基组成、碱基分布、序列转换、核酸序列基本分析2.限制性酶切分析3.克隆测序分析4.测序中载体序列的识别与去除5.核酸序列拼接6.核酸序列的电子延伸7.开放阅读框(ORF)分析8.基因组序列编码区/内含子结构分析9.CpG岛分析10.cDNA和GenomicDNA比对11.基因启动子分析contents1.分子质量、碱基组成、碱基分布、序列转换进行序列分析也需要一些工具,这些工具包括在线工具和本地化工具。在线工具资源可以通过看资料、读相关文章获得(如前面提到的“核酸研究”上的在线服务专辑),也可以利用搜索工具(google等)到网上搜寻或到论坛询问。本地化工具有免费的也有收费的,免费的一般可以从网上下载。其中,收录、介绍了大量生物软件及生物软件的使用方法,同时还有一些在线分析工具。进行序列分析也需要一些工具,这些工具包括在线工具和本地化工具核酸序列的分子质量、碱基组成、碱基分布等分析序列转换反向序列,互补序列,反向互补序列,显示双良,转化为RNA,转换为蛋白质可以通过一些常用软件如:DNASTAR,Bioedit,Genetool、DNAStar等进行。下面我们以小鼠SOD1基因为例,利用DNAMAN软件进行上述分析。1.分子质量、碱基组成、碱基分布、序列转换酸序列基本分析核酸序列的分子质量、碱基组成、碱基分布等分析序列转换1.分以DNAMAN软件为例以DNAMAN软件为例打开序列打开序列展示序列:Sequence---DisplaySequence进行序列分析时,经常需要对DNA序列进行各种变换,如反向序列、互补序列、互补反向序列、显示DNA双链、转换为RNA序列等。展示序列:Sequence---DisplaySequen得到的结果序列基本信息具体序列显示转换后的不同序列得到的结果序列基本信息具体序列显示转换后的不同序列2.限制性酶切分析限制型酶切分析是分子生物学实验中日常工作之一。限制酶数据库提供了较全面的限制酶相关信息地址为:/rebase/rebase.html大多数分子生物学软件都具有限制性酶切分析功能,完全可以轻松地实现限制性酶切分析功能,这方面的软件如:DNAMAN、Bioedit、DNAStar软件包等。2.限制性酶切分析限制型酶切分析是分子生物学实验中日常工作限制性酶切位点
一种能识别特殊,短核苷酸序列,并在DNA的某些位点上切割的蛋白质。细菌包含了400种这样的酶,能识别和切割100种以上不同的DNA序列。
如:EcoRI识别序列GAATTCGTTAAC限制性酶切位点一种能识别特殊,短核苷酸序列,并限制酶数据库网页截图输入内切酶的名称,可查询其识别序列及酶切位点限制酶数据库网页截图输入内切酶的名称,可查询其识别序列及酶切以DNAMAN为例载入序列以DNAMAN为例载入序列目标DNA默认为线状,若选择“环状”,则出现的酶切图谱为环状。目标DNA默认为线状,若选择“环状”,则出现的酶切图谱为环状在“酶文件”、“全选”、“长度”及“末端”等选项的选择都完成后→“完成”。可选“DNase”或“DNA内切酶”选择酶在“酶文件”、“全选”、“长度”及“末端”等选项的选择都完甲基化情况分析结果甲基化情况分析结果以线状图示酶切位点以环状图示酶切位点以线状图示酶切位点以环状图示酶切位点每种酶的单酶切电泳模拟图每种酶的单酶切电泳模拟图2.以BioEdit软件为例碱基组成序列转换ORF的查找翻译成相对应的蛋白质内切酶的识别2.以BioEdit软件为例碱基组成序列转换ORF的查找翻译参数选择区参数选择区显示序列中的酶切位点显示序列中的酶切位点显示内切酶识别的位置显示序列中不存在的内切酶显示内切酶识别的位置显示序列中不存在的内切酶核酸序列分析课件核酸序列分析课件3.克隆测序分析克隆测序分析是分子生物学实验日常操作之一,一般情况下单次测序将产生300-500bp的序列,或800-900bp的序列。将测序峰图识别为序列的过程称为碱基读出(basecalling)。送交专业公司进行测序的结果返回后需要对所测序列进行一系列后续分析,如测序峰图的查看和载体序列的去除及序列装配等过程。当然,服务较好的测序公司后续工作做的也较好。一般地,单次测序的正确率在500bp左右。3.克隆测序分析克隆测序分析是分子生物学实验日常操作之一,测序峰图查看为了核实测序的准确性,往往需要对测序峰文件进行直接分析。Windows环境下最简单的峰图查看程序是澳大利亚的Chromas.exe程序,这是一个专业程序,运行快、操作简单。其它的软件还有BioEdit和DNAMAN等也都具有该功能。测序峰图查看为了核实测序的准确性,往往需要对测序峰文件进行直Chromas.exe查看测序峰图打开.ab1文件。Chromas.exe查看测序峰图打开.ab1文件。开始一段序列的信号很杂乱,几乎难以辨别,主要是因为残存的染料单体造成的干扰峰所致。该干扰峰和正常序列峰重叠在一起;另外,测序电泳开始阶段电压有一个稳定期,所以经常有20-50bp的紧接着引物的片段读不清楚,有时甚至更长。开始一段序列的信号很杂乱,几乎难以辨别,主要是因为残存的染料可输出为.txt的文本格式文件。可输出为.txt的文本格式文件。DNAMAN查看测序峰图DNAMAN查看测序峰图调节按钮导出序列调节按钮导出序列测序峰图导出的文本测序峰图导出的文本再“载入序列”→“选定项目”后就可以直接载入软件中分析!再“载入序列”→“选定项目”后就可以直接载入软件中分析!Bioedit查看测序峰图调节按钮选择“copyFastaformatted”,相当于将文件中的序列以Fasta格式复制,可黏贴到记事本中。Bioedit查看测序峰图调节按钮选择“copyFasta4.测序中载体序列的识别与去除许多数据库中收集了常用的测序载体序列,使用Blast程序对此类数据库进行相似性分析即可得知目的序列中是否含有载体序列。如果是,在对测序数据进行进一步分析之前必须将载体序列去除。此过程虽然很简单,在核酸序列数据库中仍然有一些序列含有载体序列污染。
NCBI的载体识别程序/VecScreen/VecScreen.html
EMBL的载体识别程序http://www.ebi.ac.uk/blastall/vectors.html4.测序中载体序列的识别与去除许多数据库中收集了常用的测序NCBI中载体分析服务网页截图NCBI中载体分析服务网页截图输入序列输入序列核酸序列分析课件发现载体序列发现载体序列EMBL中载体分析服务网页截图EMBL中载体分析服务网页截图结果结果5.核酸序列拼接通过2个及2个以上测序反应获得的序列都要拼接成一个完整的序列,实验室小规模测序获得的各序列可以通过常规分子生物学软件非常容易地拼接到一起,形成一条完整的序列,也即形成一条contig。这类软件包括:DNAMAN、DNASTAR、Genetool等。5.核酸序列拼接通过2个及2个以上测序反应获得的序列都要拼以DNAMAN软件为例:序列拼接待拼接序列显示区以DNAMAN软件为例:序列拼接待拼接序列显示区某次测序的结果有两个序列,将其拼成一条。某次测序的结果有两个序列,将其拼成一条。拼接结果拼接结果导出的是拼接后的序列导出的是拼接后的序列序列拼接在线服务核酸在线拼接软件:CAP3(contigassemblyprogram)http://pbil.univ-lyon1.fr/cap3.php可以自己以关键词搜索,还有其他软件。序列拼接在线服务核酸在线拼接软件:CAP3(contiga序列拼接在线服务粘贴序列序列拼接在线服务粘贴序列结果链接结果结果链接结果核酸序列分析课件?对于基因组未进行测序的物种,只知道某一基因的partialCDS区,如何获得其全长cDNA序列??对于基因组未进行测序的物种,只知道某一基因的partial随着各基因组计划的顺利进行,很多实验室采用cDNA文库大规模测序策略获得了大量表达序列标签(ExpressedSequenceTag,EST)和较长的cDNA序列。但在大多数情况下,全长cDNA的获得严重制约着新基因发现。同时很多实验室采用差异显示PCR(differentdisplayPCR,DD-PCR)、代表性差异分析(representationaldifferenceanalysis,RDA)等技术发现了大量具有潜在应用价值的新基因片断,但同样面临全长cDNA序列难以获得的问题。6.核酸序列的电子延伸随着各基因组计划的顺利进行,很多实验室采用cDNA文库大规模通过RACE实验能有效解决全长cDNA问题,但此实验操作要求高,具有耗时、耗财、耗力等缺点。生物信息学领域的电子延伸、电子克隆技术为解决全长cDNA问题在理论上提供了捷径!通过RACE实验能有效解决全长cDNA问题,但此实验操作要求电子克隆也称为虚拟克隆(virtualcloning)原理:根据大量EST具有相互重叠的性质,通过计算机算法获得cDNA全长序列。电子克隆以部分cDNA为起始,和GenBank的EST数据库进行BLAST搜索,得到与5’或3’端相似序列的EST,然后以该EST为模板,进一步搜索EST数据库,一直往前延伸,直到找到终止密码子,得到全长cDNA。电子克隆电子克隆也称为虚拟克隆(virtualcloning)电子在公共数据库(如GenBank/EMBL)中存在大量的序列表达标签。/dbEST,这些EST序列很有可能和研究者感兴趣基因序列相重叠,可能代表同一条cDNA序列。因而从生物信息学原理出发,基于公共数据库中的EST序列或者较长cDNA序列对新获得的EST序列进行电子延伸,就有可能获得全长cDNA。电子克隆的原理来源于大片段测序拼装,主要依据片断末端的重叠。在公共数据库(如GenBank/EMBL)中存在大量的序列表基本过程将待分析核酸序列(或蛋白序列,称为种子序列)用blast软件搜索GenBank的EST数据库,选择与之具有较高一致性的EST序列(称匹配序列)。将匹配序列与种子序列装配产生新生序列,此过程称为片断重叠群分析(ContigAnalysis)。(如果种子序列不是核酸,则不必拼装新序列)以新生序列作为种子序列重复上述过程,直至没有新的匹配序列入选,从而生成最后的新生序列,作为对种子序列的延伸产物。对延伸产物进行ORF分析,确定cDNA的完整性。需要注意的是,核酸序列电子延伸获得的序列只具有参考作用,可为后继的实验研究提供线索,真正的cDNA序列需要通过实验获得和验证。基本过程将待分析核酸序列(或蛋白序列,称为种子序列)用bla核酸序列电子延伸示意图EST序列种子序列EST数据库中Blast分析开始获得匹配序列种子序列与匹配序列组装无匹配时结束,进行ORF分析核酸序列电子延伸示意图EST序列种子序列EST数据库中Bla例:以拟南芥(Arabidopsisthaliana)Cu-ZnSOD的蛋白质序列(P24704)为种子序列,电子克隆水稻(rice)的Cu-ZnSOD基因的过程。例:以拟南芥(Arabidopsisthaliana)Cu(1)采用tblastn程序,用P24704对水稻ESTdb进行比对,获得匹配的EST序列数据库参数:应选择non-human,non-mouseESTs(estothers)物种名参数:写rice或水稻拉丁文(1)采用tblastn程序,用P24704对水稻ESTdb得到一致性最高的匹配序列(EST序列)得到一致性最高的匹配序列(EST序列)(2)因为匹配序列为EST序列,因此此时选择的程序为:blastn。再次对水稻ESTdb进行比对。数据库参数:选择others;物种名参数:写rice或水稻拉丁文(2)因为匹配序列为EST序列,因此此时选择的程序为:bl匹配的EST序列(3)将所得序列以Fasta格式保存后,用序列拼接程序拼出一条contig。匹配的EST序列(3)将所得序列以Fasta格式保存后,用CAP:contigassemblyprogramCAP:contigassemblyprogram提交后的结果点击“contigs”,获得拼装后的序列。如下图。提交后的结果点击“contigs”,获得拼装后的序列。如下图核酸序列分析课件(4)以新生的contig序列作为种子序列重复上述过程,直至没有新的匹配序列入选,从而生成最后的新生序列,作为对种子序列的延伸产物。接下来要对延伸产物进行ORF分析,确定cDNA的完整性。如果提交的序列超过50kb,则无法拼装,需减少序列(4)以新生的contig序列作为种子序列重复上述过程,直7.开放阅读框(ORF)分析mRNA序列需要翻译为蛋白质才能发挥其生物学作用,因此核酸序列的可读框架(OpenReadingFrame,ORF)分析也是核酸序列分析一个重要方面。对真核生物而言,一条全长cDNA序列将只含有单一的开放阅读框。非全长cDNA序列如ESTs,通过所有位相搜索也可很快获得结果。GenBank的ORFFinder是一个较好的ORF分析网络资源。地址:/gorf/gorf.html可以在NCBI首页的右边一栏中直接点击ORFFinder链接进入ORF分析页面。7.开放阅读框(ORF)分析mRNA序列需要翻译为蛋白质才(1)NCBIORFFinder在线确定ORF(1)NCBIORFFinder在线确定ORF粘贴序列序列ID号或接受号分析范围遗传密码粘贴序列序列ID号或接受号分析范围遗传密码查看结果可点击详细查看查看结果可点击详细查看单击,详细查看一个ORF。进一步确定ORF是否正确需要借助Kozak规则。可直接查看所在ORF对应的蛋白质的对数据库的比对单击,详细查看一个ORF。进一步确定ORF是否正确需要借助KKozak规则所谓Kozak规则,即第一个ATG侧翼序列的碱基分布所满足的统计规律。若将第一个ATG中的碱基A,T,G分别标为1,2,3位,则Kozak规则可描述如下:(1)第4位的偏好碱基为G;(2)ATG的5’端约15bp范围的侧翼序列内不含碱基T;(3)在-3,-6和-9位置,G是偏好碱基;(4)除-3,-6和-9位,在整个侧翼序列区,C是偏好碱基。Kozak规则是基于已知数据的统计结果,不见得必须全部满足,一般来说,满足前两项即可。Kozak规则可以帮助确定ORF的起始密码子。加尾信号须自行搜索。Kozak规则所谓Kozak规则,即第一个ATG侧翼序列的碱接着查看其他ORF接着查看其他ORF(2)本地化软件进行ORF分析前提是已经loadsequence(2)本地化软件进行ORF分析前提是已经loadsequORF的查找要求ORF的查找要求ORF的查找结果,需要认真判断要那个ORFORF的查找结果,需要认真判断要那个ORF序列上载后,也可以在这里进行分析序列上载后,也可以在这里进行分析图示ORF分析结果图示ORF分析结果设置ORF分析参数双击图示中的ORF则显示该ORF的详细信息设置ORF分析参数双击图示中的ORF则显示该ORF的详细信息该ORF的详细信息该ORF的详细信息8.基因组序列编码区/内含子结构分析真核生物的基因组中内含子的分析:真核生物基因组的分析比较麻烦,难于准确判断内含子和外显子区域,也即难于准确地对编码区域进行预测。进行基因组序列编码器/内含子结果分析的软件,如GENSCAN(/GENSCAN.html)等。tRNA内含子的分析:可以用tRNAscan-SE分析(/tRNAscan-SE/)8.基因组序列编码区/内含子结构分析真核生物的基因组中内含对基因组序列的读码框区域进行预测内含子5’端供体位点(donorsplicesite):GT内含子3’端受体位点(acceptorsplicesite):AG预测工具:GENSCAN,GENEMARKNetGene2,SpliceView对基因组序列的读码框区域进行预测GENSCAN:现有的服务器设在MIT,主要应用于完整基因的预测,包括基因组序列中的外显子、内含子、启动子、多聚腺苷酸信号位点、供体与受体剪切位点的预测。适用于脊椎动物、玉米、拟南芥等不同物种的基因预测。适用于脊椎动物的版本在被用于果蝇DNA序列的基因预测也取得很好的结果。
GENSCAN是进行基因预测的首选工具,但存在过分估算基因数目问题。GENSCANGENSCAN:现有的服务器设在MIT,主要应用于完整基因的粘贴序列粘贴序列tRNAscan-SEtRNAscan-SE粘贴序列物种选项粘贴序列物种选项9.CpG岛分析CpG岛:是一些富含GC的小区域,大小范围为0.5~5kb,基因中平均每100kb即可出现。因这些区域未发生甲基化,故富含CpG(60~70%),目前认为,基因表达与CpG岛甲基化程度呈负相关。CpG岛经常在脊椎动物基因的5’区域发现,其中80%的人类基因的转录起始位点前存在CpG岛。因此相对于寻找结构复杂的转录起始位点和基因的5’端,CpG岛是发现基因的重要线索,特别是通过cDNA法难以实现时更是如此。http://www.ebi.ac.uk/emboss/cpgplot9.CpG岛分析CpG岛:是一些富含GC的小区域,大小范粘贴序列粘贴序列
10.cDNA和GenomicDNA比对对于已知的cDNA序列及其对应的基因组序列,可以将这两条序列对齐以直观显示cDNA所编码基因的结构。Sim4程序即可完成该项工作,分析的结果可以保存下来用Lalnview程序在电脑上直观地显示。Sim4网址:核酸:http://pbil.univ-lyon1.fr/sim4.php蛋白:http://www.expasy.ch/tools/sim-prot.htmlLalnview下载地址:http://pbil.univ-lyon1.fr/software/lalnview.html
10.cDNA和GenomicDNA比对对输入cDNA序列输入Genome序列然后Submit序列要求:TTTGATGAAAATCGCTTAGGCCTTGCTCTTCAAACAATCCAGCTTCTTTCACTC输入cDNA序列输入Genome序列然后Submit序列要求对比结果TXT格式保存文件对比结果TXT格式保存文件a对保存的文件可用lalnview查看a对保存的文件可用lalnview查看输出结果输出结果11.基因启动子分析启动子是一段位于结构基因5’端上游区的DNA序列。真核基因启动子在-25~-35区含有TATA序列,在-70~-80区含有CCAAT序列,在-80~-110区含有GCCACACCC或GGGCGGG序列。基因组序列中启动子存在与否以及含有何种启动子对于对于了解相应基因转录调控具有重要意义。一些数据库收集了启动子位点(promotersite)和转录因子结合位点(transcriptionfactor-bindingsite)信息,从而方便生物信息分析。http://www.cbs.dtu.dk/services/Promoter/(服务器位于丹麦科技大学,速度快)/seq_tools/promoter.html/(加州大学伯克利分校,果蝇基因组计划).sg/tres/(新加坡国立大学)11.基因启动子分析启动子是一段位于结构基因5’端上游区的输入序列说明:主要用于预测脊椎动物的启动子丹麦输入序列说明:主要用于预测脊椎动物的启动子丹麦输入序列参数选择美国伯克利输入序列参数选择美国伯克利/molbio/proscan/输入序列没有参数可选美国NIH/m每个序列最大1kb,一次最多20个序列新加坡每个序列最大1kb,一次最多20个序列新加坡12.选择性剪切(Alternativesplicing)分析选择性剪接是调控基因表达的重要机制了解不同物种、细胞、发育阶段、环境压力下基因的调控表达机制分析方法:查询选择性剪切相关的网站多序列比对12.选择性剪切(Alternativesplicing)选择性剪切(alternativesplicing)是一个基因编码出不同转录本和蛋白质的重要途径,对满足生物体所需蛋白多样性具有重要意义。
转录本(transcript)是由一条基因通过转录形成的一种或多种可供编码蛋白质的成熟的mRNA。一条基因通过内含子的不同剪接可构成不同的转录本。新基因通常在序列、基因结构和表达模式上与其祖先基因发生快速的分化。基因结构的改变可能伴随着选择性剪切的改变.选择性剪切(alternativesplicing)是一个。mRNA前体的选择性剪接是真核生物的一种基本而又重要的调控机制
。mRNA前体的选择性剪接是真核生物的一种基本而又重要的调控查询选择性剪切相关的网站http://www.ebi.ac.uk/asd/index.html综合http://splicenest.molgen.mpg.de/综合/new_alt_exon_db2/综合5/AsMamDB/哺乳动物/tigr-scripts/tgi/splnotes.pl?species=human.tw/.au/altExtron人/~kent/intronerator/altsplice.html线虫/index.jsp植物/tdb/e2k1/ath1/altsplicing/splicing_variations.shtml拟南芥从已知基因的功能推测剪切机制查询选择性剪切相关的网站http://www.ebi.ac..tw/
查询NOX1基于序列比对分析选择性剪切在序列上高度相似的mRNA/cDNA/EST序列相匹配的基因组序列序列比对对分布位置进行分析cDNA/mRNA/EST序列比对收集序列评判的标准:来自Unigene的高质量数据Exon至少有3条ESTs覆盖Exon周围有GT-AG信号Blast比对Score值>100相似度>95%S.Guptaetal.,GenomewideidentificationandclassificationofalternativesplicingbasedonESTdata,2004,20(16):2579-2585基于序列比对分析选择性剪切在序列上高度相似的相匹配的基因组序13.重复序列
重复序列对影响着生命的进化、遗传、变异;同时它对基因表达、转录调控、染色体的构建以及生理代谢都起着不可或缺的作用。它们的功能及演化也正在被逐步阐明。
13.重复序列重复序列对影响着生命的进化、遗传、变单一序列在一个基因组里一般只有一个拷贝,真核生物绝大多数结构基因都是一个或者几个拷贝重复序列基因组中有10到几千个拷贝的DNA序列,重复单元平均长度300bp。一般分为中度重复和高度重复序列单一序列
中度重复序列一般是非编码序列,几个到几十个拷贝,包括rRNA/tRNA基因等长度:300bp左右位置:基因组许多位置功能:关闭基因转录活性,促进终止转录,可能是DNA复制和转录的起始,终止有关的酶和蛋白质因子的结合位点。高度重复序列占基因组10-60%,人基因组20%
高度重复序列种类倒位反向重复序列占人类基因组5%,两个相同序列的互补拷贝在同一DNA链上反向排练卫星DNA2-10bp,成串排列比较复杂重复顺序只有灵长类有高度重复
高度重复序列种类倒位反向重复序列另一种分类-按分布串联重复卫星DNA:DNA指纹散落重复短散落配置(shortinterspersednuclearelement;缩写SINE)长散落配置(longinterspersednuclearelement;缩写LINE)另一种分类-按分布串联重复微卫星体长度:20bp左右数量:重复1000次左右特性:基因指纹Hxckswapmeaboutlopl-Hxckswapmeaboutlopl-hxckswapmeaboutlopl-Hxckswapmeaboutlopl-微卫星体长度:20bp左右LINE-1长度1000~6000bp特点中间有一段逆转录酶的编码数量:一个基因组里十万拷贝,集中一起占据基因组14.6%功力:让自己被转录,然后造出自己的逆转录酶然后插入到基因组去LINE-1长度1000~6000bpAlu长度:180~280bp数量:重复100万次,占人类基因组10%历史:与真正的编码核糖体的基因很相似存在:只在灵长类动物发现过,有些家族只在猩猩和人分离后才出现。Alu长度:180~280bp研究人员对92个犬品种的17个相对应的发育基因中的重复区域进行了测序。足趾数目受一种叫做Alx-4的基因的控制。鼻子的长度与另一种基因——Runx-2中的重复序列数目吻合牧羊犬类品种多了一种特殊的重复片断哈巴狗类品种则多了另一个不同的重复研究人员对92个犬品种的17个相对应的发育基因中的重复区域进很多人类的疾病是由于重复序列的缺失(deletions)或重复(duplication)所致。迄今为止近40种神经系统遗传病的发生可能与三核苷酸重复序列的扩增有关CAG重复—命运GeorgeHuntington4号染色体顶端,编码一个蛋白含有谷氨酰胺,病人运动越来越失控
X染色体上,重复超过正常阈值,痴呆症很多人类的疾病是由于重复序列的缺失(deletions)或重
寻找重复序列有什么用?在寻找编码基因过程中排除干扰研究微卫星体研究进化过程研究重复序列与人类疾病的关系寻找重复序列有什么用?在寻找编码基因过程中排除干扰常见的网上遮蔽重复序列的工具1、CENSOR2、Genebuild网站r.it/sun/webgene//3、REPEATMASKERWEBSERVER/常见的网上遮蔽重复序列的工具1、CENSOR核酸序列分析课件1、CENSOR
1、CENSOR
核酸序列分析课件核酸序列分析课件编码区综合分析CpG岛分析No调控序列所在位置Cister结果:881-896CCAAT908-923CCAAT转录终止信号……GetOrfGenScan735-773964-10201054-11461112-11561341-1625…1054-1490(1054-1145,1268-1490)CCTAGTCCAGACGCCATGGGT比对分析(Blastx,Blastn,Blastp)Blastx结果:gammaglobin:1054-11461266-1493/~mfrith/HPD.htmlHumangene5HSA004013:-1000~1000编码区综合分析CpG岛分析调控序列所在位置转录终止信号……G核苷酸序列综合分析软件GeneBuilderr.it/~webgene/genebuilder.htmlDNAToolhttp://www.crc.dk/dnatools/downloads/setup/dt6_setup.exeSEQtoolshttp://www.seqtools.dk/DNAssist/dnassist20.zipGeneTool/DNAman/pc/framepc.htmlDNAStrider/downloads/dnastrider1_1_sit.binpDRAW32/GCG/products/gcg/基因探索者/DNASTAR/VectorNTI※
Sequenceassembly※
Sequencemanipulation※
Homologycomparison※
Multiplealignment※Genestructureanalysis
※
Primer/Oligoanalysis※
Restrictionanalysis※
Codonsanalysis核苷酸序列综合分析软件GeneBuilderhttp://l第五章核酸序列分析第五章核酸序列分析生命之书的阅读1、对生物个体的阅读
2、同种生物不同个体之间的比较分析3、不同物种比较
更重要的是找出差异的结果核酸序列分析课件一段核酸序列上可能有什么?一段核酸序列上可能有什么?我们能用生物信息学对核酸序列进行哪些分析?在DNA序列中那些是基因?外显子?内含子?这些基因编码什么蛋白?这些基因有那些不同,不同会产生什么效果?会不会引起蛋白的改变?这一段核酸序列上有没有特殊的功能位点?物种之间有什么差距?这段序列中是否有重复序列我们能用生物信息学对核酸序列进行哪些分析?在DNA序列中那些基因识别基因识别是生物信息学领域里的一个重要研究内容基因识别问题,在近几年受到广泛的重视当人类基因组研究进入一个系统测序阶段时,急需可靠自动的基因组序列翻译解释技术,以处理大量已测定的但未知功能或未经注释的DNA序列基因识别基因识别是生物信息学领域里的一个重要研究内容
基因识别——使用计算机手段识别DNA序列上的具有生物学特征的片段,其对象主要是蛋白质编码基因,也包括其他具有一定生物学功能的因子,如RNA、MicroRNA基因等一些非编码基因,基因识别是生物信息学领域里的一个重要研究内容。 基因识别——使用计算机手段识别DNA序列上的具有生物学特征基因语言的特点真核生物中有很多重复序列,拷贝在几十几百到几万。通常是不编码的序列真核生物基因是不连续的真核生物的启动子和增强子真核生物的基因有一些特定的模式由于进化的原因,基因序列比较保守核酸序列分析课件基因预测的基本原则1、
如果一个序列中某一区域出现重复序列,该区域不大可能出现在编码区域。2、
如果某一片段与其它基因或基因产物有序列相似性,该片段是外显子的可能性极大。3、
一段序列上存在统计的规则性,表现为
密码子偏好,是蛋白编码区最明显的标志。4、与模板模式相符可能指出DNA上功能位点的位置。
基因预测的基本原则密码子偏好
编码蛋白对某一个物种有偏好使用某一密码子的现象,称为密码子偏好。
密码子偏好
编码蛋白对某一个物种有偏好使用某一进行基因预测的基本方法
1、遮蔽重复序列
寻找DNA序列中基因不可能出现的区域,
并将此遮蔽起来;
2、进行序列对比寻找相似性
将预测的DNA与数据库中的DNA数据aligment,
寻找保守区域;
3、寻找功能性位点
寻找起始密码、终止密码和剪接位点等;
4、找出编码区
将全部收集到的信息汇总成总体上尽可
能连贯的谱图。
5、DNA翻译进行基因预测的基本方法
1、遮蔽重复序列
寻找DN神经网络系统
大多数进行预测的软件都采用了神经网络系统,赋予软件“学习”的功能,在应用之前必须经过输入一定的训练集的一个学习的过程,所以在使用预测工具时一定注意该工具的训练集是什么。
神经网络系统
大多数进行预测的软件都采用了神经网络系1.原核基因组的特点长开放阅读框简单的基因结构高基因密度GC含量具有操纵子结构1.原核基因组的特点长开放阅读框转录起始位点起始密码子终止密码子转录终止位点5’启动区5’UTR开放阅读框3’UTR终止区3’原核基因的典型结构GC含量(GCcontent):
不同原核生物中,GC含量从25%~75%。基因水平转移(horizontalgenetrasfer)许多细胞基因组表现具有不同GC含量的区域的组合物,这些区域反映了细菌的进化历史。转录起始位点起始密码子终止密码子转录终止位点5’启动区5’U非翻译区域(untranslatedregions,UTR)编码区域两端的DNA,有一部分被转录,但是不被翻译,这一部分称为非翻译区域5’UTR---基因上游区域的非翻译区域3’UTR---基因下游区域的非翻译区域非翻译区域(untranslatedregions,UT对于任何给定的核酸序列(单链DNA或mRNA),根据密码子的起始位置,可以按照三种方式进行解释。例如,序列ATTCGATCGCAA这三种阅读顺序称为阅读框(readingframes)CAAAATTCGATCGATTCGATCGCAAATTCGATCGCA(1)(3)(2)对于任何给定的核酸序列(单链DNA或mRNA),根据密码子的一个开放阅读框(ORF,openreadingframe)是一个没有终止编码的密码子序列。原核基因识别任务的重点是识别开放阅读框,或者说识别长的编码区域。一个开放阅读框(ORF,openreadingframe形成6个开放读码框
由于氨基酸是由三联密码子编码的,因此DNA序列就包含三个不同的开放读码框,取决于从第一、第二或第三位核苷酸开始(第四位和第一位同框)。而双链DNA的两条链都可以转录RNA,后者翻译蛋白质。因此,一个DNA序列及其互补链可以有6个不同的读码框(readingframes)。形成6个开放读码框2.真核基因识别问题真核基因远比原核基因复杂:一方面,真核基因的编码区域是非连续的,编码区域被分割为若干个小片段。另一方面,真核基因具有更加丰富的基因调控信息,这些信息主要分布在基因上游区域。
2.真核基因识别问题真核基因远比原核基因复杂:真核基因组特点:规模庞大——人类基因组3×109bp
大肠杆菌基因组5×107bp巨大的非编码序列复杂的基因结构启动区5’UTR外显子内含子外显子内含子内含子5’外显子3’UTR终止区3’转录位点起始密码子终止密码子剪切给体位点剪切受体位点真核基因组特点:启动区5’UTR外显子内含子外显子内含子内含复杂的基因转录调控方式内含子GT----AC规则CpG岛真核生物基因组GC含量没有原核生物差异那么明显.但在人基因5‘端有CpG岛,大约有45,000这样的岛,有一半和持家基因有关。等值区可变剪接(alternativeesplicing)密码子使用偏性复杂的基因转录调控方式cDNA序列基因组序列蛋白质序列翻译CodonbiasGCContent酶切位点引物设计编码区预测基因结构分析选择性剪切SNP序列比对功能注释KEGGGO系统发育树蛋白质理化性质二级结构预测结构域分析重要信号位点分析三级结构预测cDNA序列蛋白质序列翻译Codonbias编码区预测基因contents1.分子质量、碱基组成、碱基分布、序列转换、核酸序列基本分析2.限制性酶切分析3.克隆测序分析4.测序中载体序列的识别与去除5.核酸序列拼接6.核酸序列的电子延伸7.开放阅读框(ORF)分析8.基因组序列编码区/内含子结构分析9.CpG岛分析10.cDNA和GenomicDNA比对11.基因启动子分析contents1.分子质量、碱基组成、碱基分布、序列转换进行序列分析也需要一些工具,这些工具包括在线工具和本地化工具。在线工具资源可以通过看资料、读相关文章获得(如前面提到的“核酸研究”上的在线服务专辑),也可以利用搜索工具(google等)到网上搜寻或到论坛询问。本地化工具有免费的也有收费的,免费的一般可以从网上下载。其中,收录、介绍了大量生物软件及生物软件的使用方法,同时还有一些在线分析工具。进行序列分析也需要一些工具,这些工具包括在线工具和本地化工具核酸序列的分子质量、碱基组成、碱基分布等分析序列转换反向序列,互补序列,反向互补序列,显示双良,转化为RNA,转换为蛋白质可以通过一些常用软件如:DNASTAR,Bioedit,Genetool、DNAStar等进行。下面我们以小鼠SOD1基因为例,利用DNAMAN软件进行上述分析。1.分子质量、碱基组成、碱基分布、序列转换酸序列基本分析核酸序列的分子质量、碱基组成、碱基分布等分析序列转换1.分以DNAMAN软件为例以DNAMAN软件为例打开序列打开序列展示序列:Sequence---DisplaySequence进行序列分析时,经常需要对DNA序列进行各种变换,如反向序列、互补序列、互补反向序列、显示DNA双链、转换为RNA序列等。展示序列:Sequence---DisplaySequen得到的结果序列基本信息具体序列显示转换后的不同序列得到的结果序列基本信息具体序列显示转换后的不同序列2.限制性酶切分析限制型酶切分析是分子生物学实验中日常工作之一。限制酶数据库提供了较全面的限制酶相关信息地址为:/rebase/rebase.html大多数分子生物学软件都具有限制性酶切分析功能,完全可以轻松地实现限制性酶切分析功能,这方面的软件如:DNAMAN、Bioedit、DNAStar软件包等。2.限制性酶切分析限制型酶切分析是分子生物学实验中日常工作限制性酶切位点
一种能识别特殊,短核苷酸序列,并在DNA的某些位点上切割的蛋白质。细菌包含了400种这样的酶,能识别和切割100种以上不同的DNA序列。
如:EcoRI识别序列GAATTCGTTAAC限制性酶切位点一种能识别特殊,短核苷酸序列,并限制酶数据库网页截图输入内切酶的名称,可查询其识别序列及酶切位点限制酶数据库网页截图输入内切酶的名称,可查询其识别序列及酶切以DNAMAN为例载入序列以DNAMAN为例载入序列目标DNA默认为线状,若选择“环状”,则出现的酶切图谱为环状。目标DNA默认为线状,若选择“环状”,则出现的酶切图谱为环状在“酶文件”、“全选”、“长度”及“末端”等选项的选择都完成后→“完成”。可选“DNase”或“DNA内切酶”选择酶在“酶文件”、“全选”、“长度”及“末端”等选项的选择都完甲基化情况分析结果甲基化情况分析结果以线状图示酶切位点以环状图示酶切位点以线状图示酶切位点以环状图示酶切位点每种酶的单酶切电泳模拟图每种酶的单酶切电泳模拟图2.以BioEdit软件为例碱基组成序列转换ORF的查找翻译成相对应的蛋白质内切酶的识别2.以BioEdit软件为例碱基组成序列转换ORF的查找翻译参数选择区参数选择区显示序列中的酶切位点显示序列中的酶切位点显示内切酶识别的位置显示序列中不存在的内切酶显示内切酶识别的位置显示序列中不存在的内切酶核酸序列分析课件核酸序列分析课件3.克隆测序分析克隆测序分析是分子生物学实验日常操作之一,一般情况下单次测序将产生300-500bp的序列,或800-900bp的序列。将测序峰图识别为序列的过程称为碱基读出(basecalling)。送交专业公司进行测序的结果返回后需要对所测序列进行一系列后续分析,如测序峰图的查看和载体序列的去除及序列装配等过程。当然,服务较好的测序公司后续工作做的也较好。一般地,单次测序的正确率在500bp左右。3.克隆测序分析克隆测序分析是分子生物学实验日常操作之一,测序峰图查看为了核实测序的准确性,往往需要对测序峰文件进行直接分析。Windows环境下最简单的峰图查看程序是澳大利亚的Chromas.exe程序,这是一个专业程序,运行快、操作简单。其它的软件还有BioEdit和DNAMAN等也都具有该功能。测序峰图查看为了核实测序的准确性,往往需要对测序峰文件进行直Chromas.exe查看测序峰图打开.ab1文件。Chromas.exe查看测序峰图打开.ab1文件。开始一段序列的信号很杂乱,几乎难以辨别,主要是因为残存的染料单体造成的干扰峰所致。该干扰峰和正常序列峰重叠在一起;另外,测序电泳开始阶段电压有一个稳定期,所以经常有20-50bp的紧接着引物的片段读不清楚,有时甚至更长。开始一段序列的信号很杂乱,几乎难以辨别,主要是因为残存的染料可输出为.txt的文本格式文件。可输出为.txt的文本格式文件。DNAMAN查看测序峰图DNAMAN查看测序峰图调节按钮导出序列调节按钮导出序列测序峰图导出的文本测序峰图导出的文本再“载入序列”→“选定项目”后就可以直接载入软件中分析!再“载入序列”→“选定项目”后就可以直接载入软件中分析!Bioedit查看测序峰图调节按钮选择“copyFastaformatted”,相当于将文件中的序列以Fasta格式复制,可黏贴到记事本中。Bioedit查看测序峰图调节按钮选择“copyFasta4.测序中载体序列的识别与去除许多数据库中收集了常用的测序载体序列,使用Blast程序对此类数据库进行相似性分析即可得知目的序列中是否含有载体序列。如果是,在对测序数据进行进一步分析之前必须将载体序列去除。此过程虽然很简单,在核酸序列数据库中仍然有一些序列含有载体序列污染。
NCBI的载体识别程序/VecScreen/VecScreen.html
EMBL的载体识别程序http://www.ebi.ac.uk/blastall/vectors.html4.测序中载体序列的识别与去除许多数据库中收集了常用的测序NCBI中载体分析服务网页截图NCBI中载体分析服务网页截图输入序列输入序列核酸序列分析课件发现载体序列发现载体序列EMBL中载体分析服务网页截图EMBL中载体分析服务网页截图结果结果5.核酸序列拼接通过2个及2个以上测序反应获得的序列都要拼接成一个完整的序列,实验室小规模测序获得的各序列可以通过常规分子生物学软件非常容易地拼接到一起,形成一条完整的序列,也即形成一条contig。这类软件包括:DNAMAN、DNASTAR、Genetool等。5.核酸序列拼接通过2个及2个以上测序反应获得的序列都要拼以DNAMAN软件为例:序列拼接待拼接序列显示区以DNAMAN软件为例:序列拼接待拼接序列显示区某次测序的结果有两个序列,将其拼成一条。某次测序的结果有两个序列,将其拼成一条。拼接结果拼接结果导出的是拼接后的序列导出的是拼接后的序列序列拼接在线服务核酸在线拼接软件:CAP3(contigassemblyprogram)http://pbil.univ-lyon1.fr/cap3.php可以自己以关键词搜索,还有其他软件。序列拼接在线服务核酸在线拼接软件:CAP3(contiga序列拼接在线服务粘贴序列序列拼接在线服务粘贴序列结果链接结果结果链接结果核酸序列分析课件?对于基因组未进行测序的物种,只知道某一基因的partialCDS区,如何获得其全长cDNA序列??对于基因组未进行测序的物种,只知道某一基因的partial随着各基因组计划的顺利进行,很多实验室采用cDNA文库大规模测序策略获得了大量表达序列标签(ExpressedSequenceTag,EST)和较长的cDNA序列。但在大多数情况下,全长cDNA的获得严重制约着新基因发现。同时很多实验室采用差异显示PCR(differentdisplayPCR,DD-PCR)、代表性差异分析(representationaldifferenceanalysis,RDA)等技术发现了大量具有潜在应用价值的新基因片断,但同样面临全长cDNA序列难以获得的问题。6.核酸序列的电子延伸随着各基因组计划的顺利进行,很多实验室采用cDNA文库大规模通过RACE实验能有效解决全长cDNA问题,但此实验操作要求高,具有耗时、耗财、耗力等缺点。生物信息学领域的电子延伸、电子克隆技术为解决全长cDNA问题在理论上提供了捷径!通过RACE实验能有效解决全长cDNA问题,但此实验操作要求电子克隆也称为虚拟克隆(virtualcloning)原理:根据大量EST具有相互重叠的性质,通过计算机算法获得cDNA全长序列。电子克隆以部分cDNA为起始,和GenBank的EST数据库进行BLAST搜索,得到与5’或3’端相似序列的EST,然后以该EST为模板,进一步搜索EST数据库,一直往前延伸,直到找到终止密码子,得到全长cDNA。电子克隆电子克隆也称为虚拟克隆(virtualcloning)电子在公共数据库(如GenBank/EMBL)中存在大量的序列表达标签。/dbEST,这些EST序列很有可能和研究者感兴趣基因序列相重叠,可能代表同一条cDNA序列。因而从生物信息学原理出发,基于公共数据库中的EST序列或者较长cDNA序列对新获得的EST序列进行电子延伸,就有可能获得全长cDNA。电子克隆的原理来源于大片段测序拼装,主要依据片断末端的重叠。在公共数据库(如GenBank/EMBL)中存在大量的序列表基本过程将待分析核酸序列(或蛋白序列,称为种子序列)用blast软件搜索GenBank的EST数据库,选择与之具有较高一致性的EST序列(称匹配序列)。将匹配序列与种子序列装配产生新生序列,此过程称为片断重叠群分析(ContigAnalysis)。(如果种子序列不是核酸,则不必拼装新序列)以新生序列作为种子序列重复上述过程,直至没有新的匹配序列入选,从而生成最后的新生序列,作为对种子序列的延伸产物。对延伸产物进行ORF分析,确定cDNA的完整性。需要注意的是,核酸序列电子延伸获得的序列只具有参考作用,可为后继的实验研究提供线索,真正的cDNA序列需要通过实验获得和验证。基本过程将待分析核酸序列(或蛋白序列,称为种子序列)用bla核酸序列电子延伸示意图EST序列种子序列EST数据库中Blast分析开始获得匹配序列种子序列与匹配序列组装无匹配时结束,进行ORF分析核酸序列电子延伸示意图EST序列种子序列EST数据库中Bla例:以拟南芥(Arabidopsisthaliana)Cu-ZnSOD的蛋白质序列(P24704)为种子序列,电子克隆水稻(rice)的Cu-ZnSOD基因的过程。例:以拟南芥(Arabidopsisthaliana)Cu(1)采用tblastn程序,用P24704对水稻ESTdb进行比对,获得匹配的EST序列数据库参数:应选择non-human,non-mouseESTs(estothers)物种名参数:写rice或水稻拉丁文(1)采用tblastn程序,用P24704对水稻ESTdb得到一致性最高的匹配序列(EST序列)得到一致性最高的匹配序列(EST序列)(2)因为匹配序列为EST序列,因此此时选择的程序为:blastn。再次对水稻ESTdb进行比对。数据库参数:选择others;物种名参数:写rice或水稻拉丁文(2)因为匹配序列为EST序列,因此此时选择的程序为:bl匹配的EST序列(3)将所得序列以Fasta格式保存后,用序列拼接程序拼出一条contig。匹配的EST序列(3)将所得序列以Fasta格式保存后,用CAP:contigassemblyprogramCAP:contigassemblyprogram提交后的结果点击“contigs”,获得拼装后的序列。如下图。提交后的结果点击“contigs”,获得拼装后的序列。如下图核酸序列分析课件(4)以新生的contig序列作为种子序列重复上述过程,直至没有新的匹配序列入选,从而生成最后的新生序列,作为对种子序列的延伸产物。接下来要对延伸产物进行ORF分析,确定cDNA的完整性。如果提交的序列超过50kb,则无法拼装,需减少序列(4)以新生的contig序列作为种子序列重复上述过程,直7.开放阅读框(ORF)分析mRNA序列需要翻译为蛋白质才能发挥其生物学作用,因此核酸序列的可读框架(OpenReadingFrame,ORF)分析也是核酸序列分析一个重要方面。对真核生物而言,一条全长cDNA序列将只含有单一的开放阅读框。非全长cDNA序列如ESTs,通过所有位相搜索也可很快获得结果。GenBank的ORFFinder是一个较好的ORF分析网络资源。地址:/gorf/gorf.html可以在NCBI首页的右边一栏中直接点击ORFFinder链接进入ORF分析页面。7.开放阅读框(ORF)分析mRNA序列需要翻译为蛋白质才(1)NCBIORFFinder在线确定ORF(1)NCBIORFFinder在线确定ORF粘贴序列序列ID号或接受号分析范围遗传密码粘贴序列序列ID号或接受号分析范围遗传密码查看结果可点击详细查看查看结果可点击详细查看单击,详细查看一个ORF。进一步确定ORF是否正确需要借助Kozak规则。可直接查看所在ORF对应的蛋白质的对数据库的比对单击,详细查看一个ORF。进一步确定ORF是否正确需要借助KKozak规则所谓Kozak规则,即第一个ATG侧翼序列的碱基分布所满足的统计规律。若将第一个ATG中的碱基A,T,G分别标为1,2,3位,则Kozak规则可描述如下:(1)第4位的偏好碱基为G;(2)ATG的5’端约15bp范围的侧翼序列内不含碱基T;(3)在-3,-6和-9位置,G是偏好碱基;(4)除-3,-6和-9位,在整个侧翼序列区,C是偏好碱基。Kozak规则是基于已知数据的统计结果,不见得必须全部满足,一般来说,满足前两项即可。Kozak规则可以帮助确定ORF的起始密码子。加尾信号须自行搜索。Kozak规则所谓Kozak规则,即第一个ATG侧翼序列的碱接着查看其他ORF接着查看其他ORF(2)本地化软件进行ORF分析前提是已经loadsequence(2)本地化软件进行ORF分析前提是已经loadsequORF的查找要求ORF的查找要求ORF的查找结果,需要认真判断要那个ORFORF的查找结果,需要认真判断要那个ORF序列上载后,也可以在这里进行分析序列上载后,也可以在这里进行分析图示ORF分析结果图示ORF分析结果设置ORF分析参数双击图示中的ORF则显示该ORF的详细信息设置ORF分析参数双击图示中的ORF则显示该ORF的详细信息该ORF的详细信息该ORF的详细信息8.基因组序列编码区/内含子结构分析真核生物的基因组中内含子的分析:真核生物基因组的分析比较麻烦,难于准确判断内含子和外显子区域,也即难于准确地对编码区域进行预测。进行基因组序列编码器/内含子结果分析的软件,如GENSCAN(/GENSCAN.html)等。tRNA内含子的分析:可以用tRNAscan-SE分析(/tRNAscan-SE/)8.基因组序列编码区/内含子结构分析真核生物的基因组中内含对基因组序列的读码框区域进行预测内含子5’端供体位点(donorsplicesite):GT内含子3’端受体位点(acceptorsplicesite):AG预测工具:GENSCAN,GENEMARKNetGene2,SpliceView对基因组序列的读码框区域进行预测GENSCAN:现有的服务器设在MIT,主要应用于完整基因的预测,包括基因组序列中的外显子、内含子、启动子、多聚腺苷酸信号位点、供体与受体剪切位点的预测。适用于脊椎动物、玉米、拟南芥等不同物种的基因预测。适用于脊椎动物的版本在被用于果蝇DNA序列的基因预测也取得很好的结果。
GENSCAN是进行基因预测的首选工具,但存在过分估算基因数目问题。GENSCANGENSCAN:现有的服务器设在MIT,主要应用于完整基因的粘贴序列粘贴序列tRNAscan-SEtRNAscan-SE粘贴序列物种选项粘贴序列物种选项9.CpG岛分析CpG岛:是一些富含GC的小区域,大小范围为0.5~5kb,基因中平均每100kb即可出现。因这些区域未发生甲基化,故富含CpG(60~70%),目前认为,基因表达与CpG岛甲基化程度呈负相关。CpG岛经常在脊椎动物基因的5’区域发现,其中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 授权签约营销方案范文(3篇)
- 施工方案的设计要求(3篇)
- 椰子茶饮营销方案(3篇)
- 水箱外加固施工方案(3篇)
- 活动策划方案服装要求(3篇)
- 游艺城的营销方案(3篇)
- 环境应急预案整改报告(3篇)
- 福州应急预案招标公示(3篇)
- 红包全套活动策划方案(3篇)
- 视频首映活动策划方案(3篇)
- 2026江苏扬州市宝应城市发展控股有限公司招聘9人笔试参考题库及答案解析
- 我们身边的知识产权智慧树知到期末考试答案章节答案2024年湘潭大学
- 新生儿科亚低温治疗新生儿缺氧缺血性脑病学习培训课件
- (正式版)HGT 2782-2024 化工催化剂颗粒抗压碎力的测定
- 产品经理技术知识
- 海南省2023年小升初语文试卷及答案汇总一
- 透过地理看历史
- 2019电力建设施工质量验收规程第6部分:调整试验
- 【地理】2023年高考真题江苏卷(解析版)
- 第五版-FMEA-新版FMEA【第五版】
- 大国安全知到章节答案智慧树2023年中北大学
评论
0/150
提交评论