核酸序列的一般分析_第1页
核酸序列的一般分析_第2页
核酸序列的一般分析_第3页
核酸序列的一般分析_第4页
核酸序列的一般分析_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学,第六讲核酸序列的一般分析,主要内容:,一、基因组DNA简介二、序列格式转化三、DNA序列分析四、序列翻译、ORF查找五、限制性内切酶分析六、引物设计七、RNA二级结构分析,一、基因组DNA简介遗传信息存贮在4种字符组成的核酸序列中“天书”用遗传语言书写的人类遗传蓝本包含的信息量巨大更重要的是目前人类对它了解甚少天书中只有4个字符(碱基A、T、G、C)既没有段落,也没有标点符号是一个长度为3109的一维序列。,科学家对这本天书了解最多的部分就是遗传密码或者说掌握了DNA对蛋白质编码的规律关于密码子(1)密码子的使用是非随机的如果密码子的第一、第二位碱基是A、U,那么第三位将尽可能使用G、C;反之亦然。如果三位都用G、C,则配对容易,分解难;三位都用A、U,则相反。一般地说,高表达的基因,要求翻译速度快,要求密码子和反密码子配对快、分开也快。,(2)密码子的使用有一定的统计规律对同义密码子的使用存在着偏爱不同种属偏爱的密码子不同人类基因组:密码子第三位取A、U的情况占90%而第三位取G、C仅占10%,密码子的使用偏性与基因功能、蛋白质结构相关,(3)密码子中的密码三个碱基的位置与所编码的氨基酸性质存在着联系例如:芳香族氨基酸以U作为第一位碱基中间位置碱基的性质与氨基酸是亲疏水性相关疏水氨基酸的密码子,其第二位碱基是U亲水氨基酸的密码子,其第二位碱基是A第二位碱基是G、C的密码子所编码的氨基酸亲水性、疏水性居中。,人类基因组信息:编码区域只占1%-3%对于非编码序列,尚不清楚其含义或功能非编码区域对于生命活动具有重要的意义包括内含子、简单重复序列、移动元件、伪基因重复序列:卫星(satellite)DNA小卫星(mini-satellite)DNA微卫星(micro-satellite)顺式调控元件:启动子、增强子、沉默子,关于生物复杂性:生物的复杂性不仅仅是基因的数目人类基因约为30000个线虫有20000个基因,230000/220000=210000103000,基因组计划带来的希望:实验数据的积累速度在迅速地增加计算机科学和技术也在不断地发展,单个基因组分析:基因序列基因功能基因的表达调控基因产物基因多态性,比较基因组分析:物种关系物种进化物种起源,二、序列格式转化,各种软件为了自己的需要,通常对序列格式有一定的要求,给我们的使用带来了一定的困难。格式转换软件可以将不同格式数据转换以方便使用。很多综合性软件可以进行序列格式转换,如DNAstar,seqverter等。,常见序列格式:(1)FASTA格式(又称Pearson格式)是比较简单而使用最多的序列格式。序列以号开头,其后是单行的关于序列的描述信息,最后是序列。例子:10KD_VIGUNP18646vignaunguiculata10kdaproteinprecursorMEKKSIAGLCFLFLVLFVAQEVVVQSEAKTCENLVDTYRGPCFTTGSCDDHCKNKEHLLS,(2)Genbank格式(GenBankflatfile,GBFF)最广泛地用于表示生物序列的格式之一,也是DDBJ/EMBL/GenBank交换数据时采用的格式。例如:LOCUSAB094638_1146bpDNA13-APR-2006BASECOUNT38a17c43g48t0othersORIGIN1gttttaatgtgttgccttggttgagtggtgaagctggttagggtagcgtgtaaaacatgg61tgggtagattaatgctttgtgtcaccatgccgtttggttcgattaatgtaatcataagga121gagaccataagttatgaatacgcaga,(3)EBML格式与GBFF格式的主要区别是:每行左端均有由两个大写字母组成的识别标志,是GenBank识别标志的缩写。另外,序列的序号在右侧。(4)GCG格式:是商业性的GCG软件包的专用格式。,最新下载,Seqverter,三、DNA序列分析基因序列基因表达调控信息寻找基因涉及到两个方面的工作:识别与基因相关的特殊序列信号预测基因的编码区域结合两个方面的结果确定基因的位置和结构基因表达调控信息隐藏在基因的上游区域,在组成上具有一定的特征,可以通过序列分析识别这些特征。,1.DNA序列分析步骤,在DNA序列中,除了基因之外,还包含许多其它信息,这些信息大部分与核酸的结构特征相关联,通常决定了DNA与蛋白质或者DNA与RNA的相互作用。存放这些信息的DNA片段称为功能位点如启动子(Promoter)、基因终止序列(Terminatorsequence)、剪切位点(Splicesite)等。,发现重复序列,数据库搜索,分析功能位点,序列组成统计分析,综合分析,一个基本的DNA序列分析方案,2.核苷酸关联分析,对于一个给定的基因组,最简单的计算就是统计DNA序列中各类核苷酸出现的频率对于随机分布的DNA序列,每种核苷酸的出现是均匀分布的出现频率各为0.25。而真实基因组的核苷酸分布则是非均匀的,酵母基因组核苷酸出现频率,在统计过程中,如果同时计算DNA的正反两条链,则根据碱基配对原则,A和T、C和G的出现频率相同。如果仅统计一条链,则虽然A和T、C和G的出现频率不同,但是非常接近。,两联核苷酸频率:,不同基因组中两个连续核苷酸出现的频率也是不相同的4种核苷酸可以组合成16种两联核苷酸,酵母基因组两联核苷酸频率表,对酵母基因组两联核苷酸的统计结果其中核苷酸对出现频率最高的达到0.119而出现频率最低的只有0.028,三联核苷酸基因密码子:,在进行编码区域识别时,常常需要对三联核苷酸进行统计分析,这实际上是分析密码子的使用偏性。由于密码子的简并性(degeneracy),每个氨基酸至少对应1种密码子,最多有6种对应的密码子。在基因中,同义密码子的使用并不是完全一致的。不同物种、不同生物体的基因密码子使用存在着很大的差异,基因密码子的使用与基因编码的蛋白的结构和功能有关,与基因表达的生理功能有着密切的联系蛋白的三级结构与密码子使用概率有密切的关系通过对密码子的聚类分析,可以很清晰地将具有不同三级结构蛋白质的编码基因分成不同的类,而具有相似三级结构蛋白的编码基因则大致聚在同一类中,从而证明基因密码子的使用偏性与蛋白质三级结构具有密切的相关性。在不同物种中,类型相同的基因具有相近的同义密码子使用偏性对于同一类型的基因由物种引起的同义密码子使用偏性的差异较小,3.功能位点分析,功能位点(functionalsite)与特定功能相关的位点,是生物分子序列上的一个功能单元,或者是生物分子序列上一个较短的片段。功能位点又称为功能序列(functionalsequence)、序列模式(motif)、信号(signal)等。核酸序列中的功能位点包括转录因子结合位点、转录剪切位点、翻译起始位点等。在蛋白质序列分析中,常使用序列模式这个名词,蛋白质的序列模式往往与蛋白质结构域或者作用部位有关。,功能位点示意,基因组序列中若干个相邻的功能位点组合形成功能区域(functionalregion)。功能位点分析的任务发现功能位点特征识别功能位点,四、序列翻译、ORF查找,对于一条新的核酸序列,除了对数据库进行类似性检索和同源性比较外,还有许多其他分析内容。例如:计算DNA的碱基组成、检索内部重复序列、检索DNA的特殊位点或信号、开放读框的查找、鉴定DNA的编码区和翻译基因序列等。,基因编码区是指可以由核糖体翻译成蛋白质的序列,它的5端有转录和翻译的起始位点,3端有终止位点。基因的起始位点通常是ATG,终止位点为TAA、TAG、TGA。一个起始和终止密码子之间的序列称为一个开放阅读框(OpenReadingFrame,简称ORF),它是一个潜在的蛋白质编码区。,对于任何给定的核酸序列(单链DNA或mRNA),根据密码子的起始位置,可以按照三种方式进行阅读。例如,序列ATTCGATCGCAA这三种阅读顺序称为阅读框(readingframes),CAA,A,ATT,CGA,TCG,A,TTC,GAT,CGC,AA,TCG,ATC,GCA,(1),(3),(2),AT,基因可变剪切示意图,geneA,基因可变剪切示意图,序列翻译、ORF查找,1.Generunner2.在线的ORFfinder/gorf/gorf.html,功能:序列编辑与类似序列查找、建立自己的序列数据库进行查找、序列比较、序列翻译、蛋白序列分析等,还包括DNA分析常用到的一些功能,如碱基百分组成、分子量计算等。,Generunner,/gorf/gorf.html,ORFfinder,输入序列在EnterGIorACCESSION后面的框中输入公共序列的gi号或ACCESSION号在orsequenceinFASTAformat后面的框中输入完整的序列设置序列范围在FROM:TO:后面的框中输入进行ORF查找的序列范围Geneticcodes可以选择采用何种遗传编码按OrfFind按钮即可执行,限制性内切酶是在许多细菌体内发现的能识别和切割外源DNA的核酸酶。细菌自身的DNA因其限制型内切酶的识别位点被相应的DNA甲基化酶所甲基化,而不被内切酶所水解。限制型内切酶的这种作用使之成为遗传工程实验的重要工具酶之一。,五、限制性内切酶分析,每一种限制性内切酶都有特定的DNA识别顺序,并且呈回文排列。确定DNA酶切位点是基因操作的必不可少的步骤,因此DNA序列分析软件包大多整合有检索酶切位点的程序。这些程序附带一个酶切位点的数据库文件,根据这个文件对序列作酶切位点的查找。,RESTRICTIONANALYSISDNAssist1.02DFW2.21Generunner下载地址:/dna.html,限制性内切酶分析常用软件,Dnastar,序列格式转换限制性内切酶分析序列拼接,下载网址:,从原理来说,引物的设计和分析并不是DNA序列分析的一个基本方法,但是在分子生物学研究中常常需要用到。我们主要介绍针对PCR的引物设计。,六、引物设计,引物设计的标准有:引物的长度通常为20-30个碱基引物避免有发卡结构引物避免有彼此之间的互补配对两个引物之间避免有类似序列,引物与核酸序列数据库的其他序列无明显类似引物5端能加上合适的酶切位点引物组成均匀,避免含有相同碱基的多聚体,两个引物的GC含量近似,可见,引物设计包含序列组成的计算、序列对DNA序列数据库的类似性检索、两个序列的比较、碱基互补配对和发卡结构分析以及酶切位点检索等基本的DNA序列分析过程。事实上,许多PCR引物设计程序会略过或简化上述的某些过程。,PrimerPremier5.0,下载,功能可以简单地通过手动拖动鼠标以扩增出相应片段所需的引物,而在手动的任何时候,下面显示各种参数的改变和可能的二聚体、异二聚体、发夹结构等。也可以给定条件,让软件自动搜索引物,并将引物分析结果显示出来。而且进行这些操作非常简单。,PrimerPremier5.0,其他引物设计软件:,Primer3/genome_software/other/primer3.htmlDNAClubhttp:/www.bio-,引物长度20-30个,最好不要超过30个;Tm=(A+T)X2+(G+C)X4,退火温度为Tm-7G+C%=40-60%5、3引物退火温度最好相等;四个相同的碱基相连最好不要出现;引物的最后一个避免为T。,实际引物设计采用的几条原则,无论是mRNA、rRNA还是tRNA,它们的功能最终是由它们的折叠结构来决定的,尽管这种折叠的结构依赖于它的序列,但是它不仅仅由序列来确定。当前准确测定RNA折叠结构还有赖于X射线衍射技术,但是很难获得RNA分子晶体,所以测定的结构非常少。因此,人们希望能通过RNA的序列来预测其结构,首先是二级结构。,七、RNA二级结构分析,RNA分子通过分子内的碱基配对而折叠,碱基对的氢键以及它们形成的局部螺旋的堆积力起着稳定的作用,即降低折叠结构的自由能。RNA中能形成的碱基对包括GC,AU、GU,他们分别有3个,2个,和一个氢键。分子的螺旋区形成茎(stem),那些不构成互补配对的单链碱基形成环(loop)。因此,预测RNA二级结构的一个很

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论