核苷酸序列分析以及应用_第1页
核苷酸序列分析以及应用_第2页
核苷酸序列分析以及应用_第3页
核苷酸序列分析以及应用_第4页
核苷酸序列分析以及应用_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、核苷酸序列分析以及应用重复序列分析开放读码框(open reading frame, ORF)的识别基因结构分析内含子/外显子剪切位点识别选择性剪切分析CpG 岛的识别核心启动子/转录因子结合位点/转录启始位点的识别转录终止信号的预测GC含量/密码子偏好性分析核苷酸序列分析重复序列分析原核基因组中除rRNA、tRNA基因有多个拷贝外,重复序列(repetitive sequences)不多。哺乳动物基因组中则存在大量重复序列,分为3类:高度重复序列。一般较短,长10300bp,重复106次左右,占基因组10%60%,在人类基因组中约占20%,功能还不明确。重复序列分析中度重复序列。长10300

2、bp,重复10105次,占基因组1040%。哺乳类中含量最多的一种称为Alu的序列,长约300bp,重复3105次,在人类基因组中约占7%,功能不是很清楚。单拷贝序列。这类序列基本上不重复,占哺乳类基因组的50%80%,在人类基因组中约占65%。由于大量重复序列影响序列分析,因此在对真核基因分析前,最好把重复序列屏蔽掉。核苷酸序列分析ORFArabidopsis thaliana chromosome 2, part sequence (NC_003071.1)Output开放读码框的识别开放读码框(open reading frame, ORF) 是一段起始密码子(ATG)和终止密码子(TA

3、A, TAG, TGA)之间的碱基序列ORF 是潜在的蛋白质编码区原核生物中多数基因的编码序列在100氨基酸以上;真核生物的编码区由内含子和外显子组成,其外显子的平均长度约为50个氨基酸。预测ORF的方法有两类:基于统计分析和模式识别(如GENSCAN, GeneMark, GRAIL II 等),基于同源比对。核苷酸序列分析ORF开放读码框的识别Kozak规则: ORF中起始密码子ATG前后的碱基具有特定的偏好性。若将第一个ATG中的碱基分别标为1、2、3位,则Kozak规则可描述如下:第4位的偏好碱基为G;ATG的5端的15bp范围内的侧翼序列内不含碱基T;第3、6、9位G为偏好碱基;除第

4、3、6、9位,在整个侧翼序列区中,C为偏好碱基。核苷酸序列分析ORF核苷酸序列分析ORF开放读码框的识别预测ORF的方法都是针对特定物种而设计的,如GENSCAN最初是针对人类的,后扩展对脊椎动物、果蝇、拟南芥、玉米基因的预测。GlimerM适于恶性疟原虫、拟南芥、曲霉菌和水稻对mRNA, cDNA, EST, 宜用GetOrf, ORF Finder, Plotorf, BestORF 等核苷酸序列分析ORF应用ORF Finder预测水稻瘤矮病毒(RGDV)S8片断的ORFORF Finder: :/水稻瘤矮病毒(rice gall dwarf virus, RGDV)引起的水稻瘤矮病是中

5、国及东南亚国家水稻上的一种重要病毒病害.为构建融合蛋白的表达载体,需要对RGDV S8片断的基因序列(GenBank登陆号:AY216767)进行ORF分析并确定其位置,为设计表达引物提供信息.提交序列:以登陆号或直接粘贴FASTA格式的序列.参数设置:可设置待分析序列片断的起始和结束位置;ORF Finder提供了22种遗传密码表可供选择。这里选择默认参数.核苷酸序列分析ORFThe Genetic Codes点击点击结果验证采用数据库搜索方法对选定的ORF进行验证BLASTB比对搜索到多个显著相似的序列, 因此所预测的ORF可信度比较高点击GetOrf ggccagatgg aacatat

6、tgc tttcgggagc acaaggatcg ggtctactac gtctcggagcggattttgaa gctgagcgag tgcttcggct acaagcagct ggtgtgcgtg ggcacctgcttcggcaagtt ctccaagacc aacaaactga agttccatat cacggcgctc tactacttggcgccctacgc ccagtacaag gtgtgggtga agccctcctt cgagcagcag tttctctacg输出结果GENSCAN ggccagatgg aacatattgc tttcgggagc acaaggatcg gg

7、tctactac gtctcggagcggattttgaa gctgagcgag tgcttcggct acaagcagct ggtgtgcgtg ggcacctgcttcggcaagtt ctccaagacc aacaaactga agttccatat cacggcgctc tactacttggcgccctacgc ccagtacaag gtgtgggtga agccctcctt cgagcagcag tttctctacg输出结果启动子及转录因子结合位点分析启动子(Promoter)是RNA聚合酶识别、结合并开始转录所必需的一段DNA序列。原核生物启动子序列包括:CAP序列(增强聚合酶的结合

8、和转录的起始序列,-70-40)-10序列:在-4到-13bp处,有保守序列TATAAT,称为Pribnow框,各碱基频率:T89 A89 T50 A65 A65 T100-35序列:约在-35处有保守序列TTGACA, 其中TTG十分保守,各碱基频率:T85 T83 G81 A61 C69 A52核苷酸序列分析ORF启动子及转录因子结合位点分析真核生物启动子是在基因转录起始位点(+1)及其5上游大约100200bp或下游100bp的一组具有独立功能的DNA序列,包括:核心启动子( core promoter): 转录起始位点(+1)一般是A或G及转录起始位点上游-25-30的TATA框上游启

9、动子元件(upstream promoter element, UPE): 包括通常-70bp附近的CAAT框(GGCCAATCT)和GC框(GGGCGG)等核苷酸序列分析ORFPromoterScan粘贴AY684193输出结果内含子/外显子剪切位点识别对基因组序列的读码框区域进行预测内含子5端供体位点(donor splice site): GT内含子3端受体位点(acceptor splice site): AG内含子区域核苷酸组分是识别编码区的重要依据核苷酸序列分析Gene Structure不同的序列通常采用不同的分析方法NetGene2和Splice View用于分析基因组核苷酸序

10、列编码区的剪切位点和内含子mRNA/cDNA序列可用Spidey,SIM4,BLAT和BLAST等分析工具内含子/外显子剪切位点识别如何分析mRNA/cDNA的外显子组成?RNASPL与相应的基因组序列比对,分析比对片段的分布位置预测工具:Spidey,SIM4,BLAT,BLAST,FASTA 核苷酸序列分析Gene Structure核苷酸序列分析Gene StructureNetGene2用于人类、线虫和拟南芥的基因序列分析报告受体位点和供体位点信息,对DNA正负两条链分析图形显示可能的编码区、受体位点和供体位点信息ATGGGAAACTGGGTGGTTAACCACTGGTTTTCAGTT

11、TTGTTTCTGGTTGTTTGGTTAGGGCTGAATGTTTTCCTGTTTGTGGATGCCTTCCTGAAATATGAGAAGGCCGACAAATACTACTACACAAGAAAAATCCTTGGGTCAACATTGGCCTGTGCCCGAGCGTCTGCTCTCTGCTTGAATTTTAACAGCACGCTGATCCTGCTTCCTGTGTGTCGCAATCTGCTGTCCTTCCTGAGGGGCACCTGCTCATTTTGCAGCCGCACACTGAGAAAGCAATTGGATCACAACCTCACCTTCCACAAGCTGGTGGCCTATATGATCTGCCTACATACA

12、GCTATTCACATCATTGCACACCTGTTTAACTTTGACTGCTATAGCAGAAGCCGACAGGCCACAGATGGCTCCCTTGCCTCCATTCTCTCCAGCCTATCTCATGATGAGAAAAAGGGGGGTTCTTGGCTAAATCCCATCCAGTCCCGAAACACGACAGTGGAGTATGTGACATTCACCAGCATTGCTGGTCTCACTGGAGTGATCATGACAATAGCCTTGATTCTCATGGTAACTTCAGCTACTGAGTTCATCCGGAGGAGTTATTTTGAAGTCTTCTGGTATACTCACCACCTTTTTATC

13、TTCTATATCCTTGGCTTAGGGATTCACGGCATTGGTGGAATTGTCCGGGGTCAAACAGAGGAGAGCATGAATGAGAGTCATCCTCGCAAGTGTGCAGAGTCTTTTGAGATGTGGGATGATCGTGACTCCCACTGTAGGCGCCCTAAGTTTGAAGGGCATCCCCCTGAGTCTTGGAAGTGGATCCTTGCACCGGTCATTCTTTATATCTGTGAAAGGATCCTCCGGTTTTACCGCTCCCAGCAGAAGGTTGTGATTACCAAGGTTGTTATGCACCCATCCAAAGTTTTGGAATSpidey :

14、/可对cDNA或EST序列分析NCBI开发,基于BLAST和Dot View局部比对算法优势在于能同时将多条mRNA/cDNA或EST序列与基因组序列进行比对输入基因组序列Z83819输入序列:AF166326AF166327选择性剪切(Alternative splicing)分析核苷酸序列分析Gene Structure选择性剪切(Alternative splicing)分析选择性剪接是调控基因表达的重要机制了解不同物种、细胞、发育阶段、环境压力下基因的调控表达机制分析方法:查询选择性剪切相关的网站多序列比对查询选择性剪切相关的网站核苷酸序列分析Gene Structure 从已知基因的

15、功能推测剪切机制分析EST序列的选择性剪切Seq1ATGGGAAACTGGGTGGTTAACCACTGGTTTTCAGTTTTGTTTCTGGTTGTTTGGTTAGGGCTGAATGTTTTCCTGTTTGTGGATGCCTTCCTGAAATATGAGAAGGCCGACAAATACTACTACACAAGAAAAATCCTTGGGTCAACATTGGCCTGTGCCCGAGCGTCTGCTCTCTGCTTGAATTTTAACAGCACGCTGATCCTGCTTCCTGTGTGTCGCAATCTGCTGTCCTTCCTGAGGGGCACCTGCTCATTTTGCAGCCGCACACTGAGAAA

16、GCAATTGGATCACAACCTCACCTTCCACAAGCTGGTGGCCTATATGATCTGCCTACATACAGCTATTCACATCATTGCACACCTGTTTAACTTTGACTGCTATAGCAGAAGCCGACAGGCCACAGATGGCTCCCTTGCCTCCATTCTCTCCAGCCTATCTCATGATGAGAAAAAGGGGGGTTCTTGGCTAAATCCCATCCAGTCCCGAAACACGACAGTGGAGTATGTGACATTCACCAGCATTGCTGGTCTCACTGGAGTGATCATGACAATAGCCTTGATTCTCATGGTAACTTCAGC

17、TACTGAGTTCATCCGGAGGAGTTATTTTGAAGTCTTCTGGTATACTCACCACCTTTTTATCTTCTATATCCTTGGCTTAGGGATTCACGGCATTGGTGGAATTGTCCGGGGTCAAACAGAGGAGAGCATGAATGAGAGTCATCCTCGCAAGTGTGCAGAGTCTTTTGAGATGTGGGATGATCGTGACTCCCACTGTAGGCGCCCTAAGTTTGAAGGGCATCCCCCTGAGTCTTGGAAGTGGATCCTTGCACCGGTCATTCTTTATATCTGTGAAAGGATCCTCCGGTTTTACCGCTCCCA

18、GCAGAAGGTTGTGATTACCAAGGTTGTTATGCACCCATCCAAAGTTTTGGAAT分析EST序列的选择性剪切BLAST搜索Seq1,发现它与多条NOX1基因高度相似,因此它可能是NOX1基因的选择性剪切产物分析EST序列的选择性剪切在ProSplicer网站搜索NOX1基因,结果表明NOX1基因有不同的选择性产物输入NOX1Output分析EST序列的选择性剪切收集不同剪切体的mRNA/cDNA/EST序列,如AF166316, AF166327, AF166328, NM_013955, 与Seq1比对,可判断Seq1的剪切机制。Seq1与AF166327最为相似,与

19、AF166327在基因的5相匹配,而缺失了第1013号外显子区域。Seq1与AF166317比对结果基于序列比对分析选择性剪切在序列上高度相似的mRNA/cDNA/EST序列相匹配的基因组序列序列比对对分布位置进行分析cDNA/mRNA/EST 序列比对收集序列核苷酸序列分析Gene Structure 评判的标准:来自Unigene的高质量数据Exon至少有3条ESTs覆盖Exon周围有GT-AG信号Blast比对Score值100相似度95%S.Gupta et al., Genome wide identification and classification of alternativ

20、e splicing based on EST data, Bioinformatics 2004, 20(16): 2579-2585基因周围调控序列分析 CpG岛位于真核生物基因转录起始位点上游,GC含50% ,长度几百到几千“p”表示“C”和“G”以磷酸二酯键连接一般CpG岛出现在脊椎动物看家基因(house keeping gene)或频繁表达基因中活性基因的CpG岛具有抵抗序列甲基化的作用80%的人类基因的转录起始位点存在CpG岛,因而搜索CpG岛可为发现基因提供重要线索核苷酸序列分析Gene Structure :/CpgplotCpgreportIsochoreResults F

21、orCpgplotCpgreportIsochoreExample基因周围调控序列分析转录终止信号的预测真核生物编码基因中,转录终止信号是在mRNA序列的3端终止密码子下游置上加尾的信号,主要标志为出现AATAAA序列,可以重复出现,在其后的10-15 bp处开始合成PolyA.在基因预测软件中,转录终止信号也被化定基因的范围,以便对ORF区域进行更好的识别和分析核苷酸序列分析Gene Structure Polyadq粘贴中的序列密码子使用偏性分析遗传密码子表Second PositionFirst Position (5 end)Third Position (3 end)密码子使用偏性分

22、析生物体内普遍存在同义密码子非均衡使用的现象, 例如: 某一物种或某一基因通常倾向于使用一种或几种特定的同义密码子, 这些密码子被称为最优密码子(optimal codon), 此现象被称为密码子偏性(codon bias)。.不同物种的基因、不同功能的基因在密码子使用上存在着明显的偏性核苷酸序列分析Gene Structure 密码子使用偏性分析意义基因异源表达与某些物种的蛋白表达水平相关揭示有关物种间或某一物种的基因家族间的基因进化规律基因的翻译调控其他应用 密码子偏性的分析也常对许多实验操作起指导和辅助作用, 如: 鉴定编码区, 制备基因克隆的寡核苷酸探针, 基因芯片设计等核苷酸序列分析

23、Gene Structure 密码子使用偏性分析密码子使用指标(Codon usage indices) (1) 密码子适应性指标CAI (codon adaption index) (2) 最优密码子使用频率FOP (frequency of optimal codons) (3)密码子偏性指标CBI (codon bias index) (4) 有效密码子数ENC (effective number of codons) (5)GC含量 (GC content of gene) (6)密码子第三位GC含量 (GC of silent 3rd codon position)核苷酸序列分析Ge

24、ne Structure 密码子使用偏性分析密码子使用指标(Codon usage indices)(7) 密码子第三位A、T、C、G含量( silent base composition) (8) 同义密码子数目 (Number of synonymous codons) (9) 序列氨基酸总数 (Total number of amino acids) (10)蛋白质疏水性 (Hydrophobicity of protein) (11) 蛋白质芳香性 (Aromaticity of protein)核苷酸序列分析Gene Structure 密码子适应性指标CAI (codon adap

25、tion index)CAI is a measurement of the relative adaptedness of the codon usage of a gene towards the codon usage of highly expressed genes. The relative adaptedness () of each codon is the ratio of the usage of each codon, to that of the most abundant codon within the same synonymous family. L is th

26、e number of synonymouscodons in the gene.常用于基因表达水平的测量,此值为01 ,越接近1 表示基因的表达水平越高。最优密码子使用频率FOP (frequency of optimal codons)Fop is the fraction of synonymous codons which are optimal codons.If rare synonymous codons have been identified, there is a choice of calculating the original Fop index or a modif

27、ied Fop index密码子偏性指标CBI (codon bias index)CBI is a measure of directional codon bias, and is a measure of the extent to which a gene uses a subset of optimal codonsWhere Nopt = number of optimal codons; Ntot = number of synonymous codons; Nran = expected number of optimal codons if codons were assig

28、ned randomly.有效密码子数ENC (effective number of codons)取值范围在2061之间,即如果每种氨基酸只使用一种密码子则有效密码子数为20,如果各种同义密码子的使用机会完全均等,则有效密码子数为61,越靠近20偏性越强。 ENC值越小,基因的密码子偏爱程度越大。 单子叶植物玉米、高粱、大麦、小麦、水稻的ENC值均小于40,而双子叶植物拟南芥、豌豆的ENC分别为和,表明5种单子叶植物的waxy基因具有较强的密码子偏好,而双子叶植物的偏好性则相对较低。 7个物种waxy基因密码子的ENC值和GC3含量 相对同义密码子使用频率RSCU (relative synonymous codonusage)xij表示编码第i个氨基酸的第j个密码子的出现次数, ni表示编码第i个氨基酸的同义密码子的数量。 密码子使用偏性分析工具密码子使用偏性分析工具CodonW使用数据详见Check th

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论