




已阅读5页,还剩61页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
,重复序列分析开放读码框(openreadingframe,ORF)的识别基因结构分析内含子/外显子剪切位点识别选择性剪切分析CpG岛的识别核心启动子/转录因子结合位点/转录启始位点的识别转录终止信号的预测GC含量/密码子偏好性分析,核苷酸序列分析,重复序列分析,原核基因组中除rRNA、tRNA基因有多个拷贝外,重复序列(repetitivesequences)不多。哺乳动物基因组中则存在大量重复序列,分为3类:高度重复序列。一般较短,长10300bp,重复106次左右,占基因组10%60%,在人类基因组中约占20%,功能还不明确。,核苷酸序列分析ORF,重复序列分析,中度重复序列。长10300bp,重复10105次,占基因组1040%。哺乳类中含量最多的一种称为Alu的序列,长约300bp,重复3105次,在人类基因组中约占7%,功能不是很清楚。单拷贝序列。这类序列基本上不重复,占哺乳类基因组的50%80%,在人类基因组中约占65%。由于大量重复序列影响序列分析,因此在对真核基因分析前,最好把重复序列屏蔽掉。,核苷酸序列分析ORF,/cgi-bin/WEBRepeatMasker,Arabidopsisthalianachromosome2,partsequence(NC_003071.1),Output,开放读码框的识别,开放读码框(openreadingframe,ORF)是一段起始密码子(ATG)和终止密码子(TAA,TAG,TGA)之间的碱基序列ORF是潜在的蛋白质编码区原核生物中多数基因的编码序列在100氨基酸以上;真核生物的编码区由内含子和外显子组成,其外显子的平均长度约为50个氨基酸。预测ORF的方法有两类:基于统计分析和模式识别(如GENSCAN,GeneMark,GRAILII等),基于同源比对。,核苷酸序列分析ORF,开放读码框的识别,Kozak规则:ORF中起始密码子ATG前后的碱基具有特定的偏好性。若将第一个ATG中的碱基分别标为1、2、3位,则Kozak规则可描述如下:第4位的偏好碱基为G;ATG的5端的15bp范围内的侧翼序列内不含碱基T;第3、6、9位G为偏好碱基;除第3、6、9位,在整个侧翼序列区中,C为偏好碱基。,核苷酸序列分析ORF,核苷酸序列分析ORF,开放读码框的识别,预测ORF的方法都是针对特定物种而设计的,如GENSCAN最初是针对人类的,后扩展对脊椎动物、果蝇、拟南芥、玉米基因的预测。GlimerM适于恶性疟原虫、拟南芥、曲霉菌和水稻对mRNA,cDNA,EST,宜用GetOrf,ORFFinder,Plotorf,BestORF等,核苷酸序列分析ORF,应用ORFFinder预测水稻瘤矮病毒(RGDV)S8片断的ORF,ORFFinder:/gorf/gorf.html水稻瘤矮病毒(ricegalldwarfvirus,RGDV)引起的水稻瘤矮病是中国及东南亚国家水稻上的一种重要病毒病害.为构建融合蛋白的表达载体,需要对RGDVS8片断的基因序列(GenBank登陆号:AY216767)进行ORF分析并确定其位置,为设计表达引物提供信息.提交序列:以登陆号或直接粘贴FASTA格式的序列.参数设置:可设置待分析序列片断的起始和结束位置;ORFFinder提供了22种遗传密码表可供选择。这里选择默认参数.,核苷酸序列分析ORF,TheGeneticCodes,点击,点击,结果验证,采用数据库搜索方法对选定的ORF进行验证BLASTB比对搜索到多个显著相似的序列,因此所预测的ORF可信度比较高,点击,GetOrfhttp:/bioweb.pasteur.fr/seqanal/interfaces/getorf.html,ggccagatggaacatattgctttcgggagcacaaggatcgggtctactacgtctcggagcggattttgaagctgagcgagtgcttcggctacaagcagctggtgtgcgtgggcacctgcttcggcaagttctccaagaccaacaaactgaagttccatatcacggcgctctactacttggcgccctacgcccagtacaaggtgtgggtgaagccctccttcgagcagcagtttctctacg,输出结果,GENSCAN/GENSCAN.html,ggccagatggaacatattgctttcgggagcacaaggatcgggtctactacgtctcggagcggattttgaagctgagcgagtgcttcggctacaagcagctggtgtgcgtgggcacctgcttcggcaagttctccaagaccaacaaactgaagttccatatcacggcgctctactacttggcgccctacgcccagtacaaggtgtgggtgaagccctccttcgagcagcagtttctctacg,输出结果,启动子及转录因子结合位点分析,启动子(Promoter)是RNA聚合酶识别、结合并开始转录所必需的一段DNA序列。原核生物启动子序列包括:CAP序列(增强聚合酶的结合和转录的起始序列,-70-40)-10序列:在-4到-13bp处,有保守序列TATAAT,称为Pribnow框,各碱基频率:T89A89T50A65A65T100-35序列:约在-35处有保守序列TTGACA,其中TTG十分保守,各碱基频率:T85T83G81A61C69A52,核苷酸序列分析ORF,启动子及转录因子结合位点分析,真核生物启动子是在基因转录起始位点(+1)及其5上游大约100200bp或下游100bp的一组具有独立功能的DNA序列,包括:核心启动子(corepromoter):转录起始位点(+1)一般是A或G及转录起始位点上游-25-30的TATA框上游启动子元件(upstreampromoterelement,UPE):包括通常-70bp附近的CAAT框(GGCCAATCT)和GC框(GGGCGG)等,核苷酸序列分析ORF,PromoterScan:80/molbio/proscan,粘贴AY684193输出结果,内含子/外显子剪切位点识别,对基因组序列的读码框区域进行预测内含子5端供体位点(donorsplicesite):GT内含子3端受体位点(acceptorsplicesite):AG内含子区域核苷酸组分是识别编码区的重要依据,核苷酸序列分析GeneStructure,不同的序列通常采用不同的分析方法NetGene2和SpliceView用于分析基因组核苷酸序列编码区的剪切位点和内含子mRNA/cDNA序列可用Spidey,SIM4,BLAT和BLAST等分析工具,内含子/外显子剪切位点识别,如何分析mRNA/cDNA的外显子组成?RNASPL与相应的基因组序列比对,分析比对片段的分布位置预测工具:Spidey,SIM4,BLAT,BLAST,FASTA,核苷酸序列分析GeneStructure,核苷酸序列分析GeneStructure,NetGene2http:/www.cbs.dtu.dk/services/NetGene2/,用于人类、线虫和拟南芥的基因序列分析报告受体位点和供体位点信息,对DNA正负两条链分析图形显示可能的编码区、受体位点和供体位点信息,ATGGGAAACTGGGTGGTTAACCACTGGTTTTCAGTTTTGTTTCTGGTTGTTTGGTTAGGGCTGAATGTTTTCCTGTTTGTGGATGCCTTCCTGAAATATGAGAAGGCCGACAAATACTACTACACAAGAAAAATCCTTGGGTCAACATTGGCCTGTGCCCGAGCGTCTGCTCTCTGCTTGAATTTTAACAGCACGCTGATCCTGCTTCCTGTGTGTCGCAATCTGCTGTCCTTCCTGAGGGGCACCTGCTCATTTTGCAGCCGCACACTGAGAAAGCAATTGGATCACAACCTCACCTTCCACAAGCTGGTGGCCTATATGATCTGCCTACATACAGCTATTCACATCATTGCACACCTGTTTAACTTTGACTGCTATAGCAGAAGCCGACAGGCCACAGATGGCTCCCTTGCCTCCATTCTCTCCAGCCTATCTCATGATGAGAAAAAGGGGGGTTCTTGGCTAAATCCCATCCAGTCCCGAAACACGACAGTGGAGTATGTGACATTCACCAGCATTGCTGGTCTCACTGGAGTGATCATGACAATAGCCTTGATTCTCATGGTAACTTCAGCTACTGAGTTCATCCGGAGGAGTTATTTTGAAGTCTTCTGGTATACTCACCACCTTTTTATCTTCTATATCCTTGGCTTAGGGATTCACGGCATTGGTGGAATTGTCCGGGGTCAAACAGAGGAGAGCATGAATGAGAGTCATCCTCGCAAGTGTGCAGAGTCTTTTGAGATGTGGGATGATCGTGACTCCCACTGTAGGCGCCCTAAGTTTGAAGGGCATCCCCCTGAGTCTTGGAAGTGGATCCTTGCACCGGTCATTCTTTATATCTGTGAAAGGATCCTCCGGTTTTACCGCTCCCAGCAGAAGGTTGTGATTACCAAGGTTGTTATGCACCCATCCAAAGTTTTGGAAT,Spidey/IEB/Research/Ostell/Spidey/,可对cDNA或EST序列分析NCBI开发,基于BLAST和DotView局部比对算法优势在于能同时将多条mRNA/cDNA或EST序列与基因组序列进行比对,选择性剪切(Alternativesplicing)分析,核苷酸序列分析GeneStructure,选择性剪切(Alternativesplicing)分析,选择性剪接是调控基因表达的重要机制了解不同物种、细胞、发育阶段、环境压力下基因的调控表达机制分析方法:查询选择性剪切相关的网站多序列比对,查询选择性剪切相关的网站,核苷酸序列分析GeneStructure,从已知基因的功能推测剪切机制,分析EST序列的选择性剪切,Seq1ATGGGAAACTGGGTGGTTAACCACTGGTTTTCAGTTTTGTTTCTGGTTGTTTGGTTAGGGCTGAATGTTTTCCTGTTTGTGGATGCCTTCCTGAAATATGAGAAGGCCGACAAATACTACTACACAAGAAAAATCCTTGGGTCAACATTGGCCTGTGCCCGAGCGTCTGCTCTCTGCTTGAATTTTAACAGCACGCTGATCCTGCTTCCTGTGTGTCGCAATCTGCTGTCCTTCCTGAGGGGCACCTGCTCATTTTGCAGCCGCACACTGAGAAAGCAATTGGATCACAACCTCACCTTCCACAAGCTGGTGGCCTATATGATCTGCCTACATACAGCTATTCACATCATTGCACACCTGTTTAACTTTGACTGCTATAGCAGAAGCCGACAGGCCACAGATGGCTCCCTTGCCTCCATTCTCTCCAGCCTATCTCATGATGAGAAAAAGGGGGGTTCTTGGCTAAATCCCATCCAGTCCCGAAACACGACAGTGGAGTATGTGACATTCACCAGCATTGCTGGTCTCACTGGAGTGATCATGACAATAGCCTTGATTCTCATGGTAACTTCAGCTACTGAGTTCATCCGGAGGAGTTATTTTGAAGTCTTCTGGTATACTCACCACCTTTTTATCTTCTATATCCTTGGCTTAGGGATTCACGGCATTGGTGGAATTGTCCGGGGTCAAACAGAGGAGAGCATGAATGAGAGTCATCCTCGCAAGTGTGCAGAGTCTTTTGAGATGTGGGATGATCGTGACTCCCACTGTAGGCGCCCTAAGTTTGAAGGGCATCCCCCTGAGTCTTGGAAGTGGATCCTTGCACCGGTCATTCTTTATATCTGTGAAAGGATCCTCCGGTTTTACCGCTCCCAGCAGAAGGTTGTGATTACCAAGGTTGTTATGCACCCATCCAAAGTTTTGGAAT,分析EST序列的选择性剪切,BLAST搜索Seq1,发现它与多条NOX1基因高度相似,因此它可能是NOX1基因的选择性剪切产物,分析EST序列的选择性剪切,在ProSplicer网站搜索NOX1基因,结果表明NOX1基因有不同的选择性产物,Output,分析EST序列的选择性剪切,收集不同剪切体的mRNA/cDNA/EST序列,如AF166316,AF166327,AF166328,NM_013955,与Seq1比对,可判断Seq1的剪切机制。Seq1与AF166327最为相似,与AF166327在基因的5相匹配,而缺失了第1013号外显子区域。,Seq1与AF166317比对结果,基于序列比对分析选择性剪切,核苷酸序列分析GeneStructure,评判的标准:来自Unigene的高质量数据Exon至少有3条ESTs覆盖Exon周围有GT-AG信号Blast比对Score值100相似度95%S.Guptaetal.,GenomewideidentificationandclassificationofalternativesplicingbasedonESTdata,Bioinformatics2004,20(16):2579-2585,基因周围调控序列分析CpG岛,位于真核生物基因转录起始位点上游,GC含50%,长度几百到几千“p”表示“C”和“G”以磷酸二酯键连接一般CpG岛出现在脊椎动物看家基因(housekeepinggene)或频繁表达基因中活性基因的CpG岛具有抵抗序列甲基化的作用80%的人类基因的转录起始位点存在CpG岛,因而搜索CpG岛可为发现基因提供重要线索,核苷酸序列分析GeneStructure,http:/www.ebi.ac.uk/emboss/cpgplot/,CpgplotCpgreportIsochore,AF129756.1,ResultsForCpgplotCpgreportIsochore,Example,基因周围调控序列分析转录终止信号的预测,真核生物编码基因中,转录终止信号是在mRNA序列的3端终止密码子下游置上加尾的信号,主要标志为出现AATAAA序列,可以重复出现,在其后的10-15bp处开始合成PolyA.在基因预测软件中,转录终止信号也被化定基因的范围,以便对ORF区域进行更好的识别和分析,核苷酸序列分析GeneStructure,Polyadq/tools/polyadq/polyadq_form.html,粘贴AF129756.1.txt中的序列,密码子使用偏性分析遗传密码子表,SecondPosition,FirstPosition(5end),ThirdPosition(3end),密码子使用偏性分析,生物体内普遍存在同义密码子非均衡使用的现象,例如:某一物种或某一基因通常倾向于使用一种或几种特定的同义密码子,这些密码子被称为最优密码子(optimalcodon),此现象被称为密码子偏性(codonbias)。.不同物种的基因、不同功能的基因在密码子使用上存在着明显的偏性,核苷酸序列分析GeneStructure,密码子使用偏性分析意义,基因异源表达与某些物种的蛋白表达水平相关揭示有关物种间或某一物种的基因家族间的基因进化规律基因的翻译调控其他应用密码子偏性的分析也常对许多实验操作起指导和辅助作用,如:鉴定编码区,制备基因克隆的寡核苷酸探针,基因芯片设计等,核苷酸序列分析GeneStructure,密码子使用偏性分析密码子使用指标(Codonusageindices),(1)密码子适应性指标CAI(codonadaptionindex)(2)最优密码子使用频率FOP(frequencyofoptimalcodons)(3)密码子偏性指标CBI(codonbiasindex)(4)有效密码子数ENC(effectivenumberofcodons)(5)GC含量(GCcontentofgene)(6)密码子第三位GC含量(GCofsilent3rdcodonposition),核苷酸序列分析GeneStructure,密码子使用偏性分析密码子使用指标(Codonusageindices),(7)密码子第三位A、T、C、G含量(silentbasecomposition)(8)同义密码子数目(Numberofsynonymouscodons)(9)序列氨基酸总数(Totalnumberofaminoacids)(10)蛋白质疏水性(Hydrophobicityofprotein)(11)蛋白质芳香性(Aromaticityofprotein),核苷酸序列分析GeneStructure,密码子适应性指标CAI(codonadaptionindex),CAIisameasurementoftherelativeadaptednessofthecodonusageofagenetowardsthecodonusageofhighlyexpressedgenes.Therelativeadaptedness()ofeachcodonistheratiooftheusageofeachcodon,tothatofthemostabundantcodonwithinthesamesynonymousfamily.Listhenumberofsynonymouscodonsinthegene.常用于基因表达水平的测量,此值为01,越接近1表示基因的表达水平越高。,最优密码子使用频率FOP(frequencyofoptimalcodons),Fopisthefractionofsynonymouscodonswhichareoptimalcodons.Ifraresynonymouscodonshavebeenidentified,thereisachoiceofcalculatingtheoriginalFopindexoramodifiedFopindex,密码子偏性指标CBI(codonbiasindex),CBIisameasureofdirectionalcodonbias,andisameasureoftheextenttowhichageneusesasubsetofoptimalcodonsWhereNopt=numberofoptimalcodons;Ntot=numberofsynonymouscodons;Nran=expectednumberofoptimalcodonsifcodonswereassignedrandomly.,有效密码子数ENC(effectivenumberofcodons),取值范围在2061之间,即如果每种氨基酸只使用一种密码子则有效密码子数为20,如果各种同义密码子的使用机会完全均等,则有效密码子数为61,越靠近20偏性越强。ENC值越小,基因的密码子偏爱程度越大。,单子叶植物玉米、高粱、大麦、小麦、水稻的ENC值均小于40,而双子叶植物拟南芥、豌豆的ENC分别为52.33和51.39,表明5种单子叶植物的waxy基因具有较强的密码子偏好,而双子叶植物的偏好性则相对较低。,7个物种waxy基因密码子的ENC值和GC3含量,相对同义密码子使用频率RSCU(relativesynonymouscodonusage),xij表示编码第i个氨基酸的第j个密码子的出现次数,ni表示编码第i个氨基酸的同义密码子的数量。,密码子使用偏性分析工具,密码子使用偏性分析工具CodonW使用,Input.dat数据详见Tutorial.txtChecktheinputdatacodonwinput.dat-nomenucodonwinput.datall_indicesnomenu输出文件input.out和input.blkcodonwinput.datall_indicesc_type2f_type4
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- T/LNPSA 0003-2024步态和人脸融合采集通用技术要求
- 高三美术培训知识课件
- 山东中考英语真题含参考答案 -5套
- 离婚协议中财产评估与分割的独立第三方操作合同
- 物业服务公司员工安全责任与绿色生活承诺书
- 完整离婚协议补充书:财产分割及子女抚养协议修订
- 企业并购项目英文合同结构解析与风险防控
- 离婚协议中关于共同债务清偿及房产过户协议示范文本
- 离婚协议书样本(涵盖共同债务处理)
- 考研时间规划咨询服务合同
- 2025全新劳动合同范本
- 材料作文点拨课件+2025-2026学年统编版语文九年级上册
- 无线wifi安装协议书
- 中国智能驾驶商业化发展白皮书(2025):平权时代智驾商业落地的破局之路
- 2026年中考语文专项复习:新闻考点+答题方法知识点 讲义(含练习题及答案)
- 小学科学新教科版二年级上册全册教案(2025秋版)
- 病房环境清洁与消毒PDCA课件
- 婚内财产协议书2025
- 【《A公司电线电缆产品营销策略浅析》5800字(论文)】
- 2025年国家卫生健康委医药卫生科技发展研究中心招聘考试笔试试题(含答案)
- 公司注册登记培训课件
评论
0/150
提交评论