lingRNA二级结构找基因_第1页
lingRNA二级结构找基因_第2页
lingRNA二级结构找基因_第3页
lingRNA二级结构找基因_第4页
lingRNA二级结构找基因_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

§3.9RNA二级结构预测背景:以前人们认为,绝大部分的RNA分子要么是蛋白质基因表达的信使分子(mRNA),要么是协助完成基因表达的结构分子(tRNA和rRNA)。但是,近几年来,人们发现了很多新的RNA分子,它们虽然也从基因组DNA中转录而来,它们不是tRNA和rRNA以及其他已知的RNA(如snRNA),又不表达为蛋白质,因此也不是mRNA。不管是原核生物还是真核生物,都存在这类RNA分子,原核的情况下称为smallRNA(sRNA),真核的情况下通常称为noncodingRNA(ncRNA)。当前1页,总共65页。人们发现,这一类RNA分子起着非常重要的生物学功能,如影响发育过程、调节转录、影响染色体复制、对RNA进行加工和修饰、影响mRNA的稳定性进而影响翻译、甚至影响蛋白质的降解和转运,……,等等。这一类RNA分子一般通过两种机制发挥功能:1.和目标分子形成碱基配对,如RNAi;2.形成空间结构,如核酶(ribozyme)。现在,越来越多的科学家开展了对这类RNA的研究,《SCIENCE》杂志连续几年将之评为十大热门研究领域之一。在这种形势下,对RNA结构的预测就显得格外重要。当前2页,总共65页。一条单链RNA可以折叠成非常多可能的二级结构,这种可能的数目随着序列的长度呈指数增长。一条200个碱基的RNA,就有1050种可能的结构,而一般说来,正确的只有一种。必须有一种评价函数(指标),使得正确结构对应的值最大(或最小)。当前3页,总共65页。§3.9.1

RNA结构的特征和术语因为RNA是单链分子,在实际的生物体环境中它会折叠起来,形成很多的茎(stem)和环(loop)。绝大部分的茎环结构互相之间是“嵌套”关系(nested),即对于任意两对碱基对(i,j)和(m,n),要么i<m<n<j,要么m<i<j<n。当前4页,总共65页。§3.9.2碱基对数目最大化(Nussinov)方法文献:SIAMJournalofAppliedMathematics35:68-82,1978该方法认为,那种具有最大数目的碱基对的结构就是正确的结构。计算时采用动态规划的思想,是一种递归的过程:先定出一小段序列的最好二级结构,再用相同的法则将序列扩展,找到相应的最好二级结构;这种方法不断进行,直到全长序列。当前5页,总共65页。KeyIdea:要在更短序列的最好二级结构基础上获得序列i到j的最好二级结构,只有4种可能的途经:原有结构两端各延伸一个残基并将它们配对;向5’端延伸一个不配对的残基;向3’端延伸一个不配对的残基;将已存在最好二级结构的两段合并起来;当前6页,总共65页。具体算法:将一段长度为L的RNA序列记为b1,b2,……,bi,……,bj,……bL并定义并记从bi到bj所构成的子序列所能形成的最大碱基对数目为(i,j)。当前7页,总共65页。第一步:初始化Let(i,i-1)=0,fori=2toL;(i,i)=0,fori=1toL;第二步:递归计算从所有的长度为2的子序列开始,一直到长度为L,按以下公式计算(i,j):当前8页,总共65页。以序列GGGAAAUCC为例子:初始化(i,i-1)=0,fori=2toL;(i,i)=0,fori=1toL;b.开始递归计算当前9页,总共65页。C.继续递归过程d.完成递归计算(1,L)的值就是该序列所能形成碱基对的最大数目。从(1,L)开始,通过回溯过程,就可得到相应的二级结构。当前10页,总共65页。回溯算法从右上角(1,L)开始,放进堆栈。递归:反复运用以下规则,直到堆栈为空:取出堆栈上层位置,假设为(i,j),如果i>=j,继续取堆栈;如果(i+1,j)=(i,j),放(i+1,j)入堆栈;如果(i,j-1)=(i,j),放(i,j-1)入堆栈;

如果(i+1,j-1)+(i,j)=(i,j)记录(i,j)碱基对,放(i+1,j-1)入堆栈;{前三种情况不止一种成立时,须综合考虑}否则fork=i+1toj-1:{if(i,k)+(k+1,j)=(i,j)放(k+1,j)和(i,k)入堆栈并跳出循环;}当前11页,总共65页。选取不同的回溯路径得到不同的结构当前12页,总共65页。注意:回溯的线路经常不是唯一的,所以结构也是不唯一的,其中有些显然是不可能的。另外,这种方法无法考虑“假结”(pseudoknot)的情况。这种算法可以加以推广,比如让GC配对得3分,而AU配对得2分,这时候只需对(i,j)函数重新定义即可。当前13页,总共65页。§3.9.3自由能最小化(Zuker)方法简介

文献:NucleicAcidsResearch9:133-148,1981

MethodsinEnzymology180:262-288,1989实际上,RNA折叠的真正动力是链内“相互作用”的而不是“数碱基对”。Zuker方法是一种自由能最小化方法,它假设正确的结构应具有最低的自由能(G)。Zuker方法中G被近似为来自loops,basepairs及其他二级结构元素的贡献之和。对于一个stem,其贡献计算为碱基对的“堆积能”而不是简单的各碱基对贡献之和。例如,一个有n个碱基对的stem,其贡献是n-1个堆积能之和。当前14页,总共65页。详细规则参考:PNAS83:9373-9377,1986有了这些规则,运用类似于前面Nussinov方法中的动态规划算法(当然实际要复杂很多,但思想一样),就可获得可能为自由能最小化的二级结构。当前15页,总共65页。§3.9.4多序列alignment法的基本思路一个生物分子,如果它主要依靠其结构发挥功能,则一般地其结构的保守性要高于其序列的保守性;对于结构RNA中的stem,为了保证其结构不被破坏,就有了碱基“协同突变”的特点:根据这个特点,我们能很有把握地推测其二级结构。当前16页,总共65页。显然,位点对(2,9)提供了比其它位点对更多更可靠的二级结构信息。信息论中一种称为mutualinformation的指标恰好能定量计算这种信息,公式为:Mij的意义是:i,j两列的实际变化偏离“各自独立变化”的程度。当前17页,总共65页。例1:i…jU…AU…AU…AU…AMij=0例2:i…jU…AC…GA…UG…CMij=2例3i…jU…AU…AG…CG…CMij=1例4:i…jU…CU…AG…CG…AMij=0思考,如何将其和具体的生物学意义联系起来?当前18页,总共65页。基于一千多个tRNA的多序列alignment,可以画出右图上部的mutualinformation图。对照酵母tRNA-Phe的二级结构结构(右图下部),可以发现,上图中的4簇尖峰和下图中的4个臂完全吻合,甚至因在三级结构上靠近而产生的相关(虚线)也有所体现。到目前为止,这种基于多序列alignment的RNA二级结构预测方法是公认的最成功方法,但是需要很多条件。当前19页,总共65页。§3.9.5网上RNA二级结构预测软件Mfold

server,网址:/applications/mfold/cgi-bin/rna-form1.cgiViennaRNAPackage,网址:http://www.tbi.univie.ac.at/~ivo/RNA/其中的程序RNAfold用的就是自由能最小化(Zuker)方法;GeneBee

服务器,网址:http://www.genebee.msu.su/services/rna2_reduced.html......当前20页,总共65页。利用GeneBee服务器的一个示例当前21页,总共65页。稍等几分钟,即可看到结果:

当前22页,总共65页。当前23页,总共65页。当前24页,总共65页。当前25页,总共65页。当前26页,总共65页。注意:同一个序列用不同的预测程序可能得到不同的结果;如果一条较短序列是一条较长序列的子序列,即使用同一个程序预测,短序列的结构可能和长序列的相应部分的结构不同;同一个序列同一个程序,但条件参数不同,也会得到不同的预测结构。当前27页,总共65页。§3.10

找基因§3.10.1

在基因组DNA序列中寻找编码区基于编码区特征的方法基于数据库的方法注意两类假基因(pseudogenes)§3.10.2

基因的电脑克隆§3.10.3几个常用软件服务器当前28页,总共65页。当前29页,总共65页。CTCGGGCCGTCTCTTGGGCTTGATCGGCCTTCTTGCGCATCTCACGCGCTCCTGCGGCGGCCTGTAGGGC

AGGCTCATACCCCTGCCGAACCGCTTTTGTCAGCCGGTCGGCCACGGCTTCCGGCGTCTCAACGCGCTTT

GAGATTCCCAGCTTTTCGGCCAATCCCTGCGGTGCATAGGCGCGTGGCTCGACCGCTTGCGGGCTGATGG

TGACGTGGCCCACTGGTGGCCGCTCCAGGGCCTCGTAGAACGCCTGAATGCGCGTGTGACGTGCCTTGCT

GCCCTCGATGCCCCGTTGCAGCCCTAGATCGGCCACAGCGGCCGCAAACGTGGTCTGGTCGCGGGTCATC

TGCGCTTTGTTGCCGATGAACTCCTTGGCCGACAGCCTGCCGTCCTGCGTCAGCGGCACCACGAACGCGG

TCATGTGCGGGCTGGTTTCGTCACGGTGGATGCTGGCCGTCACGATGCGATCCGCCCCGTACTTGTCCGC

CAGCCACTTGTGCGCCTTCTCGAAGAACGCCGCCTGCTGTTCTTGGCTGGCCGACTTCCACCATTCCGGG

CTGGCCGTCATGACGTACTCGACCGCCAACACAGCGTCCTTGCGCCGCTTCTCTGGCAGCAACTCGCGCA

GTCGGCCCATCGCTTCATCGGTGCTGCTGGCCGCCCAGTGCTCGTTCTCTGGCGTCCTGCTGGCGTCAGC

GTTGGGCGTCTCGCGCTCGCGGTAGGCGTGCTTGAGACTGGCCGCCACGTTGCCCATTTTCGCCAGCTTC

TTGCATCGCATGATCGCGTATGCCGCCATGCCTGCCCCTCCCTTTTGGTGTCCAACCGGCTCGACGGGGG

CAGCGCAAGGCGGTGCCTCCGGCGGGCCACTCAATGCTTGAGTATACTCACTAGACTTTGCTTCGCAAAG

TCGTGACCGCCTACGGCGGCTGCGGCGCCCTACGGGCTTGCTCTCCGGGCTTCGCCCTGCGCGGTCGCTG

CGCTCCCTTGCCAGCCCGTGGATATGTGGACGATGGCCGCGAGCGGCCACCGGCTGGCTCGCTTCGCTCG

GCCCGTGGACAACCCTGCTGGACAAGCTGATGGACAGGCTGCGCCTGCCCACGAGCTTGACCACAGGGAT

TGCCCACCGGCTACCCAGCCTTCGACCACATACCCACCGGCTCCAACTGCGCGGCCTGCGGCCTTGCCCC

ATCAATTTTTTTAATTTTCTCTGGGGAAAAGCCTCCGGCCTGCGGCCTGCGCGCTTCGCTTGCCGGTTGG

ACACCAAGTGGAAGGCGGGTCAAGGCTCGCGCAGCGACCGCGCAGCGGCTTGGCCTTGACGCGCCTGGAA

CGACCCAAGCCTATGCGAGTGGGGGCAGTCGAAGGCGAAGCCCGCCCGCCTGCCCCCCGAGCCTCACGGC•••••••当前30页,总共65页。§3.10.1

在基因组DNA序列中寻找编码区

基于编码区特征的方法优点:不必依赖于数据库(不必学习和训练),普适性强。缺点:准确度低,特别是对于真核基因,由于其高度复杂性,预测的准确率更低。当前31页,总共65页。1.寻找长ORF该方法较适用于原核生物,例如,我们从某种细菌中测得以下序列:

>MYSEQ1310bp

ggcgtcgccgccgatggcgcttaggcgtagcatggggtggccggggctacggccgctgct

gctggcgggactggctaatctgctgctacccgggtctgcggccgcaggcctgaagctcat

gggcgccccagttaagatgaccgtgtctcaggggcagtcagtgaagctcaactgcagcgt

ggaggggatggaggaccctgacatccactggatgaaggatggcaccgtggtccagaatgc

aagtcaggtgtccatctccatcagcgagcacagctggattggcttactcagccttaagtc

agtggagcgg我们可以将它按六种读框将它硬行翻译成蛋白序列:当前32页,总共65页。

RF-3TAASPA*AYCPTAPAVAAA

RF-2ADGGIASLRLMPHGPSRGSS

RF-1RRRRHRKPTAHPPRP*PRQQ

3'complccgcagcggcggctaccgcgaatccgcatcgtaccccaccggccccgatgccggcgacga5'

5'1ggcgtcgccgccgatggcgcttaggcgtagcatggggtggccggggctacggccgctgct3'

RF1GVAADGA*A*HGVAGATAAA

RF2ASPPMALRRSMGWPGLRPLL

RF3RRRRWRLGVAWGGRGYGRC

RF-3APPVP*DAAVRTQPRLGSA*

RF-2SAPSALRSSGPDAAAPRFSM

RF-1QRSQSIQQ*GPRRGCAQLEH

3'complcgaccgccctgaccgattagacgacgatgggcccagacgccggcgtccggacttcgagta5'

5'61gctggcgggactggctaatctgctgctacccgggtctgcggccgcaggcctgaagctcat3'

RF1AGGTG*SAATRVCGRRPEAH

RF2LAGLANLLLPGSAAAGLKLM

RF3CWRDWLICCYPGLRPQA*SS

当前33页,总共65页。

RF-3PRGL*SSRTEPATLSA*SCR

RF-2PAGTLIVTD*PCDTFSLQLT

RF-1AGWNLHGHRLPL*HLEVAAH

3'complcccgcggggtcaattctactggcacagagtccccgtcagtcacttcgagttgacgtcgca5'

5'121gggcgccccagttaagatgaccgtgtctcaggggcagtcagtgaagctcaactgcagcgt3'

RF1GRPS*DDRVSGAVSEAQLQR

RF2GAPVKMTVSQGQSVKLNCSV

RF3WAPQLR*PCLRGSQ*SSTAA

RF-3PPSPPGQCGSSSPHCRPGSH

RF-2SPISSGSMWQIFSPVTTWFA

RF-1LPHLVRVDVPHLIAGHDLIC

3'complcctcccctacctcctgggactgtaggtgacctacttcctaccgtggcaccaggtcttacg5'

5'181ggaggggatggaggaccctgacatccactggatgaaggatggcaccgtggtccagaatgc3'

RF1GGDGGP*HPLDEGWHRGPEC

RF2EGMEDPDIHWMKDGTVVQNA

RF3WRGWRTLTSTG*RMAPWSRM

当前34页,总共65页。

RF-3LDPTWRW*RACSSQSV*G*T

RF-2L*TDMEMLSCLQIPKSLRLD

RF-1TLHGDGDALVAPNA*EAKL*

3'complttcagtccacaggtagaggtagtcgctcgtgtcgacctaaccgaatgagtcggaattcag5'

5'241aagtcaggtgtccatctccatcagcgagcacagctggattggcttactcagccttaagtc3'

RF1KSGVHLHQRAQLDWLTQP*V

RF2SQVSISISEHSWIGLLSLKS

RF3QVRCPSPSASTAGLAYSALS

RF-3LPA

RF-2TSR

RF-1HLP

3'compltcacctcgcc5'

5'301agtggagcgg3'

RF1SGA

RF2VER

RF3QWS

当前35页,总共65页。我们可以直观地看出,读框2没有碰到终止密码子,所以这段序列可能是蛋白质基因。如果能在被预测为基因的上游的合适位置上找到转录promoter中的保守序列:

-10位置的“TATAAT”(T80A95T45A60A50T96)-35位置的“TTGACA”(T82T84G78A65C54A45)就可增加基因预测的可信度。当前36页,总共65页。2.利用周期特性找编码区原则上说,任何能研究序列周期特性的方法和软件都可以用来探测编码区,如D值得方法(以前讲过),各种频谱分析方法等等。3.利用其他特征找编码区编码区除了有大的开读框架和周期3特性外,还有其它一些特征,如序列复杂度和分维度(后面讲)较高,GC含量高等等,这些都可以被用来寻找或帮助寻找编码区。当前37页,总共65页。基于数据库的方法1.同源性比较法2.经验规律符合法3.通过和EST序列的比较来定位基因当前38页,总共65页。1.同源性比较法将新测得的序列直接和数据库中的已知基因序列或蛋白质序列作同源性比较(BLAST和FASTA);若序列相似性在35%以上、期望值E在0.01以下,就基本上可以确定是基因序列;若相似性特别高,又属于同一物种,则很可能不是新的基因。优点:准确性高,且可预测其编码蛋白质的功能。缺点:很多新的基因在数据库中还找不到同源序列,因而无法用这种方法检测到。当前39页,总共65页。2.经验规律符合法即通过对已知基因的序列特征进行训练学习、总结出规律,再用这个规律来检验新测得的序列,以判断其是否为基因序列,如前面讲过的密码子使用频率方法。另外,马尔科夫链方法(后面讲)以及神经网络(用来预测编码区时)也属于这类方法。优点:是目前寻找新基因的最常用、最有效的方法,准确度也高。缺点:若已有数据不足或数据集选取不当,会影响预测的准确性。另外,对不同的物种常有不同的规律,需要对不同数据集体进行学习和总结,比较麻烦。当前40页,总共65页。3.通过和EST的比较来定位基因EST是ExpressedSequenceTag的缩写,实际上是一些cDNA序列的片段,长度一般为400到500bp。但是,实验中测到的EST序列来源于哪个基因,是基因的哪一部分是随机的,无法事先确定。利用EST序列和基因组序列的比较来确定基因在基因组中的位置,甚至进一步确定基因的精细结构(exon,intron,splicingsites)原则上是可能的。当前41页,总共65页。mRNA的可变剪接EXON1INTRON1EXON2INTRON2EXON3INTRON3EXON4Pre-mRNA正常剪接EXON1EXON2EXON3EXON4成熟mRNA1可变剪接EXON1EXON3EXON4成熟mRNA2可变剪接EXON1EXON2EXON4成熟mRNA3当前42页,总共65页。优点:可以确定基因的精细结构并将其在基因组上定位,这是其他方法难以做到的。现在对人类基因组中基因的标注,很多都采用这个办法。缺点:EST数据库中的数据含有大量的错误,给方法的实施带来很大的困难。另外,由于基因组DNA和EST序列的数据量都十分庞大,导致计算量也十分庞大。当前43页,总共65页。注意两类假基因(pseudogenes)第一类假基因:基因的复制(duplication)会产生相同的基因一前一后紧邻出现的情况。当其中一个积累了太多的有害突变而失去功能时,就成了假基因。由于还有另一个基因发挥正常功能,所以物种仍可存活。第二类假基因:称为“processedpseudogenes”。这类基因也源自正常基因,但没有内含子,其上游也没有promoter。推测这类假基因的产生过程是:正常基因经转录剪接得到成熟mRNA,随后反转录为cDNA,再经转座作用插入染色体的某个位置。当前44页,总共65页。§3.10.2

基因的电脑克隆EST是对应于表达基因的cDNA的一些随机片段,长度一般在400到500bp之间。这些片段相互之间可能有重叠的部分。现在公共EST数据库(如NCBI的dbEST)中人类EST序列总长估计已是人类基因外显子总长的十几倍,所以这种重叠是显而易见的。因此,通过对EST序列的比对拼接,得到全长cDNA序列是完全可能的;进一步,可以对拼接所得的全长cDNA进行分析,找出可能的新基因。这样的过程就称为基因的电脑克隆。当前45页,总共65页。EST序列数据库的形成EST序列数据库当前46页,总共65页。SiClone流程图数据准备,包括:序列纯化及格式标准化-----------------------取出一条种子库大库种子和大库的序列比对判断种子序列能否被延长能—

———延长了的序列代替旧序列否结束,放入contig库当前47页,总共65页。当前48页,总共65页。当前49页,总共65页。几个技术问题判断能否拼接的标准:1.要求的重叠区最小序列相似性2.要求的重叠区最小长

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论