开放阅读框与基因识别_第1页
开放阅读框与基因识别_第2页
开放阅读框与基因识别_第3页
开放阅读框与基因识别_第4页
开放阅读框与基因识别_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、06生信 黄鑫章2006062114开放阅读框(ORF, frame)基本思路 实现方法举例open readingORF蛙ORF(open reading frame)是一个没有终止编码的密码子序列。对于任何给定的核酸序列(单链DNA或 mRNA),根据密码子的起始位置,可以按照 3种方式解释。例如,对于序列ATTCGATCGCAA,一种可 能的密码子阅读顺序为ATT、CGA、TCG、CAA,另外两种可能的密码子阅读 顺序分别为A、TTC、GAT、CGC、AA和 AT、TCG、ATC、GCA、A。这三种顺序 被称为阅读框(ORFQpen reading frame)基本思路姦找到一比较长的序

2、列,其相应的密码子序 列不含终止密码子,那么这段序列可能就 是编码区域实现方法 扫描给定的DNA序列,在3个不同的阅读 框屮寻找较长的ORF当遇到终止密码子后,回头寻找起始密码 子,以确定完整的编码区域举例胰岛素由A、B两个肽链组成。人胰岛素(Insulin Human)A链有11种21个氨基酸,B 链有15种30个氨基酸,共16种51个氨基酸 组成 NM 000207Homo sapiens insulin (INS). mRNAComment F的tures SeQuenceLOCUS BJ00207469 bp mRJIA linear PRI 28-5EP-2009DEFINITION

3、 Hobo sapiens insulin (INS) 9 1PNA.ACCESSION UHJ00207VERSIONNHJ00207.2 GI: 109148525REWORDS"SOURCE Homo sapiens (huian)ORGANISM Homo sguiensEukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostoii; Kanmalia; Eutheria; Euarchontoglires; Primes; Haplorrhini; Catarrhim; Houmdae; Homo.PEFEP

4、ENCE 1 (bases 1 to 469)AUTHORS Brennan,I.M.# Feltrin,K.L., Nair,N.S.; HauskenzT.# LittleJ.J.;GentilcoieD.,JoneS/K.L.# Horowitz,H. andFeinle-Bisset;C.ORIGIN1 agccctccag gacaggctgc atcagaagag gccatcaagc agatcactgt ccttctgcca61 tggccctgtg gatgcgcctc ctgcccctgc tggcgctgct ggccctctgg ggacctgacc 121 cagcc

5、gcagc ctttgtgaac caacacctgt gcggctcaca cctggtggaa gctctctacc 181 tagtgtgcgg ggaacgaggc ttcttctaca cacccaagac ccgccgggag gcagaggacc 241 tgcaggtggg gcaggtggag ctgggcgggg gccctggtgc aggcagcctg cagcccttgg 301 ccctggaggg gtccctgcag aagcgtggca ttgtggaaca atgctgtacc agcatctgct 361 ccctctacca gctggagaac tad

6、gcaact agacgcagcc cgcaggcagc cccacacccg 421 ccgcctcctg caccgagaga gatggaataa agcccttgaa ccagcaaaa/Tools for data miningGenBank sequence submission support and softreFTP site download data arid softwareTools for data miningGenBank sequence submission support and softreFTP site download data arid soft

7、wareORF Finder (Open Reading Frame Finder)ErrfrezBLASTOMIMTaxonomyPie ORF Finder (Open Reading Frame Finder) is a graphical analysis tool which finds all open reading frames of s sequence or in a sequence already in the database.This tool identifies all open reading frames using the standard or alte

8、mabve genetic codes The deduced amino aci and searched against the sequence database using the WM BLAST server. The ORF Finder should be helpful ir submissions It is also packaged with the Sequin sequence submission softwareEnter Gl or ACCESSION 丽而S I 断咄 | 画or sequence in FASTA format2 NCBIORF Finde

9、r (Open Reading Frame Finder)PubMedEntrezBLASTOMIMTaxonomyStructureHomo sapiens insulin (INS), mRNA| Viewy GenBank “ 丨 Redraw W 匕空価怕级訂-222.468447+360.3923333180.467288-1:>06.355150-31.143143+11 .138138+2:肖 1.468129+22.118117Frame &om to LengthView 1 GenBankyRedraw 103 ySixFranesAccpt (Length.

10、 148 aaAlternative Initiation CodonsFrame from to Length-2 22.468 447+3 Q 60.392333-3CH 80467288-1口206355150口 1143143+1o 1.138138+2 341.468129+2 口 2.118117468 vttgccggctcaQgggccctattccat.ccctctcggcgcaggag FAGSRALFHLSRCRR423 cggcgggcgcggggctgcctgcgggccgcgtctagtcgcagtagt RRVUGCLRAASSCSS378 tctccagezgg

11、tagagggagcagatgetggtacagcattgttccaSPAGRGSRCWYS I V P333 caatgccacgcctctgcagggacccctccagggccaagggctgcQ QCHASAGTPPGPRAi288 ggccgcccgcaccagggcccccgcccagccccacccgccccacccGCLHQGPRPAPPAPP243 gcaggtc亡匕utguutuuuggugggtu匕t:gggt.gtgt:agAag&Ag亡XGPLPPGGSWVCRRS198 ctcorcccccgcacactaggtagaaagcctccaccQggtgtgag

12、cLVPRTLGRELPPGVS153 cgcacaggcgLcggcvcacaaaggccQcggccgggvcaggccccc RTGVGSQPLRLGQVP108 agagggacagcagcgccagcaggggcaggaggcgcatccacagggRGPAAPAGAGGASTG63 cccco仃ua仃dacjQdcaQ匕cjdcctoc匕匕Qdcaycccc匕匕c j - 22 PUQKDSDLLDGLF *ORF预测的可靠性密码子第3碱基趋向于相同的几率是否远大 于仅仅由随即产生的几率分析ORF中的密码子是否与那些用于同一 生物其他基因中的密码子相一致将ORF翻译成氨基酸序列,然

13、后将结果序 列与序列数据进行比较,如果发现1个或多 个显著相似序列,则所预测ORF的可信度 较高Pro用am bbstp " DatabaseHomo sapiens insulin (INS), mRNAnf7 : ELAST 0 with parameters Cognitor |Anonynous(148 letters)No hitsQuery= Anonymous(148 letters)Database: xyva108, 091 sequences: 33,061,072 total letters No hits found *Database: xyvaPosted

14、 date: Feb 14, 20031:48 PMNumber of letters in database: 33# 061$ 072Number of sequences in database: 108,091View 1 GenBank 町展加* 103 v I SixFranesAccqX Length: 110 aaAlterriatrvG Initiation CodonsFrame from to Leng2 B 22 468 447+3 60. 392 3333 180.467 288-1 3 206.35515031143143+11138138+2s 31468129+

15、2B211211760 . gccctgtgg. cgcctcctgcccctgctggcqctgctggcc nALUMBLLPLLALLA 105 ctctggggacct gacccagecrgcagcc111 gtgaaccaacacetg LVGPDP1AAFVNQHL 150 tacaactcacacctaatgaaaactctctftcctftatotacaaacra CG3HLVEALYLVCGE195 cgaggcttcttctacacacccaagacccgccgggaqgcagaggacRGFFYTPKTRREAED240 ctgcaggtggggcaggtggagetg

16、ggcgggggccctggtgcaggc LQVGQVELGGGPGAGZ85 ageergcagcccztggccc-ggagjggtccctgc:agaagcgtggcSLQPLALEG3LQKRG 330 actgtggaacsacgctQcaccaacaccLQccccctCLaccaacca IVEQCCTSICSLYQL 375 gagoactactgcexacte 392Anonynous (110 letters)10 related COG (3 6eTs) - HELP节core: 0110 letters5T ->11117835 m -血 1066- OT (5

17、42) - CTO?51 ->K®8 (343) M3:>>117835Length = 467Score = 26.6 bits (57), Expect 二&2Identities = 12/22 (54%), Positives = 14/22 (63幻 rQuery: 61 LQVGQVELGGGPGAGSLQPLAL 82L EL GG GAG+ QP LSbjct: 427 LPLGSEELAGGIGAGAFQPTEL 448>ML2410Length = 542tS Score = 266 bits (57), Expect 二&

18、2Identities = 13/25 (52%), Positives = 18/25 (72%), Gaps = 1/25 (4%)9Query: 54 TRREAEDLQTC-QVELGGGKAGSL 77»T+ + +LQ G QV LG GPGAfiXSbjet: 413 TKEKRVNLQAGEQVRLGQGPGACTV 437 f >BH0548*Length = 343ft Score = 26.6 bits (57), Expect 二& 2» Identities = 16/39 (4IX), Positives = 21/39 (53%)

19、t» Query: 53 KTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGI 91»KT卄 AE+ +V QV L GG A ALE + K It Sbjct: 259 KTKKAAEEYKVRQVLLAGGVAAXKGLRTALEEAFFKEPI 297proinsulin precursor Homo sapiensCommentLOCUS DEFINITION ACCESSION VERSION DBSOURCE REWORDS SOURCEORGANISMFeatures SeauenceNP_000198110 aaproinsulin

20、 precursor Hono sapiens NP_000198NP_000198.1 GI:4557671PEFSEQ: accession KM_00020? 2Homo sapiens (hunan)Homo saui皀nslinear PRI ll-OCT-2009ORIGIN161/malwrllpl lallalwgpd pa&afvnqhl cgshlvealy lvcgergffy tpktrreaed lqpzgqvelgg gpgagslqpl alegslqkrg iveqcctsic slyqlenycn胰岛素由A、B两个肽链组成。人胰岛素 (Insulin

21、Human)A链有笛种21个氨基酸,B 链有15种30个氨基酸,共16种51个氨基酸 组成其中A7(Cys)B7(Cys)、A20(Cys)-B19(Cys) 四个半胱氨酸中的疏基形成两个二硫键, 使A、B两链连接起来。此外A链中A6(Cys) 与A11 (Cys)之间也存在一个二硫键。在B细胞的细胞核中,第“对染色体短臂上胰岛 素基因区DNA向mRNA转录,mRNA从细胞核移 向细胞浆的内质网,转译成氨基酸相连的长 月太前胰岛素原(Poinsulin),前胰岛素原经过蛋白水解作用除其前肽,生成胰岛素原。胰岛 素原随细胞浆中的微泡进入高尔基体,由86(84) 个氨基酸组成的长肽链胰岛素原在高尔

22、基体 中经蛋白酶水解生成胰岛素及C肽,分泌到B细胞 夕卜,进入血液循环中。未经过蛋白酶水解的胰岛 素原,一小部分随着胰岛素进入血液循环,胰岛 素原的生物活性仅及胰岛素的5%。Genomic regions, transcripts, and products(minus strand) Go to 号fersncwis卑ewe更m $毗J000119V2L&为孕»1_W2(7.2I - “脚? f5oh | - w忖畑 r-fr=dnGenomic contextchromosome: 11; Location: llpl5.S2H胖怆»H19«-GF2【GF2IGF£ftSTn our riQw gQmncQ Viqm4刃机加9a洌中灯*”c 宓?®LS IM$ in M,pVigyr2滋叭«C12I呎 THHomo sapiens insulin (INS), mRNAProgram blastpv Database | nri wdi parameters Cognitor |1 GenBankVRedraw100SixFraroesView Length S8 aaAccept Al仙n合砸 Initiation CodonsFrame from to Length2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论