版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 对一条新的基因序列进行生物信息学的分析对一条新的基因序列进行生物信息学的分析 海南中学海南中学 作者:许汝言作者:许汝言 指导老师:黄小指导老师:黄小葵葵论文摘要论文摘要本研究的主要内容是运用生物信息学的手段结合生物学实验方法对从一株产 -甘露聚糖酶的新菌种 A.tabescens EJLY2098获得的新基因序列( 命名为 man)进行生物信息学的分析。针对然后结合利用所获得的信息设计生物学方法证实其生物学功能。关键词:-甘露聚糖酶;A.tabescens EJLY2098;生物信息学 论文目的和意义论文目的和意义英国自然杂志网络版 2006 年 5 月 18 日报道,科学家已对含有 2.
2、23 亿个碱基对,占人类基因组中碱基对总量的 8%左右的人类第一号染色体完成测序,宣告持续 16 年的人类基因组计划全部完成。作为人类自然科学史上重要的里程碑, “人类基因组”的研究已从“结构基因组”阶段进入“功能基因组”阶段。在人类基因组计Comment l1: Comment l2: 划后相继推出的水稻基因组计划、马铃薯基因组计划、草鱼基因组计划等,和快速增长的微生物基因测序, “海量”的基因信息的积累,催生了“功能基因组”时代的来临。针对充分利用“海量”基因组信息的生物信息学不仅应运而生,而且为以注释、阐明基因功和利用基因生物学功能的“后基因组时代”的研究发挥了重大作用。生物信息学是把基
3、因组 DNA 序列信息分析作为源头,在获得了蛋白质编码区的信息后,进行蛋白质空间结构的预测和模拟,然后依据特定蛋白质的功能进行必要的药物设计。就是说,生物信息学的主要任务是组织和分析生物学数据,而生物学数据的分析离不开计算机算法的运用。因此,可以说生物信息学是一门集生命科学、计算机科学、数学、物理学为一身的多学科交叉的前沿学科。生物信息学的主要研究对象是序列,即一维的分子排列顺序所分析,包括 DNA 分子碱基序列和编码蛋白质的氨基酸序列。DNA 序列分析的主要任务是基因识别和发现某些功能区(如启动子、增强子等),DNA 序列研究的最终目的是说明遗传语言的语法和语法规则,从而最终读懂 DNA 序
4、列。蛋白质的结构预测研究始终是生物信息学的核心内容之一,目前研究工作是利用一级结构中的氨基酸排列顺序所隐藏的信息来预测蛋白质的高级结构,而蛋白质结构研究的最终目标是阐明肽链的折叠规律,即所谓破译“第二套生物学密码” 。“基因组计划”积累了大量生物信息。而生物信息学的任务就是挖掘和利用这些信息,从众多生命信息中发现统一的,本质的,有用的规律。而这些规律必将促进生命科学,如结构生物学,生物技术,药物设计,分子进化等研究工作的进展。所以,生物信息学将在“后基因组”的时代,发挥极其重要的作用,这将有助于全部读懂人类基因组的全部信息,有助于揭示基因组物质结构的复杂性,有助于生命起源和生物进化问题的最终解
5、决,有助于识别与鉴定人类特定疾病的相关基因,有助于药物设计理论和方法的改进和提高。1-10研究现状研究现状随着信息学大环境的改善,如信息高速公路、国际互联网的发展,生物信息学发展迅速。美国、日本及欧洲各国的生物信息学已相继在Internet 上建立了各自的网络节点,进行管理大型数据库,为研究人员提供研究数据的分析、处理、采集、交换的服务。国际互联网所到之处,都有各种研究机构的联网、数据库的建立,开展生物信息学研究。各种数据库各具特色:GenBank、EMBL、DDBJ 是三大核苷酸及蛋白质数据库;GDB 数据库主要收集遗传学制图的资料;CEPH 的数据库收集 YACcontig;Genetho
6、n、CHLC 储存遗传学标记系列;Whiethead 研究所的数据库可了解全部 18000 个 STS 及联系作图的信息;另外还有突变序列的数据库在建立之中。在各类数据库建立的同时,数据库设计中出现了集成化趋势,集成化包括:各类数据的集成、数据库与数据分析软件的整合。各种数据库分析、测序应用软件包也被开发出来。11除了数据库、数据分析软件的发展,生物信息学中比较基因组学的发展也较为突出。其中河豚、鼠、猪、牛和马的基因组与人基因组的比较研究,秀丽隐杆线虫与人基因组的比较研究、酵母与人基因组的比较研究,支原体与嗜血流感杆菌基因组的比较研究,都取得了成果,从比较中分离到一些人类遗传病的候选基因,鉴定
7、了一些新克隆的基因,为人类基因组的分析提供了有益的数据。随着计算机技术的发展和渗透,生物信息学在人类基因组中大规模测序的自动化控制、测序结果分析处理、序列数据的计算机管理、各类遗传图谱、物理图谱的绘制、研究数据网络获取、分析和交换,以数据分析的结果辅助基因组研究等都发挥着不可替代的功能,显示出越来越重要的作用。全长全长 cDNA 序列序列 man 的生物信息学分析的生物信息学分析前言前言随着因特网在上世纪 90 年代的出现和信息技术的迅猛发展。生命科学也相伴走向信息化,其主要标志就是人类基因组计划的实施,这一计划及其相继展开的众多的基因组计划使得生物学数据急剧增加,而传统的实验手段却远远不能满
8、足对这些数据的解释,使之上升到科学知识的高度9-10。随着人类基因组计划的实施 ,分子生物学家提供了大量的有关生物分子的数据,如何将这些从实验室中取得的生物信息进行整理,并能对以后的研究提供资料和依据,这就需要运用到现代计算机技术对这些原始数据进行收集,整理和分析,从而是人们在研究过程中及时得到有效的生物信息.因此,生物信息学不仅是一门学科,也是研究过程中的一项技术和开发工具.核酸序列分析是生物信息学应用中的一个重要方面.DNA 序列分析可分两大类:1.面向测序的 DNA 序列分析; 2.指定 DNA 序列的分析. 通过一个简单序列相似性的比较可以对未知序列进行初步的功能预测,对后续实验确定初
9、步研究方向12。本论文通过对从真菌tabescens 中克隆出一个基因的全长 cDNA 进行生物信息的分析,预测这个未知 cDNA 的功能目前因特网上有许多生物学信息库,采用不同的算法,对生物学数据进行从序列水平到结构层次,进而到功能的多种分析。本章的分析主要利用这些数据库和相关软件完成。材料和仪器材料和仪器(1)生物技术实验室从一株产 -甘露聚糖酶的新菌种 A.tabescens EJLY2098 克隆出一个全长 cDNA(命名为 man)(2)可以连接国际互联网的计算机核酸序列的基本分析核酸序列的基本分析运用 DNAMAN 软件分析核酸序列的分子质量、碱基组成和碱基分布。同时运用 BioE
10、dit(版本 )软件对 manman 做酶切谱分析。碱基同源性分析运用运用 NCBI 信息库的信息库的 BLAST 程序对程序对 manman 进行碱基同源性分进行碱基同源性分析(Translated query tien database(blastx)网站如下:参数选择:TRANSLATED query-PROTEIN database blastx; nr;stander1开放性阅读框(开放性阅读框(ORFORF)分析)分析利用 NCBI 的 ORF Finder 程序对 man 做开放性阅读框分析,网址如下:参数选择:Genetic Codes:1 Stand
11、ard对蛋白质序列的结构功能域分析对蛋白质序列的结构功能域分析运用简单模块构架搜索工具(Simple Modular Architecture Research Tool,SMART)对 manORF 出的蛋白质序列进行蛋白质结构功能域分析。该数据库由 EMBL 建立,其中集成了大部分目前已知的蛋白质结构功能域的数据。12网址如下:运用运用 NCBI 的的 BLAST 程序再对此蛋白质序列进行程序再对此蛋白质序列进行 rpsBlast 分分析析参数选择:Search Database:CDD v2.0711937PSSMs Expect:0.01 Filter:Low complexitySe
12、arch mode:multiple hits 1pass同源物种分析同源物种分析用 DNAMAN 软件将蛋白质序列与 GHF5 的 -甘露聚糖酶序列和GHF6 的 -甘露聚糖酶序列序列比对,根据结果绘出系统进化树,并进行分析。蛋白质一级序列的基本分析蛋白质一级序列的基本分析运用 BioEdit(版本 )软件对 man ORF 翻译的蛋白的一些基本性质,对分子量、等电点、氨基酸组成等作出分析。二级结构和功能分析二级结构和功能分析信号肽预测信号肽预测利用丹麦科技大学(DTU)的 CBS 服务器蛋白质序列的信号肽(signal peptide)预测,进入 Prediction Ser
13、ves 页面。网址如下:参数选择:Eukaryotes;Both;GIF (inline);Standard;疏水性分析疏水性分析利用瑞士生物信息学研究所(Swiss Institute of Bioinformatics, SIB)的 ExPASy 服务器上的 ProtScale 程序13对 ORF 翻译后的氨基酸序列做疏水性分析网址如下:参数选择:Hphob. / Kyte & Doolittle蛋白质溶解能力和 PROSITE motif search 的分析利用美国哥伦比亚大学(Columbia University)的 PredictProtein 服务器(PHD)14对 O
14、RF 翻译后的氨基酸序列通过发邮件的方式获得蛋白质溶解能力和 PROSITE motif search 分析的结果。网址如下:磷酸化位点分析磷酸化位点分析磷酸化和去磷酸化是细胞内信号传导的重要方式,利用丹麦科技大学(DTU)的 CBS 服务器上的 NetPhos2.0 Server 程序15做磷酸化位点分析。NetPhos2.0 Server 程序是基于神经网络算法,对蛋白序列中的 Ser、Thr 和 Tys 三种氨基酸残基可能成为的磷酸化位点作出预测,网址如下:跨膜区分析跨膜区分析蛋白质序列含有跨膜区提示它可能作为膜受体起作用,也可能是定位于膜的锚定蛋白或者离子通道蛋白等,从而,含有跨膜区的
15、蛋白质往往和细胞的功能状态密切相关。12利用丹麦科技大学(DTU)的 CBS 服务器上的 TMHMM Server v. 2.0 程序进行蛋白序列跨膜区分析。网址如下:参数选择:Extensive with graphics亚细胞定位亚细胞定位通过 WoLF PSORT 工具基于其氨基酸序列预测蛋白质亚细胞定位点网址如下:参数选择:Fungi;From Text Area二硫键分析二硫键分析运用 SCRATCH Protein Predictor 对蛋白质的二硫键做出分析。网址如下:baldig/scratch/index.html 参数选择:Dlpro(Disulfide Bonds) 二级
16、结构预测二级结构预测运用 PBIL LYON-GERLAND 信息库对蛋白质序列进行二级结构预测(Secondary structure prediction) ,主要用 Hopfield 神经网络(HNN)预测。网址如下:讨论与结果讨论与结果从一株产 -甘露聚糖酶的新菌种 A.tabescens EJLY2098 获得的全长 cDNA 序列如下:ACGCGGGGGAAAGATGATGCATCTGCTCGCTTTTCTGTCTCTGAGTACATTCCTGTGCTCTGCGTTCGCTGCTGTTCCTGAGTGGGGCCAATGTGGCGGCATTGGATGGACAGGACAGACCACTT
17、GCGTTAGTGGTACAGTATGCGCAGCTCTCAATGACTATTATTCTCAATGTGTGCCTGGAACGGCCACAACAACGGCCGCTCCCACGACTGCTACATCAACAACCATTTCTTCCACTTCTCGCACAACTGCTACGTCGACCACAGCTTCCGCACCATCTTCTACTGGCTTTGTAACTACCTCTGGCACAGAGTTCCGCCTCAACGGTGCCAAATTTACTATCTTCGGCGCCAACTCATACTGGGTCGGGTTGATGGGCTATAGCACTACAGATATGAATAAAGCCTTCGCAGACATCGCGG
18、CTACAGGTGCCACCGTCGTCCGCACATGGGGCTTCAATGAGGTAACGAGTCCTAACGGGATTTATTACCAGAGTTGGTCCGGAAGTACACCAACTATCAACACAGGTTCTACGGGTCTTCAAAACTTTGATGCCGTCGTCGCTGCTGCTGCTGCACATGGCTTGAGGCTTATTGTTGCCATAACGAACAACTGGTCCGACTATGGTGGAATGGATGTATACGTTAACCAAATTGTCGGGTCTGGCTCTGCGCACGATTTATTCTATACCGACTGTGAGGTTATATCTACTTACATGAACT
19、ACGTCAAGACCTTCGTCTCGCGCTATGTGAACGAACCTACTATTTTAGGTTGGGAGCTTGCAAATGAACCTAGATGCAAGGGGAGTACCGGGACGACCTCTGGATCATGCACTGCAACGACTATCACAAAATGGGCCGCGGCAATTTCAGCGTACATCAAGTCGATCGATCCCAACCATCTTGTCGGGATAGGAGATGAAGGGTTCTACAATGAACCTAGCGCACCAACATATCCATATCAAGGTAGCGAAGGTATCGATTTTGATGCAAATTTGGCCATTAGTAGCATTGATTTCGGTA
20、CATTCCATTCCTATCCTATCAGCTGGGGTCAAACCACTGATCCTCAGGGATGGGGTACGCAATGGATCGCTGATCATGCAACGTCAATGACAGCTGCGGGAAAGCCCGTAATCTTAGAGGAGTTTGGAGTCACCACTAATCAAGCAACTGTTTATGGCGCCTGGTATCAGGAAGTTGTCTCTTCGGGTCTTACTGGTGCTCTTATTTGGCAAGCTGGTTCTTATTTATCATCCGGAGCTACTCCGGACGACGGATATGCAATTTATCCTGATGATCCTGTATATTCCCTGGAAACCTCCT
21、ATGCGGTTACATTGAAAGCGCGGGCGTAGTAGGATAGGGTACAGAATAAAAATAAATTTTGCTCCGATGTGGTACTGTAGCCGAGCGGCTTGACTATGTGAATAAAAAATAAAAATAGCACTGTTGTCACGATCGATCAACACCTAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA核酸序列的基本分析核酸序列的基本分析核酸序列的基本分析结果如下:SEQ New: 1483 bp;Composition 388 A; 358 C; 351 G; 386 T; 0 OTHERPercentage: 26.2% A; 24.1%
22、C; 23.7% G; 26.0% T; 0.0%OTHERMolecular Weight (kDa): ssDNA: 457.73 dsDNA: 914.24ORIGIN1 ACGCGGGGGA AAGATGCATC TGCTCGCTTT TCTGTCTCTG AGTACATTCC TGTGCTCTGC61 GTTCGCTGCT GTTCCTGAGT GGGGCCAATG TGGCGGCATT GGATGGACAG GACAGACCAC121 TTGCGTTAGT GGTACAGTAT GCGCAGCTCT CAATGACTAT TATTCTCAAT GTGTGCCTGG181 AACGG
23、CCACA ACAACGGCCG CTCCCACGAC TGCTACATCA ACAACCATTT CTTCCACTTC241 TCGCACAACT GCTACGTCGA CCACAGCTTC CGCACCATCT TCTACTGGCT TTGTAACTAC301 CTCTGGCACA GAGTTCCGCC TCAACGGTGC CAAATTTACT ATCTTCGGCG CCAACTCATA361 CTGGGTCGGG TTGATGGGCT ATAGCACTAC AGATATGAAT AAAGCCTTCG CAGACATCGC421 GGCTACAGGT GCCACCGTCG TCCGCAC
24、ATG GGGCTTCAAT GAGGTAACGA GTCCTAACGG481 GATTTATTAC CAGAGTTGGT CCGGAAGTAC ACCAACTATC AACACAGGTT CTACGGGTCT541 TCAAAACTTT GATGCCGTCG TCGCTGCTGC TGCTGCACAT GGCTTGAGGC TTATTGTTGC601 CATAACGAAC AACTGGTCCG ACTATGGTGG AATGGATGTA TACGTTAACC AAATTGTCGG661 GTCTGGCTCT GCGCACGATT TATTCTATAC CGACTGTGAG GTTATATCT
25、A CTTACATGAA721 CTACGTCAAG ACCTTCGTCT CGCGCTATGT GAACGAACCT ACTATTTTAG GTTGGGAGCT781 TGCAAATGAA CCTAGATGCA AGGGGAGTAC CGGGACGACC TCTGGATCAT GCACTGCAAC841 GACTATCACA AAATGGGCCG CGGCAATTTC AGCGTACATC AAGTCGATCG ATCCCAACCA901 TCTTGTCGGG ATAGGAGATG AAGGGTTCTA CAATGAACCT AGCGCACCAA CATATCCATA961 TCAAGGTA
26、GC GAAGGTATCG ATTTTGATGC AAATTTGGCC ATTAGTAGCA TTGATTTCGG1021 TACATTCCAT TCCTATCCTA TCAGCTGGGG TCAAACCACT GATCCTCAGG GATGGGGTAC1081 GCAATGGATC GCTGATCATG CAACGTCAAT GACAGCTGCG GGAAAGCCCG TAATCTTAGA1141 GGAGTTTGGA GTCACCACTA ATCAAGCAAC TGTTTATGGC GCCTGGTATC AGGAAGTTGT1201 CTCTTCGGGT CTTACTGGTG CTCTTA
27、TTTG GCAAGCTGGT TCTTATTTAT CATCCGGAGC1261 TACTCCGGAC GACGGATATG CAATTTATCC TGATGATCCT GTATATTCCC TGGAAACCTC1321 CTATGCGGTT ACATTGAAAG CGCGGGCGTA GGATAGGGTA CAGAATAAAT TTTGCTCCGA1381 TGTGGTACTG TAGCCGAGCG GCTTGACTAT GTGAATAAAA ATAGCACTGT TGTCACGATC1441 GATCAACACC TAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAA对
28、其所做对其所做的酶切谱分析结果如下: 对 DQ286392 的酶切图(见附录 1) 单酶切统计,见下表:Restriction table:Enzyme Recognition frequency Positions_AccI GTmk_AC 2 258, 640AloI GAACnnnnnnTCCnnnnnnn_nnnnn 1 632AloI GGAnnnnnnGTTCnnnnnnn_nnnnn 1 600AlwI GGATCnnnnn_ 5 833, 885, 1056, 1095, 1290ApoI rAATT_y 3 333, 992, 1368BanI GGyrC_C 4 327,
29、348, 429, 1179BbeI G_GCGCC 2 352, 1183BbsI GAAGACnnnnnn_ 1 531BbvI GCAGCnnnnnnnnnnnn_ 7 53, 156, 551, 554, 557, 560, 1103BceAI ACGGCnnnnnnnnnnnnnn_ 3 199, 211, 540BcgI CGAnnnnnnTGCnnnnnnnnnn_nn 3 1003, 998, 1294BcgI GCAnnnnnnTCGnnnnnnnnnn_nn 3 969, 1032, 1260BclI TGATC_A 1 1094BfrBI ATGCAT 1 17BglI
30、GCCn_nnnnGGC 1 91BmrI ACTGGGnnnn_n 1 371BpuEI CTTGAGnnnnnnnnnnnnnn_nn 1 605BsaHI GrCG_yC 2 349, 1180BsaJI CCnnG_G 2 859, 1309BsaWI wCCGG_w 3 501, 1254, 1265BsaXI ACnnnnnCTCCnnnnnnn_nnn 1 215BsaXI GGAGnnnnnGTnnnnnnnnn_nnn 1 185BseMII CTCAGnnnnnnnn_nn 3 30, 67, 1080BseRI GAGGAGnnnnnnnn_nn 1 1155BseYI
31、CCCAG_C 1 1045BsgI GTGCAGnnnnnnnnnnnnnn_nn 1 559BsiEI CG_ryCG 3 199, 889, 1440BsiHKAI G_wGCwC 2 57, 1223BslI CCnn_nnnnnGG 4 81, 449, 963, 1272BsmAI GTCTCnnnnn_ 3 40, 743, 1205BsmBI CGTCTCnnnnn_ 1 743BsmFI GGGACnnnnnnnnnnnnnn_ 1 827Bsp1286I G_dGChC 2 57, 1223BspCNI CTCAGnnnnnnn_nn 3 31, 68, 1079BspEI
32、 TCCGG_A 3 501, 1254, 1265BsrI ACTG_Gn 4 290, 366, 618, 1220BsrBI CCGCTC 2 201, 1399BsrDI GCAATG_nn 1 1089BstF5I GGATG_nn 4 108, 641, 1077, 1251BstZ17I GTATAC 1 641Bsu36I CCTnA_GG 1 1066BtgI CCryG_G 1 859BtsI GCAGTG_nn 1 832Cac8I GCnnGC 4 25, 781, 1234, 1345ClaI ATCG_AT 3 889, 979, 1440EaeI yGGCC_r
33、3 184, 196, 997EagI CGGCC_G 1 196EarI CTCTTCnnnn_ 1 1208EciI GGCGGAnnnnnnnnn_nn 1 306FauI CCCGCnnnnnn_ 2 1112, 1336FokI GGATGnnnnnnnnnnnnn_ 4 115, 648, 1084, 1238FspI TGCGCA 2 143, 673HaeII r_GCGCy 2 352, 1183Hin4I GAynnnnnvTCnnnnnnnn_nnnnn 3 690, 1079, 1111Hin4I GAbnnnnnrTCnnnnnnnn_nnnnn 3 722, 107
34、9, 1111HincII GTyrAC 2 259, 647HpaI GTTAAC 1 647HphI GGTGAnnnnnnn_n 1 1145Hpy8I GTnnAC 5 259, 510, 641, 647, 752Hpy188III TCnn_GA 10 75, 502, 728, 823, 908, 1191 1255, 1266, 1290, 1435HpyF10VI GCn_nnnnnnGC 11 67, 92, 418, 430, 452, 562, 571 574, 871, 997, 1099KasI GGCGC_C 2 348, 1179MboII GAAGAnnnnn
35、nn_n 5 223, 271, 335, 531, 1195MlyI GAGTCnnnnn 2 479, 1159MmeI TCCrACnnnnnnnnnnnnnnnnnn_nn 1 643MnlI CCTCnnnnnn_n 9 311, 330, 455, 580, 692, 830, 1075 1133, 1328MscI TGGCCA 1 999MslI CAynnnnrTG 1 50MspA1I CmGCkG 3 861, 1045, 1116MwoI GCnn_nnnnnGC 11 66, 91, 417, 429, 451, 561, 570 573, 870, 996, 109
36、8NarI GGCG_CC 2 349, 1180NlaIV GGnnCC 5 84, 329, 350, 431, 1181NsiI A_TGCAT 1 19PleI GAGTCnnnnn_ 2 478, 1158PshAI GACnnnnGTC 1 735PvuI CG_ATCG 2 889, 1440PvuII CAGCTG 2 1045, 1116SacII CC_GCGG 1 862SalI GTCGA_C 1 257SfaNI GCATCnnnnnnnnn_ 5 4, 26, 542, 786, 977SfcI CTryA_G 4 380, 388, 424, 1389SfoI G
37、GCGCC 2 350, 1181SmlI CTyrA_G 1 584TatI wGTAC_w 2 42, 507TspDTI ATGAAnnnnnnnnn_nn 5 411, 732, 802, 934, 949TspGWI ACGGAnnnnnnnnn_nn 1 1288TspRI _nnCAsTGnn 3 839, 1064, 1432Enzymes that cut five or fewer timesEnzyme Recognition frequency Positions_AccI GTmk_AC 2 258, 640AloI GAACnnnnnnTCCnnnnnnn_nnnn
38、n 1 632AloI GGAnnnnnnGTTCnnnnnnn_nnnnn 1 600AlwI GGATCnnnnn_ 5 833, 885, 1056, 1095, 1290ApoI rAATT_y 3 333, 992, 1368BanI GGyrC_C 4 327, 348, 429, 1179BbeI G_GCGCC 2 352, 1183BbsI GAAGACnnnnnn_ 1 531BceAI ACGGCnnnnnnnnnnnnnn_ 3 199, 211, 540BcgI CGAnnnnnnTGCnnnnnnnnnn_nn 3 1003, 998, 1294BcgI GCAnn
39、nnnnTCGnnnnnnnnnn_nn 3 969, 1032, 1260BclI TGATC_A 1 1094BfrBI ATGCAT 1 17BglI GCCn_nnnnGGC 1 91BmrI ACTGGGnnnn_n 1 371BpuEI CTTGAGnnnnnnnnnnnnnn_nn 1 605BsaHI GrCG_yC 2 349, 1180BsaJI CCnnG_G 2 859, 1309BsaWI wCCGG_w 3 501, 1254, 1265BsaXI ACnnnnnCTCCnnnnnnn_nnn 1 215BsaXI GGAGnnnnnGTnnnnnnnnn_nnn
40、1 185BseMII CTCAGnnnnnnnn_nn 3 30, 67, 1080BseRI GAGGAGnnnnnnnn_nn 1 1155BseYI CCCAG_C 1 1045BsgI GTGCAGnnnnnnnnnnnnnn_nn 1 559BsiEI CG_ryCG 3 199, 889, 1440BsiHKAI G_wGCwC 2 57, 1223BslI CCnn_nnnnnGG 4 81, 449, 963, 1272BsmAI GTCTCnnnnn_ 3 40, 743, 1205BsmBI CGTCTCnnnnn_ 1 743BsmFI GGGACnnnnnnnnnnn
41、nnn_ 1 827Bsp1286I G_dGChC 2 57, 1223BspCNI CTCAGnnnnnnn_nn 3 31, 68, 1079BspEI TCCGG_A 3 501, 1254, 1265BsrI ACTG_Gn 4 290, 366, 618, 1220BsrBI CCGCTC 2 201, 1399BsrDI GCAATG_nn 1 1089BstF5I GGATG_nn 4 108, 641, 1077, 1251BstZ17I GTATAC 1 641Bsu36I CCTnA_GG 1 1066BtgI CCryG_G 1 859BtsI GCAGTG_nn 1
42、832Cac8I GCnnGC 4 25, 781, 1234, 1345ClaI ATCG_AT 3 889, 979, 1440EaeI yGGCC_r 3 184, 196, 997EagI CGGCC_G 1 196EarI CTCTTCnnnn_ 1 1208EciI GGCGGAnnnnnnnnn_nn 1 306FauI CCCGCnnnnnn_ 2 1112, 1336FokI GGATGnnnnnnnnnnnnn_ 4 115, 648, 1084, 1238FspI TGCGCA 2 143, 673HaeII r_GCGCy 2 352, 1183Hin4I GAynnn
43、nnvTCnnnnnnnn_nnnnn 3 690, 1079, 1111Hin4I GAbnnnnnrTCnnnnnnnn_nnnnn 3 722, 1079, 1111HincII GTyrAC 2 259, 647HpaI GTTAAC 1 647HphI GGTGAnnnnnnn_n 1 1145Hpy8I GTnnAC 5 259, 510, 641, 647, 752KasI GGCGC_C 2 348, 1179MboII GAAGAnnnnnnn_n 5 223, 271, 335, 531, 1195MlyI GAGTCnnnnn 2 479, 1159MmeI TCCrAC
44、nnnnnnnnnnnnnnnnnn_nn 1 643MscI TGGCCA 1 999MslI CAynnnnrTG 1 50MspA1I CmGCkG 3 861, 1045, 1116NarI GGCG_CC 2 349, 1180NlaIV GGnnCC 5 84, 329, 350, 431, 1181NsiI A_TGCAT 1 19PleI GAGTCnnnnn_ 2 478, 1158PshAI GACnnnnGTC 1 735PvuI CG_ATCG 2 889, 1440PvuII CAGCTG 2 1045, 1116SacII CC_GCGG 1 862SalI GTC
45、GA_C 1 257SfaNI GCATCnnnnnnnnn_ 5 4, 26, 542, 786, 977SfcI CTryA_G 4 380, 388, 424, 1389SfoI GGCGCC 2 350, 1181SmlI CTyrA_G 1 584TatI wGTAC_w 2 42, 507TspDTI ATGAAnnnnnnnnn_nn 5 411, 732, 802, 934, 949TspGWI ACGGAnnnnnnnnn_nn 1 1288TspRI _nnCAsTGnn 3 839, 1064, 1432Enzymes that do not cut:_AarI, Aat
46、II, Acc65I, AclI, AfeI, AflII, AflIII, AgeI, AhdI, AleI, AlwNI, ApaIApaLI, AscI, AseI, AsiSI, AvaI, AvrII, BaeI, BaeI, BamHI, BanII, BbvCI, BciVIBglII, BlpI, Bme1580I, BmgBI, BmtI, BplI, BpmI, Bpu10I, BsaI, BsaAI, BsaBI, BsiWIBsmI, BspHI, BspMI, BsrFI, BsrGI, BssHII, BssSI, BstAPI, BstBI, BstEII, Bs
47、tXIBstYI, DraI, DraIII, DrdI, Eco57I, EcoICRI, Eco57MI, EcoNI, EcoO109I, EcoRI, EcoRVFalI, FseI, FspAI, HgaI, HindIII, KpnI, MfeI, MluI, NaeI, NcoI, NdeI, NgoMIV, NheINotI, NruI, NspI, PacI, PciI, PflMI, PmeI, PmlI, PpiI, PpiI, PpuMI, PsiI, PspOMIPsrI, PsrI, PstI, RsrII, SacI, SanDI, SapI, SbfI, Sca
48、I, SexAI, SfiI, SgrAI, SmaISnaBI, SpeI, SphI, SrfI, SspI, StuI, StyI, SwaI, TaqII, TaqII, Tth111I, XbaI, XcmIXhoI, XmaI, XmnI, ZraI碱基同源性分析碱基同源性分析DQ286392序列的BLASTX分析结果(见图1): 图1 DQ286392序列的BLASTX分析结果 Score ESequences producing significant alignments: (Bits) Valuegi|82659769|gb|ABB88954.1| mannanase Ar
49、millariella tabescens 768 0.0 gi|7208638|emb|CAB76904.1| CEL4a mannanase Agaricus bisporus 532 2e-149gi|1679597|emb|CAA90423.1| CEL4b mannanase Agaricus bisporus 528 3e-148gi|gb|ABG79370.1| Man5D Phanerochaete chrysosporium 513 1e-143gi|gb|EAU91632.1| hypothetical protein CC1G_09314 . 473 2e-131gi|g
50、b|ABG79371.1| Man5C Phanerochaete chrysosporium 467 6e-130gi|ref|XP_.1| endo-1,4-beta-mannosidase, p. 278 6e-73 gi|ref|XP_.1| endo-1,4-beta-mannosidase, p. 277 9e-73 gi|70983951|ref|XP_747501.1| endo-1,4-beta-mannosidase Asper. 272 4e-71 gi|70982592|ref|XP_746824.1| endo-1,4-beta-mannosidase Asper.
51、261 7e-68 gi|84621433|gb|ABC59553.1| beta-mannanase Aspergillus sulphureu 260 2e-67 gi|83775912|dbj|BAE66031.1| unnamed protein product Aspergillus 258 8e-67 gi|558311|gb|AAA67426.1| mannanase 254 7e-66 gi|ref|XP_.1| endo-1,4-beta-mannosidase N. 252 3e-65 gi|ref|XP_.1| hypothetical protein ATEG_08.
52、250 2e-64 (以下省略)由分析结果可知,DQ286392 和其他物种的 -甘露聚糖酶相似性最高,尤其是与 Agaricus bisporus 物种的 CEL4a 和 CEL4b 的 -甘露聚糖酶的相同性达到 64%和 63%,相似性均达到 76%。以下是 DQ286392 分别与 CEL4a 和 CEL4b 序列对比:gi|7208638|emb|CAB76904.1| CEL4a mannanase Agaricus bisporusLength=439 Score = 532 bits (1371), Expect = 2e-149 Identities = 284/442 (64
53、%), Positives = 339/442 (76%), Gaps = 7/442 (1%) Frame = +2Query 23 LAFLSLSTFLCSAFAAVPEWGQCGGIGWTGQTTCVSGTVCAALNDYYSQCVPGtatttaa 202 + F+ L+ + A A VP WGQCGG GWTG+T C SG+ C N+YSQC+PG+ T T Sbjct 5 IRFIILAISISLATADVPVWGQCGGRGWTGETACASGSSCVVQNEWYSQCLPGSTTPTNP 64Query 203 pttatsttisstsrttatsttasapsstGFVT
54、TSGTEFRLNGAKFTIFGANSYWVGLMGY 382 P T T+ + T+ +T GFV SGT F LNG K+T+ G NSYWVGL G Sbjct 65 PPTTTTSQTTAPPTTSHPVST-GFVKASGTRFTLNGQKYTVVGGNSYWVGLTGL 117Query 383 STTDMNKAFADIAATGATVVRTWGFNEVTSPNGIYYQSWSGSTPTINTGSTGLQNFDavv 562 ST+ MN+AF+DIA G T VRTWGFNEVTSPNG YYQSWSG+ PTINTG+GL NFD V+Sbjct 118 STSAMNQAFSD
55、IANAGGTTVRTWGFNEVTSPNGNYYQSWSGARPTINTGASGLLNFDNVI 177Query 563 aaaaaHGLRLIVAITNNWSDYGGMDVYVNQIVGSGSAHDLFYTDCEVISTYMNYVKTFVS 742 AAA A+G+RLIVA+TNNW+DYGGMDVYVNQ+VG+G HDLFYT+ + + +YV+TFVSSbjct 178 AAAKANGIRLIVALTNNWADYGGMDVYVNQMVGNGQPHDLFYTNTAIKDAFKSYVRTFVS 237Query 743 RYVNEPTILGWELANEPRCKgstgttsgscta
56、ttitkwaaaisaYIKSIDPNHLVGIGDE 922 RY NEPT+ WELANEPRCKGSTGTTSG+CT TT+T WA +SA+IK+ID NHLV IGDESbjct 238 RYANEPTVMAWELANEPRCKGSTGTTSGTCTTTTVTNWAKEMSAFIKTIDSNHLVAIGDE 297Query 923 GFYNEPSAPTYPYQGSEGIDFDANLAISSIDFGTFHSYPISWGQTTDPQGWGTQWIADHA 1102 GFYN+P APTYPYQGSEG+DF+ANLAISS+DF TFHSYP WGQ D + WGTQWI DHAS
57、bjct 298 GFYNQPGAPTYPYQGSEGVDFEANLAISSVDFATFHSYPEPWGQGADAKAWGTQWITDHA 357Query 1103 TSMTAAGKPVILEEFGVTTNQATVYGAWYQEVVSSGLTGALIWQAGSYLSSGATPDDGYA 1282 SM KPVILEEFGVTTNQ Y W+ EV SSGLTG LIWQAGS+LS+G T +DGYASbjct 358 ASMKRVNKPVILEEFGVTTNQPDTYAEWFNEVESSGLTGDLIWQAGSHLSTGDTHNDGYA 417Query 1283 IYPDDPVYSLET
58、SYAVTLKARA 1348 +YPD PVY L S+A +K RASbjct 418 VYPDGPVYPLMKSHASAMKNRA 439gi|1679597|emb|CAA90423.1| CEL4b mannanase Agaricus bisporusLength=439 Score = 528 bits (1360), Expect = 3e-148 Identities = 280/442 (63%), Positives = 336/442 (76%), Gaps = 7/442 (1%) Frame = +2Query 23 LAFLSLSTFLCSAFAAVPEWGQCG
59、GIGWTGQTTCVSGTVCAALNDYYSQCVPGtatttaa 202 + F+ L+ + A A VP WGQCGG WTG+T C SG+ C N+YSQC+PG+ T T Sbjct 5 IRFIILAISISLATADVPVWGQCGGRDWTGETACASGSSCVVQNEWYSQCLPGSTTPTNP 64Query 203 pttatsttisstsrttatsttasapsstGFVTTSGTEFRLNGAKFTIFGANSYWVGLMGY 382 P T+ + T+ +T GFV SGT F LNG K+T+ G NSYWVGL G Sbjct 65 PPATTTS
60、QTTAPPTTSHPVST-GFVKASGTRFTLNGQKYTVVGGNSYWVGLTGL 117Query 383 STTDMNKAFADIAATGATVVRTWGFNEVTSPNGIYYQSWSGSTPTINTGSTGLQNFDavv 562 ST+ MN+AF+DIA G T VRTWGFNEVTSPNG YYQSWSG+ PTINTG+GL NFD V+Sbjct 118 STSAMNQAFSDIANAGGTTVRTWGFNEVTSPNGNYYQSWSGARPTINTGASGLLNFDNVI 177Query 563 aaaaaHGLRLIVAITNNWSDYGGMDVYVNQIVGSGS
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 云南省陆良县达标名校2026年初三第二轮复习质量检测试题语文试题含解析
- 山东省潍坊市昌邑市重点名校2025-2026学年初三第一次摸底考试物理试题文试题含解析
- 河南省府店镇第三初级中学2026届5月初三月考英语试题含解析
- 广西壮族自治区河池市重点名校2026届中考语文试题仿真卷:语文试题试卷(5)含解析
- 2021年7月国开电大行政管理本科《公共政策概论》期末纸质考试试题及答案
- (正式版)DB37∕T 1028-2023 《在用尿素合成塔安全运行评估技术规范》
- 投资分成合同
- 数据可视化课件 华东师大版高中信息技术
- 2026年年度职业健康防护知识培训方案
- 2026年物联网技术应用培训总结报告
- 2026浙江宁波报业传媒集团有限公司招聘编辑1人备考题库(典型题)附答案详解
- 2026年广东省广州市天河区高考地理二模试卷
- 宇通客车MBO案例分析
- DB11-T 2382-2024 建设工程施工消耗量标准
- 昆虫记老象虫课件
- 2026新疆生产建设兵团文化旅游投资集团有限公司招(竞)聘13人备考题库及完整答案详解1套
- 掀针新技术新项目介绍
- 2026年广西南宁市教育局直属单位招聘教职工易考易错模拟试题(共500题)试卷后附参考答案
- 如新公司产品培训课件
- DB31∕T 1598-2025 城市轨道交通车辆寿命评估通 用要求
- 消防队队伍安全教育课件
评论
0/150
提交评论