版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第四章 生物信息学数据库.生物分子数据高速增长 分子生物学及相关领域研究人员迅速获得最新实验数据 建立生物分子数据库 .生物分子数据库几个明显的特征:(1)数据库的更新速度不断加快 数据量呈指数增长趋势 (2)数据库使用频率增长更快 (3)数据库的复杂程度不断增加 (4)数据库网络化 (5)面向应用(6)先进的软硬件配置.核酸序列数据的增长趋势(纵轴代表总的核酸序列长度,单位:百万bp).生物分子数据库 一级数据库数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 二级数据库对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标
2、而建立的 。.生物信息学常用数据库种类通用生物信息学数据库特定(数据)数据库特定(物种)数据库各种通路数据库结构(图形/图像)数据库.第一节 通用生物信息学数据库. (1)美国生物技术信息中心(NCBI)的GenBank (/Genbank/) (2)欧洲分子生物学实验室(EMBL)( http:/www.embl-heidelberg.de ) 的 nucleotide sequence database(http:/www.ebi.ac.uk/embl/) (3)日本遗传研究所的DDBJ ( http:/www.ddbj.nig.ac.jp/ )国际上三大权威数据库.NCBI ( Nati
3、onal Center for Biotechnology Information)/全球最大的生物信息资源中心DNA 序列、蛋白质序列、出版物、数据挖掘工具等美国生物技术信息中心.美国的GenBank从1979年开始建设,1982年正式运行;. 欧洲分子生物学实验室的EMBL数据库也于1982年开始服务.EMBL (Germany).密苏里植物园主页EMBL-EBI (UK).EBI, Hinxton (Cambridge), UK 2004年2月22日摄.http:/www.ebi.ac.uk/embl/.http:/www.ebi.ac.uk/Databases/.21 Mar 2003
4、 37,943,364,438 bases in 24,353,128 records. .日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务。.NCBI、EBI和DDBJ之间的区别与联系. 三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。 这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。 .第二节 核酸序列数据库.1、基因组数据库(GDB)The Genome Database 人类基因组计划所得到的图谱数据 GDB包含对下述三种对象的描述:(1)人类基因组区域 包
5、括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、 EST、综合区域、contigs、重复等; (2)人类基因组图谱, 包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig 图谱、集成图谱,所有这些图谱都可以被直观地显示出来;(3)人类基因组中的变化, 包括基因突变和基因多态性,加上等位基因频率数据。2008年6月关闭.2、其他生物基因组数据库.大肠杆菌K12基因组数据库 .酵母基因组数据库 .线虫基因组数据库 .果蝇基因组数据库 .小鼠基因组数据库 .玉米基因组数据库 .部分生物基因组计划网址大肠杆菌K12基因组数据库 ecogene:白色念珠菌基因组数据库 CGD (Cand
6、ida Genome Database): TIGR的微生物资源数据库 CMR: /tigr-scripts/CMR/CmrHomePage.cgi日本的微生物基因组数据库 MBGD:http:/mbgd.genome.ad.jp酵母基因组数据库 SGD(Saccharomyces Genome Database): TIGR的真菌基因组数据库:/tdb/fungal线虫基因组数据库 WormBase(the C. elegans genome database): 四膜虫基因组数据库 TGD (Tetrahymena Genome Database): 疟原虫基因组数据库 PlasmoDB(
7、Plasmodium Genome Resource): /plasmo果蝇基因组数据库 FlyBase: (另可参看BDGP: )拟南芥信息资源 tair(The Arabidopsis Information Resource): (另可参看The TIGR Arabidopsis thaliana Database: /tdb/e2k1/ath1 .部分生物基因组计划网址水稻基因组数据资源: 1、中国国际水稻基因组计划(IRGSP): /12chr/database_irgsp.htm 2、中国水稻信息系统(RISe): 3、美国 4、日本 RGP(Rice Genome Researc
8、h Program): http:/rgp.dna.affrc.go.jp/E/index.html苜蓿属基因组数据库:/medicago玉米基因组数据库 maizegdb: 斑马鱼信息网 ZFIN(Zebrafish Information Network): (另可参看The Danio rerio Sequencing Project: http:/www.sanger.ac.uk/Projects/D_rerio )小鼠基因组数据库 MGI (Mouse Genome Informatics ): HIV 序列数据库 HIV Databases:/content/index.3、 En
9、sembl (/)Ensembl包括所有公开的人类基因组DNA序列,通过注释形成的关于序列的特征。 现在包括脊椎动物和其他真核生物基因组,如大鼠、小鼠、线虫、果蝇等。例如:基因通过实验发现的或者是通过GenScan程序预测的其他的特征:单核苷酸多态性(SNP)、重复序列等.Ensembl.Ensembl提供多种查询方式 通过关键字查询用BLAST进行相似序列的搜索 另一种更直观的方式是显示各染色体用户可以在染色体水平上选择感兴趣的位点,逐层放大浏览整个基因组.人的第9号染色体及大鼠对应的染色体片段.4、表达序列标记数据库dbESTEST(Expressed Sequence Tags)方法已被
10、证明是识别转录序列的最有效方法 ,EST序列大约覆盖了人类基因的90%。 DbEST (/dbEST/)是GenBank的一个部分,该数据库包括不同生物的EST序列数据及其它相关信息,主要是从大量不同组织和器官得到的短mRNA片段。 WEB页面或emailFTP有关EST的数据dbEST数据库.5、序列标记位点数据库dbSTSSTS(Sequence Tagged Sites)是序列标记位点dbSTS(/dbSTS/)是NCBI的一个数据源,包含基因组短标记序列(STS)的组成和定位信息。可以通过BLAST搜索STS序列。.6、面向基因聚类数据库UniGeneUniGene( /UniGene
11、/)数据库将GenBank中的序列进行自动分类,形成面向基因群的非冗余集合。 每个UniGene群包含:代表一个唯一基因的多个序列,附有该基因相关的信息, 如基因表达的组织类型、定位图谱除了基因的序列之外,还包括大量的EST序列。 目前,UniGene中包括人类、大鼠、小鼠、牛的相关数据,因为这些生物有大量的EST数据。.第三节 蛋白质序列数据库目的:帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组。它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。 所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。1、PIR(Protein In
12、formation Resource).除了蛋白质序列数据之外,PIR还包含以下信息: (1)蛋白质名称、蛋白质的分类、蛋白质的来源; (2)关于原始数据的参考文献; (3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等; (4)序列中相关的位点、功能区域。.2、SWISS-PROT SWISS-PROT (/sprot )是由瑞士日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护(1986年)是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的 SWISS-PROT中的数据来源于不同源地:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库P
13、IR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据 .(1)注释在SWISS-PROT中,数据分为核心数据和注释两大类。核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述)注释包括: (A)蛋白质的功能描述; (B)翻译后修饰; (C)域和功能位点,如钙结合区域、ATP结合位点等; (D)蛋白质的二级结构; (E)蛋白质的四级结构,如同构二聚体、异构三聚体等; (F)与其它蛋白质的相似性; (G)由于缺乏该蛋白质而引起的疾病; (H)序列的矛盾、变化等。SWISS-PROT有三个明显的特点 :.(2)最小冗余 尽量将相关的数据归并,降低数据库的冗
14、余程度。 如果不同来源的原始数据有矛盾,则在相应序列特征表中加以注释。(3)与其它数据库的连接 对于每一个登录项,有许多指向其它数据库相关数据的指针,这便于用户迅速得到相关的信息。 现有的交叉索引有: 到EMBL核酸序列数据库的索引, 到PROSITE模式数据库的索引, 到生物大分子结构数据库PDB的索引等 。.TrEMBL (http:/www.ebi.ac.uk/trembl/index.html) 是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。TrEMBL有两个部分:(
15、1)SP-TrEMBL(SWISS-PROT TrEMBL)包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL 序列都已被赋予SWISS-PROT的 登录号。(2)REM-TrEMBL(REMaining TrEMBL)包括所有不准备放入SWISS-PROT的数据,因此这部分数据都没有登录号。3、TrEMBL.包括: Swiss-Prot TrEMBL PIR 用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP 下载数据。4、蛋白质数据仓库UniProt/.UniProt Knowledgebase,是蛋白质序列、功能、分类、交叉引用等信息存
16、取中心;UniProt Non-redundant Reference数据库,将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度;UniProt Archive是一个资源库,记录所有蛋白质序列的历史。 .第四节 生物大分子结构数据库1、PDB(Protein Data Bank)PDB中含有通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构蛋白质核酸糖类其它复合物 同时PDB也收录生物大分子结构的理论模型.显示分子结构(RasMol , ChemView ).2、MMDB(Molecular Modeling Database)分子模型MMDB 是(NCBI)所开发的生
17、物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。 与PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等 。还提供生物大分子三维结构模型显示、结构分析和结构比较工具。.MMDB 实用工具.NDB (Nucleic Acid Database) .第五节 其它生物分子数据库核酸序列变化单碱基多态性SNPs(Single nucleotide polymorphisms)SNPs对人类遗传学研究和医学应用具有重要的意义无论对于人类种群遗传学的研究,还是对疾病性状分析或个体化医疗,
18、都需要深入地研究SNPs。 1、单碱基多态性数据库dbSNP(/SNP/), .实例:GTTTGTGATT ACTTTGTAAA AACAGTGTAA TAAGTACTCA CTAAAGGAAA TTTAGAAAAT GATAAGCTTA Aggccgggca tggtgcctca tgcctgtaat cctagcactt tgggaggctg aggtgggtgg atcacctgag ctcaggagtt ccagatcatc ctggacaata tggtgaaacc ctgtctacgc ttaaaatacg R aaattagccg ggcgtggtgg ggcatgcctg tg
19、gtctcagc tactttggag actaaggtag aaggatcact tgaatcctgg aggtggaggt tgcagagtga gccaatatcg tgccactgca ctccagccta ggtgacagag gaagactctg tctcaaaaaa aagaaaaTAA GGCCAGACAC GGGGGCTCAT GCTTGTAATC R=A/G .2、蛋白质结构分类数据库SCOPSCOP数据库 ( http:/scop.mrc-lmb.cam.ac.uk/scop/)的目标是提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库PDB中的所
20、有条目。SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到PDB的连接,序列,参考文献,结构的图像等。可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次是家族、超家族和折叠: (1)家族:具有明显的进化关系 (2)超家族:具有远源进化关系,具有共同的进化源 (3)折叠类:主要结构相似.3、蛋白质二级结构数据库DSSPDSSP(http:/www.sander.embl-heidelberg.de/dssp/) (http:/swift.cmbi.ru.nl/gv/dssp/) 是一个二级结构推导数据库。对生物大分子数据库PDB中的任
21、何一个蛋白质,根据其三维结构推导出对应的二级结构。对研究蛋白质序列与蛋白质二级结构及空间结构的关系非常有用除了二级结构以外,DSSP还包括蛋白质的几何特征及溶剂可及表面。.The DSSP codeH = alpha helix B = residue in isolated beta-bridge E = extended strand, participates in beta ladder G = 3-helix (3/10 helix) I = 5 helix (pi helix) T = hydrogen bonded turn S = bend 例:.4、蛋白质同源序列比对数据库H
22、SSPHSSP(http:/www.sander.embl-heidelberg.de/hssp/) (http:/swift.cmbi.ru.nl/gv/hssp/)二级数据库。数据来源于PDB,或来源于SWISS-PROT 对于PDB中的每一个蛋白质,HSSP将与其同源的所有蛋白质序列对比排列起来,从而将相似序列的蛋白质聚集成结构同源的家族。HSSP有助于分析蛋白质的保守区域,研究蛋白质的进化关系,有助于蛋白质的分子设计。.5、OMIMOMIM (Online Mendelian Inheritance in Man),是关于人类基因和遗传疾病的分类数据库 。该数据库收集了已知的人类基因及
23、由于这些基因突变或者缺失而导致的遗传疾病。 OMIM的使用非常方便查询程序根据输入到检索窗口的一个或几个词执行简单的查询,返回含有该词的文档的列表,用户可以在列表中选择一个或更多的异常查看其OMIM记录的全文 :80/entrez/query.fcgi?db=OMIM .浏览染色体.6、EPDEPD( http:/www.epd.isb-sib.ch/ )是真核基因启动子数据库提供从EMBL中得到的真核基因的启动子序列,目标是帮助实验研究人员、生物信息学研究人员分析真核基因的转录信号。.7、TRRDTRRD是一个关于基因调控信息的集成数据库,该数据库搜集真核生物基因转录调控区域结构和功能的信息
24、。每一个TRRD的条目对应于一个基因,包含特定基因各种结构功能特性 TRRD6.0包括七个相关的数据表:(1)基因描述表TRRDGENES (2)控制区域表TRRDLCR (3)调控区域表TRRDUNITS (4)转录因子结合位点表TRRDSITES (5)转录因子表TRRDFACTORS (6)表达模式表TRRDEXP (7)实验来源表TRRDBIB http:/wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/.8、TRANSFACTRANSFAC (http:/transfac.gbf.de/)是真核基因顺式调控元件和反式作用因子数据库,数据搜集的对象从酵母到人类 TR
25、ANSFAC包括6类数据 : (1)SITE类数据 (2)GENE类数据 (3)FACTOR类数据 (4)CELL类数据 (5)CLASS类数据 (6)MATRIX数据 .9、PROSITEPROSITE ( http:/www.expasy.ch/prosite/)是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。 PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等。PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。 .
26、UTRdb (非翻译区数据库)r.it/BIG/UTRHome/有关 3 和 5 UTR信息10、非翻译区数据库.11、KEGGKyoto Encyclopedia of Genes and Genomes http:/www.genome.ad.jp/kegg/有关基因、基因组、代谢通路的信息.Information on relationsbetween moleculesGenomesGenesPathwayOrthologsExpressionSequencesimilarityChemicals andtheir reactionsKEGG数据库组织框架.KEGG代谢路径图.12、蛋
27、白质相互作用数据库 (1).12、蛋白质相互作用数据库 (2).12、蛋白质相互作用数据库 (3).12、蛋白质相互作用数据库 (4).12、蛋白质相互作用数据库 (5).DBCatDBCat是生物信息数据库的目录数据库,它收集了500多个生物信息学数据库的信息,并根据它们的应用领域进行了分类DNARNA蛋白质基因组图谱蛋白质结构文献著作等基本类型, (biogen.fr/services/dbcat/).DBCat中分类数据库个数 数据对象数据库个数DNA87RNA29Protein94Genomic58Mapping29Protein structure18Literature43Misc
28、ellaneous153.PubMedPubMed(/)是NCBI维护的生物学、医学文献引用数据库,提供对MEDLINE、Pre-MEDLINE等文献数据库的引用查询和对大量网络科学类电子期刊的链接。利用Entrez系统可以对PubMed进行方便的查询检索。.第六节 常见数据文件格式FASTAEMBLGenBankPIRXML ASN.1PDB.1、FASTA格式最简单的数据格式用于各种FASTA 工具简要说明之后就是序列没有注释信息, 只有序列包括三个部分: 1.在注释行的第一列用字符“”标识,后面是序列的名字和来源; 2.标准的单字符标记的序列; 3.可选的“*”表示序列的结束,它可能出现
29、也可能不出现,但它是许多序列分析程序正确读取序列所必须的。.gi|2467297|dbj|AB000888.1| Homo sapiens mRNA for phosphatidic acid phosphatase 2a, complete cdsACCGCAGCTCAGTCCATCGCCCTTGCCGGGCAGCCCGGGCAGAGACCATGTTCGACAAGACGCGGCTGCCGTACGTGGCCCTCGATGTGCTCTGCGTGTTGCTGGCTGGATTGCCTTTTGCAATTCTTACTTCAAGGCATACCCCCTTCCAACGAGGAGTATTCTGTAATGATGA
30、GTCCATCAAGTACCCTTACAAAGAAGACACCATACCTTATGCGTTATTAGGTGGAATAATCATTCCATTCAGTATTATCGTTATTATTCTTGGAGAAACCCTGTCTGTTTACTGTAACCTTTTGCACTCAAATTCCTTTATCAGGAATAACTACATAGCCACTATTTACAAAGCCATTGGAACCTTTTTATTTGGTGCAGCTGCTAGTCAGTCCCTGACTGACATTGCCAAGTATTCAATAGGCAGACTGCGGCCTCACTTCTTGGATGTTTGTGATCCAGATTGGTCAAAAATCAACTG
31、CAGCGATGGTTACATTGAATACTACATATGTCGAGGGAATGCAGAAAGAGTTAAGGAAGGCAGGTTGTCCTTCTATTCAGGCCACTCTTCGTTTTCCATGTACTGCATGCTGTTTGTGGCACTTTATCTTCAAGCCAGGATGAAGGGAGACTGGGCAAGACTCTTACGCCCCACACTGCAATTTGGTCTTGTTGCCGTATCCATTTATGTGGGCCTTTCTCGAGTTTCTGATTATAAACACCACTGGAGCGATGTGTTGACTGGACTCATTCAGGGAGCTCTGGTTGCAATATTAGTTGC
32、TGTATATGTATCGGATTTCTTCAAAGAAAGAACTTCTTTTAAAGAAAGAAAAGAGGAGGACTCTCATACAACTCTGCATGAAACACCAACAACTGGGAATCACTATCCGAGCAATCACCAGCCTTGAAAGGCAGCAGGGTGCCCAGGTGAAGCTGGCCTGTT 例1YCZ2_YEAST protein in EMR 3 regionMKAVVIEDGKAVVKEGVPIPELEEGFVGNPTDWAHIDYKVGPQGSILGCDAAGQIVKLGPAVDPKDFSIGDYIYGFIHGSSVRFPSNGAFAEYSAISTVVA
33、YKSPNELKFLGEDVLPAGPVRSLEGAATIPVSLT* 例2.2、EMBL文件格式.“ID”为序列的标识符行,包括登录号、类型,分子的长度 “AC”为登录号行;“XX”为分隔符号行; “DT”为创建和更新日期行 “DE”为序列描述行;“KW”为关键字行;“OG”行描述细胞组织;“OS”行描述生物体种属;“OC”行描述生物体分类信息;“RN”描述参考文献的编号;“RP”描述参考文献的页码;“RA”描述参考文献的作者;“RT”描述参考文献的题目;“RL”描述参考文献的出处;“RC”描述参考文献的注解;“RX”、“DR”行描述交叉引用信息;“FH” 为特征开始符号;“FT”为特征表行
34、 (1)Feature Key,它是描述域生物功能的关键字; (2)Location,指明特征在序列中的特定位置; (3)Qualifiers,描述关于一个特征的辅助信息;文件体由序列本身所组成,由“SQ”标志的行开始。序列结束的标记是“/”。EMBL核酸数据库中的每一个序列数据被赋予一个登录号,它是一个永久性的唯一标识 EMBL的序列数据用外在的ASCII文本文件来表示,而每一个文件分为文件头和文件体两大部分 文件头由一系列的信息描述行所组成,文件头实际上对应于一个序列的注释(annotation).“ID”为序列的标识符行,包括登录号、类型, 分子的长度 “XX”为分隔符号行;“AC”为登
35、录号行;“DT”为创建和更新日期行 “DE”为序列描述行;“KW”为关键字行;“OG”行描述细胞组织;“OS”行描述生物体种属;“OC”行描述生物体分类信息;.“RN”描述参考文献的编号;“RP”描述参考文献的页码;“RA”描述参考文献的作者;“RT”描述参考文献的题目;“RL”描述参考文献的出处;“RC”描述参考文献的注解;“RX”、“DR”行描述交叉引用信息;“FH” 为特征开始符号;“FT”为特征表行 Reference:参考文献.3、GenBank格式GenBank用纯文本文件(GBFF,GenBank flatfile )由三部分组成:第一部分(头部),包括以下几个内容:LOCUS
36、基因座位,长度,分子类型,分类码,数据第一次被公开的日期DEFINITION 描述ACCESSION 检索号VERSION 版本号KEYWORDS 关键词SOURCE 序列来源的生物名称REFERENCE 参考文献注释、作者 、版本等信息第二部分(FEATURES):注释本收录序列的特性 第三部分:序列本身 每行60个符号,每10个以空格隔开。.GenBank: AB000888.1Homo sapiens mRNA for phosphatidic acid phosphatase 2a, complete c.表 EMBL和GenBank数据库文件中主要字段的含义比较EMBLGenBank
37、含义IDLOCUS 序列名称DEDEFINITION序列简单说明ACACCESSION序列编号SVVERSION 序列版本号KWKEYWORDS与序列相关的关键词OSSOURCE 序列来源的物种名OC ORGANISM序列来源的物种学名和分类学位置RNREFERENCE相关文献编号,或递交序列的注册信息RA AUTHORS相关文献作者,或递交序列的作者RT TITLE相关文献题目RL JOURNAL相关文献刊物杂志名,或递交序列的作者单位RX MEDLINE相关文献Medline引文代码RC REMARK相关文献注释CCCOMMENT关于序列的注释信息DR相关数据库交叉引用号FHFEATURE
38、S序列特征表起始FT序列特征表子项SQBASE COUNT碱基种类统计数空格ORIGIN 序列头部特性序列.4、PIR文件格式.ENTRY ILEC #type completeTITLE lexA repressor Escherichia coliORGANISM #formal_name Escherichia coliDATE 29-Jul-1981 #sequence_revision 01-Sep-1981 #text_change 14-Nov-1997ACCESSIONS A90808; A93734; S11945; B65212; A03569REFERENCE A9080
39、8 #authors Horii, T.; Ogawa, T.; Ogawa, H. #journal Cell (1981) 23:689-697 #title Nucleotide sequence of the lexA gene of Escherichia coli. #cross-references MUID:81186269 #contents lexA #accession A90808 #molecule_type DNA #RESIDUES 1-202 #label HORREFERENCE PIR序列格式(续).COMMENTSGENETICS #gene lexA #
40、map_position 92 minCLASSIFICATION #superfamily lexa repressorKEYWORDS AND binding, repressor, transcription regulatorSUMMARY #length 202 #molecular_weight 22358SEQUENCE 5 10 15 20 25 30 1 M K A L T A R Q Q E V F D L I R D H I S Q T G M P P T R A E PIR序列格式(续).XML格式eXtensible Markup Language类似HTML国际标准
41、半结构化例: MMU35641 5538 0 5 1 ROD 18-OCT-1996 25-OCT-1995 Mus musculus Brca1 mRNA, complete cds U35641 U35641.1.ASN.1格式国际标准半结构化格式用于NCBI 数据例:Seq-entry := set level 1 , class nuc-prot , descr title Mus musculus Brca1 mRNA, and translated products , source org taxname Mus musculus , db db taxon , tag id 1
42、0090 , orgname name binomial genus Mus , species musculus , .格式转换通常一种工具采用一种格式, 可用 (在线) 软件进行格式转换ReadSeq/seq-util/Options/readseq.htmlSeqVerter/geshi/SeqVerter.htmSEQIO/gusfield/seqio.html.一种是显式序列信息(explicit sequence)在PDB文件中,以关键字SEQRES作为显式序列标记,以该关键字打头的每一行都是关于序列的信息。 一种是隐式序列信息(implicit sequence) PDB的隐式序
43、列即为立体化学数据,包括每个原子的名称和原子的三维坐标。 PDB文件格式.HEADER HYDROLASE 19-FEB-97 1ADZ TITLE THE SOLUTION STRUCTURE OF THE SECOND KUNITZ DOMAIN OF TITLE 2 TISSUE FACTOR PATHWAY INHIBITOR, NMR, 30 STRUCTURES COMPND MOL_ID: 1; COMPND 2 MOLECULE: TISSUE FACTOR PATHWAY INHIBITOR; 。COMPND 8 BIOLOGICAL_UNIT: MONOMER SOURCE MOL_ID: 1; 。SOURCE 7 EXPRESSION_SYSTEM_PLASMID: PFLAG KEYWDS HYDROLASE, INHIBITOR, COAGULATION EXPDTA NMR, 30 STRUCTURES AUTHOR M.J.M.BURGERING,L.P.M.ORBONS REVDAT 1 25-FEB-98 1ADZ 0 JRNL AUTH M
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 沈阳药科大学《会计学原理》2025-2026学年期末试卷
- 上海邦德职业技术学院《新编中国秘书史》2025-2026学年期末试卷
- 沈阳建筑大学《高级英语》2025-2026学年期末试卷
- 内蒙古能源职业学院《社会研究方法》2025-2026学年期末试卷
- 山西同文职业技术学院《成本会计学》2025-2026学年期末试卷
- 上海戏剧学院《工程监理》2025-2026学年期末试卷
- 上海出版印刷高等专科学校《西医内科学》2025-2026学年期末试卷
- 上海商学院《电子测量原理》2025-2026学年期末试卷
- 石家庄经济职业学院《Java》2025-2026学年期末试卷
- 大数据财政管理的应用与优化
- 2026年国家队反兴奋剂准入教育考试试题及答案
- 第九章第一节压强课件2025-2026学年人教版物理八年级下学期
- 100以内看图写数专项练习题(每日一练共6份)
- 移动模架施工安全监理实施细则
- 中兴新云2026年测评-B套题
- 2026年全国体育单招考试时事政治(2025.6-2026.1)-2026届中职高考
- 2026年商丘职业技术学院单招职业技能测试题库带答案详解
- 2026年山西经贸职业学院单招职业技能考试题库及答案解析
- 2026年丽水职业技术学院单招职业适应性考试题库带答案详解(基础题)
- 2025年广东中烟工业机电岗位笔试及答案
- 2026浙大二院临床医学博士后招聘备考题库及完整答案详解1套
评论
0/150
提交评论