生物信息学6二级数据库及数据库的格式

上传人：T*** IP属地：江西上传时间：2020-01-06 格式：PPT 页数：45 大小：886.50KB 积分：15 举报 版权申诉

已阅读5页，还剩40页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

二级数据库简介二级数据库的形式大多以web界面为基础具有文字信息表格图形图表等方式显示数据库内容一级数据库与二级数据库之间并无明确的界限例如 GDB AceDB SCOP CATH等都已经具有二级数据库的特色 1 基因组信息二级数据库 TransFac 真核生物基因转录调控因子数据库德国生物工程研究所开发维护始建于1988年包括顺式调控位点基因转录因子细胞来源分类和调控位点核苷酸分布6个子库 TransFac的网址 2 蛋白质序列二级数据库 Prosite 蛋白质序列功能位点数据库始建于1990年代初由瑞典生物信息学研究所SIB负责维护基于对蛋白质家族中同源序列多重序列比对得到的保守区域这些区域通常与生物学功能相关数据库包括两个数据库文件数据文件Prosite 说明文件PrositeDoc Prosite的网址 http cn expasy org prosite 3 蛋白质结构二级数据库 DSSP DefinitionofSecondaryStructureofProteins 蛋白质二级结构构象参数数据库DSSP的网址 http www cmbi kun nl gv dssp FSSP FamiliesofStructuralSimilarProteins 蛋白质家族数据库FSSP的网址 http www2 embl ebi ac uk dall fssp HSSP HomologyDerivedSecondaryStructureofProteins 同源蛋白质数据库HSSP的网址 http www cmbi kun nl gv hssp 小结数据库一览 1 核酸序列数据库EMBLGenBankDDBJ2 基因组数据GDBAceDB3 蛋白质序列数据库SWISS PROTPIR 美国 4 蛋白质结构数据PDB5 蛋白质结构分类数据库SCOPCATH6 二级数据库TransFacPrositeDSSPFSSPHSSP 数据库格式简介历史原因没有完全统一的数据库格式了解所用数据库格式的重要性一般由两部分组成文字注释序列不同数据库的序列格式在运行序列分析软件中遇到的首要问题就是如何通过不同的程序使用不同的序列格式这些格式都是标准ASCII码文件但在显示各种信息或序列本身的某些字符或字有所不同下面将讨论几种常用的序列格式 1GenBank中DNA序列格式2EMBL序列格式3SwissProt序列格式4FASTA序列格式5NBRF序列格式6Intelligenetics序列格式 7GCG序列格式8PIR CODATA序列格式9Plain ASCII Staden序列格式10ASN 1序列格式11GDE格式 1 GenBank中DNA序列格式 GenBank中数据库包括NCBI核酸和蛋白质序列数据库中条目格式如下给出描述每一个序列的信息包括文献参考序列的功能信息 mRNA和编码区域的位置以及重要突变的位置这些序列信息以字段的形式进行组织每一行最前端都有一个标识符在某些条目中标识符可能缩写成两个字母例如RF代表reference 某些字段可能还有次级字段计算机程序中的序列条目位于标识符 ORIGIN 和之间这些字段提供的信息可以参见网页www ncbi nlm nih gov Sitemap samplerecord html LOCUSnameoflocus lengthandtypeofsequence classificationoforganism dataofentryDEFINITIONdesicriptionofentryACCESSIONaccessionnumberoforiginalsourceKEYWORDSkeywordsforcrossreferencingthisentrySOURCEsourceorganismofDNAORGANISMdescriptionoforganismREFERENCECOMMENTbiologicalfunctionofdatabaseinformationFEATURESinformationaboutsequencebybasepositionorrangeofpositionssourcerangeofsequence sourceorganismmisc signalrangeofsequence typeoffunctionorsignalmRNArangeofsequence mRNACDSrangeofsequence proteincodingregionintronrangeofsequence positionofintronmutationsequenceposition changeinsequenceformutationBASECOUNTcountofA C G TandothersymbolsORIGINtextindicatingstartofsequence1gaattcgataaatctctggtttattgtgcagtttatggttccaaaatcgc51atatactcacagcataactgtatatacacccagggggcggaatgaaagcg databasesymbolforendofsequence Fig2 6GenBank中DNA序列条目 ACCESSIONOrganismReferenceNameKeywordsSequenceno 123Escherichia Medline1 LexASOSregulon ATG coli proteinrepressor transcriptionalregulator 124EscherichiaMedline2 UmuDSOSregulon GTA Coli protein 125Saccharomyces Medline3 GAL4transcriptionalCAT CEREVISIAE proteinregulator 125Homo SapiensMedline4 gluco transcriptionalTGT Corticoidregulator receptor 序列每行前面标有数字以显示片断位置序列计数或序列校检求和的值可被计算机程序用来鉴定序列成分所以除非程序本身也改变计数序列计数是不能被改变的 GenBank序列格式通常需要改变以适应序列分析软件 Fig2 7GenBank数据库的组织常被计算机检索程序ENTREZ利用 2EMBL序列格式 TheEuropeanMolecularBiologyLaboratory EMBL 序列条目与GenBank类似通过大量信息来描述每个序列该信息组织成一个个字段每个字段有一个标识符这些标识符缩写成两个字母某些字段还有次级字段每行序列后面的数字显示片断的位置计算机程序可以利用序列计数或校检求和的值来保证序列的完整性和精确性正是由于这个原因除非程序本身也改变计数条目的序列片断是不能被改变的这种序列格式用于各种序列分析软件时也要进行改变 IDidentificationcodeforsequenceinthedatabaseACaccessionnumbergivingoriginofsequenceDTdatesofentryandmodificationKWkeycross referencewordsforlookupupthisentryOS OCsourceorganismRN RP RX RA RT RLliteraturereferenceorsourceDRi d InotherdatabasesCCDescriptionofbiologicalfunctionFH FTinformationaboutsequencebybasepositionorrangeofpositiionssourcerangeofsequence sourceorganismmisc signalrangeofsequence typeoffunctionorsignalmRNArangeofsequence mRNACDSrangeofsequence positionofintronmutationsequenceposition changeinsequenceformutationSQcountofA C G Tandothersymbolsgaattcgataaatctctggtttattgtgcagtttatggttccaaaatcgccttttgctgt60atatactcacagcataactgtatatacacccagggggcggaatgaaagcgttaacggcca120 symboltoindicateendorsequence Fig2 8EMBL序列格式 3SwissProt序列格式4FASTA序列格式5NBRF序列格式 SwissProt蛋白序列数据库条目的格式和EMBL非常相似但它提供了更多的关于蛋白质的物理和生化性质的信息 FASTA序列格式包括三个部分 1 在注释行的第一列用字符标识后面是序列的名字和来源 2 标准的单字符标记的序列 3 可选的表示序列的结束它可能出现也可能不出现但它是许多序列分析程序正确读取序列所必须的 FASTA格式是序列分析软件最常用的格式这种格式提供了从一个窗口到另一个窗口非常方便的拷贝途径因为序列中没有数字或其他非字符 FASTA序列格式和蛋白质信息资源NBRF格式很相似 YCZ2 YEASTproteininEMR3 regionMKAVVIEDGKAVVKEGVPIPELEEGFVGNPTDWAHIDYKVGPQGSILGCDAAGQIVKLGPAVDPKDFSIGDYIYGFIHGSSVRFPSNGAFAEYSAISTVVAYKSPNELKFLGEDVLPAGPVRSLEGAATIPVSLT P1 ILEClexAREPRESSOR EscherichiacoliMKALTARQQEVFDLIRDHISQTGMPPTRAEIAQRLGFRSPNAAEEHLKALARKGVIEIVSGASRGIRLLQEEEEGLPLVGRVAAGEQLLAQQHIEGHYQVDPSLFKPNADFLLRVSGMSMKDIGIMDGDLLAVHKTQDVRNGQVVVARIDDEVTVKRLKKQGNKVELLPENSEFKPIVVDLRQQSFTIEGLAVGVIRNGDWL NBRF序列格式或称PIR格式已经被用于theNationalBiomedicalResearchFoundation ProteinInformationResource NBRF 网站 www nbrf georgetown edu 中的PIR数据库中得到并不是这种紧缩格式而是一种包括很多信息的扩展格式 Fig2 10显示了PIR序列格式的一个例子第一行包括一个起始的字符接着是一个双字符编码例如P表示完整序列 F表示片断后面的1或2显示了序列的类型接着是一个分号接着是一个4到6个字符的条目名称第二行则显示了序列的全称连字号接着序列来源 Fig2 9 上 FASTA序列格式 Fig2 10 右 NBRF序列格式 6Intelligenetics序列格式 Intelligenetics格式由Stanford大学的一个分子遗传学研究小组发起后来由Intelligenetics公司继承发展 IG格式和PIR格式很相似不同的是将分号置于注释行之前第二行也有个标识符在序列的结束以1表示序列是线状以2结束表示序列是环状 YEASTproteininEMR3 regionYCZ2MKAVVIEDGKAVVKEGVPIPELEEGFVGNPTDWAHIDYKVGPQGSILGCDAAGQIVKLGPAVDPKDFSIGDYIYGFIHGSSVRFPSNGAFAEYSAISTVVAYKSPNELKFLGEDVLPAGPVRSLEGAATIPVSLT1 Fig2 11IG序列格式 7GCG序列格式早期版本的GeneticsComputerGroup GCG 程序需要一个独特的序列格式它能将其他的序列格式转换为GCG格式后来的GCG版本接受了几种序列格式一种转换了的GenBank文件见Fig2 12 首先包括了在GenBank序列条目中的信息接着是一行序列信息及校准求和值这个值未显示是通过累加序列的ASCII值来检测序列的精确度如果序列没有改变这个值就保持相同如果由于某种错误一个或更多的序列字符发生了改变因为序列条目校检求和的数值出错程序在读取序列的过程中将判定发生了变化序列信息行以两个句点结束接下来就是序列注意到序列行开头的数字既然没有标记显示序列的结束所以在其后不能加任何信息这一序列不能改变除非程序运行过程中能调整序列校检求和的数值 GCG序列格式在其他序列分析软件中必须改变 GCG也包含了改变序列文件格式的程序 BASECOUNT215A224C263G250TORIGINFilename Lengthofsequence Date ChecksumValue 1GAATTCGATAAATCTCTGGTTTATTGTGCAGTTTATGGTTCCAAAATCGC51CTTTTGCTGTATATACTCACAGCATAACTGTATATACACCCAGGGGGGGG Fig2 12GCG序列格式 8PIR CODATA序列格式9Plain ASCII Staden序列格式来自theNationalBiomedicalResearchFoundation ProteinInformationResource的序列文件格式几乎拥有和GenBank或EMBL序列文件相同的信息其不同之处可参见Fig2 13 目前称之为PIR CODATA格式 Plain ASCII Staden序列格式是仅含有序列而没有其他附加信息它由剑桥大学的RogerStaden开发的序列分析程序Staden所使用这种序列必须进一步格式化才能用于大多数序列分析程序 ENTRYILEC typecompleteTITLElexArepressor EscherichiacoliORGANISM formal nameEscherichiacoliDATE29 Jul 1981 sequence revision01 Sep 1981 text change14 Nov 1997ACCESSIONSA90808 A93734 S11945 B65212 A03569REFERENCEA90808 authorsHorii T Ogawa T Ogawa H journalCell 1981 23 689 697 titleNucleotidesequenceofthelexAgeneofEscherichiacoli cross referencesMUID 81186269 contentslexA accessionA90808 molecule typeDNA RESIDUES1 202 labelHORREFERENCE Fig2 13Continued COMMENTSGENETICS genelexA map position92minCLASSIFICATION superfamilylexarepressorKEYWORDSANDbinding repressor transcriptionregulatorSUMMARY length202 molecular weight22358SEQUENCE510152025301MKALTARQQEVFDLIRDHISQTGMPPTRAE Fig2 13PIR CODATA序列格式 10ASN 1序列格式 AbstractSyntaxNotation ASN 1 是一种正式的数据描述语言并得到了计算机行业的发展 ASN 1已经被theNationalCenterforBiotechnologyInformation NCBI 采纳并用于序列图谱分类信息分子结构以及文献信息的编码 ASN 1序列格式是一种高度结构化功能完备的格式特别适用于计算机的数据处理在其他格式如GenBank 格式中出现的信息在该格式中都有所体现例如通过ENTREZ 见下文就可以得到该格式的序列但是这种格式的信息相对于GenBank等格式来说很难通过肉眼读懂人们一般不会直接用ASN 1格式除非使用一台以该格式输入的计算机 11GDE格式 GeneticDataEnvironment GDE 格式是运用于一种称为GeneticDataEnvironment的序列分析系统这套系统由StevenSmith和他的同事针对在UNIX机器上运行的多序列队列编辑器所设计的 GDE的特点融于GCG软件的SEQLAB界面第九版类似于ASN 1 GDE格式也是一个标记字段的格式存储了系列所有可能的信息每个文件包含广泛的字段见Fig2 14 用括弧括起来每个字段给出了名称标记每个标记后面的信息位于双引号中中间由一个或几个空格格开 name Shortnameforsequence longname Long moredescriptive nameforsequence sequence ID UniqueIDnumber creation date mm dd yyhh mm ss direction 1 1 strandedness 1 2 type DNA RNA PROTEIN TEXT MASK offset 999999 999999 group ID 0 999 creator Author sname descrip Verbosedescription comments Linesofcommentsaboutasequence sequence gctagctagctagctagctctcttagctgtagtcgtagctggctagctgatgctagctagctagctagctgatcgatgctagctgatcgtagctgacggactgatgctagctagctagctagctgtctagtgtcgtagtgcttattgc Fig2 14TheGeneticDataEnvironment格式序列数据库的格式FASTA格式或Pearson格式序列文件的第一行是由大于符号打头的任意文字说明主要为标记序列用从第二行开始是序列本身标准核苷酸符号或氨基酸单字母符号通常核苷酸符号大小写均可而氨基酸一般用大写字母文件中和每一行都不要超过80个字符通常60个字符核酸序列氨基酸序列例子 EMBL和GenBank数据库的格式 EMBL和GenBank数据库的主要内容和格式序列名称长度日期序列说明编号版本号物种来源学名分类学位置相关文献作者题目刊物日期序列特征表碱基组成序列每行60个碱基实例 E colik 12全基因组序列文件 LOCUSU000964639221bpDNAcircularBCT18 NOV 1998DEFINITIONEscherichiacoliK 12MG1655completegenome ACCESSIONU00096KEYWORDS SOURCEEscherichiacoli ORGANISMEscherichiacoliBacteria Proteobacteria gammasubdivision Enterobacteriaceae Escherichia REFERENCE1 bases1to4639221 AUTHORSBlattner F R Plunkett G III Bloch C A Perna N T Burland V TITLEThecompletegenomesequenceofEscherichiacoliK 12JOURNALScience277 5331 1453 1474 1997 MEDLINE97426617 COMMENTThissequencewasdeterminedbytheE coliGenomeProjectattheUniversityofWisconsin Madison FrederickR Blattner director SupportedbyNIHgrantsHG00301andHG01428 fromHumanGenomeProjectandNCHGR TheentiresequencewasindependentlydeterminedfromE coliK 12strainMG1655 PredictedopenreadingframesweredeterminedusingGeneMarksoftware kindlysuppliedby FEATURESLocation Qualifierssource1 4639221 organism Escherichiacoli strain K 12 sub strain MG1655 db xref taxon 562 promoter71 99 note factorSigma70 predicted 1startat106 promoter104 132 note factorSigma70 predicted 1startat139 promoter188 212 note factorSigma32 predicted 1startat219 gene190 255 note b0001 gene thrL CDS190 255 gene thrL function leader Aminoacidbiosynthesis Threonine note o21 100pctidenticaltoLPT ECOLISW P03059 codon start 1 transl table 11 product throperonleaderpeptide db xref PID g1786182 translation MKRISTTITTTITITTGNGAG BASECOUNT1142136a1179433c1176775g1140877t ORIGIN1agcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtc61tgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgacttagg121tcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtac181acaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattaccacaggt241aacggtgcgggctgacgcgtacaggaaacacagaaaaaagcccgcacctgacagtgcggg301ctttttttttcgaccaaaggtaacgaggtaacaaccatgcgagtgttgaagttcggcggt361acatcagtggcaaatgcagaacgttttctgcgtgttgccgatattctggaaagcaatgcc421aggcaggggcaggtggccaccgtcctctctgcccccgccaaaatcaccaaccacctggtg 4639021caacatcaactgcaagctttacgcgaacgagccatgacattgctgacgactctggcagtg4639081gcagatgacataaaactggtcgactggttacaacaacgcctggggcttttagagcaacga4639141gacacggcaatgttgcaccgtttgctgcatgatattgaaaaaaatatcaccaaataaaaa4639201acgccttagtaagtatttttc IDU00096standard circulargenomicDNA CON 4639221BP ACU00096 SVU00096 1DT24 JUL 2003 Rel 76 Lastupdated Version3 DEEscherichiacoliK 12MG1655completegenome KW OSEscherichiacoliK12OCBacteria Proteobacteria Gammaproteobacteria Enterobacteriales OCEnterobacteriaceae Escherichia Escherichiacoli RN 1 RP1 4639221RXMEDLINE 97426617 RXPUBMED 9278503 RABlattnerF R PlunkettG III BlochC A PernaN T BurlandV RT ThecompletegenomesequenceofEscherichiacoliK 12 RLScience277 5331 1453 1474 1997 DRGOA O32528 DRREMTREMBL AAC74436 AAC74436 DRSPTREMBL O32530 O32530 DRSWISS PROT O32528 YPDI ECOLI CCThissequencewasdeterminedbytheE coliGenomeProjectattheCCUniversityofWisconsin Madison FrederickR Blattner director CCSupportedbyNIHgrantsHG00301andHG01428 fromtheHumanGenomeCCProjectandNCHGR TheentiresequencewasindependentlyCCdeterminedfromE coliK 12strainMG1655 PredictedopenreadingCCframesweredeterminedusingGeneMarksoftware kindlysuppliedby FHKeyLocation QualifiersFTsource1 4639221FT db xref taxon 83333 FT mol type genomicDNA FT organism EscherichiacoliK12 FT strain K12 FT sub strain MG1655 FTpromoter71 99FT note factorSigma70 predicted 1startat106 FTCDS190 255FT codon start 1FT db xref GOA P03059 FT db xref SWISS PROT P03059 FT note o21 100pctidenticaltoLPT ECOLISW P03059 FT transl table 11FT gene thrL FT function leader Aminoacidbiosynthesis Threonine FT product throperonleaderpeptide FT protein id AAC73112 1 FT translation MKRISTTITTTITITTGNGAG SQSequence4639221BP 1142136A 1179433C 1176775G 1140877T 0other agcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtc60tgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgacttagg120tcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtac180acaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattaccacaggt240aacggtgcgggctgacgcgtacaggaaacacagaaaaaagcccgcacctgacagtgcggg300ctttttttttcgaccaaaggtaacgaggtaacaaccatgcgagtgttgaagttcggcggt360acatcagtggcaaatgcagaacgttttctgcgtgttgccgatattctggaaagcaatgcc420aggcaggggcaggtggccaccgtcctctctgcccccgccaaaatcaccaaccacctggtg480gcgatgattgaaaaaaccattagcggccaggatgctttaccca

人人文库> 全部分类> 教育资料 > 课设设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

生物信息学6二级数据库及数据库的格式

文档简介

温馨提示

最新文档

评论

生物信息学6二级数据库及数据库的格式

文档简介

温馨提示

最新文档

评论

相关文档