




已阅读5页,还剩40页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
二级数据库简介 二级数据库的形式 大多以web界面为基础 具有文字信息 表格 图形 图表等方式显示数据库内容 一级数据库与二级数据库之间并无明确的界限 例如 GDB AceDB SCOP CATH等都已经具有二级数据库的特色 1 基因组信息二级数据库 TransFac 真核生物基因转录调控因子数据库 德国生物工程研究所开发维护 始建于1988年 包括顺式调控位点 基因 转录因子 细胞来源 分类和调控位点核苷酸分布6个子库 TransFac的网址 2 蛋白质序列二级数据库 Prosite 蛋白质序列功能位点数据库 始建于1990年代初 由瑞典生物信息学研究所SIB负责维护 基于对蛋白质家族中同源序列多重序列比对得到的保守区域 这些区域通常与生物学功能相关 数据库包括两个数据库文件 数据文件Prosite 说明文件PrositeDoc Prosite的网址 http cn expasy org prosite 3 蛋白质结构二级数据库 DSSP DefinitionofSecondaryStructureofProteins 蛋白质二级结构构象参数数据库DSSP的网址 http www cmbi kun nl gv dssp FSSP FamiliesofStructuralSimilarProteins 蛋白质家族数据库FSSP的网址 http www2 embl ebi ac uk dall fssp HSSP HomologyDerivedSecondaryStructureofProteins 同源蛋白质数据库HSSP的网址 http www cmbi kun nl gv hssp 小结 数据库一览 1 核酸序列数据库EMBLGenBankDDBJ2 基因组数据GDBAceDB3 蛋白质序列数据库SWISS PROTPIR 美国 4 蛋白质结构数据PDB5 蛋白质结构分类数据库SCOPCATH6 二级数据库TransFacPrositeDSSPFSSPHSSP 数据库格式简介 历史原因 没有完全统一的数据库格式 了解所用数据库格式的重要性一般由两部分组成 文字注释序列 不同数据库的序列格式 在运行序列分析软件中遇到的首要问题就是如何通过不同的程序使用不同的序列格式 这些格式都是标准ASCII码文件 但在显示各种信息或序列本身的某些字符或字有所不同 下面将讨论几种常用的序列格式 1GenBank中DNA序列格式2EMBL序列格式3SwissProt序列格式4FASTA序列格式5NBRF序列格式6Intelligenetics序列格式 7GCG序列格式8PIR CODATA序列格式9Plain ASCII Staden序列格式10ASN 1序列格式11GDE格式 1 GenBank中DNA序列格式 GenBank中数据库 包括NCBI核酸和蛋白质序列数据库 中条目格式如下 给出描述每一个序列的信息 包括文献参考 序列的功能信息 mRNA和编码区域的位置 以及重要突变的位置 这些序列信息以字段的形式进行组织 每一行最前端都有一个标识符 在某些条目中 标识符可能缩写成两个字母 例如RF代表reference 某些字段可能还有次级字段 计算机程序中的序列条目位于标识符 ORIGIN 和 之间 这些字段提供的信息可以参见网页www ncbi nlm nih gov Sitemap samplerecord html LOCUSnameoflocus lengthandtypeofsequence classificationoforganism dataofentryDEFINITIONdesicriptionofentryACCESSIONaccessionnumberoforiginalsourceKEYWORDSkeywordsforcrossreferencingthisentrySOURCEsourceorganismofDNAORGANISMdescriptionoforganismREFERENCECOMMENTbiologicalfunctionofdatabaseinformationFEATURESinformationaboutsequencebybasepositionorrangeofpositionssourcerangeofsequence sourceorganismmisc signalrangeofsequence typeoffunctionorsignalmRNArangeofsequence mRNACDSrangeofsequence proteincodingregionintronrangeofsequence positionofintronmutationsequenceposition changeinsequenceformutationBASECOUNTcountofA C G TandothersymbolsORIGINtextindicatingstartofsequence1gaattcgataaatctctggtttattgtgcagtttatggttccaaaatcgc51atatactcacagcataactgtatatacacccagggggcggaatgaaagcg databasesymbolforendofsequence Fig2 6GenBank中DNA序列条目 ACCESSIONOrganismReferenceNameKeywordsSequenceno 123Escherichia Medline1 LexASOSregulon ATG coli proteinrepressor transcriptionalregulator 124EscherichiaMedline2 UmuDSOSregulon GTA Coli protein 125Saccharomyces Medline3 GAL4transcriptionalCAT CEREVISIAE proteinregulator 125Homo SapiensMedline4 gluco transcriptionalTGT Corticoidregulator receptor 序列每行前面标有数字 以显示片断位置 序列计数或序列校检求和的值可被计算机程序用来鉴定序列成分 所以除非程序本身也改变计数 序列计数是不能被改变的 GenBank序列格式通常需要改变以适应序列分析软件 Fig2 7GenBank数据库的组织 常被计算机检索程序ENTREZ利用 2EMBL序列格式 TheEuropeanMolecularBiologyLaboratory EMBL 序列条目与GenBank类似 通过大量信息来描述每个序列 该信息组织成一个个字段 每个字段有一个标识符 这些标识符缩写成两个字母 某些字段还有次级字段 每行序列后面的数字显示片断的位置 计算机程序可以利用序列计数或校检求和的值来保证序列的完整性和精确性 正是由于这个原因 除非程序本身也改变计数 条目的序列片断是不能被改变的 这种序列格式用于各种序列分析软件时也要进行改变 IDidentificationcodeforsequenceinthedatabaseACaccessionnumbergivingoriginofsequenceDTdatesofentryandmodificationKWkeycross referencewordsforlookupupthisentryOS OCsourceorganismRN RP RX RA RT RLliteraturereferenceorsourceDRi d InotherdatabasesCCDescriptionofbiologicalfunctionFH FTinformationaboutsequencebybasepositionorrangeofpositiionssourcerangeofsequence sourceorganismmisc signalrangeofsequence typeoffunctionorsignalmRNArangeofsequence mRNACDSrangeofsequence positionofintronmutationsequenceposition changeinsequenceformutationSQcountofA C G Tandothersymbolsgaattcgataaatctctggtttattgtgcagtttatggttccaaaatcgccttttgctgt60atatactcacagcataactgtatatacacccagggggcggaatgaaagcgttaacggcca120 symboltoindicateendorsequence Fig2 8EMBL序列格式 3SwissProt序列格式4FASTA序列格式5NBRF序列格式 SwissProt蛋白序列数据库条目的格式和EMBL非常相似 但它提供了更多的关于蛋白质的物理和生化性质的信息 FASTA序列格式包括三个部分 1 在注释行的第一列用字符 标识 后面是序列的名字和来源 2 标准的单字符标记的序列 3 可选的 表示序列的结束 它可能出现也可能不出现 但它是许多序列分析程序正确读取序列所必须的 FASTA格式是序列分析软件最常用的格式 这种格式提供了从一个窗口到另一个窗口非常方便的拷贝途径 因为序列中没有数字或其他非字符 FASTA序列格式和蛋白质信息资源NBRF格式很相似 YCZ2 YEASTproteininEMR3 regionMKAVVIEDGKAVVKEGVPIPELEEGFVGNPTDWAHIDYKVGPQGSILGCDAAGQIVKLGPAVDPKDFSIGDYIYGFIHGSSVRFPSNGAFAEYSAISTVVAYKSPNELKFLGEDVLPAGPVRSLEGAATIPVSLT P1 ILEClexAREPRESSOR EscherichiacoliMKALTARQQEVFDLIRDHISQTGMPPTRAEIAQRLGFRSPNAAEEHLKALARKGVIEIVSGASRGIRLLQEEEEGLPLVGRVAAGEQLLAQQHIEGHYQVDPSLFKPNADFLLRVSGMSMKDIGIMDGDLLAVHKTQDVRNGQVVVARIDDEVTVKRLKKQGNKVELLPENSEFKPIVVDLRQQSFTIEGLAVGVIRNGDWL NBRF序列格式 或称PIR格式 已经被用于theNationalBiomedicalResearchFoundation ProteinInformationResource NBRF 网站 www nbrf georgetown edu 中的PIR数据库中得到并不是这种紧缩格式 而是一种包括很多信息的扩展格式 Fig2 10显示了PIR序列格式的一个例子 第一行包括一个起始的 字符 接着是一个双字符编码 例如P表示完整序列 F表示片断 后面的1或2显示了序列的类型 接着是一个分号 接着是一个4到6个字符的条目名称 第二行则显示了序列的全称 连字号 接着序列来源 Fig2 9 上 FASTA序列格式 Fig2 10 右 NBRF序列格式 6Intelligenetics序列格式 Intelligenetics格式由Stanford大学的一个分子遗传学研究小组发起 后来由Intelligenetics公司继承发展 IG格式和PIR格式很相似 不同的是将分号置于注释行之前 第二行也有个标识符 在序列的结束以1表示序列是线状 以2结束表示序列是环状 YEASTproteininEMR3 regionYCZ2MKAVVIEDGKAVVKEGVPIPELEEGFVGNPTDWAHIDYKVGPQGSILGCDAAGQIVKLGPAVDPKDFSIGDYIYGFIHGSSVRFPSNGAFAEYSAISTVVAYKSPNELKFLGEDVLPAGPVRSLEGAATIPVSLT1 Fig2 11IG序列格式 7GCG序列格式 早期版本的GeneticsComputerGroup GCG 程序需要一个独特的序列格式 它能将其他的序列格式转换为GCG格式 后来的GCG版本接受了几种序列格式 一种转换了的GenBank文件见Fig2 12 首先包括了在GenBank序列条目中的信息 接着是一行序列信息及校准求和值 这个值 未显示 是通过累加序列的ASCII值来检测序列的精确度 如果序列没有改变 这个值就保持相同 如果由于某种错误 一个或更多的序列字符发生了改变 因为序列条目校检求和的数值出错 程序在读取序列的过程中将判定发生了变化 序列信息行以两个句点结束 接下来就是序列 注意到 序列行开头的数字 既然没有标记显示序列的结束 所以在其后不能加任何信息 这一序列不能改变 除非程序运行过程中能调整序列校检求和的数值 GCG序列格式在其他序列分析软件中必须改变 GCG也包含了改变序列文件格式的程序 BASECOUNT215A224C263G250TORIGINFilename Lengthofsequence Date ChecksumValue 1GAATTCGATAAATCTCTGGTTTATTGTGCAGTTTATGGTTCCAAAATCGC51CTTTTGCTGTATATACTCACAGCATAACTGTATATACACCCAGGGGGGGG Fig2 12GCG序列格式 8PIR CODATA序列格式9Plain ASCII Staden序列格式 来自theNationalBiomedicalResearchFoundation ProteinInformationResource的序列文件格式几乎拥有和GenBank或EMBL序列文件相同的信息 其不同之处可参见Fig2 13 目前称之为PIR CODATA格式 Plain ASCII Staden序列格式是仅含有序列而没有其他附加信息 它由剑桥大学的RogerStaden开发的序列分析程序Staden所使用 这种序列必须进一步格式化才能用于大多数序列分析程序 ENTRYILEC typecompleteTITLElexArepressor EscherichiacoliORGANISM formal nameEscherichiacoliDATE29 Jul 1981 sequence revision01 Sep 1981 text change14 Nov 1997ACCESSIONSA90808 A93734 S11945 B65212 A03569REFERENCEA90808 authorsHorii T Ogawa T Ogawa H journalCell 1981 23 689 697 titleNucleotidesequenceofthelexAgeneofEscherichiacoli cross referencesMUID 81186269 contentslexA accessionA90808 molecule typeDNA RESIDUES1 202 labelHORREFERENCE Fig2 13Continued COMMENTSGENETICS genelexA map position92minCLASSIFICATION superfamilylexarepressorKEYWORDSANDbinding repressor transcriptionregulatorSUMMARY length202 molecular weight22358SEQUENCE510152025301MKALTARQQEVFDLIRDHISQTGMPPTRAE Fig2 13PIR CODATA序列格式 10ASN 1序列格式 AbstractSyntaxNotation ASN 1 是一种正式的数据描述语言 并得到了计算机行业的发展 ASN 1已经被theNationalCenterforBiotechnologyInformation NCBI 采纳并用于序列 图谱 分类信息 分子结构以及文献信息的编码 ASN 1序列格式是一种高度结构化 功能完备的格式 特别适用于计算机的数据处理 在其他格式 如GenBank 格式中出现的信息在该格式中都有所体现 例如 通过ENTREZ 见下文 就可以得到该格式的序列 但是 这种格式的信息相对于GenBank等格式来说 很难通过肉眼读懂 人们一般不会直接用ASN 1格式 除非使用一台以该格式输入的计算机 11GDE格式 GeneticDataEnvironment GDE 格式是运用于一种称为GeneticDataEnvironment的序列分析系统 这套系统由StevenSmith和他的同事针对在UNIX机器上运行的多序列队列编辑器所设计的 GDE的特点融于GCG软件的SEQLAB界面 第九版 类似于ASN 1 GDE格式也是一个标记字段的格式 存储了系列所有可能的信息 每个文件包含广泛的字段 见Fig2 14 用括弧括起来 每个字段给出了名称标记 每个标记后面的信息位于双引号中 中间由一个或几个空格格开 name Shortnameforsequence longname Long moredescriptive nameforsequence sequence ID UniqueIDnumber creation date mm dd yyhh mm ss direction 1 1 strandedness 1 2 type DNA RNA PROTEIN TEXT MASK offset 999999 999999 group ID 0 999 creator Author sname descrip Verbosedescription comments Linesofcommentsaboutasequence sequence gctagctagctagctagctctcttagctgtagtcgtagctggctagctgatgctagctagctagctagctgatcgatgctagctgatcgtagctgacggactgatgctagctagctagctagctgtctagtgtcgtagtgcttattgc Fig2 14TheGeneticDataEnvironment格式 序列数据库的格式FASTA格式 或Pearson格式 序列文件的第一行是由大于符号 打头的任意文字说明 主要为标记序列用 从第二行开始是序列本身 标准核苷酸符号或氨基酸单字母符号 通常核苷酸符号大小写均可 而氨基酸一般用大写字母 文件中和每一行都不要超过80个字符 通常60个字符 核酸序列 氨基酸序列 例子 EMBL和GenBank数据库的格式 EMBL和GenBank数据库的主要内容和格式序列名称 长度 日期序列说明 编号 版本号物种来源 学名 分类学位置相关文献作者 题目 刊物 日期序列特征表碱基组成序列 每行60个碱基 实例 E colik 12全基因组序列文件 LOCUSU000964639221bpDNAcircularBCT18 NOV 1998DEFINITIONEscherichiacoliK 12MG1655completegenome ACCESSIONU00096KEYWORDS SOURCEEscherichiacoli ORGANISMEscherichiacoliBacteria Proteobacteria gammasubdivision Enterobacteriaceae Escherichia REFERENCE1 bases1to4639221 AUTHORSBlattner F R Plunkett G III Bloch C A Perna N T Burland V TITLEThecompletegenomesequenceofEscherichiacoliK 12JOURNALScience277 5331 1453 1474 1997 MEDLINE97426617 COMMENTThissequencewasdeterminedbytheE coliGenomeProjectattheUniversityofWisconsin Madison FrederickR Blattner director SupportedbyNIHgrantsHG00301andHG01428 fromHumanGenomeProjectandNCHGR TheentiresequencewasindependentlydeterminedfromE coliK 12strainMG1655 PredictedopenreadingframesweredeterminedusingGeneMarksoftware kindlysuppliedby FEATURESLocation Qualifierssource1 4639221 organism Escherichiacoli strain K 12 sub strain MG1655 db xref taxon 562 promoter71 99 note factorSigma70 predicted 1startat106 promoter104 132 note factorSigma70 predicted 1startat139 promoter188 212 note factorSigma32 predicted 1startat219 gene190 255 note b0001 gene thrL CDS190 255 gene thrL function leader Aminoacidbiosynthesis Threonine note o21 100pctidenticaltoLPT ECOLISW P03059 codon start 1 transl table 11 product throperonleaderpeptide db xref PID g1786182 translation MKRISTTITTTITITTGNGAG BASECOUNT1142136a1179433c1176775g1140877t ORIGIN1agcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtc61tgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgacttagg121tcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtac181acaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattaccacaggt241aacggtgcgggctgacgcgtacaggaaacacagaaaaaagcccgcacctgacagtgcggg301ctttttttttcgaccaaaggtaacgaggtaacaaccatgcgagtgttgaagttcggcggt361acatcagtggcaaatgcagaacgttttctgcgtgttgccgatattctggaaagcaatgcc421aggcaggggcaggtggccaccgtcctctctgcccccgccaaaatcaccaaccacctggtg 4639021caacatcaactgcaagctttacgcgaacgagccatgacattgctgacgactctggcagtg4639081gcagatgacataaaactggtcgactggttacaacaacgcctggggcttttagagcaacga4639141gacacggcaatgttgcaccgtttgctgcatgatattgaaaaaaatatcaccaaataaaaa4639201acgccttagtaagtatttttc IDU00096standard circulargenomicDNA CON 4639221BP ACU00096 SVU00096 1DT24 JUL 2003 Rel 76 Lastupdated Version3 DEEscherichiacoliK 12MG1655completegenome KW OSEscherichiacoliK12OCBacteria Proteobacteria Gammaproteobacteria Enterobacteriales OCEnterobacteriaceae Escherichia Escherichiacoli RN 1 RP1 4639221RXMEDLINE 97426617 RXPUBMED 9278503 RABlattnerF R PlunkettG III BlochC A PernaN T BurlandV RT ThecompletegenomesequenceofEscherichiacoliK 12 RLScience277 5331 1453 1474 1997 DRGOA O32528 DRREMTREMBL AAC74436 AAC74436 DRSPTREMBL O32530 O32530 DRSWISS PROT O32528 YPDI ECOLI CCThissequencewasdeterminedbytheE coliGenomeProjectattheCCUniversityofWisconsin Madison FrederickR Blattner director CCSupportedbyNIHgrantsHG00301andHG01428 fromtheHumanGenomeCCProjectandNCHGR TheentiresequencewasindependentlyCCdeterminedfromE coliK 12strainMG1655 PredictedopenreadingCCframesweredeterminedusingGeneMarksoftware kindlysuppliedby FHKeyLocation QualifiersFTsource1 4639221FT db xref taxon 83333 FT mol type genomicDNA FT organism EscherichiacoliK12 FT strain K12 FT sub strain MG1655 FTpromoter71 99FT note factorSigma70 predicted 1startat106 FTCDS190 255FT codon start 1FT db xref GOA P03059 FT db xref SWISS PROT P03059 FT note o21 100pctidenticaltoLPT ECOLISW P03059 FT transl table 11FT gene thrL FT function leader Aminoacidbiosynthesis Threonine FT product throperonleaderpeptide FT protein id AAC73112 1 FT translation MKRISTTITTTITITTGNGAG SQSequence4639221BP 1142136A 1179433C 1176775G 1140877T 0other agcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtc60tgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgacttagg120tcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtac180acaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattaccacaggt240aacggtgcgggctgacgcgtacaggaaacacagaaaaaagcccgcacctgacagtgcggg300ctttttttttcgaccaaaggtaacgaggtaacaaccatgcgagtgttgaagttcggcggt360acatcagtggcaaatgcagaacgttttctgcgtgttgccgatattctggaaagcaatgcc420aggcaggggcaggtggccaccgtcctctctgcccccgccaaaatcaccaaccacctggtg480gcgatgattgaaaaaaccattagcggccaggatgctttaccca
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 巴中市中储粮2025秋招基建工程岗高频笔试题库含答案
- 国家能源日喀则市2025秋招计算机与自动化类面试追问及参考回答
- 舟山市中石油2025秋招笔试模拟题含答案财务与审计岗
- 中国联通金昌市2025秋招面试无领导高频议题20例
- 鸡西市中石化2025秋招面试半结构化模拟题及答案油气储运与管道岗
- 吕梁市中储粮2025秋招综合管理岗高频笔试题库含答案
- 湘潭市中石化2025秋招面试半结构化模拟题及答案安全环保与HSE岗
- 大唐电力佳木斯市2025秋招半结构化面试模拟30问及答案
- 中国移动安康市2025秋招行业解决方案岗位专业追问清单及参考回答
- 中国联通新疆地区2025秋招行业解决方案岗位专业追问清单及参考回答
- 结肠癌肝转移护理查房课件
- 口腔预防保健课件
- 九年级数学上(前两章)试题 Microsoft Word 文档1
- 视频监控系统安装施工方案
- -首次执行衔接问题-行政
- GB/T 95-2002平垫圈C级
- 一起重新构想我们的未来:为教育打造新的社会契约
- GB/T 21073-2007环氧涂层七丝预应力钢绞线
- 压力管道特性表
- 高级会计师评审个人业绩报告(精选9篇)
- 储能型虚拟电厂的建设与思考分析报告
评论
0/150
提交评论