生物信息数据库.ppt_第1页
生物信息数据库.ppt_第2页
生物信息数据库.ppt_第3页
生物信息数据库.ppt_第4页
生物信息数据库.ppt_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章生物信息数据库,1、模式生物2、数据库,human,Arabidopsis拟南芥,Thermotogamaritima,Escherichiacoli大肠杆菌,Buchnerasp.APS,Rickettsiaprowazekii,Ureaplasmaurealyticum,Bacillussubtilis,Drosophilamelanogaster,Thermoplasmaacidophilum,Plasmodiumfalciparum,Helicobacterpylori,mouse,Caenorhabitiselegans,rat,Borreliaburgorferi,Borreliaburgorferi,Aquifexaeolicus,NeisseriameningitidisZ2491,Mycobacteriumtuberculosis,第一节模式生物,人类基因组,模式生物基因组计划,人类基因组计划(HumanGenomeProject,HGP)1990年启动,预计2003年完成。由美、日、德、法、英、中六国参加。测出人类约3,000,000,000碱基对的序列(相当于每页3,000个字母,共需100万页印完)。中国承担其中的1%。,Venter,Collins,人类基因组,模式生物基因组计划,模式生物基因组计划酵母、线虫、果蝇、细菌共约50多种已完成,水稻等70余种正在进行。目前总量已达60亿碱基对!,已经完成全序列测定的基因组,引自(Oct,2001)http:/www.ebi.ac.uk/genomes/,viruses,plasmids,bacteria,fungi,plants,algae,insects,mollusks,reptiles,birds,mammals,Genomesizesinnucleotidepairs(base-pairs),104,108,105,106,107,1011,1010,109,Thesizeofthehumangenomeis3X109bp;almostallofitscomplexityisinsingle-copyDNA.Thehumangenomeisthoughttocontain30,000to40,000genes.,bonyfish,amphibians,Homosapiens智人,蛋白质编码基因数在2.7万至4万之间(但最新的估计在6.5万至7.5万之间),噬菌体(Bacteriophage)寄生于细菌内的病毒如:大肠杆菌噬菌体(coliphages)遗传物质:单链/双链、环状/线状、DNA/RNA,模式生物(ModelOrganism),模式生物(ModelOrganism),病毒(Virus)不具有细胞形态结构,仅由核酸和蛋白质构成;如:人艾滋病毒HIV、SARS冠状病毒体积小,10300nm;严格的专性细胞内寄生;对抗生素不敏感。,电子显微镜下的SARS冠状病毒,100nm,Escherichiacoli大肠杆菌,大肠杆菌是研究得最为详尽的一个模式生物。这种只有1.6微米长的、可以迅速繁殖的单细胞原核生物,已经成为实验室和基因工程的重要工具。,EscherichiacoliO157:H7,EscherichiacoliK12,模式生物(ModelOrganism),Saccharomycescerevisiae酿酒酵母,真菌界的单细胞真核生物,有16个染色体。它的全基因组已在1996年测定。,模式生物(ModelOrganism),秀丽线虫Caenorhabditiselegans一种透明的、生活在海滩泥沙中的小虫。,细胞数目一定:成虫细胞数目只有959个,其中包括302个神经元;有6条染色体,全基因组于1998年测定,长9.7Mb,模式生物(ModelOrganism),Drosophilamelanogaster果蝇,繁殖很快、容易诱发变异的小昆虫。总长达1.8亿核苷酸。,模式生物(ModelOrganism),Arabidopsisthaliana拟南芥,个体生活周期只有6周的十字花科小草,是一种理想的模式植物。,模式生物(ModelOrganism),模式生物(ModelOrganism),非洲瓜蟾(Xenopuslavias)1个受精卵在24小时内分裂到各种器官初具雏形的程度;,模式生物(ModelOrganism),斑马鱼(Daniorerio)身体透明的小鱼,生活周期约3个月,是研究脊椎动物发育过程的良好对象。,模式生物(ModelOrganism),小鼠(Musmusculus)基因组大小与人类相近,约30亿个核苷酸对,有19条染色体;,第二节数据库,一、引言,生物分子数据高速增长,分子生物学及相关领域研究人员迅速获得最新实验数据,建立生物分子数据库,生物信息数据库应满足5个方面的主要需求(1)时间性(2)注释(3)支撑数据(4)数据质量(5)集成性,生物信息数据库几个明显的特征:,(1)数据库的更新速度不断加快数据量呈指数增长趋势(2)数据库使用频率增长更快(3)数据库的复杂程度不断增加(4)数据库网络化(5)面向应用(6)先进的软硬件配置,一个数据库记录(entry)一般由两部分组成:1.原始序列数据(sequencedata)2.描述这些数据生物学信息的注释(annotation)注释中包含的信息与相应的序列数据同样重要和有应用价值。,数据的完整性和注释工作量:1.序列数据广,序列注释不够完整2.库数据面窄,序列注释全面,数据库的动态更新:1.不断增加2.不断修正,分子生物信息数据库种类繁多。归纳起来,大体可以分为4个大类,即基因组数据库、核酸和蛋白质一级结构数据库、生物大分子(主要是蛋白质)三维空间结构数据库,以及由上述3类数据库和文献资料为基础构建的二次数据库。基因组数据库来自基因组作图,序列数据库来自序列测定,结构数据库来自X射线衍射和核磁共振等结构测定。这些数据库是分子生物学的基本数据资源,通常称为基本数据库、初始数据库,也称一次数据库。,根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的二次数据库。一般说来,一次数据库的数据量大,更新速度快,用户面广,通常需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库管理系统支撑;二次数据库的容量则小得多,更新速度也不像一次数据库那样快,也可以不用大型商业数据库软件支持,这类针对不同问题开发的二次数据库的最大特点是使用方便,特别适用于计算机使用经验不太丰富的生物学家。序列数据库是分子生物信息数据库中最基本的数据库,包括核酸和蛋白质两类,以核苷酸碱基顺序或氨基酸残基顺序为基本内容,并附有注释信息。,生物信息数据库一级数据库数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释二级数据库对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。,生物信息学数据库工具,生物信息数据库,染色体,核酸,蛋白质,基因组图谱,DNA序列,蛋白质序列,蛋白质结构,基因组数据库,核酸序列数据库,蛋白质序列数据库,蛋白质结构数据库,二级数据库复合数据库,基因组作图,序列测定,结构测定,国际著名的生物信息中心,NCBINationalCenterforBiotechnologyInformation(US)EBIEuropeanBioinformaticsInstitute(EU)HGMPHumanGenomeMappingProjectResourceCentre(UK)ExPASyExpertofProteinAnalysisSystem(Switzerland)CMBICentreofMolecularandBiomolecule(TheNetherlands)ANGISNationalGenomeInformationService(Australia)NIGNationalInstituteofGenetics(Japan)BICNationalBioinformaticsCentre(Singapore),一级数据库简介,1、核酸序列数据库,国际上权威的核酸序列数据库(1)欧洲分子生物学实验室的EMBLhttp:/www.embl-heidelberg.de(2)美国生物技术信息中心的GenBank/Web/Genbank/index.html(3)日本遗传研究所的DDBJhttp:/www.ddbj.nig.ac.jp/,GenBank,DDBJ,EMBL,三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。,美国的核酸数据库GenBankBanson,D.A.etal.(1998)NucleicAcidsRes.26,1-7从1979年开始建设,1982年正式运行;,欧洲分子生物学实验室的EMBL数据库也于1982年开始服务,日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务。,从那个时候以来,DNA序列的数据已经从80年代初期的百把条序列,几十万碱基上升至现在的110亿碱基!这就是说,在短短的约18年间,数据量增长了近十万倍。,EMBL数据库序列记录随时间增长,568,27,248,475,EMBL数据库序列总长随时间增长,3.41010,5.8105,EMBL2003年8月数据状况(Release76)DivisionEntriesNucleotides表达序列标签(ESTs)18,001,3329,172,848,447真菌(Fungi)81,533124,814,006基因组检测序列(GSSs)5,951,5523,541,699,334高通量cDNA(HTC)148,033198,301,795高通量基因组(HTG)69,07011,827,270,957人(Human)253,1223,999,942,455无脊椎动物(Invertebrates)126,656618,391,776其它哺乳动物(OtherMammals)51,211117,048,169鼠(Musmusculus)79,1681,331,593,999细胞器(Organelles)217,902180,804,604专利(Patents)1,326,009717,107,725噬菌体(Bacteriophage)2,3219,413,526植物(Plants)214,323700,212,325原核生物(Prokaryotes)200,833690,274,487啮齿动物(Rodents)25,45964,607,453序列标签位点(STSs)239,292114,379,671合成(Synthetic)9,19616,869,561未分类(Unclassified)1,8602,167,222病毒(Viruses)196,817175,615,411其它脊椎动物(OtherVertebrates)52,583282,545,232总计27,248,47533,885,908,155,2、基因组数据库,来源于人类基因组计划及各种模式生物基因组计划1977年,最早获得的生物基因组全序列是噬菌体(53kb)1995年,第一个自由生物体流感嗜血菌(H.inf)被完全测序,部分生物基因组计划网址老鼠(Mouse)/mgd.html小鼠(Rat)http:/ratmap.gen.gu.se狗(Dog)/dog.html牛(Cow)http:/locus.jouy.inra.fr/cgi-bin/bovmap/intro2.pl猪(Pig)http:/www.ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.html羊(Sheep)http:/dirk.invermay.cri.nz鸡(Chicken)http:/www.ri.bbsrc.ac.uk/chickmap/chickbase/manager.html斑马鱼(Zebrafish)线虫(C.elegans)http:/www.ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.html果蝇(Drosophila)蚊子(Mosquito)拟南芥(Arabidopsis)/Arabidopsis棉花(Cotton)玉米(Maize)水稻(Rice)http:/www.staff.or.jp大豆(Soya):8000/main.html树(Trees),GDB(美国、加拿大)1990年,JohnHopkins大学建立,后由加拿大儿童医院生物信息中心管理.数据内容:基因单位、PCR位点、细胞遗传标记、EST、contig、重复片段、基因组图谱与其它分子生物信息网络资源(EMBL、GenBank)的链接,AceDB线虫基因组数据库。既是一个数据库,又是一个数据库管理系统。提供很好的图形界面,用户能够从大到整个基因组小到序列的各个层次观察和分析基因组数据。数据内容:限制性图谱,基因结构信息,质粒图谱,序列数据,参考文献,3、蛋白质序列数据库,SWISSPROT(欧洲)PIR(美国),SWISSPROT1.瑞士日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护(1986年);2.在EMBL和GenBank数据库上均建立了镜像站点;3.数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释;4.数据记录包括两部分:序列注释(结构域、功能位点、跨膜区域、二硫键位置、翻译后的修饰、突变体等)5.数据存在滞后性TrEMBL数据库的建立SWISS-PROT的网址:/sprotTrEMBL的网址:http:/www.ebi.ac.uk/trembl/index.html,SWISS-PROT(http:/www.expasy.ch/sprot/sprot-top.html)是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的,SWISS-PROT中的数据来源于不同源地:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据,SWISS-PROT有三个明显的特点:,(1)注释在SWISS-PROT中,数据分为核心数据和注释两大类。核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述)注释包括:(A)蛋白质的功能描述;(B)翻译后修饰;(C)域和功能位点,如钙结合区域、ATP结合位点等;(D)蛋白质的二级结构;(E)蛋白质的四级结构,如同构二聚体、异构三聚体等;(F)与其它蛋白质的相似性;(G)由于缺乏该蛋白质而引起的疾病;(H)序列的矛盾、变化等。,(2)最小冗余,尽量将相关的数据归并,降低数据库的冗余程度。如果不同来源的原始数据有矛盾,则在相应序列特征表中加以注释。,(3)与其它数据库的连接,对于每一个登录项,有许多指向其它数据库相关数据的指针,这便于用户迅速得到相关的信息。,现有的交叉索引有:到EMBL核酸序列数据库的索引,到PROSITE模式数据库的索引,到生物大分子结构数据库PDB的索引等。,提交序列数据(a)编辑电子表格(b)利用Authorin程序(c)WWW服务器使用SWISS-PROT(a)CD-ROM形式(b)ftp服务器(c)Gopher服务器(d)WWW服务器(SRS)与序列相关的操作(a)序列查询(b)搜索同源蛋白质序列,TrEMBL(http:/www.ebi.ac.uk/trembl/index.html)是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。TrEMBL有两个部分:(1)SP-TrEMBL(SWISS-PROTTrEMBL)包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL序列都已被赋予SWISS-PROT的登录号。(2)REM-TrEMBL(REMainingTrEMBL)包括所有不准备放入SWISS-PROT的数据,因此这部分数据都没有登录号。,PIR(proteininformationresource)1.由美国NCBI翻译自GenBank的DNA序列(1984年);2.在EMBL和GenBank数据库上均建立了镜像站点;3.数据依据注释的质量分为4类。网址:/,PIR数据库的分类情况(Release51.03),目的:帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组。它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。,1、PIR(ProteinInformationResource),除了蛋白质序列数据之外,PIR还包含以下信息:(1)蛋白质名称、蛋白质的分类、蛋白质的来源;(2)关于原始数据的参考文献;(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;(4)序列中相关的位点、功能区域。,PIR提供三种类型的检索服务:一是基于文本的交互式查询,用户通过关键字进行数据查询。二是标准的序列相似性搜索,包括BLAST、FastA等。三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。,三个子数据库,4、蛋白质结构数据库,PDB(proteindatabank)1.目前最主要的蛋白质分子结构数据库;2.1970年代建立,美国Brookhaven国家实验室维护管理;3.1988年,由美国RCSB(researchcollaboratoryforstructuralbiology)管理;4.以文本格式存放数据,包括原子坐标、物种来源、测定方法、提交者信息、一级结构、二级结构等;5.PDBsum数据库:PDB注释信息综合数据库,具有检索、分析、可视化的功能。PDB的网址:/pdb(美国)PDBsum的网址:http:/www.biochem.ucl.ac.uk/bsm/pdbsum,PDB中含有通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构蛋白质核酸糖类其它复合物,PDB(ProteinDataBank),一种是隐式序列信息(implicitsequence)PDB的隐式序列即为立体化学数据,包括每个原子的名称和原子的三维坐标。,一种是显式序列信息(explicitsequence)在PDB文件中,以关键字SEQRES作为显式序列标记,以该关键字打头的每一行都是关于序列的信息。,HEADERHYDROLASE19-FEB-971ADZTITLETHESOLUTIONSTRUCTUREOFTHESECONDKUNITZDOMAINOFTITLE2TISSUEFACTORPATHWAYINHIBITOR,NMR,30STRUCTURESCOMPNDMOL_ID:1;COMPND2MOLECULE:TISSUEFACTORPATHWAYINHIBITOR;。COMPND8BIOLOGICAL_UNIT:MONOMERSOURCEMOL_ID:1;。SOURCE7EXPRESSION_SYSTEM_PLASMID:PFLAGKEYWDSHYDROLASE,INHIBITOR,COAGULATIONEXPDTANMR,30STRUCTURESAUTHORM.J.M.BURGERING,L.P.M.ORBONSREVDAT125-FEB-981ADZ0JRNLAUTHM.J.BURGERING,L.P.ORBONS,A.VANDERDOELEN,。REMARK1REFERENCE1REMARK1AUTHM.T.STUBBSIIREMARK1TITLSTRUCTURALASPECTSOFFACTORXAINHIBITION。REMARK999SEQUENCEREMARK9991ADZSWSP106461-111NOTINATOMSLISTREMARK9991ADZSWSP10646183-304NOTINATOMSLISTREMARK999THEFIRSTNINERESIDUESARENOTPARTOFTHETFPIDOMAINIIREMARK999SEQUENCEBUTAREFROMTHEPFLAGPEPTIDECLONINGVECTOR.DBREF1ADZ171SWSP10646TFPI_HUMAN112182SEQADV1ADZASP1SWSP10646ILE112ENGINEEREDSEQADV1ADZTYR2SWSP10646ILE113ENGINEEREDSEQRES171ASPTYRLYSASPASPASPASPLYSLEULYSPROASPPHESEQRES271CYSPHELEUGLUGLUASPPROGLYILECYSARGGLYTYRSEQRES371ILETHRARGTYRPHETYRASNASNGLNTHRLYSGLNCYSSEQRES471GLUARGPHELYSTYRGLYGLYCYSLEUGLYASNMETASNSEQRES571ASNPHEGLUTHRLEUGLUGLUCYSLYSASNILECYSGLUSEQRES671ASPGLYPROASNGLYPHEHELIX11ASP12PHE1554HELIX22ASN34THR3653HELIX33LEU57ILE6317SHEET1A2ARG29ASN330SHEET2A2GLN38PHE42-1NPHE42OARG29CRYST11.0001.0001.00090.0090.0090.00P11ORIGX

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论