




已阅读5页,还剩89页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章生物数据库介绍,生物分子数据高速增长,分子生物学及相关领域研究人员迅速获得最新实验数据,建立生物分子数据库,本章目的:介绍储存这些数据的数据库,以及从这些数据库中获取需要的信息的方法。,数据库(database)是存储在某种存储介质上的相关数据的有组织的集合。存储生物大分子信息数据的数据库称为分子生物学数据库(molecularbiologydatabase),也称生物信息学数据库(bioinformaticsdatabase)。数据库,特别是分子生物学数据库,具有三个特征:(1)数据库是可以检索的,即具有检索(index)功能;(2)数据库应该是定时更新的,即不断有新版内容发布(release);(3)数据库是交叉引用的(cross-referenced),特别是在互联网时代,数据库应该通过超链接(hyperlinks)与其他数据库相连。,生物信息学数据库的分类:,生物信息学数据库,一级数据库,二级数据库,一级数据库,直接来源于实验获得的原始数据(DNA序列、蛋白质序列、蛋白质结构等),只经过简单的归类、整理和注释。,一级核酸数据库(3):GenBank数据库、EMBL数据库、DDBJ数据库一级蛋白质序列数据库(2):SWISS-PROT库、PIR蛋白信息数据库一级蛋白质结构数据库(1):PDB数据库,二级数据库,在一级数据库、实验数据和理论分析的基础上,针对不同的研究内容和需要,对生物学知识和信息的进一步整理得到的数据库,旨在使基本数据库更加便于使用。人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质序列功能位点数据库Prosite等。,生物信息学数据库,一级数据库,DNA数据库,二级数据库,基因组数据库,蛋白质序列数据库,蛋白质结构数据库,建立分子生物信息数据库的流程图,contents,2.1序列数据库2.2基因组数据库2.3结构数据库2.4功能数据库2.5基本序列数据库注释及序列格式,2.1序列数据库,2.1.1三大核酸序列数据库GenBank(美国NCBI)EMBL(欧洲EBI)DDBJ(日本NIG),2.1.2两大蛋白序列数据库SWISS-PROT库PIR库,2.1.1三大核酸序列数据库,1982年4月:由以下三个机构联合建立,GenBank数据库最初设在美国洛斯阿拉莫斯国家实验室(LANL),现由位于美国马里兰州Bethesda的国家生物技术研究中心(NCBI)维护管理。数据库每日更新,每年发行六版。其中所收集的序列包括:基因组DNA序列、cDNA序列、EST序列、STS序列、载体序列、人工合成序列及HTG序列等。,NIH(NationalInstituteofHealth,美国国立卫生研究院)NCBI(NationalCenterforBiotechnologyInformation,美国国家生物技术信息中心(做日常维护))NLM(NationalLibraryofMedicine,美国国立医学图书馆),GenBank(美国国家生物技术信息中心,NCBI),NCBI主页:,下拉菜单,检索关键词,主页的导航条有七大类:PubMed:上千万条文献记录及许多在线期刊id连接;AllDatabases:NCBI中的各种数据库集合;BLAST:局部比对的序列相似性搜索工具;OMM:在线人类孟德尔遗传性状数据库,人类基因和遗传异常的索引;Books:在线的参考书籍,包含于PubMEd的链接;Taxonomy:囊括主要生物类别的分类信息浏览器;Structure:分子建模数据库,记录了大分子的三维结构,/Genbank/genbankstats,GenBank收录的物种,/Taxonomy/txstat.cgi,GenBank中20种测序最多的物种(09年8月15日发布的第173.0版),/genbank/gbrel.txt,各种登录号(索引号)的类型,各种登录号(索引号)的类型(续),/bookshelf/br.fcgi?book=helpentrezMetazoa;Sipuncula;Phascolosomatidea;Phascolosomatiformes;Phascolosomatidae;Phascolosoma.REFERENCE1(bases1to15494)AUTHORSShen,X.,Ma,X.,Ren,J.andZhao,F.TITLEAclosephylogeneticrelationshipbetweenSipunculaandAnnelidaevidencedfromthecompletemitochondrialgenomesequenceofPhascolosomaesculentaJOURNALBMCGenomics10,136(2009)PUBMED19327168,三大数据库之间的联系,国际核酸序列数据库协会,1998年,Genbank、EMBL、DDBJ共同成立了国际核酸序列数据库协会(InternationalNucleotideSequenceDatabaseCollection,简称INSDC,/),建立了合作关系。合作的目的是收集全球范围内的核酸序列,对其进行分析及注释。并通过互联网每天将新测定的和更新的数据进行交换共享,保证数据库信息的完整与同步。INSDC向全世界用户免费开放,不设定访问次数;但要求生命科学核心期刊在文章发表时序列必须提交到国际核酸序列数据库中。,/,BioSino数据库是中国自主开发的核酸序列公共数据库,发表我国各基因研究中心提供的核酸序列,并接受我国核酸序列的注册登记,由中国科学院上海生命科学研究院生物信息中心维护,提供的内容及服务相对于上述的三大国际核酸数据库来说较简单,无论在国内还是国外都较难引起足够的重视和关注。/pages/database.htm,BioSino数据库,BioSino网页,核酸公共数据库,DatabaseofDomainInteractionsandBindings,2.1.2两大蛋白质数据库,1986年欧洲瑞士日内瓦大学的AmosBairoch设计了一个蛋白质序列分析工具(COMPSEQ-PC/Gene)并建立了第一个全新的蛋白质序列数据库SwissProt,该数据库的所有条目都经过有经验的分子生物学家和蛋白质化学家通过计算机工具并查阅有关文献资料仔细核实,因此又称蛋白质专家库(ExPASy)。网址:可从中搜索,获得各种蛋白质的氨基酸序列,及其各种配基结合位点、酶活位点等。,SWISS-PROT蛋白质数据库,SwissProt蛋白质序列数据库在国际上比较权威,一般任何蛋白质序列数据搜寻和比较都应从SwissProt开始。SwissProt涉及已知蛋白质的功能、序列(包括一些蛋白质片断序列)、结构域(如跨膜区等)结构、翻译后修饰(如磷酸化与去磷酸化等)及其位点、突变体等。SwissProt还与其他一些数据库如Prosite、Swiss-2DPAGE、Swiss-3DIMAGE、Enzyme、SwissModel、NCBI等相链接。,(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据。,SwissProt中的数据来源包括以下四个部分:,SWISS-PROT,SWISS-PROT的网址:,下拉菜单,检索内容,PIR蛋白质数据库,PIR主要目的是提供按同源性和分类学组织的综合性、非冗余数据库,由位于美国华盛顿的国家医学研究基金会(NationalBiomedicalResearchFoundation,NBRF)、德国马普学会的慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护.网址为:/,PIR,PIR网址:/,UniProt数据库,2002年为了整合全球的蛋白质序列资源,使信息共享,美国的蛋白质信息资源数据库PIR与欧洲生物信息学研究所EBI、瑞士生物信息学研究所SIB在国立卫生研究院NIH的资助下,决定建立全球范围内统一的蛋白质序列和功能数据库UniProt(通用蛋白质资源,UniversalProteinResource)。合并了分属不同研究所下的PIR-PSD、SwissProt和TrEMBL数据库。合并后的蛋白质数据库Uniprot具有全世界最全面的蛋白质分类信息,是蛋白质序列与功能主要的知识库。网址:,UniProt数据库主页,搜索,2.2基因组数据库,基因组数据库的主体是模式生物基因组数据库,是一个比较专一的数据库,只收录单一的物种序列、结构、发育等相关数据信息,因此也仅对所对应的研究领域及相关研究领域有价值。来源于人类基因组计划及各种模式生物基因组计划,人类、线虫、拟南芥、家蚕、水稻、家鸡、,NCBI中集成的Genome数据,网址:/Genomes/提供了许多物种的基因组数据资源,人类基因组数据库,GDB的国内镜像,GDB(美国、加拿大)1990年,JohnHopkins大学建立,后由加拿大儿童医院生物信息中心管理,2003年起,GDB-relatedsoftwareandpublicdataweretransferredtoRTIInternational.数据内容:1、人类基因组,包括基因、克隆、断裂点、细胞遗传标记物、易断位点、重复片段等。2、人类基因组示意图,包括细胞遗传图,关联图,辐射杂交图、综合图等。3、人类基因组内的变异,包括基因突变和基因多态性,还有等位基因发生频次等数据资料。,GDB网址/,既是一个数据库,又是一个数据库管理系统。提供很好的图形界面,用户能够从大到整个基因组小到序列的各个层次观察和分析基因组数据。数据内容:限制性图谱,基因结构信息,质粒图谱,序列数据,参考文献,AceDB(线虫基因组数据库),AceDB网址,拟南芥基因组数据库,拟南芥(Arabidopsisthaliana)属十字花科,拟南芥属,是一种分布很广的植物,其本身毫无经济价值,但其基因组较简单,染色体n=5,核基因组DNA含量=1.0108碱基对,生命周期短,一代时间为35周,种子产量大,每个植株可产生无数粒细小的种子。有人将之称为植物中的“果蝇”,是模式植物。网址:/,家蚕基因组数据库,家蚕(Bombyxmori)属鳞翅目,蚕蛾科。家蚕既是支撑蚕丝产业的生物基础,又是鳞翅目昆虫研究的典型模式种类,同时也是开发新一代生物反应器和新型昆虫产业的材料。2003年我国科学家在国际上率先完成了家蚕基因组框架图。2008年与日本合作已经完成精细图。网址:,水稻基因组数据库,水稻基因组是第一个完成测序的禾本科植物基因组。水稻基因组数据库包括水稻基因序列数据库,水稻基因cDNA表达序列标签(EST)数据库,水稻基因组注释、分析数据库等三个主要字库,包括了水稻基因组的核酸序列,表达序列两个一级数据库和由此进行数据加工得到的水稻基因组注释、分析数据库等二级数据库,是进行水稻及植物相关生物学研究的重要数据来源。网址:,家鸡基因组数据库,中国是鸡的主要起源国之一,家养鸡在中国已有5000-8000年的历史。鸡肉和鸡蛋是国民饮食中主要动物蛋白来源,数量仅次于猪肉。开展鸡基因组和遗传多态性研究,从本质上找到控制鸡的品质性状相关基因,将为持续、有效、安全地改良肉鸡和蛋鸡的品质开拓新的技术途径。鸡含有数量众多的微型染色体;其体外孵化的特点使其成为研究胚胎发育最重要的材料;鸡也是研究免疫与病毒和癌症的主要模式之一;鸡在遗传和生理等方面所具有特异性,使得鸡成为科学研究方面的重要模式之一。网址:,果蝇基因组数据库,黑腹果蝇(Drosophilamelanogaster)在分类学上属于昆虫纲双翅目,是一种经典的模式生物,为人类探索生命的本质做出了重大贡献。昆虫学上的许多研究都是跟踪果蝇进行的。果蝇基因组数据库FlyBase是一个关于果蝇的基因和分子生物学信息的数据库,包含了来自果蝇基因组测序的基因信息和相关文献信息。网址:/,线虫基因组数据库,秀丽隐杆线虫(Caenorhabditiselegans)是现代发育生物学、遗传学和基因组学研究的重要模式材料。其成体长仅1mm,全身透明,以细菌为食,整个的生命周期仅3天。野生型线虫胚胎发育中细胞分裂和细胞系的形成具有高度的程序性,一个成体仅由959个细胞组成。由一个受精卵发育成为成熟的成体只要二天多一点(25时需52小时)。网址:/,玉米基因组数据库,玉米基因组测序项目始于2005年,美国全国科学基金会、农业部、能源部为这个项目提供了2950万美元的经费。美国科学家2008年2月28日在华盛顿宣布完成玉米基因组的草图,这是人类成功测序的第二种农作物基因组。玉米基因组以代号为B73的高产玉米品种为研究对象,完成了约95%的基因组测序工作。结果显示,玉米基因组的基因数量为5万至6万个,碱基对数量大约为20亿个。玉米基因组数据库MaizeGDB收录了关于玉米基因组测序的基因和分子生物学信息,目前由密苏里哥伦比亚大学负责管理和维护。网址:/,部分生物基因组计划网址,老鼠(Mouse)/mgd.html小鼠(Rat)http:/ratmap.gen.gu.se狗(Dog)/dog.html牛(Cow)http:/locus.jouy.inra.fr/cgi-bin/bovmap/intro2.pl猪(Pig)http:/www.ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.html羊(Sheep)http:/dirk.invermay.cri.nz鸡(Chicken)斑马鱼(Zebrafish)线虫(C.elegans)http:/www.ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.html果蝇(Drosophila)蚊子(Mosquito)拟南芥(Arabidopsis)/Arabidopsis棉花(Cotton)玉米(Maize);/水稻(Rice)http:/www.staff.or.jp大豆(Soya):8000/main.html,2.3结构数据库,PDB由美国自然科学基金会、能源部和国立卫生研究院共同投资建立,主要由X射线晶体衍射和核磁共振(NMR)测得的生物大分子三维结构所组成,用户可直接查询、调用和观察库中所收录的任何大分子三维结构。网址为:/pdb/在序列分析中,PDB数据库主要可应用于蛋白质结构预测和结构同源性比较。其中NRL-3D数据库则是PDB数据库中所有已知结构蛋白质数据库。,2.3.1PDB(proteindatabank),PDB,PDB网址:/pdb(美国),检索内容,2.3.2PROSITE(蛋白质序列功能位点数据库),PROSITE数据库是ExPASy下面的子数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;除了序列模式之外,PROSITE还包括由多序列比对构建的profile,能更敏感地发现序列与profile的相似性。PROSITE的主页上提供各种相关检索服务。网址:http:/www.expasy.ch/prosite/,PROSITE,输入氨基酸序列,提交后,即可。,2.3.3SCOP,英国医学研究委员会分子生物学实验室和蛋白质工程中心开发的基于web的蛋白质结构数据库分类、检索和分析系统;详细描述了已知的蛋白质结构之间的关系。网址:http:/scop.mrc-lmb.cam.ac.uk/scop/,SCOP主页,主页上的各种在线分析软件,2.3.4COG,NCBI的子数据库蛋白质直系同源簇(COGs)数据库是对细菌、藻类和真核生物的21个完整基因组的编码蛋白,根据系统进化关系分类构建而成。COG库对于预测单个蛋白质的功能和整个新基因组中蛋白质的功能都很有用。利用COGNITOR程序,可以把某个蛋白质与所有COGs中的蛋白质进行比对,并把它归入适当的COG簇。COG库提供了对COG分类数据的检索和查询,基于Web的COGNITOR服务,系统进化模式的查询服务等。网址:/COG,COG,2.3.5河北大学蛋白质数据库HPDB,2.4功能数据库,京都基因和基因组百科全书(KEGG)相互作用的蛋白质数据库(DIP)可变剪接数据库(ASDB)转录调控区数据库(TRRD),2.4.1京都基因和基因组百科全书(KEGG),是系统分析基因功能,联系基因组信息和功能信息的知识库。基因组信息存储在GENES数据库里,包括完整和部分测序的基因组序列;更高级的功能信息存储在PATHWAY数据库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息;KEGG的另一个数据库是LIGAND,包含关于化学物质、酶分子、酶反应等信息。KEGG提供了Java的图形工具来访问基因组图谱,比较基因组图谱和操作表达图谱,以及其它序列比较、图形比较和通路计算的工具,可以免费获取。,KEGG,网址:http:/www.genome.jp/kegg/,相互作用的蛋白质数据库(DIP)收集了由实验验证的蛋白质蛋白质相互作用。数据库包括蛋白质的信息、相互作用的信息和检测相互作用的实验技术三个部分。用户可以根据蛋白质、生物物种、蛋白质超家族、关键词、实验技术或引用文献来查询DIP数据库。,2.4.2DIP,DIP,/dip/Main.cgi,2.4.3ASDB,可变剪接数据库(ASDB)包括蛋白质库和核酸库两部分。ASDB(蛋白质)部分:来源于SWISS-PROT蛋白质序列库,通过选取有可变剪接注释的序列,搜索相关可变剪接的序列,经过序列比对、筛选和分类构建而成。ASDB(核酸)部分:来自Genbank中提及和注释的可变剪接的完整基因构成。数据库提供了方便的搜索服务。网址:/asdb,2.4.4TRRD,转录调控区数据库(TRRD)的每一个条目里包含特定基因各种结构功能特性:转录因子结合位点、启动子、增强子、静默子、以及基因表达调控模式等。TRRD包括五个相关的数据表:TRRDGENES(包含所有TRRD库基因的基本信息和调控单元信息);TRRDSITES(包括调控因子结合位点的具体信息);TRRDFACTORS(包括TRRD中与各个位点结合的调控因子的具体信息);TRRDEXP(包括对基因表达模式的具体描述);TRRDBIB(包括所有注释涉及的参考文献)。TRRD主页提供了对这几个数据表的检索服务。,TRRD,网址:http:/wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/,2.4.5TRANSFAC,TRANSFAC数据库是关于转录因子、它们在基因组上的结合位点和与DNA结合的profiles的数据库。由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD和REFERENCE等数据表构成。此外,还有几个与TRANSFAC密切相关的扩展库:PATHODB库收集了可能导致病态的突变的转录因子和结合位点;S/MARTDB收集了与染色体结构变化相关的蛋白因子和位点的信息;TRANSPATH库用于描述与转录因子调控相关的信号传递的网络;CYTOMER库表现了人类转录因子在各个器官、细胞类型、生理系统和发育时期的表达状况。网址:http:/transfac.gbf.de/TRANSFAC/,从1994年开始,核酸研究(NucleicAcidResearch)杂志每年第一期为生物学数据库专集,介绍各种生物学数据库,这一期是免费的。网址:/,常用数据库汇总,Volume37,WebServerissue,1July2009,Volume37,Databaseissue,January2009,2.5基本序列数据库注释及序列格式,历史原因:没有完全统一的数据库格式,但不同的数据库研究组所采用的注释信息内容基本一致,但格式不尽相同。涉及特定序列数据的信息被尽可能地录入数据库,并在不同字段中得以体现。一般由两部分组成:文字注释和内容(序列,)三大核酸数据库约定了统一的描述格式,具体描述可见http:/www.ebi.ac.uk/embl/Documentation/FT_definitions/feature_table.html,EMBL和GenBank数据库的行识别标志比较,示例,LOCUSNC_01261815494bpDNAcircularINV11-MAY-2009DEFINITIONPhascolosomaesculentamitochondrion,completegenome.ACCESSIONNC_012618VERSIONNC_012618.1GI:228015390DBLINKProject:37801KEYWORDS.SOURCEmitochondrionPhascolosomaesculenta(peanutworm)ORGANISMPhascolosomaesculentaEukaryota;Metazoa;Sipuncula;Phascolosomatidea;Phascolosomatiformes;Phascolosomatidae;Phascolosoma.REFERENCE1(bases1to15494)AUTHORSShen,X.,Ma,X.,Ren,J.andZhao,F.TITLEAclosephylogeneticrelationsh
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 美的集团工作流程体系
- 2025年事业单位工勤技能-湖北-湖北水生产处理工三级(高级工)历年参考题库含答案解析
- 文化场馆扩建工程2025年社会稳定风险评估研究
- 2025年事业单位工勤技能-浙江-浙江土建施工人员一级(高级技师)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-河南-河南舞台技术工一级(高级技师)历年参考题库含答案解析
- 2024版房产证抵押合同样本
- 2025年事业单位工勤技能-河北-河北理疗技术员三级(高级工)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-江西-江西药剂员三级(高级工)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-广西-广西计算机信息处理员二级技师历年参考题库含答案解析
- 2025年事业单位工勤技能-广西-广西放射技术员四级(中级工)历年参考题库典型考点含答案解析
- 智能航运管理-洞察阐释
- 被迫签署离职协议书
- 内蒙古华电正能圣圆伊金霍洛旗风光制氢一体化项目(风电部分)-环境影响报告书
- 学习解读《水利水电建设工程验收规程》SLT223-2025课件
- 《肥胖症诊疗指南(2024年版)》解读课件
- 感冒急性鼻炎护理
- 2025《安全生产法》培训课件
- 上门灭蚊合同协议
- 2025报关单填制规范
- 2025届四川省泸州市高三下学期第三次教学质量诊断性考试英语试题(原卷版+解析版)
- 缓刑解除矫正个人的总结(范文模板)
评论
0/150
提交评论