




已阅读5页,还剩63页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
,生物信息数据库,一、引言,生物分子数据高速增长,分子生物学及相关领域研究人员迅速获得最新实验数据,建立生物分子数据库,v生物信息数据库应满足多个方面,的主要需求,v(1)时间性v(2)注释,v(3)支撑数据v(4)数据质量v(5)集成性,生物信息数据库几个明显的特征:,(1)数据库的更新速度不断加快,数据量呈指数增长趋势,(2)数据库使用频率增长更快,(3)数据库的复杂程度不断增加,(4)数据库网络化,(5)面向应用,(6)先进的软硬件配置,一个数据库记录(entry)一般由两部分组成:,1.原始序列数据(sequencedata),2.描述这些数据生物学信息的注释(annotation),注释中包含的信息与相应的序列数据同样重要和有应用,价值。,数据的完整性和注释工作量:,1.序列数据广,序列注释不够完整2.库数据面窄,序列注释全面,数据库的动态更新:,1.不断增加2.不断修正,分子生物信息数据库种类繁多。归纳起来,大体可以分为4个大类,即基因组数据库、核酸和蛋白质一级结构数据库、生物大分子(主要是蛋白质)三维空间结构数据库、以及由上述3类数据库和文献资料为基础构建的二次数据库。,基因组数据库来自基因组作图,序列数据库来自序列测定,结构数据库来自X射线衍射和核磁共振等结构测定。这些数据库是分子生物学的基本数据资源,通常称为基本数据库、初始数据库,也称一次数据库。,v生物信息数据库,一级数据库,v数据库中的数据直接来源于实验获得的原始,数据,只经过简单的归类整理和注释,二级数据库,v对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的 。,生物信息数据库,染色体核酸蛋白质,基因组作图序列测定结构测定,基因组图谱DNA序列蛋白质序列蛋白质结构,基因组数据库核酸序列数据库蛋白质序列数据库蛋白质结构数据库,NCBI NationalCenterforBiotechnologyInformation(US)EBI EuropeanBioinformaticsInstitute(EU)HGMP HumanGenomeMappingProjectResourceCentre (UK) ExPASy ExpertofProteinAnalysisSystem(Switzerland)CMBI CentreofMolecularandBiomolecule(TheNetherlands)ANGIS NationalGenomeInformationService(Australia)NIG NationalInstituteofGenetics(Japan)BIC NationalBioinformaticsCentre(Singapore),国际著名的生物信息中心,一级数据库简介,1、核酸序列数据库,国际上权威的核酸序列数据库 (1)欧洲分子生物学实验室的EMBL http:/www.emblheidelberg.de(2)美国生物技术信息中心的GenBank /Web/Genbank/index.html(3)日本遗传研究所的DDBJ http:/www.ddbj.nig.ac.jp,相互合作,每天交换更新核苷酸序列数据, 三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。, 这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。,美国的核酸数据库GenBank 从1979年开始建 设,1982年正式运行Banson,D.A.etal.(1998)NucleicAcidsRes.26,17,欧洲分子生物学实验室的EMBL数据库也于1982年开始服务,日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务。,2、基因组数据库,来源于人类基因组计划及各种模式生物基因组计划,1977年,最早获得的生物基因组全序列是噬菌体(53kb),1995年,第一个自由生物体流感嗜血菌(H.inf) 被完全测序,部分生物基因组计划网址,老鼠(Mouse)小鼠(Rat)狗(Dog)牛(Cow)猪(Pig)羊(Sheep)鸡(Chicken),/mgd.htmlhttp:/ratmap.gen.gu.se/dog.htmlhttp:/locus.jouy.inra.fr/cgibin/bovmap/intro2.plhttp:/www.ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.htmlhttp:/dirk.invermay.cri.nzhttp:/www.ri.bbsrc.ac.uk/chickmap/chickbase/manager.html,斑马鱼(Zebrafish)线虫(C.elegans) http:/www.ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.html果蝇(Drosophila)蚊子(Mosquito) 拟南芥(Arabidopsis)/Arabidopsis,棉花(Cotton)玉米(Maize)水稻(Rice)大豆(Soya)树(Trees),http:/www.staff.or.jp:8000/main.html,GDB - Human Genome Database(美国、加拿大),1990年,JohnHopkins大学建立,后由加拿大儿童医院生物信息,中心管理.,数据内容:,基因单位、PCR位点、细胞遗传标记、EST、contig、重复片段、基因组图谱,与其它分子生物信息网络资源(EMBL、GenBank)的链接,AceDB,线虫基因组数据库。既是一个数据库,又是一个数据库管理系统。提供很好的图形界面,用户能够从大到整个基因组小到序列的各,个层次观察和分析基因组数据。,,数据内容:,限制性图谱,基因结构信息,质粒图谱,序列数据,参考文献,3、蛋白质序列数据库,SWISSPROT,1. 瑞士日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI),合作维护(1986年);2. 在EMBL和GenBank数据库上均建立了镜像站点3. 数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释;4. 数据记录包括两部分:序列注释(结构域、功能位点、跨膜区域、二硫键位置、翻译后的修饰、突变体等)5. 数据存在滞后性 数据库的建立SWISSPROT的网址:/sprotTrEMBL的网址:http:/www.ebi.ac.uk/trembl/index.html,SWISSPROT(http:/www.expasy.ch/sprot/sprottop.html)是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的,SWISS-PROT中的数据来源于不同发源地:,(1) 从核酸数据库经过翻译推导而来; (2) 从蛋白质数据库PIR挑选出合适的数据; (3) 从科学文献中摘录; (4) 研究人员直接提交的蛋白质序列数据,SWISS-PROT有三个明显的特点 :,(1)注释,在SWISS-PROT中,数据分为核心数据和注释两大类。,核心数据包括:,序列数据、参考文献、分类信息(蛋白质生物来源的描述),注释包括:,(A)蛋白质的功能描述;,(B)翻译后修饰;,(C)域和功能位点,如钙结合区域、ATP结合位点等;(D)蛋白质的二级结构;,(E)蛋白质的四级结构,如同构二聚体、异构三聚体等;(F)与其它蛋白质的相似性;,(G)由于缺乏该蛋白质而引起的疾病;(H)序列的矛盾、变化等。,(2)最小冗余, 尽量将相关的数据归并,降低数据库的冗余程度。 如果不同来源的原始数据有矛盾,则在相应序列特征表中加以注释。,(3)与其它数据库的连接,对于每一个登录项,有许多指向其它数据库相关数据的 指针,这便于用户迅速得到相关的信息。 现有的交叉索引有: 到EMBL核酸序列数据库的索引, 到PROSITE模式数据库的索引, 到生物大分子结构数据库PDB的索引等 。,TrEMBL (http:/www.ebi.ac.uk/trembl/index.html) 是与SWISS-PROT相关的一个数据库。,包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。,TrEMBL有两个部分:,(1)SP-TrEMBL(SWISS-PROT TrEMBL),包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL序列都已被赋予SWISS-PROT的 登录号。,(2)REM-TrEMBL(REMaining TrEMBL),包括所有不准备放入SWISS-PROT的数据,因此这部分数据都没有登录号。,进入网站,后在搜索栏里键入关键词,点击“”图标,Example,在搜索结果里找需要的信息即可,PIR(proteininformationresource)1. 由美国NCBI翻译自GenBank的DNA序列(1984年);2. 在EMBL和GenBank数据库上均建立了镜像站点;3. 数据依据注释的质量分为4类。网址:/PIR数据库的分类情况 (Release51.03),分类名称(Name)PIR1PIR2PIR3PIR4,说明(Comment)已分类、已注释(Classifiedandannotated)已注释(Annotated)未核实(Unverified)未翻译(Unencodedoruntranslated),记录数(Numberofentries)13572693687508196,PIR(Protein Information Resource), 目的:,帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组。, 它是一个全面的、经过注释的、非冗余的蛋白,质序列数据库。, 所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。,除了蛋白质序列数据之外,PIR还包含以下,信息:,(1)蛋白质名称、蛋白质的分类、蛋白质的来,源;,(2)关于原始数据的参考文献;,(3)蛋白质功能和蛋白质的一般特征,包括基因,表达、翻译后处理、活化等;,(4)序列中相关的位点、功能区域。,PIR提供三种类型的检索服务:,一是基于文本的交互式查询,用户通过关键字进行数据查询。,二是标准的序列相似性搜索,包括BLAST、FastA等。,三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。,三个子数据库,输入蛋白质代码1zni后search,Example,4、蛋白质结构数据库,PDB(proteindatabank ),1. 目前最主要的蛋白质分子结构数据库;,2.1970年代建立,美国Brookhaven国家实验室维护管理3.1988年,由美国RCSB(researchcollaboratoryfor,structuralbiology)管理;,4. 以文本格式存放数据,包括原子坐标、物种来源、测定,方法、提交者信息、一级结构、二级结构等;,5. PDBsum数据库:PDB注释信息综合数据库,具有检,索、分析、可视化的功能。,PDB的网址:/pdb(美国),PDBsum的网址:http:/www.biochem.ucl.ac.uk/bsm/pdbsum,PDB(ProteinDataBank),PDB中含有通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构蛋白质核酸糖类其它复合物, 一种是隐式序列信息(implicitsequence),PDB的隐式序列即为立体化学数据,包括每个原子的名称和原子的三维坐标。,一种是显式序列信息(explicitsequence) 在PDB文件中,以关键字SEQRES作 为显式序列标记,以该关键字打头的 每一行都是关于序列的信息。,以胰岛素(insulin)为例,进入网站后,在搜索栏键入关键词insulin 后点击search键,得到如下页面,Example,在搜索栏里输入蛋白质(PDB ID)1zni后搜索,用rasmol软件打开下载的1zni.pdb文件,HPDB,蛋白质数据库(HPDB),建于2004年,由河北大学建立和负责。对每个蛋白质分子结构说明部分做了中文翻译(最新加入数据库的分子除外),内容包括分子结构定性描述、样品的来源、表达载体、宿主、化学分析方法、分子结构组成成分等。支持中文查询。,HPDB数据库的网址:/,Example,直接输入汉字“胰岛素”后搜索,5、蛋白质结构分类数据库,lSCOP,(Structural Classification of Proteins),lCATH(,Class, Architecture, Topology, Homology),SCOP(StructuralClassificationofProtein),英国医学研究委员会分子生物学实验室和蛋白质工程中心开发的基于,web的蛋白质结构数据库分类、检索和分析系统;,SCOP的网址:http:/scop.mrclmb.cam.ac.uk/scop/,CATH(class,architecture,topology,homology),英国伦敦大学开发维护;,CATH的网址:http:/www.biochem.ucl.ac.uk/bsm/cath,二级数据库简介,二级数据库的形式:大多以web界面为基础,具有文字信息、表格、图形、图表等方式显示数据库内容;一级数据库与二级数据库之间并无明确的界限。(例,如:GDB、AceDB、SCOP、CATH等都已经具有二级数据库的特色),1、基因组信息二级
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 房屋交付协议合同(标准版)
- 装配式建筑部品部件2025年标准化设计在装配式建筑装配式隧道中的应用报告
- 地方课程资源开发与小学教学融合方案
- 2026届广东东莞外国语学校化学高三上期中监测试题含解析
- 招标文件合同法律关系解析
- 江苏省东台市梁垛镇中学2026届化学高二第一学期期中学业质量监测模拟试题含解析
- (2025年标准)工程增量协议书
- 外籍演绎人员合同(标准版)
- 撕毁工程合同(标准版)
- (2025年标准)工厂芯片订购协议书
- 舆情知识培训课件
- 《泌尿系统护理》课件
- 2024超药品说明书用药目录-2024广东省药学会20240613
- DB21T 2655-2016 花生节本增效栽培技术规程
- 2024北京东城区高三(上)期末生物试题和答案
- 重庆第二师范学院《基础乐理与视唱》2022-2023学年第一学期期末试卷
- 网约车司机安全培训
- 数据安全风险评估报告
- 细胞学科普讲座模板
- 1云南省建设工程施工图设计文件审查工作流程
- 混凝土劳务加工合同模板
评论
0/150
提交评论