生物信息学5生物信息数据库ppt课件_第1页
生物信息学5生物信息数据库ppt课件_第2页
生物信息学5生物信息数据库ppt课件_第3页
生物信息学5生物信息数据库ppt课件_第4页
生物信息学5生物信息数据库ppt课件_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章 生物信息数据库,1、模式生物 2、数据库,human,Arabidopsis 拟南芥,Thermotoga maritima海栖热袍菌,Escherichia coli大肠杆菌,Buchnerasp. APS(欧洲山杨),Rickettsia(病原体) prowazekii,Ureaplasma urealyticum 解脲支原体,Bacillus subtilis 枯草杆菌,Drosophila melanogaster,Thermoplasma acidophilum嗜酸热原体,Plasmodium falciparum疟原虫,Helicobacter pylori (幽门杆菌),mouse,Caenorhabitis elegans,rat,Borrelia包柔氏螺旋体菌,Borrelia burgorferi 螺旋体菌,Aquifex aeolicus超嗜热菌,Neisseria脑膜炎双球菌,Mycobacterium (肺结核) tuberculosis,第一节 模式生物,人类基因组,模式生物基因组计划,人类基因组计划(Human Genome Project, HGP) 1990年启动,预计2003年完成。由美、日、德、法、英、中六国参加。测出人类约 3,000,000,000 碱基对的序列(相当于每页3,000个字母,共需100万页印完)。中国承担其中的 1%。,Venter,Collins,人类基因组,模式生物基因组计划,模式生物基因组计划 酵母、线虫、果蝇、细菌共约50多种已完成,水稻等70余种正在进行。目前总量已达60亿碱基对!,已经完成全序列测定的基因组,引自(Oct, 2001) http:/www.ebi.ac.uk/genomes/,viruses,plasmids,bacteria,fungi,plants,藻类 algae,insects,mollusks软体动物类,reptiles爬行动物,birds,mammals,Genome sizes in nucleotide pairs (base-pairs),104,108,105,106,107,1011,1010,109,The size of the human genome is 3 X 109 bp; almost all of its complexity is in single-copy DNA. The human genome is thought to contain 30,000 to 40,000 genes.,bony fish,amphibians,Homo sapiens 智人,蛋白质编码基因数在2.7万至4万之间 (但最新的估计在6.5万至7.5万之间),噬菌体(Bacteriophage) 寄生于细菌内的病毒 如:大肠杆菌噬菌体(coliphages) 遗传物质:单链/双链、环状/线状、DNA/RNA,模式生物(Model Organism),模式生物(Model Organism),病毒(Virus) 不具有细胞形态结构,仅由核酸和蛋白质构成; 如:人艾滋病毒HIV、SARS冠状病毒 体积小,10300nm; 严格的专性细胞内寄生; 对抗生素不敏感。,电子显微镜下的SARS冠状病毒,100nm,Escherichia coli 大肠杆菌,大肠杆菌是研究得最为详尽的一个模式生物。这种只有1.6微米长的、可以迅速繁殖的单细胞原核生物,已经成为实验室和基因工程的重要工具。,Escherichia coli O157:H7,Escherichia coli K12,模式生物(Model Organism),Saccharomyces cerevisiae 酿酒酵母,真菌界的单细胞真核生物,有16个染色体。它的全基因组已在1996年测定。,模式生物(Model Organism),秀丽线虫Caenorhabditis elegans 一种透明的、生活在海滩泥沙中的小虫。,细胞数目一定:成虫细胞数目只有959个,其中包括302个神经元; 有6条染色体,全基因组于1998年测定,长9.7Mb,模式生物(Model Organism),Drosophila melanogaster 果蝇,繁殖很快、容易诱发变异的小昆虫。总长达1.8亿核苷酸。,模式生物(Model Organism),Arabidopsis thaliana 拟南芥,个体生活周期只有6周的十字花科小草,是一种理想的模式植物。,模式生物(Model Organism),模式生物(Model Organism),非洲瓜蟾(Xenopus lavias) 1个受精卵在24小时内分裂到各种器官初具雏形的程度;,模式生物(Model Organism),斑马鱼(Danio rerio) 身体透明的小鱼,生活周期约3个月,是研究脊椎动物发育过程的良好对象。,模式生物(Model Organism),小鼠(Mus musculus) 基因组大小与人类相近,约30亿个核苷酸对,有19条染色体;,实验一 生物信息数据库信息检索,一、实验内容: 1、 了解NCBI、DDBJ、EMBL上网的方法自学各网站相关介绍。 2、 了解北大生物信息学中心等几大中文生物信息学网站。 3、 了解一些生物论坛中有关生物信息学的部分。如:Biooo和Bioon。 4、 利用NCBI的Entrenz查询系统和EBI的SRS检索文献和核酸或蛋白质序列。(phyA)并对照所学复习各字段的含义。 5、 将所得记录的ID或Accession记录下来备用。,二、作业 1、 记录相关网站及论坛网址(或如何查询到该网址的方法)。 (1)NCBI :/ (2)DDBJ :http:/www.ddbj.nig.ac.jp/ (3)EMBL :/,( 4 )北大生物信息学中心 /chinese/ (5)中科院计算所智能信息处理重点实验室生物信息学: /index.php (6)北大生物信息中心: /chinese/documents/bioinfor/overview/web1/1.html,(7)生物谷:/ (8)中国生物论坛:Http:// (9)丁香园论坛 : /cms/ (10)生物秀 /Index.htm,2、 找到编码拟南芥(arabidopsis)phyA(光敏色素A)基因的核酸序列编号。并记录查找过程。,第二节 数据库,一、 引言,生物分子数据 高速增长,分子生物学 及相关领域研究人员 迅速获得最新实验数据,建立生物分子数据库,生物信息数据库应满足5个方面的主要需求 (1)时间性 (2)注释 (3)支撑数据 (4)数据质量 (5)集成性,生物信息数据库几个明显的特征:,(1)数据库的更新速度不断加快 数据量呈指数增长趋势 (2)数据库使用频率增长更快 (3)数据库的复杂程度不断增加 (4)数据库网络化 (5)面向应用 (6)先进的软硬件配置,一个数据库记录(entry)一般由两部分组成: 1. 原始序列数据(sequence data) 2. 描述这些数据生物学信息的注释(annotation) 注释中包含的信息与相应的序列数据同样重要和有应用价值。,数据的完整性和注释工作量: 1. 序列数据广,序列注释不够完整 2. 库数据面窄,序列注释全面,数据库的动态更新: 1. 不断增加 2. 不断修正,分子生物信息数据库种类繁多。归纳起来,大体可以分为4个大类,即基因组数据库、核酸和蛋白质一级结构数据库、生物大分子(主要是蛋白质)三维空间结构数据库,以及由上述3类数据库和文献资料为基础构建的二次数据库。 基因组数据库来自基因组作图,序列数据库来自序列测定,结构数据库来自X射线衍射和核磁共振等结构测定。这些数据库是分子生物学的基本数据资源,通常称为基本数据库、初始数据库,也称一次数据库。,根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的二次数据库。 一般说来,一次数据库的数据量大,更新速度快,用户面广,通常需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库管理系统支撑;二次数据库的容量则小得多,更新速度也不像一次数据库那样快,也可以不用大型商业数据库软件支持,这类针对不同问题开发的二次数据库的最大特点是使用方便,特别适用于计算机使用经验不太丰富的生物学家。 序列数据库是分子生物信息数据库中最基本的数据库,包括核酸和蛋白质两类,以核苷酸碱基顺序或氨基酸残基顺序为基本内容,并附有注释信息。,生物信息数据库 一级数据库 数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 二级数据库 对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的 。,生物信息 学数据库 工具,生物信息数据库,染色体,核酸,蛋白质,基因组图谱,DNA序列,蛋白质序列,蛋白质结构,基因组 数据库,核酸序列 数据库,蛋白质序列 数据库,蛋白质结构 数据库,二级数据库 复合数据库,基因组作图,序列测定,结构测定,国际著名的生物信息中心,NCBI National Center for Biotechnology Information (US) EBI European Bioinformatics Institute (EU) HGMP Human Genome Mapping Project Resource Centre (UK) ExPASy Expert of Protein Analysis System (Switzerland ) CMBI Centre of Molecular and Biomolecule (The Netherlands) ANGIS National Genome Information Service (Australia) NIG National Institute of Genetics (Japan) BIC National Bioinformatics Centre (Singapore),一级数据库简介,1、核酸序列数据库,国际上权威的核酸序列数据库 (1)欧洲分子生物学实验室的EMBL http:/www.embl-heidelberg.de (2)美国生物技术信息中心的GenBank /Web/Genbank/index.html (3)日本遗传研究所的DDBJ http:/www.ddbj.nig.ac.jp/,GenBank,DDBJ,EMBL,三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。 这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。,美国的核酸数据库GenBankBanson,D.A. et al. (1998) Nucleic Acids Res. 26, 1-7从1979年开始建设,1982年正式运行;,欧洲分子生物学实验室的EMBL数据库也于1982年开始服务,日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务。,从那个时候以来,DNA序列的数据已经从80年代初期的百把条序列,几十万碱基上升至现在的110亿碱基!这就是说,在短短的约18年间,数据量增长了近十万倍。,EMBL数据库序列记录随时间增长,568,27,248,475,EMBL数据库序列总长随时间增长,3.41010,5.8105,EMBL2003年8月数据状况(Release 76) Division Entries Nucleotides 表达序列标签(ESTs) 18,001,332 9,172,848,447 真菌(Fungi) 81,533 124,814,006 基因组检测序列(GSSs) 5,951,552 3,541,699,334 高通量cDNA(HTC) 148,033 198,301,795 高通量基因组(HTG) 69,070 11,827,270,957 人(Human) 253,122 3,999,942,455 无脊椎动物(Invertebrates) 126,656 618,391,776 其它哺乳动物(Other Mammals) 51,211 117,048,169 鼠(Mus musculus) 79,168 1,331,593,999 细胞器(Organelles) 217,902 180,804,604 专利(Patents) 1,326,009 717,107,725 噬菌体(Bacteriophage) 2,321 9,413,526 植物(Plants) 214,323 700,212,325 原核生物(Prokaryotes) 200,833 690,274,487 啮齿动物(Rodents) 25,459 64,607,453 序列标签位点(STSs) 239,292 114,379,671 合成(Synthetic) 9,196 16,869,561 未分类(Unclassified) 1,860 2,167,222 病毒(Viruses) 196,817 175,615,411 其它脊椎动物(Other Vertebrates) 52,583 282,545,232 总计 27,248,475 33,885,908,155,2、基因组数据库,来源于人类基因组计划及各种模式生物基因组计划 1977年,最早获得的生物基因组全序列是噬菌体(53kb) 1995年,第一个自由生物体流感嗜血菌(H. inf)被完全测序,部分生物基因组计划网址 老鼠(Mouse) /mgd.html 小鼠(Rat) http:/ratmap.gen.gu.se 狗(Dog) /dog.html 牛(Cow) http:/locus.jouy.inra.fr/cgi-bin/bovmap/intro2.pl 猪(Pig) http:/www.ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.html 羊(Sheep) http:/dirk.invermay.cri.nz 鸡(Chicken) http:/www.ri.bbsrc.ac.uk/chickmap/chickbase/manager.html 斑马鱼(Zebra fish) 线虫(C. elegans) http:/www.ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.html 果蝇(Drosophila) 蚊子(Mosquito) 拟南芥(Arabidopsis) /Arabidopsis 棉花(Cotton) 玉米(Maize) 水稻(Rice) http:/www.staff.or.jp 大豆(Soya) :8000/main.html 树(Trees) ,GDB(美国、加拿大) 1990年,John Hopkins大学建立,后由加拿大儿童医院生物信息中心管理. / 数据内容: 基因单位、PCR位点、细胞遗传标记、EST、contig、重复片段、基因组图谱 与其它分子生物信息网络资源(EMBL、GenBank)的链接,AceDB 线虫基因组数据库。既是一个数据库,又是一个数据库管理系统。 提供很好的图形界面,用户能够从大到整个基因组小到序列的各 个层次观察和分析基因组数据。 数据内容: 限制性图谱,基因结构信息,质粒图谱,序列数据,参考文献,3、蛋白质序列数据库,SWISSPROT(欧洲) PIR(美国),SWISSPROT 1. 瑞士日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护(1986年); 2. 在EMBL和GenBank数据库上均建立了镜像站点; 3. 数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释; 4. 数据记录包括两部分: 序列 注释(结构域、功能位点、跨膜区域、二硫键位置、翻 译后的修饰、突变体等) 5. 数据存在滞后性 TrEMBL数据库的建立 SWISS-PROT的网址: /sprot,SWISS-PROT (http:/www.expasy.ch/sprot/sprot-top.html) 是目前国际上比较权威的蛋白质序列数据库,其中的蛋白 质序列是经过注释的,SWISS-PROT中的数据来源于不同源地: (1)从核酸数据库经过翻译推导而来; (2)从蛋白质数据库PIR挑选出合适的数据; (3)从科学文献中摘录; (4)研究人员直接提交的蛋白质序列数据,SWISS-PROT有三个明显的特点 :,(1)注释 在SWISS-PROT中,数据分为核心数据和注释两大类。 核心数据包括: 序列数据、参考文献、分类信息(蛋白质生物来源的描述) 注释包括: (A)蛋白质的功能描述; (B)翻译后修饰; (C)域和功能位点,如钙结合区域、ATP结合位点等; (D)蛋白质的二级结构; (E)蛋白质的四级结构,如同构二聚体、异构三聚体等; (F)与其它蛋白质的相似性; (G)由于缺乏该蛋白质而引起的疾病; (H)序列的矛盾、变化等。,(2)最小冗余,尽量将相关的数据归并,降低数据库的冗余程度。 如果不同来源的原始数据有矛盾,则在相应序列特征表中加以注释。,(3)与其它数据库的连接,对于每一个登录项,有许多指向其它数据库相关数据的指针,这便于用户迅速得到相关的信息。,现有的交叉索引有: 到EMBL核酸序列数据库的索引, 到PROSITE模式数据库的索引, 到生物大分子结构数据库PDB的索引等 。,提交序列数据 (a)编辑电子表格 (b) 利用Authorin程序 (c)WWW服务器 使用SWISS-PROT (a)CD-ROM形式 (b)ftp服务器 (c)Gopher服务器 (d)WWW服务器(SRS) 与序列相关的操作 (a)序列查询 (b)搜索同源蛋白质序列,TrEMBL是与SWISS-PROT相关的一个数据库。 (http:/www.ebi.ac.uk/trembl/index.html) 包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。 TrEMBL有两个部分: (1)SP-TrEMBL(SWISS-PROT TrEMBL) 包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL 序列都已被赋予SWISS-PROT的 登录号。 (2)REM-TrEMBL(REMaining TrEMBL) 包括所有不准备放入SWISS-PROT的数据,因此这部分数据都没有登录号。,PIR(protein information resource) 1. 由美国NCBI翻译自GenBank的DNA序列(1984年); 2. 在EMBL和GenBank数据库上均建立了镜像站点; 3. 数据依据注释的质量分为4类。 网址: /,PIR数据库的分类情况(Release 51.03),目的: 帮助研究者鉴别和解释蛋白质序列信息, 研究分子进化、功能基因组。 它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。 所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。,1、PIR(Protein Information Resource),除了蛋白质序列数据之外,PIR还包含以下信息: (1)蛋白质名称、蛋白质的分类、蛋白质的来源; (2)关于原始数据的参考文献; (3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等; (4)序列中相关的位点、功能区域。,PIR提供三种类型的检索服务: 一是基于文本的交互式查询, 用户通过关键字进行数据查询。 二是标准的序列相似性搜索, 包括BLAST、FastA等。 三是结合序列相似性、注释信息 和蛋白质家族信息的高级搜索, 包括按注释分类的相似性搜索、 结构域搜索等。,三个子数据库,4、蛋白质结构数据库,PDB(protein data bank) 1. 目前最主要的蛋白质分子结构数据库; 2. 1970年代建立,美国Brookhaven国家实验室维护管理; 3. 1988年,由美国RCSB(research collaboratory for structural biology)管理; 4. 以文本格式存放数据,包括原子坐标、物种来源、测定方法、提交者信息、一级结构、二级结构等; 5. PDBsum数据库:PDB注释信息综合数据库,具有检索、分析、可视化的功能。 PDB的网址:/pdb(美国) PDBsum的网址: http:/www.ebi.ac.uk/thornton-srv/ databases/pdbsum/,PDB中含有通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构 蛋白质 核酸 糖类 其它复合物,PDB(Protein Data Bank),一种是隐式序列信息(implicit sequence) PDB的隐式序列即为立体化学数据,包括每个原子的名称和原子的三维坐标。,一种是显式序列信息(explicit sequence) 在PDB文件中,以关键字SEQRES作为显式序列标记,以该关键字打头的每一行都是关于序列的信息。,HEADER HYDROLASE 19-FEB-97 1ADZ TITLE THE SOLUTION STRUCTURE OF THE SECOND KUNITZ DOMAIN OF TITLE 2 TISSUE FACTOR PATHWAY INHIBITOR, NMR, 30 STRUCTURES COMPND MOL_ID: 1; COMPND 2 MOLECULE: TISSUE FACTOR PATHWAY INHIBITOR; 。 COMPND 8 BIOLOGICAL_UNIT: MONOMER SOURCE MOL_ID: 1; 。 SOURCE 7 EXPRESSION_SYSTEM_PLASMID: PFLAG KEYWDS HYDROLASE, INHIBITOR, COAGULATION EXPDTA NMR, 30 STRUCTURES AUTHOR M.J.M.BURGERING,L.P.M.ORBONS REVDAT 1 25-FEB-98 1ADZ 0 JRNL AUTH M.J.BURGERING,L.P.ORBONS,A.VAN DER DOELEN, 。 REMARK 1 REFERENCE 1 REMARK 1 AUTH M.T.STUBBS II REMARK 1 TITL STRUCTURAL ASPECTS OF FACTOR XA INHIBITION 。 REMARK 999 SEQUENCE REMARK 999 1ADZ SWS P10646 1 - 111 NOT IN ATOMS LIST REMARK 999 1ADZ SWS P10646 183 - 304 NOT IN ATOMS LIST REMARK 999 THE FIRST NINE RESIDUES ARE NOT PART OF THE TFPI DOMAIN II REMARK 999 SEQUENCE BUT ARE FROM THE PFLAG PEPTIDE CLONING VECTOR. DBREF 1ADZ 1 71 SWS P10646 TFPI_HUMAN 112 182 SEQADV 1ADZ ASP 1 SWS P10646 ILE 112 ENGINEERED SEQADV 1ADZ TYR 2 SWS P10646 ILE 113 ENGINEERED SEQRES 1 71 ASP TYR LYS ASP ASP ASP ASP LYS LEU LYS PRO ASP PHE SEQRES 2 71 CYS PHE LEU GLU GLU ASP PRO GLY ILE CYS ARG GLY TYR SEQRES 3 71 ILE THR ARG TYR PHE TYR ASN ASN GLN THR LYS GLN CYS SEQRES 4 71 GLU ARG PHE LYS TYR GLY GLY CYS LEU GLY ASN MET ASN SEQRES 5 71 ASN PHE GLU THR LEU GLU GLU CYS LYS ASN ILE CYS GLU SEQRES 6 71 ASP GLY PRO ASN GLY PHE HELIX 1 1 ASP 12 P

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论