2. 第二章 生物信息数据库:1 概述1.ppt_第1页
2. 第二章 生物信息数据库:1 概述1.ppt_第2页
2. 第二章 生物信息数据库:1 概述1.ppt_第3页
2. 第二章 生物信息数据库:1 概述1.ppt_第4页
2. 第二章 生物信息数据库:1 概述1.ppt_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章生物信息学-数据库,曹毅生命科学学院,人类基因组,模式生物基因组计划,人类基因组计划(HumanGenomeProject,HGP)1990年启动,预计2003年完成。由美、日、德、法、英、中六国参加。测出人类约3,000,000,000碱基对的序列(相当于每页3,000个字母,共需100万页印完)。中国承担其中的1%。,Venter,Collins,人类基因组,模式生物基因组计划,模式生物基因组计划酵母、线虫、果蝇、细菌共约50多种已完成,水稻等70余种正在进行。目前总量已达60亿碱基对!,已经完成全序列测定的基因组,引自(Oct,2001)http:/www.ebi.ac.uk/genomes/,viruses,plasmids,bacteria,fungi,plants,algae,insects,mollusks,reptiles,birds,mammals,Genomesizesinnucleotidepairs(base-pairs),104,108,105,106,107,1011,1010,109,Thesizeofthehumangenomeis3X109bp;almostallofitscomplexityisinsingle-copyDNA.Thehumangenomeisthoughttocontain30,000to40,000genes.,bonyfish,amphibians,Homosapiens智人,蛋白质编码基因数在2.7万至4万之间(但最新的估计在6.5万至7.5万之间),噬菌体(Bacteriophage)寄生于细菌内的病毒如:大肠杆菌噬菌体(coliphages)遗传物质:单链/双链、环状/线状、DNA/RNA,模式生物(ModelOrganism),模式生物(ModelOrganism),病毒(Virus)不具有细胞形态结构,仅由核酸和蛋白质构成;如:人艾滋病毒HIV、SARS冠状病毒体积小,10300nm;严格的专性细胞内寄生;对抗生素不敏感。,电子显微镜下的SARS冠状病毒,100nm,Escherichiacoli大肠杆菌,大肠杆菌是研究得最为详尽的一个模式生物。这种只有1.6微米长的、可以迅速繁殖的单细胞原核生物,已经成为实验室和基因工程的重要工具。,EscherichiacoliO157:H7,EscherichiacoliK12,模式生物(ModelOrganism),Saccharomycescerevisiae酿酒酵母,真菌界的单细胞真核生物,有16个染色体。它的全基因组已在1996年测定。,模式生物(ModelOrganism),秀丽线虫Caenorhabditiselegans一种透明的、生活在海滩泥沙中的小虫。,细胞数目一定:成虫细胞数目只有959个,其中包括302个神经元;有6条染色体,全基因组于1998年测定,长9.7Mb,模式生物(ModelOrganism),Drosophilamelanogaster果蝇,繁殖很快、容易诱发变异的小昆虫。总长达1.8亿核苷酸。,模式生物(ModelOrganism),Arabidopsisthaliana拟南芥,个体生活周期只有6周的十字花科小草,是一种理想的模式植物。,模式生物(ModelOrganism),模式生物(ModelOrganism),非洲瓜蟾(Xenopuslavias)1个受精卵在24小时内分裂到各种器官初具雏形的程度;,模式生物(ModelOrganism),斑马鱼(Daniorerio)身体透明的小鱼,生活周期约3个月,是研究脊椎动物发育过程的良好对象。,模式生物(ModelOrganism),小鼠(Musmusculus)基因组大小与人类相近,约30亿个核苷酸对,有19条染色体;,第一节数据库的概述,生物信息学-数据库,生物学已经积累了相当丰富多样和复杂的数据。这些数据可以被分类,但相当难于综合以及用公式进行描述。随着生物学知识大量增加,要完成对数据的处理只能使用计算机。,目标:在分子生物学和基因组学中常见数据类型的概述介绍主要序列数据库,比较它们包含的数据内容和注释质量的区别数据库接受数据的形式(文本搜索,相似性搜索,浏览和交叉索引)序列与非序列数据库介绍以及它们的用途一级序列与结构数据库介绍,生物信息学-数据库,分子生物学数据类型,物种,基因组图谱,小鼠X染色体来源于小鼠基因组计划/,物种,基因组图谱,DNA序列,RNA序列,.AATGGTACCGATGACCTGGAGCTTGGTTCGA.,分子生物学数据类型,物种,基因组图谱,DNA序列,RNA序列,蛋白质序列,.TRLRPLLALLALWPPPPARAFVNQHLCGSHLVEA.,分子生物学数据类型,物种,基因组图谱,DNA序列,RNA序列,蛋白质序列,RNA结构,E.colismallsubunitrRNAGutellR.R.(1994)Collectionofsmallsubunit(16S-and16S-like)ribosomalRNAstructuresNucleicAcidsRes22:3502,分子生物学数据类型,物种,基因组图谱,DNA序列,RNA序列,蛋白质序列,蛋白质结构,RNA结构,PDBentry1CISP.Osmark,P.Sorensen,F.M.Poulsen,分子生物学数据类型,物种,基因组图谱,DNA序列,RNA序列,蛋白质序列,蛋白质结构,DNA模体,RNA结构,核酸结构模体:转录因子结合位点(CBF1:CCGNC)(TACCGACAT)RNA催化模体,蛋白质模体:结构模体保守区(D/N-R-X-G-R-R/K;I-X2-R-X3-G-X3-G)NAD+结合区含有一个保守的模体G-X-G-X2-G(GSGAWA)(D.salina)活性位点等,分子生物学数据类型,蛋白质模体,物种,基因组图谱,DNA序列,RNA序列,蛋白质序列,蛋白质结构,DNA模体,蛋白质模体,RNA表达,RNA结构,分子生物学数据类型,在RNA水平上使用DNA微阵列检测变异,一个芯片上包含酵母基因组全序列,http:/cmgm.Stanford.EDU/pbrown/,DeRisietal,Science278:680,红色点:RNA表达水平增加的基因绿色点:RNA表达水平降低的基因,物种,基因组图谱,DNA序列,RNA序列,蛋白质序列,蛋白质结构,DNA模体,蛋白质模体,蛋白质表达,RNA表达,RNA结构,分子生物学数据类型,蛋白质组学:2D凝胶电泳,SWISS-2DPAGE数据库,http:/www.expasy.ch,物种,基因组图谱,DNA序列,RNA序列,蛋白质序列,蛋白质结构,DNA模体,蛋白质模体,底物,代谢途径,蛋白质表达,RNA表达,RNA结构,KEGGdatabase,http:/kegg.genome.ad.jp/kegg/,分子生物学数据类型,物种,基因组图谱,DNA序列,RNA序列,蛋白质序列,蛋白质结构,DNA模体,蛋白质模体,抑制因子和药物,底物,代谢途径,蛋白质表达,RNA表达,RNA结构,分子生物学数据类型,药物设计,与抑制因子结合的HIV-1蛋白酶复合体,PDBentry1DIFA.M.Silva,R.E.Cachau,H.L.Sham,J.W.Erickson,物种,组织和细胞,基因组图谱,DNA序列,RNA序列,蛋白质序列,蛋白质结构,DNA模体,蛋白质模体,抑制因子和药物,底物,代谢途径,蛋白质表达,RNA表达,RNA结构,,分子生物学数据类型,种群,物种,组织和细胞,基因组图谱,DNA序列,RNA序列,蛋白质结构,DNA模体,蛋白质模体,抑制因子和药物,底物,代谢途径,蛋白质表达,RNA表达,RNA结构,蛋白质序列,分子生物学数据类型,种群,物种,组织和细胞,基因组图谱,DNA序列,RNA序列,蛋白质序列,蛋白质结构,DNA模体,蛋白质模体,抑制因子和药物,底物,代谢途径,蛋白质表达,RNA表达,RNA结构,突变/多形性,分子生物学数据类型,种群,物种,组织和细胞,基因组图谱,DNA序列,RNA序列,蛋白质序列,蛋白质结构,DNA模体,蛋白质模体,抑制因子和药物,底物,代谢途径,蛋白质表达,RNA表达,RNA结构,突变/多形性,疾病,分子生物学数据类型,种群,物种,组织和细胞,基因组图谱,DNA序列,RNA序列,蛋白质序列,蛋白质结构,DNA模体,蛋白质模体,抑制因子和药物,底物,代谢途径,蛋白质表达,RNA表达,RNA结构,突变/多形性,疾病,文献,分子生物学数据类型,分子生物学数据库,序列数据库含注释无注释针对特定对象结构数据库模体数据库RNA表达,基因组数据库蛋白质组数据库突变多形性代谢途径物种种群文献,序列数据库,含注释的序列数据库SWISS-PROT,GenBank等用途:功能识别,获取信息无注释的序列数据库EST数据库,高通量基因组序列用途:发现新基因对特定对象的数据库RDP,G-蛋白偶联受体数据库等用途:视数据库而定,通常用于获取特定领域的信息,通用核酸数据库,主要数据库:GenBank(美国)EMBL(欧洲)DDBJ(日本),GenBank-按物种分类,Entries碱基物种22174601556595261Homosapiens553872260818221Musmusculus77205177824883Caenorhabditiselegans123758133950582Drosophilamelanogaster72565117022315Arabidopsisthaliana8713847136422Oryzasativa8050742049391Rattusnorvegicus1440330390617Saccharomycescerevisiae6100126060656Rattussp.524018407242Escherichiacoli3222717046673Fugurubripes3348214732289Daniorerio3150414498639Humanimmunodeficiencyvirustype1988214270269Schizosaccharomycespombe544611539475Plasmodiumfalciparum1970410817282Zeamays110110008018Bacillussubtilis138989038361Magnaporthegrisea160898486371Dictyosteliumdiscoideum114297007861Lycopersiconesculentum,GenBank剖析I:数据结构,记录分为3部分:记录起始特征表序列,GenBank剖析II:记录起始,LOCUSANACIAG3042bpDNAPLN28-NOV-1996DEFINITIONA.nidulansaciAgeneforAciAprotein.ACCESSIONZ11612S51247NIDg5544KEYWORDSaciAgene;AciAprotein.SOURCEEmericellanidulans.ORGANISMEmericellanidulansEukaryotae;mitochondrialeukaryotes;Fungi;Ascomycota;Euascomycetes;Plectomycetes;Eurotiales;Trichocomaceae;Emericella.REFERENCE1(bases1to3042)AUTHORSSaleeba,J.A.,Cobbett,C.S.andHynes,M.J.TITLECharacterizationoftheamdA-regulatedaciAgeneofAspergillusnidulansJOURNALMol.Gen.Genet.235(2-3),349-358(1992)MEDLINE93101140REFERENCE2(bases1to3042)AUTHORSSaleeba,J.A.TITLEDirectSubmissionJOURNALSubmitted(24-JAN-1992)JenniferA.Saleeba,DepartmentofGenetics,Universityof,Melbourne,GrattanStreet,Parkville,Victoria,3052,Australia,GenBank记录起始III:特征,FEATURESLocation/Qualifierssource1.3042/organism=Emericellanidulans/strain=Glasgow/chromosome=Segmentofchromosome1mRNAjoin(969.1263,1318.1493,1553.2624)/gene=aciAexon969.1263/gene=aciA/number=1mRNAjoin(1205.1263,1318.1493,1553.2624)/gene=aciAexon1205.1263/gene=aciA/number=1CDSjoin(1249.1263,1318.1493,1553.2495)/gene=aciA/codon_start=1/product=AciA/db_xref=PID:g5545/db_xref=SWISS-PROT:Q03134,GenBank记录起始IV:序列,ANACIAGA.nidulansaciAgeneforAciAproteinSeq:ANACIAGLength:3042SunJan1921:10:371997Check:422.1AAGCTTACTTGTGTCCATTTTCTGGATTCCAGACTCAAGACCAGTGCTAA51AGAAAACCCCTAGATTACTATTTCAACCATATTATTTTTTTCCTTGCCAG101AATTTAATCGCGAGCGTAGAAGCCAACTATACTACAAACAGGCTGTCCCA151ATGAAACTGTAGATTTCTATCGAGTGCTTCTACTTTTACCAAAATTTATT201ATTACTTATCTCCTTTTGTCAATTCCACGCTCTGAGCTGGGGCTTTTTGC251TGACAGTCAAGTGAGGGGGAGGGGCGGGAGTTTACCCCTCATGCGGGGAA301GACCGTGTGTTGTAGATCATACTGACAGCCAGCGACAAAGTATGTCGGCC351AGTTTGCAAGTCAACCTGAGGCAGCAGAGACGATTGGAAGAGC.,通用蛋白质数据库,SWISS-PROT人工维护详细注释GenPept/TREMBL翻译编码序列来源于GenBank/EMBL简略注释,包含大量数据PIR不同注释类型,使用序列数据库,搜索记录起始以关键词搜索注释(物种名,基因名等)搜索序列使用BLAST搜索序列相似性搜索含有特定特征的序列浏览使用其它数据库的后续链接,后续链接:SWISS-PROTentry交叉索引,DREMBL;M16591;AAA52643.1;-.DREMBL;M16592;AAA52644.1;-.DRPIR;A27812;TVHUHC.DRPDB;2HCK;20-AUG-97.DRPDB;3HCK;15-OCT-97.DRPDB;1BU1;11-NOV-98.DRMIM;142370;-.DRPROSITE;PS00107;PROTEIN_KINASE_ATP;1.DRPROSITE;PS00109;PROTEIN_KINASE_TYR;1.DRPROSITE;PS50011;PROTEIN_KINASE_DOM;1.DRPROSITE;PS50001;SH2;1.DRPROSITE;PS50002;SH3;1.DRPFAM;PF00017;SH2;1.DRPFAM;PF00018;SH3;1.DRPFAM;PF00069;pkinase;1.,无冗余数据库,仅含序列数据:无法浏览,只能使用序列检索序列来源于多个数据库如:NRNucleic(genbank+EMBL+DDBJ+PDBDNA)NRProtein(SWISS-PROT+TrEMBL+GenPept+PDBprotein)国际基因组数据库(中国),简略注释数据库,ESTs(ExpressedSequenceTags)cDNAs3或5端大量测序所产生高通量基因组序列来源于基因组DNA大规模测序,LOCUST12742157bpmRNAEST28-OCT-1993DEFINITIONzEST00149-5ZeamayscDNAclonecsuh00149/umc3825endsimilartosimilartoshortchainalcoholdehydrogenase.ACCESSIONT12742NIDg409680KEYWORDSEST.SOURCEMaizeclone=csuh00149/umc382library=MaizeLeaf,Stratagene#937005strain=B73vector=Uni-ZAPprimer=SKRsite1=EcoR1Rsite2=Xho1mRNAisolatedfromilluminatedleavesandsheathsof5weekoldplant.cDNAdirectiona

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论