生物信息学的应用_第1页
生物信息学的应用_第2页
生物信息学的应用_第3页
生物信息学的应用_第4页
生物信息学的应用_第5页
已阅读5页,还剩135页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学应用

1/140生物信息学(Bioinformatics)生物分子数据计算机计算+2/140概念(广义)生物体系和过程中信息存贮、传递和表示细胞、组织、器官生理、病理药理过程中各种生物信息信息科学生命科学中信息科学

3/140概念(狭义)生物分子数据深层次生物学知识分子生物信息学MolecularBioinformatics挖掘获取生物分子信息获取、存贮、分析和利用4/140生物信息学主要研究两种信息载体DNA分子蛋白质分子5/140生物分子最少携带着三种信息遗传信息与功效相关结构信息进化信息6/140

第一节生物信息学与基因组学一、生物信息学概述(一)生物信息学发展简史生物信息学发展3个阶段:前基因组时代基因组时代后基因组时代生物信息学发展脉络:

1956年,在美国田纳西州盖特林堡(Gatlinburg)召开首次“生物学中信息理论研讨会”上,孕育了生物信息学概念.1987年,佛罗里达州立大学32岁林华安(Wa.A.Lim)博士首创“Bioinformatics”一词,被誉为“世界生物信息之父”。7/1401990年,林华安博士发起第一届国际Bioinformatics学术会议。1990年10月,被誉为生命科学“阿波罗登月计划”国际人类基因组计划(HGP)开启。1995年,美国人类基因组计划第一个五年总结汇报中给出生物信息学一个较为完整定义。6月26日,美、英、日、德、法、中等六国科学家共同努力,完成人类基因组工作草图,这是人类科学史上又一个里程碑式事件。

4月14日,国际人类基因组测序组盛大宣告:美、英、日、德、法和中国科学家历经共同努力,人类基因组序列图(“完成图”)提前绘制成功。人类迈入“后基因组时代”(Post-genomicEra)。8/140(二)生物信息学主要研究内容1.生物信息搜集、存放、管理与提供2.基因组序列信息提取和分析3.功效基因组相关信息分析4.基因表示数据分析与处理5.蛋白质结构预测9/140基因组数据库

蛋白质序列数据库

蛋白质结构数据库

DDBJEMBLGenBankSWISS-PROTPDBPIR1、生物分子数据搜集与管理10/1402、数据库搜索及序列比较搜索同源序列在一定程度上就是经过序列比较寻找相同序列序列比较一个基本操作就是比对(Alignment),即将两个序列各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是两个序列共有排列次序,这是序列相同程度一个定性描述多重序列比对研究是多个序列共性。序列多重比对可用来搜索基因组序列功效区域,也可用于研究一组蛋白质之间进化关系。11/140发觉同源分子12/1403、基因组序列分析遗传语言分析——天书基因组结构分析基因识别基因功效注释基因调控信息分析基因组比较13/1404、基因表示数据分析与处理基因表示数据分析是当前生物信息学研究热点和重点当前对基因表示数据处理主要是进行聚类分析,将表示模式相同基因聚为一类,在此基础上寻找相关基因,分析基因功效

14/140基因芯片15/140二维电泳图16/1405、蛋白质结构预测蛋白质生物功效由蛋白质结构所决定,蛋白质结构预测成为了解蛋白质功效主要路径蛋白质结构预测分为:二级结构预测空间结构预测蛋白质折叠17/140二级结构预测在一定程度上二级结构预测能够归结为模式识别问题

在二级结构预测方面主要方法有:立体化学方法图论方法统计方法最邻近决议方法基于规则教授系统方法分子动力学方法人工神经网络方法预测准确率超出70%第一个软件是基于神经网络PHD系统18/140空间结构预测在空间结构预测方面,比较成功理论方法是同源模型法该方法依据是:相同序列蛋白质倾向于折叠成相同三维空间结构利用同源模型方法能够完成全部蛋白质10-30%空间结构预测工作19/140(三)生物信息学研究现实状况与展望

1.国外生物信息学研究现实状况2.我国生物信息学研究现实状况3.我国生物信息学研究目标

实现基因组数据、蛋白质组和结构基因组数据、天然及合成化合物数据计算机处理、分析和可视化,以及生物试验和生物分子模拟设计,解析蛋白质三维结构和蛋白质组时空表示关系等20/140蛋白质研究为生物信息学提供了极为丰富研究数据,极大地推进了生物信息学发展。生物信息学在蛋白质序列分析、结构预测、功效预测、分子设计等方面含有主要应用。二、生物信息学与蛋白质

21/140

序列比对是生物信息学基础,经过比较两个或多个蛋白质序列相同区域和保守性位点,确定相互间含有共同功效序列模式和分子进化关系,深入分析其结构和功效。把未知结构蛋白质序列与已知含有三维结构蛋白质序列进行序列比对,有利于深入了解该未知结构蛋白质空间折叠信息(一)蛋白质序列分析22/140(二)蛋白质结构预测

蛋白质结构预测内容二级结构预测三维结构预测蛋白质结构预测方法

理论分析方法:是在理论计算基础上进行结构预测。统计分析方法:是在对已知结构蛋白质进行统计分析基础上,建立由序列到结构映射模型,对未知结构蛋白质直接从氨基酸序列预测其结构。23/140

是否未知蛋白序列与已知功效蛋白质相同确定跨膜螺旋、卷曲螺旋和前导序列未知序列是否包含保守序列模体查对PROSITE数据库库查对BLOCKS和PRINTS数据库整理全部必定结果并查对一致性预测蛋白质功效蛋白质功效预测流程图(三)蛋白质功效预测(引自HPDB蛋白质数据库(/prediction/subprediction/functionalflowchat.asp)24/140(四)蛋白质分子设计蛋白质分子设计类型:按照被改造部位多少能够分为“小改”、“中改”和“大改”三种。

“小改”:即经过对目标蛋白质进行定位突变或化学修饰改变其结构和功效。“中改”:即经过对起源于不一样蛋白质结构域进行拼接和组装,从而较大程度改变其结构和功效。“大改”:即完全从头设计出一个含有特异结构与功效全新蛋白质。25/140惯用数据库有:核酸序列数据库(NucleotideSequenceDatabases)RNA序列数据库(RNAsequencedatabases)蛋白质序列数据库(Proteinsequencedatabases)结构数据库(StructureDatabases)基因组数据库(GenomicsDatabases(non-vertebrate))代谢酶相关产物(MetabolicandSignalingPathways)人类和其它脊椎动物基因组(HumanandotherVertebrateGenomes)人类基因和疾病(HumanGenesandDiseases)芯片和其它基因表示数据库(MicroarrayDataandotherGeneExpressionDatabases);蛋白组资源(ProteomicsResources);其它分子生物学数据库(OtherMolecularBiologyDatabases)细胞器官数据库(Organelledatabases);植物数据库(Plantdatabases);免疫学数据库(Immunologicaldatabases)第二节惯用数据库26/140生物信息学数据库类型一次数据库:数据直接起源于试验取得原始数据,仅对原始数据进行简单归类整理和注释。如Genbank、EMBL和DDBJ等核酸序列数据库;SWISS-PROT、PIR等蛋白质序列数据库;PDB等蛋白质结构数据库。二次数据库:针对不一样研究内容和需要在一次数据库、试验数据和理论分析基础上对相关生物学知识和信息进行深入分析和整理。如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等。27/140图6-2生物信息学数据库相互关系生物信息学数据库相互关系28/140惯用数据库类型名称网址核酸序列一次数据库Genebank/Genbank/EMBLhttp://www.ebi.ac.uk/embl/DDBJhttp://www.ddbj.nig.ac.jp/Welcome.html.ja/基因组一次数据库GDB/蛋白质序列一次数据库SWISS-PROT/sprot/PIR/TrEMBLhttp://www.ebi.ac.uk/trembl/UniProt/index.shtml/MIPShttp://mips.gsf.de/GenPept/pub/genpept/NRL-3D/general/software/packages/nrl_3d/nrl_3d.html/复合数据库NRDBhttp://www.nrdb.co.uk/OWLhttp://www.bioinf.manchester.ac.uk/dbbrowser/OWL/SWISS-PROT+TrEMBLhttp://www.ebi.ac.uk/clustr/

二次数据库PROSITE/prosite/PRINTShttp://www.bioinf.man.ac.uk/dbbrowser/PRINTS/BLOCKS/Pfamhttp://pfam.sanger.ac.uk/IDENTIFY/identify/COGs/COG/ProDomhttp://www.toulouse.inra.fr/prodom.html/29/140结构一次数据库PDB/pdb/home/home.doMMDB/Structure/MMDB/mmdb.shtml/

二次数据库DSSPhttp://www.sander.embl-heidelberg.de/dssp/HSSPhttp://www.sander.embl-heidelberg.de/hssp/FSSPhttp://www.ebi.ac.uk/dali/fssp/PSdb/~geigel/PSdb/PSdb.html/

结构分类SCOPhttp://scop.mrc-lmb.cam.ac.uk/scop/CATH/latest/index.html/PDBsumhttp://www.ebi.ac.uk/thornton-srv/databases/pdbsum/分类二次数据库ProtoMap蛋白质组

蛋白质组

氨基酸索引AAindexhttp://www.genome.ad.jp/dbget/蛋白质间功效关系Predictome/蛋白质组分析ProteomeAnalysishttp://www.ebi.ac.uk/integr8/EBI-Integr8-HomePage.do/二维凝胶电泳GELBANK/SWISS-2DPAGE/ch2d/酵母蛋白质定位YPL.dbhttp://ypl.tugraz.at/模式生物蛋白质组BioknowledgeLibrnary/pages/index.php?id=home/30/140

一、核酸数据库

(一)核酸序列数据库当前,国际上主要有Genbank、EMBL、DDBJ三大核酸序列数据库,三大核酸数据库之间天天相互交换数据,保持数据同时更新。31/1401.Genbank

Genbank由美国国立生物技术信息中心(NCBI)建立维护,其主页如图6-3所表示。32/140Genbank数据直接起源测序工作者提交序列、测序中心提交大量EST序列、其它测序数据以及与其它数据机构协作交换数据。Genbank内容全部已知核酸序列和蛋白质序列,还包含对序列简明描述、科学命名、物种分类名称、参考文件、序列特征表等辅助信息。Genbank对数据统计处理划分为细菌类、病毒类、灵长类、啮齿类,EST数据、基因组测序数据、大规模基因组序列数据等16类。33/140(1)Genbank数据检索

经过NCBI首页“Search”选项中“gene”或“Nucleotide”等选项,在检索窗口输入检索词进行直接检索;利用NCBI网站综合生物信息数据库检索系统Entrez提供限制条件(Limits)、索引(Index)、检索历史(History)和剪贴板(Clipboard)等功效进行精细检索图6-4NCBI-Entrzgene检索界面34/14035/140Entrez综合生物信息数据库检索系统将核酸序列、蛋白质序列、基因图谱、蛋白质结构等数据库整合在一起。而且能够经过其生物医学文件摘要数据库(MEDLINE),获取序列相关文件信息。能够利用Entrezcross-database数据库进行综合信息检索(图6-5)。图6-5NCBI-Entrezcross-database检索界面36/140美国国家生物技术信息中心(NCBI)EntrezEntrez,TheLifeSciencesSearchEngine37/140PubMed:biomedicalliteraturecitationsandabstracts是一个医学文件网络搜索界面BLAST(BasicLocalAlignmentsearchTool)

是DNA或氨基酸序列比对分析主要软件38/140

OMIM:

onlineMendelianInheritanceinMan人类孟德尔遗传数据库在线

Books:

onlinebooks39/140

TaxBrowser:Taxonomybrowser分类浏览器Structure:该目录下最主要资源是分子模型数据库MMDB及Cn3D生物大分子三维模型查看软件

40/140EMBL和GenBank数据库识别标志EMBL识别标志GenBank识别标志含义IDLOCUS标识字符串及短描述字XX为阅读清楚而加空行ACACCESSION唯一提取号SVVERSION序列版本号DTDATE建立日期DEDEFINITION简单描述KWKEYWORDS关键字OSSOURCE起源生物体OCORGANISM生物体分类谱系RNREFERENCE引文编号RCREMARK引文注释RP其它注释RXMEDLINEMEDLINE引文代码41/140RAAUTHORS引文作者RTTITLE引文题目RLJOURNAL引文出处CCCOMMENT评注DR相关数据库交叉引用号FHFEATURES特征表头FT特征表SQEMBL序列开始,后跟长度、字母数BASECOUNTGeneBank碱基数ORIGINGeneBank序列开始标志,为空行////序列结束标志42/140GenBank核酸数据库实例

以人畜共患病源菌鼠伤寒沙门氏菌(Salmonellatyphimurium)H1相抗原基因H-1-i为例,简明说明GenBank核酸数据库数据格式。LOCUSSTYFLGH1I1485bpDNAlinearBCT26-APR-1993DEFINITIONSalmonellatyphimuriumH-1-igeneencodingphase1flagellarfilamentprotein(flagellin),completecds.ACCESSIONM11332VERSIONM11332.1GI:153978KEYWORDSflagellin.SOURCESalmonellatyphimuriumORGANISMSalmonellatyphimuriumBacteria;Proteobacteria;Gammaproteobacteria;Enterobacteriales;Enterobacteriaceae;Salmonella.REFERENCE1(bases1to1485)AUTHORSJoys,T.M.TITLEThecovalentstructureofthephase-1flagellarfilamentproteinof

Salmonella

typhimuriumanditscomparisonwithotherflagellinsJOURNALJ.Biol.Chem.260(29),15758-15761(1985)PUBMED2999134序列标识简单描述序列编号版本号关键词物种起源物种分类引文编号引文作者引文标题引文出处43/140COMMENTOriginalsourcetext:S.typhimuriumSL877DNA.Draftentryandcleancopysequencefor[1]kindlyprovidedbyT.M.Joyce,18-FEB-1986.IndividualSalmonellaserotypesusuallyalternatebetweentheproductionoftwoantigenicformsofflagella,termedphase-1andphase-2,eachspecifiedbyseparatestructuralgenes.Bothendsoftheflagellingeneactintheregulationofflagellinsynthesis.FEATURESLocation/Qualifierssource1..1485/organism="Salmonella

typhimurium"/mol_type="genomicDNA"/db_xref="taxon:602"

CDS13..1485/note="phase-1flagellarfilamentprotein"/codon_start=1/transl_table=11/protein_id="AAA27072.1"/db_xref="GI:153979"评注特征表编码区44/140/translation="MAQVINTNSLSLLTQNNLNKSQSALGTAIERLSSGLRINSAKDDAAGQAIANRFTANIKGLTQASRNANDGISIAQTTEGALNEINNNLQRVRELAVQSANSTNSQSDLDSIQAEITQRLNEIDRVNGQTQFSGVKVLAQDNTLTIQVGANDGETIDIDLKQINSQTLGLDTLNVQQKYKVSDTAATVTGYADTTIALDNSTFKASATGLGGTDEKIDGDLKFDDTTGKYYAKVTVTGGTGKDGYYEVSVDKTNGEVTLAAVTPATVTTATALSGKMYSANPDSDIAKAALTAAGVTGTASVVKMSYTDNNGKTIDGGLAVKVGDDYYSATQDKDGSISIDTTKYTADNGTSKTALNKLGGADGKTEVVTIDGKTYNASKAAGHDFKAEPELAEQAAKTTENPLQKIDAALAQVDTLRSDLGAVQNRFNSAITNLGNTVNNLSSARSRIEDSDYATEVSNMSRAQILQQAGTSVLAQANQVPQNVLSLLR"ORIGIN98bpupstreamofTaqIsite.1aaggaaaagatcatggcacaagtcattaatacaaacagcctgtcgctgttgacccagaat61aacctgaacaaatcccagtccgctctgggcaccgctatcgagcgtctgtcttccggtctg121cgtatcaacagcgcgaaagacgatgcggcaggtcaggcgattgctaaccgttttaccgcg181aacatcaaaggtctgactcaggcttcccgtaacgctaacgacggtatctccattgcgcag241accactgaaggcgcgctgaacgaaatcaacaacaacctgcagcgtgtgcgtgaactggcg301gttcagtctgctaacagcaccaactcccagtctgacctcgactccatccaggctgaaatc蛋白序列基因序列45/140361acccagcgtctgaacgaaatcgaccgtgtaaatggccagactcagttcagcggcgtgaaa421gtcctggcgcaggacaacaccctgaccatccaggttggtgccaacgacggtgaaactatc481gatatcgatctgaagcagatcaactctcagaccctgggtctggatacgctgaatgtgcaa541caaaaatataaggtcagcgatacggctgcaactgttacaggatatgccgatactacgatt601gctttagacaatagtacttttaaagcctcggctactggtcttggtggtactgacgagaaa661attgatggcgatttaaaatttgatgatacgactggaaaatattacgccaaagttaccgtt721acggggggaactggtaaagatggctattatgaagtttccgttgataagacgaacggtgag781gtgactcttgctgcggtcactcccgctacagtgactactgcgacagcactgagtggaaaa841atgtacagtgcaaatcctgattctgacatagctaaagccgcattgacagcagcaggtgtt901accggcacagcatctgttgttaagatgtcttatactgataataacggtaaaactattgat961ggtggtttagcagttaaggtaggcgatgattactattctgcaactcaagataaagatggt1021tccataagtattgatactacgaaatacactgcagataacggtacatccaaaactgcacta1081aacaaactgggtggcgcagacggcaaaaccgaagtcgttactatcgacggtaaaacctac1141aatgccagcaaagccgctggtcatgatttcaaagcagaaccagagctggcggaacaagcc1201gctaaaaccaccgaaaacccgctgcagaaaattgatgctgctttggcacaggttgacacg1261ttacgttctgacctgggtgcggtacagaaccgtttcaactccgctattaccaacctgggc1321aacaccgtaaacaacctgtcttctgcccgtagccgtatcgaagattccgactacgcgacc1381gaagtctccaacatgtctcgcgcgcagattctgcagcaggccggtacctccgttctggcg1441caggcgaaccaggttccgcaaaacgtcctctctttactgcgttaa//

统计结束46/140

少许序列利用BankIt提交,大量序列利用Sequin程序进行提交。NCBI网站提供数据查询、序列相同性搜索等服务,从其FTP服务器上可无偿下载Genbank数据。NCBI网址:/BankIt网址:/BankIt/Sequin网址:/Sequin/Genebank网址:/Genbank/Entrezgene网址:/sites/entrez?db=gene

Entrezcross-database网址:/sites/gquery/(2)向Genbank提交序列数据47/140EMBL核酸序列数据库创建于1982年,由欧洲生物信息学研究所(EBI)管理维护。使用序列提取系统(SRS)进行查询检索,利用基于网络WEBIN工具,或利用Sequin软件向EMBL核酸序列数据库提交序列。

EMBL网址:

http://www.ebi.ac.uk/embl/SRS网址:http://srs.ebi.ac.uk/WEBIN网址:http://www.ebi.ac.uk/webin-align/webinalign_help.html/Sequin网址:http://www.ebi.ac.uk/Sequin/2.EMBL核酸序列数据库

48/140DDBJ核酸序列数据库创建于1986年,由日本国家遗传学研究所负责维护和管理。使用SRS工具进行数据检索和序列分析,利用Sequin软件向该数据库提交序列。为方便检索DDBJ主页可进行日文和英文交换。DDBJ日文版网址:http://www.ddbj.nig.ac.jp/index-j.html/DDBJ英文版网址:http://www.ddbj.nig.ac.jp/index-e.html/3.DDBJ数据库49/140

(二)基因组数据库GDB

基因组数据库(GDB)创建于1990年,是一个专门聚集人类基因组数据数据库,以对象模型来保留数据,提供基于网络数据对象检索服务,可搜索各种类型对象,并以图形方式观看基因组图谱。GDB网址是:/50/140(一)蛋白质序列数据库惯用蛋白质序列数据库有SWISS-PROT、PIR、TrEMBL、UniProt、GenPept等,分述以下。

1.SWISS-PROTSWISS-PROT数据库提供蛋白质序列查询及相同蛋白质序列搜索等服务。

二、蛋白质数据库51/140图6-6Swiss-Prot数据库网站主页52/140SWISS-PROT数据库内容

关键数据:包含蛋白质序列、引用文件、分类信息等。注释:包含结构域、功效位点、跨膜区域、二硫键位置、翻译后修饰、与其它蛋白质相同性等。SWISS-PROT将广泛搜集相关数据进行合并,且与蛋白质三维结构数据库(PDB)等其它数据库交互索引。经过SWISS-PROT数据库能够得到某蛋白质序列,再经过交互引用从PDB数据库得到其结构。SWISS-PROT数据由数据行排列组成,数据格式与EMBL数据库数据格式基本相同(见表6-3)。53/140表6-3SWISS-PORT数据库行识别标志及含义中止符号Terminationline//序列标头SequenceheaderSQ特征表FeaturetabledataFT关键词KeywordsKW交叉引用数据库Databasecross-referenceDR评注或注释CommentsornotesCC引文出处ReferencelocationRL引文标题ReferencetileRT引文作者ReferenceauthorsRA交叉引用Cross-referenceRX相关内容ReferencecommentsRC引文位置ReferencepositionRP引文序号ReferencenumberRN物种分类OrganismclassificationOC起源细胞器OrganelleOG起源物种OrganismspeciesOS基因名称Genename(s)GN描述DescriptionDE登录日期或最终更新日期DateDT序列编号AccessionNumberAC标识号IdentificationID含义全称缩写54/140以鼠伤寒沙门氏菌SalmonellatyphimuriumH1-i基因编码鞭毛蛋白FLIC_SALTY为例介绍SWISS-PORT数据库数据格式。55/140IDFLIC_SALTYReviewed;495AA.ACP06179;P97160;Q02871;Q56088;DT01-JAN-1988,integratedintoUniProtKB/Swiss-Prot.DT23-JAN-,sequenceversion4.DT24-JUL-,entryversion69.DEFlagellin(Phase1-Iflagellin).GNName=fliC;Synonyms=flaF,hag;OrderedLocusNames=STM1959;OSSalmonellatyphimurium.OCBacteria;Proteobacteria;Gammaproteobacteria;Enterobacteriales;Enterobacteriaceae;Salmonella.OXNCBI_TaxID=602;RN[1]RPNUCLEOTIDESEQUENCE[GENOMICDNA].RXMEDLINE=86059460;PubMed=2999134;RAJoysT.M.;RT"Thecovalentstructureofthephase-1flagellarfilamentproteinofSalmonellatyphimuriumanditscomparisonwithotherflagellins.";RLJ.Biol.Chem.260:15758-15761(1985).序列标识序列编号登录日期描述基因名称起源物种物种分类物种分类号引文序号引文位置交叉引用引文作者引文标题引文出处SWISS-PROT数据库条目实例56/140RN[9]RPNUCLEOTIDESEQUENCE[GENOMICDNA]OF476-495.RCSTRAIN=LT2/ATCC23564;……CC-!-FUNCTION:Flagellinisthesubunitproteinwhichpolymerizestoformthefilamentsofbacterialflagella.CC-!-MISCELLANEOUS:IndividualSalmonellaserotypesusuallyalternatebetweentheproductionof2antigenicformsofflagella,termedphase1andphase2,eachspecifiedbyseparatestructuralgenes,fliCandfljB.CC-!-SIMILARITY:Belongstothebacterialflagellinfamily.CCDREMBL;M11332;AAA27072.1;-;Genomic_DNA.DREMBL;D13689;BAA02846.1;-;Genomic_DNA.DREMBL;AE008787;AAL20871.1;-;Genomic_DNA.DREMBL;X51740;CAA36029.1;-;Genomic_DNA.DREMBL;J01801;AAA27074.1;-;Genomic_DNA.DRPIR;A24262;A24262.DRPIR;S16121;S16121.DRPDB;1IO1;X-ray;A=54-451.DRPDB;1P95;Model;A=57-451.DRPDB;1UCU;EM;A=1-495.相关内容评注功效其它特征

相同性交叉引用数据库EMBL核酸序列数据库PIR蛋白序列数据库

PDB蛋白结构数据库57/140PE1:Evidenceatproteinlevel;KW3D-structure;Completeproteome;Flagellum.FTINIT_MET11Removed(Bysimilarity).FTCHAIN2495Flagellin.FT/FTId=PRO_0000182578.FTCONFLICT127127S->N(inRef.1).FTCONFLICT133133N->S(inRef.1).……FTHELIX332FTTURN3739FTHELIX4498关键词特征表不一样起源数据库冲突位点二级结构信息58/140SQSEQUENCE495AA;51612MW;4BD7849FA3B936BACRC64;MAQVINTNSLSLLTQNNLNKSQSALGTAIERLSSGLRINSAKDDAAGQAIANRFTANIKGLTQASRNANDGISIAQTTEGALNEINNNLQRVRELAVQSANSTNSQSDLDSIQAEITQRLNEIDRVSGQTQFNGVKVLAQDNTLTIQVGANDGETIDIDLKQINSQTLGLDTLNVQQKYKVSDTAATVTGYADTTIALDNSTFKASATGLGGTDQKIDGDLKFDDTTGKYYAKVTVTGGTGKDGYYEVSVDKTNGEVTLAGGATSPLTGGLPATATEDVKNVQVANADLTEAKAALTAAGVTGTASVVKMSYTDNNGKTIDGGLAVKVGDDYYSATQNKDGSISINTTKYTADDGTSKTALNKLGGADGKTEVVSIGGKTYAASKAEGHNFKAQPDLAEAAATTTENPLQKIDAALAQVDTLRSDLGAVQNRFNSAITNLGNTVNNLTSARSRIEDSDYATEVSNMSRAQILQQAGTSVLAQANQVPQNVLSLLR//序列标头蛋白质序列统计结束59/1402.PIR

PIR子数据库:蛋白质序列数据库(PIR-PSD)蛋白质分类数据库(iProClass)非冗余蛋白质参考资料数据库(PIR-NREF)PIR数据库按照数据性质和注释层次分四个部分:PIR1序列已经验证,注释最为详尽;PIR2为还未确定冗余序列;PIR3序列既未检验,也未注释;PIR4序列来自其它渠道,既未验证,也无注释。美国国家生物医学研究基金会与国际蛋白质信息中心(PIR-International)共同维护。PIR是第一个蛋白质分类和功效注释数据库60/140

PIR作用:提供基于文本交互式检索、序列相同性搜索以及结合序列相同性、注释信息和蛋白质家族信息高级检索。PIR网址:/61/1403.TrEMBL是一个经计算机注释蛋白质数据库,采取SWISS-PROT数据库格式。主要包含从EMBL/Genbank/DDBJ三大核酸数据库中依据编码序列翻译、还未集成到SWISS-PROT数据库中蛋白质序列。TrEMBL为SWISS-PROT数据库及时提供补充。TrEMBL网址:http://www.ebi.ac.uk/trembl/62/1404.UniProtUniProt将SWISS-PROT、PIR、TrEMBL三个数据库合并。经过文本检索、序列相同检索以及UniProtFtp网站可取得蛋白质序列。如图6-7所表示图6-7UniProt网站主页63/140UniProt包含UniProtKB、UniRef和UniParc3个部分:(1)UniProtKB数据库(UniProtKnowledgebase):蛋白质序列、功效、分类、交叉引用等信息存取中心;(2)UniRef数据库(UniProtReferenceClusters):为提升检索速度,将紧密相关蛋白质序列合并到同一条统计中。当前,依据序列相同程度可将UniRef数据库分为UniRef100、UniRef90和UniRef503个子库(3)UniParc(UniProtArchive):储存大量蛋白质研究历史信息。64/140利用UniProt可方便进行蛋白质序列交互检索,SalmonellatyphimuriumH-1项鞭毛蛋白P06176UniProt检索截图以下。UniProt网址:/index.shtml65/140图6-8关键数据66/140图6-9关键数据(续)、引用文件与评注67/140图6-10交互检索与关键词68/140图6-11特征表与序列信息69/1405.GenPept数据库GenPept数据库特点由Genebank数据库核酸序列经翻译后产生。GenPept数据量大,随核酸数据库更新而更新,但未经试验证实,也未有详细注释。

GenPept蛋白质数据库实例以鼠伤寒沙门氏菌S.typhimuriumH-1-i基因编码鞭毛蛋白为例进行GenPept数据库检索。70/140GenPept蛋白质数据库实例LOCUSAAA27072490aalinearBCT26-APR-1993DEFINITIONphase-1flagellarfilamentprotein.ACCESSIONAAA27072VERSIONAAA27072.1GI:153979DBSOURCElocusSTYFLGH1IaccessionM11332.1KEYWORDS.SOURCESalmonellatyphimuriumORGANISMSalmonellatyphimuriumBacteria;Proteobacteria;Gammaproteobacteria;Enterobacteriales;Enterobacteriaceae;Salmonella.REFERENCE1(residues1to490)AUTHORSJoys,T.M.TITLEThecovalentstructureofthephase-1flagellarfilamentproteinof

SalmonellatyphimuriumanditscomparisonwithotherflagellinsJOURNALJ.Biol.Chem.260(29),15758-15761(1985)PUBMED2999134COMMENTDraftentryandcleancopysequencefor[1]kindlyprovidedbyT.M.Joyce,18-FEB-1986.IndividualSalmonellaserotypesusuallyalternatebetweentheproductionoftwoantigenicformsofflagella,termedphase-1andphase-2,eachspecifiedbyseparatestructuralgenes.……序列标识简单描述序列编号版本号关键词物种起源物种分类引文编号引文作者引文标题引文出处评注71/140FEATURESLocation/Qualifierssource1..490/organism="Salmonellatyphimurium"/db_xref="taxon:602"

Protein1..490/name="phase-1flagellarfilamentprotein"

Region1..490/region_name="PRK08026"/note="flagellin;PRK08026"/db_xref="CDD:76379"

Region29..163/region_name="Flagellin_N"/note="BacterialflagellinN-terminus.Flagellinspolymerisetoformbacterialflagella.Thisfamilyincludesflagellinsandhookassociatedprotein3;pfam00669"/db_xref="CDD:64529"

Region191..>256/region_name="Flagellin_D3"/note="FlagellinD3domain.ThisdomainisfoundinthecentralportionbacterialflagellinFliC.Thedomaincontainsastructuralmotifcalledabeta-foliumfold;pfam08884"/db_xref="CDD:72304"特征表72/140

Region397..468/region_name="Flagellin_C"……/db_xref="CDD:64558"

CDS1..490/coded_by="M11332.1:13..1485"/transl_table=11ORIGIN1maqvintnslslltqnnlnksqsalgtaierlssglrinsakddaagqaianrftanikg61ltqasrnandgisiaqttegalneinnnlqrvrelavqsanstnsqsdldsiqaeitqrl121neidrvngqtqfsgvkvlaqdntltiqvgandgetididlkqinsqtlgldtlnvqqkyk181vsdtaatvtgyadttialdnstfkasatglggtdekidgdlkfddttgkyyakvtvtggt241gkdgyyevsvdktngevtlaavtpatvttatalsgkmysanpdsdiakaaltaagvtgta301svvkmsytdnngktidgglavkvgddyysatqdkdgsisidttkytadngtsktalnklg361gadgktevvtidgktynaskaaghdfkaepelaeqaakttenplqkidaalaqvdtlrsd421lgavqnrfnsaitnlgntvnnlssarsriedsdyatevsnmsraqilqqagtsvlaqanq481vpqnvlsllr//蛋白质序列统计结束GenPept网址是:/pub/genpept/73/140国际上主要蛋白质序列数据库种类和特点

名称维护单位注释冗余度数据量更新PIRNCBI、JIPID、MIPS部分完善较大较大较慢SWISSPROTEBI、SIB完善小不大较慢NRL-3DNCBI完善小小较慢TrEMBLEBI、SIB不完善大大快GenPeptNCBI不完善大大快NRDBEBI普通小大较快OWLHGMP普通小大较慢(引自《生物信息学》,赵国屏等编著,科学出版社,)74/140(二)蛋白质序列二次数据库

1.PROSITEPROSITE是蛋白质家族保守区域和功效位点数据库,也是第一个蛋白质序列二次数据库,收录蛋白质家族中同源序列多重比对所确定保守性区域:如酶活性位点、配体结合位点、金属离子结合位点、其它蛋白质结合位点等已知含有主要生物学功效蛋白质位点和序列模式。PROSITE数据库组成包含Prosite(数据文件)和PrositeDoc(说明文件)两个文件数据库。PROSITE数据库主页如图6-12所表示。75/140图6-12PROSITE数据库主页76/140PROSITE数据库作用:可确定一段新蛋白质序列中包含功效位点以及其归属蛋白质家族。PROSITE网址:http://www.expasy.ch/prosite/或/prosite/PROSITE中国镜像网址是:/prosite/77/1402.PRINTSPRINTS蛋白质指纹图谱数据库将多个保守序列模式作为识别蛋白质家族特征,与PROSITE数据库单个序列模式相比,PRINTS含有更加好识别率。PRINTS网址:http://www.bioinf.man.ac.uk/dbbrowser/PRINTS/78/1403.BLOCKS序列模块(block):是经过序列比对得到若干蛋白质序列中含有较高相同性序列片段。BLOCKS由经过自动检测PROSITE数据库和PRINTS蛋白质指纹图谱数据库中蛋白质家族高度保守区域产生序列模块组成。BLOCKS网址:/79/140(三)蛋白结构数据库

1.PDBPDB(ProteinDataBank)蛋白质结构数据库是国际上最完整蛋白质、核酸、糖类、蛋白质-核酸复合物及病毒等生物大分子三维结构数据库。PDB主页,如图6-13所表示。其数据库增加曲线,如图6-14所表示。80/140图6-13PDB数据库主页81/140图6-14结构数据库增加曲线截图红色图:总结构数蓝色图:新增结构数(引自/pdb/statistics/contentGrowthChart.do?content=molType-protein&seqid=100)82/140PDB数据库作用提供序列详细信息、原子坐标、三维结构、交叉检索等与结构相关信息。PDB数据库实例以鼠伤寒沙门氏菌SalmonellatyphimuriumH1-i鞭毛蛋白(P06176)F41片段晶体结构为例,图示PDB数据库格式(框6-4)和网页格式(图6-15)。三维结构动态展示(如图6-16所表示)。PDB地址:/pdb/home/home.do83/140框6-4PDB格式实例HEADERSTRUCTURALPROTEIN28-DEC-001IO1TITLECRYSTALSTRUCTUREOFF41FRAGMENTOFFLAGELLINCOMPNDMOL_ID:1;COMPND2MOLECULE:PHASE1FLAGELLIN;……SOURCEMOL_ID:1;SOURCE2ORGANISM_SCIENTIFIC:SALMONELLATYPHIMURIUM;……KEYWDSBETA-FOLIUM,FLAGELLINEXPDTAX-RAYDIFFRACTIONAUTHORF.A.SAMATEY,K.IMADA,S.NAGASHIMA,F.VONDERVISZ,T.KUMASAKA,AUTHOR2M.YAMAMOTO,K.NAMBAREVDAT215-APR-031IO11SOURCEDBREFSEQADVREVDAT104-APR-011IO10JRNLAUTHF.A.SAMATEY,K.IMADA,S.NAGASHIMA,F.VONDERVISZ,JRNLAUTH2T.KUMASAKA,M.YAMAMOTO,K.NAMBA……REMARK1REMARK2REMARK2RESOLUTION.2.00ANGSTROMS.

……标头题目化合物名称起源关键词作者公布日期相关文件注释84/140SEQADV1IO1ALAA426UNPP06179GLY426CONFLICTSEQRES1A398PHETHRALAASNILELYSGLYLEUTHRGLNALASERARGSEQRES2A398ASNALAASNASPGLYILESERILEALAGLNTHRTHRGLU……FORMUL2HOH*354(H2O)HELIX11ILEA57ALAA99143HELIX22SERA104THRA129126……SHEET1A2ASNA141GLNA1460SHEET2A2THRA154LEUA159-1OILEA155NILEA145……CRYST151.75036.440118.35090.0091.1590.00P12112ORIGX11.0000000.0000000.0000000.00000ORIGX20.0000001.0000000.0000000.00000ORIGX30.0000000.0000001.0000000.00000SCALE10.0193240.0000000.0003880.00000SCALE20.0000000.0274420.0000000.00000SCALE30.0000000.0000000.0084510.00000ATOM1NASNA56-49.795-3.667-4.3511.0030.60NATOM2CAASNA56-48.833-2.701-3.7261.0029.93C……TER2881ARGA450HETATM2882OHOH50129.624-1.33516.6881.0011.99OHETATM2883OHOH502-35.019-3.209-7.0051.0010.33O……END

氨基酸序列分子式α-螺旋β-折叠原子坐标配体原子坐标统计结束85/140图6-15PDB数据库网页格式实例86/140a.主链结构b.棒状结构c.光滑带结构d.空间填充结构图6-16SalmonellatyphimuriumH1-i鞭毛蛋白(P06176)F41片段PDB三维结构图(SWISS-PDBViewer)87/1402.MMDB(MolecularModelingDatabase)是Entrez组成部分。

只收录经过X射线晶体衍射和核磁共振试验测定生物大分子结构数据。增加了附加信息如:大分子生物学功效及产生机制、分子进化历史、生物大分子之间关系等。含有生物大分子三维结构模型展示、结构分析和结构比较等功效。实比如图6-17所表示。88/140图6-17SalmonellatyphimuriumH1-i鞭毛蛋白(P06176)F41片段MMDB三维结构图(Cn3D4.1)。MMDB地址为:/Structure/89/140(四)蛋白质结构二次数据库

1.DSSP(DatabaseofSecondaryStructureofProtein)是一个二级结构推导数据库,用于研究蛋白质序列与蛋白质结构关系。将蛋白质二级结构分为7种类型,如表6-5所表示。针对PDB数据库中蛋白质原子坐标,计算其各个氨基酸残基中氢键、二面角、二级结构类型等二级结构构象参数,从而依据三维结构推导出其对应二级结构。90/140

表6-5DSSP7种二级结构类型类型HEGIBTS含义α螺旋β折叠3(10)螺旋π-螺旋孤立β桥氢键转折弯曲DSSP网址:http://www.sander.embl-heidelberg.de/dssp91/1402.HSSP(Homology-DerivedSecondaryStructureofProtein)

是一个蛋白质同源序列比对数据库,将相同序列蛋白质聚集成结构同源家族,并隐含二级结构和空间结构信息。HSSP用于分析蛋白质保守区域、确定序列模式及蛋白折叠、进化关系、分子设计等研究。HSSP网址是:http://www.sander.embl-heidelberg.de/hssp/92/1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论