蛋白质序列分析.doc_第1页
蛋白质序列分析.doc_第2页
蛋白质序列分析.doc_第3页
蛋白质序列分析.doc_第4页
蛋白质序列分析.doc_第5页
免费预览已结束,剩余44页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

7 蛋白质序列分析与功能预测17.1 引言17.2 功能描述27.2.1 基因本体37.2.2 利用GO术语的功能注释77.3 基于序列相似性的功能预测87.3.1 基本预测方法107.3.2 分析与讨论147.3.3 蛋白质家族与序列的相似性聚类157.4 基于蛋白质信号的功能预测177.4.1 蛋白质信号177.4.2 信号的描述227.4.3 蛋白质模体、结构域和家族数据库287.4.4 分析与讨论347.5 基于蛋白质序列特征的功能预测357.5.1 序列的理化性质357.5.2 跨膜与卷曲螺旋分析377.5.3 蛋白质翻译后修饰分析407.5.4 亚细胞定位预测427.5.5 基于序列特征的蛋白质分子功能预测447.6 功能预测的其他思路45参考书目47487 蛋白质序列分析与功能预测DNA经常被比喻为构筑生命的蓝图,相应地,蛋白质就是构筑生命体最主要的材料。蛋白质在生命过程中发挥着巨大的作用,它们执行着大部分生物功能。这些功能包括结构功能(如细胞骨架中的肌动蛋白)、酶功能(很多蛋白质可以催化生物反应,常见的蛋白质催化功能是使生物反应加速一定数量级),以及在细胞内或细胞间转运物质的功能。大量序列被测定带给了生物信息学家一个挑战,那就是如何从这些序列中找到基因,然后给基因加上注释,即给这些基因提供关于它们性质或功能的简单描述。7.1 引言继基因组结构注释(genome structural annotation)完成后,阐明基因组所表达的全部蛋白质的表达规律和生物功能,称为功能注释(functional annotation),成为研究的热点,是基因组注释(genome annotation)的重要组成部分。据Friedberg I称,2006年时,GeneBack中约有40%的序列被标注为“unknown function”。由于蛋白质是生命活动的最终执行者,并且蛋白质功能的阐明将有助于疾病机理的研究并最终帮助人类进行药物设计与疾病治疗。因此,对基因产物蛋白质的功能预测(protein functional prediction)是后基因组时代的一项重要任务。尽管新的实验技术例如DNA芯片、酵母双杂交系统、RNA干扰以及大范围地、系统地缺失突变(knock-out)取得了巨大的进展,但这些方法都需要各种特定的设备,且价格昂贵、操作繁琐,成本高、周期长。由于实验同时会受到一些不可预知的环境以及人为因素的影响,其所得结果的可信度也需加以考虑。种种这些因素制约了蛋白质大规模分析的开展。目前,实验方法阐明蛋白质功能尚远远落后于序列的测定。面对呈指数增长的蛋白质序列数据,采用生物信息学的方法和手段来阐明大批量蛋白质序列的生物学功能具有非常重大的意义。可采用生物信息学方法对蛋白质序列的功能进行预测的本质在于,承担核心生物功能的相当一部分基因被所有生物物种共享,从而可以利用某些特定物种中基因所编码的少量蛋白质序列(目前占已知蛋白质序列总数的5%)的已知生物功能信息(知识)对其他物种的大量蛋白质序列进行功能注释。Hawkins T于2006年在“Protein Science”上发表文章,将蛋白质序列分析和功能预测方法大致分为四类:(1)基于序列或结构的分析方法(sequence and structure based methods),又称进化方法(evolutionary methods),这类方法基于全局或局部序列的保守性,或者结构上的保守性来预测蛋白质功能;(2)基于基因组上下文的方法(genomic context methods),又称比较基因组方法(comparative genomics methods),分别基于结构域融合事件(domain fusion events)、系统进化特征谱(phylogenetic profiling)、保守的基因顺序(conserved gene order),表达谱(expression profiling)以及共调控(common regulatory)等预测蛋白质功能;(3)基于相互作用的方法(interaction-based methods),又称细胞方法(cellular methods),使用蛋白质相互作用数据预测功能;(4)基于过程的方法(process based methods),又称代谢方法(metabolic methods),利用生物化学路径(biochemical pathways)的结构化网络(structured networks)来匹配蛋白质的非典型反应(uncharacterized reaction)。其中方法(1)最为成熟,本章主要围绕该方法讲述。7.2 功能描述理论上,蛋白质功能指“所有在蛋白质上或是经由蛋白质发生的事情”,是一个非常复杂的概念。完全理解蛋白质的功能需要回答一系列的问题,如产生了什么样的蛋白质?其三维结构如何?会出现在生物体的什么组织中?会参与哪些细胞功能?会和哪些蛋白质发生相互作用?在细胞的后翻译(post- translationally)过程中会得到修饰产生变化吗?会与哪些蛋白质绑定?会催化哪些反应?会参与哪些代谢路径?等等。完整的蛋白质功能注释需要从生化、细胞、组织、发育进化、生理等各方面进行描述。为支持基于生物信息学方法的功能分析,各数据库与注释系统普遍采用了功能术语集的方法。比如,SwissProt蛋白质序列数据库定义了10类八百多个功能描述关键字(SwissProt KeyWords),不同的蛋白质选用不同(个数)的KeyWords来概要定义其功能。这类方法存在的主要问题是容易产生术语不一致或术语描述模糊等现象。有时,功能根据生物化学的机制来定义(例如“腺苷酸激酶”);有时则根据所处的代谢通路或在细胞中的总体作用来定义(例如“糖酵解”或者“细胞代谢”);有时会根据生物体的表型来定义(例如“引起癌症”)。各数据库都有自己的功能术语集。比如,除SwissProt KeyWords外,GeneQuiz使用14类功能术语,PEDANT使用FunCat的15类功能术语等。这些给基于生物信息学方法的功能注释带来困难,更阻碍进一步的数据分析理解。有学者提出可以分不同的层次和级别(multilevel and hierarchical)对蛋白质功能进行描述。例如,Brok P于1998年给出可以从如图7.1所示的三个层次来描述蛋白质功能:最细致的一层给出蛋白质的特殊绑定位点、催化活性和构象变化等分子功能(molecular function);进而给出描述一定细胞环境下代谢途径、信号级联的参与情况等的细胞功能(cellular function);最上层给出其在生物体内的表型(phonotype)情况,如是否患有某种疾病及其疾病病理等。此时,功能预测的根本目标是建立基因型(genotype)与表型(phenotype)以及与环境间的相互作用与联系。这类复杂关系的建立将为致病基因筛选、药物靶标筛选、基因表达谱数据分析、建立调控网络等提供关键信息。比如,通过建立基因型与表型间的关系可以找出特定疾病表型的致病基因,找出可成为最佳药物靶标的重要代谢途径上的某些蛋白质,以及通过改变哪些基因可实现特定的表型等。然而,目前掌握的信息与知识还不足以大规模地解决生物体表型的功能预测问题,对蛋白质分子功能和细胞功能也还只能做到部分定性的描述。在此背景下,Gene Ontology Consortium于1998年提出用一整套标准的结构化控制词汇(controlled vocabulary),来描述真核生物的基因或蛋白质在细胞内所扮演的角色及生物医学方面的知识。目前,基因本体得到了广泛的认可,成为事实上的标准功能术语集,为基于生物信息学的蛋白质功能预测带来便利。7.2.1 基因本体基因本体是一套具有动态(dynamic)形式的结构化控制词汇。可以从这样几个方面来理解基因本体的概念。首先,从“词汇性”方面理解。每个本体具有统一的标准名称(GO术语,GO term)和编号(GO id)。其次,从“结构化”方面理解,一组本体可通过“is a”或“part of”的关系关联起来形成一个具有层次结构的有向无环图(Directed Acyclic Graphs,DAG)。比如,“核膜”(nuclear membrane)本体与“核”(nucleus)本体可以通过“part of”的关系关联起来。DAG图可以展现为树状层次结构,如其原网站上给出的图(图7.2)所示。DAG图与标准的树状层次结构图的区别在于允许每一个本体有一个或多个父亲。在DAG中,本体的结构层次越浅,功能描述越笼统;层次越深,功能描述越特异。再次,从“控制性”方面理解,最上层的本体名称可代指整个DAG图及其包含的所有本体。比如,通常说GO有三大独立的基因本体:生物过程(biological process,BP)、分子功能(molecular function,MF)和细胞组分(cellular component,CC),如图7.2所示,分别用于描述蛋白质的分子和细胞功能。最后,从“动态性”方面理解,随著生命科学的发展,GO本体的术语及其相互间的关系由专家一直在不断地手工累积与更新。截至到2009-3-12日为止已经积累了26933个GO术语。图7.1 从分子功能、细胞功能、表型等三个层次来描述蛋白质功能图7.2 GO的三大独立本体及DAG图示意GO已经成为生物信息领域中一个极为重要的工具,并逐步改变着对生物学数据的组织和理解方式,它的存在已经大大加快了对所拥有的生物学数据的整合和利用。比如,在采用GO术语对基因或蛋白质的功能进行标注后,依据GO提供的层次性组织结构就可以从生物学功能上将基因或蛋白质分成不同的层次结构组。为更进一步说明GO本体及其间的层次结构关系,下面引用Gene Ontology Consortium于2000年在Nature Genetic上发表的论文“Gene ontology: tool for the unification of biology.”中给出的三个例子,分别从生物过程BP、分子功能MF和细胞组分CC三个方面来说明GO本体。生物过程指基因或基因产物促成的生物学目的(biological objective)。一个过程通常经由一个或多个按顺序整合的分子功能完成。宽泛或称高层的生物过程术语的例子是“细胞生长和维持”(cell growth and maintenance)或者“信号转导”(signal transduction)。较为特异或称底层的过程术语是“翻译”(translation)、“嘧啶代谢”(pyrimidine metabolism)或“cAMP生物学合成”(cAMP biosynthesis)。图7.3给出了“DNA代谢”术语(本体)及其利用DAG图关联起来的部分相关本体。图7.3 “DNA代谢”本体及其利用DAG图关联起来的部分相关本体以及相应的被注释的基因产物分子功能被定义为单个基因产物分子的生物化学活性(包括针对配体或结构的特殊绑定)。注意,这个定义同样可用于描述潜在的基因产物或基因产物联合体(gene product complex)的功能。不过它仅用来描述发生了什么而不特指在哪里或何时该事件实际发生。宽泛的分子功能术语是“酶”(enzyme)、“运输”(transporter)或“配体”(ligand)。较为特异的功能术语是“将转换成腺苷酸的环化酶”(adenylate cyclase)或“Toll受体配体”(Toll receptor ligand)。图7.4给出了分子功能中核酸绑定以及酶等术语(本体)及其利用DAG图关联起来的部分相关本体。细胞组分指的是基因产物能具活性的细胞位置。注意,术语集包含了所有的术语,然而并非所有的术语都被应用于所有的物种。细胞组分包含了“核糖体”(ribosome)、“蛋白酶体”(proteasome)等包含了多个基因产物的特定细胞组分术语。同时也包含了“核膜”(nuclear membrane)、“高尔基体”(Golgi apparatus)等术语。图7.5给出了细胞、细胞质和核子等细胞组分本体及其利用DAG图关联起来的部分相关本体。图7.4 分子功能中核酸绑定以及酶等本体及其利用DAG图关联起来的部分相关本体以及相应被注释的基因产物图7.5 细胞、细胞质和核子等细胞组分本体及其利用DAG图关联起来的部分相关本体以及相应被注释的基因产物7.2.2 利用GO术语的功能注释Gene Ontology使用结构化的控制词汇规范化地定义了蛋白质(基因产物)的功能以及功能间的关系,在功能预测(注释)中得到了广泛地使用。2001年,UniProt组织成为GO Consortium的成员,并发起了GOA工程,基于文献以及多个数据库资源信息,利用GO术语对蛋白质(基因产物)进行功能注释。特别地,目前对人类基因组上的蛋白质序列也采用了GO术语进行功能注释,这体现在了Ensembl、UCSC和NCBI等提供的基因组注释系统中。GO术语注释涵盖了一条默认规则:如果一个基因产物被注释为一个较为底层的本体,那么同时也被该本体的祖先注释。从图7.3中给出的被注释的基因产物及其相关本体和本体间关系的示意图中可以明显地看到这条规则,比如Pcna被注释为“DNA链伸长率”(DNA strand elongation),那么同时也默认地被注释为“DNA独立”(DNA-dependent)、“DNA复制”(DNA replication)、“DNA代谢”(DNA metabolism)等一系列“祖先”本体。类似的注释情况可以从图7.4、7.5中观察到。利用GO术语,一个基因或蛋白质可从三个层面来注解,首先是构成在细胞内的特定组分(cellular component),其次是此组分在分子功能上所扮演的角色(molecular function),最后生物学家一定想知道这个基因或蛋白质到底参与哪些生物过程(biological process)。以如图7.6所示的钾离子通道蛋白质KCNQ1(KcsAK+)为例,从细胞组分的角度看,该基因产物可以被本体“GO:0008076 Voltage-gated potassium channel complex”所描述,如图7.7;从分子功能的角度看,该基因产物可被注释为图7.7中的“GO:0005251 delayed rectifier potassium channel activity”;从参与的生物过程看,该基因产物可被注释为多条本体,包含图7.7中的“GO:0006936 muscle contraction”、“GO:0006813 potassium ion transport”、“GO:0008016 regulation of heart contraction”和“GO:0007605 sensory perception of sound”等。图7.7中括号内的“traceable author statement”(通常简写为TAS)是GO提供的对注释可信度的提示,称为证据码(evidence code)。除了TAS证据码外,GO网站还给出了多个证据码及其注释可信度说明(/GO.evidence. shtml)。对于人类RBP4基因,编码的蛋白质为RET4_HUMAN(P02753),其GO的注释是 “retinol binding”(分子功能)和“GO0005615 extracellular space”、“GO0005634 nucleus”、“GO0005730 nucleolus”、“GO0005576 extracellular region”(细胞组分),与生物过程相关的注释较多,有“GO0050896 response to stimulus”、“GO0006810 transport”、“GO0006810 transport”、“GO0007601 visual perception”、“GO0006094 gluconeogenesis”等。7.3 基于序列相似性的功能预测利用序列相似性预测蛋白质功能几乎是最早也是最直接的功能预测方法。其理论依据是当若干生物大分子由共同的祖先分子进化而来时,它们往往在序列、结构和生物学功能上具有相似性。预测的基本步骤是,将未知功能的蛋白质序列作为查询序列,利用序列比对算法,例如BLAST、PSI-BLAST、FASTA等,搜索已注释的蛋白质序列数据库(如UniProt/SwissProt等),找出与查询序列相似的序列,进而从相似序列的功能特性分析外推查询序列的功能信息等。(a) 三维结构图(从PDB中获取)(b) 钾离子通道功能示意图图7.6 钾离子通道蛋白质KcsAK+的三维结构与功能示意图图7.7 UniProtKB/SwissProt给出的KCNQ1(P51787)的GO注释情况7.3.1 基本预测方法序列的相似性搜索涉及两类资源,一是相似性搜索和比对软件工具,二是序列数据库资源。依据序列长度和类型的不同,可以选择不同的序列比对工具,比如,MPsrch、BLAST/ PSI-BLAST以及FASTA等。而已注释的蛋白质序列数据库有很多,如SwissProt、TrEMBL、NRDB(nr)、GenPept、PIR-PSD、PIR-NREF、NRL-3D和EXProt等等。国际著名杂志“核酸研究”(Nucleic Acids Research,NAR)的网站上专门有“general sequence database”的报道,较为全面地列出了目前国际上重要的蛋白质序列数据库,其中大多提供相应的序列比对搜索工具。由于EBI(欧洲生物信息学研究所,European bioinformatics institute)、SIB(瑞士生物信息学研究所,Swiss Institute of Bioinformatics)和PIR(蛋白质信息中心,Protein Information Resource)的努力,目前UniProt(Universal Protein Resource)蛋白质序列数据库得到了广泛的认可。针对不同的用户,UniProt分三个层次构成,一是UniProt Knowledgebase (UniProtKB),包含UniProtKB/SwissProt和UniProtKB/TrEMBL,它涵盖大量人工注释的蛋白质信息,包括功能、分类以及数据库的交叉索引等;二是UniProt Archive (UniParc),力图收集最完整、最全面的蛋白质序列数据;三是UniProt Reference Clusters (UniRef),其涵盖的数据库是将UniParc中的序列数据依据不同的参数条件去除冗余后得到的结果。后两者对蛋白质序列都没有加以注释,只给出了序列数据的来源和相关链接。UniProtKB/SwissProt,由于其注释信息的全面性和可靠性,被称为是注释的蛋白质序列数据的“黄金标准”(golden standard)。而UniProtKB/TrEMBL是为了在不降低SwissProt高水平注释质量的同时,又能使经由测序获取的蛋白质序列数据得以尽快地发布,作为SwissProt数据库的补充,而于1996年数据库得以诞生的。尽管其注释信息的质量难以与SwissProt相比,TrEMBL仍然采用多种措施尽可能地丰富注释内容、提高数据质量。NCBI提供的RefSeq由于整合了基因组DNA序列、转录本以及基因产物(蛋白质)等,为基因结构辨识(gene identification and characterization)、突变分析(mutation analysis)、表达研究(expression studies)、多态性发现(polymorphism discovery)和比对分析(comparative analyses)等提供了从基因组序列到蛋白质序列的全面的序列信息,因而也被广泛使用。相关内容在第2章中已有介绍,此处不再赘述。下面分别以三个例子说明针对UniProtKB/SwissProt进行相似性搜索提供蛋白质功能预测的情况。例7-1 利用相似性分析进行蛋白质功能预测的成功案例。假定在基因结构预测中,利用基因结构预测工具(比如GenScan)得到了一条序列Protein_GenScan_HUMAN,序列内容如表7.1所示,利用蛋白质专家分析系统Expasy提供的blast工具进行序列相似性搜索,搜索数据库限定为SwissProt,其他参数选用默认值,得到相似性比对结果(部分结果内容如表7.2和图7.8所示)。从结果中可以得知该蛋白质与视黄醇结合蛋白(retinol-binding protein, RET4)有很高的相似性,基本可以判定序列属于lipocalin家族。此时可以根据与提交序列具有非常高的相似性的蛋白质序列(比如RET4_PANTR、RET4_HUMAN、RET4_HORSE、RET4_PIG等)以及lipocalin家族成员所共有的功能注释情况对本序列进行功能预测。表7.1 采用GenScan得到的一条蛋白质序列Protein_GenScan_HUMANProtein_GenScan_HUMANMNYSKIPAQVDLRRQTERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWDVCADMVGTFTDTEDPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAVQYSCRLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQEELCLARQYRLIVHNGYCDGRSERNLL表7.2 利用Expasy的blast工具针对Protein_GenScan_HUMAN进行序列相似性搜索得到的部分结果Db AC Description Score E-valuesp P61641 RET4_PANTR Retinol-binding protein 4 precursor (Plasma. 385 e-107sp P02753 RET4_HUMAN Retinol-binding protein 4 precursor (Plasma. 385 e-107sp Q28369 RET4_HORSE Retinol-binding protein 4 precursor (Plasma. 370 e-102sp P27485 RET4_PIG Retinol-binding protein 4 precursor (Plasma r. 367 e-101sp P18902 RET4_BOVIN Retinol-binding protein 4 (Plasma retinol-b. 363 e-100sp P06912 RET4_RABIT Retinol-binding protein 4 precursor (Plasma. 362 e-100sp P04916 RET4_RAT Retinol-binding protein 4 precursor (Plasma r. 341 2e-93sp Q00724 RET4_MOUSE Retinol-binding protein 4 precursor (Plasma. 341 2e-93sp P41263 RET4_CHICK Retinol-binding protein 4 precursor (Plasma. 333 5e-91sp P24774 RETB1_ONCMY Plasma retinol-binding protein 1 (PRBP-I) . 258 2e-68sp P24775 RETB2_ONCMY Plasma retinol-binding protein 2 (PRBP-II). 256 5e-68sp P06172 RETBP_XENLA Plasma retinol-binding protein precursor (. 256 6e-68图7.8利用Expasy的blast工具针对Protein_GenScan_HUMAN进行序列相似性搜索得到的部分图示结果例7-1是相似性比对得到的非常好的结果的情形之一。实际上,利用相似性比对有时无法得到可以进行分析推理的结果,比如例7-2给出的情形。有时,给出了相关结果,但是也仍然无法进行较为准确的判断,比如例7-3给出的情形。例7-2 利用相似性分析进行蛋白质功能预测的不成功案例。假定在基因结构预测中,利用基因结构预测工具(比如GenScan)得到了一条序列Protein_GenScan_PICST,如表7.3所示,同样利用Expasy提供的blast工具进行序列相似性搜索,搜索数据库也限定为SwissProt,得到相似性比对结果,如表7.4所示。比对结果的e-value值太高,不具备统计显著性,因而可以说不能由本相似性比对方法获取有价值的功能注释线索。表7.3 采用GenScan得到的一条蛋白质序列Protein_GenScan_PICSTProtein_GenScan_PICSTMAAPHGESRPGLASIPNLQHPSSTNNSDLISITNSNINSTSITSNSNDGSTSKKVRASWYNSRDNNKGKDQDNNDSSSDEDDEDHHNKTPSPKRRFDLDLVGASTPLHVLQGRAANDSISFLSPMNKLNNLHLESDVIEESFQLPEATKDYYTEDEEDEHEDDFSLGDKTITNDTDSDIEFHEIDGIDNDHPGLESSSFASPKFISHRKRLHIDSPSDMVITPNHSDSMRASSFRNSHTHDSNDMSICTNSSLKLGFSSSDSTPCPTQPKRKKLKFKRSSGENAPSVTKTLRNKPMLNLSHSVKTTVSDIAANAVQPPVSSLDESDEFSSSPPRVVFTSSAPGQNNNSTPISQSTPSNSRASTPPCLYQEFGESVNGYKFVKPVGKPQQFSYETPVNNNRTTTVNKLRESYNRREFTPMEVQVEQGTYEIIGEFPMASAGVMDESEPEIHIGDKRINDPYLTTPSATGSDSVKDYRPKRDYRSEYFNQLRLPLPPPNFDNQESLAKEQLQVLVNDKEKVLEFLNLISLEGEDIKELVKNERIRWHPDRWASRFKNNHERVFFDRDIVGNVCQVMNSIIEELFS表7.4 利用Expasy的blast工具针对Protein_GenScan_PICST进行序列相似性搜索得到的结果Db AC Description Score E-valuesp Q9LTS4 BH041_ARATH Putative transcription factor bHLH041 (Tra. 35 1.9sp Q9JKV9 IL20_MOUSE Interleukin-20 precursor (IL-20) (Four alph. 34 3.3sp Q59QL0 ERFB_CANAL Palmitoyltransferase ERF2 (EC 2.3.1.-) (DHH. 34 3.3sp P53882 YNR6_YEAST Uncharacterized protein YNL176C YNL176C . 33 4.3sp Q54K81 TALB_DICDI Talin-B talB Dictyostelium discoideum (S. 33 4.3sp P38538 SLAPH_BRECH Surface layer protein precursor (Hexagonal. 33 4.3sp P42948 SET4_YEAST SET domain-containing protein 4 SET4 Sac. 33 4.3sp Q6FTT8 RRF1_CANGA Ribosome-recycling factor, mitochondrial pr. 33 4.3sp Q09823 REC10_SCHPO Meiotic recombination protein rec10 rec10. 33 4.3sp Q8R2H1 IKBL1_RAT NF-kappa-B inhibitor-like protein 1 (Nuclear. 33 4.3sp Q95Q95 TOR_CAEEL Target of rapamycin homolog (EC ) (C. 32 9.5sp_vs Q95Q95-2 Isoform b of Target of rapamycin homolog OS=Caenorha. 32 9.5例7-3 利用相似性分析进行蛋白质功能预测的不确定案例。假定在基因结构预测中,利用基因结构预测工具(比如GenScan)得到了一条序列Protein_GenScan_DANRE,如表7.5所示,同样利用Expasy提供的blast工具进行序列相似性搜索,搜索数据库也限定为SwissProt,得到相似性比对结果,部分结果如表7.6和图7.9所示。从结果中尽管基本可以判定序列属于lipocalin家族,但究竟属于RETB1、RETB2、RET4、RETBP的哪一个子家族中的成员还是无法确定,因此可以得到的注释信息有限。表7.5 采用GenScan得到的一条蛋白质序列Protein_GenScan_DANREProtein_GenScan_DANREMLRLCIAVCVLATCWAQDCQVSNFAVQQDFNRTRYQGTWYAVAKKDPVGLFLLDNIVANFKVEEDGTMTATAIGRVIILNNWEMCANMFGTFEDTEDPAKFKMKYWGAAAYLQTGYDDHWIIDTDYDNYAIHYSCRELDEDGTCLDGYSFIFSRHPDGLRPEDQAIVTQKKQDICFLGKYRRVAHTGFCEAA表7.6 利用Expasy的blast工具针对Protein_GenScan_DANRE进行序列相似性搜索得到的部分结果Db AC Description Score E-valuesp P24774 RETB1_ONCMY Plasma retinol-binding protein 1 (PRBP-I) . 318 9e-87sp P24775 RETB2_ONCMY Plasma retinol-binding protein 2 (PRBP-II). 315 1e-85sp P41263 RET4_CHICK Retinol-binding protein 4 precursor (Plasma. 261 2e-69sp P61641 RET4_PANTR Retinol-binding protein 4 precursor (Plasma. 253 6e-67sp P02753 RET4_HUMAN Retinol-binding protein 4 precursor (Plasma. 253 6e-67sp P06912 RET4_RABIT Retinol-binding protein 4 precursor (Plasma. 248 2e-65sp Q28369 RET4_HORSE Retinol-binding protein 4 precursor (Plasma. 248 2e-65sp P27485 RET4_PIG Retinol-binding protein 4 precursor (Plasma r. 247 3e-65sp P18902 RET4_BOVIN Retinol-binding protein 4 (Plasma retinol-b. 246 5e-65sp P04916 RET4_RAT Retinol-binding protein 4 precursor (Plasma r. 243 5e-64sp Q00724 RET4_MOUSE Retinol-binding protein 4 precursor (Plasma. 243 5e-64sp P06172 RETBP_XENLA Plasma retinol-binding protein precursor (. 234 3e-61sp P08938 PURP_CHICK Purpurin precursor Gallus gallus (Chicken) 200 4e-51图7.9 利用Expasy的blast工具针对Protein_GenScan_DANRE进行序列相似性搜索得到的部分图示结果基于序列相似性比对的GO功能预测方法不仅在人工注释过程中得到广泛应用,该方法同时也被用于搭建蛋白质GO功能自动注释平台。比如,在GO本体术语集公开发布不久,在国际著名杂志“核酸研究”和“生物信息学(Bioinformatics)”上就相继发表了多个基于序列相似性搜索的蛋白质GO功能预测工具GoFigure,GOblet,OntoBlast,Blast2GO等。它们通过检索蛋白质序列数据库中的相似蛋白质,然后利用相似蛋白质的GO功能推测未知蛋白的功能。7.3.2 分析与讨论序列相似性搜索普遍地用于预测基因或蛋白质功能。然而,利用序列相似性进行蛋白质功能预测仍然存在困难。首先,基于序列相似性搜索的蛋白质功能预测受限于数据库内容。比如,当数据库对未注释序列有偏好(biased towards unannotated sequences)时,对新序列进行相似性搜索往往不能获得相应的功能注释信息。其次,受到比对工具的探测远缘同源性(distant homologs)能力的影响。目前还无法明确序列相似性判断的“阈值”,即对于序列究竟相似到何种程度才能够进行GO功能预测这一问题,无法给出量化的评价指标,只能依据专家的经验来区分序列的相似程度是强还是弱。其根本原因在于,生物学上,通常,由一个共同祖先进化来的直系同源物会执行相同或相似的功能,而通过基因复制产生的旁系同源物将自由地进化出新的功能。而直系同源、旁系同源,甚至一些根本无关的蛋白质,在序列上都有可能表现出一定的相似性。常用的相似性比对搜索软件只能找出相似序列,并不能判断它们是直系还是旁系同源。特别是当相似性比对的一致性分值低于20%时,就难以确定或者根本无法确定这种相似性究竟是直系还是旁系同源结果。这大概也是序列数据库中存在众多不正确的基于生物信息学注释的原因。可以有几种解决问题的思路,一是在选择搜索数据库时,应尽可能地选取具有可靠注释信息的蛋白质序列数据库。二是仔细检查获取的相似序列。仔细检查获取的候选蛋白质序列是一个非常耗时的过程,然而它有助于尽可能地确保每条序列的完整性和正确性,增加结果的正确度。三是尽可能地排除干扰。比如由于非特异性序列相似会降低比对搜索结果的质量。通常在执行比对搜索前要去除查询序列中与非特异性有关的片段。有几种程序,如SEG和COILS可以执行此功能。SEG可以找到低复杂度区,COILS可以预测蛋白质中潜在的卷曲螺旋结构。最后一个较好的想法是检查相似序列的同一家族中的所有成员,再由多序列比对工具,比如ClustalW、T-Coffee和MUSCLE等,对所有序列进行比对分析,找出序列间的相同或相异之处及其发生的原因。如果一个残基或一段短肽在一个家族所有序列中都是保守的而在其它蛋白质序列中完全不同,则意味着这些区域通常会对应蛋白质分子中重要的结构或功能区域。此时,引入蛋白质家族(protein family)的概念。7.3.3 蛋白质家族与序列的相似性聚类一个蛋白质家族由一组进化相关的蛋白质序列(evolutionarily related proteins)所定义。通常基于序列相似性划分蛋白质家族。依据序列相似性程度的不同,还可以得到蛋白质的超家族(superfamily)、家族(family)和子家族(sub-family)。一条蛋白质可能在子家族层(sub-family level)与另一个特定的蛋白质相关,也可能在家族层与一些具有较多相异特性的蛋白质相关,还可能在超家族层与一些更为相异的蛋白质相关。各个不同层次蛋白质集合所具备的共有功能特性(common functional properties)是随着超家族到子家族逐层递增的。建立了蛋白质家族的概念后,对蛋白质进行功能预测在某种程度上就意味着将蛋白质归类到某家族。可以采用基于序列相似性搜索的序列聚类(sequence clustering)方法来进行蛋白质家族的归类。序列聚类方法通常是全自动的(即非手工),并假定蛋白质家族的成员都将基于序列的相似性聚集在一起。采用序列聚类方法归类蛋白质家族成员的典型实例是ProDom数据库系统。ProDom的基本假设是蛋白质家族可以通过采用序列比较的方法对现有的序列进行洗牌式操作来识别。具体方法从UniProtKB蛋白质序列数据库开始,在去除片断(segment)数据后,确定数据库中最短的序列,然后针对该序列利用PSI-BLAST工具搜索数据库中的剩余部分。所有匹配序列被移出并用来生成一个新的ProDom家族。剩下的序列又再次依据其长短排序以确定最短序列,重复该过程直至所有的UniProtKB序列被归类到它们所属的家族。基于所采用的方法,ProDom对蛋白质序列空间具有最高的覆盖性,不过在其150,000个家族中仍然存在一些少量的、潜在的、无生物学意义的聚类(clusters)。利用ProDom进行蛋白质家族成员归类检索时,与blast的使用类似,用户以提交未知蛋白质序列的方式对ProDom数据库进行搜索,返回结果给出了未知蛋白序列中与已知蛋白质家族保守区域(称为结构域)的匹配情形。通过这些保守区域,可以将未知蛋白质序列与已知蛋白质家族成员的相关功能注释信息关联起来,进行功能预测。例7-4 将表7.1中的Protein_GenScan_HUMAN提交给ProDom(http:/prodom.prabi.fr/ prodom/current/html/home.php),搜索得到结构域PDA1G9Z3、PD093265、PD912633、PDA24519,进而可以得到由结构域关联起来的蛋白质家族各成员与提交蛋白质序列的多序列比对情况,如图7.10所示。从中也可以分析得到,与前面blast预测得到的结果雷同,该序列属于lipocalin家族。图7.10 利用ProDom的搜索工具针对Protein_GenScan_HUMAN进行功能预测得到的由PD093265关联的蛋白质序列与提交序列的多序列比对图示结果将表7.3中的Protein_GenScan_PICST提交给ProDom,依然不能得到有价值的结果。将表7.5中的Protein_GenScan_DANRE提交给ProDom得到的结果与采用前述方法得到的结果雷同,无法明确子家族的归属。其根本原因仍然在于序列聚类还是基于序列的相似性进行搜索,因而探测蛋白质家族中远缘成员的能力有限。另一种重要缺陷是自动分析方法无法将生物学知识考虑进来。7.4 基于蛋白质信号的功能预测如前所述,同一蛋白质家族的多序列比对结果可以用来推断结构、功能和家族中关键的氨基酸残基等重要信息。一些研究提出可以利用多序列比对结果来预测蛋白质功能。基本方法是,通过比对同一家族的多条蛋白质序列获取相应的比对结果并予以保存。在对未知蛋白质序列进行功能预测时,利用相应的工具搜索该未知序列中是否与保存的多序列比对结果匹配,据此可以把未知序列归类到某蛋白质家族,从而推断其功能。将蛋白质归类到某家族有两类方法:序列聚类方法和基于蛋白质信号(protein signatures)的方法。前者即是7.3.3中介绍的基于序列相似性聚类的方法。后一种方法基于蛋白质信号将蛋白质归类到某家族,这类方法首先挖掘家族成员间的已知相似性,采用一定的数学模式来描述,并将这种描述方式用于识别新的家族成员。通常,描述方式有多种,各有其优势和弱点,可以整合在一起使用以补充各自的不足。7.4.1 蛋白质信号Jacob在1977年曾经指出,不管具体过程如何,“自然”像一个高明的裁缝,他把各式各样的补丁搜集起来,缝制成一件百衲衣(“Nature is a tinkerer and not an inventor”)。实际也正是如此,进化过程并不都是从头开始,而是利用现有材料,通过改造,使其产生新的功能,或者是把几种不同的系统整合到一起,形成更好的新系统。而这些现有材料,就是蛋白质序列中的“信号”。大量证据表明,蛋白质序列中包含一些相对独立的单元,包括功能位点(functional sites)、保守残基(conserved residues)、残基模式(residue patterns)、模体(motifs)、指纹(fingerprints)、结构域(domians)等(具体描述见下文),这里统称为蛋白质信号(protein signature)。它们往往在一个蛋白质家族的所有成员中都是保守的而在其它蛋白质序列中完全不同,这意味着该信号可能对该蛋白质家族来说,起着维持其结构的关键或承担着实现重要生物功能的作用,可以用来推断结构、功能和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论