蛋白质数据库和蛋白序列分析.doc_第1页
蛋白质数据库和蛋白序列分析.doc_第2页
蛋白质数据库和蛋白序列分析.doc_第3页
蛋白质数据库和蛋白序列分析.doc_第4页
蛋白质数据库和蛋白序列分析.doc_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

蛋白质数据库和蛋白序列分析摘要:生物信息学英文bioinformatics,是一门综合计算机科学,信息技术,数学理论和方法来研究生物信息的新兴的交叉学科。包括各种生物学数据的采集、研究、存储、传递、显示、处理和模拟,基因遗传和物理图谱的处理,核苷酸和氨基酸序列分析,新基因的发现和蛋白质结构的预测等。蛋白质序列分析是生物信息学的基本研究方法。关键词:蛋白质序列分析 蛋白质数据库 SWISS-PROT PIR TrEMBL PDB数据库 HSSP数据库 NRL-3D 数据库 SCOP数据库 生物信息数据与查询 序列分析 质谱 隐马尔可夫模型正文:由于人类基因组计划完成了人类基因组的测序与分析工作,积累了大量的核酸和蛋白质序列数据,从而导致了分子数据库的建立。分子生物学家在此基础上依靠计算机进行核酸和蛋白质序列分析。一、蛋白质数据库大量生物学实验的数据积累,形成了当前数目众多的生物信息数据库。它们各自按一定的目标收集和整理生物学实验数据,并提供相关的数据查询、数据处理。这些生物信息数据库可以分为一级数据库和二级数据库。以下介绍国际上比较著名的一些蛋白质数据库。一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释。比如SWISS-PROT 数据库,SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释,该数据库主要由日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护,其序列数量呈直线增长;PIR数据库,它和SWISS-PROT是国际上二个主要的蛋白质序列数据库,目前这二个数据库在EMBL和GenBank数据库上均建立了镜像 (mirror) 站点。PIR数据库的数据最初是由美国国家生物医学研究基金会收集的蛋白质序列,主要翻译自GenBank的DNA序列。1988年,美国的NBRF、日本的JIPID(the Japanese International Protein Sequence Database日本国家蛋白质信息数据库)、德国的MIPS(Munich Information Centre for Protein Sequences摹尼黑蛋白质序列信息中心)合作,共同收集和维护PIR数据库。PIR根据注释程度(质量)分为4个等级;SWISS-PROT的数据存在一个滞后问题,即把EMBL的DNA序列准确地翻译成蛋白质序列并进行注释需要时间。一大批含有开放阅读框(ORF) 的DNA序列尚未列入SWISS-PROT。为了解决这一问题,TrEMBL(Translated EMBL) 数据库被建立了起来。TrEMBL也是一个蛋白质数据库,它包括了所有EMBL库中的蛋白质编码区序列,提供了一个非常全面的蛋白质序列数据源,但这势必导致其注释质量的下降;还有ExPASy数据库等。二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。比如PDB数据库,实验获得的三维蛋白质结构均贮存在蛋白质数据库PDB(Protein Data Bank)中。PDB是国际上主要的蛋白质结构数据库,虽然它没有蛋白质序列数据库那么庞大,但其增长速度很快。PDB贮存有由X射线和核磁共振(NMR)确定的结构数据;HSSP数据库,对来自PDB中每个已知三维结构的蛋白质序列进行多序列同源性比较的结果,被贮存在HSSP(homology-derived second structures of proteins)数据库中。被列为同源的蛋白质序列很有可能具有相同的三维结构,HSSP因此根据同源性给出了SWISS-PROT数据库中所有蛋白质序列最有可能的三维结构;NRL-3D 数据库,NRL-3D(Naval Research Laboratory-3D)数据库提供了贮存在PDB库中蛋白质的序列,它可以进行与已知结构的蛋白质序列的比较;SCOP数据库,要想了解对已知结构蛋白质进行等级分类的情况可利用SCOP数据库,在该库中可以比较某一蛋白质与已知结构蛋白的结构相似性;以及与SCOP类似的一个数据库CATH等。 二、蛋白质序列分析要在如此庞大的数据库中找到所需要的目标序列,必须建立数据库查询系统。数据库查询(也称为数据库检索)是指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。常用的数据库查询系统有Entrez, SRS等。数据库搜索是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。常用的数据库搜索系统有BLAST 、FASTA和BLITZ 。面对大批由测序仪产生的序列数据,通过序列分析,人们能够了解这些序列的生物学信息和意义,以下对蛋白质序列分析做简单介绍。 一、蛋白质基本性质分析,包括氨基酸组分、分子质量、等电点分析,疏水性分析,跨膜区分析,前导肽和蛋白质定位,卷曲螺旋分析等。 二、蛋白质序列分析方法多序列比对,为了便于描述,对多序列比对过程给出下面的定义。把多序列比对看作一张二维表,表中每一行代表一个序列,每一列代表一个残基的位置。将序列依照下列规则填入表中:(a)一个序列所有残基的相对位置保持不变;(b)将不同序列间相同或相似的残基放入同一列,即残基上下对齐,我们称比对前序列中残基的位置为绝对位置。相应地,我们称比对后序列中残基的位置为相对位置。显然,同一列中所有残基的相对位置相同,而每个残基的绝对位置不同,因为它们来自不同的序列。绝对位置是序列本身固有的属性,或者说是比对前的位置,而相对位置则是经过比对后的位置,也就比对过程赋予它的属性。其算法复杂,比对方法有手工比对方法,同步法,步进法等。多序列比对的意义在于它能够把不同种属的相关序列的比对结果按照特定的格式输出,并且在一定程度上反映它们之间的相似性。多序列比对结果所提供的信息对于提高数据库搜索灵敏度也具有很大帮助。因此,方便实用的多序列比对数据库也就应运而生。三、蛋白质的结构与功能预测(1)蛋白质结构预测1、蛋白质结构及其数据库 一般情况下,蛋白质的结构分为4个层次:初级结构蛋白质序列;二级结构螺旋和折叠片(-sheets)模式;三级结构残基在空间的布局;四级结构蛋白质之间的互作。2、二级结构预测已有大量有关根据序列预测蛋白质二级结构的文献资料,这些资料可大致分为二类:一是有关根据单一序列预测二级结构;二是有关根据多序列列线预测二级结构。3、三级结构预测比对数据库中已知结构的序列是预测未知序列三级结构的主要方法。多种途径可进行以上这种比对。最容易是使用BLASTP程序比对NRL3D或SCOP数据库中的序列。如果发现超过100个碱基长度且有远高于40%序列相同率的匹配序列,则未知序列蛋白与该匹配序列蛋白将有非常相似的结构。在这种情况下,同源性建模(homology modeling)在预测该未知蛋白精细结构方面会发挥非常大的作用。在序列相同率为25 %40 %时,两条蛋白质将具有相同的折叠,但这时同源性建模将变得更加困难和不准确。如果在比对NRL3D数据库时没有发现匹配序列,接下去可试试HSSP数据库。这样做的一条最方便捷径是用BLAST或FASTA法搜索蛋白质序列库(如SWISS-PROT、TREMBL或PIR),然后利用诸如SRS等工具去检索任何超过25%序列相同率的匹配序列,如果这些匹配序列在HSSP数据库中存在,则在该序列的注释(annotation)“DR”栏中将有说明(参见第三章)。如果未知蛋白质序列与某一HSSP数据库序列有明显大于25%的序列相同率,则有把握地假定未知序列至少有与HSSP序列相同的蛋白质折叠模式。目前,NRL3D和HSSP数据库的记录数量可以保证20%的蛋白质序列将找到已知结构的同源序列。(2)蛋白质功能预测1、根据序列预测功能的一般过程:比较未知蛋白序列与已知蛋白质序列的相似性;查找未知蛋白中是否包含与特定蛋白质家族或功能域有关的亚序列或保守区段;2、通过比对数据库相似序列确定功能;3、序列特性:疏水性、跨膜螺旋等;4、通过比对模序数据库等确定功能。三、质谱及隐马尔可夫模型在肽和蛋白质序列分析中的应用 了解肽和蛋白质的序列对理解其功能具有重要意义,测定其序列也是当前生命科学研究中的重要内容之一质谱作为高灵敏度的测定分子结构的仪器,其高灵敏度、广泛的适用性及快速性等特性使它具有很大潜力发展成为辅助传统测序方法的新方法,并得到了广泛的关注肽和蛋白质序列的质谱测定方法质谱用于肽和蛋白质的序列测定主要可以分为三种方法一种方法叫蛋白图谱(protein mapping),即用特异性的酶解或化学水解的方法将蛋白切成小的片段,然后用质谱检测各产物肽分子量,将所得到的肽谱数据输入数据库,搜索与之相对应的已知蛋白,从而获取待测蛋白序列;第二种方法是利用待测分子在电离及飞行过程中产生的亚稳离子,通过分析相邻同组类型峰的质量差,识别相应的氨基酸残基其中亚稳离子碎裂包括“自身”碎裂及外界作用诱导碎裂;第三种方法与FAman法有相似之处,即用化学探针或酶解使蛋白或肽从N端或c端逐一降解下氨基酸残基,形成相互间差一个氨基酸残基的系列肽,名为梯状测序(1adder sequencing),经质谱检测,由相邻峰的质量差知道相应氨基酸残基隐马尔可夫模型(Hidden Markov model,HMM)用于蛋白质研究是生物信息学研究的新领域。目前,人们已经得到大量的蛋白质序列和结构数据,传统研究蛋白质的方法已经不再实用,生物学家已经转向能够处理大量数据的统计方法来进行研究。隐马尔可夫模型可以通过训练,识别同一特征的蛋白质序列。从SCOP数据库中选择了一个蛋白质族,由它得到了能够代表该族特征的隐马尔可夫模型,并用该模型对一些蛋白质序列进行分析。隐马尔可夫模型(Hidden Markov model,HMM)用于蛋白质研究是生物信息学研究的新领域,它的基础是计算机技术、统计学和分子生物学。HMM 可被用于蛋白质同源性的研究。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markov链,另一个是与Markov链的每一状态相关联的观察结果的随机过程。隐Markov链的特征要靠可观测到的信号揭示。编码蛋白质的原始DNA 序列,在生物的进化过程中,会受到自然环境和各种因素的影响,使翻译出的蛋白质序列经历突变,遗失,或引入外源序列等变化,最后按不同的进化路径分化,形成多种功能相近的蛋白质。因此,可以把这些蛋白质看作由一个基本蛋白质序列经过插入,删除或替换了某些氨基酸残基而形成的。这个过程可以用HMM 来表示。HMM 可以用于已知一级结构进行蛋白质的分类,并且有较好的效果,是对其它预测和分类方法的补充。若结合各种蛋白质结构数据库,会产生更准确的预测结果。但它也存在一些缺陷,使得它用于结构分析方面有一定的不足。结束语 : 随着人们对蛋白质研究的越加深入,蛋白质数据库将会进一步的发展和完善,蛋白质测序及其结构与功能预测已成为当前生命科学研究的重要内容之一。参考文献 1. Clustal W蛋白质与核酸序列分析软件 郭崇志 孙曼霁 生物技术通讯-2000年2期 2. 液相

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论