BLOSUM矩阵及其在生物信息学中的应用_第1页
BLOSUM矩阵及其在生物信息学中的应用_第2页
BLOSUM矩阵及其在生物信息学中的应用_第3页
BLOSUM矩阵及其在生物信息学中的应用_第4页
BLOSUM矩阵及其在生物信息学中的应用_第5页
已阅读5页,还剩7页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

[生工0902]BLOSUM矩阵及其在生物信息学中的应用生物信息学齐阳,汪锴,袁理2011/11/25什么是BLOSUM矩阵?BLOSUM矩阵有什么应用?ﻬBLOSUM矩阵及其在生物信息学中的应用齐阳汪锴袁理摘要BLOSUM矩阵是一种蛋白质序列对比的算法,在生物信息学领域中被广泛应用。本文综述了BLOSUM矩阵的由来、如何构建BLOSUM矩阵和其打分规章、应用以及现代算法。并指出了BLOSUM矩阵的进展前景。关键词BLOSUM矩阵;生物信息学;应用0引言序列比对是现代生物学最基本的商量方法之一,最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相像区域和保守性位点,寻找二者可能的分子进化关系,进而可以有效地分析和推测一些新发现基因的功能。目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间的相像性,过去所普遍使用的Dayhoff矩阵只能用来进行相像度85%以上的序列对比「1」,为了满意大量生命科学商量的需求,1992年Henikoff夫妇从蛋白质模块数据库BLOCKS中找出一组替代矩阵,即BLOSUM系列,很好的解决了序列的远距离相关的问题,此后十几年来BLOSUM及其衍生替代矩阵已经成为蛋白质多序列对比的常用方法.1BLOSUM矩阵概况序列比对是现代生物学最基本的商量方法之一,常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相像区域和保守性位点,寻找二者可能的分子进化关系,进而可以有效地分析和推测一些新发现基因的功能。在比对两个序列时,不仅要考虑完全匹配的字符,还要考虑一个序列中的空格或间隙(或者,相反地,要考虑另一个序列中的插入部分)和不匹配,这两个方面都可能意味着突变「2」。在序列比对中,需要找到最优的比对即将匹配的数量最大化,将空格和不匹配的数量最小化.为了确定最优的比对,必须为每个比对进行评估和打分,于是引入了打分函数「3」。当依据打分函数假定两序列同源时,可以发现某些替换比其它替换要常见的多,比较保守的替换比起较随机替换更能维持蛋白质的功能,而且不容易被淘汰.因此,在为比对打分时,更倾向为保守基团如丙氨酸、缬氨酸等比对位点多谢嘉奖,而对于那些大而带点氨基酸如赖氨酸的比对位点则相反。一旦和概算或氨基酸残基可能的两两比对得分都确定了,那么得到的打分矩阵就可以用来为比对中每个非空位位点进行评分。为了获得打分矩阵,最常用的方法是统计自然界中各种氨基酸残基的相互替换率「3」。目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间的相像性,过去所普遍使用的Dayhoff矩阵只能用来进行相像度85%以上的序列对比「1」,为了满意大量生命科学商量的需求,1992年Henikoff夫妇从蛋白质模块数据库BLOCKS(Box1.BLOCKS基本概念)中找出一组替代矩阵,即BLOSUM系列,很好的解决了序列的远距离相关的问题,此后十几年来BLOSUM及其衍生替代矩阵已经成为蛋白质多序列对比的常用方法。2BLOSUM矩阵的构建2。1多序列比对定义:一个多序列比对A是一个二维字符矩阵,即A={}(n∈[1,N],i∈[1,I]),其中=或‘—',并且满意下面三个条件:(1)序列的数目等于矩阵的行数;(2)如果移去每行中的‘-’字符,将得到原来的序列;(3)将不同序列间相同或相像的残基放入同一列,即尽可能将序列间相同或相像残基上下对齐「5」.从上面的定义可以看出,一个比对实际上是DNA或蛋白质经过一系列突变大事(替代、插入、删除)的最后结果,它最近似地表示了全部的进化过程。其中删除和插入没有区分,经过适当地插入删除(用insert,delete表示),可以使相同地保守残基位于同一列上,并使全部的结果序列具有相同的长度。例如:VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS——ITVNWTQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGPEVTCVVVDVSHEDPQVKFNWYVDG—2.2BLOSUM打分规章「6」BLOSUM中得分主要接受Log—odds得分,即同源与非同源的可能性的比率的对数.在BLOSUM中两个残基i与j的得分s(a,b)依据log-odds方程计算,方程如下:--—---—--—-——---—-—------—--————-—————---—--—--(1)其中,是指假定残基对a与b是同源的,在已有同源序列比对中消灭的目标频率:是指假定残基a与b是非同源的与独立的,残基a与b消灭在任何一个蛋白质氨基酸序列中的平均背景频率:是尺度参数,每个得分四舍五人取整。如果残基对a与b是同源的,则它们消灭在同源序列比对中目标频率>,s(a,b)<0.如果残基对a与b是非同源的,则它们消灭在同源序列比对中目标频率〈,s(a,b)〈0.以相同氨基酸:色氨酸/色氨酸(w/w)比对得分和亮氨酸/亮氨酸(L/L)比对得分;不同氨基酸:丙氨酸/亮氨酸(A/L)比对得分和赖氨酸/谷氨酸(K/E)比对得分为例,介绍计算过程。色氨酸/色氨酸(W/W)比对得分;在同源比对数据库中,测得=0.0065,=0-013,=0.347,代入(1)得s(W/W)=+10。5,取整得+11;亮氨酸/亮氨酸(L/L)比对得分;在同源比对数据库中,测得=0。0371,=0.099,=0.347,代入(1)得s(L/L)=+3.8,取整得+4;丙氨酸/亮氨酸(A/L)比对得分;在同源比对数据库中,测得=0。0044,=0.074,=0.099=0。347,代入(1)得s(K/E)=—1。47,取整得—1;赖氨酸/谷氨酸(K/E)比对得分;在同源比对数据库中,测得=0。0041,=0。058,=0.054,=0.347,代入(1)得s(K/E)=+0。76,取整得+1;将BLOSUM-1矩阵与自身相乘,可以近似得到高阶BLOSUM单位的替换率。可以依据序列的长度以及序列间的先验相像程度来选用特定的BLOSUM矩阵,低价BLOSUM矩阵更多是用来比较比较亲缘较远的序列,一般来说,BLOSUM—62矩阵适于用来比较大约具有62%相像度的序列,而BLOSUM-80矩阵更适合于相像度为80%左右的序列「3」。运用上述计算方法,就可得到BLOSUM62,见Table1.Blosum62替代矩阵.3BLOSUM矩阵的应用基于进化原理的氨基酸保守性打分矩阵BLOSUM,原本是用于两条多肽链比对时使用的,其起源于相同的氨基酸模式之间氨基酸的保守性,即某种氨基酸对另一种氨基酸的取代数据,广泛用于蛋白质数据库的搜寻。最近BLOSUM被成功用于表面抗原分析、T细胞抗原决定簇推测「7」、氨基酸定点突变后蛋白质的稳定性等多种重要科学商量中,对于常用的数据集经过严格的交叉验证,人们已经发现BLOSUM矩阵明显优于目前通常接受的理化特性打分方法和单位打分方法「8」。随着后基因组时代的到来,适与远亲分析的BLOSUM肯定可以有更大的用武之地,以解决生命科学中的诸多难题.3。1表面抗原分析为分析HBV的表面抗原,对两个病人人群进行跟踪商量:一组是52位患病1年以上的慢性HBV感染携带者,另一组是129位新诊断的患者.获得这180名患者乙肝表面抗原的DNA序列然后与来自于基因库的168个全长HBV序列比较序列全都性。乙肝病毒表面抗原亲水区域的多态性用突变大师软件来分析。参考文献和BLOSUM打分「9」被用来分析潜在转变的抗原性.3.2T细胞抗原决定簇推测为进一步推测T细胞抗原决定簇的结构,HuangL和DaiY做了进一步商量,将BLOSUM矩阵「10」和氨基酸指标向量结合,在BLOSUM矩阵中代替了氨基酸指标向量的每一个非零项,使相应的值消灭在对角线项,这种方法可以把氨基酸的位置和相像度用BLOSUM打分「9」的形式简洁表现出来.3.3磷酸化位点的推测磷酸化作用在多种真核细胞中具有重要的作用,例如有丝分裂、新陈代谢「1」以及信号传导「10」等.蛋白激酶在蛋白底物中催化特定的受体氨基酸,每一种激酶只催化它特定的底物子集。蛋白激酶的失活会导致疾病,因此了解特定蛋白激酶的磷酸化作用机制有重要意义。而利用实验手段或质谱分析「11」、缩氨酸微阵列「12」和特定磷蛋白质水解「13」等方法分析磷酸化蛋白质组都有很多缺陷,但有一种方法在磷酸化位点推测上有明显优势----—基于k邻近的蛋白激酶特异性推测方法「14」,此方法可以对不同激酶家族的磷酸化作用位点进行标注。由BLOSUM62打分矩阵得到的相像度函数作为系统的输入向量.3。4蛋白质定点突变稳定性推测精准率定点突变技术的潜在应用领域很广,比如商量蛋白质相互作用位点的结构特性、酶学和酶工程中改造酶的不同活性或动力学特性、改造启动子或DNA相互作用元件、商量蛋白质晶体结构,以及药物研发、提高蛋白抗原性或稳定性和活性等.何种程度的变异会影响野生型蛋白的稳定性,以及突变后该蛋白质稳定性的转变,是设计蛋白质或对蛋白质进行点突变分析时的关键。但是实验测定的精确方法需要昂贵的设备和较长的实验时间,因此现在多使用生物信息学的方法.有人使用BLOSUM62推测氨基酸定点突变后蛋白质的稳定性,并对常用的数据集经过严格的交叉验证发现其明显优于目前通常接受的理化特性打分方法和单位打分法「8」。4BLOSUM矩阵的挑战与进展4.1BLOSUM矩阵与PAM矩阵的比较(1)用于产生矩阵的蛋白质家族及多肽链数目,BLOSUM比PAM大约多20倍.(2)低价PAM矩阵适合用来比较亲缘较近的序列,而低价BLOSUM矩阵更多是用来比较亲缘较远的序列。(3)在BLOSUM中,通过统计聚类技术来对相关蛋白质的无空位比对进行分类,并且计算类间的替换率。当观察某对氨基酸得到的替换率很低时就会带来一些统计问题,而BLOSUM的方法正好能够避开此类问题。4.2基于BLOSUM矩阵的一些现代算法由于BLOSUM打分矩阵的上述优点,已被各种现代算法所利用,发挥不同领域的作用于功能.下面将介绍几种使用BLOSUM打分矩阵最多的算法,对它们的优缺点进行简洁阐述。4.2.1动态规划算法其指导思想就是在多级过程的每一级上列出各种可行的局部解。该方法由Needle-man和Wunsch于1970年提出,最初用于求两个序列的最佳比对.对于两两全局序列比对情况,该方法的关键是设计一个二维矩阵,该矩阵的两个轴就是要比对的两个序列.Needleman—Wunsch算法可以直接用于三个序列的比对。多序列比对的积分是n个序列中两两进行比对所得积分之和。对于N个序列的比对其运算时间呈指数增长,所以动态规划算法不是很适用。4。2。2渐进算法渐进算法最早由Feng和Doolittle提出。在算法中,首先接受Needleman-Wunsch算法把需要比对的N个序列进行彼此两两比对,其结果形成个实体,然后对这些实体排序,进行全局比对.这种方法一般在质量尤其是计算速度、存储空间及可比对的序列数目方面比动态规划算法更优良。在比对过程中遵循“一旦有一个空位,总有一个空位"的规章。.渐进算法实际上从历史和进化的观点比对多个序列,精准地反映了导致现代序列的一系列歧异进化过程,并且可以直接用于构造进化树,其缺点是不能保证比对的结果是数学上的最优化比对。4。2.3随机算法「16」(1)遗传算法遗传算法使一类借鉴生物界的进化规律(适者生存、优胜劣汰和遗传学原理)演化来的全局意义上的自适应随机搜寻方法。当用遗传算法进行生物序列分析时,假设每一代包含固定数量的个体(在序列分析中表示优化比对问题的一个可行解),这些个体用它们的适应度来评价。那些具有较高适应度的优良个体更适合于生存环境,将有很多的机会产生它们的后代,从而使优良特性得以遗传并强化。变异则模拟了生物进化过程中的偶然残基突变现象.对产生的新一代群体进行重新评价、选择、交叉、变异,如此循环往复,使群体中的最优个体的适应度和平均适应度不断提高,直至最优个体的适应度和平均适应度不断提高,直至最优个体的适应度达到某一限定值或最优个体的适应度和群体的平均适应度不再提高,则迭代过程收敛,算法结束。在这种算法中,可以对各种变异、交叉和打分系统进行设置。(2)模拟退火模拟退火算法的思想是Kirkpartick等人于1982年引入组合优化领域,其源于对固体退火过程的模拟。模拟退火算法接受Meteropolis接受准则,并用一组称为冷却进度表的参数掌握算法进程,使算法在多项式时间内给出一个近似最优解。模拟退火方法是用于蛋白质三维结构比对的一种确定性方法.但是,作为一种多序列比对工具,它需要过长的计算时间,格外是当比对的序列数目较大时更为明显,所以只适于一些高性能的计算机。5总结BLOSUM打分矩阵自1992年由Henikoff夫妇提出至今已近二十年,它的应用也从最初的多肽链比对,蛋白质定点突变稳定性推测扩展到表面抗原分析,T细胞表面抗原决定簇推测,磷酸化位点推测等多方面.虽然有文章表示近年来已被当做标准的BLOSUM打分矩阵并非完全正确且存在错误计算,但这没有影响到BLOSUM打分矩阵的应用,甚至从某种程度上提升了其在搜寻中的表现「17」。随着后基因组时代的到来,适于远亲分析的BLOSUM矩阵肯定可以有更大的用武之地。参考文献「1」StevenHenikoff,JorjaGHenikoff。Aminoacidsubstitutionmatricesfromproteinblock[J].AtlasofProteinSequenceandStructure.1978,5(3):345-352。「2」ChantleR.Korostensky.AlgorithmsforBuildingMultipleSequenceAlignmentsandEvolutionaryTrees。[Dissertation]SwissFederalInstituteofTechnology。2000.「3」孙啸,陆祖宏,谢建明等译.生物信息学概论.清华高校出版社.北京「4」http://bioinformatics.weizmann。ac.il/blocks/about_blocks.html「5」徐丽,康瑞华。生物信息学中的多序列比对算法.中国水运(理论版).2006,4(6):118-119。「6」孟翔燕,孟军,葛家麟。一种基于亲疏水性的替代矩阵.数学的实验与生疏.2009,39(7):105—112.「7」Roque—AfonsoAM,FereyMP,LyTD.ViralandclinicalfactorsassociatedwithsurfacegenevariantsamonghepatitisBviruscarriers.AntivirTher。2007,12(8):1255-1263「8」基于进化信息改进蛋白质定点突变稳定性推测精准率,刘建国,刘建荣,刘明,闫蓬勃.生物物理学报。2009,25(5)。「9」NielsenM,LundegaardC,WorningP,etal.ReliablepredictionofT—cellepitopesusingneturalnetworksnovelsequencerepresentations.ProteinSci.2003,12:1007-1017。「10」LouYang,YaoJianhui,ZereshkiA,etal.NEK2AinteractswithMAD1andpossiblyfunctionsasanovelintegratorofthespindlecheckpointsignaling[J]。JBiolChem.2004,279:20049—20057.「11」MeijerAJ,DubbelhuisPF.Aminoacidsignallingandtheintegrationofmetabolism[J].BiochemBiophysResCommun.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论