结构生物信息学二级结构预测PPT课件_第1页
结构生物信息学二级结构预测PPT课件_第2页
结构生物信息学二级结构预测PPT课件_第3页
结构生物信息学二级结构预测PPT课件_第4页
结构生物信息学二级结构预测PPT课件_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

结构生物信息学蛋白质二级结构预测,张法中国科学院计算技术研究所2013-3-31,Outline,背景简介蛋白质二级结构预测算法蛋白质二级结构常用软件,蛋白质二级结构预测,蛋白质序列:二级结构:QLMGERIRARRKKLKSTHHHHHHHHHHHHT,由蛋白质二级结构统计分析得到的规则可用于全新蛋白质设计或蛋白质突变体的设计;当序列同源性较低时,二级结构的指认有助于确定蛋白质间结构与功能的关系;同源蛋白质模建中,二级结构预测有助于建立正确的序列比对关系;基于二级结构片段堆积的三级结构预测中正确的二级结构预测是第一步;,背景简介,蛋白质二级结构预测,蛋白质二级结构预测的基本依据是:每一段相邻的氨基酸残基具有形成一定二级结构的倾向。二级结构预测问题:模式分类和识别问题二级结构预测的目标:判断每一段中心的残基是否处于螺旋、折叠、转角(或其它状态)之一的二级结构态。蛋白质中约85%的氨基酸残基处于三种基本二级结构状态,背景简介,蛋白质二级结构预测,蛋白质二级结构预测的基本策略:,背景简介,相似序列相似结构,QLMGERIRARRKKLK,QLMGAERIRARRKKLK,蛋白质二级结构预测,蛋白质二级结构预测的基本策略:,背景简介,模式分类,螺旋,提取样本,聚类分析,学习分类规则,预测.-Gly-Ala-Glu-Phe-.,蛋白质二级结构预测基本方法,第一代是基于单个氨基酸残基统计分析从有限的数据集中提取各种残基形成特定二级结构的倾向,以此作为二级结构预测的依据。第二代预测方法是基于氨基酸片段的统计分析统计的对象是氨基酸片段片段的长度通常为11-21片段体现了中心残基所处的环境在预测中心残基的二级结构时,以残基在特定环境形成特定二级结构的倾向作为预测依据,背景简介,蛋白质二级结构预测基本方法,第一/二代算法可以归为几类(1)基于统计信息(2)基于物理化学性质(3)基于序列模式(4)基于多层神经网络(5)基于多元统计(6)基于机器学习的专家规则(7)最邻近算法,背景简介,蛋白质二级结构预测基本方法,第三代是基于同源进化信息和长程信息通过序列比对可以得到蛋白质序列的进化信息,得到蛋白质家族中的特定残基替换模式;通过序列的比对也可以得到长程信息使二级结构预测的准确程度有了比较大的提高,特别是对折叠的预测准确率有较大的提高,预测结果与实验观察趋于一致。,背景简介,Outline,背景简介蛋白质二级结构预测算法蛋白质二级结构常用软件,二级结构预测方法-经验参数法,经验参数法基本依据:蛋白质二级结构的组成规律性比较强三种基本二级结构平均占氨基酸残基的85%某些蛋白质二级结构构成有倾向性有些蛋白质中含有大量的螺旋(如血红蛋白和肌红蛋白)有些蛋白质的二级结构以折叠为主(免疫球蛋白)每种氨基酸出现在各种二级结构中倾向或者频率是不同的Glu主要出现在螺旋中Asp和Gly主要分布在转角中Pro也常出现在转角中,但是绝不会出现在螺旋中,预测算法,二级结构预测方法-经验参数法,经验参数法:由Chou和Fasman在70年代提出来是一种基于单个氨基酸残基统计的经验预测方法。通过统计分析,获得的每个残基出现于特定二级结构构象的倾向性因子,进而利用这些倾向性因子预测蛋白质的二级结构,预测算法,二级结构预测方法-经验参数法,经验参数法:倾向性因子:一个氨基酸残基的构象倾向性因子定义为,预测算法,-螺旋-折叠;c-转角;t-无规卷曲,所有被统计残基处于构象态i的比例,残基A处于构象态i的比例,大于1.0表示该残基倾向于形成二级结构构象i,二级结构预测方法-经验参数法,预测算法,二级结构预测方法-经验参数法,经验参数法:基本思想是在序列中寻找规则二级结构的成核位点和终止位点扫描输入的氨基酸序列,利用一组规则发现可能成为特定二级结构成核区域的短序列,然后对于成核区域进行扩展,不断扩大成核区域,直到倾向性因子小于1.0为止规则:螺旋规则折叠规则转角规则重叠规则,预测算法,延伸成核区延伸,二级结构预测方法-经验参数法,经验参数法-螺旋规则:沿蛋白质序列寻找螺旋核相邻的6个残基中如果有至少4个残基倾向于形成螺旋,则认为是螺旋核。从螺旋核向两端延伸直至四肽片段的螺旋倾向性因子的平均值P1.03,则预测为螺旋。,预测算法,延伸成核区延伸,二级结构预测方法-经验参数法,经验参数法折叠规则:沿蛋白质序列寻找折叠核相邻的6个残基中如果有至少4个残基倾向于形成折叠,则认为是折叠核。从螺旋核向两端延伸直至四肽片段的螺旋倾向性因子的平均值P1.05,则预测为折叠,预测算法,延伸成核区延伸,二级结构预测方法-经验参数法,经验参数法转角规则:转角的模型为四肽四肽片段Pt的平均值大于100Pt的均值同时大于P的均值以及P的均值则可以预测这样连续的4个氨基酸形成转角,预测算法,二级结构预测方法-经验参数法,经验参数法重叠规则:对于螺旋和折叠的重叠区域,按P和P的相对大小进行预测若P大于P,则预测为螺旋;反之,预测为折叠。,预测算法,二级结构预测方法-GOR算法,是一种基于信息论和贝叶斯统计学的方法;GOR将蛋白质序列当作一连串的信息值来处理;GOR方法不仅考虑被预测位置本身氨基酸残基种类的影响,而且考虑相邻残基种类对该位置构象的影响。,预测算法,序列窗口中心残基,窗口中各个残基对中心残基二级结构的支持程度,二级结构预测方法-GOR算法,定义信息为:P(S|R):两个事件S和R的条件概率,即在R发生的条件下,S发生的概率若S和R无关,则I(S;R)=0若R的发生有利于S的发生,则I(S;R)0若R的发生不利于S的发生,则I(S;R)0I(S;R)在二级结构预测中的含义R代表中心氨基酸及其所处环境S代表二级结构类型I(S;R)代表中心氨基酸处于S的信息值,预测算法,二级结构预测方法-GOR算法,例子:假定数据库中有1830个残基,780个处于螺旋态,1050个处于非螺旋态;库中共有390个丙氨酸(A),有240个A处于螺旋态,其余150个A处于非螺旋态。,预测算法,二级结构预测方法立体化学方法,立体化学方法,基于氨基酸疏水性的预测方法:氨基酸的理化性质对二级结构影响较大在进行结构预测时考虑氨基酸残基的物理化学性质,如疏水性、极性、侧链基团的大小等;根据残基各方面的性质及残基之间的组合预测可能形成的二级结构。Lim等人对螺旋和折叠归纳出了一套预测模式:螺旋的轮状结构特征,轮的一侧通常处于蛋白质的疏水核心,另一侧则常处于亲水表面。螺旋中亲疏水氨基酸残基的出现位置也就有一定的规律性,亲水残基多出现在亲水侧面,而疏水残基则多出现在疏水侧面,反映在序列上就是一些特征的亲疏水残基间隔模式,预测算法,二级结构预测方法立体化学方法,立体化学方法-Lim方法:螺旋的形成规律:在一段序列中发现第i、i+3、i+4位(如1、4、5)是疏水残基时,这一片段就被预测为螺旋;当发现第i、i+1、i+4位(如7,8,11)为疏水残基时,这一片段也被预测为螺旋。折叠的形成规律:埋藏的折叠通常由连续的疏水残基组成,一侧暴露的折叠则通常具有亲水-疏水的两残基重复模式原则上,通过在序列中搜寻特殊的亲疏水残基间隔模式,就可以预测螺旋和折叠,预测算法,二级结构预测方法立体化学方法,立体化学方法-点模式方法:将20种氨基酸残基分为亲水、疏水以及两性残基三类;用八残基片段表征亲疏水间隔模式;一个二进制位代表一个残基,疏水为1,亲水为0,共8位;八残基片段的亲疏水模式可用0255的数值来表示螺旋的特征模式对应的值为:9,12,13,17,201,205,217,219,237折叠的特征模式:由连续的1或交替的01构成,预测算法,二级结构预测方法立体化学方法,立体化学方法滑动窗口法:直接计算序列片段的疏水性和疏水矩,并根据定量计算结果预测该片段对应的二级结构;,预测算法,二级结构预测方法同源分析法,将待预测的片段与数据库中已知二级结构的片段进行相似性比较,利用打分矩阵计算出相似性得分,根据相似性得分以及数据库中的构象态,构建出待预测片段的二级结构该方法对数据库中同源序列的存在非常敏感,若数据库中有相似性大于30%的序列,则预测准确率可大大上升,预测算法,二级结构预测方法同源分析法,预测算法,假设已知二级结构的氨基酸片段T=STNGIYWT的二级结构为CHHHHHTH代表螺旋,T代表转角,C代表无规卷曲,待预测二级结构的氨基酸片段U=ATSGVFL,序列比对:T=STNGIYWU=ATSGVFL直接将T的构象态赋予U,二级结构预测方法同源分析法,更为合理的方法:是将待预测二级结构的蛋白质U与多个同源序列进行多重比对,对于U的每个残基位置,其构象态由多个同源序列对应位置的构象态决定,或取出现次数最多的构象态,或对各种可能的构象态给出得分值。,预测算法,二级结构预测方法神经网络法,人工神经网络是一种复杂的信息处理模型,将蛋白质序列看作是由各种氨基酸字符组成的字符序列,将氨基酸残基片段作为输入的一串语言字符,二级结构即为对应的输出。神经网络可以有效地学习蛋白质二级结构形成的复杂规律或模式,提取更多的信息,并利用所掌握的信息进行预测。利用神经网络方法可以提高二级结构预测准确率。,预测算法,二级结构预测方法神经网络法,二级结构预测的人工神经网络模型,预测算法,输入层用于接收蛋白质窗口序列数据沿蛋白质的氨基酸序列依次取一定大小的窗口,将窗口内的序列片段进行编码输出层有3个神经元,分别对应于窗口中心残基的H、E、C三态,二级结构预测方法神经网络法,二级结构预测的人工神经网络模型,预测算法,二级结构预测方法综合方法,综合方法不仅包括各种预测方法的综合,而且也包括结构实验结果、序列对比结果、蛋白质结构分类预测结果等信息的综合。多个程序同时预测,综合评判一致结果序列比对与二级结构预测双重预测首先预测蛋白质的结构类型然后再预测二级结构,预测算法,二级结构预测方法进化信息,最早认为:二级结构主要是由局部氨基酸所决定蛋白质序列家族中氨基酸的替换模式是高度特异的,如何利用这样的进化信息是二级结构预测的关键蛋白质二级结构预测软件系统PHD形成同源序列的多重对比排列将多重比对的统计结果送到一个神经网络中计算,预测算法,二级结构预测方法进化信息,蛋白质二级结构预测软件系统PHD,预测算法,整个网络模型包括两个层次:第一层网络进行序列到结构的映射第二层网络是一个结构到结构的映射,作用是对前一层网络的输出进行校正,二级结构预测方法进化信息,蛋白质二级结构预测软件系统PHD,预测算法,第一层网络的输入包括两个部分:序列的局部信息,取自窗口内w个氨基酸残基整个序列的全局信息,二级结构预测方法进化信息,蛋白质二级结构预测软件系统PHD,预测算法,取多重序列比对的w列,计算序列局部统计数据以及序列全局数据。局部数据有24个(20种氨基酸,”空缺”,插入,删除,保守程度);全局数据有32个,二级结构预测方法进化信息,蛋白质二级结构预测软件系统PHD,预测算法,第一层网络输出:窗口中心残基二级结构的状态,螺旋(H),折叠(E),其它(L)。第二层网络输入:第一层网络的输出,全局信息以及局部的保守信息,二级结构预测方法进化信息,蛋白质二级结构预测软件系统PHD,预测算法,序列多重比对的统计结果,反映了蛋白质家族的共同特征提取的结构保守的信息。反映了在进化过程中,哪些部分的结构容易发生变化,哪些部分对蛋白质的功能非常重要多重序列比对所携带的进化信息暗示了蛋白质中长程相互作用,Outline,背景简介蛋白质二级结构预测算法蛋白质二级结构常用软件,蛋白质二级结构预测软件介绍,常用软件,常用软件,蛋白质二级结构预测软件介绍,PredictProtein简介,常用软件,首先,蛋白质序列被作为查询序列在SWISS-PROT库中搜索相似的序列。当相似的序列被找到后,一个名为MaxHom的算法被用来进行一次基于特征简图的多序列比对。MaxHom用迭代的方法来构造比对:当第一次搜索SWISS-PROT后,所有找到的序列与查询序列进行比对,并构造出一个比对后的特征简图。然后,这个简图又被用来在SWISS-PROT中搜索新的相似序列。由MaxHom产生的多序列比对随后被置入一个神经网络,用PHD的方法进行预测。,蛋白质二级结构预测软件介绍,PredictProtein提供的功能,常用软件,数据库搜索:多序列一致性分析(MaxHom)功能性模体分析(ProSite)区段复杂性分析(SEG)蛋白质结构域分析(PRODOM)基于预测线程的折叠结构识别(AGAPE),预测内容:二级结构(PHDsec,PROFsec)残基可溶性(PHDacc,PROFacc)跨膜螺旋区及拓扑学PHDhtmPHDtopology球状蛋白(GLOBE)卷曲螺旋(COILS)二硫键(CYSPRED)结构转换(ASP),蛋白质二级结构预测软件介绍,PredictProtein的总流程,常用软件,蛋白质二级结构预测软件介绍,PredictProtein的序列分析流程,常用软件,PredictProtein实例,常用软件,输入预测的蛋白质序列,PredictProtein实例,常用软件,PredictProtein实例,常用软件,蛋白质序列,点击预测,PredictProtein实例,常用软件,PredictProtein实例,常用软件,PredictProtein实例,常用软件,PROFsec:二级结构PROFacc:残基可溶性ASP:结构转换PHDhtm:跨膜螺旋区ISIS:相互作用位点,PredictProtein实例,常用软件,PROFsec:二级结构PROFacc:残基可溶性ASP:结构转换PHDhtm:跨膜螺旋区ISIS:相互作用位点,二级结构预测软件-Jpred,常用软件,Jpred:pbio.dundee.ac.uk/www-jpred/index.html,一种互动式的蛋白质二级结构网络预测服务器。它允许提交单一序列或者同一家族的多重序列,利用序列的进化信息通过六种二级结构预测算法(DSC、PHD、NNSSP、PREDATOR、ZPRED、MULPRED)给出结果。它的最终结果是基于六种结果的一致性的基础上的。,二级结构预测软件-PSIpred,常用软件,PSIpred:http:/bioinf.cs.ucl.ac.uk/psipred/,英国Barton实验室开发的基于神经网络算法的蛋白质二级结构预测软件,有效率可达73%。PSIpred是英国David.T.Jones实验室开发的基于神经网络算法的蛋白质二级结构预测软件。它可以在分析PSI-BLAST计算结果基础上进行结构预测,有效率可达78%。,二级结构预测软件-PSIpred,常用软件,PSIpred:http:/bioinf.cs.ucl.ac.uk/psipred/,二级结构预测软件SOPMA,常用软件,SOPMA:http:/pbil.ibcp.fr/htm/index.php?page=pbil_ibcp_Webservers.html,法国里昂的CNRS(CentreNationaldelaRechercheScientifique)使用独特的方法进行蛋白质二级结构预测。使用5种相互独立的方法进行预测,并将结果汇集整理成一个“一致预测结果”。这5种方法包括:GOR、同源预测、双重预测、PHD和SOPMA方法。SOPMA这种自优化的预测方法建立了已知二级结构序列的次级数据库,库中的每个蛋白质都经过基于相似性的二级结构预测。然后用次级库中得到的信息去对查询序列进行二级结构预测,二级结构预测软件SOPMA,常用软件,SOPMA:http:/pbil.ibcp.fr/htm/index.php?page=pbil_ibcp_Webservers.html,二级结构预测软件COILS,常用软件,COILS:/software/COILS_form.html,卷曲螺旋预测方法,将序列与已知的平行双链卷曲螺旋数据库进行比较,得到相似性得分,并据此算出序列形成卷曲螺旋的概率。COILS算法将查询序列在一个由已知包含卷曲螺旋蛋白结构的数据库中进行搜索。程序也将查询序列与包含球状蛋白序列的PDB次级库进行比较,并根据两个库搜索得分的不同决定输入序列

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论