




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、生物信息学培训班生物信息学培训班结构生物信息学结构生物信息学蛋白质二级结构预测蛋白质二级结构预测生物信息学培训班生物信息学培训班Outline背景简介蛋白质二级结构预测算法蛋白质二级结构常用软件生物信息学培训班生物信息学培训班蛋白质二级结构预测蛋白质蛋白质 序列:序列: 二级结构:二级结构:QLMGERIRARRKKLK STHHHHHHHHHHHHT 由蛋白质二级结构统计分析得到的规则可用于全新蛋白质设计或蛋白质突变体的设计; 当序列同源性较低时,二级结构的指认有助于确定蛋白质间结构与功能的关系; 同源蛋白质模建中,二级结构预测有助于建立正确的序列比对关系; 基于二级结构片段堆积的三级结构预
2、测中正确的二级结构预测是第一步;背景简介生物信息学培训班生物信息学培训班蛋白质二级结构预测蛋白质二级结构预测的基本依据是:每一段相邻的氨基酸残基具有形成一定二级结构的每一段相邻的氨基酸残基具有形成一定二级结构的倾向。倾向。二级结构预测问题:模式分类和识别问题模式分类和识别问题二级结构预测的目标:l判断每一段中心的残基是否处于螺旋、折叠、转角(或其它状态)之一的二级结构态。l蛋白质中约85%的氨基酸残基处于三种基本二级结构状态背景简介生物信息学培训班生物信息学培训班蛋白质二级结构预测蛋白质二级结构预测的基本策略:背景简介相似序列 相似结构QLMGERIRARRKKLKQLMGAERIRARRKK
3、LK生物信息学培训班生物信息学培训班蛋白质二级结构预测蛋白质二级结构预测的基本策略:背景简介模式分类螺旋提取样本提取样本聚类分析聚类分析学习分类规则学习分类规则预测预测.-Gly-Ala-Glu-Phe-.生物信息学培训班生物信息学培训班蛋白质二级结构预测基本方法第一代是基于单个氨基酸残基统计分析l从有限的数据集中提取各种残基形成特定二级结构的倾向,以此作为二级结构预测的依据。第二代预测方法是基于氨基酸片段的统计分析l统计的对象是氨基酸片段l片段的长度通常为11-21l片段体现了中心残基所处的环境l在预测中心残基的二级结构时,以残基在特定环境形成特定二级结构的倾向作为预测依据背景简介生物信息学
4、培训班生物信息学培训班蛋白质二级结构预测基本方法第一/二代算法可以归为几类 (1)基于统计信息 (2)基于物理化学性质 (3)基于序列模式 (4)基于多层神经网络 (5)基于多元统计 (6)基于机器学习的专家规则 (7)最邻近算法背景简介生物信息学培训班生物信息学培训班蛋白质二级结构预测基本方法第三代是基于同源进化信息和长程信息l通过序列比对可以得到蛋白质序列的进化信息,得到蛋白质家族中的特定残基替换模式;l通过序列的比对也可以得到长程信息l使二级结构预测的准确程度有了比较大的提高,特别是对折叠的预测准确率有较大的提高,预测结果与实验观察趋于一致。背景简介生物信息学培训班生物信息学培训班Out
5、line背景简介蛋白质二级结构预测算法蛋白质二级结构常用软件生物信息学培训班生物信息学培训班二级结构预测方法 - 经验参数法经验参数法基本依据:l蛋白质二级结构的组成规律性比较强l三种基本二级结构平均占氨基酸残基的85%l某些蛋白质二级结构构成有倾向性u有些蛋白质中含有大量的螺旋 (如血红蛋白和肌红蛋白)u有些蛋白质的二级结构以折叠为主(免疫球蛋白)l每种氨基酸出现在各种二级结构中倾向或者频率是不同的uGlu主要出现在螺旋中uAsp和Gly主要分布在转角中uPro也常出现在转角中,但是绝不会出现在螺旋中预测算法生物信息学培训班生物信息学培训班二级结构预测方法 - 经验参数法经验参数法:l由Ch
6、ou 和Fasman在70年代提出来l是一种基于单个氨基酸残基统计的经验预测方法。通过统计分析,获得的每个残基出现于特定二级结构构象的倾向性因子,进而利用这些倾向性因子预测蛋白质的二级结构预测算法生物信息学培训班生物信息学培训班二级结构预测方法 - 经验参数法经验参数法:l倾向性因子:倾向性因子:一个氨基酸残基的构象倾向性因子定义为预测算法/ (, , )iiiPA Tic t - 螺旋-折叠;c -转角;t - 无规卷曲所有被统计残基处于构象态i的比例残基A处于构象态i 的比例大于1.0表示该残基倾向于形成二级结构构象i生物信息学培训班生物信息学培训班二级结构预测方法 - 经验参数法预测算法
7、生物信息学培训班生物信息学培训班二级结构预测方法 - 经验参数法经验参数法:l基本思想是在序列中寻找规则二级结构的成核位点和终止位点l扫描输入的氨基酸序列,利用一组规则发现可能成为特定二级结构成核区域的短序列,然后对于成核区域进行扩展,不断扩大成核区域,直到倾向性因子小于1.0为止l规则:u螺旋规则 u折叠规则 u转角规则 u重叠规则预测算法延伸 成核区 延伸生物信息学培训班生物信息学培训班二级结构预测方法 - 经验参数法经验参数法 - 螺旋规则:l沿蛋白质序列寻找螺旋核u相邻的6个残基中如果有至少4个残基倾向于形成螺旋,则认为是螺旋核。l从螺旋核向两端延伸u直至四肽片段的螺旋倾向性因子的平均
8、值P1.03,则预测为螺旋。 预测算法延伸 成核区 延伸生物信息学培训班生物信息学培训班二级结构预测方法 - 经验参数法经验参数法 折叠规则:l沿蛋白质序列寻找折叠核u相邻的6个残基中如果有至少4个残基倾向于形成折叠,则认为是折叠核。l从螺旋核向两端延伸u直至四肽片段的螺旋倾向性因子的平均值P1.05,则预测为折叠预测算法延伸 成核区 延伸生物信息学培训班生物信息学培训班二级结构预测方法 - 经验参数法经验参数法 转角规则:l转角的模型为四肽u四肽片段Pt的平均值大于100uPt的均值同时大于P 的均值以及P 的均值l则可以预测这样连续的4个氨基酸形成转角预测算法54321105 . 7jjj
9、jffff生物信息学培训班生物信息学培训班二级结构预测方法 - 经验参数法经验参数法 重叠规则:l对于螺旋和折叠的重叠区域,按P 和P 的相对大小进行预测l若P 大于P ,则预测为螺旋;l反之,预测为折叠。预测算法生物信息学培训班生物信息学培训班二级结构预测方法 - GOR算法是一种基于信息论和贝叶斯统计学的方法;GOR将蛋白质序列当作一连串的信息值来处理;GOR方法不仅考虑被预测位置本身氨基酸残基种类的影响,而且考虑相邻残基种类对该位置构象的影响。 预测算法序列窗口 中心残基窗口中各个残基对中心残基二级结构的支持程度生物信息学培训班生物信息学培训班二级结构预测方法 - GOR算法定义信息为:
10、lP(S|R):两个事件S和R的条件概率,即在R发生的条件下,S发生的概率l若S和R无关,则 I(S; R)=0l若R的发生有利于S的发生,则I(S; R)0l若R的发生不利于S的发生,则I(S; R)0 I(S; R)在二级结构预测中的含义lR代表中心氨基酸及其所处环境lS代表二级结构类型lI(S; R)代表中心氨基酸处于S的信息值预测算法)(/ )|(log);(SPRSPRSI生物信息学培训班生物信息学培训班二级结构预测方法 - GOR算法例子:l假定数据库中有1830个残基, 780个处于螺旋态,1050个处于非螺旋态;l库中共有390个丙氨酸(A),有240个A处于螺旋态,其余150
11、个 A 处于非螺旋态。预测算法390/150390/2401830/10501830/780, ,AHAHHHffff,(; )log(/log(/) log(240/390)/(150/390) + log(1050/1830)/(780/1830) 0.7650H AH AHHIH Affff)生物信息学培训班生物信息学培训班二级结构预测方法 立体化学方法立体化学方法,基于氨基酸疏水性的预测方法:l氨基酸的理化性质对二级结构影响较大l在进行结构预测时考虑氨基酸残基的物理化学性质,如疏水性、极性、侧链基团的大小等;l根据残基各方面的性质及残基之间的组合预测可能形成的二级结构。lLim等人对螺
12、旋和折叠归纳出了一套预测模式:l螺旋的轮状结构特征,轮的一侧通常处于蛋白质的疏水核心,另一侧则常处于亲水表面。l螺旋中亲疏水氨基酸残基的出现位置也就有一定的规律性,亲水残基多出现在亲水侧面,而疏水残基则多出现在疏水侧面,反映在序列上就是一些特征的亲疏水残基间隔模式预测算法生物信息学培训班生物信息学培训班二级结构预测方法 立体化学方法立体化学方法 - Lim方法:l螺旋的形成规律:u在一段序列中发现第i、i+3、i+4位(如1、4、5)是疏水残基时,这一片段就被预测为螺旋;u当发现第i、i+1、i+4位(如7,8,11)为疏水残基时,这一片段也被预测为螺旋。l折叠的形成规律:u埋藏的折叠通常由连
13、续的疏水残基组成,一侧暴露的折叠则通常具有亲水-疏水的两残基重复模式l原则上,通过在序列中搜寻特殊的亲疏水残基间隔模式,就可以预测螺旋和折叠预测算法生物信息学培训班生物信息学培训班二级结构预测方法 立体化学方法立体化学方法 -点模式方法:l将20种氨基酸残基分为亲水、疏水以及两性残基三类;l用八残基片段表征亲疏水间隔模式;l一个二进制位代表一个残基,疏水为1,亲水为0,共8位;l八残基片段的亲疏水模式可用0255的数值来表示l螺旋的特征模式对应的值为: 9,12,13,17,201,205,217,219,237l折叠的特征模式: 由连续的1或交替的01构成预测算法生物信息学培训班生物信息学培
14、训班二级结构预测方法 立体化学方法立体化学方法 滑动窗口法:l直接计算序列片段的疏水性和疏水矩,并根据定量计算结果预测该片段对应的二级结构;预测算法生物信息学培训班生物信息学培训班二级结构预测方法 同源分析法将待预测的片段与数据库中已知二级结构的片段进行相似性比较,利用打分矩阵计算出相似性得分,根据相似性得分以及数据库中的构象态,构建出待预测片段的二级结构该方法对数据库中同源序列的存在非常敏感,若数据库中有相似性大于30%的序列,则预测准确率可大大上升预测算法生物信息学培训班生物信息学培训班二级结构预测方法 同源分析法预测算法假设已知二级结构的氨基酸片段假设已知二级结构的氨基酸片段T=STNG
15、IYWT的二级结构为的二级结构为CHHHHHT H代表代表 螺旋,螺旋, T代表转角,代表转角, C代表无规卷曲代表无规卷曲待预测二级结构的氨基酸片段待预测二级结构的氨基酸片段U=ATSGVFL序列比对:序列比对:T = S T N G I Y WU = A T S G V F L直接将直接将T的构象态赋予的构象态赋予U 生物信息学培训班生物信息学培训班二级结构预测方法 同源分析法更为合理的方法:l是将待预测二级结构的蛋白质U与多个同源序列进行多重比对,对于U的每个残基位置,其构象态由多个同源序列对应位置的构象态决定,或取出现次数最多的构象态,或对各种可能的构象态给出得分值。预测算法生物信息学
16、培训班生物信息学培训班二级结构预测方法 神经网络法人工神经网络是一种复杂的信息处理模型,将蛋白质序列看作是由各种氨基酸字符组成的字符序列,将氨基酸残基片段作为输入的一串语言字符,二级结构即为对应的输出。神经网络可以有效地学习蛋白质二级结构形成的复杂规律或模式,提取更多的信息,并利用所掌握的信息进行预测。利用神经网络方法可以提高二级结构预测准确率。预测算法生物信息学培训班生物信息学培训班二级结构预测方法 神经网络法二级结构预测的人工神经网络模型预测算法l输入层用于接收蛋白质窗口序列数据u沿蛋白质的氨基酸序列依次取一定大小的窗口,将窗口内的序列片段进行编码l输出层有3个神经元,分别对应于窗口中心残
17、基的H、E、C三态生物信息学培训班生物信息学培训班二级结构预测方法 神经网络法二级结构预测的人工神经网络模型预测算法生物信息学培训班生物信息学培训班二级结构预测方法 综合方法综合方法不仅包括各种预测方法的综合,而且也包括结构实验结果、序列对比结果、蛋白质结构分类预测结果等信息的综合。l多个程序同时预测,综合评判一致结果l序列比对与二级结构预测l双重预测u首先预测蛋白质的结构类型u然后再预测二级结构预测算法生物信息学培训班生物信息学培训班二级结构预测方法 进化信息最早认为:二级结构主要是由局部氨基酸所决定蛋白质序列家族中氨基酸的替换模式是高度特异的,如何利用这样的进化信息是二级结构预测的关键蛋白
18、质二级结构预测软件系统PHDl形成同源序列的多重对比排列l将多重比对的统计结果送到一个神经网络中计算预测算法生物信息学培训班生物信息学培训班二级结构预测方法 进化信息蛋白质二级结构预测软件系统PHD预测算法整个网络模型包括两个层次:l第一层网络进行序列到结构的映射l第二层网络是一个结构到结构的映射,作用是对前一层网络的输出进行校正生物信息学培训班生物信息学培训班二级结构预测方法 进化信息蛋白质二级结构预测软件系统PHD预测算法第一层网络的输入包括两个部分:l序列的局部信息,取自窗口内w个氨基酸残基l整个序列的全局信息生物信息学培训班生物信息学培训班二级结构预测方法 进化信息蛋白质二级结构预测软
19、件系统PHD预测算法l取多重序列比对的w列,计算序列局部统计数据以及序列全局数据。l局部数据有24个( 20种氨基酸,”空缺”,插入,删除,保守程度);l全局数据有32个生物信息学培训班生物信息学培训班二级结构预测方法 进化信息蛋白质二级结构预测软件系统PHD预测算法l第一层网络输出:窗口中心残基二级结构的状态,螺旋(H),折叠(E),其它(L)。l第二层网络输入:第一层网络的输出,全局信息以及局部的保守信息生物信息学培训班生物信息学培训班二级结构预测方法 进化信息蛋白质二级结构预测软件系统PHD预测算法l序列多重比对的统计结果,反映了蛋白质家族的共同特征l提取的结构保守的信息。反映了在进化过
20、程中,哪些部分的结构容易发生变化,哪些部分对蛋白质的功能非常重要l多重序列比对所携带的进化信息暗示了蛋白质中长程相互作用生物信息学培训班生物信息学培训班Outline背景简介蛋白质二级结构预测算法蛋白质二级结构常用软件生物信息学培训班生物信息学培训班蛋白质二级结构预测软件介绍常用软件常用软件PredictProtein/Jpredhttp:/pbio.dundee.ac.uk/www-jpred/index.htmlPSIPREDhttp:/bioinf.cs.ucl.ac.uk/psipred/PREDATORhttp:/ PredictPro
21、tein 提供的功能提供的功能常用软件l数据库搜索:u多序列一致性分析(MaxHom)u功能性模体分析(ProSite)u区段复杂性分析(SEG)u蛋白质结构域分析(PRODOM)u基于预测线程的折叠结构识别(AGAPE)l预测内容:u二级结构(PHDsec,PROFsec)u残基可溶性(PHDacc,PROFacc)u跨膜螺旋区及拓扑学PHDhtmPHDtopologyu球状蛋白(GLOBE)u卷曲螺旋(COILS)u二硫键(CYSPRED)u结构转换(ASP)生物信息学培训班生物信息学培训班蛋白质二级结构预测软件介绍PredictProtein PredictProtein 的总流程的总流
22、程常用软件生物信息学培训班生物信息学培训班蛋白质二级结构预测软件介绍PredictProtein PredictProtein 的序列分析流程的序列分析流程常用软件生物信息学培训班生物信息学培训班PredictProteinPredictProtein实例实例常用软件输入预测的蛋白质序列生物信息学培训班生物信息学培训班PredictProteinPredictProtein实例实例常用软件生物信息学培训班生物信息学培训班PredictProteinPredictProtein实例实例常用软件蛋白质序列点击预测生物信息学培训班生物信息学培训班PredictProteinPredictProtei
23、n实例实例常用软件生物信息学培训班生物信息学培训班PredictProteinPredictProtein实例实例常用软件生物信息学培训班生物信息学培训班PredictProteinPredictProtein实例实例常用软件PROFsec :二级结构PROFacc:残基可溶性ASP:结构转换PHDhtm:跨膜螺旋区ISIS:相互作用位点生物信息学培训班生物信息学培训班PredictProteinPredictProtein实例实例常用软件PROFsec :二级结构PROFacc:残基可溶性ASP:结构转换PHDhtm:跨膜螺旋区ISIS:相互作用位点生物信息学培训班生物信息学培训班二级结构预
24、测软件二级结构预测软件 - Jpred- Jpred常用软件JpredJpred:http:/pbio.dundee.ac.uk/www-jpred/index.htmll一种互动式的蛋白质二级结构网络预测服务器。它允许提交单一序列或者同一家族的多重序列,利用序列的进化信息通过六种二级结构预测算法(DSC、 PHD、 NNSSP、PREDATOR、ZPRED、 MULPRED )给出结果。它的最终结果是基于六种结果的一致性的基础上的。生物信息学培训班生物信息学培训班二级结构预测软件二级结构预测软件 - PSIpred- PSIpred常用软件PSIpredPSIpred: http:/bioi
25、nf.cs.ucl.ac.uk/psipred/l英国Barton实验室开发的基于神经网络算法的蛋白质二级结构预测软件,有效率可达73%。PSIpred是英国David.T.Jones实验室开发的基于神经网络算法的蛋白质二级结构预测软件。它可以在分析PSI-BLAST计算结果基础上进行结构预测,有效率可达78% 。生物信息学培训班生物信息学培训班二级结构预测软件二级结构预测软件 - PSIpred- PSIpred常用软件PSIpredPSIpred: http:/bioinf.cs.ucl.ac.uk/psipred/生物信息学培训班生物信息学培训班二级结构预测软件二级结构预测软件 SOPM
26、A常用软件SOPMA: SOPMA: http:/pbil.ibcp.fr/htm/index.php?page=pbil_ibcp_ Webservers.htmll法国里昂的CNRS(Centre National dela Recherche Scientifique)使用独特的方法进行蛋白质二级结构预测。l使用5种相互独立的方法进行预测,并将结果汇集整理成一个“一致预测结果”。这5种方法包括:GOR、同源预测、双重预测、PHD和SOPMA方法。lSOPMA这种自优化的预测方法建立了已知二级结构序列的次级数据库,库中的每个蛋白质都经过基于相似性的二级结构预测。然后用次级库中得到的信息去对
27、查询序列进行二级结构预测生物信息学培训班生物信息学培训班二级结构预测软件二级结构预测软件 SOPMA常用软件SOPMA: SOPMA: http:/pbil.ibcp.fr/htm/index.php?page=pbil_ibcp_ Webservers.html生物信息学培训班生物信息学培训班二级结构预测软件二级结构预测软件 COILS常用软件COILS :/software/COILS_form.htmll卷曲螺旋预测方法,将序列与已知的平行双链卷曲螺旋数据库进行比较,得到相似性得分,并据此算出序列形成卷曲螺旋的概率。lCOILS算法将查询序列在一个由已知包含卷曲螺旋蛋白结构的数据库中进行搜索。l程序也将查询序列与包含球状蛋白序列的PDB次
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 诗词鉴赏课件
- 2025版合同权益转让协议书范本
- 童话寓言作文打猎500字(11篇)
- 工业生产材料采购管理系统开发协议
- 民政兜底脱贫培训课件
- 2025年教育扶贫背景下教育资源整合的社会稳定风险评估报告
- 工业污染场地修复技术选择与2025年投资风险及效益评估报告
- 即时配送行业2025年配送路径优化与成本控制市场动态报告
- 红楼春趣课件教学
- 2025年助理社会工作师考试(社会工作实务初级)测试题及答案(广东省)
- 全过程工程咨询管理服务方案
- 四川大学宣传介绍PPT
- 小学生元宵中秋猜谜语竞赛题目
- 《商业银行资本管理办法》附件13-账簿划分和名词解释
- 燃气轮机离心式压缩机组运行操作手册教学教材
- GB 7956.2-2014消防车第2部分:水罐消防车
- FZ/T 21001-2009自梳外毛毛条
- 二年级语文《称赞》练习题
- 2023年重庆市社区工作者考试试题
- 三字经全文带拼音打印版带翻译
- 山东省青岛市各县区乡镇行政村村庄村名居民村民委员会明细及行政区划代码
评论
0/150
提交评论