药物分子设计第九讲_第1页
药物分子设计第九讲_第2页
药物分子设计第九讲_第3页
药物分子设计第九讲_第4页
药物分子设计第九讲_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1,蛋白质结构预测(一),Protein Structure Prediction (I),2,Protein Structure Prediction,From Sequence to Native Structure,3,Protein Structure Prediction,PSI-BLAST,4,Protein Structure Prediction,5,Multiple Sequence Alignment,Tools ClustalW Multiple sequence alignments reveal: conservation of individual residues

2、 conservation of regions differences within protein families,6,Tools HMMer Profile For each position along the sequence, tabulate how often each type of amino acid occur (include . for gap) The profile is always of size Nx21, no matter how many sequences are considered,7,Protein Structure Prediction

3、,8,Secondary Structure Prediction,Given a protein sequence a1a2aN, secondary structure prediction aims at defining the state of each amino acid ai as being either H (helix), E (extended strand), or O (other) (Some methods have 4 states: H, E, T for turns, and O for other). The quality of secondary s

4、tructure prediction is measured with a Qindex (Qhelix, Qstrand, Qcoil) or Q3. Q3 is the percent of residues that match “reality” (X-ray structure).,9,Secondary Structure Prediction,Amino acid sequence Actual Secondary Structure,Q3=22/29=76%,Q3=22/29=76%,Q3 for random prediction is 33% Secondary stru

5、cture assignment in real proteins is uncertain to about 10%. Therefore, a “perfect” prediction would have Q3=90%.,Limitations of Q3 (Q3 = Npredicted100%/ Nobserved),10,Secondary Structure Prediction,Chou-Fasman Method Start by computing amino acids propensities to belong to a given type of secondary

6、 structure: Propensities 1 mean that the residue type i is likely to be found in the corresponding secondary structure type.,11,Chou-Fasman Method,参数值P、P和Pt是分别在原有相应值的基础上乘以100得到,Secondary Structure Prediction,12,Secondary Structure Prediction,Chou-Fasman Method Helix prediction 沿着蛋白质序列寻找螺旋核,相邻的6个残基中如

7、果有至少4个残基倾向于形成螺旋,即有4个残基对应的P 100,则认为是螺旋核。 然后从螺旋核向两端延伸,直至四肽片段P 的平均值小于100为止。按上述方式找到的片段长度大于5,并且P 的平均值大于P 的平均值,那么这个片段的二级结构就被预测为螺旋。此外,不容许Pro在螺旋内部出现,但可出现在C末端以及N端的前三位,这也用于终止螺旋的延伸。,13,Secondary Structure Prediction,Chou-Fasman Method Strand Prediction 如果相邻6个残基中若有4个倾向于形成折叠,即有4个残基对应的P 100,则认为是折叠核。 折叠核向两端延伸直至4个残

8、基P 的平均值小于100为止。若延伸后片段的P 的平均值大于105,并且P 的平均值大于P 的平均值,则该片段被预测为折叠。,14,Secondary Structure Prediction,Chou-Fasman Method Turn Prediction 转角的模型为四肽组合模型,要考虑每个位置上残基的组合概率,即特定残基在四肽模型中各个位置的概率。 在计算过程中,对于从第i个残基开始的连续4个残基的片段,将上述概率相乘,根据计算结果判断是否是转角。如果f(i)f(i+1)f(i+2)f(i+3)大于7.510-5,四肽片段Pt的平均值大于100,并且Pt 的均值同时大于P 的均值以及

9、P 的均值,则可以预测这样连续的4个残基形成转角。,15,Secondary Structure Prediction,Chou-Fasman Method Conflict 假如预测出的螺旋区域和折叠区域存在重叠,则按照重叠区域P 均值和P 均值的相对大小进行预测,若P 的均值大于P 的均值,则预测为螺旋;反之,预测为折叠。,16,Secondary Structure Prediction,GOR Method 是一种基于信息论和贝叶斯统计学的方法 GOR将蛋白质序列当作一连串的信息值来处理 GOR方法不仅考虑被预测位置本身氨基酸残基种类的影响,而且考虑相邻残基种类对该位置构象的影响,17

10、,Secondary Structure Prediction,GOR Method 通过对已知二级结构的蛋白样本集进行分析,计算出中心残基的二级结构分别为螺旋、折叠和转角时每种氨基酸出现在窗口中各个位置的频率,从而产生一个1720的得分矩阵。然后利用矩阵中的值来计算待预测的序列中每个残基形成螺旋、折叠或者转角的概率。,18,Secondary Structure Prediction,GOR Method 首先考虑两个事件S和R的条件概率P(S|R),即在R发生的条件下,S发生的概率 P(S,R)是同时观察到S 和R 的联合概率,而P(R)是R 的出现概率。 在二级结构预测过程中,S 表示特

11、殊的二级结构类型,R 代表氨基酸残基,P(S|R)就是残基R 处于二级结构类型S 的概率。P(S)是在统计过程中观察到二级结构类型S 的概率。 Statistics: helices 29.7%, strands 19.7%, turns 12.2%, coils 38.3%,19,Secondary Structure Prediction,Lim Method 氨基酸的理化性质对二级结构影响较大 在进行结构预测时考虑氨基酸残基的物理化学性质。如疏水性、极性、侧链基团的大小等,根据残基各方面的性质及残基之间的组合预测可能形成的二级结构。 “疏水性”是氨基酸的一种重要性质,疏水性的氨基酸倾向于

12、远离周围水分子,将自己包埋进蛋白质的内部。,20,Secondary Structure Prediction,Lim Method Helix prediction 在一段序列中发现第i、i+3、i+4位(如1、4、5)是疏水残基时,这一片段就被预测为螺旋; 当发现第i、i+1、i+4位(如7,8,11)为疏水残基时,这一片段也被预测为螺旋。,21,Secondary Structure Prediction,Lim Method Strand prediction 对于折叠,也存在着一些特征的亲疏水残基间隔模式,埋藏的折叠通常由连续的疏水残基组成,一侧暴露的折叠则通常具有亲水-疏水的两残基

13、重复模式。 原则上,通过在序列中搜寻特殊的亲疏水残基间隔模式,就可以预测螺旋和折叠。,22,Secondary Structure Prediction,Neural Network 用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络,包括输入层、隐含层以及输出层。,23,Neural Network 预测结果是窗口所取的输入样本中心的残基所在位置的二级结构。 例如: Pattern LSADQISTVQASFDK Target H 沿蛋白质的氨基酸序列依次取一定大小的窗口,将窗口内的序列片段进行编码,窗口包括中心氨基酸残基及左右m个(共2m+1个)残基,每一个残基用21个神经元编码,因

14、此,输入层共有21(2m+1)个神经元。 例如:Alanine 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 输出层有3个神经元,分别对应于窗口中心残基的H、E、C三态。结果由三个输出中值最大的那个决定。 例如:输出值为(0.2,0.1,0.1),则认为是螺旋结构。编码为:1 0 0,Secondary Structure Prediction,24,Neural Network PHDsec (Profile-fed neural network system from Heidelberg),Secondary Structure Prediction

15、,25,Neural Network PHDsec (Profile-fed neural network system from Heidelberg) Input,26,Neural Network PHDsec (Profile-fed neural network system from Heidelberg) First Layer,27,Neural Network PHDsec (Profile-fed neural network system from Heidelberg) Second Layer,28,Secondary Structure Prediction,DSS

16、P (Database of Secondary Structure in Proteins),H = alpha helix B = residue in isolated bata-bridge E = extended strand, participates in beta ladder G = 3/10 helix I = pi helix T = hydrogen bonded turn S = bend,29,Secondary Structure Prediction,Alpha helix, 3/10 helix and pi helix Alpha helix Hydrogen bonds (i, i+4) 3.6

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论