生物信息学课程报告几种蛋白质二级结构预测方法评价_第1页
生物信息学课程报告几种蛋白质二级结构预测方法评价_第2页
生物信息学课程报告几种蛋白质二级结构预测方法评价_第3页
生物信息学课程报告几种蛋白质二级结构预测方法评价_第4页
生物信息学课程报告几种蛋白质二级结构预测方法评价_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、7几种蛋白质二级结构预测方法的评价摘要 蛋白质二级结构的预测是了解蛋白质空间结构及其作用机理的重要步骤,二级结 构的预测方法也越来越多,为便于广大研究者选择合适的预测方法,本文利用SARS 数据集,采用统一的评价标准,对蛋白质二级结构预测的三种典型方法PSIPRED V3.0、 APSSP2. GOR4进行评测。结果显示,PSIPRED预测效果较好,可以作为相关研究的 首选,而GOR4表现最差,对。折叠的预测能力最缺乏。关键词 二级结构PSIPRED SARS数据集Evaluation on three prediction methods of proteinsecondary struct

2、ureAbstract Protein secondary structure prediction plays a key role in recognizing the protein three-dimensional stiucture and mechanism. With more and more prediction methods developed, three prediction methods of protein secondary structure including PSIPRED V3.3,APSSP2,GOR4 had been utilized in S

3、ARS to evaluate their applicability. The findings suggested that PSIPRED performed best, and GOR4 had poor effect in the protocol, especially in the prediction of。strands.Keywords protein secondary structure ;PSIPRED ; SARS由于蛋白质的生物学功能在很大程度上依赖于其空间结构,因而进行蛋白质的结构 预测对了解未知蛋白生物学功能具有重要意义。通常,蛋白质结构包括4个层次:一级结构

4、即氨基酸的排列顺序;二级结构主要 是由氢键维持的a-螺旋和快折叠;三级结构是完全折叠的蛋白质的空间结构残基的立体 排列模式;四级结构是多个蛋白质亚基组成的蛋白质复合体的结构(即蛋白质之间的交 互作用)。用计算机对蛋白质二级结构的预测对认识蛋白质结构与功能的有重要意义。 一方面,蛋白质二级结构预测为三级结构模型构建的起点,是三、四级结构预测的基础 。另一方面,由于利用X光绕射、核磁共振等实验方法对蛋白质二级结构预测受到一定制约。此外,在实际应用中,蛋白质二级结构的预测也扮演着重要角色:可用于全 新蛋白质的设计或蛋白质突变的设计;有助于确定蛋白质空间结构与功能的关系; 有助于多维核磁共振中二级结构

5、的指认以及晶体结构的解析用。现在一般认为,如果蛋 白质二级结构的预测准确率可以达到80%的话,就可以基本准确的预测一个蛋白质分子 的三维空间结构。现阶段,蛋白质空间结构的研究方法依据其原理主要可分为三种类型:折叠识别 (Fold recognition);从头预测(ab initio)同源建模(Homology modeling)o具体到蛋白质 二级结构预测,有Chou、GOR、Cohen. PHD、PSIPRED等方法。根据王鹏良、张海 霞等的研究结果,可以推断各种预测方法乂各有其优缺点。同时,随着蛋白质结构数 据库的不断更新,蛋白质二级结构预测方法层出不穷,为方便研究者根据试验数据选用 最

6、优的二级结构预测方法,对各种二级结构预测方法进行及时的评测是必要的,本文选 取了三种有代表性的预测方法进行评测,以期探究各个方法的预测准确率。1方法、数据及评价指标预测方法在众多蛋白质二级结构预测方法中,根据它们的利用频率、精确度及预测原理,本 测试选取其中三种有代表性的预测方法,分别是PSIPRED V3.317-8】、APSSP2及GOR4, 三种二级结构预测方法的服务器分别是PSIPRED(http:bioinf.cs.ucl.ac.uk/psipred/), APSSP2( HYPERLINK http:/imtech.res.in/raghava/apssp2/%5eU http:/

7、imtech.res.in/raghava/apssp2/U GOR4( HYPERLINK http:/npsa-pbil.ibcp.fr/cgi-bin/npsa_a http:/npsa-pbil.ibcp.fr/cgi-bin/npsa_a utomat.pl?page=npsa_gor4.html)o在结构预测时,选择各方法的最佳参数,以达到最佳效 果。本文三种结构预测方法均采用三态定义,即归,或田代表a螺旋,E,或e代表。折 叠,或d代表无规卷曲。测试数据为便于研究,测试数据采用Severe Acute Respiratory Syndrome(SARS)数据集, 并查询PDB数据

8、库进行一定纠正,得到相关SARS数据集的结构信息,见表1,并按照 吴琳琳等的方法将信息缺失及缺失结构残基数记为C无规卷曲。SARS数据集共有 1600个氨基酸残基,其中a螺旋含量为28.6%,而p折叠含量为26.7%。表1 SARS数据集结构信息Table 1 Information of SARS序号PDB ID氨基酸残基H含量/%E含量/%支链缺失结构残基数1IP4X25058.4 (146)8.4(21)A021P9S30023.0 (69)28.7(86)A031Q2W30824.4 (75)28.3(87)A1341T4Y10537.1 (39)22.7(24)A051UW71439

9、.8 (14)37.8(54)A2161UJ130626.1 (80)29.7(91)A571T4Z10532.4 (34)22.9(24)A081XAK830.00(0)48.2(40)A15L3评价指标评价蛋白质二级结构的预测性能,国际上通用的三个指标,如下:(1)三态准确率i e C)其中TP1表示被正确预测为i状态的残基个数,FPi表示被错误预测为i状态的残基个数。(2)整体准确率 _tph+tpe+tpc 03 T其中TPi(iH, E, C)分别表示被正确预测出三状态的残基个数,T代表残基总 数。Motthew 系数J(Pi +%)(/乙 +q)(勺 + %)(% + q)其中Pi

10、表示i态被预测为i态的残基个数,m表示非i态被预测为非i态的残基个数,Ui表示i态被预测为非i态的残基个数,Oi表示非i态被预测为i态的残基个数。G=o时, 称为随机预测;G=1时,称为完全预测。本文选择三态准确率及整体准确率作为评价指标。2 .结果及分析预测结果将测试蛋白质氨基酸序列分别提交到上述三种方法的服务器上,选择合适的参数, 即可得到返回的预测的目的蛋白的二级结构,各数据的二级结构详细预测结果见表2, 可以看出,三种预测方法得到的正确的二级结构并不相同。表2各方法关于a螺旋、(3折叠及无规卷曲详细预测结果Table2 Detailed prediction results by th

11、ree methods序号12345678二级结构HECHECHECHECHECHECHECHECPSIPRED V3.313110715269122596912232174004151596711430173802730APSSP213611525068103536510932172964457546710030173202431GOR41128524245100375311131628625523658982963101235PDB146218369861457587146392442145475809113534244704043注:H表示使用相应方法预测正确的a螺旋,表示使用相应方法预

12、测正确的0折叠,C表示使用相 应方法预测正确的无规卷曲。Notes: H indicates alpha helix; E mdicates 0 strands; C indicates random coils.三种方法关于Qi及Q3的比较在表2基础上,按照上述整体准确率评价指标进行计算,得到三种方法预测的准确 率,结果如表3。根据三态准确率(Q)无论是a螺旋、p折叠,还是无规卷曲,在预 测准确率上:PSIPREDAPSSP2GOR4o依据整体准确率(Q3),在预测正确率上仍然 表现为:PSIPREDAPSSP2GOR4,且只有PSIPRED在整体正确率上比公布的更高, 其他两种皆低于公布的

13、预测准确率,以APSSP2表现的更为明显。在整体表现上,对于 SARS数据集中的蛋白质二级结构预测,PSIPRED优于APSSP2和GOR4。表3 3种蛋白质二级结构预测方法的准确率比较Table 3 Comparison of accuracies of 3 protein secondary stnjcture prediction methodsMethodQh(%)Qe(%)Qc(%)Q3(%)Q3 Claim (%)PSIPRED79.474.279.678.176.5APSSP279.073.371.674.282.5GOR464.649.470.863.364.4注:其中Qh表不

14、a螺旋的预测准确率;Qe表示。折登的预测准确率;Qc表示无规卷曲的预测准确率:Q3表示整体准确率,Q3Claim表示各方法宣布的预测整体准确率。Notes:Qn indicates alpha helix predicting accuracy; Qe indicates p strands predicting accuracy; Qc indicates random coils predicting accuracy; Q3 indicates whole accuracy: Q3 Claim indicates official whole accuracy.各具体二级结构预测准确率比

15、较在三态准确率(Qi)中,对于a螺旋的预测,PSIPRED. APSSP2两种方法预测准 确率大致相当(分别为79.4%、79.0%),而GOR4预测准确率较低(64.6%);对于。折 叠的预测,PSIPRED预测准确率最高(74.2%),而GOR4预测准确率最低(49.4%), 其对P折叠结构预测能力不足;对于无规卷曲的预测,三种方法准确率均高于70%,差 异不明显。3讨论各方法预测结果整理过程的简化利用三种方法得到各蛋白质的二级结构,在结果整理中发现一个问题,即向各方法 的服务器提交氨基酸序列后,返回得到的是各位点氨基酸的预测结构,并没有直接分析 预测准确率,这需要研究者进行结果整理。例如

16、,PDB ID为IP4X的蛋白质在PDB数 据库中显示其二级结构含58.4%的。螺旋(146个氨基酸残基)和8.4%的B折叠(21个 氨基酸残基),利用PSIPRED预测结果显示其含有52.4%的a螺旋(131个氨基酸残基) 和4.0%的B折叠,但这并不表示PSIPRED法预测结果中所有的a螺旋和P折叠都预测 正确,例如IP4X的7到26位点(氨基酸残基序列:KIRDFIIIEAYMFRFKKKV)在PDB 中全为a螺旋,而在PSIPRED中却预测为5到25位点(氨基酸残基序列:NHDKIRDFIIIEAYMFRFKKK)为。螺旋,即PEIPRED预测此段出现了 3个a螺旋的 错误。为计算各方

17、法预测准确率,就需要研究者对蛋白质各个氨基酸残基进行PDB数 据库结构与各方法预测结果间的比对,工作量较大,也容易出现错误。因此,在后续的 研究中,可以利用编程软件如C+、Visual Basic等进行程序的编写,以简化此步骤。三种方法预测准确率的探讨PSIPRED采用神经网络方法进行预测,在三态准确率(Q。、及整体准确率(Q3)上 的表现均优于其他两种方法。APSSP2采用混合方法预测蛋白质的二级结构,从理论上 说,结合使用多种方法将提高预测的准确率,只是这些方法自身的缺陷是相互独立的“叫 而且无法选择结合的各种方法所占权重,因此并不能很大程度上提高预测准确率,这或 许能解释在本测试中,采用

18、神经网络方法的PSIPRED法较APSSP2总体上表现出更高 的准确率。在方法上,与张海霞等采用包含了 PSIPRED、APSSP2及GOR4等10种二级结 构预测方法对150条蛋白质(结构域)预测结果相比,本测试中PSIPRED在三态准确 率(Qi)比张海霞等结果显示更高,在整体准确率(Q3)稍低一些;APSSP2在三态准 确率及整体准确率上均明显低于张海霞的结果,这可能与SARS数据集较小相关;本测 试中GOR4的Qh、Qc均高于张海霞等的结果,整体准确率儿乎一致。在使用测试数据上,利用相同的SARS数据集进行测试,相较于吴琳琳、李元乐 等采用支持向量机(support vector ma

19、chine , SVM)法,本测试结果表现出较低的准 确率,但并不能说明SVM方法一定比PSIPRED预测精度高,可能与数据更新、参数选 择、预测原理相关。同时,根据梁刚锋等的研究结果,目前影响蛋白质二级结构预测 准确率的因素主要包括蛋白质二级结构的不稳定性、蛋白质二级结构预测的系统误差, 其中,系统误差大约为25%。今后,随着已知空间结构的蛋白质数目的增加和多重序列 比对方法的应用,蛋白质二级结构预测的精度可以进一步提高。由于目前各种方法采用 的原理不同,难以进行统一的、有效的评价,因此不同的测试数据应该选取相适应的预 测精确度较高的方法,而并不是只选择其中一种方法。4结论本测试利用数据集SARS,分别采用PSIPREDV3.3、APSSP2及GOR4三种方法进 行二级结构预测,结果显示PSIPRED在三态准确率(Qi)及整体准确率(Q3)均优于 其他两种方法。同时.,由于PSIPRED采用神经网络方法进行预测,而神经网络方法是 目前公认的前景最乐观的二级结构预测方法之一,所以PSIPRED在蛋白质二级结构预 测及研究中将发挥重要作用。参考文献References1殷志祥.蛋白质结构预测方法的研究进展J.计算机工程与应用,2004,20: 54-57.2阎隆飞,孙之荣.蛋白质分子结构M.北京:清华大学出版社,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论