支持向量机用于蛋白质二级结构预测资料_第1页
支持向量机用于蛋白质二级结构预测资料_第2页
支持向量机用于蛋白质二级结构预测资料_第3页
支持向量机用于蛋白质二级结构预测资料_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、支持向量机用于蛋白质二级结构预测蛋白质空间结构在生命科学中扮演着重要的角色,其中二级结构预测是空间结构预测最为关键的步。构实验测定的速度远落后于一级结构(氨基酸序列)测定的速度。因此,从理论上根据蛋白质一级结构所提供的信息预测蛋白质二级结构非常必要。蛋白质二级结构的组成规律性比较强,所有蛋白质中约85%的氨基酸残基处于三种基本二级结构状态(螺旋H折叠E和转角C),并且各种二级结构非均匀地分布在蛋白中。蛋白质二级结构的预测就是判断氨基酸序列中的氨基酸分别处于三种状态(H,E,C)中的哪一种状态。随着数据挖掘手段的不断提高,更多的统计分类方法不断出现,支持向量机就是其中的一种。支持向量机(supp

2、ortvectormachine,简称SVM)是一种基于统计学习理论的新型机器学习算法。支持向量机即是通过就是通过某种事先选择的非线性映射,将输入向量映射到一个高维特征空间,在这个空间构造最优分类超平面的实现过程,其优点是并不需要知道待处理数据的分类原则,仅仅通过对不同类数据的监督学习就能得到一个进行分类的2预测模型结构如图1所示,用一个滑动窗口(slidingwindow)在蛋白质的氨基酸序列上取奇数相临的残基并编码作为模型的输人,图中窗口大小为7。模型输出为三个目标(即而胃的三态):H为螺旋,E为折叠,L为不规则结构。预测的结果是窗口所取样本中心残基所在位置的二级结构。这样,通过窗口每次移

3、动一个残基的位置,可以逐步预测出整条蛋白质序列的二级结构。,当滑动窗口处于序列的较前段或者较后段(即氨基酸不能将滑动窗口充满)的时候,窗口的填充可以用0补齐。3数据集的选用和输入编码训练集和测试集所包含的蛋白质氨基酸序列均来自于PDB库,网址为:/pdb/files/ss.txt为了使计算机能够识别氮基酸序列,我们必须将氨基酸按定的方式来编码。以往的方法中提到了多种编码方式,包括纯数学编码,基于蛋白质相关信息的编码和基于密码子的编码方案等。在蛋白质中,氨基酸的理化性质对蛋白质的二级结构影响较大,因此在进行结构预测时考虑氨基酸残基的物理化学性质。疏水性”是氨基酸的一种重要性质,疏

4、水性的氨基酸倾向于远离周围水分子,将自己包埋进蛋白质的内部。这一趋势加上空间立体条件和其它一些因素决定了一个蛋白质最终折叠成的三维空间构象。这里采用了蛋白质的疏水参数作为编码依据。网络的输入为蛋白质一级结构氨基酸序列的疏水性编码,输出为蛋白质二级结构的编码,以1,2,3分别表示H(a螺旋)、E(3折叠)、C(无规卷曲)。4多分类的实现svMf法最初是为二值分类问题设计的,当处理多类问题时,就需要构造合适的多类分类器。由于对三种二级结构进行分类的预测结果可能与各种二分类模型的串行集成顺序有关。按照H分类器(只分H和非H结构),E分类器,C分类器的集成顺序预测的结果跟E,H,C的集成顺序预测的结果

5、可能差别很大,所以采用裁判投票的方法。对三种蛋白质二级结构而言,将会有6种串行集成方式,每种方式看作一个裁判。如果对于一个待测样本在6个裁判中有多于3个的裁判预测它为H结构,那整个预测框架最终的预测结果就是H结构。这就是投票机制。5预测性能及比较对于预测结果的评价,通常采用三态准确率和整体准确率、相关系数、可信度指标。其中以整体准确率Q3最为常用1.1 1不同的核函数下的结果比较。SVM核函数的选取对于整体预测结果有很大的影响,以下分别取不同的核函数对得到的结果进行比较:线性核函数下Qa,Qb,Qc和Q3分别为100%63.9%72.7%,67.8%,径向基核函数下则为100%,71.9%,7

6、4.0%,75.2%,Sigmoid核函数下为90.1%,79.5%,60.3%,72.5%1.2 不同窗口长度下的结果比较。取不同的窗口长度,对所得结果进行比较,结果在窗口长度为7,11,15,19的情况下Q3分另ij为66.2%,71.4%,76.2%和74.1%1.3 选用与训练集不同的测试集时的结果。以上结果都是在训练集与测试集相同的情况下进行的,为了验证方法的一般性,这里采用和训练集完全不同的测试集做测试,Qa, Qb, Qc 和 Q3 分别是90.1%,77.2%,56.3%,70.4%.5结果展望综上可知,在蛋白质的二级结构预测中,支持向量机方法是一种有效的方法。可以肯定的是,如果训练集包含有足够的预测样本的二级结构信息,被预测样本与训练集中的某些样本的相似或相近程度越高,预测准确率会越高。从上述研究可知,如果蛋白质的一级结构信息与训练集中某一个蛋白质相同或相似,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论