




已阅读5页,还剩116页未读, 继续免费阅读
(分析化学专业论文)基于支持向量机的蛋白质结构和功能预测研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
附录 表2 凋亡蛋白数据集z d 9 8 ( a c ) 1 0 2 附录 表4 结构类数据集z 2 7 7 ( p d b ) 1 0 4 c o m p a r e dw i t hc h o u sa m p h i p h i “cp s e u d oa m i n oa c i dc o m p o s i t i o n ,t h en e w p r o t e i nd e s c r i p t o rh a s a s i m p l e rf o m la n dc a nb ee a l s i l yc o m p u t e d 2 b a l s e do ni n f o r m a t i o nm s i o nt e c h n o l o g y ap r o m i s i n gp r e d i c t i v em e t h o dh a s b e e np r o p o s e dt od e t e m l i n et h es u b c e i l u l a rl o c a t i o n so fa p o p t o s i sp r o t e i n s i ti s c o n s t r u c t e db yc o m b i n gad u a i - l a y e rs u p p o r tv e c t o rm a c h i n e ( s v m ) w i t hm u l t i p l e c o m p o s i t i o n si n c l u d i n g 锄i n oa c i dc o m p o s i t i o n ( a a c ) ,d i p e p t i d ec o m p o s i t i o n ( d p c ) a n da m p h i p h i l i cp s e u d o 锄i n oa c i dc o m p o s i t i o n ( a m p s e a a c ) t h ef i r s t i a y e ri sm a d eu po ft i l r e es v mc i a s s i n e r s :s v ml ,s v m 2a n ds v m 3 ,w h i c hi s b a l s e do na a c ,d p ca n da m p s e a a c ,r e s p e c t i v e i y t h es e c o n di a y e rs v m c l a s s i 伍e ri sd e s i g n e db ym e r g i n gt h eo u t p u t sf - r o mt h ef i r s tl a y e ra si n p u ta n dg i v e s t h ef i n a id e c i s i o n a sad e m o n s t r a t i o n ,t h ep r e d i c t i v ep e r f o r m a n c eo fc u r r e n t m e t h o dw a l se v a i u a t e do nt w od a t a s e t so fa p o p t o s i sp r o t e i n s ,i n v o l v i n gt h es t a n d a r d d a t a s e tz d 9 8g e n e r a t e db yz h o ua n dd o c t o r ,a n dal a r g e rd a t a s e tz w 2 2 5 g e n e r a t e db yz h a n ge ta i w i t ht h ej a c k k n i f et e s t ,t h eo v e r a ua c c u r a c i e so fc u r r e n t m e t h o do nt h et w od a t a s e t sr e a c h e d9 4 9 0 a n d8 8 4 4 ,r e s p e c t i v e l y i ti m p l i e s t h a tt h ed u a l i a y e rs v mb a l s e do nm u l t i p l ef e a t u r e sc a nt a k eb e t t e ra d v a n t a g eo ft h e s e q u e n c ei n f o n n a t i o no fap r o t e i nt h a nt h es i n g i e i a y e rs v m b a l s e do ni n d i v i d u a i f e a t u r e 3 an o v e lr e p r e s e n t a t i o nc a l l e dw e i g h t e dc o m p o s i t i o nm o m e n tv e c t o r ( w c m v ) i sp r o p o s e d ,w h i c hc a ni n c i u d ei n f b r n l a t i o no fb o t hc o m p o s i t i o na n dp o s i t i o no f a m i n oa c i dr e s i d u e si nt h ep r o t e i ns e q u e n c e f u r t h e n n o r e ,ap r e d i c t i v em e t h o di s d e v e i o p e db yc o m b i n i n gw c m vw i t hm u l t i c l a s ss u p p o r tv e c t o rm a c h i n e a sa s h o w c a s e ,t w os t a n d a r dd a t a s e t si n c i u d i n gz 2 7 7a n dz 4 9 8w e r eu s e dt oa c c e s st h e p e r t o r m a n c eo fc u 九e n tm e t h o d c o m p a r e dw i t ht h ee x i s t i n gp r e d i c t i o nm e t h o d s , t h ee n c o u r a g i n gr e s u l t st h r o u g ht h ej a c k k n i f et e s ti n d i c a t et h a tw c m vi sa p o w e r f u ip r o t e i nr e p r e s e n t a t i o n 4 a c c o r d i n gt o c h o u sw o r k ,a n i m p r o v e dp s e u d o a m i n oa c i d( p s e a a ) c o m p o s i t i o ni sp r o p o s e db ym e r g i n gt h ep o 、 ,e rs p e c t r u mo fw a v e l e tp a c k e t t r a n s t 0 r m a t i o n ( w p t ) i n t ot h ec l a s s i c a ia m i n oa c i dc o m p o s i t i o n b yc o m b i n gi t w i t hm u l t i c i a s ss u p p o r tv e c t o rm a c h i n e ( s v m ) ,ap r e d i c t o ri sd e v e l o p e df o rt h e 【v p r e d i c t i o no fs t r u c t u r a lc l a s s e s t h es t a n d a r dd a t a s e tz 2 7 7w 2 l su s e dt oe v a i u a t et h e p r e d i c t i v ep e r f o r m a n c eo fc u 盯e n tm e t h o da n dt h eo v e r a l la c c u r a c yo f8 4 8 w a l s o b t a i n e dt h r o u g ht h ej a c k k n i f et e s t 5 ap r e d i c t i v em e t h o di sp r e s e n t e df o rt h ed e t e r m i n a t i o no fs u b n u c l e a rl o c a t i o n s o fp r o t e i n s i ti sf e a t u r e db ya s s o c i a t i n gt h eh y b r i dk e m e ls u p p o f tv e c t o rm a c h i n e , w h i c hc a nb eo b t a i n e dt h f o u g hl i n e 2 l rc o m b i n a t i o no ft h eb 2 l s i ck e m e l s ( i i n e a r , p o l y n o m i a la n dr b f ) w i t ha m i n oa c i dc o m p o s i t i o n t h eo v e r a ua c c u r a c i e st h r o u g h 5 一f o i dc r o s sv a l i d a t i o na n dj a c k k n i f et e s ta r e6 6 0 3 a n d6 7 9 3 w h i c ha r e s u p e r i o rt 0t h er e s u l t so fb a s i ck e m e i s ,i n d i c a t i n gt h a tt h eh y b r i dk e m e ls u p p o r t v e c t o rm a c h i n eh a sam o r ep o w e r m l l e a m i n ga b i l i t y k e y w o r d s :s u p p o r tv e c t o rm a c h i n e ,e n z y m es u b f a m i i yc i a s s ,s u b c e i l u l a rl o c a t i o n o fa p o p t o s i s p r o t e i n , p r o t e i ns t r u c t u r a l c l a s s , p r o t e i ns u b n u c l e a ri o c a t i o n , p r e d i c t i o n v 附录 原创性声明 本人郑重声明:所呈交的学位论文,是本人在 导师的指导下,独立进行研究工作所取得的成果。 除文中已经注明引用的内容外,本论文不包含任何 其他个人或集体已经发表或撰写过的作品成果。对 本文的研究作出重要贡献的个人和集体,均己在文 中以明确方式标明。本人完全意识到本声明的法律 结果由本人承担。 学位论文作者签名:f 司毒斌 日期:) d 。g 年6 月;日 中山大学博士学位论文基于支持向量机的蛋白质结构和功能预测研究 知识产权保护声明 本人郑重声明:我所提交答辩的学位论文,是 本人在导师指导下完成的成果,该成果属于中山大 学化学与化学工程学院,受国家知识产权法保护。 在学期间与毕业后以任何形式公开发表论文或申 请专利,均需由导师作为通讯联系人,未经导师的 书面许可,本人不得以任何方式,以任何其它单位 作全部和局部署名公布学位论文成果。本人完全意 识到本声明的法律责任由本人承担。 学位论文作者签名i 虱毒斌 日期:如。睥6 月弓日 附录 学位论文使用授权声明 本人完全了解中山大学有关保留、使用学位论文的规定,即: 学校有权保留学位论文并向国家主管部门或其指定机构送交论文 的电子版和纸质版,有权将学位论文用于非赢利目的的少量复制并 允许论文进入学校图书馆、院系资料室被查阅,有权将学位论文的 内容编入有关数据库进行检索,可以采用复印、缩印或其他方法保 存学位论文。 学位论文作者签名:i 虱喜斌 导师签名:纫由多 日期:9 。缉6 月弓日 日期:伽扩年衫月夕日 中山大学博士学位论文基于支持向量机的蛋白质结构和功能预测研究 第1 章绪论 1 1 引言 随着人类基因组计划h g p ( h u m a ng e n o m ep r 0 1 j e c t ) 的顺利完成和现代生 物科学和技术的迅猛发展,每天都有大量的生物分子序列数据不断涌现。其 增长速度甚至超过了摩尔定律( 即半导体芯片上晶体管数量每1 8 个月翻一 番) ,达到了每1 5 个月翻一番【l l 。以目前国际上权威的蛋白质序列数据库 s w i s s p r o t ( h t t p :、硼 ve b i a c u i ( s w i s s p r o t ) 为例,1 9 8 6 年9 月建立伊始, 仅含有3 9 3 9 条蛋白质序列9 0 0 1 6 3 个氨基酸。到2 0 0 8 年2 月s w i s s p r o t ( r e l e a s e5 4 8 ) 已经包含了3 4 9 ,4 8 0 条蛋白质序列共1 2 5 ,2 8 6 ,9 7 6 个氨基酸。 在短短2 0 年的时间里,蛋白质序列的数目增长了将近9 0 倍。特别是近两年, 蛋白质序列的数目更是呈现爆炸式增长。需要指出的是,s w i s s p r o t 中的 蛋白质序列都是经过注释的,如果再加上未注释的蛋白质序列,这将是一个 天文数字。这些生物分子序列数据携带着丰富的信息,如何揭示这些数据的 内涵,进而从中得到对人类有用的信息,对于生命起源、遗传变异、疾病研 究、新药开发以及农业和食品制造业等诸多领域具有重要的意义【2 。5 l , 2 l 世纪是生物学大发展的世纪,生物学甚至被认为是未来推动自然科学 前进的牵头学科【6 l 。其在生命科学领域所取得的一系列令人瞩目的成就,必将 影响到其他基础学科,特别是化学学科。从本质上看,生物分子序列数据也 是一种化学数据,现代生物学的发展为化学计量学提供了新的机遇和挑战。 化学计量学和生物信息学这两个分支学科为化学和生命科学之间搭建了桥梁 【7 】。如何将化学计量学手段应用于生物信息学研究,己成为分析工作者面临的 一个挑战性的新课题。 2 0 0 3 年h g p 的完成,标志着我们已经进入后基因组时代。在后基因组时 代,生物科学家的研究重心己由揭示生命的所有遗传信息即基因“结构”向基 因“功能”转移,进而从整个基因组及其全套蛋白质产物的结构、功能和机理的 深度去了解生命活动的全貌,并系统的整合有关生命科学的全部知识,揭示 生命之谜【8 9 l 。从序列出发对蛋白质的结构和功能进行研究,即蛋白质注释 第1 章绪论 ( p r o t e i na n n o t a t i o n ) 不仅是后基因组时代的主要内容之一,也是现代生物信 息学的研究热点。尽管蛋白质的结构和功能可以通过实验方法确定,但是实 验方法十分耗时并且费用昂贵,而且实验中可能还会遇到一些目前无法解决 的困难。另外由于现代高通量的生物技术的发展,使得蛋白质功能确定的数 目与序列之间的差距亦越来越大。所有蛋白质的空间结构和功能都通过实验 测定是不现实的。因而从蛋白质序列出发,发展自动的、可靠的理论预测方 法具有十分重要的理论意义和实用价值。 i 2 蛋白质的结构层次 蛋白质是生物体内一类占有特殊地位的生物大分子,它不仅是生物体的 基本构件,也是各种生命活动的主要承担者和执行者。有关蛋白质结构的研 究很早就受到了科学家的关注,1 9 5 2 年丹麦生物化学家l i n d e r s t r o m l a n g 第 一次提出蛋白质三级结构的概念。后来随着研究的深入,研究者们又陆续提 出了四级结构、超二级结构和结构域等概念。 膏i :i _ 动 图i 1 蛋白质的结构层次 f i g i - l t h eh i b e r a r c h yo fp r o t e i n 总的来说,蛋白质的结构层次可以分为一、二、三和四级结构( 如图1 1 所示) 。蛋白质的二、三、四级结构一般也统称为蛋白质的高级结构或者立体 结构。蛋白质的一级结构( p r i m a r ys t r u c t u r e ) 是指蛋白质中各个氨基酸残基的 型萋一蚕 第1 章绪论 列,而且有些序列不相似的蛋白质也具有相似的功能。 第二类方法是基于机器学习和统计技术的数据挖掘方法( d a t am i n i n go r d i s c r i m i n a t i v em e t h o d s ) 。与同源性比较的方法不同,这类方法完全不需要序列 的同源性信息,而是通过对己知结构或功能的蛋白质数据集( 样本) 学习, 得到某种规则( r u l e s ) ,然后将得到的规则应用于未知蛋白质的预测。这类方 法由于不需要事先知道蛋白质的任何相关信息,仅仅依靠蛋白质的一级结构 序列,就可对未知蛋白质进行结构和功能的预测,所以近年来在生物信息学 领域得到了普遍关注。 1 3 1 蛋白质序列表征方法 蛋白质是生物体内一切生命活动的执行者。生物体内的蛋白质种类繁多, 分布广泛,所具有的功能也是多种多样。据人类基因组的研究估计,人类共 有1 0 万个基因,这些基因能编码1 0 万种蛋白质。尽管蛋白质种类和数目繁 多,所有蛋白质都是由2 0 种氨基酸构成的。这2 0 种氨基酸的侧链在大小、 形状、电荷、形成氢键的能力和化学活性等方面都存在差异。正是由于这2 0 种氨基酸的物化性质的差异以及它们的各种组合变化,构成了蛋白质在结构 和功能上的多样性。因此,在构成蛋白质的氨基酸序列中蕴涵着丰富的结构 和功能信息,如何将这些信息提取出来,是影响预测方法性能的关键,也是 近年来有关蛋白质预测领域的研究热点。 i 3 1 i 氨基酸组成 氨基酸组成( 锄i n oa c i dc o m p o s i t i o n ) 【1 7 1 8 1 是通过统计每条蛋白质序列中 2 0 种氨基酸的出现频率,然后将每条蛋白质序列以一个2 0 维的特征向量来表 示的方法。设p 为一包含个氨基酸残基的蛋白质序列, p = 墨尺2 毛心匙心b ( 1 - i ) 其中足表示蛋白质序列中第f 个位置的氨基酸残基。 则其氨基酸组成可以表示为: = 彳,六,石,厶,厶。】7 ( 1 2 ) 中山大学博士学位论文基于支持向量机的蛋白质结构和功能预测研究 式中x 是一个2 0 维的特征向量,( f _ l ,2 ,2 0 ) 表示蛋白质序列p 中第f 种 氨基酸的出现频率,丁为转置符号。 目前,氨基酸组成方法己应用在蛋白质结构类预测【1 9 2 9 1 、亚细胞位点预 测【3 0 。3 2 1 ,酶家族和亚家族分类【3 3 ,3 4 1 等多个蛋白质预测领域。虽然氨基酸组成方 法能够方便地表征蛋白质序列,并且易于算法实现,但是它将蛋白质序列中 的氨基酸残基孤立起来看待,忽略了残基之间的相互作用而且没有考虑氨基 酸排列次序,这必然会丢失一些重要的信息。因此,它无法区分那些氨基酸 组成相同,而排列顺序不同的蛋白质。为此又有研究者提出了双残基组成 ( d i p e p t i d ec o m p o s i t i o n ) 【35 1 ,三残基组成( t r i p e p t i d ec o m p o s i t i o n ) 【3 6 1 和耦合 组成( p a i 卜c o u p i e da m i n oa c i dc o m p o s i t i o n ) 【3 7 1 ,以提取部分氨基酸残基的顺 序信息。 1 3 1 2 伪氨基酸组成 2 0 0 1 年c h o u 删提出了伪氨基酸组成( p s e u d 0 锄i n oa c i dc o m p o s i t i o n ) 的 概念。它是在氨基酸组成的基础上,引入了由氨基酸的物化性质计算得到的 所谓序列相关因子。即用一个( 2 0 + 九) 维的特征向量来表征蛋白质序列,向 量的前2 0 个离散数字是氨基酸组成,后九个离散数字表示序列相关因子,可 以反映蛋白质中氨基酸残基的顺序信息。九的取值范围是o 到( 是数据集 中最短的蛋白质序列的长度) 之间。九值越大,特征向量所包含的氨基酸残基 的顺序信息越多。但九的取值并不是越大越好,九值过大,由于受冗余信息的 影响,反而会造成模型预测性能下降。对于不同的蛋白质预测问题,九有一最 优值,需要通过交叉验证实验选取。对于式( 1 1 ) 所示的蛋白质序列p ,其 伪氨基酸组成可以表示为: x = p l ,p 2 0 ,p 2 0 + i ,p 2 0 + z 】( 力 ) ( 1 3 ) 第l 章绪论 a b c j 1 2 j 2 3 j 3 j j 4 5j 5 1 6j 6 7 j 1 0 j 2 4 j 3 5j 4 届j 5 7 j 1 4j 2 5 j 3 bj 4 7 图1 2 蛋白质序列的一级( a ) 、二级( b ) 和三级( c ) 序列相关因子示意图f 3 8 f i g 1 - 2s c h e m a t i cd r a w i n gs h o w i n gf i r s t - t i e r ( a ) ,s e c o n d t i e r ( b ) a n dt h i r d t i e r ( c ) s e q u e n c e o r d e rc o r r e i a t j o nm o d ea i o n gap r o t e i ns e q u e n c e 3 8 i 其中, 仇2 ,+ w ,;i七= i 亿一2 0 2 0 ,+ w 巩 l = i七= i ,l “2 0 , ,2 0 + l “2 0 + 兄, ( 1 4 ) 式中w 是权重因子( 0 o时i:09四=时lqo 中山大学博士学位论文皋于支持向量机的蛋白质结构和功能顶测研究 图2 4 总预测精度随w 值变化的5 折交叉验证结果 f i g 2 4r e l a t i o n s h i pb e t w e e nt h e0 v e r a l ia c c u r a l c ya n dwb y5 f o l dc r o s sv a l i d a t i o n 图2 3 为总预测精度随兄值变化的5 折交叉验证结果( 径向基核,y = 1 0 0 , c = 1 0 0 ,w = 0 5 ) 。当兄= o 时,即用氨基酸组成来表证蛋白质序列时,其总 预测精度只有7 1 5 9 。当兄= l 时,由于在特征向量中引入了氨基酸残基之间 的顺序信息,其总预测精度增加到了7 2 5 0 。随着兄值的增大,越来越多的氨 基酸残基顺序信息被引入特征向量,总预测精度也在逐渐增大。当兄= 1 0 时, 总预测精度达到最大值7 7 9 2 。然后,随着兄值的增大,虽然氨基酸残基顺序 信息在增加,但是由于冗余信息的影响,总预测精度反而逐步下降。所以在 本文中,兄的最优值等于1 0 。即每一条蛋白质都用4 0 d ( 2 0 + 2 五= 2 0 + 2 1 0 = 4 0 ) 特征向量来表示。 图2 4 为总预测精度随w 值变化的5 折交叉验证结果( 径向基核,y = l o o , c = 1 0 0 ,无= 1 0 ) 。w 值的变化范围从0 i 到l ,间隔为0 i 。当w = 0 3 时,总 预测精度最大。所以w 的最优值等于o 3 。综上所述,本文中两性伪氨基酸组 成的最优条件为力= 1 0 ,w = 0 3 。 第2 章酶哑家族类预测 2 3 3 3 与文献方法的比较 2 3 3 3 1 自检验 在统计预测中,自检验是用来评价模型预测性能的方法之一。自检验过 程中,所用的训练集和预测集是同一数据集,所以自检验的预测精度往往比 较高,不能够代表模型的实际预测性能。但是对于预测模型进行自检验验证 是必要的,因为它反映了模型的自一致性,特别是对其算法部分【2 4 1 。 表2 3 与共协判别方法的自检验结果比较 t a b i e2 - 3c o m p a r i s o nw i t hc d ab yt h er e s u b s t i t u t i o nt e s t 3d a t a c o m ef r o mr e f 【1 7 】6d a 诅c o m ef r o mc u 眦n tp a p e r 第2 章酶亚家族类预测 表2 4 与文献方法的比较 t a b l e2 4c o m p a r i s o nw i t he x i s t i n gm e t h o d sb yt h ej a c k k n i f et e s t 3 d a t ac o m ef r o mf e f 【1 4 】6d a t ac o m ef r o mr e f 【1 7 】。d a t ac o m ef r o mc u r r e n tp a p e rb yu s i n g r b fk e m e lw i t h ,= 1 0 0a n dc = 1 0 0a n da m p s e - a a cw i t h 兄= l oa n dw = 0 3 2 3 3 3 3 可信度指数 预测方法建立以后,对预测结果的可信度进行评价是非常重要的。可信 度指数( r e l i a b i i i t yi n d e x ,r i ) 【2 5 2 7 1 定义为网络输出最大值与次大值之差。对 于酶亚家族类预测,我们定义其r ,如下式所示: 3 5 中山大学博士学位论文基于支持向量机的蛋白质结构和功能预测研究 fn t e g e r m i f f 3 ) + l i fo d i f r o霄111uu时=时ioo 孓一:t11u:,焉一一焉too 中山大学博士学位论文基于支持向量机的蛋白质结构和功能预测研究 2 5 结论 本文将c h o u 等人提出的两性伪氨基酸组成与支持向量机结合,采用一对 多的分类策略,提出了一种新的酶亚家族类预测方法。对标准数据集c h o u 2 6 4 0 进行了预测,自检验和i a c i d ( n i f e 检验的总预测精度分别达到了1 0 0 和 8 0 8 7 。i a c i d ( n i f e 检验的总预测精度分别比h u a n g 等的自适应模糊k 最近邻 方法和c h o u 的共协判别方法提高了4 和1 0 。在此基础上,本文根据酶与 底物作用的活性中心具有高度的疏水性这一实验事实,基于蛋白质序列中氨 基酸残基的疏水值,定义了一种新的伪氨基酸组成表征方法。结合一对一的 支持向量机,对酶亚家族类预测进行了研究。通过对标准数据集c h o u 2 6 4 0 的 i a c k k n i f e 检验,预测结果优于现有文献方法,说明本文所提出的蛋白质序列 表征方法能够有效地反映蛋白质序列中氨基酸的残基顺序信息。与c h o u 的两 性伪氨基酸组成表征方法相比,本文提出的基于疏水性的伪氨基酸组成,简 化了蛋白质序列描述符的复杂度,降低了特征向量的维数,提高了预测模型 的运算速度。 参考文献 i w 曲be c e n z y m en o m e n c i a t u r e a c a d e m i cp r e s s ,s a nd i e g o ,c a ,l9 9 2 2 阎隆飞,孙之荣主编蛋白质分子结构北京:清华大学出版社,1 9 9 9 3 c h o uk c ,e l r o dd w p r e d i c t i o no fe n z y m ef a m i i yc i a s s e s p m 伦d 聊p 尺p 只 2 0 0 3 2 :1 8 3 1 9 0 4 b o r r ol c ,o l i v e i r as r m ,y a m a g i s h im e b ,m a n c i n ia l ,j a r d i n ej g ,m a z o n i i ,s a n t o se h ,h i g ar h ,k u s e rp r ,n e s h i c hg p r e d i c t i n ge n z y m ec i a s sf r o m p r o t e i ns t r u c t u r eu s i n gb a y e s i a nc l a s s i f i c a t i o n g p 甩p ,a 如,尺p s ,2 0 0 6 , 5 : l9 3 2 0 2 第2 章酶哑家族类预测 2 3 3 3 与文献方法的比较 2 3 3 3 1 自检验 在统计预测中,自检验是用来评价模型预测性能的方法之一。自检验过 程中,所用的训练集和预测集是同一数据集,所以自检验的预测精度往往比 较高,不能够代表模型的实际预测性能。但是对于预测模型进行自检验验证 是必要的,因为它反映了模型的自一致性,特别是对其算法部分【2 4 1 。 表2 3 与共协判别方法的自检验结果比较 t a b i e2 - 3c o m p a r i s o nw i t hc d ab yt h er e s u b s t i t u t i o nt e s t 3d a t a c o m ef r o mr e f 【1 7 】6d a 诅c o m ef r o mc u 眦n tp a p e r x 中山大学博士学位论文属于支持向量机的蛋白质结构和功能预测研究 我们用本文所建立的预测模型,对数据集c h o u 2 6 4 0 进行了自检验验证, 结果列于表2 3 。由表中数据可以看出,本文方法自检验总精度达到了1 0 0 , 说明本文提出的预测模型具有良好的自一致性。我们和c h o u 【1 7 1 的工作进行了 比较,c h o u 的方法是基于两性伪氨基酸组成和共协判别算法( c d a ) 建立的, 其在数据集c h o u 2 6 4 0 上自检验总精度为9 2 1 6 。 2 3 3 3 2 i a c k k n i f e 检验 在评价模型预测性能的3 种方法( 自检验,交叉验证和i a c k k n i f e ) 中, j a c k k n i f e 检验被认为是最严格、最客观的评价方法。进行j a c k k n i f e 检验时, 首先从数据集中依次将每个样本单独取出,然后用剩下的数据集进行训练, 再对取出的单个样本进行测试。重复这样的过程,直至数据集中每个样本都 被单独测试过。与自检验和交叉验证比较,i a c k k n i f e 检验是最能反映模型实 际预测性能的一种方法。 为了检验本文所提出方法的实际预测性能,我们对数据集c h o u 2 6 4 0 进行 了i a c i ( 1 m i f e 检验,结果列于表2 4 。同时,我们与c h o u 【1 7 1 的共协判别方法( c d a ) 和h u a n g 掣1 4 1 的自适应模糊k 最近邻方法( a f k n n ) 进行了比较。 在数据集c h o u 2 6 4 0 上,本文方法的总预测精度为8 0 8 7 ,其中以第5 类预测精度最低,为5i 7 9 ,以第1 4 类预测精度最高,达到了9 7 4 2 。除 了对第5 ,7 ,8 这3 类预测精度较低以外,其余1 2 类的预测精度都达到了7 0 以上。在共协判别方法中,以第8 类预测精度最低,仅有2 3 7 3 ,以第1 4 类预测精度最高,为9 2 9 0 。与共协判别方法比较,本文方法的总预测精度 提高了大约1 0 ,并且每一类的预测精度均有所提高,特别是对第7 ,8 ,1 2 , 1 5 这四类,预测精度分别提高了大约2 3 ,3 9 ,2 0 ,3 3 。与自适应模糊 k 最近邻方法相比,本文方法总预测精度提高了4 。由于h u a n g 等人没有给 第3 章凋亡蛋白亚细胞位点预测 图3 1 真核细胞结构示意图【2 2 l f i g 3 一ls c h e m a t i c 川u s t r a t i o ns h o w i n gm a n yd i f r e r e n tc o m p o n e n t so ro 唱a n e j i e s i na e u k a r y o t i cc e i i 2 2 l 蛋白质是构成细胞的主要成分,占细胞干重
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年云南昭通云富街道招聘乡村公益性岗位工作人员考试真题
- 2025安徽宿州学院专职辅导员招聘12人模拟试卷参考答案详解
- 2025广东深圳市九洲电器有限公司招聘产品经理模拟试卷及参考答案详解1套
- 铁合金特种冶炼工岗位安全技术规程
- 飞机电缆盘箱工跨部门项目协调考核试卷及答案
- 电动机检修工语言能力考核试卷及答案
- 公司压电石英晶片加工工设备技术规程
- 电切削工检验仪器校准实操考核试卷及答案
- 2025年台州天台县医疗卫生事业单位公开招聘卫技人员31人考前自测高频考点模拟试题及答案详解(易错题)
- 公司工业型煤工现场作业技术规程
- 2025年共青团考试题库(附答案)
- 全国数智产业发展研究报告(2024-2025)
- 2025麻精等特殊管理药品考核(医、药、护人员)试题及答案
- 2025山东淄博博山区城乡公益性岗位招聘492人笔试备考试题及答案解析
- 中职技能大赛备赛培训课件
- 新版中华民族共同体概论课件第六讲“五胡入华”与中华民族大交融(魏晋南北朝时期)-2025年版
- 六堡茶课件教学课件
- 材料作文“交流登山成功的经验”(2024年河南省中考满分作文9篇附审题指导)
- 2025年中国宽温液晶屏行业市场全景分析及前景机遇研判报告
- 小学语文高段课程标准解读
- 提高痰标本送检合格率PDCA课
评论
0/150
提交评论