




已阅读5页,还剩48页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于支持向量机的蛋白质功能预测研究 硕士生:林怡然 专业:分析化学 导师:邹小勇教授 摘要 生命科学技术的迅猛发展极大地丰富了生命科学的数据资源。这些数据蕴含了 许多重要的化学生物学规律。目前,大量的蛋白质一级序列已被测定,但结构与功 能的测定与一级结构的增加不成比例。因此,由序列出发预测蛋白质结构功能己成 为后基因组时代和现代生物信息学的研究热点。本论文基于近年来不断涌现的蛋白 质序列数据,采用新兴的机器学习方法支持向量基对蛋白质功能进行预测。其 主要内容如下: 1 建立了凋亡蛋白亚细胞位点预测新方法。采用改进的遗传算法同时优化支持 向量机的核参数和蛋白质一级结构特征子集,并采用“一对一的分类策略,预 测凋亡蛋白亚细胞位点。对标准数据集进行j a c m n f e 交叉验证,其预测精度为 9 4 9 ,优于文献报道值。结果表明:本文提出的方法能够得到表征蛋白质一级结构 序列的最优特征子集,从而提高预测成功率。 2 建立了蛋白质亚核位点预测的新方法。该方法采用最佳优先搜索策略来融合 基于蛋白质结构和物理化学性质的不同特征,并将最优的融合特征子集作为支持向 量机的输入用于预测蛋白质亚核位点。对标准数据集进行5 折交叉验证。结果表明: 采用经过最佳优先搜索策略选择的最佳融合特征子集能获得比单个特征或其他融合 特征子集更高的预测精度。 关键词:支持向量机,亚细胞位点,亚核位点,预测 s t u d y o fp r o t e i nf u n c t i o n sp r e d i c t i o nb a s eo ns u p p o r t v e c t o rm a c h i n e n a m e :l i n r a n s p e c i a l t y :a n a l ”i c a lc h e m i s t 叮 s u p e r v i s o r :p r o f z o ux i a o y o n g a b s t r a c t g r e a tp r o 黟e s sm a d ei ns c i e n t i f i ct e c i u l o l o g i e ss t r o n g l yb o o s td a t ar e s o u r c e sw h i c h c o n t a i n sm a n yv i t a lb i o c h e m i c a lm l e so fl i f es c i e n c e m a l s so fp r o t e i ns e q u e n c e sh a v e b e e nd e t e c t e d ,h o w e v e r ,o n l yv e r ) rs m a l lp a r t so fp r o t e i ns t r u c t u r e sa i l dm n c t i o n sa r e k n o 、v n t h u s ,p r e d i c t i o no fp r o t e i ns t m c t u r e sa n dm n c t i o n sb a l s eo ni t sp r i m a d rs e q u e n c e h a sb e c o m eah o tt o p i co fb o t hp o s t - g e n o m i ce r aa n dm o d e mb i o i n f o m a t i c s i nt h i sm e s i s 、e e m p l o y e dan e wm a c h i n el e a m i n gm e t h o d 一s u p p o n v e c t o rm a c h i n e ( s v m ) f o r p r o t e i nm n c t i o np r e d i c t i o na c c o r d i n gt 0 i t sp r i m a r ys e q u e n c e s t h em a i nc o n t e n t sa r e s h o 、v n b e l o w : 1 an e wm e t h o dw a l sc o n s t m c t e df o rp r o t e i ns u b c e l l u l a rs t m c t u r ep r e d i c t i o n i m p r o v e dg e n e t i ca l g o r i t w a se m p l o y e df o rt h es e l e c t i o no fp r o t e i nf e a t u r e sa n dt h e o p t i m i z a t i o nf o rk e m e lp a r a m e t e r so fs v m ,w 1 1 i c hi st h e nc o m b i n e dw i t hs v mu s i n go n e v e r s e so n ec 1 2 l s s 讯c a t i o ns t r a t e g yt op r e d i c ta p o p t o s i sp r o t e i ns u b c e l l u l a u rl o c a t i o n s a n d t l i g h e rp r e d i c t i o na c c u r a c yw a so b t a i n e db yj a c k k n i f et e s t t h a na n yo t h e rp r e v i o u s m e t h o d s t h er e s u l t ss h o w e dt h a tt h eo p t i m u mp r o t e i nf e a t u r e sc a ni n c r e 2 l s e sp r e d i c t i o n a c c u r a c ys u c c e s s m l l y i i 2 an e wm e t l l o dw 2 l sp r o p o s e df o rp r o t e i ns u b n u c l e a rl o c a t i o np r e d i c t i o n d i 腩r e n t p r o t e i nf - e a t u r e sb 嬲eo ni t ss t m c t u r a la j l dp h y s i o c h e m i c a ip r o p e r t i e sm e 唱e db yu s i n g b e s t f i r s ts t r a t i :g y t h em e 唱e df e a t u r e st h e n 、e r eu s e da si n p u t so fs v mf o rc l a s s i f i c a t i o n o fs u b c e l l u l a rl o c a t i o n s a5 一f o l dv a l i d a t i o nt e s tw a st a k e no ns t a n d a r dd a t a s e ts n 37 0 t 1 1 er e s u l t ss h o 、v e dt h a tt h eh i g h e s tp r e d i c t i o na c c u r a c ya p p e a u r sw h e nt h eo p t i m a l m e 唱i n gf e a t u r e ss e l e c t e db yb e s t - f i r s ts e a r c hw e r eu s e d 舔s v mi n p u t s k e yw o r d s :s v m ,s u b c e l l u l a u rl o c a t i o n ,s u b n u c l e a rl o c a t i o n ,p r e d i c t i o n i i i 论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指 导下,独立进行研究工作所取得的成果。除文中已经注明引 用的内容外,本论文不包含任何其他个人或集体已经发表或 撰写过的作品成果。对本文的研究作出重要贡献的个人和集 体,均已在文中以明确方式标明。本人完全意识到本声明的 法律结果由本人承担。 学位论文作者签名:黼 日期:列年6 月2 日 、j 学位论文使用授权声明 本人完全了解中山大学有关保留、使用学位论文的规 定,即:学校有权保留学位论文并向国家主管部门或其指定 机构送交论文的电子版和纸质版,有权将学位论文用于非赢 利目的的少量复制并允许论文进入学校图书馆、院系资料室 被查阅,有权将学位论文的内容编入有关数据库进行检索, 可以采用复印、缩印或其他方法保存学位论文。 学位论文作者签名:硎够泓 日期:刈年6 月2 日 导师签名:易p 勿雪 日期:刃昭年6月歹日 第1 章绪论 生命科学技术的迅猛发展,无论从数量还是质量上,都极大地丰富了生命科学 的数据资源。以目前国际上权威的蛋白质序列数据库s w i s s p r o t ( h 郇:、 ,、 r 、 r e b i a c u l ( s “s s p r o t ) 为例,1 9 8 6 年9 月建立伊始,仅含有3 9 3 9 条蛋 白质序列9 0 0 1 6 3 个氨基酸。到2 0 0 8 年2 月( r e l e a s e5 4 8 ) s w i s s p r o t 已经包含 了3 4 9 ,4 8 0 条蛋白质序列共1 2 5 ,2 8 6 ,9 7 6 个氨基酸。在短短2 0 年的时间里,蛋白质 序列的数目增加近9 0 倍。数据资源的急剧膨胀,迫使人们不得不考虑寻求一种强有 力的工具在有效地组织数据的同时,有效地对生物学信息进行存储和进一步加工利 用。在大量的化学生物学数据资源中,必然蕴含着许多重要的化学生物学规律。这 些规律正是我们解决许多生命之谜的关键所在。如何揭示这些数据的内涵,进而从 中得到对人类有用的信息,对于生命起源、遗传变异、疾病研究、新药开发以及农 业和食品制造业等诸多领域都具有重要的意义【l 训。 生物信息学作为生命科学与计算科学的融合体,成为新一代生物科学研究的重 要工具,为大量的生物学数据与揭示数据的生物学内涵之间搭起了桥梁 5 。8 】。到目前 为止,已知的蛋白质序列数以百万计,但结构功能已知的只有极少数。从序列出发 对蛋白质的功能进行研究,即蛋白质功能注释( p r o t e i na n n o t a t i o n ) 不仅是后基因组 时代的一个主要内容,也是现代生物信息学的一个研究热点。虽然蛋白质结构也能 通过实验方法测定【9 】,但这些方法不仅昂贵而且费时。因而从蛋白质序列出发,发 展自动的、可靠的理论预测方法就成为必然。 本文是在两项国家自然科学基金和一项广东省自然科学基金的资助下,基于蛋 白质序列数据,采用近年来新兴的机器学习方法支持向量机,结合遗传算法等 计算方法对蛋白质功能进行预测。 1 1 蛋白质的结构和功能 1 1 1 蛋白质的构成 蛋白质分子是由氨基酸首尾相连形成的共价多肽链( p o l y p e p t i d ec h a i n ) 。氨基 酸是构成蛋白质的基本化学单位。自然界中从生物体中发现的氨基酸约2 0 0 种【1 0 】, 但参与蛋白质组成的只有二十种常见氨基酸。在2 0 种常见氨基酸( 表1 1 ) 中,除 了脯氨酸外,其余的氨基酸在结构上都有一个共同点:与羧基相邻的a 碳原子上都 有一个氨基。因此,这1 9 个氨基酸被称为口氨基酸。口氨基酸的结构如图1 1 所 示。 i r c c o o 广 i n h 3 图1 1口氨基酸通式 f 培l lg e n e r a lf i o n n u l ao f 口一a u l l i n oa c i d 其中r 表示侧链基团。按尺基团极性的不同可以把氨基酸分成以下几类: 非极性:l e u ,i l e ,v 酊, a l a ,p h e ,1 印,p r o ,m e t ; 极性不带电荷:t l l r ,s e r ,t y r ,c y s ,a n s ,g l n ; 极性带正电荷:l y s ,a 唱,h i s ; 极性带负电荷:a s p ,g l u 。 蛋白质分子基本的连接方式是肽键。肽键是由一个氨基酸的氨基和另一个氨基 酸的羧基脱水形成的酰胺键。两个氨基酸缩去一个水分子后生成一个二肽,具体过程 见图1 2 。各个氨基酸由肽键按一定顺序连接起来构成一条多肽链。蛋白质分子就是 这样一条或者多条多肽链。多肽链有方向,有游离的氨基一端,称为氨基端( 锄i n o t e m i n u s ) 或n 端;含有游离羧基的一端称为羧基端( c a u r b o x yt e r i n i n u s ) 或称为c 一 端。肽的命名以n 端到c 端的氨基酸连接顺序为依据。 表1 1 2 0 种常见氨基酸中英文名称与英文简写对照表 1 a b l e1 1c h i n e s e e n g l i s hn 锄e sa n d a b b r e v i a t i o n so f2 0c o m m o na m i n oa c l d s 氨基酸名称 英文简写 氨基酸名称英文简写 缩写 缩写 一一一 丙氨酸( a l a l l i n e ) a l aa亮氨酸( 1 e u c i n e ) l e u l 精氨酸( a r g i n i n e ) 天冬酰胺( a s p a r g i n e ) 天冬氨酸p 缸i ca c i d ) 半胱氨酸( c y s t e i n e ) 谷氨酰胺( 酉u t s m i n e ) 谷氨酸( g l u t s m i ca c i d ) 甘氨酸( g l y c i n e ) 组氨酸( h i s t i d i n e ) a 唱 a s n a s p c y s g l n g l u g l y h i s r 赖氨酸( 1 y s i n e ) n 甲硫氨( m e t h i o n i n e ) d 苯丙氨( p e n y l a l a n i n c ) c 脯氨酸( p r o l i n e ) q 丝氨酸( s e r i n e ) e 苏氨酸( t h r e o n j n e ) g 色氨酸( 仃y p t o p h a n ) h 酪氨酸( t y r o s i n e ) 异亮氨酸( i s o l e u c i n e ) i l e i 颉氨酸( v a l i n e ) v a lv 龟n i 羁+l 萌+ - 丛一。 + h ,n 壬专童芏王- 童。 i ;l i;i l l 一 + h 1 n c c n 一c c o 3 l ; 。 ;j r l :璺jr 2 肽键 图1 2 肽键的形成 f i g 1 - 2c o n f b 衄a t i o no fp e p t i d eb o n d 3 k m f p s t w y m :薹 m 哳 l 莹 唧m 1 1 2 蛋白质的结构层次 蛋白质分子是由氨基酸首尾相连而成的共价多肽链,但是天然的蛋白质分子并 不是走向随机的松散多肽链。每一种天然蛋白质都有自己特有的空间结构或称三维 结构,这种三维结构通常被称为蛋白质的构象,指的是蛋白质分子中所有原子在三 维空间中的排布。一种给定的蛋白质理论上可采取多种构象,但在生理条件下,只 表现为一种或很少几种。为了表示蛋白质结构不同的组织层次,一般将蛋白质结构 分为四类:一级结构( 研m a 叮s t m c n 鹏) 、二级结构( s e c o n d a r ys t m c n 鹏) 、三级 结构( t e r t i a r ys t m c t u r e ) 和四级结构( q u a t e m a r ys t m c t u r e ) 。 一级结构是指蛋白质氨基酸序列;二级结构是指多肽链借助氢键排列成自己特 有的口螺旋和折叠股片段,这些片段构成规则结构( r e g u l a rs t m c t u r e ) ,这些弹簧的螺 圈沿一维方向伸展;三级结构是指多肽链借助各种非共价键( 或非共价力) 弯曲、 折叠成具有特定走向的紧密球状构象,球状构象给出最低的表面积和体积之比,因 而使蛋白质与周围环境的相互作用降低到最小;四级结构是指寡聚蛋白质中各亚基 之间在空间上的相互关系和结合方式,其中各个亚基又有自己特定的3 0 结构。有些 蛋白质分子只有一级、二级、三级结构,没有四级结构;但有些较大的蛋白质分子, 不仅有一级、二级、三级结构,还存在四级结构,这取决于蛋白质分子的复杂程度。 所谓亚基,指的是由多条多肽链构成的蛋白质分子中每一条形成的特定3 0 结构的多 肽链。蛋白质四类结构层次如图1 3 所示。 4 p r m a 珂 蠢lr 1 州! t u f t 鞫枣e o n d a r y 蠡l f l l e t l 王r c 孙r t l l r y 蓐毛r u e t u l ,+ y _ _ * - w 竹- _ - _ - 黟 嚼,二 l u a t 枣n 1 琦r y 譬t r u c t u r e 图1 3蛋白质的结构层次 f i g 1 3 t h eh i b e r a r c h yo fp r o t e i n 1 1 3 维持蛋白质高级结构稳定性的因素 蛋白质肽链内部的原子和集团之间的相互作用也就是蛋白质产生高级结构和稳 定蛋白质高级结构的一个重要原因。肽链内部一些原子和基团的相互作用,也就是 我们常见的一些分子和基团间的化学键或相互作用。主要有以下几种 n 】: ( 1 )静电作用: 氨基酸中多种可离解的侧链集团,在正常的生理条件下,有带正电荷的,也有 带负电荷的。离解后的带电侧链,相互间可能产生静电作用,习惯上也称之为盐键。 而蛋白质中一些极性基团,在分子内其他原子或基团的诱导作用下,也可能形成一 定稳定性的永久偶极。这种偶极偶极之间或者偶极带电基团之间也会产生相互作 用。这种相互作用使肽链骨架维持了一定的空间稳定结构。 ( 2 ) 氢键: 在蛋白质肽键骨架中存在大量的羰基和亚胺基团,氨基酸残基的侧链中很多本 身也带有极性基团。肽键中亚胺基上的氢和羰基上的氧( 包括肽链骨架中的羰基和 一些酸性残基中的羧基或酰胺基上的羰基) 形成h o 氢键。形成氢键的能量变化并 不很大,但是氢键在蛋白质的结构和功能中尤其是二级结构的形成中特别重要。氢 键还可以在侧链与侧链、侧链与水分子、主链肽基与侧链或主链肽基与水之间形成。 , 蓥 一 雌 , k , 茎; 孙 氢键具有方向性,当参与形成氢键的三个原子在同一直线上时,作用力最强。 ( 3 ) 范德华力: 蛋白质中所有原子都在不断地运动,原子中的电子也绕着原子核不停地运动。 在运动中一些原子的正负电荷会产生瞬间的相对偏移,因而形成瞬间偶极。这些偶 极瞬间偶极之间也能发生相互作用,被称为色散力,也成为范德华力。尽管范德华 力很弱,而且只在很短的距离内有作用,但是由于蛋白质分子内的原子数目是大量 的,这种色散力也不容忽视。 ( 4 ) 残基的亲水性与疏水性: 多数化学物质可以简单的分成两类:能与水相互作用的和不能与水相互作用的。 具有极性侧链的分子,其表面具有带正电荷的区域和带负电荷的区域,这些区域很 容易与水作用,或形成氢键,或融合于水环境中,它们表现出来的性质是亲水的。 而非极性的侧链则具有相反的性质,它们的分子以非极性键相连,因此它们更倾向 于与同类侧链相互接触,而避开水的极性侧链,这种现象就是疏水作用。疏水作用 总是倾向于埋藏蛋白质分子内部以最大限度地减少与水分子的接触。在蛋白质二级 结构中,疏水作用并不是最重要的,但对于三级结构的形成和稳定,疏水作用是诸 多因素的首要因素。 ( 5 )配位键: 一些蛋白质中除了肽链外还含有一些金属,这些蛋白质可以成为金属蛋白。在 组成蛋白的氨基酸中,可参与氢键的很多基团都能和一些金属形成配位键。这些金 属不仅对稳定蛋白质的结构有作用,并且对其功能也有贡献。 ( 6 )二硫键: 二硫键是一种共价键。多数蛋白质都具有二硫键。在新生肽链合成后,两个半 胱氨酸的侧链巯基氧化成胱氨酸,二硫键才在肽键中出现。二硫键的形成使得蛋白 质肽链的空间结构更为紧密,对稳定蛋白质的结构也起了重要作用。 ( 7 )其他因素: 除了二硫键,其他蛋白质肽键翻译后的加工,如糖基化和磷酸化等,都会对蛋 白质的构象产生影响。 6 1 1 4 蛋白质的功能 蛋白质分子最重要的生物学功能就是作为酶催化体内各种化学反应,维持生物 的新陈代谢。同时,它也是有机体的重要结构成分。有些蛋白质作为激素参与代谢 调节,还有蛋白质作为具有免疫功能的抗体参与免疫反应。 蛋白质的功能主要体现在以下几个方面【1 1 书】: ( 1 ) 酶的催化。差不多所有生物体系内的化学反应都被称为酶的大分子所催化, 几乎所有的酶都表现出极强的催化能力,它们一般将反应的速度提高至少1 0 0 万倍。 而在没有酶的情况下,生物体内的很多反应几乎都不能进行。常见的酶有脱氢酶、 合成酶、蛋白酶、转移酶、激酶等。酶在保护细胞正常生理状态方面起着至关重要 的作用。己知有几千种不同的酶被表征,其中不少已得到晶体。而最引人注目的事 实是所有已知的酶都是蛋白质。 ( 2 ) 物质运载和储存。很多小分子和离子是由专一蛋白质来运载的。如,氧在 血液是通过红血球中的血红蛋白来运载的,在肌肉中是通过一种另相似的蛋白 肌红蛋白来运输的;铁在血浆中通过转铁蛋白运载,而在肝中则与铁蛋白形成复合 体储存起来。 ( 3 ) 营养储存。许多蛋白质用于储存营养,如卵清蛋白和酪蛋白。 ( 4 ) 运动协调。蛋白质是肌肉的主要成分,肌肉的收缩是通过两种蛋白丝的滑 动来完成的。在微观水平上,这样的协调动作,如有丝分裂中染色体的运动以及精 子靠鞭毛运动等,都是由特殊蛋白质而产生的。 ( 5 ) 机械支持。结构蛋白质具有保护生物体的作用,例如,胶原蛋白是肌腱、 软骨、皮肤的主要成份,使它们具有高抗张强度;角蛋白是毛发、指甲、羽毛的主 要构成成分;蚕丝蛋白是蜘蛛网的主要构成成分。 ( 6 ) 免疫保护。抗体是高度专一的蛋白质,它们能够识别病毒、细菌以及来自 其他有机体的细胞,并与这些异物结合。蛋白质在区别自身和非自身中起着重要作 用。 ( 7 ) 信号接受与传导。例如,受体蛋白接受与传递调节信号,嗅觉蛋白感受化 学信号,视紫红质感受光信号。 ( 8 ) 生长和分化的控制。遗传信息的受控顺序表达对细胞有序生长和分化是十 分重要的。例如,d n a 结合蛋白调控基因的表达,控制基因表达的时空顺序;神经 生长因子是在高等生物体中引导形成神经回路的一种蛋白复合体;胰岛素调控生物 体内的糖代谢过程。 1 2 蛋白质结构功能预测 蛋白质氨基酸序列决定蛋白质的高级结构即蛋白质的一级结构决定其高级结 构,而蛋白质的高级结构决定蛋白质的功能,这一结论已经普遍被人们接受【8 j 。这 一结论也成为从蛋白质序列出发,预测蛋白质高级结构和功能的理论依据。 蛋白质结构虽然可以通过实验方法测定,但是这种测定方式不仅耗时而且花费 巨大。现在大量的蛋白质序列信息数据进入蛋白质数据库,并且呈指数式增长。因 此,把所有蛋白质的结构功能测定完全依靠具体的实验是行不通的。如何寻求的一 种强有力的数据处理分析工具,发展快速有效的蛋白质结构功能预测方法成为近年 来科学研究的热点之一。为了解决这一难题,广大的科研工作者提出并发展了很多 分类预测的方法。总的来说这些方法可以分为两类1 1 4 j :一类是基于同源性比较的方 法( h o m o l o g ym e t h o d s ) 。这类方法主要基于高度相似的两条蛋白质序列,可能具有相 似的结构和功能的原理。对于结构和功能未知的蛋白质,通过与网络上的数据库中 的结构和功能己知蛋白质序列进行相似性比较,来搜索与其最相近,同源性最高的 序列。目前互联网上常用的数据库有g e n b a n k 【1 5 1 叫c b i ,美国国立卫生研究院生物技 术中心) ,e m b l 【1 6 j ( e m b l e b i ,欧洲分子生物学实验室欧洲生物信息学研究所) 和d d b j 【1 7 】( 日本国立遗传研究所) 。这类方法是目前发展比较成熟的一类方法,常 用的软件有b l a s t 【1 引,f a s l a 【1 9 2 0 1 以及p s i b l a s t 【2 1 1 等等。但是,这类方法的缺 点也是显而易见的,那就是并不是所有结构和功能未知的蛋白质都能找到与之同源 的蛋白质序列,而且有些序列不相似的蛋白质也具有相似的功能。 第二类方法是基于机器学习和统计技术的数据挖掘方法( d a t am i n i n go r d i s c r i m i n a t i v em e t h o d s ) 。与同源性比较的方法不同,这类方法完全不需要序列的同 源性信息,而是通过对己知结构或功能的蛋白质数据集( 样本) 学习,得到某种规 则( r u l e s ) ,然后将得到的规则应用于未知蛋白质的预测。这类方法由于不需要事先 8 知道蛋白质的任何相关信息,仅仅依靠蛋白质的一级结构序列,就可对未知蛋白质 进行结构和功能的预测,所以近年来在生物信息学领域得到了普遍关注。 1 2 1 蛋白质序列表征方法 蛋白质是生物体内一切生命活动的执行者。生物体内的蛋白质种类繁多,分布 广泛,所具有的功能也多种多样。所有蛋白质都是由2 0 种氨基酸构成的。这2 0 种 氨基酸的侧链在大小、形状、电荷、形成氢键的能力和化学活性等方面都存在差异。 正是由于这2 0 种氨基酸的物化性质的差异以及它们的各种组合变化,构成了蛋白质 在结构和功能上的多样性。因此,在构成蛋白质的氨基酸序列中蕴涵着丰富的结构 和功能信息,如何将这些信息提取出来,是影响预测方法性能的关键,也是近年来 有关蛋白质预测领域的研究热点。基于序列的蛋白质功能结构预测方法,首要便是 如何表征蛋白质序列,使得蛋白质能被计算机识别。 尽管蛋白质种类和数目繁多,但是由氨基酸残基组成的蛋白质序列或者多肽序 列可以统一表达为:蜀尺:恐氐。其中,r 代表在蛋白质序列第f 个位置上的氨基 酸残基。根据已知的文字表达应用,将计算特征量分为四类。在氨基酸的表示中, 经常用f ,表示氨基酸的位置,而用,s 表示氨基酸的类型。通常我们需要将字符序 列转换成数值序列从而进行预测分析。 ( 1 ) 氨基酸组成与双残基组成 氨基酸组成表示了2 0 种氨基酸在蛋白质序列中出现的频率: m ) = 等 ,= l ,2 ,3 ,2 0 ( 1 一1 ) - 表示第,类氨基酸出现的次数,代表整个蛋白质序列氨基酸残基的数目。 双残基组成用向量表示为: 户( ) = 格 = 1 ,2 ,3 ,2 0 ( 1 _ 2 ) 其中,以表示由,和s 型氨基酸组成的双残基数目。 近年来,氨基酸组成双残基组成已经广泛应用在蛋白质结构类预测【2 2 - 3 4 1 、亚细 9 胞位点预测【3 5 4 们,酶家族和亚家族分类4 1 4 2 j 等多个蛋白质预测领域,取得了较为理想 的结果。虽然氨基酸组成方法能够方便地表征蛋白质序列,并且方便算法实现,但 是它将蛋白质序列中的氨基酸残基孤立起来,忽略了氨基酸残基之间的相互作用, 即没有考虑氨基酸排列次序,这必然会丢失一些重要的信息。并且它无法区分那些 氨基酸组成相同,而氨基酸排列顺序不同的蛋白质。为此又有研究者提出了三残基 组成( t r i p e p t i d ec o m p o s i t i o n ) 【3 3 4 3 】和耦合组成( p a i r - c o u p l e d 锄i n oa c i dc o m p o s i t i o n ) 【3 3 1 , 试图提取部分氨基酸残基的顺序信息,取得了一定的效果。 ( 2 ) 自相关函数 自相关函数是某种氨基酸性质在蛋白质序列中的分布状态。其中三种自相关函 数是常用的。而用于计算自相关函数的氨基酸特征指数在计算前一般都需要归一化 处理式( 1 3 ) 。用于计算这些自相关函数氨基酸指数包括:氨基酸的疏水值m 】,平 均弹性指数【4 5 1 ,极性参数4 6 1 ,水溶液中的自由能4 6 1 ,三肽氨基酸残基表面积【4 7 1 ,残 基的空间体积【4 引,原子空间参数【4 9 】和氨基酸相对易变性删等。 ,= 型 盯 表示2 0 种氨基酸某种特征指数的平均值: 仃由式1 5 定义: 2 0 一p一_ 尸= l 2 0 ( 1 3 ) ( 1 4 ) ( 1 5 ) 三种常用的自相关函数:m b 自相关函数,m o 自相关函数和g e 自相关函数分 别通过下面公式计算得出。 l o m b 自相关函数定义如下: n d 彳c ( d ) = 尸只+ d ( 1 6 ) 标准化的m b 自相关函数: 彳硒( d ) :丝塑 、1 n d ( 1 7 ) 删户壶一 ”8 , 专善( 只一) 2 一只 嘉岛艺( 只以 c ( 妒型半# 二二 ( 1 _ 1 0 ) 志( 一) 2 一1 智叫 7 表1 2 氨基酸的性质与分布 t a b l e1 2a m i n oa c i da t t r i b u t e sa n dt h ed i v i s i o no ft h ea m i n oa c i d s 组成( c o m p o s i t i o n ) :指的是蛋白质序列每个编码类的百分含量。用上述以疏水 性编码的序列l 为例,编码为“l ”,“2 ”,“3 ”的氨基酸数量分别为5 ,1 0 ,5 ,因此它 们的组成分别为5 2 0 = 2 5 ,l o 2 0 = 5 0 和5 2 0 = 2 5 。2 0 是蛋白质序列的长度。组 成的定义如式( 1 1 1 ) 所示: c ,2 专 ,= 1 ,2 ,3 ( 1 - 1 1 ) 玎,是指,在编码序列中的个数,是指序列的编码个数。 转换( t 啪s i t i o n ) :以第l 类第2 类之间的转换为例,这指的是在序列1 中编码“1 ” 后面为编码“2 ”与编码“2 ”后为编码“l ”出现的频率之和。转换描述符可以通过式 ( 1 1 2 ) 得到: 疋= 酱船= m ”,1 3 ”,2 3 ( 1 - 1 2 ) 其中,是编码为“憎”和“s ,”的二肽在序列中的数量。 分布( d i s t r i b u t i o n ) :是指各个性质在序列中的分布,某一类性质在不同比例位置 ( 第一个,前2 5 ,前5 0 ,前7 5 和1 0 0 ) 的分布情况。以序列l 为例:“序列 1 ”有2 0 个氨基酸残基一共2 0 个编码。序列中,共有1 0 个位置被编码为“2 ”。第一 个“2 ”所在的位置为2 ,前2 5 编码为“2 ”的最后位置在5 ,前5 0 编码为“2 ”的最后 位置在1 5 ,前7 5 编码为“2 ”的最后位置在1 7 ,所有编码为“2 ”的最后位置在2 0 。 因此,分布描述符可以表示为: 1 0 o ( 2 2 0 1 0 0 ) ,2 5 0 ( 5 2 0 1 0 0 ) , 7 5 0 ( 1 5 2 0 1 0 0 ) ,8 5 0 ( 1 7 2 0 1 0 0 ) ,1 0 0 0 ( 2 0 2 0 1 0 0 ) 。 除了上述几种方法以外,蛋白质预测领域常用的序列表征方法还有蛋白质功能 域组成( f u n c t i o n a ld o m a i nc o m p o s i t i o n ) 方法【5 3 】,g o ( g e n eo n t o i o g y ) 方法【5 4 1 ,分组重 量编码( e n c o d i n gb 嬲e do ng r o u p e d 、v e i g h t ) 方法【5 5 】和伪氨基酸组成( p s e u d o 锄i n o a c i dc o m p o s i t i o n ) 方法【5 6 】等等。 1 2 2 支持向量机算法( s u p p o r tv e c t o rm a c h i n e ) 支持向量机s v m ( s u p p o r tv e c t o rm a c h i n e ) 是一类新颖的机器学习方法,最早 是由a t & b e l l 实验室的v v a p n j k 提出【57 1 ,主要针对分类和回归问题的统计学习理论。 与传统的统计学方法不同,s v m 建立在统计学习理论( s 诅t i s t i c a l l e a m i n gt h e o 巧,s l t ) 基础之上,能够较好地解决小样本、高维数、非线性和局部最小等实际问题【5 8 巧9 1 。 由于s v m 方法有s l t 作为其坚实的数学基础,并且可以很好的克服“维数灾难”和 “过拟合”等传统算法所不可规避的问题,所以该方法已成为继神经网络之后新的研 究热点,并在各种蛋白质预测领域如,蛋白质二级结构预测【6 0 石2 1 ,结构类预测【6 3 删, 亚细胞位点预测【6 5 确1 和膜蛋白分类吲等,得到了广泛应用。 支持向量机的主要思想是:对于在输入空间( i n p u ts p a c e ) 线性不可分的两类样 本,可以通过核函数烈k e m e l m c t i o n ) 将其映射至高维特征空间( f e a t u r es p a c e ) ,在这 个空间中寻找一个有最大间隔( m a 曙i n ) 的最优超平面( o p t i m a ls e p a r a t i n gh y p e r p i a j l e , o s h ) 使其线性可分,其中距离最优超平面的最近的点被称为支持向量( s u p p o f t v e c t o r ,s v ) ( 如图1 4 ) 。 i n p u ts p a c e f e a t u r es p a c e 图1 4 支持向量机的基本思想 f i g 1 - 4t h eb a s i ci d e ao fs u p p o r tv e c t o rm a c h i n e 1 2 2 1 两类分类问题 设三为线性可分训练样本集 ( 薯,咒) ,f = l ,2 ,厶_ r d ,以 + l ,一l ) ,葺为输入 空间的d 维特征向量, 咒为类别标记。当咒= 1 时,t 属于第一类;当咒= 一l 时,毛 属于第二类。则存在分类超平面日: w x + 6 = 0( 1 1 3 ) 使得所有的样本满足: m ( w 墨+ 6 ) l ,( f = l ,2 ,) ( 1 1 4 ) 样本葺到分类超平面日的距离为: 川剐= 错 每类距离超平面最近的样本到超平面的距离之和称为分类间隔。分类间隔可表示为: 脚= 赢 ( 1 - 1 6 ) 根据统计学理论,所谓最优分类超平面就是要求不但能将两类样本正确分开,而且 要使分类间隔最大。要使式( 1 1 6 ) 中的赢最大,就等价于使掣最小。因此, 寻找最优分类超平面的问题就转化为在( 1 1 4 ) 约束条件下,使坚些最小化的优化 问题。即: 施胛卸眈矽( w ) = 知w i l 2 ( 1 1 7 ) w 6z ” “ 这是一个线性约束下的凸二次式优化问题,可根据l a g r a n g e 方法求解,最终的 判别函数是: 工 ( x ) = s g n ( 西咒( x ) + n ( 1 - 1 8 ) 式中z 为l a g r a n g e 乘子,6 为分类域值,可由任意支持向量求得。 当训练样本集线性不可分时,可以在条件( 1 - 1 4 ) 中增加一个松弛项辱o 调整 约束条件,优化问题变成: 施门妒乡矽( w ,6 ,f ) = 如w ij 2 + c 窆毒 w ,6 fz ”:了 s “b o e c tt 0 以( w 薯+ 6 ) 1 一缶,f = l , ( 1 - 1 9 ) 这里的参数0 被称为惩罚参数,它决定了分类误差与类别间距之间的折中, 一般需要根据实验发现合适的c 值。 当训练样本为非线性时,可通过一个非线性函数锵训练样本集映射到一个高维 线性特征空间,在这个维数可能无穷大的线性空间中构造最优分类超平面,并得到 分类器的判别函数。此时,分类超平面就变为: w 妒( x ) + 6 = 0 ( 1 2 0 ) 寻找最优分类超平面的问题可描述为: m 刀即( w ,6 ,孝) :知w 0 2 + c 圭毒 m6 。善 z ”: s u b j e c tt o 咒 w 伊( 薯) + 6 】1 一量,f = l ,三 ( 1 一1 9 ) 通过l a g 啪g e 方法求解,最终的判别函数是: 1 5 l ( x ) = s g n 口? 只k ( 薯,x ) + 6 ( 1 2 0 ) 式中的k ( ,石) = 缈( ) 妒( _ ) 称为核函数。正是核函数的引入,使得支持向量机在处 理大量非线性问题时,不是对输入空间的样本作复杂的非线性变换,而是通过核函 数将样本映射到高维线性空间来构造最优分类超平面,从而有效地克服了“维数灾 难”问题。同时也为支持向量机提供了极大的灵活性,使其有了更广泛的应用范围。 常用的核函数有以下几种: ( 1 ) 线性核函数:k ( 薯,x ) = 薯 ( 2 ) 多项式核函数:k ( 薯,x ) = ( 毛_ + 1 ) d ( 3 ) 径向基核函数:k ( 薯,x ) = e x p ( 一川葺一怖 ( 4 ) s i g m o i d 核函数:k ( 一,x ) = t 甜血 v ( t ) + c 】 1 2 2 2 多类分类问题 支持向量机最初是基于两类分类问题提出来的,为了解决多分类问题,通常的 做法是将多分类问题简化为一系列的二分类问题。简化方法有两种:一种是一对多 ( o n e v e r s u s r e s t ) 的方法【6 8 1 ,另一种是一对一( o n e - v e r s u s o n e ) 的方法【6 9 】。 一对多的方法是将多类样本中的任意一类作为正样本,而将剩下的其余各类样 本作为负样本,构建二类分类器,然后依次循环。对于一个类问题,一对多的方 法需要构造个二类分类器,其中第f 个分类器是以第f 类样本作正样本,而将其 他的样本作为负样本。但是这种方法会带来假阳性( f a l s ep o s i t i v e ,f p ) 问题【6 9 】, 即一个样本可能会被分类器同时分为几类。解决f p 问题的方法有两种:一种是d i n g 等人【6 7 1 提出的唯一的一对多( u n i q u eo n e v e r s u s r e s t ) 方法。这种方法是对那些产生假 阳性的样本,继续用一对一的方法分类,最终结果以投票法给出。另一种方法是最 大值( w i m l e r - t a k e s a 1 1 ) 法【7 0 1 。这种方法是将支持向量机的分类结果用实值来表示而 不是通常所使用的类别标记( 即+ 1 和1 ) ,然后将待测样本判为实值最大的那一类。 支持向量机的实值可以通过去掉判别函数( 如式( 1 2 0 ) ) 中的符号算子s g n 得到。 一对一方法是用多类样本中的任意两类组成训练集来构建二分类器的方法。对 1 r 于一个类问题,一对一的方法需要构造( - j ) 2 个二类分类器,最终结果以投票 法给出,即将待测样本判为得票数最多的那一类。这种方法的缺点是随着问题类别 数的增大,所需构建分类器的数目会急剧增加。 对于多分类问题的另一种解决方法是直接的多类分类方法【7 l 】,这种方法是同时 考虑所有类别中的样本构建一个分类器来进行分类。与一对一和一对多方法比较, 其优点是构建分类器时考虑了类别之间的联系,同时有效地克服了f p 问题【7 2 】。 除了支持向量机以外,蛋白质预测中常使用的算法还有共协判别( c o v 撕a n t d i s c r i m i n a n t ) 算法【6 9 1 ,k 最近邻( k n e a r e s tn e i g h b o r s ) 算法【7 4 - 7 5 1 ,贝叶斯( b a y e s i a j l ) 算法【7 6 】和人工神经网络( a n i f i c i a ln e u r a ln e 帆o r k s ) 算法等。 1 2 3 分类系统的评价 1 2 3 1 评价方法 当一个预测方法( 分类器) 建立好以后,下一步工作就是对其预测性能作出评 价。在统计方法中,常有的评价方法有三种:自检验( s e l g c o n s i s t e n c ye x 锄i n a t i o n ) , 交叉验证( c r o s s v a l i d a t i o ne x 锄i n a t i o n ) 和j a c k l ( t l i f e 检验( j a c k k n i f ee x 锄i n a t i o n ) 。 自检验是用分类器在训练集上所得到的模型参数,去预测训练集。也就是说, 在自检验过程中,所用的训练集和预测集是相同的。因此,自检验的预测精度往往 比较高,不能够代表分类器的实际预测性能。自检验一般用来检验分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 宁夏卫生健康职业技术学院《建筑技术概论》2023-2024学年第二学期期末试卷
- 美术教学课件评论
- 酒店开业营销方案(3篇)
- 运动治疗颈椎病讲课件
- 小洋葱mv教学课件
- 物理电功率讲课件
- 合作机构评估方案(3篇)
- 废弃公路开发方案(3篇)
- 农机监控调试方案(3篇)
- 库存压货处理方案(3篇)
- 夏令营安全管理工作制度
- 2024年黑龙江、吉林、辽宁高考生物试卷(含答案解析)
- 5【选必下】高中语文部编版教材选必下册课内文言文精练
- 中医疾病症状评分总表(终极版)
- 实验室安全教育课件
- 透析病人不安腿综合征
- 市政病媒生物防制基础知识练习题及答案(200题)
- 2024年国资委研究中心事业单位招聘5人历年(高频重点复习提升训练)共500题附带答案详解
- 2024江苏省扬州市高一下学期期末考生物试题及答案
- 2024年个人劳务承包合同书
- 2023-2024学年河北省唐山市路南区数学五年级第二学期期末监测试题含解析
评论
0/150
提交评论