




已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 细胞因子是由多种细胞所分泌的低分子量( 1 5 - - - - 3 0 k d ) i 拘蛋白或糖蛋白,通 过与相应受体的结合,调节细胞的生长和分化,参与免疫、炎症反应和创伤愈合。 因为细胞因子通过与受体的相互作用来行使以上功能,所以细胞因子受体相互 作用成为研究细胞因子功能的关键。然而,由于细胞因子以网络形式行使生物功 能,众多细胞因子在机体内相互促进或相互抑制。这一特性使我们对细胞因子的 新功能和新细胞因子受体的存在所知甚少,又因为传统实验方法费用高,耗时长, 所以应用计用算方法系统研究细胞因子受体相互作用,以揭示细胞因子的新功 能、新受体十分必要。本课题首先建立基于支持向量机的分类模型,用来从人类 蛋白组中预测新的细胞因子受体相互作用,最终得到1 6 0 9 个新相互作用,由2 4 4 个新受体和所有1 1 2 个已知受体参与。通过改进训练方法,该模型与常规支持向 量机方法训练的模型相比有较高的准确,1 生( 9 9 2 ) 。进一步分析显示,各家族的 细胞因子受体趋向于享有共同的序列模式( d o m a i n s m o t i f s ) ,以便保证与细胞因 子的特异结合。基因表达模式分析发现细胞因子与其相应受体的基因表达只有微 弱的组织相关性。染色体分布研究发现人类基因组有1 1 个明显的己知和或预测 细胞因子受体集中分布区。预测的相互作用参与了3 1 个细胞p a t h w a y ,其中9 条为首次发现可能与细胞因子有关。 关键词:细胞因子,细胞因子受体,支持向量机 a b s t r a ( :r a b s t r a c t c y t o k i n e s ,1 5 3 0 k d ,a r e ad i v e r s eg r o u po fc e l li n t e r c e l l u l a rm e s s e n g e r s r e s p o n s i b l ef o rs i g n a l i n gv a r i e t yo fc e l lf u n c t i o n s ,s u c ha si m m u n i t y ,h e m a t o p o i e s i s , c h e m o t a c t i ca c t i v i t i e s ,c e l l m a t u r a t i o n ,p r o l i f e r a t i o n ,g r o w t ha n dd i f f e r e n t i a t i o n t h r o u g ht h e i ri n t e r a c t i o n sw i t hr e s p e c t i v er e c e p t o r so nc e l lm e m b r a n e s t h eb i n d i n go f c y t o k i n et oi t sc o m p l e m e n t a r yr e c e p t o ri sc r u c i a lf o rt r i g g e r i n gc y t o k i n e s p e c i f i c c e l l u l a ra c t i v i t i e s i nt h i ss t u d y ,as e r i e so fb i o i n f o r m a t i c sa n ds t a t i s t i c a la n a l y s e s w e r ec o n d u c t e dt op r o b ec y t o k i n e s p e c i f i ca c t i v i t i e sb yi d e n t i f y i n gc y t o k i n e r e c e p t o r i n t e r a c t i o n si nt h eh u m a ng e n o m e a na d v a n c e ds u p p o r tv e c t o rm a c h i n e ss y s t e m c y t o s v mw a sc o n s t r u c t e dt os u c c e s s f u l l yi d e n t i f y ( e s t i m a t e dp r e d i c t i o na c c u r a c y 9 9 2 ) 1 , 6 0 9n o v e lc y t o k i n e r e c e p t o ri n t e r a c t i o n sf r o mh u m a ng e n o m e t h i sc o v e r s 2 4 4d i s t i n c tn o v e lc y t o k i n e r e c e p t o r sa n d11 2k n o w nc y t o k i n er e c e p t o r s t o c h a r a c t e r i z et h e c y t o k i n e r e c e p t o ri n t e r a c t i o n s ,s y s t e m a t i ca n ds t a t i s t i c a la n a l y s e s w e r ed e m o n s t r a t e dt oi l l u s t r a t et h e i rs t r u c t u r a l ,t r a n s c r i p t i o n a la n dg e n o m i cf e a t u r e s i ti sf o u n dt h a tc y t o k i n er e c e p t o r si n t e n dt os h a r es o m ec o m m o ns i g n a t u r ep a t t e r n s ( d o m a i n s m o t i f s ) i n s i d ef a m i l i e s t h e s ep a t t e r n s a r ec o n s e r v e da n ds p e c i f i ci n r e s p e c t i v ec y t o k i n er e c e p t o r f a m i l i e sf o re x e c u t i o na n dm a i n t e n a n c eo ft h e i r c y t o k i n e r e c e p t o ri n t e r a c t i o n s d a t am i n i n go ft h eg e n ee x p r e s s i o np r o f i l e sr e v e a l e d t h a t o n l y w e a kc o r r e l a t i o nb e t w e e nt h e e x p r e s s i o n s o f c y t o k i n e s a n dt h e i r c o m p l e m e n t a r yr e c e p t o r s c h r o m o s o m a ll o c a l i z a t i o no fc y t o k i n er e c e p t o r se x h i b i t s1 1 o b v i o u sd u s t e r so fk n o w na n d o rp u t a t i v ec y t o k i n er e c e p t o r sd i s t r i b u t e di nh u m a n c h r o m o s o m e s ;s o m eo fw h i c ha r es e e mt ob ec e l l u l a ra c t i v i t i e s r e l a t e d i np a r t i c u l a r , t h e s en e w l yi d e n t i f i e di n t e r a c t i o n sa r ei n v o l v e di n31c h a r a c t e r i z e dc e l l u l a ra c t i v i t i e s i nk e g g p a t h w a yd a t a b a s e ,9o ft h e s ea c t i v i t i e sh a v e n tb e e nw e l ls t u d i e do rf o u n d f o rt h ek n o w n c y t o k i n e s k e yw o r d s :c y t o k i n e ,c y t o k i n er e c e p t o r , s u p p o r tv e c t o rm a c h i n e 2 厦门大学学位论文原创性声明 兹呈交的学位论文,是本人在导师指导下独立完成的研究成 果。本人在论文写作中参考的其他个人或集体的研究成果,均在 文中以明确方式标明。本人依法享有和承担由此论文而产生的权 利和责任。 声明人( 签名) :诲 毒南 美婀年6 月毕日 厦门大学学位论文著作权使用声明 本人完全了解厦门大学有关保留、使用学位论文的规定。厦门大 学有权保留并向国家主管部门或其指定机构送交论文的纸质版和电 子版,有权将学位论文用于非赢利目的的少量复制并允许论文进入学 校图书馆被查阅,有权将学位论文的内容编入有关数据库进行检索, 有权将学位论文的标题和摘要汇编出版。保密的学位论文在解密后适 用本规定。 本学位论文属于 1 、保密() ,在年解密后适用本授权书。 2 、不保密( ( 请在以上相应括号内打“”) 作者签名:讲津瑞 导师签名:乏摅挲 厶岱育 日期:。噼6 月甲日 日期:汕驴汐v 日 前高 1 前言 1 1细胞因子 1 1 1 细胞因子的定义 细胞因子是由多种细胞所分泌的,具有调节细胞的生长和分化、调节免疫、 参与炎症发生和创伤愈合等功能的小分子多肽的总称【1 】。细胞因子的种类繁 多,生物学作用各异,作为细胞间信号分子,它们在多种细胞活动中起着重要作 用。 1 i 2 细胞因子的种类及功能 根据结构和主要功能,细胞因子可被分为以下几类【2 】: 白细胞介素( i n t e r l e u k i n ,i l ) 是由淋巴细胞、单核细胞或其他非单核细胞产 生的细胞因子,在细胞间相互作用、免疫调节、造血以及炎症过程中起重要调节 作用。目前已经命名的白细胞介素有i l l i l 2 3 。 集落刺激因子( c o l o n y s t i m u l a t i n gf a c t o r ,c s f ) 根据其刺激造血干细胞或不 同分化阶段的造血祖细胞在固体培养基中形成不同细胞集落的特性,分为粒细胞 集落刺激因子( g c s f ) 、巨噬细胞集落刺激因子( m - c s f ) 、粒细胞一巨噬细胞集落 刺激因子( g m c s f ) 和多重集落刺激因子( m u l t i c s f ,i l 3 ) 、干细胞因子( s c f ) 、 红细胞生成素( e r y t h r o p o l e t i n ,e p o ) 、血小板生成素( t h r o m b o p o i e t i n ,t p o ) 和f i t 3 配体( f i t 3 :f m s 样酪氨酸激酶3 ) 等。c s f 不仅可刺激不同发育阶段造血干细胞 和祖细胞的增殖和分化,有的还可促进成熟细胞的功能。 干扰素( i f n ) 最初因发现病毒感染的细胞能产生一种物质可干扰另一种病毒 的感染和复制,而将该物质命名为干扰素。根据来源和结构,干扰素分为i f n a 、 i f n b 、i f n 和i f n 吖,它们分别主要由白细胞、成纤维细胞和活化t 细胞所产 生。各种不同的i f n 生物学活性基本相同,具有抗病毒、抗肿瘤和免疫调节等 作用。 肿瘤坏死因子( t u m o rn e c r o s i sf a c t o r , t n f ) 根据其来源和结构不同,可分为 由单核巨噬细胞产生的t n f 、由活化t 细胞产生的淋巴毒素( l y m p h o t o x i n ) 和由 活化t 细胞表达的膜型淋巴毒素。肿瘤坏死因子除具有杀伤肿瘤细胞外,还有 3 刖矗 免疫调节、参与发热和炎症的发生等效用。 转化生长因子8 ( t r a n s f o r m i n gg r o w t hf a c t o r b ,t g f - b ) 是属于一组调节细胞 生长和分化的t g f b 超家族。这一家族除t g f b 外,还有活化素( a c t i v i n s ) 、抑 制素( i n h i b i n s ) 、缪勒氏管抑制质( m u l l e r i a ni n h i b i t o rs u b s t a n c e ,m i s ) 和骨形成蛋白 ( b o n em o r p h o - g e n e t i cp r o t e i n s ,b m p s ) 。t g f - b 的命名是根据这种细胞因子能使正 常的成纤维细胞的表型发生转化,即在表皮生长因子( e g f ) 同时存在的条件下, 改变成纤维细胞壁生长特性而获得在琼脂中生长的能力,并失去生长中密度信赖 的抑制作用。 趋化因子家族( c h e m o k i n e ) 包括四个亚家族c x c 亚家族、c c 亚家族、c x 3 c 亚家族、c 亚家族。趋化因子的主要作用是趋化细胞的迁移。有些趋化因子在免 疫监视过程中控制免疫细胞趋化,如诱导淋巴细胞到淋巴结。这些淋巴结中的 趋化因子通过与这些组织中的抗原提呈细胞相互作用而监视病原体的入侵。有些 趋化因子在发育中起作用;他们能刺激新血管形成;提供具体的关键信号而促成 细胞成熟。有的趋化因子也可以促进伤口愈合。 其他细胞因子如表皮生长因子( e g f ) 、血小板衍生生长因子( p d g f ) 、成纤 维细胞生长因子( f g f ) 、肝细胞生长因子( h g f ) 、胰岛素样生长因子i ( i g f 1 ) 、 白血病抑制因子( u f ) 、神经生长因子( n g f ) 、抑瘤素m ( o s m ) 和血管内皮细胞生 长因子( v e g f ) 等。 1 1 3 细胞因子的特征 细胞因子的生物学特征 绝大多数细胞因子是低分子量( 1 5 3 0 k d ) 的蛋白 或糖蛋白【2 】。天然的细胞因子由抗原、丝裂原或其他刺激物活化的细胞分泌。 多数细胞因子以单体形式存在,少数细胞因子如i l - 1 0 、i l - 1 2 、m c s f 、t g f b 、 p d g f 等以双体形式存在,t n f 可形成三聚体。细胞因子通常以非特异方式发挥 作用,即细胞因子对靶细胞作用无抗原特异性,也不受m h c 限制。大多数细胞 因子都以较高的亲和力与其受体结合,因此,很微量的细胞因子就可对靶细胞产 生显著的生物学作用。 细胞因子的作用方式细胞因子可以旁分 泌, ( p a r a c r i n e ) 、自分g , ( a u t o c d n e ) 4 或内分泌( e n d o c r i n e ) 的方式发挥作用。若某种细胞网子的靶细胞( 细胞州于作用 的细胞) 也是其产生细胞,则该因子对靶细胞表现出的生物学作片j 称为自分泌效 应:若某种细胞闲子的产牛细胞和靶细胞非同一细胞,且二肯邻近,则该冈子对 靶细胞表现出的生物学作用称为旁分泌效应。少数细胞因子如t g f b 、i l _ 1 和 m c s f 在高剂量时也作用于机体远处的靶细胞,表现内分泌效应。 细胞因r 的旧络性利,细胞可产生多种细胞幽f ,不同类型的细胞也可 产生一种或几种相同的细胞因子。呻 细胞冈子可对多种靶细胞发生作用,产生 多种不同的生物学效应,这种性质称多效性:几种不同的细胞因子也可对同一种 靶细胞发生作用,产生相同或相似的生物学效应,这种性质称为重叠性:一种细 胞因了可咀抑制另外种细胞因予的某种生物学作用,表现为拮抗效应;可以增 强另一种细胞因子的某种生物学作用,表现为协同效应。见图1 ,众多细胞因子 在机体内存在,相互促进或相互抑制,形成十分复杂的细胞因子网络【3 】。 _ f g - - 、急 l 篓j - 芝娄芝1 一瞄鼍 h h mh i o 【“o ,。、 _ 藩i 鸯; 图l _ 细胞田子网络 f i g u r e1c y t o k i n e n e t w o r k | | : i :i 前言 目前,虽然细胞因子的功能还为完全阐明,但其功能均通过与受体的相互 作用来实现,因此,研究细胞因子受体相互作用对探究细胞因子的新功能至关 重要。然而,由于细胞因子及其受体具有浓度小、半衰期短、多效性等特点,其 分离纯化和功能研究较为困难。生物信息学方法研究细胞因子受体相互作用能 够克服以上问题,从而弥补实验方法的不足。 细胞因子受体相互作用属于蛋白蛋白相互作用( p r o t e i n p r o t e i n i n t e r a c t i o n ) 。这一课题已成为生物信息学研究的热点。 1 2 蛋白相互作用的研究方法 蛋白质相互作用的研究手段繁多,包括一系列已经建立的实验方法如酵母 双杂交系统【4 】、质谱仪方法【5 】和蛋白质芯片【6 】等。近年来,随着计算机科学 的发展,计算方法已经成为蛋白相互作用研究中一个有力工具。 预测蛋白质的相互作用是目前生物信息学中热门的研究领域,因为计算模 拟的方法要比大部分的实验方法用时短,花费少。近几年,一些计算机科学中的 算法已被用来预测蛋白质问的相互作用。总的说来,这些方法可以分成四类:1 ) 基于基因组信息的方法;2 ) 基于进化关系的方法;3 ) 基于蛋白质序列的从头预测 方法;4 ) 需要三维结构信息的方法。基于基因组信息的预测方法包括系统发育谱 ( p h y l o g e n e t i cp r o f i l e ) j 7 】【8 】、基因邻接( g e n en e i g h b o r h o o d ) 9 】【1 0 】、基因融合 ( g e n ef u s i o ne v e n t ) 1 l 】【1 2 】以及镜像树( m i r r o rt r e e ) 1 3 1 等方法。而基于进化信 息的方法包括突变关联( c o r r e l a t e dm u t a t i o n ) 1 4 】、保守的蛋白质相互作用 ( i n t e r o l o g s ) 1 5 】、进化速率关联c c o r r e l a t e de v o l u t i o n a r y - r a t e ) j 1 6 】等方法。上述 方法均不可避免地具有一定的局限性,即它们都需要一些蛋白质的先验知识,如 基因组信息、进化信息等。 而基于蛋白质的一级结构的预测方法首先由b o c k 和g o u g h 1 7 】提出,该 方法不需要基因组或进化的信息,仅仅需要单个蛋白质的序列信息。该方法从 d i p 数据库 1 8 】中提取相互作用的蛋白质的序列数据,根据蛋自质对的序列信 息,包括氨基酸残基的理化特性、电荷以及疏水特性等,用支持向量机的方法训 6 前高 练,其交叉验证的结果表明了该方法具有很高的准确率,大约在8 0 左右。但 他们的方法仅仅能鉴定真实蛋白质对和“假蛋白质”对,不能解决实际的问题。 最近,有人提出了利用蛋白质的三维结构信息进行蛋白质相互作用预测的 方法,即同源结构复合物( h o m o l o g o u ss t r u c t u r a lc o m p l e x e s ) 方法1 1 9 】。该方法构 建了一种全新的策略,并提供了在线服务( h t t p :f 棚r u s s e l l e m b l d e i n t e r p r e t s ) , 该数据库包括了4 2 9 对非冗余相互作用结构域,1 1 3 1 个已知三维结构的复合体, 用提交的两个序列对数据库搜索序列的同源性,如果找到一个同源序列,即可证 明该提交的蛋白质序列存在相互作用有潜能。另外,在一对随机序列背景的基础 下,一种用来估计蛋白质潜在相互作用的具有统计意义的方法也已经被提出, l i c h t a r g e 等1 2 0 】据此设计了在进化中有意义的重要氨基酸的聚类方法,用来在 三维空间罩进行蛋白质的功能位点的预测。 1 3机器学习方法及其支持向量机的基本原理 1 3 1 机器学习方法概述 基于数据的机器学习方法是现代智能技术中的重要方面,研究从观测数据 样本出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测。机器 学习的策略大体可分为:机械式学习、讲授式学习、演绎式学习、归纳式学习、 解释学习和类比学习【2 3 】。 机器学习的实现方法大致可分为三种:第一种是经典的馐数) 统计估计方 法。包括模式识别、神经网络等。第二种方法是经验非线性方法,如人工神经网 络( a n n ) 。第三种是基于统计学习理论的方法,如在此理论基础上发展的一种新 的通用学习方法支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 2 4 】。 1 3 2 支持向量机理论简述 1 最优分类面 支持向量机方法建立在统计学习理论的v c 维理论和v a p n i k 提出的结构风 险最小化原理基础上,其主要针对两类分类问题,在高维空间中寻找一个超平面 作为两类的分割,以保证最小的分类错误率。在二维情况下支持向量机的原理如 7 前言 图2 所示,其中的实心点和空心点代表两个类别的训练样本,h 为将这两个类 别分开的分类线,h 1 和h 2 分别是经过这两个类别样本中距分类线最近的点且 平行于分类线的直线,h 1 和h 2 之间的距离叫做这两个类别的分类f b j 隙。支持 向量机的目标是找到最优分类线,最优分类线不但能将两个类别的样本准确分 开,而且要使两类的分类间隙最大。 h 也 图2 特征空间中的最优分割平面 f i g u r e2 o p t i m i z e dh y p e r p l a n ei nf u t u r es p a c e 如图2 ,考虑一个用某特征空间的超平面对给定训练数据集做二值分类的问 题。对于给定样本点: ( x 1 ,y 1 ) ,( x ,y ,) ,x f r “,y f 一1 ,+ 1 】 ( 1 ) 设分类线为: y ( w x + 6 ) - 1 ;0( 2 ) 其中w 为分界线的权系数,b 是分类阈值。则间隔为三0w l l , , 则间隔最大等价于使劲叫1 2 - - - , m i n ,约束条件: y i 【( w 。x f ) + 易】苫1 , i ;l 2 ,( 3 ) 满足上述条件的分类线为最优分类线,此时h 1 ,h 2 上的训练样本点称作 支持向量,因其支撑了最优分类线( 面) 。 8 前言 在线性可分情形下构造最优超平面是利用二次规划求解最优问题,有唯一极 小点,用l a g r a n g e 乘子法把式( 3 ) 化成对偶形式 ;口,一j 1 善口,口,y r y ,o r 工,) m a x 约束条件:口r2 0 ,口,y ,= 0 ,i = 1 ,2 , w ( a ) 2 哪 箭 即最优分类面的权系数向量是训练样本向量的线性组合。且根据 k u h n t u c k e r 条件,该最优化问题的解须满足: a j ( y j ( 眦f ) + 6 1 ) ;0 , i = 1 , 2 , 因此,对多数样本a i 将为零,取值为零时a i 对应于使式( 3 ) 等号成立的样 本即支持向量,它们通常只是全体样本中的- d , 部分。解上述问题后得到最优分 类函数: ,( 工) = s g n ( w j ) + 6 ) = s i g n a f y fx f j + 6 ) ) _ 一 式中的求和实际上只对支持向量进行,b 可以用任一个支持向量( 满足式( 3 ) 中的 等号) 求得,或通过两类中任意一对支持向量取中值求得。 2 广义最优分类面 若训练样本是线性不可分的,或事先不知道它是否线性可分,则与式( 2 ) 变为 y f ( w 。z - + 6 ) 1 一毒,皇芑0 ,f = l ,刀 ( 8 ) 与式( 3 ) 相应的优化问题是:m i n ( 1 l l v 叫1 2 + c ;专) ( 9 ) 这里毛i 可看作训练样本关于广义分离超平面的偏差,毛i _ 0 时问题变为线性可 分情形,c 0 是自定义的惩罚系数,用来控制样本偏差与机器泛化能力之问的平 衡。用l a g r a n g e 乘子法把式( 9 ) 化成其对偶形式,其结果与线性可分情况下几乎 完全相同,只是约束条件式( 4 ) 变为:0sa i , sc ,f = 1 ,n( 1 0 ) 3 支持向量机 超平面分类能力有限,为此引入分类曲面,主要思想是作非线性映射 9 前击 驴o ) :尺呻f ,f 是高维内积空问,称为特征空问,妒o ) 称为特征映射;然后 在f 中构造广义最优超平面。推导过程与上述完全相同,只是把x ,x j 分别换 妒( z ) 和驴o ,) ,即: ( 矿( z ) 矽( z ) ) = k ( x z )( 1 1 ) 这个事实对构造支持向量机有重要意义,当特征空| 日j 维数很大时,若直 接计算内积则更为复杂。上述事实说明,高维特征空间中内积运算,可转化 为低维输入空间上的简单函数计算。称对称函数k ( x ,z ) 为核函数,称判别函 数: , ) = 5 咖 a i ,k r x + 6 ) ( 1 2 ) 为支持向量机。 f f k 0 ( 1 3 ) 这一条件并不难满足。 在支持向量机中常用的核函数主要有四类: 线性核函数:k ( x i ,x ,) 2 霹x , 多项式核函数:k ( x i ,x ) ;( ) ,x r t x + ,) d ) , 0 r b f 核函数:k ( x r ,x ,) ;e x p ( 一rl l x , 一x j1 1 2 ) ,) , 0 s i g m o i d 核函数:k ( x f ,匕) = t a n h ( y s - x + 厂) 其中,y ,和d 均为核参数。究竟用哪一种核函数取决对数据处理的要求, 不过建议一般都是使用r b f 核函数。因为r b f 核函数在实际问题中表现出了良 好的性能。 1 0 材料j j 方泫 2 材料与方法 2 1实验流程 本论文应用改进的s v m 算法预测可能的细胞因子受体相互作用,在基因 组范围上系统研究了细胞因子受体的生物学特征,见图3 。 图3 研究方法的组织结构 f i g u r e3 t h ec o m p o n e n t sa n do r g a n i z a t i o no fm e t h o d o l o g y 材料j 方法 具体工作包括:1 应用c y t o s v m ,根据蛋白质的一级序列和理化性质,从 人类蛋白组中预测出可能的细胞因子受体相互作用;2 研究细胞因子受体相互 作用对的( 1 ) 受体的一级结构标签;( 2 ) 相互作用的三维模拟;( 3 ) 基因表达模式关 系;( 4 ) 染色体上的分布;( 4 ) 发掘细胞因子可能参与的新的生物途径。 2 2预测模型c y t o s v m 的建立 c y t o s v m 是基于改进的支持向量机算法得到的分类模型【2 5 】。该模型的建 立和优化采用了2 ,2 4 3 个已知和虚拟的细胞因子受体作为正数据集,大约一百万 蛋白质相互作用为负数据集。通过与常规的s v m 方法比较,c y t o s v m 被证明具 有较高的预测准确性。 2 2 1 数据集 j 下数据集,即被认为是己知的细胞因子受体相互作用,从k e g g 数据库 2 6 1 和文献中收集而来。该数据集包含4 4 9 个非冗余的已知相互作用,其主要来自于 哺乳动物( 除老鼠外) 。为了训练预测模型,我们将每个蛋白序列转化为描述蛋 白理化性质的向量。这些向量描述了蛋白的各种性质,包括:氨基酸组成、亲疏 水性、极化率、电荷、表面张力、范德华力以及二级结构 2 7 】【2 8 】【2 9 】【3 0 】【3 1 】 f 3 2 1 。细胞因子与其受体的向量连接起来形成一组新的向量,用来描述细胞因 子受体相互作用。为了增大正数据集,我们通过将相互作用向量的特征值改变 1 1 0 0 0 ,从而在一个向量附近建立了4 个虚拟向量,于是得到包含4 9 9 个真实相 互作用向量和1 7 9 4 个虚拟相互作用向量的正数据集。 负数据集也同样由真实数据和虚拟数据组成。真实的负数据来自于文献报 道,是1 2 6 对由实验证明的不能相互作用的细胞因子和受体蛋白。由于实验数据 稀少,不能代表非细胞因子受体相互作用的序列和结构性质。为了覆盖所有非 相互作用的情况,大量虚拟的负数据被按照如下方法建立:从p f a m 数据库中选 取7 8 1 6 个种子序列代表各种结构域,其中不包括已知的细胞因子和受体所含有 的结构域。这些p f a m 的种子序列与所有已知的细胞因子配对,形成了大约一百 万个非细胞因子受体相互作用,从而构成了几乎包含所有情况的负样本。 1 2 材料与方法 2 2 2 模型的建立 模型的建立采用了含有2 , 2 4 3 个真实和虚拟样本的正数据集和大约含有 1 0 0 0 0 0 0 个样本的负数据集。为了在尽可能学习到负样本的序列、结构等特征的 同时,减少训练时间和内存占用,负数据集被随机分成了2 3 0 组,每组大约含有 4 , 2 0 0 个负样本。其中2 2 9 组单独与正数据集组成模型需要的训练集。一组与j 下 数据集组成测试集,来检验模型预测的准确性。 分别用2 2 9 个训练集建立预测模型,再提取负样本中决定超平面位置的向 量( 支持向量) 形成新的负数据集,再重复以上训练步骤,直到负数据集中样本 数量不再发生显著变化。在整个重复训练过程中,正负数据集的比例保持在0 5 1 之间。最终,一百万个负样本中决定分类超平面的大部分样本被保留下来,与正 数据集组成c y t o s v m 的训练集。 2 2 3 模型的评估 我们定义四个参数:真阳。l 生( t r u ep o s i t i v e s 或t p l ,即相互作用的蛋白对预 测结果为相互作用的蛋白对;假阳性( f a l s ep o s i t i v e s 或f p ) 即非相互作用的蛋白 对预测结果为相互作用的蛋白对;真阴。l 生( t r u en e g a t i v e s 或t n ) ,即无相互作用 的蛋白对预测结果为无相互作用的蛋白对;假阴性( f a l s en e g a t i v e s 或f n ) ,即相 互作用的蛋白对预测结果为无相互作用的蛋白对。 s e n s i t i v i t ys e = t p | q p + f n ) ; s p e c i f i c i t ys p = t n ( t n + f p ) ; m c c :! 丝型竺丝! 一 ( 7 p + f n ) ( t p + f e ) ( r n + f n ) ( t n + ,p ) 相关系数是一个评价预测数据与当前数据的相关性,其值的变化范围为 1 一+ 1 ,当预测结果与实际情况完全匹配时,其相关系数为1 ;当预测结果与实 际情况完全相反时,其相关系数为1 ;而随机预测的结果其相关系数应该为0 。 首先,本文用c y t o s v m 对训练过程中留下的一组测试集进行预测,结果为: 敏感性1 0 0 、特异性9 9 9 8 、马修斯相关系数为0 9 9 见表1 。为了检测模型是 否在同一数据集上过拟合,7 9 个大鼠的细胞因子受体相互作用和2 ,3 6 0 个随机 1 3 材料1 j 方法 生成的负样本被用来检测模型的准确性,得到检测结果见表1 :敏感性9 7 4 、 特异性9 9 2 、马修斯相关系数为0 8 9 。这说明该模型未过拟合,具有较好的泛 化能力。 表1 c y t o s v m 模型的评估 t a b l e1 t h ee v a l u a t i o no fc y t o s v mm o d e l + 巍4 试数据集 独立评估数据集 阿i 性相关阴性相大 m m c 刚性相关阴性相关 m m c t pf n s e ( ) t nf p s p ( ) t p f n s e ( ) t nf p s p ( ) 2 3 4 301 0 04 4 4 519 9 9 8 0 9 97 729 7 42 3 4 31 79 9 20 8 9 宰t p :真阳性;f n :假阴性;t n :真阴性;f p :假阳性;s e :敏感性s e = t p ( t p + f n ) s p :特异性s p = t n ( t n + f p ) ;m m c :m a t t h e w sc o r r e l a t i o nc o e f f i c i e n t 用相同的测试数据,本文将c y t o s v m 的训练方法与传统训练方法进行了比 较,结果见表2 。从中可以看出,同时采用了富集训练和虚拟j 下样本方法的模型 表现最好,只采用富集训练的模型表现其次,但均优于一般方法构建的模型,然 而只采用虚拟j 下样本方法的模型表现最差。 表2 不同s v i v l 模型的比较 t a b l e2 t h ec o m p a r i s o no fd i f f e r e n ts v mm o d e l s 1 y e s 表示通过叠代训练的方法,所有人约1 0 0 万负数据集参与了模型训练( 富积的训练 方式) 。n o 表示训练过程未采用叠代训练的方法,只有部分负数据集参与了模型训练 2 y e s 表示训练过程采用了虚拟的正数据。n o 表示训练过程未采用虚拟的正数据。 3 训练数据集中正负数据的比例。模型m 1 4 的比例大约为1 :3 ,模型m 5 的比例大约为 1 :1 ,模型m 6 的正负数据集比例为1 :6 。 4 接受者操作曲线下的面积( a u c ,t h e a r e a u n d e r t h e r o c c u r v e ) 。该参数常用来衡量预测 模型的好坏。a u c 值越高,预测模型越准确。 1 4 材料j 方法 通过对c y t o s v m 模型准确性的评估以及与其他训练方法的比较,我们发现 c y t o s v m 具有较高的准确性。这说明可本课题采用的训练方法与传统方法相比 具有一定的优越性。 2 3c y t o s v m 的功能与使用 c y t o s v m 的网址是h t t p :b i o i n f x m u e d u c n s o f l w a r e c y t o s v m c y t o s v m p h p 。 它运行在l i n u x + o r a c l e + a p a c h e 平台之上。浏览器的输出使用p h p 脚本语言实 现。 2 3 1 在线软件部分 c y t o s v m 预测软件网址为 h t t p :b i o i n f x m u e d u c n s o f t w a r e c y t o s v m p r e d i c t r e c e p t o r p h p 。它的主要功能是预 测用户感兴趣的蛋白能够与哪些细胞因子或者细胞因子受体相互作用。具体使用 方法为: 1 预测蛋白与细胞因子的相互作用 ( 1 ) 登录页面h t t p :b i o i n f x m u e d u c n s o f t w a r e c y t o s v m p r e d i c t r e c e p t o r p h p , 在相应文本框内贴入蛋白序列,在下拉框中选择想要预测的细胞因子,选好后执 行预测,见图4 。 ( 2 ) 预测结果会显示在另一页面,每个结果均给予相互作用可能性,见图 5 。点击查看与提交蛋白相互作用的细胞因子的详细信息。 ( 3 ) ,见图6 ,点击s e a r c h 键,查看该细胞因子还可能与基因组中哪些 蛋白相互作用,点击蛋白名查看该蛋白的详细信息。 ,f 口9 0 l9p 一删e t ln ne l e t d v e dz h fa c t e 。p tu f h o o “;c j 删s u 岫啪w t p h p n n n v s :t s 6 5 ”* 咖州* # s t ln m l d t g e t f s l e t d d p t w e il t e it e i t i m r v t w i l 聪x g d v n i m l r 5 p uts :n y t v 0 p i i p 一e 5 p :l s s n n e w t :t 1 :c d :一e p e l e o l f l - - 一o f b = l = _ j 图4 预测蛋白与细胞因子的相互作用t 页 f 1 9 n f e4h o m e p a g e f o rp r e d i c t i n g p r o t e i n c y l o k i n e i n t e r a c l i o n p r e d i c n 0 nr e s u l t s 目ec u 】me l d o m ec gr c m cp r e pr d p m kn p “dg m r b n as p m p pr o l en p hd o ma i nc o n 【a n 口pr o _ e i n 口m d e t m d0 m r c 口sl ua | e n d 日l h e lj dar c t os o m r ma n gg rb e l a2 ”d g 州h 自【 口r ( 口e i ur o g a s l d n e n e :ua re n d m h 9 r c l o f 日 l r a n g9 0 0 m f ac t orb e i a3 b 0 o 口h 0 口e n e “:p r m en ? h e 口o eg c l 口r9 0 m f m ld m 口m p r o l 啪 g r e m a a o n 自c 1 0 r59 m p f o p _ o b 【n c oj o s l m ua b q 自c m 5 咖mo n m m l 0 rb e l 日1 口nc 0 5 f a 口nm n l e t i e u n 1ep t o pr o i n ni bnb e b 目t 】口an 口 0 f 0 ,mb 图5 蛋白与细胞用于的柏互作用预测结果 f i g u r e5 p r e d i c t e dr e s u l to f p r o t e i nc y t o k i n ei n t e r a c t i o n r h eo e l l i l e di n f o r m a o n ”s c u l a re n d 口m e i l 口n c m rc 口m 口r o p m t e i n 0 u 0 s e q u e n c e v a c u0 re n d 啪h a la m 州c pr o p r o k m w c 0 c 1 0 i na n 口0 9 e n e s s0 n d 目n d m h e l l “c “a t 0 砷“m u l a u n g l h e i z 口r o l :日f a 口0 na n a m 口r a t 口na n aa l s oh a s 舢o n m e e a ”o f b l o o d v e s s e r gm m n d i nn 9 l o 口巳兀吲so r l h o u sa n d 帅p h a t icv a s c u l afs 日d u r j n ge m b n e s5a n da l i h l n n a nc 日o f d 恤r 呲d 帅p h c 日n m e u m i na d u _ 【sb i n d sa ac 帅t p 0 垤0 f r2 f m a * 6 f r3 f 1 1 4 ) r e c e o r s p 4 9 7 8 7 0 i4 8 8 5 6 5 3 e n s 0 0 0 0 0 0 1 6 3 0 pf 0 18虻0 0 p d g f p s 0 0 2 4 9p d g fi p s 5 0 2 ”p d g l 2 h 3 5 2 1 5 h s a 0 4 0 6 0c v m m n er ec e m o r e ac b o n h s a 口“5 0m t o rs 。n “p a m h e a 0 洲5 i f 日ca la d n es _ o n 图6 蛋白与细胞因子的相互
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 汽车行业招聘平台创新创业项目商业计划书
- 土壤保水剂销售与服务创新创业项目商业计划书
- 解析卷沪科版9年级下册期末测试卷及答案详解
- 智能税务筹划创新创业项目商业计划书
- 井矿盐卤水净化工抗压考核试卷及答案
- 邮政行业职业技能鉴定常考点试卷附参考答案详解【完整版】
- 直播内容智能字幕生成技术创新创业项目商业计划书
- 铁合金成品工技能比武考核试卷及答案
- 焦结炉工理论知识考核试卷及答案
- 钽碳还原火法冶炼工入职考核试卷及答案
- 2024年五年级数学上册 二 多边形的面积《不规则图形面积的估算》说课稿 苏教版
- 2024-2025学年重庆外国语学校高一(上)入学数学试卷(含答案)
- 《机械常识(第2版)》中职技工全套教学课件
- 冷弯型钢项目可行性报告
- 咖啡学概论智慧树知到期末考试答案章节答案2024年华南理工大学
- 2023房屋安全鉴定服务规范
- 床垫营销方案
- 促销方法与促销技巧
- 数字经济概论 教学大纲
- 09J202-1 坡屋面建筑构造(一)-1
- 英式橄榄球和美式足球的比较分析
评论
0/150
提交评论