




已阅读5页,还剩43页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
签名: 本论文使用授权说明 日期: 本人完全了解上海大学有关保留、使用学位论文的规定,即:学 校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学校可 以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 签名:导师签名 1 1 日期: 上海大学理学硕士学位论文 基于支持向量机的蛋白质相互作用预测的 研究 姓名:秦殿刚 导师:王翼飞教授 学科专业:系统分析与集成 上海大学理学院 二零一零年六月 一令一苓牛六月 t h ed e g r e eo fm a s t e ri ns c i e n c e t h er e s e a r c ho f p r o t e i n p r o t e i n i n t e r a c t i o n s ,p r e d i c t i o n b a s e do n s u p p o r t v e c t o rm a c h i n e m d c a n d i d a t e :d i a n g a n gq i n s u l yifewangsupervlsor:ylteiw a n m a jo r :s y s t e ma n a l y s i sa n di n t e g r a t i o n c o l l e g eo fs c i e n c e ,s h a n g h a iu n i v e r s i t y j u n e ,2 0 1 0 i v 本文的研究工作受科技部重大科技专 项基金( n o 0 0 8 z x l0 0 0 2 017 ; n o 0 0 8 z x10 0 0 2 0 2 0 ) ;国家自然科学基金 ( n o 0 8 7 13 4 1 ) ;上海市重点学科基金 ( n o 3 0 10 4 ) ;上海市教委重点学科建设项目 ( n o 5 0 1 0 1 ) 资助项目。 上海大学硕士学位论文 摘要 蛋白质在生命活动中扮演着至关重要的角色,是实现生物功能最直接也是最 重要的生物大分子。事实上,蛋白质通过与其他的蛋白质、复合物相互作用才能 实现生物功能。通过对蛋白质问相互作用的研究,可以进一步了解生命活动的规 律和机理。 2 1 世纪生命科学的重点已由实验分析和数据积累,开始向数据分析及其指 导下的实验验证转移,生命科学正在经历着从分析还原思维到系统整合思维的转 变。相比于实验,计算机分析数据或者实验模拟可以大量地节省人力、物力、时 间,可以进一步提高生命科学研究的效率。基于蛋白质问相互作用在理论和实践 上的重要意义,很多的数学工具已经应用到这方面研究上,出现了很多的预测方 法,取得了一些结果。现有的这些方法对于蛋白质信息的要求较高,研究和开发 基于低蛋白质信息的预测方法就凸现了重要性。 本文利用蛋白质一级结构信息,将支持向量机应用于人的蛋白质问相互作用 预测中。为把蛋白质间相互作用转换为数学模型,需要将蛋白质序列进行数值化。 本文采用三肽频数方法编码蛋白质序列,将c s v c 支持向量机应用于蛋白质相 互作用预测中,取得了很好的计算精度,其中阴性数据通过亚细胞定位的方法构 建。二硫键是某些蛋白质维持结构稳定的重要因素,它是由两个半胱氨酸残基的 侧链s h 氧化形成的。鉴于半胱氨酸在蛋白质结构中的重要作用,本文比较了半 胱氨酸在不同分类下对模型性能的影响。最后将预测模型应用到人类胚胎肝脏蛋 白质相互作用网络的预测中。 关键词:支持向量机:蛋白质相互作用;氨基酸分类;核函数 上海大学硕士学位论文 a b s t r a c t p r o t e i ni sv i t a lt ol i f e a c t i v i t y , i st h em o s ti m p o r t a n ta n dd i r e c tb i o l o g i c a l m a c r o m o l e c u l e sf o rl i f ef u n c t i o n i nf a c t ,t h ep r o t e i na c h i e v e s b i o l o g i c a lf u n c t i o n t h r o u g hi n t e r a c t i o nw i t ho t h e rp r o t e i n sa n d c o m p l e x e s t h r o u g hr e s e a r c ho n p r o t e i n p r o t e i ni n t e r a c t i o n s ,w ec a nl e a r nm o r ea b o u tt h el a w sa n dm e c h a n i s mo fl i f e a c t i v i t i e s i nt h e21s t c e n t u r y , t h ef o c u so fl i f es c i e n c e sh a sb e e n 仃a n s f e r r e d 舶m e x p e r i m e n t sa n dd a t aa c c u m u l a t i o nt od a t a a n a l y s i sa n de x p e r i m e n tu n d e rt h e g u i d a n c e t h el i f es c i e n c e sa r ee x p e r i e n c i n gar e d u c t i o no ft h i n k i n gt ot h es y s t e m i n t e g r a t i o no ft h i n k i n g c o m p a r e dw i t he x p e r i m e n t ,c o m p u t e ra n a l y s i so fd a t ao r e x p e r i m e n t a ls i m u l a t i o nc a ns a v el a r g en u m b e r so fm a n p o w e r , m a t e r i a l ,t i m e ,a n d i m p r o v et h ee f f i c i e n c yo fl i f es c i e n c er e s e a r c h b a s e do nt h et h e o r e t i c a la n dp r a c t i c a l s i g n i f i c a n c eo ft h ei n t e r a c t i o nb e t w e e np r o t e i n s ,m a n ym a t h e m a t i c a lm e t h o d sh a v e b e e n a p p l i e dt ot h es t u d yo ft h i sa r e a t h e r eh a sb e e nal o to ff o r e c a s t i n gm e t h o d s ,a n d a c h i e v e ds o m er e s u l t s t h e s e e x i s t i n gm e t h o d sr e q u i r et h eh i g hi n f o r m a t i o nf o r p r o t e i n , l o wi n f o r m a t i o n p r o t e i n - b a s e dr e s e a r c h h i g h l i g h t t h e i m p o r t a n c e o f f o r e c a s t i n gm e t h o d s s u p p o r tv e c t o rm a c h i n ei su s e dt op r e d i c tp r o t e i n - p r o t e i ni n t e r a c t i o no fh o m o s a p i e n st h r o u g ht h ep r o t e i n sp r i m a r ys e q u e n c e t ot r a n s f e rt h ep r o t e i n p r o t e i n i n t e r a c t i o n si n t om a t h e m a t i c a lm o d e l s ,w en e e dt ot r a n s f e rt h ep r o t e i n s e q u e n c e si n t o m a t h e m a t i c a ln u m b e r i nt h i sp a p e r , ac o n j o i n tt r i a df e a t u r ei su s e dt od e s c r i b ea m i n o a c i d s ;t h ec - s v cs u p p o r tv e c t o rm a c h i n ei su s e dt o p r e d i c tp r o t e i ni n t e r a c t i o n s , a c h i e v e dv e r yg o o da c c u r a c y , i nw h i c h n e g a t i v ed a t ai sc o n s t r u c t e db yt h em e t h o do f s u b c e l l u l a rl o c a l i z a t i o n d i s u l f i d eb o n d sm a i n t a i nt h es t r u c t u r a l s t a b i l i t yo fs o m e p r o t e i n si m p o r t a n tf a c t o r , w h i c hi sc o m p o s e do ft w oc y s t e i n er e s i d u e s f o r m i n g s i d e 。c h a i n 。s ho x i d a t i o n i nv i e wo ft h e i m p o r t a n tr o l eo fc y s t e i n ei nt h ep r o t e i n s t r u c t u r e ,w ec o m p a r et h ed i f f e r e n tc a t e g o r i e so fm o d e lp e r f o r m a n c e f i n a l l y , t h e p r e d i c t i o nm o d e la p p l i e dt op r o t e i ni n t e r a c t i o nn e t w o r k so fh u m a n e m b r y o n i cl i v e r i i i i i 上海大学硕士学位论文 目录 摘要i a b s t r a c t i i 目录1 第一章绪论。1 1 1 生物信息学1 1 2 生物信息数据库2 1 3 蛋白质间相互作用的生物学机理3 1 4 蛋白质问相互作用数据库4 1 5 分析和研究蛋白质相互作用的现有方法6 1 6 本文的工作及安排8 第二章支持向量机( s v m ) 1 0 2 1 统计学习理论背景一1 1 2 j j 纺炉学刀理轮搋述,j 2 ,2 扔器学髫趁凝递一1 1 2 2 支持向g c g t 。13 2 2 j 劈拦勿匕菪一1 3 2 2 2 嚣缆丝分类17 2 2 3 i 西我j 9 2 2 4 l i b s v mg f t 2 0 2 2 5 支持向量| 襁在生物信息学中的应胃2 0 2 3 本章小结2 1 第三章 基于支持向量机的蛋白质相互作用的预测2 2 3 1 数据来源2 2 3 2 基于支持向量机的预测蛋白质相互作用的方法2 3 3 3 数据结果的评价标准2 9 3 4 结果与讨论2 9 3 5 人类胚胎肝脏蛋f l l 质相互作用网络的预测3 2 3 s 1 入类翳瞪蛋白质鳃计翔箱介3 2 3 5 2 入类验骆爵脏蛋白凄辐互作甬两络的设溺。3 3 3 6 本章小结3 4 上海大学硕士学位论文 第四章结论与展望3 5 致谢3 9 2 上海大学硕士学位论文 1 1 生物信息学 第一章绪论 生物信息学是以分子生物学数据库为主要对象,以数学技术和计算机技术为 主要手段,以计算机、应用软件和计算机网络为主要工具,通过对海量的原始序 列数据进行收集、存储、管理、分析、注释、加工和处理而获取生物学新知识的 新兴学科。生物信息学的目的在于运用信息技术收集、存储、管理、分析、传播 和开发生物学资源。互联网、数据库和应用软件构成了生物信息学的三大技术支 撑和重要组成部分。它的知识体系中包括了生物学、计算机科学、物理化学及数 学等方面的知识。众多模式生物的全基因组序列已经陆续完成测定,产出了海量 的d n a 序列资料。这些通过生物学获取的原始资料经数字化后以特殊的电子文 本格式保存在计算机的存储设备中,形成具有特定目标和功能的数据库,可以说 这类数据库是生物信息学研究的基础和出发点。生物信息学最紧迫的任务是如何 将数学建模和优化理论用于对生物信息的挖掘和预测上,得到结果反馈给实验。 这样,一方面可以大大减少实验的工作量;另一方面,实验检验的结果又可以为 算法的进一步改进提供支持n 埘嘲。 生物信息学的研究是从理论上认识生物本质的必要途径,通过生物信息学研 究和探索,可以更为全面和深刻地认识生命科学中的本质问题,了解生物分子信 息的组织和结构,破译基因组信息,阐明生物信息之间的关系。破译和阐明生物 信息的本质将使得人类对生物界的认识跨越一个新台阶。生物信息学的出现将改 变生物学的研究方式。传统的生物学是一门实验科学,传统的分子生物学实验往 往是集中研究一个基因、一条代谢路径,手工分析完全能够胜任。然而,随着分 子生物学技术的发展,已经出现一些高通量的实验方法,如基因芯片,利用基因 芯片一次可以获取上万个基因的表达数据。生物学已经从一次只分析一个生物分 子的时代跳跃到同时分析成千上万生物分子的时代。对于高通量的实验结果,必 须利用计算机进行自动分析。在高通量实验技术出现的时代,生物信息学必然要 介入生物学研究和实验。再者,从生物分子数据本身来看,各种数据之间存在着 密切的联系,如d n a 序列与蛋白质序列、基因突变与疾病等,这些关系反应了 l 上海大学硕七学位论文 生物学的规律。但是,这些关系可能是非常复杂的,是我们未知的,是简单的多 元统计方法难以分析的。对于这些复杂的关系,必须运用现代信息学的方法去分 析和研究。因而,随着分子生物学研究的深入,必然需要生物信息学。生物信息 学发展的未来趋势主要在以下几个方面:( 1 ) 计算基因组学,包括高通量基因组 测序、模型化和注释;( 2 ) 计算结构生物学,包括模型比较和蛋白质折叠分析; ( 3 ) 计算大分子化学,包括分析低分辨率的折叠拓扑和高分辨的结构;( 4 ) 分 子识别的计算分析,包括分子对接和分子结构仿真;( 5 ) 计算细胞生物学n 2 h 羽。 1 2 生物信息数据库 k a n e h i s a 认为“发现受数据驱动是后基因组时代的特征。人们已经建立 了数目庞大、种类繁多的各种生物信息数据库,归纳起来大体可以分为四大类, 即基因组数据库、核酸和蛋白质序列数据库、生物大分子数据库( 主要是蛋白质) 的三维空间结构数据库、以上述3 种数据库和文献数据为基础构建的高层次数据 库( 特别是二次数据库) 。这些年来,人们投入了很大的人力和物力对生物信息 数据进行收集和整理,因为大量数据的存入,使得当前的生物信息数据以指数速 率膨胀川h 1 。图1 1 直观描述了p d b 数据库中蛋白质结构数据的增长情况。 图1 1p d b 中蛋白质结构数据每年晕指数增长示意图 ( h t t p :w w w r c s b o r g p d b s t a t i s t i c s ) 2 上海人学硕j :学位论文 基因组数据库的主体是模式生物基因组数据库,其中最主要的是由世界各国 的人类基因组研究中心、测序中心构建的各种人类基因组数据库。小鼠、河豚鱼、 拟南芥、水稻、线虫、果蝇、酵母、大肠杆菌等各种模式生物基因组数据库或基 因信息资源都可以在网上找到。随着各种模式生物基因组计划的普遍实施,几十 种动物、植物基因组数据库纷纷上网,如英国r o s l i n 研究所的a r k d b 包括了猪、 牛、绵羊、山羊、马等家畜以及鹿、狗、鸡等的基因组数据库;美国、英国、日 本等国的基因组中心的斑马鱼、罗非鱼等鱼类基因组中心的数据库;英国谷物网 络组织( c r o p n e t ) 建立了玉米、大麦、高粱、菜豆等粮食作物以及苜蓿、牧草、 玫瑰等植物的基因组数据库n 5 儿6 1 。 序列数据库是分子生物信息数据库中最基本的数据库,包括核酸和蛋白质两 类,以核营酸碱基顺序或氨基酸顺序为基本内容,并附有注释信息。e m b l 、 g e n e b a n k 和d d b j 是国际上三大主要核酸序列数据库。1 9 8 8 年,e m b l 、 g e n e b a n k 和d d b j 共同成立了国际核酸序列数据库中心,建立了合作关系。根 据协议,这3 个数据中心各自收集世界各国有关实验室和测序机构所发布的序列 数据,并通过计算机网络每天将新发现或更新过的数据进行交换,以保证这3 个数据库序列信息的完整性。由于蛋白质序列测定技术先于核酸序列测定技术问 世,蛋白质的序列收集也早于核酸序列。蛋白质序列数据库的雏形可以追溯到 2 0 实际6 0 年代,至今已经构建了多个蛋白质序列数据库,主要的有p 1 r 、 s w i s s p r o t 、t r e m b l 、u n i p r o t 等。p d b 、p d b j 是主要的蛋白质结构数据库,此 外还有t r a n s f a c 、p r o s i t e 、n c b i 等以基因组、序列和结构数据库为基础,结 合文献资料研究开发,更具特色、更便于使用的二次数据库或专用数据库信息系 统n 5 删 7 】o 1 3 蛋白质问相互作用的生物学机理 越来越多的研究显示:细胞中绝大多数的调控过程是以蛋白质复合体或多蛋 白质网络协同作用实现的。另外,一些细胞间信息的传递及病原体感染和免疫过 程等都是蛋白质相互识别和相互作用的结果。随着从分子水平上对基因调控,病 毒感染与免疫,细胞因子和多肽激素与受体等研究的深入,人们认识它们的共同 本质就是蛋白质问相互作用,同时也提示这种相互作用在生命过程中具有重要的 一卜海大学硕:t 学位论文 作用7 儿町。 在生命体中,蛋白质不仅是基本结构成分,而且它们通过各种形式的网络式 相互作用确保生命活动的正常进行。蛋白质问相互作用可以归纳为分子或亚基的 聚合、分子杂交、分子识别、分子自我装配、多酶复合体五种形式。蛋白质问相 互作用主要是依赖一些弱的共价键或次级键,包括氢键、范德华力、疏水作用和 盐桥等嘲( 图1 2 ) 。 图1 2 蛋白质问相互作用 1 4 蛋白质问相互作用数据库 目前建立的蛋白质问相互作用数据库也初具规模了,例如d i p 、i n t a c t 、 h p i d 。d i p 数据库包含的都是经过实验验证的蛋白质相互作用,并提供搜索和 生成蛋白质相互作用网络;i n t a c t 是目前蛋白质问相互作用数据库规模最大的、 最全的,包括文献提供、实验验证、以及预测的各种数据,本文采用的数据来自 i n t a c t 数据库;h p i d 数据库提供人的蛋白质间相互作用,提供搜索。表1 1 是 目前各种与蛋白质问相互作用相关的数据库及其说明。 4 上海大学硕上学位论文 表1 1 蛋白质间相互作用数据 ( h t t p :m i p s h e l m h o l t z - m u e n c h e n d e p r o j p p i ) r e s o u r c e c o m m e n t s a g i l ep r o t e i ni n t e r a c t i o nd a t a a n a l y z e r ( c a n c e rr e s e a r c h a p i d c e n t e r ,s a l a m a n c a ,s p a i n ) b i o m o l e c u l a ri n t e r a c t i o nn e t w o r kd a t a b a s ea tt h eu n i v e r s i t y b i n d o ft o r o n t o ,c a n a d a n os p e c i e sr e s t r i c t i o n p p is e c t i o no ft h ec o m p r e h e n s i v ey e a s tg e n o m ed a t a b a s e c y g d m a n u a l l yc u r a t e dc o m p r e h e n s i v es c e r e v i s i a ep p id a t a b a s ea t m i p s d a t a b a s eo fi n t e r a c t i n gp r o t e i n sa tu c l a n os p e c i e s d 口 r e s t r i c t i o n g e n e r a lr e p o s i t o r yf o ri n t e r a c t i o nd a t a s e t s m o u n ts i n a i g r i d h o s p i t a l ,t o r o n t o ,c a n a d a h i n t e r a c t i o nd bi n t e r a c t i o n sb e t w e e nh i va n dh o s tp r o t e i n s t h eh u m a np r o t e i nr e f e r e n c ed a t a b a s e i n s t i t u t eo f h p r d b i o i n f o r m a t i c s ,b a n g a l o r e , i n d i aa n d j o h n s h o p k i n s u n i v e r s i t y ,b a l t i m o r e ,m d ,u s a , h u m a np r o t e i ni n t e r a c t i o nd a t a b a s e d e p a r t m e n to fc o m p u t e r h p ) s c i e n c ea n di n f o r m a t i o ne n g i n e e r i n gi n h au n i v e r s i t y , i n c h o n , k o r e a i h o p ( i n f o r m a t i o nh y p e r l i n k e do v e rp r o t e i n s ) p r o t e i n i h o p a s s o c i a t i o nn e t w o r kb u i l tb yl i t e r a t u r em i n i n g i n t a c tp r o t e i ni n t e r a c t i o nd a t a b a s ea te b i n os p e c i e sr e s t r i c t i o n d a t a b a s eo fp u t a t i v ei n t e r a c t i n gp r o t e i nd o m a i n s i n s t i t u t ef o r i n t e r d o m i n f o c o m mr e s e a r c h ,s i n g a p o r e j c bp p is i t ea tt h ej e n ac e n t r ef o rb i o i n f o r m a t i c s ,g e r m a n y c o m m e r c i a ls o f t w a r es u i t ea n dd a t a b a s e m a n u a l l yc u r a t e d m e t a c o r e h u m a np p i s ( a m o n go t h e rt h i n g s ) g e n e g o m o l e c u l a ri n t e r a c t i o nd a t a b a s ea tt h ec e n t r od i m i n t b i o i n f o r m a t i c am o l e c u l a r e ,u n i v e r s i t ad ir o m a , i t a l y c o m m e n t e dl i s to fl i n k st op p id a t a b a s e sa n dr e s o u r c e s m r cp p il i n k sm a i n t a i n e da tt h em r cr o s a l i n df r a n k l i nc e t r ef o rg e n o m i c s r e s e a r c h ,c a m b r i d g e ,u k t h eo n l i n ep r e d i c t e dh u m a ni n t e r a c t i o nd a t a b a s e o n t a r i o o p h i d c a n c e ri n s t i t u t ea n du n i v e r s i t yo ft o r o n t o ,c a n a d a , p a w s o nl a b i n f o r m a t i o no np r o t e i n - i n t e r a c t i o nd o m a i n s p d z b a s ed a t a b a s eo fp d zm e d i a t e dp r o t e i n - p r o t e i ni n t e r a c t i o n s p r e d i c t e df u n c t i o n a la s s o c i a t i o n sa n di n t e r a c t i o n s b o s t o n p r e d i c t o m e u n i v e r s i t y p r o t e i n p r o t e i n a n a l y s i so fp r o t e i n - p r o t e i ni n t e r f a c e so fp r o t e i nc o m p l e x e s i n t e r a c t i o ns e r v e rf r o mp d b u n i v e r s i t yc o l l e g eo fl o n d o n ,u k p a t h c a l l i n g p r o t e o m i c sa n d p p it o o l d a t a b a s e c u r a g e nc o r p o r a t i o n 5 上海大学硕+ 学位论文 h y b r i g e n i c sp p id a t aa n dt o o l ,hp y o r f r e ea c a d e m i c p i m l i c e n s ea v a i l a b l e r i k e n e x p e r i m e n t a la n dl i t e r a t u r ep p i si nm o u s e p r o t e i nn e t w o r k sb a s e do ne x p e r i m e n t a ld a t aa n dp r e d i c t i o n s s t r i n g a te m bl ”b i o k n o w l e d g el i b r a r y ”a th e r ec o r p o r a t i o n m a n u a l l y y p d c u r a t e dp p id a t af r o ms c e r e v i s i a e p r o p r i e t a r y 1 5 分析和研究蛋白质相互作用的现有方法 蛋白质在生命活动中扮演了一个重要的角色,不仅数量庞大,而且种类极其 繁多,功能极其复杂,无论是低等的单细胞生物,还是高等的生物都是靠这些种 类繁多的蛋白质问相互作用来完成生物体各自的生物功能。因此,如果能够建立 这些蛋白质问相互作用网络( 图1 3 ) ,对生命机理的研究有着十分重要的意义。 这是一项十分巨大的工程,需要判断大量的蛋白质间是否发生相互作用。如果只 是单纯地依赖实验的方法,非常耗时耗力。因此,设计出更好的新算法,在现今 计算机强大的计算能力基础上,利用已知的数据信息,找出其中的规律,更准确 地预测出蛋白质问相互作用,建立更具有参考价值的蛋白质相互作用网络,这些 将有助于我们理解细胞的工作机理,最终了解生命的奥秘盯埘嘲。 目前,已经有了一些研究蛋白质相互作用的生物信息学方法,如同源预测、 比较基因组、基于结构域、机器学习、信号谱等方法。 1 )同源预测:不同物种间的蛋白质相互作用具有保守性,将模式生物的蛋白 质相互作用网络储存在一个参考数据集中,然后在目标蛋白质集合中依据直系同 源关系搜索同源蛋白质相互作用。该预测方法的准确性依赖于同源蛋白质的判断 标准以及模式生物蛋白质相互作用数据的准确度。 2 )比较基因组:基因在基因组中的排列是有规律的,功能相近或者相关的基 因往往具有特定的上下文关系。因此,通过基因组比较可预测蛋白质间相互作用。 基于基因组信息的预测方法包括系统发育谱、基因邻接、基因融合等。 3 )基于结构域的方法:蛋白质相互作用并不需要整条蛋白质完全参与其中, 而是通过蛋白质结构域来完成的,因此,从已知的蛋白质相互作用数据归纳得到 的结构域相互作用规律,也可以成为预测另一种生物的蛋白质相互作用的图谱。 此外这种方法还可以作为蛋白质间相互作用的旁证。数据库i n t e r d o m 6 上海大学硕士学位论文 ( h t t p :i n t e r d o m 1 i t o r g s g ) 收录了大量相互作用蛋白质结构域的信息。 4 )信号谱方法:不同氨基酸有着不同的理化性质,利用数据处理的方法来分 析蛋白质的理化数值序列可以获取有用的信息从而建立预测蛋白质相互作用的 方法n 们m 瑚m m l 。 5 )机器学习的方法:机器学习的方法来自统计,统计方法可以找出每个事物 在数字上或是分布上各自的特点,通过这些特点来对这些不同的事物进行学习, 从而挖掘出有用的信息。不过,随着研究的深入,单凭借初等的统计手段是不能 够解决好研究过程中出现的新问题的,必须研究出一些新的方法来处理这些问 题,如随机森林、支持向量机、关联规则、贝叶斯推断等口咄1 。 目前,支持向量机可以用于蛋白质相互作用的预测以及作用位点的预测上, 其最大的优点是可以直接从蛋白质的一级结构来进行预测。利用已经确定的相互 作用蛋白质对( 阳性数据) ,学习到它们的特征。不过,除了学习阳性数据的特 点外,还要学习不相互作用蛋白质对的特征( 阴性数据) ,之后才能得到丽种数 据的“分界线”,得到分类模型,并以此来预测未知的蛋白质对是否相互作用n 鲥。 研究蛋白质相互作用的生物信息学方法多种多样,由于方法的出发点和侧重 点不同,使得研究和分析的视角也不同,譬如,其中一些蛋白质序列的处理方法 可以找出相互作用蛋白质对的数字特征,而另外一些方法则可以学习这些特征而 非简单的统计处理,从而得到一个较好的“预测器 。如何利用不同方法的特点 整合出较为理想的“预测器 将是一个颇具挑战性的课题。 7 大学硕:j :学位论文 图1 3 酵母蛋白质相互作用网络2 2 1 1 6 本文的工作及安排 支持向量机通过优化理论得到学习算法,优化的目标是从统计学习理论中获 得学习偏差。简单地说,支持向量机就是在输入空间求值的高维最大分类间隔超 平面。如果把一个有代表性的样本集( 线性不可分,包含多种样本点) 进行分类, 要做的第一件事是要找到一个合适的高维特征空间,通过核函数把原样本集映射 到这个高维空间中,使得原样本集线性可分( 能够被超平面无错误的分开) 。然 后通过最优化技术计算得出最优分类超平面来最大分离这些样本点。那么样本点 就可以在原低维空间中非线性地分类。因此,支持向量机分类的最终目的就是设 计一种高维空间中计算快捷的方法来得到最优分类超平面,即支持向量机乜3 1 。 本文从蛋白质序列出发,利用支持向量机对蛋白质相互作用进行了研究。为 把蛋白质问相互作用转换为数学模型,需要将蛋白质序列进行数值化。本文采用 三肽频数方法编码蛋白质序列,将c s v c 支持向量机应用于蛋白质相互作用预 r f = 海大学硕七学位论文 测中,取得了很好的计算精度,其中阴性数据通过亚细胞定位的方法进行构建。 论文的安排如下: 本章阐述了生物信息学的背景、生物信息学中主要的数据库,阐明了蛋白质 问相互作用研究的意义和重要性,简单介绍了蛋白质问相互作用研究现状和方 向。 第二章,介绍本课题采用的数据处理方法,支持向量机的理论背景、算法、 研究现状。 第三章,介绍支持向量机在蛋白质间相互作用研究的具体方法,详细分析计 算机试验结果,并利用得到的分类模型对人的胚胎肝脏蛋白质相互作用网络进行 预测和分析。 第四章,对本文进行总结和展望。 9 上海大学硕士学位论文 第二章支持向量机( s v m ) 生物信息学中的许多问题,例如蛋白质结构的预测、基因组中内含子的识 别、蛋白质相互作用结合位点的识别、蛋白质问相互作用的识别、蛋白质- d n a 相互作用结合位点的识别等都可以归结为分类问题。分类是对给定的数据的分析 和学习,对未知的数据进行类别划分的方法。分类的定义包含以下四个要素: 1 给定一个数据集合或者称为训练集,每一个数据属于一个事先定义的类 2 发现或者构造分类函数或分类模型( 即我们通常所说的分类器) 3 对于没有见过的数据,分类函数或者模型应该能够给出尽量准确的类别来 4 对分类函数或模型进行检验。通常,数据集会被分成训练集和测试集,使 用训练集来建模,使用测试集来检验建模的成功度。 支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 是由v a p n i k 领导的a t t 实验 室研究小组在1 9 6 3 年提出的一种新的非常有潜力的分类技术,s v m 是一种基于 统计学习理论的模式识别方法。由于当时这些研究尚不十分完善,在解决模式识 别问题中往往趋于保守,且数学上比较艰涩,这些研究一直没有得到充分的重视。 直到9 0 年代,统计学习理论( s t a t i s t i c a ll e a r n i n gt h e o r y ,s l t ) 和神经网络等较 新兴的机器学习方法的研究遇到一些困难,比如如何确定网络结构的问题、过学 习与欠学习问题、局部极小点问题等,使得s v m 迅速发展和完善,在解决小样 本、非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函 数拟合等其他机器学习问题中。支持向量机的最大特点是根据结构风险最小化原 则,尽量提高学习的泛化能力。应用支持向量机进行分类研究的基本思想可简述 为:首先将输入空间的样本通过某种非线性函数关系映射到一个特征空间中,在 此特征空间中构造最优分类超平面,使两类样本( 可推广到多类样本) 在此特征 空间中可分。特征映射仅与低维输入向量和特征空间中的点积有关( 此特征映射 中的点积可用一个核函数来替代) ,从而避免“维数灾难”并解决高维特征问题。 支持向量机的劣势在于训练和检测过程中花费的计算成本过高,并且缺乏表达能 力2 射。 l o 上海大学硕七学位论文 2 1 统计学习理论背景 2 1 1 统计学习理论概述 统计学习理论是v a p n i k 等在2 0 世纪7 0 年代木提出,并于9 0 年代逐渐完善 的一种针对小样本的机器学习理论。该理论认为根据不同科学领域所描述规律的 复杂性不同,用少数几个变量可以描述的科学领域称为简单世界,而必须用多个 变量才能描述的科学领域称为复杂世界。在复杂世界中的问题很多是不适定的, 即在现实中就会出现一种情况:当人们反演问题的因果关系式,由于结果的轻微 变化会导致对原因的反演可能与客观现实相去甚远。面对这种情况,v a p n i k 等认 为解决复杂世界中的推理方法应该为“归纳 和“转导从特殊到特殊 的推 理。而在解决具体问题时,要避免把解决一个更为一般的问题作为其中间步骤。 它的核心问题是寻找一种归纳原则以实现最小化风险泛函,从而实现最佳的推广 能力。该理论研究从一些观测数据出发得出目前尚不能从原理分析或实验得到的 规律,并利用这些规律去分析客观对象以实现对未来数据和无法观测的数据进行 预测。在统计学习理论中,把学习问题看作是利用有限数量的观测来寻找待求的 依赖关系的问题。从实例中学习就是运用了“转导”这种推理原则。 以往机器学习理论的核心是经验风险最小化归纳原则。依据这种原则,如果 能找到一个相当逼近这些样本的函数并以大量的样本进行训练,那么就可能对工 作样本做出较准确的预测。然而,如果学习机器能力过强,能够无误差地适应任 意的训练样本,就会导致它所采用的函数集过于复杂,产生过学习的现象。v a p n i k 提出了v c 维的概念,它是统计学习理论的核心概念。v c 维是描述函数集或学 习机器的复杂性或者说是学习能力的一个重要指标。 学习理论的最终研究目标就是希望找到从样本学习的公式化方法,遵循这种 方法研究者通过一段时间对数据的学习和训练之后,能够得到一个分类器使它能 够对新样本正确分类m 5 m 6 m 7 瑚3 。 2 1 2 机器学习理论概述 机器学习的目的是根据给定的训练样本得出对某系统输入输出之间依赖关系 上海大学硕士学位论文 的估计,使它能够对未知输出做出尽可能准确的预
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 印制电路机加工转正考核试卷及答案
- 香肠淀粉改性技术应用报告
- 液状化妆品制造工主管竞选考核试卷及答案
- 二甲基甲酰胺装置操作工岗位操作技能考核试卷及答案
- 铁路车辆制修工综合考核试卷及答案
- 合成碳膜电位器制造工晋升考核试卷及答案
- 法规对染整废水处理设施要求分析报告
- 桑树育苗工招聘考核试卷及答案
- 会计事务所可持续发展与绿色会计实践-第1篇-洞察及研究
- 2025-2030中国手术机器人终端收费模式与医保准入研究
- 百度在线朗读器
- 颅脑外伤患者的麻醉管理专家共识(2021版)
- 质量警示卡模板
- DZ∕T 0219-2006 滑坡防治工程设计与施工技术规范(正式版)
- 《马克思主义基本原理概论》试题库含答案(典型题)
- JJG 86-2011 标准玻璃浮计
- 产业园转让协议样本
- 剪式升降台的驱动机构设计
- 山西省中考语文模拟试卷及答案汇总五
- 25道中国民航航空医生岗位常见面试问题含HR常问问题考察点及参考回答
- SF095广州市社会保险费补缴申请表
评论
0/150
提交评论