(材料学专业论文)基于集成学习算法的若干生物信息学应用研究.pdf_第1页
(材料学专业论文)基于集成学习算法的若干生物信息学应用研究.pdf_第2页
(材料学专业论文)基于集成学习算法的若干生物信息学应用研究.pdf_第3页
(材料学专业论文)基于集成学习算法的若干生物信息学应用研究.pdf_第4页
(材料学专业论文)基于集成学习算法的若干生物信息学应用研究.pdf_第5页
已阅读5页,还剩161页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

i :海人学博f :学位论文2 0 0 8 年1 2 月 摘要 2 0 世纪后期,由于人类等生物物种基因组学以及生物科学技术的飞速发展, 生物信息发生了惊人的增长,这极大地丰富了生物科学的数据资源,并随之诞生 了一门新兴的交叉学科:生物信息学,其目的在于通过对生物学实验数据的获取、 加工、存储、检索与分析,揭示数据所蕴含的生物学意义。数据挖掘技术用于在 数据中发现潜在有用的知识,在生物信息学研究当中,正发挥着越来越重要的作 用,而且取得了丰硕的成果。本文应用集成学习方法来对生物信息中的若干问题 进行讨论。本文的主体工作分为四个部分: 1 用集成学习算法预测蛋白质结构和功能定位。随着生物技术的不断发展,越来 越多的蛋白质序列被测定出来,探索利用理论及计算方法来研究蛋白质结构和 功能定位具有重要意义。本文从蛋白质的一级序列出发,基于氨基酸组成进行 蛋白质序列特征编码,使用了a d a b o o s t 与b a g g i n g 这两种集成学习算法来对蛋 白质的结构类型、膜蛋白类型和蛋白质亚细胞定位进行预测。在建模过程中, 分别使用了r a n d o m f o r e s t ,k n n 和c 4 5 三种不同的弱学习算法来作为基本分 类器,并用基于1 0 组交叉验证法的计算结果对建模参数进行优化。结果表明: ( 1 ) 用a d a b o o s t r a n d o m f o r e s t 算法预测蛋白质结构类型时,预测结果良好, 对于所选用的两个标准数据集,其留一法预报准确率分别可以达到9 4 1 8 和 8 5 9 ,优于先前文献报导的预报结果;( 2 ) 用a d a b o o s t c 4 5 算法预测原核和 真核蛋白亚细胞定位时,其留一法预报准确率分别达到9 1 8 0 和8 0 8 0 ,优 于先前文献报导的预报结果;( 3 ) 用b a g g i n g k n n 算法预测膜蛋白类型问题时, 其留一法预报准确率可以达到8 4 4 2 ,优于先前文献报导的预报结果。根据以 上所建立的预测模型,我们同时开发了相应的在线预报系统。 2 用集成学习算法研究小分子的生物功能。研究小分子生物功能,在分子生物学 领域能帮助人类理解生命现象,在医学领域帮助人类认识疾病机理。由于通过 实验来发现小分子的生物功能会耗费大量的人力、物力和财力,且具有一定的 v j :海人学博j 二学位论文 2 0 0 8 年1 2 月 盲目性和风险性,因此,用集成学习方法来研究这个问题具有实际意义。本文 中我们首先研究了小分子代谢途径类型的预测问题,提出了基于官能团组成的 小分子编码方法,用a d a b o o s t c 4 5 算法建模,其交叉验证预报准确率达到 7 4 0 5 ,对独立测试集的预报准确率达到7 5 1 1 。然后,我们又研究了小分子 与酶相互作用的预测问题,用a d a b o o s t c 4 5 算法建模,其交叉验证预报准确 率达到8 1 7 6 ,对独立测试集的预报准确率达到8 3 3 5 。结果表明,集成学 习算法可以用来研究小分子的生物功能,所建模型有很好的预测性能。此外, 我们根据所建立的小分子代谢途径类型和小分子与酶相互作用的预测模型,同 时开发了相应的在线预报系统。 3 运用集成学习算法a d a b o o s t 来研究苯酚类化合物毒性机理预测的问题。我们 从文献中收集了2 7 4 个苯酚化合物,计算了4 5 个分子描述符,用基于互信息 增益的c f s ( c o r r e l a t i o n b a s e df e a t u r es u b s e t ) 算法筛选出9 个分子描述符。基于 这9 个描述符,我们分别以c 4 5 ,r a n d o m t r e e ,r a n d o m f o r e s t 和k n n 四种算 法作为基本分类器建立a d a b o o s t 模型,经过优化和验证后,最终选用c 4 5 为 基本分类器建模。最后,又与s v m 和k n n 算法的预报性能做了比较,结果表 明a d a b o o s t 算法在苯酚类化合物毒性机理预测中,有良好的预报能力,其交 叉验证和对独立测试集的预报准确率分别达到9 6 3 和9 2 8 。基于该研究内 容,建立了相应的在线预报系统。 4 使用m r m r - k n n 集成方法研究h i v 1 蛋白酶的裂解位点预测。首先,使用 a a i n d e x 的5 3 1 个氨基酸残基指数对8 肽进行编码,然后使用m r m r 特征筛选 方法得到了5 0 0 个特征。在此基础上,使用改进的w r a p p e r 搜索方法得到了含 有3 6 4 个特征的子集。最后用最近邻方法( k n n ) 建模预测h i v 1 蛋白酶裂 解位点,其留一法测试和对独立测试集的预报准确率分别可以达到9 1 3 和 8 7 3 。通过对5 0 0 个特征进行生物学分析,我们发现:( 1 ) p l 位点和p 2 位点 对于h i v - 1 蛋白酶底物的特异性所作贡献最大,( 2 ) p 1 位点上的氨基酸残基主 要是疏水性残基,而p 2 位点上的氨基酸残基主要由二级结构决定,以上两点 结论与先前通过实验所得到的文献结论相吻合。本工作结果表明:m r m r 方 v i 卜海大学博一 :学位论文 2 0 0 8 年1 2 月 法结合改进的w r a p p e r 方法能够对生物数据集进行有效的特征筛选;在此基础 上建模,不仅可以得到满意的预测结果,而且所选的特征具有生物学意义。因 此,m r m r 方法有望成为生物信息学领域特征筛选的一个重要方法。 关键词:生物信息学,集成学习算法,a d a b o o s t ,b a g g i n g ,蛋白质结构,亚细胞 定位,膜蛋白,代谢途径,小分子,氨基酸组成,官能团组成,h i v - 1 蛋 白酶,交叉验证,独立测试集,构效关系 v i i j :海人学博上学位论文2 0 0 8 年1 2 月 a b s t r a c t i nt h el a t e2 0 t hc e n t u r y , w i t ht h er a p i dd e v e l o p m e n to fb i o s c i e n c et e c h n i q u e s 、 h u m a ng e n o m i c sa n do t h e rl i f eg e n o m i c s ,t h ei n f o r m a t i o no fb i o l o g yi n c r e a s e dw i t h s u r p r i s i n gs p e e d ,w h i c hg r e a t l ye n r i c h e dt h eb i o i n f o r m a t i o nr e s o u r c ea n dl e dt ot h eb i r t h o fb i o i n f o r m a t i c s i nb i o i o f o r m a t i c s ,r e s e a r c h e r st r yt od i s c o v e re n c y c l o p e d i cb i o l o g i c a l k n o w l e d g eb yc a p t u r e i n g ,m a n a g i n g ,d e p o s i t i n g ,r e t r i e v i n ga n da n a l y z i n gb i o l o g i c a l i n f o r m a t i o n d a t am i n i n gt e c h n o l o g yi su s e dt oe x t r a c tp o t e n t i a la n du s e f u li n f o r m a t i o n f r o mt h ed a t a b a s e s ,a n di s p l a y i n ga ni n c r e a s i n g l yi m p o r t a n tr o l e i nt h es t u d yo f b i o i o f o r m a t i c s i nt h i sp a p e r , e n s e m b l el e a r n i n gm e t h o d sw e r eu s e dt oi n v e s t i g a g e t e s o m et o p i c so fb i o i n f o r m a t i c s t h em a i nw o r ko ft h ep a p e rc o n t a i n sf o l l o w i n gf o u r p a r t s : 1 u s i n ge n s e m b l el e a r n i n ga l g o r i t h mt os t u d yt h ep r e d i c t i o no fp r o t e i ns t r u c t u r ea n d f u n c t i o nt y p e s w i t ht h es u c c e s so f h u m a ng e n o m ep r o j e c t ,t h ep r o t e i ns e q u e n c e s e n t e r i n gi n t ot h ed a t ab a n k sa r er a p i d l yi n c r e a s i n g t h es t r u c t u r e sa n df u n c t i o n so f t h e s ep r o t e i n sm a yb ed e t e r m i n e db ym e a n so fe x p e r i m e n t s ,b u ti ti sv e r y t i m e - c o n s u m i n ga n da l m o s ti m p o s s i b l e t h u st h es c i e n t i s t sh a v eb e i n gs o u g h ta f t e r t h et h e o r e t i c a lo rc o m p u t a t i o n a lm e t h o d sf o rp r e d i c t i n gt h es t r u c t u r e sa n df u n c t i o n s o f p r o t e i n s a d a b o o s ta n db a g g i n g w e r ee m p l o y e dt oc l a s s i f yo rp r e d i c tp r o t e i n s t r u c t u r e sa n df u n c t i o nl o c a t i o n sb a s e do ns e q u e n c ea m i n oa c i dc o m p o s i t i o ni nt h i s d i s s e r t a t i o n d u r i n gt h em o d e l i n gp r o c e s s ,f o u rd i f f e r e n tw e a km a c h i n el e a r n i n g m t e h o dw e r eu s e dt ob u i l dm o d e l ,a n dt h em o d e l i n gp a r a m e t e r sw e r eo p t i m i z e d b a s e do nt h er e s u l t so fc r o s s v a l i d a t i o no ft h em o d e l s t h er e s u l t ss h o wt h a t :( 1 ) t h eb e s tm o d e lw i t hp r e d i c t i o na c c u r a c i e so f9 4 18 a n d8 5 9 0 w e r eo b t a i n e db y u s i n ga d a b o o s t - r a n d o m f o r e s ti nl e a v e - o n e o u tc r o s s - - v a l i d a t i o nf o rt w os t a n d a r d d a t as e to fp r o t e i ns t r u c t u r e ,r e s p e c t i v e l y ;( 2 ) t h eb e s tm o d e l sw i t hp r e d i c t i o n a c c u r a c yo f9 1 8 0 a n d8 0 8 0 w e r eo b t a i n e db yu s i n ga d a b o o s t - c 4 5i n l e a v e - - o n e - - o u tc r o s s - v a l i d a t i o nf o rs u b c e l l u l a rl o c a t i o no fp r o k a r y o t i ca n d i :海人学博十学位论文2 0 0 8 年1 2 月 e u k a r y o t i cp r o t e i n s ,r e s p e c t i v e l y ;( 3 ) t h eb e s tm o d e lw i t hac o r r e c tr a t eo f8 4 4 2 w a so b t a i n e db yu s i n gb a g g i n g - k n ni nl e a v e - o n e o u tc r o s s - v a l i d a t i o nf o r m e m b r a n ep r o t e i n a l lt h ep r e d i c t i o na c c u r a c i e sb yu s i n ge n s e m b el e a r n i n gm e t h o d a r eb e t t e rt h a nt h ep r e v i o u sr e s u l t sr e p o r t e d b a s e do nt h em o d e l so fp r e d i c t i n g s u b c e l l u l a rl o c a t i o na n dm e m b r a n ep r o t e i n ,t w oc o r r e s p o n d i n go n l i n ew e bs e r v e r s w e r ee s t a b l i s h e d 2 u s i n ge n s e m b l el e a r n i n ga l g o r i t h mt os t u d yt h ep r e d i c t i o no fs m a l lm o l e c u l e s m e t a b o l i cp a t h w a y sa n ds m a l lm o l e c u l ea n de n z y m e i n t e r a c t i o n - n e s s f i r s t l y , b a s e d o na d a b o o s tm e t h o da n df e a t u r e db yf u n c t i o ng r o u pc o m p o s i t i o n ,an o v e la p p r o a c h i sp r o p o s e dt oq u i c k l ym a pt h es m a l lc h e m i c a lm o l e c u l e sb a c kt ot h ep o s s i b l e m e t a b o l i cp a t h w a yt h a tt h e yb e l o n gt o a sar e s u l t ,10f o l d sc r o s sv a l i d a t i o nt e s ta n d i n d e p e n d e n ts e tt e s to nt h em o d e lr e a c h e d7 4 0 5 a n d7 5 11 r e s p e c t i v e l y s e c o n d l y , b a s e do na b o v er e s e a r c h ,w et r yt ou s ea m i n oa c i dp h y s i c o c h e m i c a l p r o p e r t i e st oc o d ee n z y m e ,r e s u l t i n gi nt o t a l l y16 0f e a t u r e s t h e s ef e a t u r e sa r ei n p u t i n t oa d a b o o s tc l a s s i f i e rt op r e d i c tt h ei n t e r a c t i o n n e s s a sar e s u l t ,t h eo v e r a l l p r e d i c t i o na c c u r a c i e s ,t e s t e db y10 一f o l d sc r o s s - v a l i d a t i o na n di n d e p e n d e n ts e t ,a r e 81 7 6 a n d8 3 3 5 ,r e s p e c t i v e l y b a s e do nt h em o d e l so f p r e d i c t i o no fs m a l l m o l e c u l e s m e t a b o l i cp a t h w a y s ,s m a l lm o l e c u l ea n de n z y m ei n t e r a c t i o n n e s s ,t w o c o r r e s p o n d i n go n l i n ew e bs e r v e r sw e r eb u i l t 3 a d a b o o s tl e a r n e ri se m p l o y e dt oi n v e s t i g a t et o x i ca c t i o nm e c h a n i s m so f p h e n o l s b a s e do nm o l e c u l a rd e s c r i p t o r s 2 7 4p h e n o l sf r o md i f f e r e n tr e f e r e n c e sw e r e c o l l e c t e d ,a n d4 5d e s c r i p t o r sw e r ec a l c u l a t e d f i r s t l y , 9d e s c r i p t o r sw e r es e l e c t e db y u s i n gc f s ( c o r r e l a t i o n b a s e df e a t u r es u b s e t ) m e t h o d t h e nc 4 5 ,r a n d o m t r e e , r a n d o m f o r e s ta n dkn e a r e s tn e i g h b o r s ( i 阱n s ) w e r ee m p l o y e da sb a s i cc l a s s i f i e r s o f a d a b o o s tt ob u i l dt h em o d e l ,a n dc 4 5i ss e l e c t e d f i n a l l y , t h ep e r f o r m a n c eo f a d a b o o s tl e a r n e ri sc o m p a r e dw i t hs u p p o r tv e c t o rm a c h i n e ( s v m ) a n d ,k n n w h i c ha r et h em o s tc o m m o na l g o r i t h m su s e df o rs a r s a n a l y s i s a sar e s u l t , a d a b o o s tl e a r n e rp e r f o r m e db e t t e rt h a ns v ma n dk n n si np r e d i c t i n gt h e m e c h a n i s mo ft o x i c i t yo f p h e n o l sb a s e do nm o l e c u l a rd e s c r i p t o r s i tc a nb e i x i :海大学博i :学位论文 2 0 0 8 年1 2 月 c o n c l u d e dt h a ta d a b o o s th a sap o t e n t i a lt oi m p r o v et h ep e r f o r m a n c eo fs a r s a n a l y s i s w ea l s od e v e l o p e da no n l i n ew e bs e r v e rf o rt h ep r e d i c t i o no fe c o t o x i c i t y m e c h a n i s m so fp h e n o l s 4 k n o w l e d g eo ft h ep o l y p r o t e i nc l e a v a g es i t e sb yh i vp r o t e a s e w i l lr e f i n eo u r u n d e r s t a n d i n go fi t ss p e c i f i c i t y , a n dt h ei n f o r m a t i o nt h u sa c q u i r e di su s e f u lf o r d e s i g n i n gs p e c i f i ca n de f f i c i e n th i vp r o t e a s ei n h i b i t o r s r e c e n t l y , an u m b e ro f c l a s s i f i e rc r e a t i o na n dc o m b i n a t i o nm e t h o d sw e r ep r o p o s e dt oa p p r o a c ht h eh i v - 1 p r o t e a s es p e c i f i c i t yp r o b l e m t h ep a c ei ns e a r c h i n gf o rt h ep r o p e ri n h i b i t o r so fh i v p r o t e a s ew i l lb eg r e a t l ye x p e d i t e di fo n ec a nf i n da na c c u r a t e ,r o b u s t ,a n dr a p i d m e t h o df o rp r e d i c t i n gt h ec l e a v a g es i t e si np r o t e i n sb yh i vp r o t e a s e i nt h i sw o r k , w es e l e c t e dh i v - 1p r o t e a s ea st h es u b j e c to ft h es t u d y t w oh u n d r e dn i n e t y n i n e o l i g o p e p t i d e sw e r ec h o s e nf o rt h et r a i n i n gs e t ,w h i l e t h eo t h e r s i x t y - t h r e e o l i g o p e p t i d e sw e r et a k e na sat e s ts e t t h ep e p t i d e sa r er e p r e s e n t e db yf e a t u r e s c o n s t r u c t e db ya a i n d e x t h em r m rm e t h o d ( m a x i m u mr e l e v a n c e ,m i n i m u m r e d u n d a n c y ) c o m b i n i n gw i t hi n c r e m e n t a lf e a t u r es e l e c t i o n ( i f s ) a n df e a t u r e f o r w a r ds e a r c h ( f f s ) a r ea p p l i e dt of i n dt h e2i m p o r t a n tc l e a v a g es i t e sa n dt os e l e c t 3 6 4i m p o r t a n tb i o c h e m i s t r yf e a t u r e sb yj a c k k n i f et e s t u s i n gk n n ( k - n e a r e s t n e i g h b o u r s ) w i t hs e l e c t e df e a t u r e s ,t h ep r e d i c t i o nm o d e lw i t hh i g ha c c u r a c yr a t e so f 91 3 a n d8 7 3 w e r eo b t a i n e df o rj a c k k n i f ec r o s s v a l i d a t i o nt e s ta n d i n d e p e n d e n t - s e tt e s t ,r e s p e c t i v e l y i ti se x p e c t e dt h a t0 1 1 1 f e a t u r es e l e c t i o ns c h e m e c a nb eu s e da sau s e f u la s s i s t a n tt e c h n i q u ef o rf i n d i n ge f f e c t i v ei n h i b i t o r so fh i v p r o t e a s e k e y w o r d s :b i o i n f o r m a t i c s ,e n s e m b l el e a r n i n g ,a d a b o o s t ,b a g g i n g , p r o t e i ns t r u c t u r e , s u b c e l l u l a rl o c a t i o n ,m e m b r a n ep r o t e i n ,m e t a b o l i cp a t h w a y , s m a l lm o l e c u l e , a m i n oa c i dc o m p o s i t i o n ,f u n c t i o n a lg r o u pc o m p o s i t i o n ,h i v - 1 p r o t e a s e , c r o s s - v a l i d a t i o n t e s t ,i n d e p e n d e n t s e t t e s t , q u a n t i t a t i v e s t r u c t u r e - a c t i v i t y p r o p e r t yr e l a t i o n s h i p ( q s a r q s p r ) 卜海大学博1 :学位论文 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发表 或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 签名:够咖 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即:学 校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学校可 以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 日期:坐1 7 上海人学博上学位论文2 0 0 8 年1 2 月 1 1 生物信息学简介 第一章绪论 2 0 世纪后期,随着计算机技术和生物技术的飞速发展,特别是人类基因组图 谱的完成,催生了一门新兴的交叉学科:生物信息学。在美国人类基因组计划实 施五年后的总结报告中曾对生物信息学作了以下的定义:生物信息学是一门交叉 学科,它包含了生物信息的获取、处理、储存、分发、分析和解释等方面,它综合 运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物 学意义【h 】。生物信息学由数据库、应用软件和因特网三大要素构成。生物信息 学研究在国外开展得比较早,在我国还处于起步阶段。一般生物信息学研究涉及 比较基因组学、大规模基因组测序中的信息分析和新基因新的发现、非编码区信 息分析、遗传密码起源和生物进化、蛋白质结构与功能预测、生物大分子的结构 模拟与药物设计、生物数据库及可视化应用软件的研究与开发等,其中蛋白质结 构与功能预测是生物信息学研究比较重要的方面。生物信息学已经成为分子生物 学研究中一个非常重要的辅助手段,是在对海量数据分析和处理时不可缺少的必 备工具,主要体现在以下层面【5 引: 第一,收集和管理生物分子数据,将各种数据以一定的表示形式存放在计算 机中,建立数据库系统并提供数据查询和数据通讯工具,使得生物学 研究人员能够方便地使用这些数据,并为相关的信息分析和数据挖掘 打下基础【9 d 1 1 。目前国际上己建立起许多公共生物分子数据库,包括 基因图谱数据库、核酸序列数据库、蛋白质序列数据库、生物大分子 结构数据库等,由专门的机构建立、维护并负责收集、组织、管理和 发布生物分子数据,并提供数据检索和分析工具,向生物学研究人员 提供大量有用的信息,最大限度地满足他们的研究和应用需要,为生 物信息学研究服务。迄今为止,生物学数据库总数已达5 0 0 个以上。在 d n a 序列方面有g e n b a n k 、e m b l 和d d b j 等 1 2 a 6 1 ;在蛋白质一级 结构方面有s w i s s p r o t 、p i r 和m i p s 等【1 6 ,17 1 ;在蛋白质和其它生 物大分子的结构方面有p d b 等;在蛋白质结构分类方面有s c o p 和 l :海人学博t :学位论文2 0 0 8 年1 2 月 c a t h 等【1 引。 第二,进行数据处理和分析,通过信息分析发现数据之间的关系,提取本质 规律,进而上升为生物学知识。在此基础上解释与生物分子信息复制、 传递、表达有关的生物过程,并解释生物过程中出现的故障与疾病的 关系,帮助发现新药物作用目标,设计新药物分子,为进一步的研究 和应用打下基础 1 9 - 2 6 】。目前生物信息学的主要研究对象是基因和蛋白 质【2 7 1 。在蛋白质分析方面,着重分析蛋白质序列与蛋白质结构及功能 之间的关系,预测蛋白质的功能,研究蛋白质家族关系开展进化分析。 面对大量蛋白质序列数据,传统的计算方法越来越显示出不足,借助 机器学习的方法弥补传统试验方法的不足,是目前生物信息学领域普 遍使用的方法【2 7 】。 第三,开发分析工具和实用软件解决具体问题,为生物信息学的应用服务, 如生物分子序列比较工具、基因识别工具、生物分子结构预测工具、 基因表达数据分析工具等。到目前为止,各国研究人员开发了许多有 应用价值的软件产品,如用于生物信息数据库检索的s r s 2 8 】和 e n t r e z 2 9 1 ,用于序列同源性分析的b l a s t t 3 0 1 和f a s t a t 3 ,以及用于 多序列比对的c l u s t w 3 2 1 等。 1 2 机器学习算法在生物信息学中的应用【3 3 】 机器学习研究的主旨是使用计算机模拟人类的学习活动,它是研究计算 机识别现有知识、获取新知识、不断改善性能和实现自身完善的方法。这里 的学习意味着从数据中学习,它包括有监督学( s u p e r v i s e dl e a r n i n g ) 、无监督 学习( u n s u p e r v i s e d l e a r n i n g ) 和半监督学习( s e m i s u p e r v i s e dl e a r n i n g ) - - - 种类 别。常见的有监督学习包括:决策树、b o o s t i n g 与b a g g i n g 算法、人工神经网 络和支持向量机等。【3 3 】 机器学习算法在生物信息学中的应用主要包括四个方面【3 4 】: 第一,在序列比对分析中的应用。序列比对是生物信息学的基础,基 本问题是比较两个或两个以上符号序列的相似性【3 5 1 。从2 0 世 纪8 0 年代以来,人们发展了半经验的直观算法。它们可以很快 2 上海大学博,i j 学位论文2 0 0 8 年1 2 月 地给出较好的结果,但不能保证所得结果是最优的。另外,还有 动态规划算法、神经网络和隐马尔科夫算法。目前已用于序列 对比分析的方法主要有:n e e d l i m a n w u n s e h 动态规划算法, s m i t hw a t e r m a n 算法及b l a s tf a s t a 等相似性比较程序。通过它 们可进行两序列、多序列、局部序列乃至完整基因组的比较。 第二,在人类基因组研究中的应用。随着人类基因组研究的发展,利用 机器学习方法进行基因识别被广泛使用。这些方法包括神经网 络算法、基于规则的方法、决策树和概率推理等。此外,基于隐 马尔科夫模型e m 训练算法、v i t e r b i 序列分析算法以及 f d r ( f a l s ed i s c o v e r y r a t e ) 方法都有成功的应用成果。 第三,在蛋白质组研究中的应用。这里包含两个方面,蛋白质功能预 测和蛋白质结构预测: a ,蛋白质功能预测主要是分析目标蛋白质和已知蛋白 质的相似性。一般步骤为先通过蛋白质序列数据库比较来确 定其功能,利用b l a s t 和f a s t a 工具与蛋白质序列库中的序列 进行同源性比较,然后通过组成蛋白质的2 0 种氨基酸的物 理和化学性质,分析己知或未知蛋白质的性质,如等电点分子 量、疏水性、跨膜螺旋、卷曲螺旋及信号肽等,最后与保守 的基序和图形数据库比较判断功能。 b ,蛋白质结构预测的目的是利用已知的一级序列来构 建出蛋白质的立体结构模型,对蛋白质进行结构预测需要具 体问题具体分析,在不同的已知条件下对于不同的蛋白质采 取不同的策略。目前利用机器学习方法预测蛋白质空间结构 的方法主要有折叠识别以及神经网络、隐马尔科夫、支持向 量机等方法。 第四,在生物芯片研究中的应用。生物芯片技术检测及分析技术是生 物信息学中目前实用性较强的研究领域。生物芯片主要包括基 因芯片( g e n e c h i p ) 或称d n a 芯片( d n a c h i p ) 、蛋白芯片 ( p r o t e i n c h i p ) 和芯片实验室( l a b o n ac h i p ) 等。基因芯片是生物 3 上海人学博f :学位论文 2 0 0 8 年1 2 月 芯片中研究最早、最先形成商品化产品,并己取得广泛应用。机 器学习的许多方法都可以直接应用于基因芯片分析,如序列比 较方法、贝叶斯神经网络方法和聚类方法等。 1 3q s a r 简介 化合物的性质活性是化学的基本研究内容之一,徐光宪先生将物质结构与性 能的定量关系称为化学的第二根本规律,并将其列为二十一世纪化学的四大难题 ( 中长期) 之一。化学家们普遍认为,化合物所表现出来的各种性质活性与化 合物的结构密不可分,即性质活性是结构的函数。这也是结构性质活性关系 ( s t r u c t u r ep r o p e r t y a c t i v i t yr e l a t i o n s h i p ,s p r s a r ) 的基本假设。 早在1 8 6 8 年,c r u m b r o w n 和f r a s e r 提出了化合物的分子结构c 和生物活性 伊可由方程表示:缈= 厂( c ) ,这是q s a r 方面的第一个方程【了7 1 。后来人们发现, 化合物拓扑结构是决定其化学性质的重要因素。当时只研究了少部分的化合物结 构参数与其活性关系,如取代基的电子效应( h a m m e r 的s 常数) ,立体参数( t a f t 参数) 以及疏水性参数( h a n s c h 的分配常数) 。到二十世纪3 0 年代,h a m m e t t 在其 经典著作( ( p h y s i c a lo r g a n i cc h e m i s t r y ) ) 中提出了线性自由能关系l f e r ( l i n e a r f r e ee n e r g yr e l a t i o n s h i p ) ,推动了化合物构效关系研究的深入发展。2 0 世纪4 0 年代起,化学家开始发现分子和其它化学物质可以很方便地用多种不同的矩阵表 示【3 8 ,3 9 1 ,化学图的概念及拓扑指数( 图论指数) 【4 0 ,4 1 】的引入使表征分子结构并 进行化合物的构效关系研究有了一个基本工具。而后在二十世纪6 0 年代, h a i l s c h 【4 2 , 4 3 1 和f r e e 、w i l s o n 4 4 , 4 3 1 的研究开始建立在定量的基础之上。他们用统计 方法对实验数据进行归纳总结并建立结构活性关系表达式,探讨结构变化与生 化活性之间的关系,标志着q s a r 时代的开始【矧。 二十世纪7 0 年代以后,随着生物化学、分子生物学、统计学和计算机科学 的快速发展,s p r s a r 研究提高到了一个新的水平。一方面,表征分子的结构 参数不断丰富,在传统物理化学参数以外,更多地使用拓扑参数【4 1 , 4 7 - 5 1 】、电子参 数【5 1 彤1 来表征基团结构;另一方面,一些新的建模方法也被引入到s a r q s a r 的研究中,除了传统的多元线性回归、偏最d , - - 乘回归和主成分分析等算法以外, 遗传算法【5 4 ,5 5 1 、人工神经网络【溉5 7 】和支持向量机方法【5 8 ,5 9 】等逐步引入了定量构 4 卜海大学博f :学位论文2 0 0 8 年1 2 月 效关系研究。二十世纪8 0 年代后,考虑分子三维构象的3 d q s a r 也逐步引起 了研究者的关注。1 9 7 9 年c r i p p e n 提出的距离几何学方法【6 0 1 、1 9 8 0 年h o p f i n g e r 等人提出的分子形状分析方法【6 l 】、1 9 8 8 年c r a m e r 等人提出的比较分子场方法 ( c o m f a ) 6 2 1 是3 d q s a r 中最常用的手段。但在化学领域,由于研究体系与数据 量的差异,2 d s p r s a r 仍占主导地位。 1 4 论文的主要内容 本论文运用集成学习技术研究了蛋白质结构和功能定位预测,小分子的生物 功能注释,苯酚类化合物毒性机理的构效关系预测以及h i v - 1 蛋白酶位点预测, 建立了上述相关研究内容的模型。并运用j 2 e e 技术,实现基于上述模型的在线 预报功能。 本文的主要工作成果在于:1 基于集成学习算法建立起了用于小分子的生物 功能注释,蛋白质结构和功能定位预测,苯酚类化合物的毒性机理预报以及 h i v - 1 蛋白酶位点预测模型,且这些模型的预测性能良好;2 通过构建基于上述 模型的在线预报服务器,使预报模型能够为该领域专家,特别是实验工作者所用。 本文各章研究的主要内容分别为: 第一章为绪论,简要介绍了生物信息学及化合物构效关系的研究方法、现状 及进展。第二章介绍了本研究用到的机器学习算法。第三章系统研究了基于集成 学习算法的蛋白质结构和功能定位的预测。第四章系统研究了基于a d a b o o s t 算 法的小分子生物功能注释。第五章系统研究了基于c f s a d a b o o s t 方法的苯酚类 化合物毒性机理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论