




已阅读5页,还剩106页未读, 继续免费阅读
(生物医学工程专业论文)基于统计建模方法的蛋白质结构预测研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于统计建模方b f 1 9 生i i 质结构预测研究摘婴m a r k o v 链方法对蛋白可溶性的整体预测结果好丁基丁神 经网络和信息论的方法。其中,对两类数据的最优分类结果达到7 8 9 ,对= 类数据的最优分类结果达到6 77 ,表明高阶a r kc ) v 链模型( m c m ) 足蛋白残基可溶性预测的一科唷效方法。3蛋白质要参,正常的生命活动,必须处于特定的细胞内医域( 如细胞核、线粒体、细胞质等) ,而预测蛋白质的亚细胞定位信息刈于了解其功能有重要的意义。本文选择了氨基酸组成、氨基酸对组成、位置特异性打分矩阵等不同特征以及模糊k 近邻和支持向量机两种分类方法,对预测结果进行了比较和分析。结果表明位置特异性打分矩阵能提高对不同亚细胞位点的町区分性,是一种非常有效的分类特征,而支持向量机可以更好地利用位置特异性打分矩阵特征进行预测,因此采用氨基姨组成和位置特异性打分矩阵两种特征,并结合支持向量机,是种有效的弧绌胞定位预测方法。此外,还在此基础上提出了一种能进一步提高预测精度的基于e n s e m b l e 技术( 多分类器投票表决) 的亚定位预测方法。4 蛋白质磷酸化作为种最常见的蛋白翻译后修饰( p t m ) 过程,在系列生物细胞活动中起着重要的作用。目前对蛋白质激酶底物的实验测定方法通常非常费时,而且会受多种实验条件的限制。通过机器学习的方法,利用蛋白质的序列信息列不同激酶家族作用的磷酸化位点进行预测,不仅具有快速、自动等优点,还可以对相应的实验测定进行指导。本文提出了一种基于e u c id e a , r i 距离的改进近邻算法,特征向量由基于b l o s u m 6 2 矩阵的平均分值构成。对多个磷酸激酶家族的测试结果显示,预测结果好于目前常用的s c a n s i t e k i n a s e p h o s 和n e t p h o s k 方法,还具有简单、高效、鲁棒性好等优点。本文的研究二 作得到了中国科学技术大学高水平大学建设重点项目以及国家科技部重点科研项目( 2 0 0 4 a a 2 3 5 1 l o ) 的资助。基于统计建模方法的蛋白质结构预测研究摘监a b s t r a c tf r o mi9 8 0 s ,b i o i n f o r m a t i c sb e g a nt oa p p e a ra n dd e v e l o p e dw i t hv e r yh i g hs p e e di tm a i n l yd e a l sw i t hb i o l o g i c a ld a t ab ym e a n so fs t o r i n g s e a r c h i n ga n dp e r f o r m i n ga n a l y s i sw i t ht h ep o w e ro fm o d e r nc o m p u t e r s b i o i n f o r m a t i c si st h ec u t t i n ge d g eo l l i f ea n dn a t u r a ls c i e n c e sn o w a d a y sa n dw i l lb eo n eo ft h em o s ti m p o r t a n tr e s e a r c ha r e a si nt h e21 “c e n t u r y t h ea d v a n c eo fb i o i n f o r m a t i c sw i l lb ea ne v o l u t i o n a r yp o w e rt oc u r r e n tl i f es c i e n c e s :n o to n l yb a s i cr e s e a r c hf i e l d s ,b u ta l s oa g r i c u l t u r e ,m e d i c i n ea n dp u b l i ch e a l t h ,f o o di n d u s t r y a n ds oo n w i l lb e n e f i tf r o mi t sm e r i t s o n eu r g e n tw o r kf o rc u r r e n tb i o i n f o n n a t i c sr e s e a r c h e l l si st oi n v e s t i g a t ee f f i c i e n tm e t h o d o l o g i e sb a s e do ns t a t i s t i c a lm o d e l i n g :a n dt op r e d i c to ra n a l y s e st h em o u n t a i n o u sd a t ad e p o s i t e di nc u r r e n tp u b l i cd a t a b a s e s c o m p a r i n gt ot r a d i t i o n a lb e n c h - e x p e r i m e n t s :a d v a n t a g e so ft h e s ea p p r o a c h e sf r o ms t a t i s t i c a lm o d e l i n g ( h i d d e nm a r k o vm o d e l ,s u p p o r tv e c t o rm a c h i n e k - n e a r e s tn e i g h b o r ,e t c ) a r ea p p a r e n t :f a s t a u t o m a t i ca n de f f i c i e n ti nt i m ea n dl a b o rr e s o u r c e s ,e s p e c i a l l yi nh i g h t h r o u g h p u tl a r g e * s c a l es e q u e n c ea n a l y s i s i nt h i sp a p e rw em a i n l yc a r r yt h r o u g hd e e p l yr e s e a r c ho nt h e s ep r e d i c t i o nm e t h o d sb a s e do ns t a t i s t i cm o d e l i n go nt h eb a c k g r o u n do ft h ep r e d i c t i o no fp r o t e i n s s t r u c t u r ea n df u n c t i o n a n da i m st oi m p r o v et h e i rs e n s i t i v i t ya n de f f i c i e n c yi l la p p l i c a t i o n i nt h i sd i s s e r t a t i o n ,s o m eo r i g i n a tr e s e a r c hw o r k sb yt h ea u t h o rc a l lb et b r m u l a t e da st b l l o w :1 l r a n s m e m e b r a n ep r o t e i n sa r ev e r yi m p o r t a n ta n dc o n t r i b u t eal o tt ot h el i v i n gc e l l sa n ds i g n a lt r a n s d u c t i o n l o t so fp r o t e i n se n c o d e db yh u m a n eg e n o m eh a v ed h e l i c e st r a n s m e m b r a n es e g m e n t si nt h e i rs t r u c t u r e s p r e d i c t i o no ft r a n s m e m b r a n eh e l i c e si np r o t e i n sb ys t a t i s t i c a lm o d e l i n gi so n eo ft h em o s tu r g e n tr e s e a r c hw o r k si nb i o i n f o r m a t i c san o v e ls e g m e n t - t r a i n i n ga l g o r i t h mf o rh i d d e nm a r k o vm o d e l i n gb a s e d0 1 1t h eb i o l o g i c a lc h a r a c t e r so ft r a n s m e m b r a n ep r o t e i n sh a sb e e ni n t r o d u c e d ,f o rt r a i n i n ga n dp r e d i c t i n gt h et c ) p o l o g i c a lc h a r a c t e r so ft r a n s m e m b r a n eh e l i c e s s u c ha sl o c a t i o n o r i e n t a t i o n ,a n ds o0 1 1 r e s u l t sa n d基于统计筵模力法的蛋白质结构预测研兜摘要c o n c l u s i o nc o m p a r e dt ot h es t a n d a r db a l m - w e l c ht r a i n i n ga l g o r i t h n rs h o w st h a tt h i sa l g o r i t h i nh a sl o w e rc o m p l e x i t yw h i l ep r e d i c t i o np e r f o r m a n c ei sb e t t e rt h a n ,o ra tl e a s tc o m p a r a b l et oi t w i t ha10f o l dc r o s s v a l i d a t i o nt e s to i q ad a t a b a s ec o n t a i n i n g16 0t r a n s m e m b r a n ep r o t e i n s ,ah m mm o d e lt r a i n e dw i t ht h i sa l g o “h mo u t p e r l o r m e dt w oo t h e rp r e d i c t i o nm e t h o d s :t 、i u l jv j - a n dm e n i s l 矩w i t hp r e d i c t i o ns e n s i t i v i t yo f9 69 8 a n dc o r r e c tl o c a t i o no f9 12 5 ,w h i c hs u g g e s t st h a tt h i sa l g o r i t h i ni se f f i c i e n ta n dar e a s o n a b l es u p p l e m e n t a r yf o rm o d e l i n ga n dp r e d i c t i o no ft r a n s m e n r b r a n eh e l i c e s2 r e l a t i v es o l v e n ta c c e s s i b i l i t y ( r s a ) o far e s i d u ed e m o n s t r a t e st h ed e g r e et h a tt h er e s i d u ei se x p o s e dt ot h es o l v e n ti np r o t e i n s3 - ds t r u c t u r e ,a n dc a nh er e g a r d e da sac h a r a c t e r i s t i ci d e n t i f i e ro fp r o t e i nt e r t i a r ys t r u c t u r ea n df u n c t i o n a ls i t e s r e s i d u e si np r o t e i ns e q u e n c e sc a nb ed i v i d e di n t ot w oc l a s s e s ( e x p o s e d b u r i e d ) o rt h r e ec l a s s e s ( e x p o s e d i n t e n n e d i a t e b u r i e d ) a c c o r d i n gt ot h e i rr e l a t i v es o l v e n ta c c e s s i b i l i t y s e v e r a lc h a r a c t e r i s t i c si nm a r l o vc h a i nm o d e l ( m c m ) s u c ha sw i n d o wl e n g t h sa n dp a r a m e t e r sw e r ee x p l o r e dt oa c h i e v et h eb e s tp e r f o r m a n c e t h ep r e d i c t i o na c c u r a c i e so fm c mf o rd i f f e r e n tc u t - o f ft h r e s h o l d sa r ea n a l y z e da n dc o m p a r e dw i t ho t h e rm e t h o d s ,a n dt h er e s u l t ss h o wt h a tt h em c mi sab e t t e rm e t h o dt h a nn e u r a ln e t w o r ka n di n f o r m a t i o nt h e o r yu s i n gt h es a m ed a t a s e t t h eb e s ta c c u r a c y i nt w o - c l a s sp r o b l e m ,c a nb ea sh i g ha s7 90 ,a n di nt h r e e c l a s sp r o b l e m c a nb ea sh i g ha s6 7 5 t h e s er e s u l t ss h o wt h a tt h em a r k o vc h a i nm o d e li sa ne f f e c t i v em e t h o di nt h ep r e d i c t i o no i 、p r o t e i ns o l v e n ta c c e s s i b i l i t ) , 3 p r e d i c t i o no fp r o t e i ns u b c e l l u l a rl o c a t i o ni so n eo ft h ek e yf u n c t i o n a lc h a r a c t e r st ou n d e r s t a n di t sb i o l o g i c a lf u n c t i o nl b t a l l yt h r e ek i n d so fi n p u tf e a t u r e sw a si n v e s t i g a t e di n t h i sp a p e r ,i e ,a m i n oa c i dc o m p o s i t i o n ,a l n i n oa c i dp a i rc o m p o s i t i o na n dp o s i t i o n s p e c i f i cs c o r i n gm a t r i x ( p s s m ) i na d d i t i o n ,t h ef u z z yk - n na n ds u p p o r tv e c t o rm a c h i n e ( s v m ) w e r ee m p l o y e dt of i n dw h i c hi sm o r es u i t a b l ef o rt h i sp u r p o s ec o m p r e h e n s i v ec o m p a r i s o no fp r e d i c t i o nr e s u l t so ns e v e r a ld a t as e t ss h o w st h a tp s s mi sb e t t e rt h i n lt h eo t h e rt w of e a t u r e ss v m ,an o e e lm a c h i n el e a r n i n gb a s e do ns t a t i s t i c a ll e a r n i n gt h e o r y , c a l lm a k eb e t t e ri _ l s eo fp s s mt h a nf u z z yk - n nm e t h o d f i n a l l y ,b e s tp r e d i c t i o np e r b r m a n c ec a l lb ei v基于统汁建模方法的蛋白质结构预测研究摘蛆a c h i e v e db ya d o p t i n gb o t hp s s ma n da m i n oa c i dc o m p o s i t i o na si n p u tf e a t u r ea n ds v mf o rp r e d i c t i n g c o m p a r i s o nw i t hd i f f e r e n te x i s t i n gp r e d i c t i o nm e t h o d ss h o w st h i sm e t h o di sa n o t h e re f f i e a c i o u st o o lf o rt h i sb r a n c ho fb i o i n f o r m a t i c s w ea l s od e v e l o p e dap o w e r f u lm e t h o db a s e do ne n s e m b l et e c h n o l o g y ( m u l t i p l ec l a s s i f i e r sw i t hv o t i n gs t r a t e g y ) t h a tc a nf u r t h e ri m p r o v et h ep r e d i c t i o np e r f o r m a n c e4 p r o t e i np h o s p h o r y l a t i o n ,a so n eo ft h em o s tc o m m o np o s t t r a n s l a t i o n a im o d i f i c a t i o n s ( p t m ) ,p l a y sc r u c i a lr e g u l a t o r yr o l e si nav a r i e t yo fb i o l o g i c a lc e l l u l a rp r o c e s s e s e x p e r i m e n t a li d e n t i f i c a t i o no fp r o t e i nk i n a s e s ( p k s ) s u b s t r a t e sw i t ht h e i rp h o s p h o r y l a t i o ns i t e si st i m e - c o n s u m i n ga n do f t e nr e s t r i c t e db yt h ea v a i l a b i l i t yo fe n z y m a t i cr e a c t i o n s b a s e do nm a c h i n el e a r n i n ga p p r o a c h e s ,p r e d i c t i o no ft h ep h o s p h o r y l a t i o ns i t e sw i t ht h e i rs p e c i f i ck i n a s ef r o mp r i m a r ys e q u e n c e si st h v o r a b l yn e e d e d ,f o rt h e s em e t h o d sc a np r o v i d ef a s ta n da u t o m a t i ca n n o t a t i o n s ,w h i c hc a nb eu s e da sg u i d e l i n e sf o rf u r t h e re x p e r i m e n t a lc o n s i d e r a t i o ni nt h i sp a p e r ,w ep r e s e n t e dam o d i f i e dk - n e a r e s tn e i g h b o r ( k - n n )m e t h o dm e a s u r e db yt h ee u c l i d e a nd i s t a n c ef o rp h o s p h o r y l a t i o ns i t ep r e d i c t i o nb l o s u m 6 2 一b a s e ds i m i l a r i t ys c o r e sw e r ea d o p t e da st h ei n p u tv e c t o r s p r e d i c t i o nr e s u l t so ns e v e r a lp kg r o u p ss h o wt h a t i ng e n e r a l ,i to u t p e r f o r m ss t a t eo ft h ea r tm e t h o d s :s c a n s i t e ,k i n a s e p h o sm a dn e t p h o s k ,w h i c hs u g g e s t st h a tt h i sm e t h o di sa n o t h e rc o m p e t i t i v ec o m p u t a t i o n a la p p r o a c hi nt h i sb r a n c ho fb i o i n f o r m a t i c s ,a tt h es a m et i m e ,t h i sm e t h o dh a st h ea d v a n t a g e so fs i m p l e n e s s ,e f f i c i e n c ya n dr o b u s t n e s s t h er e s e a r c hw o r ki nt h i sd i s s e r t a t i o ni ss p o n s o r e db yt h ek e yr e s e a r c hp r o j e c t so fu n i v e r s i t yo fs c i e n c ea n dt e c h n o l o g yo fc h i n aa n dd e p a r t m e n to fs c i e n c ea n dt e c h n o l o g yo f c h i n a ( 2 0 0 4 a a 2 3 5 11 0 ) v基于统计建模方法的蛋白质结构预测研究笫i 帝第1 章绪论1 1 生物信息学随省人类攮因组计划的实施,有关核酸、蛋白质的序列、结构数据呈指数增长。面对巨大而复杂的数据,运用计算机进行管理、存储数据,以及对其进行深入的分析、预测势在必行。近年来,计算机技术的发展更是为生物信息的传递提供了硬件基础和便利。从2 0 世纪8 0 年代末开始,生物信息学( b i o i n f o r m a t i c s ) 逐渐兴起并开始蓬勃发展。生物信息学是以计算机为工具对生物信息进行储存、检索和分析的科学,它不仅是当今牛命科学和自然科学的重人前沿领域之,同时也将是2 l 世纪自然科学的核心领域之一。生物信息学的发展将会对生命科学带来革命性的变革:它的成果不仅将刘相关基础学科起巨大的推动作用,还将划农业、医药、卫生、食品等产业产生臣大的影响。因此,生物信息学己经成为当前生物学领域的研究热正i ,预计在未来的若干年它将变得越来越重要,越来越引起人们的重视【2 j 口i b 。表1 1 常见生物信息学数据库类型常j = i ;数据库核酸序列数据库蛋白质序列数据库j 维结构数据库蛋白结构次级数据库蛋白质m o t i f 数据库文献数据库g e n b a n ke m b l ,d d bs w i s s p r o p i r t r e m b lp d b ,n d b ,c c s ds c o p , c a t h ,f s s p , 3 d a l l ,d s s pp r o s i t e ,p r i n t s b l o c k sm e d l i n e ,u n c o v e r生物信息学主要通过刈生物学实验数据的获取、加l 存储、检索与分析,进而达到揭示数据蕴含的牛物学意义的目的。从l 个世纪末以来,己经陆续建立了众多生物信息学数据库和相应的软件平台,目j u 常见的序列和蛋白结构数据库如表卜1 所示。此外,如e b i 和n c b i 等机构,还将多个数据库整合在起提供基于统计建模方法的蛋白质结构预测研究旃i 章综合服务。如e b i 的s r sf s e q u e n c er e t r i e v a ls y s t e m ) 包含了核酸序列库、蛋白质序列库、三维结构库等3 0 多个数据库及c l u s t a l w 、p r o s i t e s e a r c h 等强有力的搜索工具。另一方面,生物信息学还将计算机科学和数学的理论方法应用于生物大分子信息的获取、加工和分析等方面。以基冈组学研究为例,研究内容从高度自动化的实验出发,经过数据的获取与处理、序列片段的拼接、可能基因的寻找、基因功能的预测一直到基因的分子进化研究,这个过程的每一个环节都是生物信息学研究的重要内容。比如在高度自动化的实验中,将实验所得的物理化学信号转化为数字信息,并对其作简单分析,再将分析结果用于实验条件的控制;通过d n a自动测序仪得到的大量随机测序的序列片段需要生物信息学提供自动而高速地拼接序列的算法进行自动拼接;存得到基因组的序列后,如何从这些长序列中找出未知的基因,以及这些未知基因的功能,都需要生物信息学提供有效的预测算法。另外,如序列同源比较,寻找蛋白质家族保守顺序,蛋白质结构的预测和分子进化的研究,也亟需生物信息学提供有力的帮助。从目前生物信息学的研究情况来看,国际上公认的研究内容,大致包括以下几个方面1 ;4 1 :1 生物信息的收集、存储、管理与提供。包括建立国际基本生物信息库和生物信息传输的国际联网系统;建立生物信息数据质量的评估与检测系统;生物信息的在线服务;生物信息可视化和专家系统等。2 基因组序列信息的提取和分析。包括基因的发现与鉴定,如利用国际e s t数据库( d b e s t ) 和各实验室测定的相应数据,经过大规模并行计算发现新基因和新s n p s 以及各种功能佗点;基因组中非编码区的信息结构分析,提出理论模型,阐明该区域的重要生物学功能;进行模式生物完整基因组的信息结构分析和比较研究;利用生物信息研究遗传密码起源、基因组结构的演化、摹因组空间结构与d n a 折叠的关系以及基因组信息与生物进化关系等生物学的重大问题。3 功能基因组相关信息分析。包括与大规模基因表达谱分析相关的算法和软件研究;基因表达渊控网络的研究;与基因组信息相关的核酸、蛋白质空间结构的预测和模拟,以及蛋白质功能预测的研究。4 生物大分子结构模拟和药物设计。包括r n a ( 核糖核酸) 的结构模拟和反基于统计建模方法的蛋白质结构预测研究筇i 章义r n a 的分子设计:蛋白质空问结构模拟和分子发计;具有不同功能域的复合蛋白质以及连接肽的设引:生物活性分子的电子结构计算和设计:纳米生物材料的模拟与殴计;基于酶和功能蛋白质结构、细胞表面受体结构的药物设计;基于d n a 结构的药物设计等。5 生物信息分析的技术与方法研究。包括发展有效的能支持大尺度作图与测序需要的软件、数据库以及若干数据库工具( 诸如电子网络等远程通讯工具) ;改进现有的理论分析方法,如统计方法、模式识别方法、隐马尔科夫过程力法、分维方法、神经网络方法、复杂性分析方法、密码学方法、多序列比较方法等;创建一切适用丁基因组信息分析的新方法、新技术。包括引入复杂系统分析技术、信息系统分析技术等;建立严格的多序列比较方法;发展与应用密码学方法以及其他算法和分析技术,用于解释基因组的信息,探索d n a 序列及其空间结构信息的新表征;发展研究基因组完整信息结构和信息网络的研究方法:发展生物大分子空间结构模拟、电子结构模拟和药物设计的新方法与新技术。6 应用与发展研究。汇集与疾病相关的人类基因信息;发展患者样品序列信息检测技术和基于序列信息选择表达载体、引物的技术:建立与动植物良种繁育相关的数据库以及与大分子设计和药物设计相关的数据库。相应的,近年来生物信息学存以下几方面获得了迅速的发展:1 大规模基因组测序中的信息分析大规模测序是基因组研究的最基本任务,它的每一个环节都l j 信息分析紧密相关。目前,从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列问隙,到重复序列标识、读框预测和基因标注都紧密依赖于基因组信息学的软件和数据库。2 完整基因组的比较研究和基因功能表达分析现在,生物信息学家不仅拥有大量的序列和基凶,而且有越来越多的完整基因组。有了这些资料人们就能对一i 同物种的基因组进行横向的比较和分析。例如,鼠和人的基因组大小相似,都含有约三十亿碱基对,基因的数目电类似。因此从基因、d n a 序列,以及从染色体组织上的差异,来研究鼠和人表型之间的巨大差异,叫以帮助人类解开如生命起源、生命进化等问题。另外就是对基因功能表达的研究,如基因表达的时空特性,j 。:物的化学特性( 浓度,修饰方式等) ,基基王笙盐整堕立鎏盟堡垒重缱塑塑女! 型窒菇1 帝因之间的相互作用和调控,多基因的表现型等。3 非编码区信息结构分析完整基因组的研究表明,非编码区在高等生物和人的基因组中占有很大的比例( 人类皋囡组中多达9 5 至- 09 7 是非编码区) 。从生物进化的观点来看,随着牛物体功能的完善和复杂化非编码区序列的比例明显增加的趋势这部分序列必定具有重要的g 二物功能。目前普遍的认识是,它们与基因在四维时空的表达调控有关。因此寻找这些区域的编码特征以及信息调节与表达规律是未来相当长时间内的热止l 课题。4 生物大分子的结构模拟与药物设计随着人类基因组计划的执行,越来越多的基因被发现,随之而来的就是要了解它们的功能,找到基因对应蛋白质功能的分子基础,以及进一步知道它们的三维结构。与此同时,设计药物也需要了解相应蛋白质受体的三维结构。这些都是摆在科学家面前的紧迫任务。生物信息学是一门对已有数据进行研究和理解的学科。随着数据库中核酸和蛋白序列等数据量的飞速增长,目前无法解决的问题在今后必定会有重大进展。可以相信,随着人类基因组计划的即将完成以及蛋白质组研究的逐步开展,生物信息学在揭示生命奥秘的过程中会更加成熟和完善,这门学科也将随之得到巨大发展。总之,当前是生物信息学研究一个有活力的新时代以及人类基因组研究的收获时代,它不仅将赋予人们各种基础研究的重要成果,也会带柬巨大的经济效益和社会效益。1 2 生物信息学中的统计预测方法随着基因组和其他测序技术的不断进展,生物信息学的重。t 氧j f 在逐渐从数据的积累、存储、检索转移到如何分析和解释这些数据。作为一门交叉学科,如何将序列数据与结构功能数据、基因表达数据、信号转导的p a + t h v , r a y 等多种信息进行相互融合,特别是在当前多种生物数据成j l 何级数增长的情况i 、如何有效地处理海量的生物数据,这些都对生物信息学的理论、算法和软f l 拔展提出了迫切的苎主燮竖整塑堡鱼堕堕垫型堕塞笙! 兰要求。目前机器学习的方法在生物信息领域的应用已有很多方面,如对残基可溶性5 卜,蛋白二级结构- 2 9 1 ,跨膜螺旋删。例等的预测,但是还远远没有发展成熟。下面简单的介绍下在生物信息学领域应用较多的几种算法。1 2 1 隐马尔科夫模型隐马尔科夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 是个已经非常成熟的算法,早在6 0 年代末期和7 0 年代初期,b a u m 和他的合作者就发表了关于h m m的基本算法,7 0 年代它又被c m u 的b a k e r 以及i b m 的j c l i n c k 和他的合作者迸一步完善并应用到语音识别中。h m m 以前的应用主要是集中在语音识别方面,只是在这几年它才+ 在生物信息学领域中得到应用。随着生物信息学研究的不断深入,它也得到了越来越广泛的应用,并有了它不可取代的地位。随着生物信息量的不断增长,计算的复杂度也越来越大。为了能提高算法的速度和性能,人们把研究重点放在了它的并行化实现上。目前h m m 在大规模基因数据库的管理和对已知序列局部特征的检测与预测中有着r 泛的应用,具体内容如表1 - 2 所示。墨! :! 旦竺竖奎竺塑堕星兰圭塑董王座旦查| 旬基凶大规模基因数据库序列局部特征的检测与预测对序列家族的识别基因表达谱等编码序列的识g i对蛋向质局部序列3 - 状态二级结构预测结构的相关性预测中枢角预测关系预测等刑真核状态启动r 的识别对跨膜螺旋蛋白质结构的预测一些专业性较强的剥g - p r o t e l l l - c0 l i p i e d 受体的分析区域剥b a c t e r i o r h 。d 。p s :1 ( 噬随调理素)的分析对e s t s 和c d n a 片段的检测列信号辅氨酸和s i g n a la n t h o r 的预测_ 一_ _ 一- - - 一5 一基于统计建模方法的蛋白质结构预测研究第1 章对人体内拼接点、内含子以及外显子的测定等一1 2 2 支持向量机统计学习理论( s t a t i s t i c a ll e a r n i n g t h e o r y ) 是一种专门研究小样奉情况下机器学习规律的理论,这符合实际问题中样本数量往往有限的限制。统计学习理论体系下的统计推理不仅考虑了对渐近性能的要求,而且追求在现有有限信息的条件下得到最优结果。在统计学习理论的基础 二v a p n i k 等人又发展了一种新的通用学习方法一支持向量机( s u p p o r t v e c t o r m a c h i n e ,s v m ) 。由于该方法具有严格的理论基础,在生物信息学的很多领域已有成功的应用。支持向量机方法具有以下优点:1 ) 它是专门针对有限样本情况,寻求得到现有信息卜的最优解;2 )训练过程实际上是求解个二次型寻优问题,从理论上说,得到的将是全局最优( 解? ) 点;3 ) 将输入的特征空间通过非线性变换( 核函数) 转换到高维的特征空间,并在此空问中构造线性判别函数来实现原空间中的非线性判别;同时它巧妙地解决了维数问题,其算法复杂度与样本维数无关。s v m 在生物信息领域也已有广泛的应用,具体内容如表卜3 所示。表1 - 3s v m 在生物信息学方向的若干应用蛋白质二级结构预测蛋白结构预测跨膜螺旋预测蛋白特性和功能预测核酸序列分析残基可溶性预测亚细胞定位蛋白质家旗帝i 功能活性或修饰位点d o m a i n 识别g e n e 检测剪接位点、p r o m o t e r 巩别t b f s 预删基于统计建模方法的蛋白质结构预测研究罐i 章1 2 3 后近邻方法k 近邻方法从技术特钲 :看介于聚类分析和代数类域界面方程法之间,它是在已知类别的训练样本条件下,按最近距离原则对待识模式进行分类。这利吩类技术思想直观、方法简单、效果较好,其中的某些技术在理沦上f 可以达到先验知识完备的叭叶斯抉策的分类效果,能适应类域分布较复杂的情况。这类技术是最重要的模式识别技术之一,并在生物信息学等多个科学领域中已有相当的应用,如可溶性预测、亚细胞定位,蛋白翻译后修饰等。1 3 本文的研究介绍本人在读l 尊期间的主要研究内容是利用已有的生物数据( 从公共数据库,如p d b ,s w i s s p r o t ,p h o s p h o b a s e 中提取的数据集) ,通过统计建模的方法( 如h m m ,k 近邻,s v m 等) ,从相应的序列信息中提取出其它重要的生物学信息,如蛋白序列的结构和功能特性,蛋白残基的物理( 如可溶性) 、化学( 如翻译后修饰) 特性。本文的主要研究内容包括以下四部分:1 基于隐马尔科夫模型的蛋白质跨膜螺旋的预测由于跨膜螺旋是蛋白质中极为重要的干十,而目前的算法在精度以及算法复杂度都远远不能满足当前生物信息学发展的需要。因此,钊。对绝大多数的n 型跨膜蛋白的生物学特性,提出一种新的基于隐马尔科夫模裂的算法,并取得了较为满意的效果。这部分内容将在本文第二章中进行详细的分析。2 m a r k o v 链模型在蛋白可溶性预测中的应用蛋白质可溶性表征蛋广1 质残基在三级结构中与溶剂接触的稗度,是反映蛋白i 级结构以及功能位点的主要特征。因此,对蛋白质可溶性进行研究有相当重要的意义。而m a r k o v 链是种具有坚实理论基础的算法,同时有易实现,效率高等优点,目前已经被广泛应用在生物信息学和其他领域。本文第二章主要讨论将m a r k o v 链方法应用到蛋白质可溶性预测的具体技术方法。3 基于机器学习方法的蛋白亚细胞定位的预测方法研究,基于统计建模方法的蛋白质结构预测研究笙】空蛋白质要参与正常的生命活动,必须处于特定的业细胞位点( 如细胞核、线粒体、细胞质等) ,因此亚细胞定位是蛋白质的一项重要功能特性。随着后基冈组刊代的到来,人类已将研究重点放在蛋白质的功能与应用e 。目前公共数据库中大量原始蛋白数据缺乏确定的亚细胞定位信息。传统实验测定方法的速度慢、代价高,已经不能满足刘海量的生物信息进行处理的需要。阿皋于机器学习的预测方法可以提供有效的蛋白质业细胞定位标注,特别适用于高通量大规模基因组序列的标注分析。因此目前已有多种蛋白亚细胞定位预测算法被提出。本文第四章将重点介绍蛋白亚细胞定位的分析以及预测技术,并对目前预测算法中常用的特征和统计建模方法进行详细得比较和分析,并提出了基于多分类器e n s e m b l e ( 融合) 技术的新型预测算法。4 基于k 近邻和打分矩阵的磷酸化位点预测蛋白质磷酸化在真核细胞中具有非常重要的作用,因此相应的研究是近几年生物信息学方向的热门课题。由于目前实验技术鉴定磷酸化底物的特异性和精确性都不够,特别是对于识别基于不同底物的蛋白激酶位点仍然十分困难。同时,基于计算手段的磷酸化位点预测可以提供快速,自动的注解,既可以帮助生物学家们分析蛋白质磷酸化的问题,又可以作为进一步实验设计的指导。冈此用计算手段处理磷酸化的方法在近些年得到迅速的发展。本文第五章中主要介绍利用k近邻的方法对蛋白质磷酸化位点进行特异性预测。基于统计建模方法的蛋白质结构预测研究第2 奄第2 章基于隐马尔科夫模型的蛋白质跨膜螺旋的预测2 1绪论跨膜螺旋是蛋白质中极为重要的一种类型,存几乎所有的活细胞和信号传输中都起重要作用。基因组中相当部分蛋白质编码为螺旋连接的跨膜段的形式,凶此对跨膜段的正确预测是蛋白质功能预测的重要保障3 4 】。跨膜螺旋分为两种:螺旋型和1 6 - s t r a n d 3 - - b a r r e l 型。目前己知的结构人部分都是c 【型,同此我们将主要目标放在对它的预测上。国际一卜在这个方面已有不少研究成果,发展了一些相应的算法,如t m h m m 3 “,h m m t o p t 3 “,m e m s a t t 3 ”,p h d h t m l 3 1 1 ,t m p r e d 3 8 1 ,s o s u l 3 9 1 等。t m h m m 和h m m t o p 都是基于h m m 算法,它们分别建立一个整 = 丰= 的模型,对整条序列进行学习,然后作进一步的后期处理。m e m s a t 是基于动态规划的预测力法,理论上也与h m m 有一定的相似之处。p h d h t m 则是首先建立蛋白质数据库的多比对方法,然后利用l l x , i - 信息建立神经网络。其余的都是利用序列中氨基酸的物化特性,例如疏水性和势能电位等进行预测。其中p t i d h t m 精度最好,但是复杂度最高,需要在工作站上运行。虽然已经提出了不少预测方法,这些算法的精度以及算法的简易程度都有提高的余地,以满足当前生物信息学发展的需要。因此,我们针对跨膜螺旋的生物学特点,提出了一种新的基丁隐马尔科夫模型的预测算法,并取得了较为满意的效果
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论