




已阅读5页,还剩115页未读, 继续免费阅读
(生物医学工程专业论文)支持向量机方法在T细胞表位预测中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
支持向量机方法在t 细胞表位预测中的应用3 在外源性抗原的加工提呈途径中,抗原肽与m h ci i 类分子的结合是激活辅助性t 细胞特异性免疫应答的先决条件。对于给定的一种m h ci i 类分子,准确预测与之结合的抗原肽,不仅有助于人们进一步理解免疫的基本原理,还对表位疫苗的开发、自身免疫性疾病( 如类风湿关节炎、胰岛素依赖性糖尿病等) 的治疗等有着重要的意义。本文应用迭代自洽( i t e r a t i v es e l f - c o n s i s t e n t ,i s c ) 策略与支持向量回归机( s v r ) 的组合方法和四种氨基酸编码方式,对1 7 种m h c1 1 分子( 包括1 4 种人类的h l ad r 分子和3 种鼠类的h 2i a 分子) 的配体数据进行了回归分析,分别建立了预测模型。与其他预测模型的比较结果显示,本文模型具有更优的性能表现。此外,本文以h l ad r b i * o 1 0 1为例,通过分析抗原肽中不同位置氨基酸对结合m h ci i 类分子形成的权重系数,获取了抗原肽与m h ci i 类分子的结合特异性。研究结果为进一步揭示n 细胞表位的产生机制提供了重要的信息。关键词:t 细胞表位;抗原加工提呈途径;蛋白酶体;主要组织相容性复合体;支持向量机大连理工大学博士学位论文t h es v mm e t h o da p p l y i n gi nt h etc e l le p i t o p e sp r e d i c t i o na b s t r a c ti nt c e l lm e d i a t e ds p e c i f i ci m m u n er e s p o n s e ,t h et - c e l lr e c e p t o r ( t c r ) o n l yr e c o g n i z e st h ep e p t i d eb i n d i n gt om a j o rh i s t o c o m p a t i b i l i t yc o m p l e x ( m h c ) m o l e c u l a r t h ef o r m a t i o no ft h ep e p t i d e m h cc o m p l e xd e p e n d so i lt h ea n t i g e np r o c e s s i n ga n dp r e s e n t a t i o np a t h w a y e n d o g e n o u sa n t i g e n s ( e g v i r u s e s ,t u m o ra n t i g e n s ) n e e dt ob ed e g r a d a t e db yp r o t e a o m e ,t r a n s p o r t e db yt r a n s p o r t e ra s s o c i a t e dw i t ha n t i g e np r o c e s s i n g ( t a p ) a n db o u n db ym h cc l a s sim o l e c u l eb e f o r er e c o g n i z e db yc y t o t o x i ctl y m p h o c y t e s ( c t l ) ,c o r r e s p o n d i n g l y ,p e p t i d e sg e n e r a t e df r o mt h i sp a t h w a ya r ec a l l e dc t le p t i t o p e s ;e x o g e n o u sa n t i g e n s ( e g t o x i n sp r o d u c e db yb a c t e r i a s ) a l s on e e dt ob ed e g r a d a t e db yl y s o s o m a le n z y m ea n db o u n db ym h cc l a s si im o l e c u l eb e f o r er e c o g n i z e db yh e l p e rtc e l l ,a n dp e p t i d e sg e n e r a t e df r o mt h i sp a t h w a ya r ec a l l e dt he p t i t o p e g e m e u ys p e a k i n g ,t h ea n t i g e np r o c e s s i n ga n dp r e s e n t a t i o np a t h w a yd e t e r m i n e st h es e l e c t i o no ftc e l lt oe p t i t o p e i no r d e rt of u r t h e rs t u d yt h eb i o l o g i c a lm e c h a n i s mo ft h ep r o c e s s i n ga n dp r e s e n t a t i o no fa n t i g e n , a n di m p r o v ea c c u r a c ya n dr a t i o n a l i t yo ftc e l l se p i t o p ep r e d i c t i o n , s u p p o r tv e c t o rm a c h i n e ( s v m ) w a su s e dt ot h e o r e t i c a l l ys t u d yf o l l o w i n gt h r e ei m p o r t a n ts e l e c t i v es t a g e si nt h ea n t i g e np r o c e s s i n ga n dp r e s e n t a t i o np a t h w a y 1 t h eu b i q u i t i n - p r o t e a s o m es y s t e mo ft h ee u k a r y o t ep l a y sa ni m p o r t a n c er o l ei nt h ee n d o g e n o u sa n t i g e np r o c e s s i n ga n dp r e s e n t a t i o np a t h w a y i no r d e rt of u r t h e rs t u d yt h es p e c i f i c i t yo ft h ep r o t e a s o m ec l e a v a g es i t e s ,t h es u p p o r tv e c t o rc l a s s i f i e r ( s v c ) w a su s e dt ob u i l dt h ep r e d i c t i v em o d e lo fp r o t e a s o m a lc l e a v a g es i t e sa n dt h ep r e d i c t i v ea c c u r a c yo ft h em o d e li s8 3 1 c o m p a r e dt oo t h e rm o d e l s 诵t ht h es a m et e s ts e t ,t h ep e r f o r m a n c eo ft h i sm o d e li sm o r es a t i s f y i n g ,t h es p e c i f i c i t i e so ft h ec l e a v a g es i t e sa n dt h e i ra d j a c e n tp o s i t i o n sc o m ef r o ma n a l y s i sb a s e do nt h ew e i g h tc o e f f i c i e n to ft h ea m i n oa c i d st oc l e a v a g es i t e si nt h ep r e d i c t i v em o d e l ,s h o w i n gt h ei n f o r m a t i o na b o u ti n t e r a c t i o no ft h ep r o t e a s o m e 嘶ma i la n t i g e np r o t e i n ,w h i c hd e m o n s t r a t e st h a tt h ep r o t e a s o m ec l e a v e st h et a r g e tp r o t e i ns e l e c t i v e l y ,b u tn o tr a n d o m l y t h i ss t u d yi sh e l p f u lt of u r t h e rr e v e a li n t r i n s i cm e c h a n i s mh o wp r o t e a s o m ec l e a v ea n t i g e np r o t e i n 2 i nt h ee n d o g e n o u sa n t i g e np r o c e s s i n ga n dp r e s e n t a t i o np a t h w a y m h cc l a s sim o l e c u l e sp l a yac r i t i c a lr o l ei ni n i t i a t i n ga n dr e g u l a t i n gi m m u n er e s p o n s e s p e p t i d em u s tb eb o u n dt oa nm h cc l a s sim o l e c u l eb e f o r er e c o g n i z e db yt h ec y t o t o x i ctl y m p h o c y t e s ( c t l ) ,b u to n l yc e r t a i np e p t i d e sc a nb i n dt oa n yg i v e nm h cc l a s sim o l e c u l e d e t e r m i n i n gw h i c hp e p t i d e sb i n dt oas p e c i f i cm h cc l a s sim o l e c u l ei sn o to n l yh e l p f u lt ou n d e r s t a n dt h ei i i 支持向量机方法在t 细胞表位预测中的应用m e c h a n i s mo fi m m u n i t y ,b u ta l s ot od e v e l o pe f f e c t i v ea n t i - t u m o re p i t o p ev a c c i n e s i no r d e rt of u r t h e rs t u d yt h es p e c i f i c i t yo fm h cc l a s sim o l e c u l eb i n d i n ga n t i g e np e p t i d e ,t h es u p p o r tv e c t o rr e g r e s s i o n ( s v r ) a n df o u ra m i n oa c i de n c o d i n gs c h e m e sw e r eu s e dt ob u i l df o u rm o d e l so fp r e d i c t i n gb i n d i n ga f f i n i t i e sb e t w e e np e p t i d e sa n dm h cc l a s sim o l e c u l e s c o m p a r i s o na m o n gp e r f o r m a n c e so ft h ef o u rm o d e l si n d i c a t e dt h a tt h em o d e lb a s e do np h y s i c o c h e m i c a lp r o p e r t i e so fa m i n oa c i d si sm o r es a t i s f y i n g f u r t h e r m o r e ,t h es p e c i f i c i t i e so fm h cc l a s sim o l e c u l eb i n d i n ga n t i g e np e p t i d ew e r eo b t a i n e dt h r o u g ha n a l y s i sb a s e do nt h ec o n t r i b u t i o no ft h ea m i n oa c i d st op e p t i d e m h cc l a s sim o l e c u l eb i n d i n ga f f i n i t i e si nt h ep r e d i c t i v em o d e l 。3 i nt h ee x o g e n o u sa n t i g e np r o c e s s i n ga n dp r e s e n t a t i o np a t h w a y ,p e p t i d eb i n d i n gm h cc l a s si im o l e c u l ei sa ni m p o r t a n tp r e r e q u i s i t ef o ra c t i v a t i n gh e l p e r t - c e l lm e d i a t e di m m u n er e s p o n s e a c c u r a t ep r e d i c t i o no fp e p t i d et h a tb i n das p e c i f i cm h cc l a s si im o l e c u l ei sn o to n l yh e l p f u lf o ru n d e r s t a n d i n gt h ei m m u n em e c h a n i s mb u ta l s oi su s e f u lf o rd e v e l o p i n go fe p i t o p ev a c c i n ea n di m m u n o t h e r a p yo fa u t o i m m u n ed i s e a s e ,e g r h e u m a t o i da r t h r i t i s ( r a )a n di n s u l i n - d e p e n d e n td i a b e t e sm e l l i t u s ( i d d m ) i nt h i sp a p e r ,am e t h o dc o m b i n ea ni t e r a t i v es e l f - c o n s i s t e n t ( i s c ) s t r a t e g yw i t hs u p p o r tv e c t o rr e g r e s s i o n ( s v r ) a n df o u rs c h e m e so fa m i n oa c i de n c o d i n gw a su s e dt ob u i l dm o d e l st op r e d i c tb i n d i n ga f f i n i t i e sb e t w e e np e p t i d e sa n dm h cc l a s si im o l e c u l e s t h ep r e d i c t i v ep e r f o r m a n c eo ft h em e t h o di sv a l i d a t e do nd a t as e t so f17m h cc l a s si ia l l e l e sc o v e r i n g14h u m a nh l a d ra l l e l e sa n d3m o u s eh 2i aa l l e l e s c o m p a r e dt oo t h e rm o d e l s 晰也t h es a m ed a t as e t ,t h ep r e d i c t i v ep e r f o r m a n c eo fo u rm o d e li sm o r es a t i s f y i n g f u r t h e r m o r e ,t h es p e c i f i c i t i e so fm h cc l a s si im o l e c u l eb i n d i n gp e p t i d ew e r eo b t a i n e dt h r o u g ha n a l y s i sb a s e do nt h ec o n t r i b u t i o no ft h ea m i n oa c i d st op e p t i d e m h cc l a s si im o l e c u l eb i n d i n ga f f i n i t i e si nt h ep r e d i c t i v em o d e l t h i ss t u d yi sh e l p f u lt of u r t h e rr e v e a lm e c h a n i s mo fg e n e r a t i o no ft he p i t o p e k e yw o r d s :tc e l le p i t o p e ;p r o c e s s i n ga n dp r e s e n t a t i o np a t h w a yo fa n t i g e n ;p r o t e a s o m e ;m a j o rh i s t o c o m p a t i b j i i t yc o m p t e x ;s u p p o r tv e c t o rm a c h i n ei v 大连理工大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外,本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。若有不实之处,本人愿意承担相关法律责任。学位论文题目:翅堡燮婴竖塑塑盟塑作者签名:型j 盈日期:盟年互月二乒日大连理工大学学位论文版权使用授权书本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印、或扫描等复制手段保存和汇编本学位论文。学位论文题目:盟鱼量塑趔堕塑! 主垦型作者签名:蛰堡日期:皿年王月2 之日导师签名:乏蚴垄:1j 堑日期:过年上月2 之日大连理工大学博士学位论文1 绪论1 1研究背景及意义( 1 ) 生物背景免疫( i m m u n i t y ) 是机体识别和排斥抗原性异物的一种生理功能。免疫系统( i m m u n i t ys y s t e m ) 是机体实现免疫功能,抵御病毒侵入的保卫系统,它包括免疫器官、免疫细胞和免疫分子。免疫器官可按其功能的不同而分为中枢免疫器官( c e n t r a li m m u n eo r g a n )和外周免疫器官( p e r i p h e r a li m m u n eo r g a n ) 两大类:中枢免疫器官是免疫细胞发生、分化和成熟的场所;外周免疫器官是免疫细胞的定居处,在遇抗原刺激后,免疫细胞就开始活化、增殖,并进一步分化为致敏淋巴细胞或产生抗体的浆细胞,以执行其免疫功能。免疫细胞主要有t 细胞、b 细胞、单核细胞、巨噬细胞、中性粒细胞等,它们是由骨髓中的多能干细胞分化而来的。根据免疫细胞行使的功能可将其分为:能够识别表达特异性抗体的细胞:t 细胞、b 细胞;抗原提呈细胞( a n t i g e np r e s e n t i n gc e l l s ,a p c ) :树突状细胞,巨噬细胞等。免疫分子主要由t 淋巴细胞、b 淋巴细胞和巨噬细胞受抗原刺激后所产生,主要有抗体( 又称免疫球蛋白) 、细胞因子、补体、干扰素、肿瘤坏死因子等,它们的主要功能有参与免疫细胞发育和分化、参与炎症反应、参与抗原识别、参与免疫细胞激活信号和抑制信号的传导、参与清除被病毒感染的细胞及变异的细胞等。免疫又分为天然性免疫和获得性免疫两种。天然性免疫又称为非特异性免疫,是机体在种系发育和进化过程中形成的免疫防御功能。其特点是:作用范围广,不针对特定抗原;先天获得,出生后即具备,如吞噬屏障,炎症反应等。而获得性免疫又称为特异性免疫,是指出生后通过接触抗原物质所产生的一系列防御功能,是免疫系统进化过程中形成的高度专一的防御机制。特异性免疫在人的免疫系统中起着重要的作用,它是免疫研究的核心。特异性免疫又分为特异性体液免疫和特异性细胞免疫,其中,特异性体液免疫主要由b 细胞介导,特异性细胞免疫主要由t 细胞介导。本文主要关注由t细胞介导的特异性细胞免疫( 除非特别指出,本文叙述中所讲的特异性免疫都是指特异性细胞免疫) 。t 细胞是t 淋巴细胞( tl y m p h o c y t e ) 的简称,它的主要功能是介导特异性细胞免疫和调节机体的免疫功能【l j 。t 细胞来源于骨髓干细胞,在胸腺中发育和分化,成熟后离开胸腺进入外周免疫器官的胸腺依赖区定居,并循血液一组织一淋巴一血液进行淋巴细胞再循环而分布全身。外周血液中t 细胞占淋巴细胞总数的6 5 - - - 7 0 。成熟的t 细支持向量机方法在t 细胞表位预测中的应用胞实际上是由异质性群体构成的,根据t 细胞抗原受体( tc e l lr e c e p t o r ,t c r ) 的类型不同可将其分为携带丫:6 受体的t 细胞( 简称7 8 t 细胞) 和携带c 【:p 受体的t 细胞( 简称q b t 细胞) ,其中人体中以a p t 细胞为主,约占总量的9 5 以上。t s t 细胞是一类特殊的t 细胞,其功能至今尚不清楚。所以本文主要关注a b t 细胞( 除非特别指出,本文叙述中所讲的t 细胞都是指a 1 3 t 细胞) 。根据表面标志的不同,0 【b t 细胞分为c d 4 + t 细胞和c d 8 + t 细胞1 2 j 。其中c d 4 + t细胞又称为辅助性t ( h e l p e rt ,t h ) 细胞,根据其分泌的细胞因子和介导功能的不同可再分为t h l 细胞和t h 2 细胞。t h l 细胞主要作用是介导特异性细胞免疫,t h 2 细胞主要作用是辅助b 细胞介导特异性体液免疫。c d 8 + t 细胞根据功能不同可分为细胞毒性t细胞( c y t o t o x i ctl y m p h o c y t e s ,c t l ) 和抑制性t ( s u p p r e s s o rt ,t s ) 细胞。c t l 是免疫应答的主要效应细胞,可特异性杀伤靶细胞,在抗病毒感染的免疫中发挥重要作用。t 细胞只有识别抗原( a n t i g e n ) 之后,才能活化、增殖、分化,即其介导的免疫应答才能启动,进而发挥其免疫作用。由此可见,抗原在免疫系统中起着十分重要的作用。所谓抗原是指在免疫应答中能与抗体或免疫细胞受体相结合的物质,是激活免疫应答的关键。然而在特异性免疫应答中,t 细胞不能像抗体那样直接识别完整的天然抗原,而仅能借助其表面抗原受体t c r 识别抗原的一个特定的部分,称为表位( e p i t o p e ) 或抗原决定簇( a n t i g e n i cd e t e r m i n a n t ) 。t 细胞表位通常会存在于抗原内部,冈此t 细胞受体要想接触到这个残基位置,就必须将这个蛋白质降解和加工。对蛋白质抗原的降解和加工主要有两种途径:内源性抗原加工提呈途径和外源性抗原加工提呈途径。内源性抗原加工提呈途径( 又称m h ci 类抗原提呈途径) 大致分为如下几个阶段:在抗原提呈细胞( a n t i g e np r e s e n t i n gc e l l s ,a p c ) 内部,内源性抗原与泛素结合,并被泛素带到蛋白酶体中。在蛋白酶体中,内源性抗原被降解为抗原肽;抗原肽被与抗原提呈相关的转运蛋白( t r a n s p o r t e ra s s o c i a t e dw i t ha n t i g e np r o c e s s i n g ,t a p ) 转运至内质网( e n d o p l a s m i cr e t i c u l u m ,e r ) 中;在内质网中,抗原肽与新生成的主要组织相容性复合体( m a j o rh i s t o c o m p a t i b i l i t yc o m p l e x ,m h c )i 类分子结合为抗原肽m h c 分子复合物;复合物经过高尔基体被转移至a p c 表面,并与t 细胞表面的t c r 结合,成为t c r -抗原肽m h c 分子三元体,从而激活c d 8 + t 细胞介导的免疫应答。其中将经由内源性抗原加工提呈途径产生的,并能够引起c d 8 + t 细胞介导的特异性免疫应答的抗原肽称为细胞毒性t 细胞( c y t o t o x i ctl y m p h o c y t e s ,c t l ) 表位。外源性抗原加工提呈途径大致分为如下几个阶段:外源性抗原( 如细菌产生的毒素) 被抗原提呈细胞a p c 摄取后,细胞膜将其包裹,成为细胞质( c y t o s 0 1 ) 中载有外源性抗原的内体( e n d o s o m e ) 。随后载有外源性抗原的内体与溶酶体( 1 y s o s o m e ) 融合为大连理工大学博士学位论文内体溶酶体,溶酶体酶( 主要指组织蛋白酶) 在此将外源性抗原裂解为长度不等的抗原肽。在内质网( e n d o p l a s m i cr e t i c u l u m ,e r ) 中,新合成的m h ci i 类分子的q 链和d链经过部分糖基化后,配对折叠形成a :1 3 异源二聚体。此后又与一种称为m h ci i 类分子相关的恒定链( i n v a r i a n tc h a i n ,i i ) 结合成三聚体,进而被转运出内质网,成为细胞质中载有m h ci i 类分子的内体。其中i i 链的作用一方面是暂时覆盖m h ci i 类分子的肽结合槽,使抗原肽不能与之结合;另一方面是引导m h ci i 类分子通过高尔基体进入内体1 3 l 。在内体中,m h ci i 类分子与i i 链的复合体在蛋白水解酶( 如组织蛋白酶s ) 的作用下,i i 链被逐步降解,最后仅剩下与m h ci i 类分子肽结合槽相连的恒定链肽段( c l a s si ia s s o c i a t e di n v a r i a n t c h a i n p e p t i d e ,c l i p ) 。随后内体溶酶体和载有m h ci i 类分子的内体进一步融合。并在一种非经典m h ci i 类分子( 在人类中称为h l ad m 分子,在鼠类中称h2 m ) 的催化下,c l i p 从m h ci i 类分子上释放出来,同时使空的m h ci i 类分子肽结合槽与其他抗原肽结合。m h ci i 类分子与抗原肽结合后,借助于溶酶体膜与细胞膜的融合以及细胞的胞吐作用,抗原肽m h ci i 类分子复合体便可表达于a p c 表面,供c d 4 + t 细胞识别。其中将经由外源性抗原加工提呈途径产生,并能够引起c d 4 + t 细胞介导的特异性免疫应答的抗原肽称为辅助性t 细胞( h e l p e rt ,t h ) 表位。( 2 ) 研究意义近年来,随着免疫性预防和治疗的快速发展,表位疫苗( e p i t o p ev a c c i n e ) 己在对抗传染病上显示了巨大的潜力1 4 ,引,并且在控制癌症、自身免疫性疾病等医学难题上也展示了诱人的前景【5 。7 】。与此同时,如何预测充当疫苗靶标角色的t 细胞表位已成为一个重要的研究课题,也是缩短疫苗开发周期的瓶颈问题。除此之外,许多对免疫有利的天然t 细胞表位引发的的免疫应答不能满足预防感染或预防发病的需要,为了激活高效的免疫应答,就必须在表位水平上做出选择、改造以得到更理想的表位疫苗,而这一切必需建立在表位筛选、鉴定的基础上【弘1 0 】。但对于一个已知氨基酸序列的蛋白质抗原,若单纯用实验的方法来鉴定其表位,常需要合成大量交叠肽,进而通过抗原肽结合或免疫功能实验进行筛选和鉴定,这种方法不仅费时费力,效率还很低,难于适应海量数据飞速增长的形势;反之,如先借助计算机理论预测方法使备选抗原肽的范围大大缩小,再用相应的实验来鉴定,往往可取得事半功倍的效果【l 卜1 3 l 。因此,借助计算机的t 细胞表位的理论预测已越来越受到人们的关注。( 3 ) 研究现状t 细胞表位预测分c t l 表位预测和t h 表位预测两类【1 4 ,”】:其中c t l 表位预测主要涉及蛋白酶体裂解位点的预测、t a p 转运抗原肽的预测以及m h ci 类分子与抗原肽支持向量机方法在t 细胞表位预测中的应用的结合亲和力预测三方面内容;t h 表位预测目前仅限于m h ci i 类分子与抗原肽的结合亲和力的预测。在研究t 细胞表位的相关内容的过程中,研究者开发或引入了很多理论预测方法,主要包括:结合基序( b i n d i n gm o t i f ) 法基序( m o t i f ) 是指抗原肽的特定位置上出现的氨基酸排列模式。结合基序法仅关心抗原肽中这些特定位置上的氨基酸,并且孤立地看待每个位置上的氨基酸,假定抗原肽的作用仅等于这些特定位置上的氨基酸的作用的简单加和。此种方法应用简便,但预测精度不高。相关文献有s y f p e i t h i t l 6 1 、r a n k p e p 【i7 ,1 8 】和b i m a s t l9 1 。定量矩阵( q u a n t i t i v em a t r i x ) 法定量矩阵法是基序法的扩展和改善,它考虑抗原肽中内每个位置上氨基酸的影响,并将其生成一个矩阵位置权重矩阵( p o s i t i o nw e i g h tm a t r i x ,p w m ) ,应用p w m 可以对未知抗原肽的生物活性( 如能否与m h c 分子结合,能是否被蛋白酶体裂解等) 进行打分预测。定量矩阵法的应用也相当简便,不过由于它同样没有考虑抗原肽中氨基酸间的相互作用,从而限制了其预测效果。相关文献有t e p i t o p e 2 0 ,2 1 1 、m h c p r e d 2 2 ,2 3 1 、p r o p r e d 2 钔、m u l t i p r e d 2 5 1 和b i o d m h c 2 6 1 。最近,一些基于改进定量矩阵方法的工作( 如a r b t 2 7 1 、s m m t 2 8 】和n e t m h ci i 2 8 】等) 也取得了不错的效果。机器学习( m a c h i n el e a r n i n g ) 法机器学习法是人工神经网络、隐马尔可夫法、支持向量机等算法的总称,能够揭示数据集中复杂的非线性关系( 如抗原肽中氨基酸间的相互作用) ,弥补结合基序法和定量矩阵法的不足,因此具有良好的预测表现。相关文献有p a p r o c t 2 9 ,3 们、n e t c h o p 3 、p e r u n t 3 2 1 、g i b b s t 3 3 1 、m h c 2 p r e d t 3 4 1 、s v m h c t 3 5 】和s v r m h c 3 6 j 。分子建模( m o l e c u l em o d e l ) 法分子建模法是指在蛋白质分子晶体结构上应用分子力学和分子动力学方法进行蛋白质相互作用分析【3 7 4 0 】。分子力学和分子动力学是在原子、分子水平上求解多体问题的重要计算模拟方法,能够从微观态出发对系统的宏观性质进行分析【4 。基于分子动力学的分子建模法作为前三种预测方法的补充,可以揭示蛋白质分子内部相互作用机制,但其不适合大量数据的处理。量子化学分析( q u t a n t u mc h e m i c a la n a l y s i s ) 法量化分析法是蛋白质相互作用中考虑了电子的量子效应,进而反映更为细微的相互作用信息【4 2 , 4 3 】。但是由于庞大的蛋白质分子组成和它高昂的计算代价使之只能应用于蛋白质分子中的局部的相互作用分析,无法单独进行t 细胞表位预测。大连理工大学博士学位论文上述这些理论预测的研究极大地推动了t 细胞表位研究向前发展,同时在理论预测指导下的实验工作也得到了长足的进步,体现在各类表位数据库( 如s y f p e i t h i 1 6 】、a n t i j e n 【删、m h c p e p t 4 5 1 、m h c b n t 4 6 1 、i m g t l 4 7 】) 的快速发展。但是要想快速准确的预测t 细胞表位还有很长的路要走。1 2 论文的主要工作本文利用机器学习中的支持向量机方法分别对内源性抗原加工提呈途径中蛋白酶体对抗原的酶切、m h ci 类分子与抗原肽的结合以及外源性抗原加工提呈途径中m h ci i 类分子与抗原肽的结合进行了理论预测研究,并建立了相应的预测模型。具体的工作可概括如下:在第二章,主要介绍两部分内容:简单介绍了统计学习理论;系统地介绍了应用在模式识别和回归估计两类问题上的支持向量机的算法和解法,并给出清晰的程序实现流程图。在第三章,主要研究了蛋白酶体对内源性抗原的酶切问题。首先,对蛋白酶体酶切内源性抗原的过程进行深入的研究;然后,从免疫信息学数据库以及相关文献中找到相关的实验数据,构建样本训练集和预测集,并采用支持向量分类器( s u p p o r tv e c t o rc l a s s i f i e r ,s v c ) 方法求解;最终,建立了蛋白酶体酶切内源性抗原的理论预测模型,并得到了蛋白酶体酶切内源性抗原的特异性。将本预测模型在公共预测集上进行预测,其预测精度要优于其他同领域算法。在第四章,主要研究了m h ci 类分子与内源性抗原肽特异性结合的问题。首先,对m h ci 类分子结合抗原肽的生物过程以及复合体三维结构进行深入研究;然后,从免疫信息学数据库以及相关文献中找到相关的实验数据,构建样本训练集和预测集;针对四种氨基酸编码方式,应用支持向量回归机( s u p p o r tv e c t o rr e g r e s s i o n ,s v r ) 方法分别建立了理论预测模型,通过比较分析,得到了m h ci 类分子与内源性抗原肽的结合特异性。在第五章,主要研究了m h ci i 类分子与外源性抗原肽特异性结合的问题。首先,对m h ci i 类分子结合抗原肽的生物过程及其三维晶体结构进行深入研究;然后,寻找相关的实验数据,并应用迭代自洽( i t e r a t i v es e l f - c o n s i s t e n t , i s c ) 策略与支持向量回归机( s u p p o r tv e c t o rr e g r e s s i o n , s v r ) 的组合方法,分别对1 7 种m h ci i 类分子( 包括1 4 种人类的h l ad r 分子和3 种鼠类的h 2i a 分子) 的配体数据进行了回归分析,并分别建立了预测模型。将本模型与其他同领域预测模型方法比较发现,本文建立的模型支持向量机方法在t 细胞表位预测中的应用具有更优的性能表现。此外,本文还通过分析抗原肽中不同位置氨基酸对结合m h ci i类分子形成的权重系数,探究了氨基酸及其物理化学性质对抗原肽与m h ci i 类分子的结合亲和力的影响,获取了一些抗原肽与m h ci i 类分子的结合特异性。大连理工大学博士学位论文2 统计学习理论与支持向量机基于数据的机器学习法( 简称机器学习) 是现代智能技术的一个重要研究方向,它是以观测数据( 已知样本) 为基础,研究发现其中的规律,并利用这些规律对未来数据或无法观测的数据进行预测。机器学习法的重要理论基础之便是统计学。传统的统计学所研究的主要是渐近理论,即当样本数目趋于无穷大时的统计规律,现有的学习方法多是以此为基础,如人工神经网络。但在实际问题中,样本数往往是有限的,因此一些理论上很优秀的学习方法在实际应用中却都难以取得预想的效果。与传统统计学相比,v a p n i k 等人创立的统计学习理论( s t a t i s t i c a ll e a r n i n gt h e o r y ,s l t ) 则是一种专门研究小样本情况下机器学习规律的理论【4 8 l 。同时v a p n i k 在这一理论基础上发明了一种新的通用机器学习法支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 。较以往的学习方法,支持向量机表现出了很多理论和实践上的优势。本章首先简单介绍统计学习理论研究的关键思想,而后详细地介绍支持向量机的原理和实现过程。2 1统计学习理论统计学习理论( s t a t i s t i c a ll e a r n i n gt h e o r y ,s l t ) 是一种专门研究小样本情况下机器学习规律的理论,它是传统统计学的重要发展和补充,为解决有限样本学习问题提供了一个统一的框架【4 黏5 1 1 。有望帮助解决许多原来难以解决的问题( 如神经网络结构选择问题、局部极小点问题等) 。接下来本文将先简单介绍统计学习理论的主要内容。2 1 1 机器学习的基本问题( 1 ) 学习问题的表示学习问题是利用有限数量的观测数据( 样本) 来寻找待求的输入与输出的依赖关系的问题。其实质就是从给定的函数集f = 厂( 元,厅) i 厅人 中选择出能够最好地逼近输入与输出的依赖关系的函数厂( 贾,反) ( 即寻找参数向量历) 。这种选择是在训练集的基础上做出的。i ) l l 练集t 由根据联合分布p ( 夏,y ) = p ( 贾) p ( y i 元) 抽取出的疗个独立同分布观测样本组成。t = ( 墨,乃) ,( 毛,n ) ( 2 1 )为了选择最好的逼近函数,就需要度量在给定输入是下实际输出y 与函数输出厂( j ,厅) 之间的差异或损失( y ,( 贾,厅) ) 。考虑损失三( y ,厂( 牙,反) ) 的数学期望值:支持向量机方法在t 细胞表位预测中的应用r ( 历) = l j ,( 元,舀) ) 印( 舅,y )( 2 2 )其中,r ( a ) 称为期望风险( e x p e c t e dr i s k ) ,l ( y ,厂( 元,西) ) 称为损失函数。机器学 - 3 的目的就是,在联合概率分布函数p ( 贾,y ) 未知,所有可用信息都包含在训练集丁中的情况下,在函数集f = 厂( 冤,反) l 西八) 中寻找函数厂( 元,瓦,) ,使期望风险尺( 西) 的取值最小。学习问题的形式有很多,其中模式识别( p a t t e r nr e c o g n i t i o n ) 问题、回归估计( r e g r e s s i o ne s t i m a t i o n ) 问题是最为重要的两类问题。模式识别问题:以二分类问题为例,即训练集中样本点的理想输出y 只取一l 或1 两种值( 也可取0 或1 两种值) ,并令f = 厂( 贾,厅) i 反人 为指示函数集合( 指示函数即只能取一l 或l 两种取值( 也可0 或1 两种值) 的函数) ,则模式识别的目的就是要建立决策函数,决策函数就是在损失函数( y ,厂c 元,历,) = t :) ;i ;:主喜;( 2 - 3 ,下使式( 2 2 ) 取最小值的函数厂( 贾,历) 。回归估计问题:训练集中样本点的理想输出y 为实数值,并令f = ( 元,a ) i 厅人为实函数集合,回归估计的目的就是要建立回归函数,回归函数就是在损失函数:l ( y ,厂( i ,反) ) = ( 少一( 贾,舀) ) 2( 2 4 )t b l ! ( 2 2 ) 式最小化的函数厂元,厅) 。( 2 ) 经验风险最小化原则由于联合概率分布函数p ( 2 ,y ) 未知,致使我们无法计算风险r ( a ) ( 式( 2 2 ) ) ,因此通常将期望风险r ( a ) 替换为所谓的经验风险( e m p i r i c a lr i s k ) k 。 )如,( 反) = 亡( 儿,厂( 置,剐( 2 - 5 )对比式( 2 - 2 ) 和式( 2 5 ) 可以发现,期望风险r ( a ) 是积分形式,而经验风险r 。 ) 是求和形式,这是因为以往的经验通常是有限的。此外,由于k , ) 的计算并不涉及概率分布,所以对于特定的训练集丁,它是可以被唯一确定的。因此在训练集r 的基础上,可以认为使经验风险r 啪,( 反) 取最小值的函数厂( i ,舀) 是使期望风险r ( 舀) 取最小值的函数厂( 贾,) 的近似估计,这就是所谓的经验风险最小化
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 年会策划活动方案模板图(3篇)
- 嘉兴多人团建活动方案策划(3篇)
- 泸州水下施工方案(3篇)
- 中职对口考试题库及答案
- 艺术鉴赏考试题库及答案
- 小学文明用语题目及答案
- 小区绿化及环保设施建设合同
- 看假文盲有感700字15篇
- 元宵节作文500字左右20258篇范文
- 农村环境保护和可持续发展的合作合同
- 废气处理活性炭吸附操作规范
- 2025年体育教练员执业能力考试试题及答案解析
- 2025年住培结业考试题库及答案
- 2025年重庆辅警管理知识模拟100题及答案
- T-SCSTA001-2025《四川省好住房评价标准》
- 住院精神疾病患者自杀风险护理
- 《病理检验技术》课程标准
- 医务人员礼仪培训
- 体检中心销售技巧销售话术
- 五年级上册英语教案-Unit1 We have new friends(Lesson2) |人教精通版
- 《投资学》课程教学大纲
评论
0/150
提交评论