(流体力学专业论文)利用低相似性序列的模体识别来大量发掘新型细胞因子.pdf_第1页
(流体力学专业论文)利用低相似性序列的模体识别来大量发掘新型细胞因子.pdf_第2页
(流体力学专业论文)利用低相似性序列的模体识别来大量发掘新型细胞因子.pdf_第3页
(流体力学专业论文)利用低相似性序列的模体识别来大量发掘新型细胞因子.pdf_第4页
(流体力学专业论文)利用低相似性序列的模体识别来大量发掘新型细胞因子.pdf_第5页
已阅读5页,还剩107页未读 继续免费阅读

(流体力学专业论文)利用低相似性序列的模体识别来大量发掘新型细胞因子.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要摘要细胞因子( c y t o k i n e ) 是机体的免疫细胞和非免疫细胞合成并分泌的小分子量的多肽类因子,能调节多种细胞生理功能,在生长发育、机体免疫等过程中起着非常重要的调控作用。从第一个细胞因子被发现以来,细胞因子相关的研究一直是国际免疫学研究的热点问题。细胞因子的研究有助于阐明分子水平的免疫调节机制,有助于疾病的预防、诊断和治疗,利用细胞因子治疗肿瘤、感染、造血功能障碍以及自身免疫病等已有了初步成效。因此,新型细胞因子的发掘与研究具有深远而广泛的理论意义和实际应用价值。随着生物信息学的迅速发展,细胞因子的研究不再单纯依靠实验手段。到1 9 9 0 年代末期,新型细胞因子的发掘越来越多地借助于生物信息学工具的指导。以白介素( i n t e r l e u k i n ,i l )为例,从2 0 0 0 年至今,至少有i l l 9 - 1 l 3 2 等十几种新型白介素得以发现。在此过程中,生物信息学的序列分析和数据库搜索等手段发挥了重要作用。但是,一方面,已有研究中的大部分方法依赖于一些机构自主丌发的商业化的数据库,普通研究者无法获得使用机会,限制了细胞因子发掘工作的长足发展:另一方面,已有研究中的生物信息学方法往往只是简单应用,缺乏对细胞因子相关数据的系统而深入地挖掘。利用生物信息学手段进行新型细胞因子发掘工作的主要瓶颈问题在于,细胞因子家族进化速率高,家族成员序列保守性低( 相似程度一般在3 0 左右) ,因此采用传统方法通过b l a s t 工具搜索数据库难以发现数据库中蛋白质家族的远同源关系的新成员。然而,细胞因子家族在保持结构和功能的相似时,在较长序列上仍然会保留少数相似位点的痕迹。基于此,本文提出一个细胞因子发掘的生物信息学策略,通过模体( m o t i 0 识别刻画细胞因子家族的特征来发掘新型细胞因子。本文首先比较分析了当前常用的几种模体识别方法。重点阐述了m e m e 、g r e e d y e m 、h m m 和p s t s 等四种模体识别方法的特点,发现m e m e 和h m m方法更具优势。于是,文中提出一种新的模体评价策略来定量分析这两种方法的优劣。把模体看作分类器( c l a s s i f i e r ) ,模体对数据集的搜索看作分类器对数据集中序列的分类。选择了p r o s i t e 数据库中的七个细胞因子家族作为七个数据集,分别采用m e m e 和h m m 方法对每个训练集进行模体识别。通过计算每个北京工业大学工学博士学位论文数据集上模体的敏感性和特异性以及比较它们对应的接收机操作特性曲线( r e c e i v e ro p e r a t i n gc h a r a c t e r i s t i cc u r v e s ) ,比较了不同模体的优劣。最终发现m e m e 和h m m 任何一种方法都没有绝对的优势。因此必须根据对训练集的具体分析选择不同的模体识别方法。其次,模体识别效果的好坏,既取决于模体识别方法的选择,也取决于蛋白质家族训练集的选择。根据是否具有直接或问接参与机体的造血调控功能,本文选择了造血细胞因子家族为一个训练集;通过结合文献和已知三级结构的细胞因子的分类,文中将细胞因子家族按照结构分类做了补充和完善,并根据结构分类选择短链和长链4 a 螺旋家族为两个结构训练集:另外还选择了功能和结构均保守的i l l 0 家族作为训练集。为了观察细胞因子家族的保守位点和家族成员之间的亲缘关系,对四个训练集的蛋白质序列分别进行了多重比对和进化树分析。由于m e m e 方法对这四个家族的搜库结果假阳性过高,本文选择h m m方法对四个细胞因子家族构建h m m 模体。根据不同训练集的特点,对造血细胞因子家族的两个训练集建立了六个h m m ,对其他三个家族的细胞因子分别建立一个h m m 。每个模体对三个蛋白质序列数据库:全物种的s w i s s p r o t数据库、人源的i p i 数据库和人源的n r 数据库进行搜索,识别每个数据库中与模体匹配的蛋白质,并去除冗余,获得待筛选的候选蛋白质。最后,在数据库搜索的结果中筛选和预测可能的细胞因子是比较艰难的工作,并没有现成的标准可供直接利用。从计算的角度出发,判断搜库结果的好坏主要看搜库获得的蛋白质与已知模体匹配的得分和统计的e 值。得分越高,e 值越低,模体与蛋白质序列匹配的越好。也就是说,两者的匹配缘于偶然的可能性越小。同时,训练集家族的固有的生物学特征是判断搜库获得的蛋白质( 目标蛋白质,s u b j e c t p r o t e i n ) 是否与建模家族有关的重要依据。目标蛋白质与建模家族细胞因子具有相同或相近的生化特征越多,目标蛋白质就越可能是新型细胞因子。细胞因子的特点是低分子量分泌型蛋白,分子量大多在1 5 k d到3 0 k d 之间。虽然序列相似性很低,但是同一家族细胞因子成员在二级结构上比较相近,并且部分细胞因子的染色体定位聚于一簇,细胞因子的分子量、等电点、疏水性值的范围也比较类似。因此,为了提高细胞因子预测的精度和分析、解释数据库搜索结果的客观性,文中提出了根据已知细胞因子家族的蛋i i摘要白质特征进行筛选搜索数据库的结果中目标蛋白质的标准,主要包括蛋白质的序列长度、染色体定位、二级结构、分子量、等电点、疏水性及是否含有己知结构域等。在分析造血细胞因子家族、短链4 n 螺旋家族、长链4 a 螺旋家族和i l l 0 家族四个细胞因子家族的生化特征的同时,提取和分析了目标蛋白质的生化特征。并结合搜索数据库的得分、e 值和生化特征的比较,对每个家族的搜索结果蛋白质成为细胞因子家族新成员的可能性或具有类似细胞因子功能的可能性做出客观地解释和推断。此外,本文还包含了s a r s - - c o v 的进化起源的研究内容。2 0 0 2 年1 1 月到2 0 0 3 年6 月间,一种新型冠状病毒( 被广泛称为s a r s - - c o v ) 突然出现,并很快肆虐全世界。为了研究、预防该病毒,弄清其来源成为当时广受关注的问题。本文研究了s a r s c o v 种内基因组的变异以及各冠状病毒的基因组结构、保守基因、非保守o r f 以及3 u t r 的s 2 m 模体,系统地论述了s a r s c o v 种内的变异情况及其与其他冠状病毒间的进化关系。从s a r s c o v 与三组血清型冠状病毒进化关系、宿主分布,以及s a r s c o v 和i b v 的s 2 m 的进化关系上,可以推测s a r s c o v 有可能来自禽类。综上所述,本文建立了利用模体识别来发掘新型细胞因子的策略,并采用该策略预测了四个细胞因子家族的新成员。同时,应用模体分析研究了s a r s- - c o v 的系统发育,并推测其来源。关键词模体识别;隐马尔可夫模型;造血细胞因子;4 a 螺旋:i l l 0 家族1 t i北京工业大学丁学博士学位论文a b s t r a c tc y t o k i n e sc o n s i s to fab r o a dg r o u po fs m a l lp r o t e i n st h a tr e g u l a t em u l t i p l ec e l lp h y s i o l o g i c a lf u n c t i o n sa n dp l a yac r u c i a lr o l ei nt h ei m m u n ea n di n f l a m m a t o r yr e s p o n s e s s i n c et h ei d e n t i f i c a t i o no ft h ef i r s tc y t o k i n e ,c y t o k i n er e s e a r c hh a sa l w a y sb e e nav e r yh o ts p o ti nt h ef i e l do fb i o m e d i c a lr e s e a r c ha l lo v e rt h ew o r l d i tm a yh e l pt oc l a r i f yt h ei m m u n er e g u l a t i o nm e c h a n i s mi nm o l e c u l a rl e v e l ;a n dt ob a s l ea g a i n s td i s e a s e si ns t a g e so fp r e v e n t i o n ,d i a g n o s i s ,a n dt h e r a p y s p e c i a l l y ,r u d i m e n t a lc u r a t i v ee f f e c th a sb e e no b t a i n e di ni n h i b i t i n gt u m o r ,i n f e c t i o n ,h a e m a t o p o i e t i cf u n c t i o n a li m p a i r m e n ta n da u t o i m m u n ed i s e a s e t h e r ew o u l db eaw i d et h e o r e t i c a ls i g n i f i c a n c ea n dp r a c t i c a la p p l i c a t i o nv a l u et oi d e n t i f ya n ds t u d yt h en o v e lc y t o k i n e s p r e v i o u s l y ,e y t o k i n er e s e a r c hw a sf u l l yd e p e n d e n to nt h ee x p e r i m e n t a lt e c h n i q u e w i t ht h er a p i dd e v e l o p m e n to fb i o i n f o r m a t i c s ,i nt h el a t e19 9 0 s ,b i o i n f o r m a t i ct o o l sw e mm u c hm o r ei n v o l v e di ni d e n t i f y i n gn o v e lc y t o k i n e sa n dg i v i n gs o m eg o o da d v i c e t a k i n gi n t e r l e u k i n sf t l ) f o re x a m p l e ,t h e r ew e r ea tl e a s tm o r et h a n1 0n o v e li n t e r l e u k i n si d e n t i f i e di nt h ep a s tf o u ry e a r s ,s u c ha si l l9 m l 3 2 t h eb i o i n f o r m a t i cs t r a t e g i e s ,s u c ha ss e q u e n c e sa n a l y s i s ,d a t a b a s es e a r c ha n ds oo n , p l a yak e yr o l ei nt h e s er e s e a r c h e s h o w e v e r , m o s to ft h e s em e t h o d sd e p e n d e do nt h ep r o p r i e t a r ya n dc o m m e r c i a le s td a t a b a s e s ,g e n e r a lr e s e a r c h e rh a dl i t t l ec h a n c et oe x p l o r ei t ;t h o s eb i o i n f o r m a t i cm e t h o d sw e r eo n l ya p p l i e dv e r ys i m p l y ,l a c k i n go fd e e pa n a l y s i s t h e r es t i l lr e m a i n sal o to fw o r kt od of o rm i n i n ga n de x t r a c t i n gm o r ev a l u a b l ei n f o r m a t i o nf r o mt h ec y t o k i n er e l a t e dd a t a t h eb o t t l e n e c ko fi d e n t i l y i n gn o v e lc y t o k i n ei st h el o ws i m i l a r i t y ( a b o u t3 0 )o f s e q u e n c e sb e c a u s eo f t h eh i g he v o l u t i o n a r yr a t e s ot h ec l a s s i c a la n a l y s i st o o l sf o rh o m o l o g ys e a r c h ,s u c ha sb l a s t ,a r en o ts u i t a b l ef o rc y t o k i n ef a m i l y h o w e v e r ,b e c a u s eo ft h es i m i l a r i t yi nf u n c t i o na n ds t r u c t u r e ,t h e r ew o u l db es o m ew e a ko rl o n g d i s t a n c es i m i l a r i t yo fc y t o k i n es e q u e n c e s b a s e do nt h i sa s s u m p t i o n ,an e wb i o i n f o r m a t i cs t r a t e g yt oi d e n t i f yn o v e lc y t o k i n ei sp r o p o s e di nt h i sp a p e r a tf i r s t ,s e v e r a lm e t h o d sf o rm o t i fi d e n t i f i c a t i o na r ec o m p a r e da n da n a l y z e d t h ec h a r a c t e r so ff o u rm e t h o d si n c l u d i n gm e m e ,g m e d y e m ,h m ma n dp s t s ,a r ea b s t r a c tf o c u s e d t h er e s u l t ss u g g e s tm e m ea n d m ma r em o r ec o n v e n i e n ta n de f f e c t i v et h a nt h eo t h e r s t og i v eq u a n t i t a t i v ea n a l y s i so ft h et w om e t h o d s ,an e ws t a t i s t i cs t r a t e g yi se m p l o y e dt oe v a l u a t em o t i f si nt h i sp a p e r i ti sb a s e du p o nt h en o t a t i o no fc l a s s i f i e rw h e r em o t i fs e a r c hi nt h ed a t a s e ti sr e g a r d e da sat y p eo fc l a s s i f i c a t i o no ft h es e q u e n c e so ft h ed a t a s e t s e v e nd a t a s e t so fc y t o k i n ef a m i l i e sf r o mt h ep r o s i t ep r o t e i nd a t a b a s ea l ep e r f o r m e db yb o t hm e m ea n dh m m e rt og e n e r a t et h ec a n d i d a t em o t i f s t h e ne a c hm o t i fi sr e g a r d e da sac l a s s i f i e ra n du s e dt oc o m p u t es e n s i t i v i t ya n ds p e c i f i c i t yo fs e a r c h i n gd a t a s e t f o l l o w i n g ,t h er e s u l t i n gr e c e i v e ro p e r a t i n gc h a r a c t e r i s t i cc u r v e sd e r i v e df r o mt h ec o r r e s p o n d i n gm o t i f sa r ed r a w n t h er e s u l te x h i b i t st h a tn e i t h e ro fm e m ea n dh m mh a sa b s o l u t ep r e d o m i n a n c e i ns u m m a r y , d i f f e r e n tm e t h o d ss h o u l db ea d o p t e df o rd i f f e r e n tt r a i n i n gs e t s s e c o n d l y ,t h ee f f e c to f m o t i f i d e n t i f i c a t i o nd e p e n d so nb o t ht h em e t h o d sa n dt h et r a i n i n gs e t s t h ef l i n tt r a i n i n gs e ti sb u i l to nh a e m a t o p o i e t i cc y t o k i n e s w h i c hi sr e l a t e dt oh a e m a t o p o i e t i cr e g u l a t i o nd i r e c t l yo r i n d i r e c t l y c o m b i n i n gt h er e f e r e n c e sa n dk n o w n3 ds t r u c t u r ec l a s so fc y t o k i n e s ,t h i sp a p e rc o m p l e m e n t st h ec y t o k i n es t r u c t u r ec l a s sa n ds e l e c t st w os t r u c t u r et r a i n i n gs e t s :s h o r t - c h a i n4 a h e l i xc y t o k i n e sa n dl o n g - c h a i n4 u - h e l i xc y t o k i n e s i na d d i t i o n ,i l l 0f a m i l yi sa n o t h e rt r a i n i n gs e tf o rb e i n gc o n s e r v e do nf u n c t i o na n ds t r u c t u r e m u l t i p l es e q u e n c ea l i g n m e n ta n de v o l u t i o n a r yt r e ea r eb u i l tt oa n a l y s i st h ec o n s e r v e dp o s i t i o n sa n dr e l a t i o n s h i pb e t w e e nt h em e m b e r so f o n ec y t o k i n ef a m i l y b e c a u s eo f t h eh i g h e rf a l s ep o s i t i v eo fm e m e h m mi su s e dt ob u i l dh m mm o t i f m o d e lf o rt h ef o u rc y t o k i n ef a m i l i e s f o rd i f f e r e n ts t a t u so fd i f f e r e n tt r a i n i n gs e t s ,s i xh m mm o t i f sa r eb u i l to nt h et w ot r a i n i n gs e t sf r o mh a e m a t o p o i e t i cc y t o k i n ef a m i l y ;a n de a c hh m mm o t i fi sb u i l tf r o mt h eo t h e rt h r e ec y t o k i n ef a m i l i e s ,r e s p e c t i v e l y e a c hm o t i fi su s e dt 0s e a r c ht h et h r e ef a m o u sp r o t e i ns e q u e n c ed a t a b a s e s :s w i s s p r o to fa l ls p e c i e s ,i p i ( h u m a n ) ,a n dn c b in r ( h u m a n ) t h e n ,a d d i t i o n a lf i l t e r sw e r ep e r f o r m e df o rt h er e s u l t s u s u a l l y ,i ti sd i f f i c u l tt os c r e e nc y t o k i n ei nt h ep r e d i c t e dr e s u l t sw i t h o u ta n yk n o w nc r i t e r i o nt ob e u s e d o nt h eo p i n i o no fc o m p u t a t i o n ,t h es c o r ea n dt h ee v a l u ea r et h em a i ns t a n d a r d st oj u d g ei fs u b j e c tp r o t e i ni sr e l a t i v et ot h em o t i f 1 1 1 eh i g h e rt h es c o r ea n dt h el o w e rt h ee v a l u ei n d i c a t et h eb e t t e rt h ep r o t e i nm a t c h i n gt h em o t i f ,v北京工业大学工学博士学位论文i e t h ep o s s i b i l i t yo fa na c c i d e n t a la l i g n m e n tb e t w e e nt h ep r o t e i ns e q u e n c ea n dt h em o f i f i ss l i m i nt h es a m ew a y ,t h eb i o l o g i c a lc h a r a c t e r so f p r o t e i nf a m i l i e se x t r a c t e dm o t i fa r et h ei m p o r t a n te v i d e n c e s w i t hm o r es i m i l a rc h a r a c t e r sb e t w e e ns 幽e c tp r o t e i n sa n dt h ef a m i l y ,t h em a t c hb e t w e e ns u b j e c tp r o t e i na n dt h em o t i fi sm o r ec r e d i b l e ,a n dt h es u b j e c tp r o t e i n sa r em o r ep o s s i b l et ob en o v e lc y t o k i n e s 。c y t o k i n e sa r es m a l ls e c r e t e dp r o t e i n s ,t h e i rm o l e c u l a rw e i g h t sr a n g ef r o m1 5t o3 0k d t h e i rs e q u e n c es i m i l a r i t i e sa r el o w ,b u tt h e i rs e c o n d a r ys t r u c t u r e sa r ev e r ys i m i l a rw i t h i nt h es a n l ec y t o k i n ef a m i l y a d d i t i o n a l l y ,s o m eg e n e sc o d i n gc y t o k i n e sa l w a y sl o c a t ec l o s e l yo nt h ec h r o m o s o m e a n dt h e i rm o l e c u l a rw e i g h t ,i s o e l e c l x i cp o i n ta n dh y d r o p h o b i c i t ya r ea l i k e h e n c e ,t oe n s u r et h ep r e c i s i o na n do b j e c t i v i t yo f p r e d i c t i o n ,ac r i t e r i o ni sp r o p o s e dt of i l t e rs u b j e c tp r o t e i n sf o rc a n d i d a t e so fc y t o k i n e t h ec r i t e r i o nc o n t a i n ss e q u e n c el e n g t h ,c h r o m o s o m el o c a t i o n ,s e c o n d a r ys t r u c t u r e ,m o l e c u l a rw e i g h t ,i s o e l e c t r i cp o i n t ,h y d r o p h o b i c i t y ,k n o w nd o m a i na n ds oo n a l lb i o l o g i c a lf e a t u r e so ft h ef o u rc y t o k i n ef a m i l i e sa n ds u b j o c tp r o t e i n sa r ea n a l y z e di nd e t a i l a c c o r d i n gt ot h es c o r e ,e v a l u ea n dt h eb i o l o g i c a lf e a t u r e s ,s e v e r a ln o v e lc y t o k i n e sa r ep r e d i c t e da n dc y t o k i n e - l i k ef u n c t i o no fs e v e r a la m b i g u o u sp r o t e i n si sd e d u c e do b j e c t i v e l y i na d d i t i o n ,t h et h e s i sc o n t a i n sa n o t h e rs t u d ya b o u tt h ee v o l u t i o na n do r i g i no fs a r s c o v an e wc o r o n a v i r u s ( n a m e da ss a r s - c o v lh a daf a s te p i d e m i ci na l m o s ta l lo v e rt h ew o r l df r o mn o v e m b e r2 0 0 2t oj u n e2 0 0 3 t h eo r i g i no fs a r s - c o vi sp a i dm o r ea t t e n t i o nw i d e l y i nt h i sp a p e r ,s e v e r a lc h a r a c t e r sa r ea n a l y z e d ,i n c l u d i n gt h ei n t e r - s p e c i e sm u t a t i o n ,d i f f e r e n tg e n o m es t r u c t u r e so fs a r s - c o va n do t h e rc o r o n av i r u s e s ,a n dt h ee v o l u t i o no fc o n s e r v e dg e n e so fc o r o n a v i r u s e s ,n o n - c o n s e r v e do r fa n ds 2 mm o t i fo f3 u t r t h e n , s a r s c o vi n t e r - s p e c i e sm u t a t i o na n di n t r a - s p e c i e se v o l u t i o na r ed e s c r i b e di ns y s t e m a t i c a l l y a sar e s u l t ,f r o mt h eh o s td i s t r i b u t i o no fd i f f e r e n tg r o u p so fc o r o n a v i r u s e sa n dt h ep h y l o g e n yo fs 2 m ,w ec a nd e d u c et h a ta v i a ni st h em o s tp o s s i b l en a t u r a lh o s to fs a r s c o v i ns u m m a r y ,an e ws t r a t e g yf o ri d e n t i f y i n gn o v e lc y t o k i n ei sb u i l tu s i n gm o t i fi d e n t i f i c a t i o n i ti sa p p l i e dt op r e d i c ts o m en o v e lm e m b e r so ft h ef o u rf a m i l i e so fv ic y t o k i n e m e a n w h i l e ,t h es o u r c eo fs a r s - c o vi sd e d u c e du s i n gp h y l o g e n e t i ca n a l y s i so fs a r s c o vb a s e do nt h ea n a l y s i so f m o t i f k e yw o r d sm o t i fi d e n t i f i c a t i o n ;h i d d e nm a r k v om o d e l ;h a e m a t o p o i e t i ec y t o k i n e4 c th e l i x ;i n t e r l e u k i n - 1 0f a m i l y独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名盏蕴塾整日期关于论文使用授权的说明伊s 。6 1 i本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。( 保密的论文在解密后应遵守此规定)签名:盘盘垫垒导师签名:蕴殓日期:丛:吵第1 苹绪论第1 章绪论人类基因组计划( h u m a ng e n o m ep r o j e c t ,h g p ) 从1 9 9 0 年正式启动以来,已取得了迅速的发展。d n a 测序的自动化引起生物信息爆炸,使生物大分子序列数据库的数据量急剧增长。虽然蛋白质的结构与功能密切相关,但是由于结构测定的速度远不能与序列测定速度相比。因此,从序列信息直接推断蛋白质的可能的生物学功能显得十分必要。从已知的生物数据中提取有用的生物信息成为生物信息学的当务之急。这使序列分析成为计算机在生物学中应用的热点。通过序列比较,确定新测定序列与数据库中已知结构和功能的序列间的相似关系,是经典的序列分析策略。但序列之间的相似性关系并不都十分明显,有时仅在某一很小范围内才能略见端倪。从浩如烟海的生物数据库中发现进化关系,就象从大量噪声中提取有用信号,是一个很大的难题。因此研究新的计算机方法,新的策略尤为重要。为了解决这一问题,近年来人们提出了各种不同的方法,试图从不同角度探索数据挖掘的新方法。目前,f a s t a ( f a s t a l i g n m e n t ) f 1 , 2 1 和b l a s t ( b a s i c l o c a l a l i g n m e n ts e a r c h t 0 0 1 ) 。 3 1 是最常用的局部相似性序列比对分析工具,它们能够基于查找完全匹配的短小序列片段,并将其延伸得到较长的相似性匹配。但是对于由于进化的原因产生的序列相似性较低的或者序列之间长程相似的蛋白质家族,f a s t a 和b l a s t很难识别其相似的位点或者区域,因此难以发现与蛋白质家族具有远同源关系的成员。对于序列相似性较低的蛋白质家族,在结构上往往比较保守,但是由于已知结构的蛋白质毕竟还只是少数,此时,蛋白质家族的模体( m o t i f ) 识别方法尤为重要。模体识别方法就是识别那些在进化过程中保持不变的氨基酸或者替换成相似氨基酸的位点。一个蛋白质家族所有的或大多数的成员共同拥有的模体极可能是该家族执行重要功能或组成结构不可缺少的部分。识别出一个蛋白质家族共同的模体就能够刻画该蛋白质家族特征,从而可以利用这些特征来进行发掘蛋白家族新成员等有意义的新发现。一般的模体识别方法的基本思想是利用存在于蛋白质序列中的某些特征模体识别相关的蛋白质的性质。它的发展起源于序列的多重比对,通过一组序列的多重比对可以将序列中一致的位点信息提取出来,这些就是这一组蛋白质序列的一个保守的模体。由于早期的模体识别方法都依赖于多重序列比对【4 ,5 一。北京工业大学工学博十学位论文因此,多重比对参数设置及结果的优化程度1 7 1 直接影响模体的提取。到九十年代中后期出现了大量的新型模体识别方法,根据不同的方法获得不同形式的模体,主要有三类:序列的保守块( c o m e r v e db l o c k ) 或正则表达式( r e g u l a re x p r e s s i o n ) 、特异位点打分矩阵( p s s m ) 或谱( p r o f i l e ) 、隐马尔可夫模型( h i d d e nm a r v om o d e l ) 1 8 。模体识别方法可以归纳为统计型方法和确定型( d e t e r m i n i s t i c ) 方法两类,一般来说,这些方法均能在一定程度上发现隐藏在序列中的“弱”模体( w e a km o t i f ) 一一保守性弱的模体。相比较而言,统计型模体由于具有比确定型方法更高的敏感性和特异性,而得到更加广泛的识别方法应用。1 9 9 7 年,w i l l i a mn g n m d y 等人对类固醇脱氢酶及其同源物的模体进行了隐马尔可夫模型分析,成功地将数据库中类固醇脱氢酶家族的同源蛋白质与非同源蛋白质划分开【引。2 0 0 3年,n o r i h i r ok i k u c h i 等人【l o l 为了考察转糖酶( g l y c o s y l t r a n s f e r a s e ) 家族成员的关系以及该家族的模体,利用隐马模型的方法对c a z y 数据库的4 7 个转糖酶家族重新划分为4 个超家族,分别为g t s a ,g t s b ,g t s c ,g t s d 并以分类为基础,在g t s a 与有催化核苷酸糖合成作用的n u c l e o t i d y l y l t r a n s f e r a s e 家族的相似性为前提下,提出祖先寡聚糖( o l i g o s a c c h a r i d e ) 可能是在g t s b 作用下合成的等推断,指出与亚细胞组分一致的每个超家族的分歧进化增加了真核糖类结构的复杂性。隐马尔可夫模型的成功地应用,能够在已知的数据信息基础上挖掘出新的生物意义。细胞因子是由机体细胞合成并分泌的小分子多肽类因子,它们参与多种细胞的增殖、分化,在免疫和炎症反应中发挥重要作用。从第一个细胞因子发现以来,细胞因子相关的研究一直是国际生物医学研究的热点问题。细胞因子的研究有助于阐明分子水平的免疫调节机制,有助于疾病的预防、诊断和治疗,特别是利用细胞因子治疗肿瘤、感染、造血功能障碍以及自身免疫病等已收到初步疗效,具有非常广阔的应用前景。因此,新型细胞因子的发掘与研究具有深远而广泛的理论意义和实际应用价值。故本文选择细胞因子作为研究对象。国际上随着现代分子生物学技术的迅速发展和人类基因组计划的基本完成,越来越多的细胞因子得以发现。以往新型细胞因子的发现主要依赖于实验手段,在1 9 9 9 年以前,生物信息学的手段参与分析和预测新型细胞因子的工作第1 章绪论比较少。以白介素家族的成员为例,由于计算机发展历史的限制,i l l - i l l 8 几乎都是单纯依靠实验的方法发现的,很少有生物信息学方法的介入。但是单纯依靠实验手段发现新的细胞因子具有一定的盲目性和偶然性,导致细胞因子的研究曾经经历了1 9 9 6 年到1 9 9 9 年三年多几乎没有任何新型白介素发现的沉寂。随着生物信息学发展的突飞猛进,细胞因子研究越来越多地得益于生物信息学方法的协助。生物信息学方法在细胞因子发现上的应用迎来了细胞因子发现的春天。在1 9 9 9 年底到2 0 0 0 年底,仅仅一年的时间至少有5 个新的白细胞介素被报导,另有一些白细胞介素的同源因子被发现。从i l l 9 到新近发现的i l 2 3 几乎都没有离开生物信息学方法的介入。1 9 9 9年美国h g s 公司的r o s e n 等人在专利中报告了i l l 9 的序列】。他们利用e s t数据库克隆了与i l l 0 同源的i l l 9c d n a 。发现其编码1 7 7 个氨基酸( g e n b a n k登记号n m0 1 3 3 7 1 ) ,含2 4 个氨基酸的信号肽,成熟蛋白有1 5 3 个氨基酸。i l l 9主要表达在活化的单核巨噬细胞。功能研究发现i l l 9 对抗原呈递细胞具有调节和促增殖效应。但是目前尚无有关i l l 9 的正式论文报道。2 0 0 0 年6 月,美国h g s 公司的s h i 等人报道了一种新细胞因子及其受体的克隆化结果【1 2 1 ,当时命名为i l l 7 b 和i l l 7 b 受体,但是在论文角注中和g e n b a n k登记时,将其命名为1 l 2 0 ( g e n b a n k 登记号a f 2 1 2 3 1 1 ) 和i l 2 0 r ( a f 2 1 2 3 6 5 ) 。s h i 等人的技术路线是利用e s t 数据库检索与i l l 7 同源的e s t 序列,发现了i l 2 0c d n a ,编码1 8 4 个氨基酸,含2 0 个氨基酸的信号肽,成熟蛋白有1 6 4 个氨基酸。i l 2 0 与i l l 7 有2 1 3 的同源性,n o r t h e r n 分析发现i l 2 0 主要表达在脊髓、睾丸和小肠,此外,前列腺、肠黏膜、卵巢、k 5 6 2 细胞等少量表达i l 2 0 。功能研究发现利用重组i l 2 0 小鼠腹腔注射可明显刺激中性粒细胞的移动。i l 2 0已经被申请国际专利( w o0 0 4 2 1 8 9 ) 。2 0 0 0 年11 月,z y m o g e n e t i c s 公司的p a r r i s h - n o v a k 等人在自然( n a t u r e )杂志发表了i l 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论