(遗传学专业论文)蓝藻转录因子比较基因组学研究.pdf_第1页
(遗传学专业论文)蓝藻转录因子比较基因组学研究.pdf_第2页
(遗传学专业论文)蓝藻转录因子比较基因组学研究.pdf_第3页
(遗传学专业论文)蓝藻转录因子比较基因组学研究.pdf_第4页
(遗传学专业论文)蓝藻转录因子比较基因组学研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(遗传学专业论文)蓝藻转录因子比较基因组学研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学位论文独创性声明 本人所呈交的学位论文是我在导师的指导下进行的研究工作及取得的研 究成果。据我所知,除文中已经注明引用的内容外,本论文不包含其他个人已 经发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体,均已 在文中作了明确说明并表示谢意。 作者签名:脚魄业; 关于学位论文使用授权声明 本人完全了解温州医学院有关保留、使用学位论文的规定,学校有权保留 学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版。有权将 学位论文用于非赢利目的的少量复制并允许论文进入学校图书馆被查阅。有权 将学位论文的内容编入有关数据库进行检索有权将学位论文的标题和摘要汇 编出版。保密的学位论文在解密后适用本规定。 日期:型:2 1 y je t t l ;扭主:芝:哆 学位论文作者签名:导师签名: 关每r 弱 温州医学院硕士学位论文 蓝藻转录因子比较基因组学研究 本课题为国家自然科学基金资助项目( 编号:3 0 5 7 1 0 0 9 ) 中文摘要 研究目的 1 确定不同蓝藻基因组内的转录因子编码和基因家族分布情况; 2 分析不同蓝藻基因组转录因子的差异和共性: 3 建立数据库,把所有的蓝藻转录因子资源和数据高度整合和共享; 4 分析蓝藻转录园子分子进化机制以及和环境适应性的关系。 方法 1 采用基于删p r o f i l e 、b l a s t 和h e l i x t u r n - h e l i x s ca 1 1 三种完全不同的方 法确定候选转录因子: 2 采用p f a m 堂t 据库进行d o m a i na s s i g n m e n t 排除假阳性和进行基因家族分类; 3 采用c l u s t a l w 进行多序列比对和唧a 3 中的距离邻接法和最大筒约法进行进 化树的构建。每个分支的可靠性通过1 0 0 0 次b o o u a r a p 得到; 4 采用l i n u x + a p a c h e + p h p + m y s q l 搭建c t f b a s e 转录因子数据库, 5 其他各种辅助功能和工具都采用p e r l 计算机语言和b i o p e r l 模块完成。 结果 1 不同蓝藻物种编码的转录因子数目差异非常大,在所有分析的蓝藻物种当中, n o s t o c p u n c t i f o r m e p c c 7 3 1 0 2 含有最多的转录因子数目,达到了1 6 6 个,而 p r o c h l o r o c o c c u sm a r i n u ss t r m i t9 3 1 2 编码了仅2 1 个转录因子,为最少的 一个物种; 2 在蓝藻中,我们一共发现了z 阶转录因子基因家族其中,成员数目最多的 是o m p r 基因家族,含有1 5 0 个成员。基因家族成员最少的是n i f f ,只有4 个: 3 发现蓝藻的转录因子的d b d 域一共只有9 种,其中晟多的是w i n g e dh e l i x d n a - b l n d l n gm o t i f ,其他的有c - m m l n a le f f e e t o rd o m a i no ft h eb i p a r f i 钯 h o m e o d o m a i n - l i k e m a d l a m b d a r e p r e s s e r - l i k ed n a - b i n d i n g d o m a i n s 等: 4 在蓝藻转录因子当中,我们发现其中6 1 6 个只含有单种d b d 域。在几个特殊的 转录因子当中,单个转录因子含有多个d b d 域。另外3 3 0 个转录因子除了d b d 域以外,还有其他的功能域。这些功能域暗示这些转录园子除了和启动子结 合以外,还具有其他的作用; 5 结果建立了国际上第一个蓝藻的转录因子数据库e t f b a s e ( h t t d :e e g w z , c o m ) 。 在数据库交互式页面中,用户可以浏览,检索以及下载所有的蓝藻的转录因子 2 温州医学院硕士学位论文 信息与此同时,用户还可将自己的序列进行b l a s t 比对,多序列比对,对选 定的物种确定其o r t h o l o g s 关系以及进行分子进化分析等等一系列功能: 6 发现所有蓝藻都含有1 1 个转录园子基因家族。其中三个基因家族( b o l a , d u f 3 8 7 和d n a a ) 在不同的蓝藻物种当中的分布几乎完全是一致的,在剩下 的8 个转录因子基因家族,有6 个内部能形成m o n o p h y l e t i cc l a d e 。这些转录 因子组成了蓝藻进化过程当中最小的核心转录因子。 结论 1 不同蓝藻物种编码的转录因子数茸差异显著,不管是否把基因组的大小考虑 进去,在淡水( 或者岩石) 中的蓝藻普遍比生活在海水中蓝藻还有更多的转 录因子这种现象应该是不同蓝藻对不同环境适应的一种表现; 2 尽管不同的转录因子具有很远的结构特征,但是还是存在着一定的共性,比 如d b d 域在转录因子中的相对位置在同一基因家族当中基本一致,转录因 子的d b d 域的种类可能非常的有限。这些特性可能会使今后在基因组范围 内编译基因转录调控网络成为可能; 3 建立的国际上第一个蓝藻转录因子数据库( h r t p w w w c e g w z c o n d ) ,提供了 一个集中研究蓝藻转录园子和蓝藻转录因子比较基因组学的平台,为研究和 编译基因转录调控网络提供更多有用的信息; 4 ,不同蓝藻物种转录因子的差异除了表现在数目差异以外还表现在域的组成结 构上在淡水( 或者岩石) 中的蓝藻转录因子比生活在海水中蓝藻的转录因 子还有更加复杂的结构域,这种现在应该是淡水( 或者岩石) 中的蓝藻为更 好地适应多变的环境。 5 在不同蓝藻中确定的核心转录因子说明这些转录因子在蓝藻的进化当中起着 基础和核心的作用。这些转录因子应该是很古老的基因家族,是在蓝藻分化 以前就可能进化过来且没有经历水平基因转移和基因丢失。 关键词 蓝藻;转录因子;比较基因组学;分子进化;数据库 温州医学院硕士学位论文 c o m p a r a t i v eg e n o m i c sa n a l y s i so ft r a n s c r i p t i o nf a c t o r si n c y a n o b a c t e r i a s u p p o r t e db yn a t i o n a ls c i e n c ef o u n d a t i o n ( n o 3 0 5 7 1 0 0 9 ) a b s t r a c t o b i e c t i v e 1 i d e n t i f yt h e 仃a u s c f i p f i o nf a c t o r ( 邛) r e p e r t o i r e sa n dt ff a m i l yi nd i f f e r e m c y a n o b a c t e r i a lg e n o m e s ; 2 a n a l y s i st h ev a r i a b i l i t ya n dc o n s e r v e dc h a r a c t e r i s t i c so f t fi nc y a n o b a c t e r i a ; 3 c o n s t r u c t i o nt h ec t f b a s ed a t a b a s e , i no r d e rt om a k ea l lt h ep u t a t i v et fi l l c y a n o b a c t e r i aa v a i l a b l et ot h es c i e n t i f i cc o m m u n i t ya n df i l lt h ee x i s t i n gg a po f n o a v a i l a b l eo n l i n ed a t a b a s ei n v o l v e di na l lt f si nc y a n o b a c t e r i a ; 4 a n a l y s i st h em o l e c u l a re v o l u t i o n o ft f sa n di t s r e l a t i o n s h i p t ov a r i o u s e n v i r o n m e n t a lc o n d i t i o n si nc y a n o b a c t e r i a ; m e t h o d s 1 t h r e ed i f f e r e n tm e t h o d sw e r ep e r f o r m e dt oc o l l e c ta l lp o s s i b l et f s :( 1 ) d b d a s s i g n m e n tb yt h es u p e r f a m i l yd a t a b a s e ;( 2 ) b l a s ts e a r c h ;( 3 ) s c a n n i n gf o r h e l i x - t u m - h e l 奴m o t i f ; 2 p o t e n t i a lf a l s e p o s i t i v eh i t sw e l ec h e c k e da n dm a n u a l l yr e m o v e df r o mt h e c a n d i d a t es e tb ya s s i g n i n gt h e mt ot h ep f a md a t a b a s e t h ec l a s s i f i c m i o ni sb a s e d 0 1 1t h ed b dw h i c hi si d e n t i f i e db yt h ep f a md o m a i nd a t a b a s e ; 3 a l i g n m e n tw a sd o n eb ya p p l i c a t i o no ft h ec l u s t a i ww i t ht h ed e f a u l ts e t t i n g sa n d a d j u s t e db yh a n d t h ep h y l o g e n e t i ca n a l y s i sw a sc a r r i e do u tw i t hb o t ht h e n e i g h b o rj o i n i n ga n dm a x i m u mp a r i m o n ya l g o r i t h mi m p l e m e n t e di nm e g a 3 p r o g r a m t h er e l i a b i l i t yo ft h et r e ew a se v a l u a t e db yt h eb o o t s t r a pm e t h o d 、析t h 1 0 0 0r e p l i c a t i o n s ; 4 ms t r u c t u r e p r i n e 唾,l e o ft h ed a t a b a s ef o l l o w sat h r e e - t i e ra r c h i t e c t u r e 1 1 1 e d a t a b a s eh a sb e e nd e s i g n e da sam y s q lr e l a t i o n a ld a t a b a s ea n du s e r - f r i e n d l yw e b i n t e r f a c e sf o rd a t a b a s eb r o w s i n ga n dt h er e s u l tp a g e sw e r ed e v e l o p e du s i n gp h p s c r i p t s n 圮u s e rh a ss u p e r v i s o r ya c c e s st h r o u g ho u rl i n u xa p a c h ew e b s c r v e r ; 5 i ns o m ec a s e s ,b i o p e r lt o o l sa n dm o d u l e sw e r ea l s oa p p l i e df o rd a t ap r e s e n t a t i o n p u r p o s e s r e s u l t s 1 d i f f e r e n ts p e c i e sc o n t a i n sv a r i o u sn u m b e r so ft f s t h el a r g e s tn u m b e ro f 4 温州医学院硕士学位论文 t r a n s c r i p t i o nf a c t o r si n as i n g l eg e n o m e ( 1 6 6t f s ) w 勰f o u n di nt h en o s t o c p u n c t i f o r m ep c c 7 3 1 0 2 i na d d i t i o n , p r o c h o r o c o c c u sm a r i n u ss t r m i t9 3 1 2 h a so n l y2 1t f s , r e p r e s e n t i n gt h es m a l l e s tn u m b e ro ft f sa m o n ga t lg e n o m e s a n a l y z e dh e r e ; 2 1 1 圮f a m i l i e sa l s ov a r yf r o ml a r g es e tw i t hh u n d r e d so fr e p r e s e n t e dm e m b e r s t o s m a l ls e tw i t ho n l yf e wm e m b e r s a m o n ga l lt h e s ef a m i l i e s ,t h el a r g e s to n e c o n t a i n s1 5 0t f s ,c o r r e s p o n d i n gt ot h eo m p l li ns o m ec a s e s ,l i k en i f r , t h e r ea r e o n l y4m e m b e r s ; 3 o n l y9k i n d so fd b dm o t i f sw e r ei d e n t i f i e di nc y a n o b a c t e r i a a m o n gt h e m , w i n g e dh e l i x d n a - b i n d i n gm o t i ff o r m st h el a r g e s tf a m i l y , w h i l ec - t e r m i n a l e f f e c t o rd o m a i no ft h eb i p a r t i t e ,h o m e o d o m a i n - l i k ea n dl a m b d ar e p r e s s o r - l i k e d n a - b i n d i n gd o m a i n s a l s oc o n s i s t so f m a n ym e m b e r s ; 4 t a m o n g a l lt h et f si nc y a n o b a c t e r i a lg e n o m e s , 6 1 6o f t h e ma p p e a r e dt oh a v eo n l y as i n g l ed b d i n $ o m ec a s e ,t w oo rm o r ed b dd o m a i n sa r ef o u n di nas i n g l et f p r o t e i n w h i l eat o t a lo f3 3 0w e r ef o u n dt op o s s e s sa tl e a s to n eo t h e rd o m a i n , i n a d d i t i o nt od b d t h e s ea d d i t i o n a ld o m a i n si m p l yt h a tt h e s et f sa tl e a s th a v e a n o t h e rf u n c t i o n ; 5 ad a t a b a s en a m e dc t f b a s ew a sc o n s t r u c t e di 照丛壁;筮娶垦q 毽t h ew e b n t e r f a c e w a sc r e a t e dt oe a s i l yb r o w s et h et fs e q u e n c e sa n dt h e i rd o m a i na r c h i t e c t u r e sf o r e a c ho ft h es e l e c t e dg e n o m e sa n d o rt h et ff a m i l i e s d o w n l o a do fa l lt h et f n u c l e o t i d e sa n dp r o t e i ns e q u e n c e si sa v a i l a b l e f u r t h e r m o r e ,i nt h ed a t a b a s e ,u s e r s c a ns e a r c hd n a s e q u e n c e s ,p e r f o r mm u l t i p l ea l i g n m e n t so f t h ed b d sa m i n oa c i d s e q u e n c e sa n di d e n t i f yo r t h o l o g so f a n ys e l e c t e dp a r t i a lo rf u l lg e n o m es e q u e n c e ; 6 w ef o u n dt h a tt h e r ew e r e1 1 p u t a t i v e t ff a m i l i e sw e r ep r e s e n ti na l l c y a n o b a c t e r i a lg e n o m e s a m o n gt h e m ,t h r e ef a m i l i e s o i d u f 3 $ 7a n dn n a a ) h a v en e a r l yt h es a m eg e n ec o p i e so v e rt h eg e n o m e s i nt h e r e m a i n i n ge i g h t f a m i l i e s ,av a r i e t yo f o r t h o l o g s si nt h e s ef a m i l i e sf o r m e dm o n o p h y l e t i cc l a d e s 弛ep u t a t i v emi nt h e s ec l a d e sd e f i n e dam 删c o r eo fc o n s e r v e d 佻弛 c y a n o b a c t e r i 轧 c o n e l u s i o n s 1 t h ec y a n o b a c t e r i al i v i n gi n 舶s hw a t e ro rs o i lh a sa l a r g e ra m o u n to f p u t a t i v e ”s c o m p a r i n gt ot h o s el i v i n gi nl m r i n ew a t e r , w h e t h e rw er u l e do u tt h en u m b e ro f o r fe f f e c t sa n dc a l c u l a t e dt h er e l a t i v en u m b e ro ft f so rn o t i n l i sd h e n o m e n o n w o u l db er e l a t e dt ot h e i ra d a p t a t i o nt ov a i l o u se n v i r o n m e n t a lc o n d i t i o n s ; 5 温州医学院硕士学位论文 2 a l t h o u g hd i f f e r e n t i t sh a v ed i s t i n c ts t r u c t u r a lf e a t u r e s ,s u c ha s 鸵q u 姐c ca n d d o m a i no r g a n i z a t i o n , t h e ya l s oe x h i b i ts e v e r a lc o m m o np r o p e r t i e s :al i m i t e d r e p e r t o h - eo fd b da n dt h er e l a t i v ep o s i t i o no fd b ds h o w sl i t t l ev a r i a t i o nw i t h i n f a m i l i e s t h e r e f o r e i tw o l i l df a c i l i t a t e u st or e c o n s t r u c t c o m p r e h e n s i v e t r a n s c r i p t i o n a ln e t w o r k si nf u r o r e ; 3 c t f b a s ed a t a b l ep r o v i d e sac e n t r a l i z e dw a r e h o u s ef o rc o m p a r a t i v ea n a l y s i so f p u t a t i v et f si nc y a n o b a c t e r i a lg e n o m e s t h ea v m l a b i l i _ c yo fs u c ha l le x t e n s i v e d a t a b a s ew o u l d b e o fg r e a ti n t e r e s tf o rt h ec o m m u n i t yo fr e s e a r c h e r sw o r k i n go i l t f so rt r a n s c r i p t i o n a lr e g u l a t o r yn e t w o r k si nc y a n o b a c t e r i a c t f b a s ec a nb ef r e e l y a c c e s s i b l ea th t t p :c e g w z c o m ; 4 t h ec y a n o b a c t e r i al i v i n gi n 舶s hw a t e ro rs o i lh a v em o r ec o m p l e xd o m a i n o r g a n i z a t i o n si nc o m p a r i s o nw i t ht h o s ei nm a r i n es p e c i e s t h eh j 曲v a r i a n c eo n t h eg e n en u m b e ra n dd o m a i no r g a n i z a t i o nw o u l db er e l a t e d t ot h e i rd i v e r s e b i o l o g i c a lf u n c t i o n sa n dt h e i ra d a p t a t i o nt ov a r i o u se n v i r o n m e n t a lc o n d i t i o n s ; 5 t h em i n i m a lc o f eo fc o n s e r v e dt f si nc y a n o b a c t e r i ah i g h l i g h t e dt h ef u n d a m e n t a l i m p o r t a n c eo f t h e s ef a m i l i e s t h e ya r cp r e s u m a b l yv e r ya n c i e n tf a m i l i e ss h a r e db y t h em o s tr e c e n tc o m m o na n c e s t o ro fc y a n o b a c t c r i aa n dm a yh a v en o tu n d e r g o n e l i n e a g e - s p e c i f i ce x p a n s i o n s l o s so rh o r i z o n t a lg e n et r a n s f e r k e y w o r d s c y a n o b a c t e r i a ;t r a n s c r i p t i o nf a c t o r ;c o m p a r a t i v eg e n o m i c s ;d a t a b a s e 6 温州医学院硕士学位论文 引言 对于了解基本的细胞过程,比如细胞分化,生长控制和随外界环境调控的表 达情况等,采用生物信息学方法,在基因组范围内编译和重建基因转录调控网络 是一个非常有效和高通量的方法【1 3 】。基因转录调控网络最基本的成分包括转录 因子,转录因子结合位点以及被转录因子调控的基因,这些基因又通常位于转录 因子结合位点邻近的上下游。在这三个最基本的基因转录调控网络成分中,最重 要而且起着核心作用的是转录因子,它通过和转录因子结合位点结合( 即启动子 结合) 来增强和抑制基因的表达。因此研究转录因子具有极其重要的生物学意义, 而且研究转录因子通常又是编译和重建基因转录调控网络的第一步,可以获得更 多有关于基因转录调控网络的信息【2 】。目前,采用比较基因组学和生物信息学 的方法揭示了在一个生物体内,编码转录因子的基因数目非常的多,将近占了所 有编码基因总数的3 - 7 【4 7 】。其中,大肠杆菌是被研究的最多和最深入的一个 物种,发现其基因组编码了近2 7 1 个转录因子。但是不同转录因子存在着很大的 差异:含有复杂的结构域组合情况,在序列的全长范围内相似性非常的小。但是 近几年研究发现,不同转录因子存在着一个共同的特征,就是其中含有一个或者 多个和转录因子位点相结合的结构域,也被称作d b d 域【8 】。根据这个d b d 域 的种类,可以将转录因子分成不同的基因家族,比较常见的有螺旋转角螺旋基 序、锌指结构、亮氨酸拉链和螺旋环螺旋基序等【5 ,9 】。螺旋转角螺旋基序主 要分布在原核生物当中,而锌指结构、亮氨酸拉链和螺旋环螺旋基序则分布在 真核物种当中 1 0 l 。 蓝藻又称为蓝细菌,是目前地球上出现的最早的光合自养原核生物,分布极 其广泛,在海水,淡水,陆地,甚至岩石和空气中都存在他们的踪迹 1 1 1 。蓝 藻为了适应这些多变的自然环境的选择性压力,在漫长的进化过程当中产生了极 其复杂的适应性机制,例如对低氧、紫外辐射、高温、干旱和水分胁迫的耐受。对 低光的适应和高效的营养吸收,除了水外,很多蓝藻有固定空气中氮的能力。一 些蓝藻的代谢和行为还具有不同的昼夜节律【1 2 】。不同的蓝藻的基因组大小存在 很大的差异,可以从1 6 m 大到9 m 范围内。生活在海洋环境中的原绿球藻1 9 8 6 的基因组大小为1 7 5 m ,是目前报道到当中最小的能进行光合作用的一个藻 【1 3 】a 鱼腥藻7 3 1 2 0 的基因组非常的大,为6 4 m 【1 4 。由于这些特点都使得蓝藻 成为研究原核生物与环境的适应性的重要材料。比如科学工作者,对蓝藻的抗逆 机制,蓝藻的信号转导系统,包括二元组分,真核型蛋白质激酶都进行了非常深 入的研究【1 5 ,1 6 】。与其他原核生物相比较,蓝藻中的鱼腥藻7 1 2 0 是目前发现 的编码真核型蛋白质激酶最多的一个物种,编码个数达到了5 2 个,这些多的真 温州医学院硕士学位论文 核型蛋白质激酶在其他是原核生物当中是非常少见的。最近十年来,蓝藻基因组 方面的研究取得了令人瞩目的成就,2 1 个基因组已经被完全测序并公布了序列, 其中包括1 6 个完全测好的基因组和5 个框架图( h t t p :i m g j g i d o e g o v c g i - b i n p u b ,l m i n c 西? p a g c = r c s t r i e t e d m i c r o b c s & d o m a i n = b a e t e r i a ) 而且还有2 0 多个蓝藻的基 因组序列正在进行当中,其中包括我们的螺旋藻基因组 ( h t t p :l l w w w n c b i n l r n 1 1 n l g o v 0 。这些基因组序列为蓝藻的适应性和抗逆机制方面 的研究提供了宝贵的资源 目前对于蓝藻的转录因子研究的还甚少,但是那些已经被研究的蓝藻的转录 因子被证明了具有十分重要的功能和地位。n t c a 是蓝藻中被研究是最多的一个 转录因子,发现其主要控制氮的吸收和调控氮吸收有关的基因【1 7 。f u r 是蓝藻 中另外一个被研究的比较多的转录因子,发现其主要调节铁的吸收、储藏和其他 一部分随环境压力变化的基因1 1 8 1 。n t c b ,也是另外一个和氮的吸收有关的转 录因子【1 9 】。因此非常很有必要系统地研究一下蓝藻的转录因子,为今后研究 蓝藻的转录因子打下基础。而且可以通过分析蓝藻的转录因子获得更多有关于基 因转录调控的信息。在本研究当中,我们发现不同蓝藻的转录因子编码基因存在 很大的差异,包括转录因子编码基因的数目,转录因子的域结构等等。这些差异 都是不同蓝藻和生存环境相适应的体现。我们还建立了国际上第一个蓝藻的转录 因子数据库( h t t p :l l c c g w z c o r n ) 。在数据库交互式页面中,用户可以浏览和下载 所有的蓝藻的转录因子信息,与此同时,用户还可将自己的序列进行b l a s t 比对, 多序列比对,对选定的物种确定其o r t h o l o g s 关系,以及进行分子进化分析,对 于专业研究蓝藻转录因子和转录调控网络的工作者有很好的帮助作用。 材料与方法 1 1 1 基因组序列 为了确定一个基因组内的全部转录因子编码基因,我们搜集了目前已经公 布的所有1 6 个蓝藻的基因组序列,这1 6 个基因组学序列全部可以在i m g 数据 库里找到【2 0 】,分别为:s 2 m c h o c o c c u se l o n g a t u sp c c6 3 0 1 ( $ 6 3 0 1 ) , s y n e c h o c o c c i j se l o n g a t u sp c c7 9 4 2 ( $ 7 9 4 2 ) ,s y n e c h o c o c c u ss p c c 9 9 0 2 ( $ 9 9 0 2 ) , s y n e c h o c o c c u ss p c c 9 6 0 5 ( $ 9 6 0 5 ) ,s y n e c h o c o c c u ss p w h8 1 0 2 ( s 8 1 0 2 ) , s y n e c h o c y s “ss p p c c6 8 0 3 ( $ 6 8 0 3 ) ,t h e r m o s y n e c h o c o c c u se l o n g a t u sb p - l ( t b p - 1 ) , p r o c h l o r o c o c c u sm a r i n u ss t t c c 口1 9 8 6i f , 1 9 8 6 ) p r o c h l o r o c o c c u sm a r i n u ss 订 m i t 9 3 1 2 ( p 9 3 1 2 ) ,p r o c h l o r o c o c c u s m a r i n u ss t r m i t 9 3 1 3 ( 1 : 9 3 1 3 ) , p r o c h l o r o c o c c u sm a r i n u ss 仃n a t l 2 a ( p n a t l 2 a ) p r o c h l o r o c o c c u sm a r i n u ss t r c c m p l 3 7 5 ( p 1 3 7 5 ) ,n o s t o c p u n c t i f o r m ep c c 7 3 1 0 2 ( n 7 3 1 0 2 ) ,a n a b a e n av a r i a b i l i s 8 温州医学院硕士学位论文 a t c c2 9 4 1 3 ( a 2 9 4 1 3 ) ,g l o e o b a c t e rv i o l a c e u sp c c7 4 2 1 ( g 7 4 2 1 ) 和a n a b a e n ap c c 7 1 2 0 ( a 7 1 2 0 ) , 图1 蓝藻转录因子确定方法流程图 1 1 2 转录因子确定过程 转录因子最重要的的一个特点就是含有一个或者多个和启动子结合的d b d 域【8 】。但是,另外一方面d b d 域又常常和其他功能的结构域融合在一起,因 此确定一个基因组内的全部转录因子不是一件很容易的事情。以往研究者确定转 录因子的方法基本是采用序列相似性比对的方法,比如说b l a s t 软件,但是 b l a s t 算法主要是基于两两比对的方法,会在比对的过程当中丢失那些差异性 很大的序列。而这种情况却恰恰在转录因子中非常的普遍。因此在我们的研究当 中,采用了一个整合的方案来确定一个基因组内的全部转录因子( 见图1 ) 概括 起来,整个转录因子确定过程含有2 个大过程,第一步是先尽可能多地收集全候 选的转录因子,第二步就是排除假阳性。在第一步当中,我们又采用了3 个独立 的步骤: 9 温州医学院硕士学位论文 ( 1 )通过s u l e r f a m i l y 数据库来指定d b d 域。s u p e r f a m i l y 数据库一个 通过隐马尔科夫模型( h i d d 蛐m a r k o vm o d e l s ) 对那些已经确定三级结构 的蛋白质进行结构域的预测来获得一个个结构域的隐马尔科夫模型信息 1 2 1 。在构建原理上,s u p e r f a m i l y 数据库是基于s c o p 数据库,内容 全部为代表一个个结构域的隐马尔科夫模型信息。蛋白质结构分类( s c o e ) 数据库详细描述了已知的蛋白质结构之间的关系【2 2 】。分类基于若干层 次:家族,描述相近的进化关系;超家族,描述远源的进化关系;折叠子 ( f o l d ) ,描述空间几何结构的关系;折叠类,所有折叠子被归于全a 、全 b 、a b 、d + b 和多结构域等几个大类。s c o p 还提供一个非冗余的 a s t r a i l 序列库,这个库通常被用来评估各种序列比对算法。在这里, 我们先在s u p e r f a m i l y 数据库中把所有对应d b d 域的隐马尔科夫模型 下载下来,然后采用h m m e r 包中h m m p f a m 软件【2 3 】,对1 6 个蓝藻中 的基因组序列进行预测,如果发现一个基因可以预测到d b d 域,我们就 把它保留下来,作为候选的转录因子。个处理l m a m p f a m 分析结果的程 序如下: l l s b i o :s e a r c h i o ; m ys i n2 n e wb i o :s e a r c m o ( - f o r m a t - - q m u n e r - f i l e = s a r o v i o i ) ; w h i l e ( m y s r e s u l t = s i n n e x t _ r e s u l t ) n u mh i t s o ; i f ( $ o k 内) p r i n t 。”,s r e s u l t - q u e r y _ n a m e o , “h i t sn u m “,$ r e s u l t - n u m _ h i t s o ,”、i l “;w h i l e ( m ys h i t ;s r e s u l t - n e x t _ h i o w h i l e ( m y $ h s p = $ h i t - n e x t _ h s p ) 皿t i t $ h s p - l e n g t h o , ”w 。; p r i n t $ h s p - s t a r t ( q u e r y ) , ”一“,s h s p - : e n d ( q u e r y ) , , $ h s p - s t a r t ( h i t ) ,”一”。 $ 吨卜 铋岫i :t ) ,w ,s h s p - s i g n i f i c a n c e o , ,$ h s p - s c o r e o , 气t n a m e : ”, $ h i t - n a m e o , x t d e s c : _ s h i t - d e s c r i p t i o n o , “x n ”; e l s i f ( $ o k = = o ) p r i m - , $ r e s u l t - q u e r y _ n a m e o , t n o th i t s x n ”; l o 温州医学院硕士学位论文 ( 2 )通过b l a s t 序列比对。对于b l a s t 序列比对方法,我们先采用e x p a s y 提供的分子生物服务器资源在s w i s s - p r o t 厂r 也m b l 数据库当中下载到 所有已知或者预测得到的转录因子【2 4 】,然后将这些转录因子当作数据 库,在我们的1 6 个基因组当中进行序列相似性比对,如果能比对到数据 库中的转录因子,就把它保留下来,作为候选的转录因子。这个过程通过 b l a s t 软件包当中的b l a s t p 来实现【2 5 】,比对的e 值取为1 e 1 0 。整个 比对过程不断地重复进行:就是每次把比对得到的序列又重新当作新的数 据库直到没有可以比上新的序列就停止。 ( 3 )通过d o d da n de g a n 的方法来检测螺旋转熊螺旋基序。d o d da n de g 阻的 方法由欧洲分子生物学实验室开发的软件包e m b o s s 来实现,所有参数 都使用默认设置 2 6 1 。 由以上3 个方法得到的全部结果都进行汇总,把彼此间重复的序列去掉。对 这些得到结果进行仔细判断时,我们发现他们中的一部分明显不是转录因子,说 明我们的结果当中存在假阳性。导致这些假阳性的原因有: , ( i ) 一部分非转录因子蛋白也含有d b d 域,这些蛋白通常是和d n a 复制、修 复、重组和转座有关,包括h e l i c a s e ,t o p o i s o m e r a s e ,e n d o n u c l e a s e , t r a n s p o s a s e i n t e g r a s ea n dr e c o m b i n a s e 等等。 ( 2 )b l a s t 算法是局部比对。转录因子除了含有d b d 域,常常会含有其他功 能相关的结构域,会在处理当中存在假阳性。 因此我们专门采用一个步骤进行假阳性的排除,以便把真正的转录因子序 列给留下来,把非转录因子蛋白给去除掉。排除假阳性的方法就是将所有的候选 转录因子都和p f a m 数据库进行结构域的指定【2 7 1 。p f a m 数据库也是一个结 构域的隐马尔科夫模型信息。包含蛋白质结构域或蛋白保守区的多重比对信息。 数据库提供了蛋白质结构,多重比对,蛋白质结构域构建和物种分布等信息。 p f a m 数据库和s c o p 数据库相比最主要的区别就是p f a m 数据库不但基于经实 验方法获得三级结构的蛋白质,还包括预测得到三级结构的蛋白质,而s c o p 数 据库则

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论