(生物学专业论文)多功能酶的预测及结构功能模式分析.pdf_第1页
(生物学专业论文)多功能酶的预测及结构功能模式分析.pdf_第2页
(生物学专业论文)多功能酶的预测及结构功能模式分析.pdf_第3页
(生物学专业论文)多功能酶的预测及结构功能模式分析.pdf_第4页
(生物学专业论文)多功能酶的预测及结构功能模式分析.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(生物学专业论文)多功能酶的预测及结构功能模式分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 多功能酶( m f e s ) 是一类具有两种或两种以上功能的酶类,根据不同的机 制,将多功能酶分为含有多个结构域的多功能酶( m c d m f e s ) 和含有单个结 构域的多功能酶( s m a d m f e s ) 。多功能酶可以以多种形式有利于生物体的存 活和进化。多功能酶能运用各种途径协调生物体内的多种生物活动,甚至能调 节自身的表达。作为进化优势的一部分,多功能酶在不需要扩大基因组的前提 下,提高生物体的资源利用效率。此外,m f e s 通常参与多个细胞代谢网络, 能在不同细胞通路和功能中快速切换功能,成为生化或信号通路的一个开关点, 为生物对周边环境的变化做出快速的反应。分析、定性和预测多功能酶的将对 于细胞过程串联的潜在分子机制的研究起重要的作用。 在本研究中,针对两类不同的多功能酶( m c d m f e s 和s m a d m f e s ) 分 别构建和优化支持向量机( s u p p o nv e c t o rm a c h i l l e s ) 学习模型。在模型的优化 和训练中用到了3 ,1 2 0 个来自于s w i s s p r o t 蛋白质数据库已知多功能酶( 正 数据) ,以及2 l ,8 3 3 个来源于p 胁数据库各个结构域蛋白家族的种子序列( 负 数据) 。每一个蛋白序列的特征向量根据氨基酸残基的理化性质表按一定的计算 方法得到,这些理化性质包括氨基酸组成,疏水性,规格化的范德华体积,极 性,极化,电荷,表面张力,二级结构和溶剂残留量。三个理化特征描述符用 于量化将蛋白质一级氨基酸序列,进而转化为代表蛋白质的特征向量。在此基 础上,基于该优化模型,我们对e x p a s y 蛋白酶数据库的所有9 l ,1 4 0 个蛋白酶 进行高通量预测分析,共发现了2 ,6 4 1 个潜在的m f e s 。为进一步验证预测结果, 并深入全面了解m f e s ,我们也对已知和预测的m f e s 进行了结构、功能和进 化等多方面的统计分析。结果发现,m f e s 在物种间并不是均匀分布的,没有 可靠的证据显示复杂生命形式比简单的生命形式更喜欢m f e s 。对已有的蛋白 质三维结构分析发现,“p 折叠结构是m f e s 中较为偏好的结构模式。在对m f e s 参与k e g g 细胞通路的进一步分析表明,9 0 的m f e s 参与了代谢相关细胞过 程,尤其是糖,核苷酸和氨基酸代谢。另外,几乎占一半( m c d m f e s :4 8 7 s m a d m f e s :5 4 ) 的m f e s 只参与一个细胞通路,而其他m f e s 参加多个细 摘要 胞途径,甚至多达5 个独立的细胞通路。在本项目中,我们也构建了一个多功 能酶综合数据库,以提供已知和预测m f e s 的相关信息,该数据库可通过如下 网址免费查看并使用:h t t p :加i o i i l x m u e d u c n d a t a b a s e 洲f e s i n d e x h t n l 关键字:多功能酶;支持向量机;机器学习 a b s t r a c t a b s t r a c t m u l t i - 劬c t i o n a le n z y m e s ( m f e s ) a r ce n z y m e st l l a tp e r f o mm u l t i p l e 觚c t i o n s a c c o r d i n gt ot h em e c h a m s n 峪o fl n u l t i p l ef u n c t i o i l s ,圮m f e sc 髓b e 缸曲e r s u b g r o u p e di n t 0m f e sw i mm u l t i p l ec a t a l y t i cd o m a i 娜( m c d m f e s ) a n dm f e s w i t hs i l l g l em u l t i a c t i v i t yd o m a i n ( s m a d m f e s ) m f e sa r ef o u i l dt ob eb e n e f i c i a l t o l i v i n gs y s t e m sa l l dp r 0 v i d ec o m p e t i t i v es u n ,i v a le d g e si nav a r i e t yo fw a y s t h e y 啪 a b l et o e m p l o ya l t e m a t i v ea p p r o a c h e s t o c o o r d i n a t i n gm u l t i p l et i v i t i e s 锄d r e g u l a t i n gt i l e i ro w ne x p r c s s i o n 、地i c hd e m o n s 仃a t e se v o l u t i o n a 巧a d v a n t a g e 硒p a n o fac l e v e r s 仃a t e g y f o rg e i l e r a 血培c o m p l e x i 哆r o me x i s t i n gp r o t e i i l sw i 1 0 u t e x p 锄s i o no ft l l eg e n o m e c o m b i n a t i o no fi n u l t i p l em n c t i o n se n a b l e sa l le n z ) ,m et 0a c t 私as w i t c hp o i n ti nb i o c h e l n i c a l0 rs i g n a l i n gp a 廿1 w a y ss ot h a tac e l lc a nr a p i d i y r c s p o n dt 0c h a n g e si ns 咖u n d i i l g 钮v i r 0 啪e n t t h e r e f o r e ,c h a r a c t e i i z a t i o n 弛d i d e n t i f i c a t i o no fm f e sa r ec r i t i c a lf 0 rt 1 1 eb e t t e ru n d e r s t a n d i l l go ft h em o l e c u l a r m e c h a n i s m su i l d e r l ) ,i n gt h ec r o s s t a l kb e 铆e e nd i 腩r e n tc e l l u l a rp r o c e s s e s i i lt h i ss t t l d y 伽o s u p p o r t v e c t o rm a c h i n e s( s v m s )m o d e l sw e r ec o n s t m c t e d s e p a r a t e l yf o rt l l ep r e d i c t i o no fm c d m f e sa n ds m d m f e sr e s p e c t i v e l y t h e i n o d e l sw e r e 仃a i n e da n do p t i m i z e du s i i l g3 ,1 2 0a n n o t a t e dm f e s 0 0 s i t i v ed a t a ) d e r i v e d 肋ms w i s s p r o tk n o w l e d g e b a s ea n d2l ,8 3 3s e i e c t e dp r o t e i n s舶ms e e d p r o t e i n so ft h ed o m a i l lf a m i l i e si np f a md a t a b a s ee x c l u d i l l gt h o s et h a tc o n t a i na tl e a s t o n em f e ( n e g a t i v ed a 脚e v e 巧p r o t e i ns e q u e n c ew a s r e p r e s e n t e db ys p e c i f i cf e a t u r e v e c t o ra s s e m b l e d 丘o me n c o d e dr 印r e s e n t a t i o n so ft a b u l a t e dr e s i d u e p r o p e r t i e s 硫l u d i n g 锄i n oa u c i dc o m p o s i t i o n ,h y d r o p h o b i c 咄n o 珊a l i z e dv 撕d e rw a a l sv o l u m e , p o l 撕劬p o l 耐z a b i l i 吼c h a 唱e ,s u r f a c et e n s i o n ,s e c o n d a r ys 衄l c t u r ea n ds o l v e n t a c c e s s i b i l i 够f o re a c hr e s i d u ei 1 1t h es e q u e n c e f i l l a l l y ,2 ,6 4l n o v e lm f e sw e r e s u c c e s s 血l l y i d e n t i f i e d 矗mt h e e x p a s ye n z y m ed a t a b a s e t 0 e v a l u a t eo u r p r e d i c t i o n sa i l d 如m l e re x 舰c tt h es t r i l c t i l r a l ,f h i l c t i o n a la n de v o l u t i o n a d ,p a t t e m so f m f e s ,向r t h e rs t a t i s t i c a l 觚a l y s e sw e r ed e m o n s 臼a t e da sw e l l i tw a sf o u n dt l l a tm f e s 1 l l a r en o n e v e n l yd i s t r i b u t e di 1 1s p e c i e s ,a n dn os o l i de v i d e n c e ss u g g e s tc o m p l e xl i f e f 0 肌sl i k eh u m 孤p r e f e rm o r em f e sm 锄s i m p l el i f ef - 0 兀1 1l i k ey e a s t b a s e do n c 眦e n t l ya v a i l a b l e3 dp r o t e i i ls m j c t i l r e s ,t h ea l p h a 锄db e t af o l dt o p 0 1 0 9 yw 弱f o u n d t ob em o s t l yf a v o r e df i wm f e s f u n h e rk e g go n t o l o g y ( k o ) 柚a l y s i si n d i c a t e dt h a t 9 0 o fm f e sa 代w e up r e s e r v e di nc a t a l ) ,z i n gs e v e r a le s s c n t i a lc e l l u l 觚p r o c e s s e sl i k e n l em e t a b o l i s m so fc a r b o h y d r a t e s ,姗c l e o t i d e sa i l da m i n oa c i d s 砧m o s th a l f o fm f e s ( m c d m f e s :4 8 7 s m a d m f e s :5 4 ) w e r ef o u n dt op a n i c i p a t ei no n l yo n e b i o l o 西c a lp a t h w a y ,w h e r e 舔a n o l e rh a l fo fm f e sp a r t i c i p a t ei nm u l t i p l ep a t h w a y s , u pt 0f i v ei i l d 印e n d e n tp a t h w a y s t h e s es u g g e s tt h a tm f e sm o s tl i k e l ye v o l v ef 而m e a r l ye n z y m e si i lp 血n i t i v el i f ef o n i l s n e ya r ew e l lc o n s e e dd u r i n ge v o l u t i o n ; h o w e v e r ,n e wm f e s0 rn o v e lf i m c t i o n sw e r ed i v e r s i f i e da n ds p e c i f i e di nv 撕o u s f b n n so fg e n e t i cv 撕a t i o nl n 【eg e n e 如s i o no re x o ns h u m i n g ad a t a b a s ew a s c o n s 缸u c t e d 器w e l li i lt h i ss t i l d yt 0p r o v i d ec o m p r e h e n s i v ei n f o m a t i o no fm f e s , w h i c hc a l lb e 触e l ya c c e s s e db yh t t p :b i o i n x m u e d u c n 触t a b 嬲e s m f e i n d e x h t i t l k e y w o r d s :m u l t i 一6 m c t i o n a le n z y m e s ;s u p p o r tv e c t o rm a c h i n e s ;m a c h i n el e a m i n g 厦门大学学位论文原创性声明 另外,该学位论文为( 动锄分崧码值珞b,) 课题 ( 组) 的研究成果,获得蝴强国隐敝蠛 验室的资助,在( 氇徇i 乞醵汽) 实验室完成。( 请在以上括号 声明人( 蚴:予坤吼 川年伊月厂日 厦门大学学位论文著作权使用声明 本人同意厦门大学根据中华人民共和国学位条例暂行实施办 法等规定保留和使用此学位论文,并向主管部门或其指定机构送 交学位论文( 包括纸质版和电子版) ,允许学位论文进入厦门大学图 书馆及其数据库被查阅、借阅。本人同意厦门大学将学位论文加入 全国博士、硕士学位论文共建单位数据库进行检索,将学位论文的 标题和摘要汇编出版,采用影印、缩印或者其它方式合理复制学位 论文。 本学位论文属于: () 1 经厦门大学保密委员会审查核定的保密学位论文, 于年月日解密,解密后适用上述授权。 ( ) 2 不保密,适用上述授权。 ( 请在以上相应括号内打“ 或填上相应内容。保密学位论 文应是已经厦门大学保密委员会审定过的学位论文,未经厦门大学 保密委员会审定的学位论文均为公开学位论文。此声明栏不填写的, 默认为公开学位论文,均适用上述授权。) 节 专 ,j| 九 日 鲁 签 畿 月 人舌 明 年 声叫 前言 1 前言 1 1 多功能酶简介( m f e s ) 1 9 9 9 年j e 舵r y 把一类具有两种或两种以上功能的蛋白质称为兼职蛋白质 ( m 0 0 n l i 曲t m gp r o t e 豳) 【1 1 ,并为兼职蛋白质的概念进行了严格的限定,排除了五个 类别的蛋白质在兼职蛋白质之外:基因融合产生的蛋白质、同源蛋白质家族成 员、剪接变异蛋白质、翻译后修饰可变的蛋白质,以及具有相同的功能在不同 部位执行的蛋白质。研究证实,功能较明确的兼职蛋白质大部分是酶蛋白,即除 了已知的催化功能还具备其它的生物学功能。这些额外的功能包括了两种情况: 一是与调节作用相关的非催化功能;二是产生催化混杂( c a t a l ”i c a l l yp r o m i s c u o u s ) 的现象【2 1 。这类具有多种功能的酶被称为多功能酶( m u l t i 缸l c t i o n a le 娜e , m f e ) 。 多功能酶可以因细胞定位、细胞类型、寡聚状态及某一配体、底物、辅因子 和产物的细胞内浓度的变化而表现出不同的功能,具体如下: 凶细胞定位不同而执行不同功能。例如:在细胞质膜大肠埃希菌p u t a 蛋白具 有脯氨酸脱氢酶和二氢吡咯5 羧酸脱氢酶活性,而在细胞浆则是一种与d n a 结 合的转录抑制物。又如在细胞内葡萄糖6 磷酸异构酶催化糖酵解反应中葡萄糖 6 磷酸与果糖6 磷酸的互变,而在细胞外它作为神经白细胞素,既是一种促使b 细胞成熟为抗体分泌细胞的细胞凶子,又是一种促进一些胚胎性脊髓神经元和 感觉神经生存的神经生长因子【3 1 。 某些蛋白质作为亚单位在不同蛋白复合物中的功能各异。如儿茶酚胺脱氢酶, 是一种肝苯丙氨酸代谢的关键酶,也能影响同源结构域转录因子肝核因子l a 的二聚化调节其d n a 结合活性【4 1 。 有些蛋白质在感受有机体的一种变化后,与不同的大分子相互作用以引发多 条反应通路,作为总体反应的组成部分。在凝血级联反应中裂解纤维蛋白原生成 纤维蛋白的凝血酶,也能作为g 蛋白耦联受体p a r 1 的配体导致血小板的凝聚 【4 】。 很多生物合成或分解过程的酶类,也能根据酶、底物或产物的利用度调节其自 前言 身的转录或翻译过程。例如,p u 姨蛋白在底物浓度有限时,与d n a 结合而抑制 其基因转录。因寡聚状态不同而表现不同功能【5 l 。 有些m f e 在单体时具有一种酶活性,而多聚状态时则表现为另一种活性。如 人类甘油醛- 3 磷酸脱氢酶,单体是一种核尿嘧啶d n a 糖基化酶,对移去出现于 d n a 中的尿嘧啶有重要作用,而其四聚体则是一种糖酵解酶,催化 j 油醛3 磷 酸变为1 ,3 二磷酸甘油【引。 也有很多多功能酶因底物、配体或辅因子浓度变化而功能不同。在细胞内铁 浓度高时,乌头酸酶具有催化活性,铁浓度降低时则丧失原有催化功能,成为一种 铁反应性元素结合蛋白( i r e b p ) ,促进铁蛋白的合成。另外,甘油醛3 磷酸脱 氢酶的寡聚化受a :r p 、n a d + 和蛋白的细胞内浓度影响【7 】。 不同结合位点的应用而执行不同的功能。如人肠杆菌司细菌趋化作用的天冬 氨酸盐受体,也是麦芽糖结合蛋白的受体,这两种受体相互重叠。磷酸葡萄糖异构 酶发挥细胞因子功能时,可通过其活性位点与它的受体结合【8 】。 从结构特点来看,多功能酶的体积似乎比其执行单一功能所必需的结合位 点大得多,并且在其表面存在许多袋状结构。多功能酶的调节功能往往就是对 除活性位点以外的酶其它结构的充分利用。在一些例子中发现,袋状结构在一 定条件下可被修饰成额外的结合位点,参与其他调节反应。多功能酶结构也具 有很大的柔性,体现在很多多功能酶活性位点含有不同亚单元以接纳不同的底 物;还有一些多功能酶活性位点是刚性结构和柔性结构相配合的方式。如在果 蝇中存在一种醇脱氢酶,在其活性位点有一个柔性的环状结构,把活性位点分 成了两个不同的亚单元,分别容纳不i 一形状的底物【9 】。有些多功能酶会凶为反 应控制的不完善导致的酶对其它底物的被迫接受,但这种情况不具有普遍性, 但往往也是与构象改变相关。比如,来自于灰色链霉菌的一种聚合酶r p p a , 它以丙二酰辅酶a 为底物合成l ,3 ,6 ,8 四羟基荼,但是当乙酰轴酶a 高浓度存 在时,乙酰辅酶a 的大小和形状会影响r p p a 的活性位点的聚酮链构象,从而 导致了r p p a 对乙酰辅酶a 的接受,产生洳吡喃酮和问苯三酚的混合产物【l o 。 活性位点的残基也是多功能发牛的关键因素之一。首先一种情况是,有些 m f e s ,在活性位点发生的不同催化反应都利用了相同残基,而且残基在不同反 应中的作用是相似的【1 0 】。比如一种来自细菌的四氯苯对二酚脱卤酶能降解农药 2 前言 五氯酚,其另外一种活性是马来酰化丙酮异构酶活性。研究发现,这两种催化 反应的关键步骤的本质均为其活性位点上的谷胱甘肽基团对底物上的烯酮结构 的亲核攻击【l l 】。还有活性位点相同残基也可能是因为不同作用机理导致不同反 应的发生。如丁间醇醛抗体3 8 c 2 能催化醛醇缩合反应【佗1 。通过结构分析发现, 3 8 c 2 活性位点形成一含有一个赖氨酸的疏水性口袋,在发生醛醇缩合反应时 候,可以成为反应底物碳酰基的结合基底,赖氨酸在这里的作用是亲核试剂; 但是这个赖氨酸在另一个催化反应中是作为一种碱,而非亲核试剂起作用。还 有的情况是,某些关键残基的突变往往会导致活性位点对非生理底物的接纳。 另外,多功能酶两种功能之间也往往是有关联的。多功能酶的调节功能也 可以是对原催化位点或催化过程的利用。如上文提到的葡萄糖6 磷酸异构酶 ( p g i ) 在作为神经白细胞素时,阻滞物的结合只会给催化活性位点轻微的十扰, 但并不能阻碍催化功能的实现,但另一方面若对催化位点进行定点突变则葡萄 糖6 磷酸异构酶的催化功能将被明显削弱。由此可见,神经白细胞素的结合位 点与作为葡萄糖一6 磷酸异构酶的催化位点是交叉,但不完全重叠1 3 1 。还有一种 常见情况是,活性位点反应环境发生改变也会引发另一种催化反应的发生。催 化作用的本质就是亲核试剂,亲电子试剂,酸,碱和辅助因子之间的相互作用。 活性位点发生的反应往往会改变周围反应环境的p 勋值,从而改变了催化活性 位点环境中挤满了的亲核试剂,亲电子试剂,酸,碱和辅助因子的相互作用强 度。 1 2m f e 多功能的发生机理 多功能蛋白在物种中分布广泛,经过数十亿年的进化演变在生物体中生理生 化过程中占有重要作用。多功能蛋白如何起源、形成和进化发展的问题,+ 。直是 一个极为引人入胜的重要生物学问题,目前有一些假说和证据支持,但又存在各 自的不足。 在1 9 9 9 年的综述中,j e 舵r y 认为蛋白的“多功能”出现并存在的方式有两种: 一种是原始细胞酶的种类有限,底物专一性不强,在进化过程中这种底物专一性 不强的特征保存下来【4 1 。如大肠杆菌有2 0 9 基因的产物有至少两种酶活性,其中 很多多功能酶具有底物范围较宽的特点【1 3 】;另一种方式有机体通过各种方式和途 3 前言 径得到了另一个功能,因为多功能给蛋白带来进化优势使得在进化过程中得以保 存。有机体从单功能到多功能的途径可能源于基因突变,这个突变在没有破坏初 始活性位点的前提下赋予了蛋白质有利的进化优势,然后再通过基因重复方式使 这个新基因产生【1 4 】;也可能起源于“募集”的方式,即多个功能起源于不同的单 功能蛋白,这些蛋白早期参与相关联的细胞过程发挥不同作用,随着进化过程, 通过基因融合的方式使两个蛋白的功能以不同结构域的方式存在于同一个蛋白 中,结构域之间以一些非保守的的序列相联【1 5 】。 j e n s e n 在1 9 7 6 年提出蛋白质的兼职活动能在不断变化的环境中赋予机体有 力的选择优势,保证自身的生存和物种的进化,基因晕复和变异是一个新的蛋白 质的产生主要机制【l6 】。多功能蛋白允分利用其结构特点,使得蛋白得到一个新功 能不是以损失一个功能为代价是进化优势的一个方面。另一方面,多功能酶带来 的进化优势也可能与有机体代谢途径的进化和整合相关。r o y 提出“多功能酶特 化假说”,认为代谢途径的进化可以通过募集低效的多功能酶实现【忉。多功能酶 特化假说的理论基础是很多原始的酶具有多功能的属性,而且已知很多代谢中间 物是不稳定的。具体内容是说代谢途径的进化不可能总是一步步进行,也可能是 跳跃式逆向进化的,低效的多功能酶可以催化代谢途径中几步连续的反应,在某 些情况下一个代谢途径的所有反应甚至可能由一个原始的多功能酶催化。在一些 情况下原始的多功能酶被别代谢途径招募,再经过基因复制和进一步特化为更为 高效的酶,这样代谢途径就得以形成或延伸了。“多功能酶特化假说”是有关代 谢途径进化假说中体系较完善且证据支持较强的体系之一。但是这个假说将注意 力都集中在酶上,而忽略了其它除酶以外的调节凶了,代谢中问物等在代谢途径 进化中的作用。 1 3 多功能酶的生物学意义 首先,多功能酶在不需要扩大现有蛋白基因组的前提下,实现多种功能之 间的协调,提高了生物体的资源利用效率,提高了进化上的竞争性。一个活性 位点产生多种催化功能的现象在酶的演化过程中被保留了下来,可能也是从另 一个侧面说明了这种方式总体上对于生物体是无害的,也说明了自然界的进化 4 前言 方向。 另外,细胞是一个极为复杂精细的高度有机网络,m f e 参与多个细胞代谢网 络,有利于细胞通路联动及对外界环境的快速反应。m f e 参与多个细胞反应或 通路,而这些反应或通路之间往往存在着一种联系,m f e 能在不同的通路和功 能中快速切换功能,这样就使m f e 成为反应或通路开关的角色。比如,前面所 述的很多生物合成或分解过程的酶类就能根据酶、底物或产物的利用度自动调 节其自身的转录或翻译过程。 最后,往往一些多功能酶是常见的重要代谢反应的参与者,如图l 所示, 在糖酵解和t c a 循环中有许多m f e s 发挥作用。多功能酶除了酶的催化反应之 外,往往其调节或结构功能也参与了多种细胞代谢反应( 比如转录调节、细胞 凋亡等) ,而这些相关知识的缺失对孟德尔遗传模式来解释基因与疾病症状的相 关性又提出新的挑战。对于m f e 的空间结构和生物功能透彻了解,有利于人们 了解多个细胞网络之间相互交联反应的分予机制,也有利于人们就通过掌握的 基因操作技术合理地对蛋白质或酶进行设计和改造,改善其物理化学性质,提 高酶的专一性和催化效力。 5 前言 a f 嘲h 嘎垮 群口b n e u 旧k u n a u 蜘。妇h 圮岫聩v 向咖r 嘏r 用日h ,翻】o nm 酣h 吣r 棚m 伊吣f 豳 g i u f 6 p ! p 私 i 啪恤酬一譬:6 p 厂商h g 3 p - d h a p 二 8 s t p p c 炯啊州斯崎 叫p t b l r ! m et a 嘲 p y r ,删蚰岫 畔时积裟r 嘲 k m a 妇孙 p i 啪h m 口邮睫a 蕾 h e 越一寸1 i o d c 臼b 邕n c y 吐e l 吐翻曲胛蛳 萱吐岍b h 蜘 幸 3 p g 如岫- 一- 融一 a t 、 一 眩豳h l b i c l t l e 掘 一 i 撰目妒斜b 咖 棚虹孙i m 脚州呛n 封雠 ( m 幻d 1 饼帅n ) 打曲0 d x 即d m r n 哺柏n 0 f u ma g l - 辨锑州_ 匈西藏卜_ 删州删 s c n + 册s c o a m 枞m 商州翻叼叽酵 图1 多功能酶在糖酵解途径和t c a 循环中的分布嗍 f i g 1d i s t r i b u t i o no fm o o n l i 曲t i n ge n z y m e si ng l y c o l y s i s ( a ) a n dt c ac y c l e ( b ) ( 上图方框代表酶,灰框代表多功能酶,箭头列出的为该酶其它多功能活性,其中带 的为 未确定的多功能活性。每个缩写释意如下: 1 ,3 p g =l ,3 - b i s p h o s p h o g l y c e r a t e ;2 p g = 2 - p h o s p h o g l y c e r a t e ;3 p g = 3 p h o s p h o g l y c e r a t e ; a c c o a = a c e 哆lc o e n z y m ea ;c i t = c i 仃a t e ;d h a p = d i l l y d r o x y a c e t o n ep h o s p h a t e ;f1 ,6 p = f m c t o s e l ,6 一p h o s p h a t e ; f 6 p = f n l c t o s e 一6 p h o s p h a t e ; f u m = a 】r a t e ; g 3 p = 西y c e l 一3 一p h o s p h a t e ;g 6 p = 酉u c o s e - 6 - p h o s p h a t e ;g a p = g l y c e r a l d e h y d e - 3 p h o s p h a t e ;g l u = g l u c o s e ;g l y = g l y c e r o l ;i c i t = i s o c i 仃a t e ;m a l = m a l a t e ;o a a = 0 x a l o a c e t a t e ;p e p = p h o s p h o e n o l p y m v a t e ;p ”= p y r u v a t e ;s c o a = s u c c m y lc o e 啕仰ea ;s c n = s u c c i l l a t e ;a k g = 弘k e t o g l u t a r a t e a c o = a c o n i t 勰e ;a l d = a l d o l 舔e ;c s = c i n a t es y n t h 弱e ;e n o = o l 懿e ;f h = 鼬l 嬲t eh y d r a t 部e ;h k = h e x o k i n a s e ;m h = i s o c i 似ed e h y d r o g e n 硒e ;m d h = 1 1 1 a l a t e d e h y d o g e n 笛e ;p f k = p h o s p h o 触c t o k i n a s e ;p g k = p h o s p h o g l y c e f a t ek i n a s e ;p g m = p h o s p h o g l y c e r a t em u t a s e ;p k = p y l l l v a t ek i i l 船e ;s t k = s u c c i n a t et h i o k i n a s e ;t p i = t r i o s e p h o s p h a t ei s o m e r a ;啦h = 甜k e t o g l u t a m t ed e h y d r o g e n a s e d i 正= d i 自f e r e n t i a t i o n ) 6 中鲫申,o,砒j r 卜匕 奉研 前言 1 4 多功能酶的研究现状 近年的研究中越来越多的多功能酶被发现,引起了广泛的重视。在多功能 蛋白研究早期,蛋白质多功能的发现和收集主要是依靠研究中的偶然发现。如 g a p d h 的l o 种功能就是由5 个国家的1 3 个不同的研究小组偶然发现。目前 而言,多功能酶的预测方法还不全面。表型观察的方法,如基因敲除,r n a 干 扰的技术等,往往只能了解到蛋白质在某种条件下的某项功能,所以人们逐渐 发展出系统的,从蛋白组学和计算生物学角度鉴定多功能蛋白的方法。 质谱( m s ) 作为强大的蛋白组学:i :具在多功能蛋白的鉴定上有了广泛的应用。 用质谱鉴定多功能蛋白有给出几条标准:一是蛋白质在意想不到的细胞位置、 细胞类型、或是蛋白复合物中的出现可能预示着多功能的发生。二是如果蛋白 质的表达量与测得的该酶的活性不相符,也可能预示着另一种功能的发生【1 9 1 。 蛋白质芯片( p r o t e o n l c 觚a y s ) 是检测蛋白质存在和运动变化的高效上具,在 2 0 0 4 年一项关于基因表达调控的d n a 与转录囚了结合的研究中发现除了催化 精氨酸合成外,被发现具有d n a 结合活性,参与转录调节。该项研究采用了 一种蛋白质芯片,含有5 8 0 0 个酵母蛋白探针,及酵母全基因组荧光标记的d n a , 以探测以前未发现的d n a 结合作用。a r 9 5 ,6 就是被确认的阳性结果之一f 2 0 】。 x r a y 晶体衍射通过探测蛋白质的结构,i _ j 时也可以提供了多功能切换的分 子机制的相关线索,或是预测蛋白质的新功能。如上文提到的p u t a 蚩白的转录 抑制功能就是通过结构分析发现了三个螺旋排列组成的结构域,而这种结构模 式在其它蛋白中常有d n a 结合功能,这也是提示p u t a 蛋白可能也有d n a 结 合功能的。当然,功能的确定需要进一步的实验确认。 生物信息学的序列比对的方法也应用到多功能蛋白的寻找。在2 0 0 5 年,以多 种多功能酶的不同功能为样本,通过对“种不同的序列比对算法( 包括s a m , b l o c k s ,p r o s i t e ,e m o t l f ,p r o t l o c , p f a m ,p s o r t ,p r o t l o c ,t r a n s m e m ,t r a n s c o u t ,及p s i b l a s t ) 的预澳i j ;佳 确性进行评估,结果发现,p s i b l a s t 具有相对较高的预测准确率,但还有 待实验确认【2 l 】。 网络组成分析( n c a ) 是一种新型的生物信息学办法,通过寻找基因与转录因 子的新联结关系来预测蛋白质的新功能。n c a 现在已经利用大肠杆菌和酵母的 7 前言 基冈表达芯片数据,发现了许多新的基因与转录因子的新的联结关系。在大肠 杆菌中,约有7 0 的随机选择的转录因子联结网络可以用n c a 来印证。 最近研究发现一些多功能蛋白属于非结构化蛋白( i n 仃i n s i c a l l yu n s t r u c t i l l e d p r o t e i n s ,i u p s ) 。i u p s 是一类在自然条件下缺乏固定3 d 结构的一类蛋白。单个 l u p 是由模板诱导折叠后形成,与不同的蛋白结合形成不同的构象,从而在不 同环境下能发挥不同功能。他们可以针对同一个底物,在一个结合位点上,通 过构象的柔性达到不同功能,从进化角度来说也是一种节省基因组的方式。这 个发现也是多功能蛋白产生机制的一种补充。 1 5 本论文的思路、目的和意义 在前面的介绍中我们了解到多功能酶的各种作用方式,以及在进化研究, 新药开发上的应用。鉴于多功能酶的重要生物学意义和引起越米越高的关注, 如何能更高效地预测其存在成为研究者们感兴趣的话题。早期对多功能酶的分 类和认识还停留在序列比对,或单个理化性质作为鉴定指标。但是研究发现, 多功能酶的用序列比对的方式预测多功能酶准确性大约只达到6 0 左右。用机 器学习方法进行蛋白质组学方面的研究已经广泛应用并取得了明显的成果。基 于蛋白质的一级结构的预测方法是首先由b o c k 和g o u 曲提出,该方法不需要 基因组或进化的信息,仅仅需要单个蛋白质的序列信息。其交义验证的结果表 明了该方法具有很高的准确率,大约在8 0 左右。在本研究工作中,利用了基 于蛋白质一级结构预测的二级结构信息及氨基酸溶解性等新的特性,用支撑向 量机的方法训练,然后对模型进行交叉验证。然后作为保存数据及后续研究的 基础,个多功能酶数据库设计并建立。最后进行针对已知的和潜在的多功能 酶进行了结构模式、细胞通路、种群分布方面的统计,并进行相关的分析以期 得到多功能酶在结构和进化一卜的更多信息,为后续多功能酶的研究和相关的研 究者提供参考。 8 材料与方法 2 材料和方法 2 1 实验流程图 图2 实验流程概览 数据准备 构建分类模魁 预测潜存多功能酶 数据贮存与统计分析 f i g 2s u m m a r yo fr e s e a r c hp r o c e d u r e 本项目为了建立s v m 预测模型,需要收集和准备两类正负样本。正样本 将代表多功能酶,负样本为非多功能蛋白。正样本将通过搜索s w i s s p r o t 数 据库得到,并通过n c b l 的b l a s t p 和c o g s 数据库的搜索来排除同源蛋白;负 样本将来自于p f a m 数据库中的代表各个家族的种子序列,其中排除了已含有一 个或多个已知多功能酶的蛋白家族。根据两类不同的m f e s ,将正数据集分两 组,负数据集分成9 组,共构建两个多功能酶预测模型。构建模型应用的是 s p r o t 软件先对每一个蛋白序列进行量化,形成代表每个蛋白样本的向量矩 阵,再对这些代表两类样本的多维向量进行训练,最后得到能对两类样本进行 最好分割的支持最优超平面的支持向量。形成多功能酶的预测模型,最后进行 9 材料与方法 相应的评估。为了得到更多潜在的多功能酶,用已构建并评估的预测模型对 e x p a c y 酶库进行扫描。最后在l i n u ) 【操作系统+ a p a c h e 网页服务器+ o r a c l e 数 据库管理系统的架构基础上建立一个关系数据库作为数据的贮存和展示方式, 并对已知和预测的多功能酶进行包括结构、细胞通路和物种分布方面的统计分 析。 2 2 支持向量机预测潜在m f e s 2 2 1 数据准备 应用支持向量机解决实际问题首先要解决的是用于模型训练的基础数据即 训练集问题。训练集包括了正负样本的收集和特征向量的选取。正负样本反映 的是分类问题的两类情况,最好的情况是正负样本都能最人概率反映每类问题 所有情况。 多功能酶预测模型的正样本代表的是己知的多功能酶,来源于s w i s s p r o t 【2 2 1 数据库( 版本5 7 2 ,h 婶: n ,、) l ,e x p a s y c i l s p r o t ) 。用关键字 “m u l t i f i m c t i o n a lp r o t e i l l ”全面搜索数据库,人工检查每个蛋白的注释表确定 至少含有一种生物活性。为了排除同源蛋白聚集带来数据在蛋白空间分布不均 的干扰,通过n c b i 的b l a s 印在参数设置为默认下对已知基凶组进行序列比对, 排除可能的直系同源蚩白:通过对c o g s 数据库的搜索,排除确定的直系同源 蛋白。结果共收集到来自于s w i s s p r o t 数据库的3 ,1 2 0 个m f e s 。负样本代表 的是非多功能蛋白( n o n m f ep m t e i i l s ,n m f e p s ) ,来源于p f a m 【2 3 】数据库( 版本 2 3 0 ,h n p :p f a m s a n g e r a c u k ) 。p f a n l 数据库是基于序列相似性构建的蛋白质结 构域家族数据库,分为a 和b 两部分,其中a 部分为反复验证的模式,质量较 高,称为种子序列( s e e d ) 。负数据为提取p 数据库中代表各个蛋白家族的种 子序列,但排除了含有一个或一个以上已知多功能酶的蛋白家族。最终,负数 据集一共包含有有2 l ,8 3 3 个n m f e p s 。 2 2 2 蛋白质序列量化 得到了正负样本后,需要分别提取每个样本的特征向量( 输入向量) 作为 l o 材料与方法 s v m 模型的训练集。特征的选取要足够,但是不能过多。解决不同的实际问题 时要根据相关的知识选取最有效的特征,并用适当的计算方法提取。一般而言, 特征的选取要求是在保证与输出相关与解决实际问题相关的前提下,尽量降低 空间维数,缩小求解模型的规模。 为了提取分子的特征向量引入了描述符( d e s c r i p t o r ) 。在用于蛋白质分子描 述时,描述符是用于标识蛋白质特定蛋白属性。早期的描述符往往需要借助予 一些实验性质项目中用到,典型实例有:疏水性参数,h 她n l l e n 取代常数g , 立体参数等等。随着研究的深入和扩展,利用计算程序将分子的l d ,2 d 或3 d 结构转化成结构或生化特征的理论描述符加了进来。这些描述符的特点是它们 的获得不借助0 :任何实验信息,只需要分子的结构信息就可以计算出来。目前, 根据不同的用途和生物学原理,蛋白质描述符可分为1 8 类之多,包括组成描述 符( c o n s t i t i l t i o n a ld e s c r i p t o r ) ,其主要反映分子的组成特征,各种类型原子和化学 键的数日,例如分予组成中o 原予、c 原了和n 原予的数目,分予中双键和叁 键的数目等等。但是它在反映分子的结构信息方面有很大的欠缺:几何描述符 ( g e o m e t r i c a ld e s c r i p t o r ) 与分子构象或者分子的形状密切相关的,主要有分子表 面积、溶剂可极化表面积、体积以及排除溶剂体积;拓扑描述符( t o p o l o 西c a l d e s c r i p t o f ) ,分了的拓扑描述符

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论