(分析化学专业论文)基于序列的helixturnhelix模序预测方法研究.pdf_第1页
(分析化学专业论文)基于序列的helixturnhelix模序预测方法研究.pdf_第2页
(分析化学专业论文)基于序列的helixturnhelix模序预测方法研究.pdf_第3页
(分析化学专业论文)基于序列的helixturnhelix模序预测方法研究.pdf_第4页
(分析化学专业论文)基于序列的helixturnhelix模序预测方法研究.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

a b s 仃a c t 摘要 近年来,生命科学的快速发展给我们带来了许多新的挑战。随着人类基因 组测序工作的完成,海量的“无字天书”摆在人们面前,怎样从浩如烟海的数 据中提取有意义的信息则变得至关重要。要解读这部“无字天书”,理解基因 表达调控的复杂机制,首先要确定所有的转录因子,它们是组成d n a 结合蛋白 的主要部分。而在众多己知的d n a 结合蛋白中,存在着有规律的结构模序 ( s t r u c t u r a lm o t i f s ) ,而h t h 模序m e l i x t u r n h e l i xm o t i 0 又是这些结构模序中最常 见、被研究最多、组成比例最高的一种。 对蛋白质结构一功能域的理解,对于基因组工程有着极其重大的意义。随 着基因工程的快速发展,出现大量与p d b ( p r o t e i nd a t ab a n k ) 库中已知蛋白相比 没有很好的序列或结构相似性的蛋白,它们的功能信息没有被理解。因此如果能 做到仅仅依据蛋白质序列信息来对蛋白质结构功能域做出正确预测,将会在很 大程度上促进我们对蛋白质序列与蛋白质结构、功能之间关系的理解以及生物 遗传信息在各个过程中传递机制的阐明。 因此近年来,对h t h 模序的预测成了科学家们关注的一大热点,一批预测 h t h 模序的方法被人们相继提出。毫无疑问,在前入的基础上继承和发展对h t h 结构域的预测方法的研究,能使我们更深入地探寻信息从基因到蛋白质的传递 原理以及蛋白质结构、功能的注释,并将促使我们进一步地理解生命机制中的 奥妙。 本文首先对于h t h 模序预测及相关领域内前人所做的优秀工作,进行了全 面的分析和研究。然后,从s m a r t 和e x p a s y 数据库获取了本文工作所需的所 有原始数据,并对原始数据进行分类整理,构建自己的h t h 数据库。本文在最 大范围内获取了己发现包含h t h 模序的全部蛋白序列,并整理归类出十三个 h t h 模序家族,相比于前人的工作,数据集的规模、类别划分以及序列代表性 方面都有大幅度的提升:在对h t h 数据进行统计的基础上,本文构建了基于训 练一预测的工作框架并尝试了多种基于序列信息的编码方法。最终发展出一种 基于模式变量变换的新方法,取得了很理想的结果。 基于模式变量变换的新方法,是本文设计的一种新的变量变换方法。它通 过对典型集序列的特征提取,得到一组与设定阈值相关的模式集合。这些模式 a b s t r a c t 的产生既保留了序列的统计特征,又能兼顾到氨基酸残基间的长程作用,同时 还避免了出现过多的变量。在某种程度上,模式变量代表了特定位置上的氨基 酸组合对于序列中产生h t h 模序的贡献因子;而若干模式变量的组合关系可能 蕴含了蛋白质序列中是否包含h t h 模序的潜在规律。 本文构建的工作框架,对于解决生物信息学领域类似的模式识别问题,有 一定的启发作用。这种新的基于模式的变量变换方法,为实现样本的非等长变 量编码,及变量优化等问题,提供了一种表现很好的新思路。 关键词:螺旋一转折一螺旋模序,d n a 结合蛋白,模式识别,生物统计编码方 法,模式变量。 a b s 仃a e t a b s t r a c t i nr e c e n ty e a r s ,t h er a p i dd e v e l o p m e n to ft h el i f es c i e n c e sh a sb r o u g h tm a n y n e wc h a l l e n g e s w i t ht h eh u m a ng a n o m es e q u e n c i n gw o r kc o m p l e t e d , t h ef l o o do f n o n - c h a r a c t e rb o o kf r o mh e a v e n ”h a sb e e np r e s e n t e dt op e o p l e h o wt oe x t r a c t m e a n i n g f u li n f o r m a t i o nf r o mab r o a da r r a yo fd a t aw i l lb e c o m ec r u c i a l t oi n t e r p r e t t h i s n o n c h a r a c t e rb o o kf r o mh e a v e n ”a n du n d e r s t a n dt h ec o m p l e xr e g u l a t i o no f g e n ee x p r e s s i o nm e c h a n i s m ,w em u s tf i r s ti d e n t i f ya l lt h et r a l l s e p t i o nf a c t o r s ,w h i c h a r ec o m p o s e do ft h em a j o rp a r to fd n a - b i n d i n gp r o t e i n i nm a n yo ft h ek n o w n d n a - b i n d i n gp r o t e i n s ,t h e r ea r ean u m b e ro fr e g u l a rs t r u c t u r em o t i f s ,a n dt h e h e l i x t u r n - h e l i xm o t i fi st h em o s tc o m m o no n eb e i n gs t u d i e d ,a n dc o m p o s e st h e m a j o r i t yo f t h em o t i f s w i t ht h ea d v e n to fg e n o m i e sp r o j e c t s ,a l li n c r e a s i n gn u m b e ro fp r o t e i n s t r u c t u r e sw i t hl i t t l eo rn os e q u e n c es i m i l a r i t yt oc u r r e n tp d be n t r i e sa n dl i t t l e f u n c t i o ni n f o r m a t i o na r eb e i n gs o l v e d s oi fp r o t e i ns l r u e t t t r ea n df u n c t i o nd o m a i n i n f o r m a t i o n ( i n c l u d i n gh t hm o t i f ) c a nb ep r e d i c t e do r i l l u s t r a t e do n l yo nt h eb a s i so f p r o t e i ns e q u e n c ei n f o r m a t i o n , w ew i l lb ei nal a r g e rm e a s u r eu n d e r s t a n d i n gt h e r e l a t i o n s h i pb e t w e e nt h ep r o t e i ns e q u e n c ea n dp r o t e i ns t r u c t u r e ,f u n c t i o na n dt h e u n d e r s t a n d i n go f t h eb i o l o g i c a lg e n e t i ci n f o r m a t i o nt r a n s m i s s i o nm e c h a n i s mi na l lt h e p r o c e s s e s s oi nr e c e n ty e a r s t h eh t hp r e d i c t i n gm e t h o d sw e r ec o n c e r n e da b o u ta sa h o t s p o t ,a n dan u m b e ro fp r e d i c t i n gm e t h o d sh a v eb e e np r o p o s e d t h e r ei sn od o u b t t h a tt h ei n h e r i t a n c ea n dd e v e l o p m e n to nt h eb a s i so fo u rp r e d e c e s s o r si nh t hm o t i f p r e d i c t i n gm e t h o d s ,w i l le n a b l eu st oe x p l o r em o r ei n d e p t ha b o u tt h ep r i n c i p l eo f i n f o r m a t i o n t r a n s f e r r i n g f r o mg e n et o p r o t e i na n dp r o t e i n s t r u c t u r e - f u n c t i o n a n n o t a t i o n ,a n dw i l ld r i v eu st of u r t h e ru n d e r s t a n d i n go ft h em e c h a n i s mo ft h e m y s t e r y o f l i f e w ef i r s t l yl a u n c h e dac o m p r e h e n s i v ea n a l y s i sa n dr e s e a r c ho fp r e d e c e s s o r s e x c e l l e n tw o r ki nh t h p r e d i c t i n ga n dr e l i e df i e l d s t h e nw e r e t r i e v e do u rn e c e s s a r y i i i a b s t r a c t r a wd a t af r o ms m a r ta n du n i p r o t k b t r e m b ld a t a b a s ea c c e s s ,c o m p l e t e dt h ed a t a c l a s s i f i c a t i o n ,a n db u i l to u ro w nh t h d a t a b a s e o nt h eb a s i so fh t hd a t as t a t i s t i c s , w ef o r m e dat r a i n i n g - p r e d i c t i n gb a s e dw o r k i n gm o d e la n dt r i a l e dav a r i e t yo f s e q u e n c e e n c o d i n gm e t h o d s e v e n t u a l l yw ed e v e l o p ap a t t e r n - v a r i a b l eb a s e d e n c o d i n gm e t h o d , w h i c ha c h i e v e dv e r ys a t i s f a c t o r yr e s u l t s i t san e wv a r i a b l e - t r a n s f o r m i n gm e t h o dt h a tw ed e s i g n e db a s e do np a t t e m v a r i a b l e s b yf e a t u r ee x t r a c t i o no ft h em a s t e rs e t ,w eg o tp a t t e r nc o l l e c t i o n s a s s o c i a t e dw i t hac e r t a i nt h r e s h o l d t h e s ep a t t e r n sh a v en o t o n l y r e t a i n e dt h e s t a t i s t i c a lf e a t u r e so fp r o t e i ns e q u e n c e s ,b u ta l s ot a k ea c c o u n to fl o n g - r a n g e i n t e r a c t i o no fr e s i d u e s ,a n da v o i da ne x c e s s i v en u m b e ro fv a r i a b l e s t os o m ee x t e n t , p a t t e r nv a r i a b l e sr e p r e s e n t e dt h er e s i d u eg r o u p sa ts p e c i f i cl o c a t i o n s ,i no t h e rw o r d s , t h ec o n t r i b u t i o nf a c t o r so ft h ef o r m i n go fh t h m o t i fi np r o t e i n s m e a n w h i l e ,t h e r e l a t i o n s h i pi nc e r t a i np a t t e r ng r o u p sm a yd e t e r m i n ew h e t h e rap r o t e i ni n c l u d e sa h t h - m o t i f p o t e n t i a l l y t h ef r a m e w o r kw ec o n s t r u c t i n gi ss o m ei n s p i r i n gt or e s o l v et h es i m i l a r p r o b l e m si nb i o i n f o r m a t i c sf i e l d t h i sa p p r o a c hp r o v i d e saw e l l d o n ei d e af o rt h e n o n - l e n g t h e q u a l l ye n c o d i n gm e t h o do f s a m p l e s ,a n dt h ev a r i a b l eo p t i m i z a t i o n k e yw o r d s :h e l i x t u r n h e l i xm o t i f , d n a - b i n d i n gp r o t e i n s ,p a t t e r nr e c o g n i t i o n , b i o s t a t i s t i c se n c o d i n gm e t h o d s ,p a t t e r n - b a s e dv a r i a b l e i v 学位论文版权使用授权书 本人完全了解同济大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供 本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版:在不以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 年月e t年月 e t 垆一 天 一 垒旧 名 ;一 戳 月一 者, 作 年姗竺 论 卯 一 蒌| 砌 挚 同济大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、己公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体,均己在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。 签名:癣一天弗 2 蛑岁月jf 日 第1 章前言 第1 章前言 进入2 1 世纪以来,生物信息学领域的研究一直都是科学界的焦点领域,破 译遗传密码、揭示生命现象的本质是人们梦寐以求的夙愿。自从1 9 9 0 年美国启 动人类基因组计划以来,人与模式生物基因组的测序工作进展极为迅速。至2 0 0 0 年6 月2 6 日,被誉为生命“阿波罗计划”的人类基因组计划,经过美、英、日、 法、德和中国科学家的艰苦努力,终于完成了工作草图,这是人类科学史上又 一个里程碑式的事件。可以预计,今后d n a 序列数据的增长将更为惊人。与其 同步的还有蛋白质的一级结构,即氨基酸序列的增长。此外,迄今为止,已有 四万多种蛋白质的空间结构以不同的分辨率被测定。基于c d n a 序列测序所建 立起来的e s t 数据库其纪录已达数百万条。在这些数据基础上派生、整理出来 的数据库已达5 0 0 余个。这一切构成了一个生物学数据的海洋。这种科学数据 的飞速和海量的积累,在人类的科学研究历史中是空前的。 与数据爆炸式增长相比较而言,人类相关知识增长却显得比较缓慢。因为 数据并不等于可以直接利用的信息,而信息亦不等同于更高级别的知识。海量 的数据和我们利用数据能力的相对匮乏,是生物信息学产生的一个主要背景。 后基因组时代的发展迫切地需要联合各个学科一一包括生物学、化学、数学、 计算机科学等多个学科的优势力量,才能实现人类解读复杂生命现象的理想。 从上个世纪五十年代d n a 双螺旋结构的发现,到“中心法则”的提出,再 到对“中心法则”的修正和质疑,围绕生命遗传信息的研究和争论就从来没有 停止过【l 】。生命信息的编码、解码和传递机制是人们关注的焦点。而d n a 结合 蛋白对于生命信息从基因到蛋白质的传递,起着至关重要的作用。据估计,d n a 结合蛋白占到了由真核基因组表达产生蛋自总量的6 7 7 0 2 | 。随着x 射线晶体 衍射( ) 【一r a yc r y s t a l l o g r a p h i c ) 和核磁共振( n m r ) 技术的成功应用,现在大量的d n a 结合蛋白以及蛋白质- - d n a 络合物的结构及序列信息储存在p d b 库( p r o t e i n d a t ab a n k ) 以及核酸数据库( n u c l e i ca c i dd a t a b a s e ) p 】。随着生物信息学的飞速 发展,大量未知结构或序列相似性的蛋白出现,一项意义重大的挑战摆在我们 面前探寻一种能对蛋白质结构、功能进行预测的方法。 在众多已知的d n a 结合蛋白中,人们发现它们包含一系列有规律的保守性 第1 章前言 区域一一被称作模序 4 1 ,其中包括如螺旋一转折一螺旋模序( h e l i x - t u r n - h e l i x m o t i 0 ,螺旋一环一螺旋模序( h e l i x 1 0 0 p h e l i xm o t i f ) ,螺旋一发夹一螺旋模序 ( h e l i x h a i r p i n h e l i xm o t i f ) 和锌指模序( z i n cf i n g e rm o t i f ) 等类型。自在l a m b d a 噬菌 体中确定了c 1 和c r o 抑制蛋白的晶体结构以后,d n a 结合蛋白中的p i t h 结构 模序己成为人们在研究蛋白质与d n a 相互作用机理时最重要的范例。 如前所述,尽管有越来越多的蛋白被测定出其三维结构信息,但相对于现 存的全部蛋白质数据而言,更多的蛋白仅有一级结构即序列信息:那些已知三 维结构的蛋白,大部分与现有p d b 库中蛋白没有或很少有序列和结构上的同源 性,人们对它们的功能也知之甚少。 因此,如果能做到仅仅依据蛋白质一级序列信息来对蛋白质结构功能域做出 正确预测,将会在很大程度上促进我们对蛋白质序列与蛋白质结构、功能之间 关系的理解以及生物遗传信息在各个过程中的传递机制的阐明【5 】。对于蛋白质结 构功能域中最重要,同时也是被人们研究最多的h t h 模序的研究,将具有很重 要的实用价值。 本论文工作的特点如下: 首先,本文在最大范围内获取了己发现包含h t h 模序的全部蛋白序列,并 整理归类出十三个h t h 模序家族,相比于前人的工作,数据集的规模、类别划 分以及序列代表性方面都有很大程度的提高; 其次,针对本课题中蛋白序列长度的变化和h t h 模序长度的变化,本文采 用了多种基于氨基酸频率统计和变量变换的编码方法,进而发展出一种基于模 式变量变换的编码方法,取得了较为理想的预测结果: 最后,本文提出的基于模式变量变换的编码方法,对于解决生物信息学领 域内经常遇到的变长度变量的问题,有一定的借鉴意义。 在本论文的工作中,我们首先进行大量的文献查阅,研究了近些年来国际 上h t h 模序预测及相关领域内,前人所做的优秀工作。通过对他们工作的分析 和研究,我们发现了在h t h 模序预测问题上,尚且存在着一定的不足之处。由 于生物信息学数据库日新月异的变化,前人工作中所选取的数据集的范围在我 们现在看来,无论是数据集的规模还是研究对象的代表性,都是有一定局限的。 另外,某些方法在一定范围内取得了比较好的预测结果,但由于其适用条件有 很大的局限性,所以不利于从数据全集的角度来应用到现实中去。针对上述情 况,接下来,我们由s m a r t ( s i m p l em o d u l a ra r c h i t e c t u r es e a r c h ) 和e x p a s y 第l 章前言 数据库获取了我们工作所需的全部原始数据,并根据h t h 模序与蛋白序列之间 的联系,构建了我们本地的h t h 数据库,基于包括一个蛋白序列信息表( 对应 全部原始数据) ,一个包含h t h 模序的蛋白信息表( 对应那些含有h t h 模序的 蛋白序列) ,一个h t h _ r e g i o n 表( 对应所有的h t h 模序信息,h t h 模序家族 信息和h t h 模序和蛋白序列间对应关系的信息) ,一个不包含h t h 模序的蛋白 信息表( 用于下文构建模型时负集的产生) 。 在此基础上,我们对包含h t h 模序的序列,h t h 模序的域,以及不同的 h t h 模序家族,进行氨基酸组成和长度分布等统计。统计结果表明,对于全集 而言,序列的长度分布跨度比较大,同时h t h 域的长度分布也并不集中。但在 同一h t h 模序家族内部,h t h 域长度分布较为集中。在氨基酸组成上,不同家 族之间,或正负集( 包含和不包含h t h 模序的数据集) 之间,没有发现显著性 差异。 然后,对于h t h 预测问题,构建了我们的工作框架。通过对常见模式识别 算法和工作的分析,我们采用了效果较理想的支持向量机算法。考虑到后续计 算工作的繁杂性,我们在微软d o t n e t f r a m e w o r k 2 0 平台下,开发了支持多任务 计划的支持向量机算法软件,对于数据预处理、算法、以及预测结果评价有很 好的集成性能,且同时支持多种操作系统平台( l i n u x w i n d o w s u n i x f m a c t o n i s h ) , 为提高下一步的工作效率奠定基础。 基于上述工作框架和计算平台,我们使用了不同的编码方法来进行建模和 预测。在此过程中,我们首先采用了常规的基于氨基酸频率的编码方法,包括 单氨基酸频率编码和双氨基酸频率编码,因为这种传统的编码方法完全舍弃了 序列的连续信息,所以其结果不是很理想;接着我们引入了基于变量变换的编 码方法,变量变换的方法有多种。基于c t d ( 序列组成、转换、分布) 编码方 法,是按氨基酸理化性质( 疏水性、范德华半径、极化率、极性) 先将2 0 种氨 基酸分为三类,进而将氨基酸序列转换为新的三元序列,然后再分别统计新序 列中的三类编码的含量、转换频率、分布概率。此方法在很大程度上避免出现 因变量数增多而导致的“维数灾难”,而又同时兼顾了氨基酸的序列信息和理化 特性,但最终预测结果也不是很理想。g a u s sf u n c t i o n ( 高斯函数) 编码方法, 将离散的序列变量转化为连续的高斯峰信号,这种方法可以兼顾到序列各部分 间的相互影响,又能通过分段统计来使长度不等的序列归一化。尽管上述两种 编码方法在一定程度上考虑到了一级序列的连续信息,但h t h 模序相对于蛋白 第l 章前言 序列而言,它的特异性可能几乎完全淹没在整条序列的信息里,故而结果仍然 不是很理想。 最后我们发展了一种基于模式的变量变换编码方法,也是我们将要着重阐 述的编码方法。 这种编码方法,首先是选取一个典型集作为产生模式集合的来源。典型集 的选取对于后续编码和建模过程至关重要,典型集要求集合中序列具有等长、 非冗余、有类别家族代表性等特征。选取好典型集后还要根据典型集的序列数 目设定一个合适的阈值。阈值设置过高,可能会导致产生模式的数目太少;反 之如阈值设置过低,可能会导致产生海量的模式,或迭代计算时问过长。因此 在实际工作中应当权衡以选择合适的阈值。 然后,根据所设定的阈值,在典型集内先统计出长度为1 的“单模式”。这 一步骤通过将典型集序列对齐,统计每列内的有效单模式即可。计算完毕后将 所有单模式汇入最终模式集合。在获取所需单模式集合的基础上,再根据相似 的计算规则,逐步迭代产生所有符合要求的模式集合。 最后再利用所得到的模式集合进行编码。尽管在产生模式的过程中,各模 式都是绝对位置相关的;但在进行编码时,由于正负集的序列均为非等长序列, 还需要将绝对位置的模式转换为相对位置即位置不相关的模式。对于正负集样 本序列,统计模式集合中各长度不相关模式的出现次数,记为模型的特征变量, 来进行建模和预测工作。 这种基于模式的变量变换编码方法,通过对典型集序列的特征提取,得到 一组与设定阖值相关的模式集合。这些模式的产生既保留了序列的统计特征, 又能兼顾到氨基酸残基间的长程作用【6 】,同时还避免了出现过多的变量。由于它 针对h t h 模序预测问题,能很好地克服了前述方法的缺点,并最终取得了很理 想的结果。十三类h t h 模序家族总的预测平均结果达到了9 3 2 9 的准确率,比 国际上基于蛋白质序列的h t h 模序预测准确率有了比较明显的提高。 4 第2 章蛋白质模序及h t h 模序 第2 章蛋白质模序及h t h 模序 2 1d 卧结合蛋白及预测 1 d n a 结合蛋白 d n a 分子可以以不同的形式存在。不同形式存在的d n a ,其表现的功能也 不同,这种不同的d n a 功能主要是通过识别一定的d n a 序列并通过固定在某 个作用位点上的d n a 结合蛋白来调控的【7 】,这种蛋白质称为d n a 结合蛋白【8 】 ( s e q u e n c e s p e c i f i cd n a - b i n d i n gp r o t e i n s ) 。 图1d n a 结合蛋白不例图( p d bi d :i a 0 2 ) 图l 是一个典型的d n a 一蛋白质络合物的空间构型图( 图中双螺旋即d n a 双链,其余部分即与之结合的蛋白) 。 基因调控是生物学的主要研究课题,该领域也是目前最活跃、发展最快的 研究领域之一。其中有关d n a 结合域结构功能研究则是该领域的核心问题, d n a 结合域将蛋白引到与之结合的d n a ,而且d n a 结合域与d n a 之间相互 作用的高度专一性决定了d n a 结合蛋白的特定位点结合【9 】。d n a 结合蛋白,调 控d n a 的转录、复制及翻译【1 0 】,而其结构域几乎具有全部的生物活性l 。因此 研究d n a 与蛋白的作用机制,具有非常重要的理论和实际意义。 1 1 为蛋白质的全新设计打下基础。 第2 章蛋白质模序及h t h 模序 2 ) 提示蛋白质一级结构与高级结构的关系。 3 ) 研究蛋白质与d n a 相互作用的机制,了解基因表达的调控分子原理【1 2 】, 提示生命的本质,对于理论研究和实际应用都具有非常重要的意义。 4 ) 设计具有高度专一性、识别长度远大于限制性内切酶的d n a 切割试剂, 对于染色体基因定位等研究具有很大的作用。 2 d n a 结合蛋白定义 结合残基( b i n d i n gr e s i d u e ) :一个蛋白质序列中的氨基酸残基,如果它的侧 链( s i d ec h a i n ) 或中心原子( b a c k b o n ea t o m s ) 与任何一个与之结合的d n a 中的原子 在3 5 a 距离范围之内,那么这个残基就叫做“结合残基”。 结合碱基( b i n d i n g b a s e s ) :一个d n a 碱基序列中的碱基,如果它的侧链( s i d e c h i n ) 或中心原子( b a c k b o n ea t o m s ) 与任何一个蛋白质上的原子在3 5 a 距离范围 之内,那么这个碱基就叫做“结合碱基”。 结合片断( b i n d i n gs e g m e n t s ) :如果某一蛋白质片断中心残基( 或d n a 上 的碱基) 的任一原子距离d n a ( 或蛋白质) 上任一原子小于3 5 a ,那么这个片 断即“结合片断”。 根据以上定义,一个蛋白如果含有若干个结合残基,则此蛋白即d n a 结合 蛋白。 2 2 蛋白质结构模序 常见的d n a 结合蛋白有如下几种典型模序【j 3 】: 1 螺旋一转折一螺旋模序( h e l i x t u r n - h e l i xm o t i f ) 螺旋一转折一螺旋型模序( 即h t h 模序) 包括两个a l p h a 螺旋,由一个转 折相连结,一般含有2 0 个氨基酸残基,其中一条螺旋的氨基酸残基与d n a 大 沟中的碱基直接接触,称为识别螺旋;另一条螺旋跨卧在大沟之上,与d n a 的 接触是非特异性的。 2 锌指模序( z i n c f i n g e rm o t i f ) 爪蟾属( x e n o p u s ) 转录因子a ( t f a 1 是r n a 聚合酶将5 s r n a 基 因进行转录所必需的蛋白。1 9 5 8 年j m i l l e r 等人发现,每个t f a 分子含有 7 - 1 1 个z n 原子和9 个重复单位,每个重复单位大约有3 0 个氨基酸残基,因而 把这种重复出现的结构称为“锌指”( 如图2 所示) 。 6 第2 章蛋白质模序及h t h 模序 ;w v p l v a 鼯淄, 砌矾y k i o g n 带_ r m 姒雕c y e 识谢蛐【g g 喇吐 棘g c :、t ,c 。一一一一,:一p 一一一一一。一f , 一一一”一 b、 d 一- 一。一 e 图2 锌指模序示意图( 图片引自参考文献5 ) 激素受体蛋 刍o l o r d o n er e c e p t o r p r a 晒n ) 的d n a 结合区位于蛋白分子的中心 部位,位于羧端的是激素结合位点及二聚区( 激素受体蛋白分子以二聚的形式 与d n a 结合) ,而氨端是转录活性区。 3 亮氨酸拉链型模序【h 】( l e u c i n e z i p p e rm o t i f ) 亮氨酸拉链型d n a 结合蛋白的发现开始于美国卡内基实验室s l m c k n i g h t 对c 仰p 蛋白( 与c c a a t 结合的e n h a n c e r - b i n d i n gp r o t e i n ) 的研究工 作。亮氨酸拉链模序由伸展的氨基酸链组成,每7 个氨基酸中的第7 个氨基酸 是亮氨酸。亮氨酸是疏水性氨基酸,排列在螺旋的一侧,所有带电荷的氨基酸 残基排在另一侧。当两个蛋白质分子平行排列时,亮氨酸之间相互作用形成二 聚体,形成“拉链”。在“拉链”式的蛋白质分子中,亮氨酸以外带电荷的氨基 酸形式同d n a 结合。亮氨酸形成拉链式二聚时,可能有平行和反平行两种形式 ( 如图3 所示) 。 第2 章蛋白质模序及h t h 模序 图3 亮氨酸拉链型模序示意图( 图片引自参考文献5 ) 4 螺旋一环一螺旋模序( h e l i x 1 0 0 p h e hm o t i f ) 螺旋一连接一螺旋型( h e l i x 1 0 0 p h e l i x ) d n a 结合蛋白是近年来发现的一种 新型d n a 结合蛋白,其结构与亮氨酸拉链模型很相近,即分子中包含一个与 d n a 结合的碱性区和一个形成二聚作用的螺旋一连接一螺旋区,故有时也称这 种结构为碱性一螺旋一连接一螺旋模型。在这类蛋白中,连接区一般包含9 - 2 0 个氨基酸残基,而且是比较保守的。 2 3h t h 模序 h t h 模序最初是在细菌蛋白中被发现的,随后人们又在真核生物和原核生 物中发现大量的h t h 模序【l5 1 。h t h 模序是d n a 结合蛋白模序中组成比例最高 的一种。自在l a m b d a 噬菌体中确定了c l 和c r o 抑制蛋白的晶体结构以后,d n a 结合蛋白中的h t h 结构模序己成为人们在研究蛋白质与d n a 相互作用机理时 最重要的范例【l “。 h t h 模序由两个a l p h a 螺旋和将它们连接起来的一个转折区域所组成,其 组成长度约2 2 个氨基酸。h t h 模序识别一个序列特异的d n a ,是通过一个由 氢键组成的网络和蛋白质侧链原子与d n a 大沟中暴露的碱基对的其他相互作用 8 第2 章蛋白质模序及h t h 模序 来实现的。h t h 模序中的第二个a l p h a 螺旋,一般与d n a 大沟( m a j o r g r o o v e ) 结合,因此也称为识别螺旋( r e c o g n i t i o nh e l i x ) 。h t h 结构及其与d n a 相互作 用的方式如图4 所示。 图4 h t h 模序与d n a 相互作用图( 图片引自参考文献1 6 ) 由于h t h 模序的代表性和重要性,国际上出现了大量的有关h t h 模序预 测问题的研究。从前人研究的预测原理来看,h t h 模序的预测方法主要分为两 大类即基于蛋白质序列氨基酸组成和基于蛋白质三维结构的预测方法。 基于结构的预测方法主要是依据包含h t h 模序的蛋白质在其结构上的共同 或相似属性来构建模型,然后采用结构比对的方法来预测h t h 模序。最新研究 成果主要如下所述: 1 基于搜索3 d 结构模板的预测【1 7 1 这种方法主要是用由蛋白质的三维结构模板来进行d n a 结合功能的预测。 相对于一般的蛋白质而言,那些与d n a 结合的蛋白通常含有小的连续的h t h 结构模序,这种蛋白在总的d n a 结合蛋白家族中占有相当大的比例。由七条包 含h t h 结构模序的蛋白序列构建了一个结构模板库,这些序列在p d b 数据库 中获取,并且具有显著的非同源性。这些结构模板用来计算一个未知蛋白的 a l p h a 碳原子的骨架与结构模板库中的结构进行最优重叠时,二者的均方根偏差 值( r o o tm e a ns q u a r e dd e v i a t i o n :r m s d ) 。通过一系列的建模测试,选定1 6a 的r m s d 作为判别的域值。最终的预测的结果:t p = 8 8 4 ,f p = 0 7 。 第2 章蛋白质模序及h t h 模序 2 使用静电势来预测d n a 结合蛋白的结合位点【1 8 】 这篇文献通过分析d n a 结合蛋白表面的残基组成来引入一种利用这些表面 的残基片断建立一个单变量的方法,来进行d n a 结合蛋白的结合位点的预测。 文中开始分析表面残基片断组成和结合位点,与表面可接近区域( a e c e s s i b i l i t y ) 、 静电势( e l e c t r o s t a t i cp o t e n t i a l ) 、残基倾向( r e s i d u ec o n s e r v a t i o n ) 、憎水性 ( h y d r o p h o b i c i t y ) 和残基组成的保守性( r e s i d u ec o n s e r v a t i o n ) 。经过以上分析发现, d n a 结合蛋白的结合位点几乎总是分布在那些具有最高1 0 带正电的残基中。 然后基于这种理论,作者引入了这种基于残基带电值来进行d n a 结合蛋白的方 法。用这种方法对于一个由5 6 条非同源性的d n a 蛋白组成的数据集进行预测, 最终的准确率达到了6 8 。 3 基于几何尺度的统计模型【l 9 】 在这种方法中,使用了基于几何尺度的决策树模型,来对d n a 结合蛋白中 的h t h 结构域进行预测。此决策树由包含和不包含h t h 结构域的1 5 2 条( 各 7 6 条) 蛋白构建,对于每种分类、分类总数、错误分类数都给出了在识别两个 a l p h a 螺旋之间的憎水反应区域、残基平均溶剂可接近面积。对于包含h t h 域 的结构,须满足以下条件:两螺旋之间的憎水反应区域大于4 4 a 2 ,识别螺旋的 平均相对溶剂可接近区域大于3 0 ,两螺旋的憎水反应区域均大于3 7 a 2 或两螺 旋之间的憎水反应区域大于6 1 a 2 。最终对测试集的预测准确率接近9 8 。 由于蛋白质序列中蕴含的信息较为复杂,因此基于序列的数据信息挖掘显 得相对困难一些。在此背景下,又有人尝试将序列和结构的信息同时利用,期 望能发现一些隐藏在复杂现象背后的规律【2 们。在基于序列的数据集选取上,从 c a t h 和p f a m 数据库中,通过同源性比对及相似度检验,筛选出1 4 条包含h t h 结构域的具有代表性的序列,用s a mp a c k a g e 工具产生h m m 库,通过未知序 列与其序列比对打出e v a l u e 值,设定一个阈值以预测未知序列是否含有h t h 结构域。在基于结构的数据集选取上,作者选取7 条公认的包含h t h 模序的序 列作为模板【2 ”,通过比较与模板的r m s d 值来进行预测。在序列信息的利用上, 作者分别尝试了p d ( p a r t i a ld o m a i n :仅包含模序的序列) 和f d 伊u l ld o m a i n :整条 序列信息) 进行预测,然后做出了一些设想。通过序列、结构相结合的方法进行 预测,比任何单一的方法效果要好,猜想可能存在某种隐式的结构与序列间的 互补性。 由上所述,基于结构信息的对于h t h 结构域的预测已经达到了较高的准确 1 0 第2 章蛋白质模序及h t h 模序 率,但对于更加普遍的情况即那些与p d b 库中己知蛋白相比没有很好的序 列或结构相似性的蛋白一一以上方法并不适用。同时从预测方法本质的层面来 看,基于结构的预测方法是一种基于已知蛋白与未知蛋白共同属性的预测方法, 它是依据未知模型与现有模型的匹配程度来进行预测分类的,显然并没有从己 知模型中抽象出具备一般规律的特征变量来对这类分类问题进行合理地描述。 因此,发展基于蛋白序列信息的预测方法具有更加现实的意义,当然也更 富有挑战性【2 ”。总结了前人的工作,发现单纯的基于蛋白序列信息来对d n a 结 合蛋白和h t h 模序预测的工作非常少,且在数据规模与模序家族分类上都没有 很强的代表性。 4 基于氨基酸组成的d n a 结合蛋白预测 对于基于序列的d n a 结合蛋白预测,s h a n d a ra b r o a d , m m i c h a e lg - r o m i h a a k i n o r is a r a i 做了一定的探索性的工作【2 3 1 。基于上述的d n a 结合蛋白的相关定 义,作者分别统计长度为3 和5 的残基片断的结合与非结合概率,选取对应长 度的氨基酸片断的编码作为输入向量,训练一个包含两个隐含层的神经网络来 进行建模预报。最终预测结果( 长度为5 的残基片断) :s n = 4 0 6 ,s p = 7 6 2 , a c e = 7 3 6 。 另外,在我们之前的工作中,也对d n a 结合蛋白的预测做了探索性的研究 2 4 j 。我们从p d b 库中获取蛋白质的三维结构信息,再根据d n a 结合蛋白的定 义,找出d n a 结合蛋白和非d n a 结合蛋白。然后分别统计两类蛋白中氨基酸 的出现频率,构建频率差表,对d n a 结合蛋白做出预测。最终预测结果准确率 为7 5 9 ( 三元氨基酸片断) ,7 3 6 ( 五元氨基酸片断) 。 从以上工作的原理来看,仅由连续的一级序列信息,来对蛋白质三维结构、 功能做预测,其结果并不是很理想。这种情况的主要原因,在于蛋白质三维结 构上相近或相邻的氨基酸残基,在一级序列组成上可能是非连续或相距甚远的。 因此,从局部的连续序列片断信息中,很难挖掘出蛋白质序列和蛋白质高级结 构、功能之间的复杂关系,而这种关系对于我们生物信息学的进一步发展,以 及若干核心问题或机制的阐明,又是至关重要的。所以,在前面探索性工作的 基础

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论