(细胞生物学专业论文)三大种群蛋白质内部重复片段组成规律的比较研究.pdf_第1页
(细胞生物学专业论文)三大种群蛋白质内部重复片段组成规律的比较研究.pdf_第2页
(细胞生物学专业论文)三大种群蛋白质内部重复片段组成规律的比较研究.pdf_第3页
(细胞生物学专业论文)三大种群蛋白质内部重复片段组成规律的比较研究.pdf_第4页
(细胞生物学专业论文)三大种群蛋白质内部重复片段组成规律的比较研究.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(细胞生物学专业论文)三大种群蛋白质内部重复片段组成规律的比较研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

英文摘要 a b s t r a c t :i n19 7 0 s ,o h n op m p o s e dm a tp r i m o r d i a jp r o t e i n sm i 曲te v o l v e 矗o m p e r i o d i ca m p j i f i c a t i o no fo l i g o - p e p t i d e s 【l ,2 ,3 1 i n t c m a lr e p e a t i n gs e g m e m s i np r o t e i n s m a yp l a yi m p o n a n tm l e si n f u n c t j o n a le v o l u t i o no fp r o t e i n s i nt h i ss t u dy ,an e w m e t h o dw a sd e s i g n e dt oe x t t a c ti n t e m a li e p e a t i n gs e g m e n t sf r o mp r o t e o m e so f8 m o d e r n s p e c i e sb e l o n g t oe u k a r y o t a ,b a c t e r i aa n da r c h a c a ,r e s p e c t i v e l y t h er e p e a t i n g p a t t e m sa n dt h e 舶q u e n c i e st h e y o c c l l r 、i t l l i np r o t e o m e so fe a c hk i n g d o mw e r e a n a i y z e db ym a t r i xp l o t s i m p l er e p e a ts e g m e n t sw e r ef o u n dt o e x i s ti n e u k a r y o t i c p r o t e i n sw i t hh i g hf k q u e n c i e s ,b u tw e r e m u c hl o w e ri nb 勰t e aa n dn o n ei na r c h a f u n h e r a n a l y s i ss h o w e dt h a t ,t h eb i a s e du s a g eo f 锄i n o a c i d si nt h ei 肿m l a lr e p e a t i n g s e g m e n t sw a sp o s i t i v e l yr e l a t e dt ot h e 行e q u c n c i e so fi n d i v i d u a l 蛐i n oa c i d si nt h e p r o t e o m eo f a g i v e ns p e c i e s 1 1 1 ec o r r e l a t i o nc o e m c i e n t w a s u p t o0 9 5i np m k a r y o t a , w i t ht h ee u k a r y o t at ob el o w e lt h eh i g hf e q u e n c yo fs i m p l er e p e a ts e q u e n c e si n e u k a r y o t i cp r o t e o m e s , a sw e l la st l l e d i s p a r a t er e l a t i o n s h i p s o fa n l i n oa c i d c o m p o s i t i o n sb e t w e e n t l l ei n t e m a lr e p e a t i n gs e g m c n t sa i l dt l l e i rh a b o r i n ge u k a r y o t i c p r o t e o m e si m p l y t h a tm ef a s te v o l u t i o no f s i i n p l er e p e a ts e q u e n c e s c o u l db eo n ef o r c e t h a tg e n e r a t e st h eh i g h c o m p l e x i t yo fe u k a i y t i cp r o t e o m e s , k e y w o r d s :i n t e m a lr e p e a t i n gs e g m e n t s ; s i m p l er c p e a t i n gs e g m e n t s p r o t e o m e s 4 第章:文献综述 蛋白质序列数据挖掘研究进展 从n o n n a n 和l e i 曲a n d e r s o n 在七十年代后期谈论蛋白质数据开始,生命科 学已经与信息科学不可避免的融合在了一起【4 】。九十年代人类基因组计划的实 施,将人类真正带入了生物信息学时代,它产生出海量的数据,对这些数据的理 解,已经远远超出了任何一个生物学家或任何一个研究小组的能力范围。随着后 基因组时代的来临,阐明基因组所表达的全部蛋白质的表达规律和生物功能,即 蛋白质组的研究,成为我们研究的最终目的,因为蛋白质才是生命活动的真正执 行者。生物信息学在后基因组时代的蛋白质组分析中,正扮演着重要角色【5 j 。 生物信息学( b i o i n f o m a t i c s ) 是生命科学与计算机科学以及应用数学学科相 互交叉而形成的一门新兴学科。它通过对生物学实验数据的获取、加工、存储、 检索与分析,达到揭示数据所蕴涵的生物学意义的目的1 6 】。所谓数据挖掘( d a t a m i n i n g ) ,又称之为知识发现( k n o w l e d g ef i n d i n g ) ,是一个从数据中观察归纳总 结的过程,通过对数据的分析获得有用的信息。对蛋白质序列的数据挖掘,主要 涉及到蛋白质相关数据库,蛋白质分析生物学软件和蛋白质分子模拟三方面的内 容【7 1 。 1 蛋白质相关数据库 蛋白质数据库是蛋白质序列数据挖掘的基础。本文将蛋白质数据库粗略的分 为蛋白质序列类数据库,蛋白质模体基序类数据库,蛋白质结构数据库和其他特 异蛋白质序列数据库。 第章:文献综述 蛋白质序列数据挖掘研究进展 从n o n n a n 和l e i 曲a n d e r s o n 在七十年代后期谈论蛋白质数据开始,生命科 学已经与信息科学不可避免的融合在了一起【4 】。九十年代人类基因组计划的实 施,将人类真正带入了生物信息学时代,它产生出海量的数据,对这些数据的理 解,已经远远超出了任何一个生物学家或任何一个研究小组的能力范围。随着后 基因组时代王丰秀惰i 采硼究蛋誊剽必砻董燕蠹鹃喜藩銎鬲叭蟊茬訇撕譬委豇;姐 腹藿l 鞠骺鐾琴剖j 龄挂弱窳跨珀彗拍牾寸羹i 鋈驾名錾壁型骱驵啪必黪鬓鞲醮妫 辨吖。她醵龌薰器楚阁受帅魏靶黔鹜冀雾藕铺群醚薜。麴简剁酬荆烈掣茧岂! ; 岍静矩明鞋| f i i j 即蠡量篓i ;邺蛾引礤触寰裂蒜娄誊幕鞋垂警蓼毫彰 f i f 剥 m 酾删凳雾j 吗一嫡凌警瑁煎:善颤曩吐警型烈佻翻型嚣藿耀濞。谤鞲。噬潭完 全分类并充分注释的序列构 成:p i r 2 主要是未经过检查,含有冗余的序列构成;p i r 3 则是未经检查和证实 的序列;p i r 4 是其他一些由翻译而来的序列。 s wi s s - p r o t 【9 】数据库是最有影响的蛋白质序列数据库。该数据库由瑞士生 物信息学研究所( s i b ) 和欧洲分子生物学中心( e b i ) 共同维护和管理。 s wi s s p r o t 是一个加注释的蛋白序列库。其中所有序列条目都由有经验的分子 生物学家和蛋白质化学家查阅有关文献资料仔细核实的。与s w i s s p r o t 相关 的还有t r e m b l 【9 1 蛋白质序列数据库。该库收集了e m bl i l 0 1 核酸数据库翻译的没 有收录在s w i s s p r o t 中的蛋白质序列,这些序列并未经过人工注释查证,只 是通过计算机注释。 表1 常用蛋白质数据库网址 数据库名称数据库的网址 蛋白质序列 s w i s s p r o t p i r n r l 一3 d o w l h t t p :u s e x p a s y o r s p r o “ h n p :讲r g e o r g e t o w n ,e d u h t t p :l a g u e r r e p s c e d u g e n e r a l s o 丘w a r e p a c k a g e s h t t p :佃i r g e o 唱e t o w n e d “ 蛋白质模体和基序 p r o s i t e h t t p :,n u e x p a s y o r g p r o s i t e b l o c k s p r f i l e s p r n t s p r o d o m m o t i f h n p :m v w b l o c k s f i c r c o r g ,b l o c k s h t t p :w w w i s r e c i s b - s i b c h s o f w a r e p f s c a n ,f o n n h t m l h t t p :肌,、v b i o c h e m u c l a c u k b s 耐曲b r o w s e p r i n t s p :p r o t e i n t o u l o u s e i n r a f r p r o d o m h t m l h t t p :肺。龃g e n o m e a d j p i m e r p r o h t 印:,n w w e b i a c 1 l k i n t e r p r o 蛋白质结构数据库 p d b h t t p :,u v 、玑e b i a c u k p d b ,i n d e x s h t i l l i s c o p f s s p s w i s s 一3 d i m a g e h t t p :,s c o p b e r k e l e y e d u , h 却:w w 砒f s s p o 叫 h 廿p :热v w w e x p a s y o 呵s w 3 d n i hm o l e c u l a r h t t p :c m m i n f o n i h g o v m o d c l i n g d a t a b a s e r e b a s e h t t p :r e b a s e _ n e b c o t n r e b a s e r e b a s e l h t h l l e n z y m e h t t p :w 、v we x p a s yo r g e n z y m e 6 立在对一级数据库的序列分析基础上的。该类数据库的资源来自于同源序列通过 多重j 乒列比对寻找出其中包含的保守区域,这些保守区域一般反映了一些重要的 生物功能。结构和功能未知的序列通过在这类数据库中的搜索,可预测其可能具 有的功能结构特征,对此序列的功能结构研究有一定的指导意义。常用的模式数 据库:育p r o s i t e 、b l o c k s 、p r o f i l e 等。 p r o s i7 re 【1 3 1 数据库是基于多序列比对得到的单一保守序列片段,其数据来源 于s w i s s p r o t 蛋白质序列数据库。这种片段以正则表达式的方式表示。将一 条未知结构功能的序列在p r o s i t e 数据库中搜索,如果得到匹配结果,则这条 序列与之匹配的片段必然符合匹配的正则表达式。当然在引入打分矩阵之后,可 以搜索到近似匹配的正则表达式。然而,与单一正则表达式匹配的结果可能缺乏 生物学意义【i “,所以,判断这种匹配是否真实,还需要其他的证据支持。 b l o c k s 【1 5 】是最早利用多基序法建立的数据库,是以p r o s i t e 中已经识别 的蛋白质家族为基础构建而成。它将多个保守区域作为蛋白质家族的特征标i 己模 块用于搜索。因此,在数据库搜索的过程中,无论傈守区域是否能够全部匹配, 均有更大机会发现较远的关系。显然,在这种搜索的过程中较单个基序的良好匹 配更有生物学意义的是匹配的基序的数目。 p r o f i l e 的数据也来源于s w i s s p r o t 蛋白质序列数据库。其特点是使用 权重矩阵来表示基序。通过对多个保守区域的统计,建立每个位点的氨基酸的权 重。并应用于数据库搜索。 二级数据库中也有集合其他二维数据库而成的,这就是i n t e r p r o 【1 6 j 数据库。 该数据库并没有去除二级数据库合并带来的冗余,事实上也无法去除,即使同一 基序在不同二维数据库中的表示方法并不一致,一条未知序列在i n t e r p r o 数据库 搜索,相当于同时搜索了p r o s i t e 、b l o c k s 、p r o f i l e 等多个数据库。根据 匹配条目的链接可以直接在这些数据库的镜像库中找到详细的目标条目。 1 3 蛋白质结构数据库 蛋白质分子的功能是通过不同的三维空间结构实现的,所以蛋白质三维空间 结构数据库是一类重要的数捌库。随着x 射线品体衍射分子结构测定技术和核 磁共振分子结构测定技术的出现和日益成熟,越来越多的蛋白质分子的结构被测 定。而随着计算机功能的日益强大,很多分子的结构已由直接计算得出。 p d b ( p r o t e i nd a t ab a n k ) 【1 7 】数据库是最主要的蛋白质结构数据库。该数据库 原来由美国b r o o k h a v e n 国家实验室负责维护和管理。直至1 9 9 8 年结构生物学合 作研究会( r c s b ) 成立,才改由这个组织维护和管理。该数据库至今共收录了 2 5 1 7 6 个原子坐标,其中大部分是蛋白质,包括多肽和病毒。 表2 蛋白质结构数据库p d b 中不同种类数据统计 p d b 数据库以文本文件的方式存放数据,每个分子各用一个独立的文件。除 了原子坐标外,还包括物种来源、化合物名称、结构递交者以及相关文献等基本 注释信息。此外,还包括分辨率、结构因子、温度系数、蛋白质主链、配体分予 式、金属离子、二级结构信息以及二硫键位黄等等。p d b 数据库以文本的格式 存放。在其网络数据库p d b s u m n 埘中可直接观看p d b 数据的分子模型,与c n 3 d 等软件相结合具有直接分析和图形显示功能。 s c op 【l9 】是蛋白质结构分类数据库( s t m c t u r ec l a s s m c a t i o no fp r o t e i n s ) 的简 称,是英国医学研究委员会分子生物学实验室和蛋白质工程中心开发的基于w e b 的蛋白质结构数据分类,检索和分析系统。该库的数据来源于p d b 数据库。它 将p d b 数据库中的序列按照传统的分类方法分成a 型,b 型,a b 型( a 螺旋 和b 折叠交替出现) ,a + b 型( a 螺旋和b 折叠连续出现) ,以及多结构域蛋白, 膜蛋白和细胞表面蛋白,小蛋白类,共7 大类。这种分类结构数据库在生物信息 挖掘的过程中是非常有用的,提供了折叠类型,拓扑结构,家族,超家族等等重 要信息。 1 4 其他特异蛋白质序列 除上述数据库外,还有一些特异蛋白质的数据库,比如专门收集的g 一蛋白的 数据库和p 5 3 蛋白数据库等。这些专门的数据库在其研究领域是十分有用的资 源。 除了上述四大类数据库,还出现了专门收集现有生物信息学数掘库目录的数 据库。法国的生物信息研究中心i n f o b i o g e n 生物信息数据库目录d b c a t ( h t t p :u w w i n f o b i o g e n 削s e r v i c e s ,d b c 甜) 刚搜集了各种生物数据库的名称、作 者内容、网址、格式详细信息。这类数据库的出现,无疑方便了用户对目前生物 数据库全面的了解和查询。 2 生物学软件 蛋白质数据库是蛋白质序列数据挖掘的对象,而生物学软件则是蛋白质序列 挖掘的工具。现有的生物学软件一般分为三个层次。一是网上服务软件。目前, 许多生物信息学实验室都在网上提供现成的服务。以前的网络服务大多通过提交 电子邮件作业。现在随着服务器性能的大幅度提高,越来越多的服务可从网络浏 览器中直接实现:二是利用现成的软件本地操作。很多网上服务都提供本地软件 的下载,而且往往是免费的。当然。现有的商业性软件包也提供了强大的服务。 无论下载免费软件还是购买商业软件,本地化的服务为科研工作者提供了更加安 全与便捷的服务,而且往往具有更个性化的选择;三是创造信息环境。当开展研 究时,现成的软件往往不能满足所有的要求。这时就需要自己动手或者同数理, 计算工作者合作编制程序。其中很重要的是把网上服务、本地软件和自编程序集 成为一体,创造一个蛋白质序列数据挖掘的生物信息学平台。 o 列都被加入为止。c l u s t a l w 的结果可用t r e e v i e w 【2 5 j 等软件直接做成树状关系 结构,用来表示各序列之间的关系。 2 。l 。2 蛋白囊理亿性质的该灏和计算 蛋白质的一些功能特征可以通过蛋白序列直接推算出来。通过组成蛋白质的 2 0 种氨基酸的物理化学性质,分析蛋白质的物理化学性质。 等电点分子量计算:c o m p u t cp i m w 是e x p a s y 工具包中的程序,可计算蛋 白质的等电点和分子量。网址为b 塑;丛塑盟苎腔驻型! q 立! 型。 疏水性计算:按照给定长度读框在蛋白质序列上的滑动,计算单位区域中的 疏水性,并给出疏水性一序列曲线。网址为 h l l n ;s 苎巳a 墼弘h g 丛g :型q g i 二b i 旦:卫q ! s 堂:p ! 。 跨膜螺旋预测:可预测跨膜区段及其在细胞膜上的定位,根据来自 s w i s s ,p r o t 的跨膜蛋白数据库t m b a s e ,利用跨膜结构区段的数量,位置以及 侧翼信息,通过加权评分进行预测。网址为 b ! 垃;丛女! ! 3 坦i ! ! 型s q 鱼班墼丛丛壁曼q 鱼婴:h 坠l 。 引导序列和信号肽分析:可分析原核及真核细胞蛋白序列,预测蛋白质序列 中信号肽的剪切位点。网址为:卫;丛型翌垒:盘望! d 丝2 盟i 丝i g 墼趔! 。 21 3 蛋白质二级维构的预溅 二级结构指的是a 螺旋、b 折叠、b 转角和无规卷曲的蛋白质局部结构。早 在2 0 世纪7 0 年代只有几个蛋白质的晶体数据的情况下,人们就发现不同的氨基 酸残基对于形成不同的二级结构具有不同的倾向性。由此发展出来许多种二级结 构的预测方法。这些方法可以分为三类;统计经验算法,其基本原理是基于对蛋 白质2 0 种不同的氨基酸残基在不同的二级结构中出现的机率进行统计分析得出 在不同二级结构中出现的倾向性。利用这种倾向性,加上周围残基的信息,在一 定的规则指导下,就可以进行预测了。这类算法中,最有名的程序是g o r f 26 】; 物理化学方法,基于对蛋白质结构的物理化学原理的预测,如l i m 方法;机器 学习方法,致力于将前两种方法的优点结合的方法,常用的机器学习的方法有神 经网络算法和支持向量机算法。一般来说蛋白质序列的二级结构预测的准确率 约为6 0 一8 0 ,而多序列比较可显著的提高预测的效率,如p h d s e c 吲程序 ( h t t p :w w w e m b l h e i d e l b e 唱d e p r e d i c t p m t e i r 卸r e d i c t p r o t e i n h t m l ) 。 它现在 s w i s s p r o t 中搜索相似的序列,用m a x h o m l 27 j 算法构建多序列对比的模块, e m b o s s 的程序已经在附录中列 _ _ j 。 与e m b o s s 相比,g c g 软件包相对昂贵。但是g c g 软件包的强大功能,仍 然是研究人员所青睐的。也正因为g c g 软件包的专业和强大,g c g 所使用的格 式和标准甚至成为行业的标准。g c g 格式同f a s t a 格式,a s n 格式等一样已 经成为序列的标准格式。而事实上,购买g c g 不仅仅得到了一套软件,更得到 了g c g 专业人士的跟踪服务。这对于g c g 的有效利用是非常重要和便捷的。 上述两种软件包都是功能强大的软件包,并且同源。由于e m b o s s 的免费, 自由修改和不断完善,使之成为生命科学研究人员的新宠。 2 3l i n u x ,p e r l 川和m y s q l l 3 2 i 及其他 现成的服务,软件和软件包,为我们的研究工作提供了便捷。然而,并不是 所有遇到的问题都可以用现成的软件来解决。研究工作中,常常遇到特殊要求的 生物信息分析,这时就需要研究工作者建立自己工作相关的生物信息学平台,才 能解决问题。生物信息学平台的建立的核心工作主要涉及到系统平台,编程语言 和数据库三个方面。 2 3 1 系统平台的选择l 礅蜮 迄今为止,由于、m n d o w s 系统的用户界面良好,人机交互简便而被广泛应用。 然而,为了充分进行生物信息学的研究,需要学习u n i x 系统,上文中所涉及的 软件都有u n i x 的版本,只有少数软件开发了w i n d o w s 版本。对于功能强大的 服务器或工作站来说,u n i x 是一种经典的计算机操作系统。u n i x 系统有好几 个版本,b s d 和s l l i l o s 是其中两个最为流行的版本。但是u n i x 由于是为服务 器和工作站量身定做的,在多数情况并不适合个人用户,尤其是这些系统的高昂 费用并不是个人能够承受。现在,有了第三种选择,l i n u ) ( 系统。l i n u x 系统是 种开放源代码的u n i x 操作系统,它可以从互联网上免费下载获得,适合于 p c 机,为需要使用u n 系统的个人用户带来了方便而实际的解决方案。 由于l i n u x 系统是开源系统,其源代码可随意更改,并不断完善。随着商业 公司的加入,l i n u x 系统出现了越来越多的版本,其中以r e d h a t 和m a l l d r a k e 等 版本广。为人知。事实上,随着l i n u x 的不断发展,其文字处理,桌面系统以及其 他的些外幽设备系统已蜕比w i n d o w s 系统,而它对生物学软件的支持优势足 昂的价格和复杂的操作并不适合于生命科学研究人员的使用。甚至由于m y s q l 的高效和在生命科学领域的广泛应用,很多国际公关数据库的数据都按照 m y s q l 可识别的格式装载数据,供用户下载。 3 蛋白质分子模拟介绍 由于蛋白质的结构在很大程度上决定了蛋白质的功能,所以通过计算模拟蛋 白质分子的结构是蛋白质信息挖掘过程中的一个重要研究方向。目前,进行蛋白 质分子模拟主要有三种方法: 3 1 同源建模法 这一方法主要是指同源结构预测。根据同源结构中保守的部分搭建出未知蛋 白质的结构骨架,是目前最为成熟的预测方法。但要求序列与模板间的相似性达 到3 0 以上。s 、v i s s m o d e p j 可以提供自动化的同源建模分析任务服务。该服务 器网址位于h ! 亚丛坐必墨p 垦出世塑i 婴q d 垡丛艘丛鱼星:鼬! 。用户提交序列, 经过服务器比对,如果发现显著匹配,则进行对齐分析,并进一步进行结构预测。 最后,用户可通过此服务得到未知蛋白质的坐标信息。 3 2 穿线( t h n a d i n g ) 和折叠识别建模法 这是一种较新的算法。其独特之处是提供了一个全新的基于序列的预测方法, 而无需考虑和已知结构蛋白质同源性的算法。其原理是未知序列与数据库中的折 叠模板按照一定的优化的方式进行穿线。将未知序列穿到己知模板上,并进一步 计算其能量。当该序列和数据库中的所有模板进行匹配之后,程序就会输出显著 的匹配结果。这种建模方法并不是十分可靠,只有3 0 一5 0 的结构较为可靠。 最为著名的该类服务器是t o p i t s ,网址为 n ! ! p :盥婴b ! :b i i 亟丛b 曼唱:d 也盟鱼i g ! e 塑丝i 型p ! q i ! p ! q ! 也:h ! 皿! 。 昂的价格和复杂的操作并不适合于生命科学研究人员的使用。甚至由于m y s q l 的高效和在生命科学领域的广泛应用,很多国际公关数据库的数据都按照 m y s q l 可识别的格式装载数据,供用户下载。 3 蛋白质分子模拟介绍 由于蛋白质的结构在很大程度上决定了蛋白质的功能,所以通过计算模拟蛋 白质分子的结构是蛋白质信息挖掘过程中的一个重要研究彰掣j 耋拶;冀翳醐粪 彰蠹壁 o r t i n gl a l l g u ag e ) 。在生物信息的挖掘过程中,序列的操作是十 分重要的。生物学数据保存在大量数据库和文本中,手工排列和分析这些数据基 本上并不可行,因而需要编制软件工具进行自动化操作。p e r l 语言具有检测数据 模式的强大功能,尤其是字符串文本数据,因而是最明智的选择。到目前为止, 现行的p e r l 代码是适用于生物信息学的宝库。代码和u n i x 系统的完美结合, 以及跨平台的可移植性,使得p e r l 语言成为最方便的用于生物信息学的脚本语 苦。 p e “语言爱好者和生物信息工作者甚至为p er l 语言编制了专门的p e r l 语言生 物信息模块库b i o d e r i 。从互联网上下载这个库到本地,就可以享用各种实用 的生物信息模块,从而使得生物信息平台的创建过程十分简单而有效。 233 数据库的选择 0 s q l 随着网络数据库的发展,生命科学界内部共享信息变得越来越一体化,越来 越多的人希望构建自己的数据库,并允许他们的同事直接登录。建立自己的完全 开放的数据库包括建立数据模型、选择数据库管理系统( d b m s ) 、运行数据模 型、给数据库设计有好的用户前端等一系列步骤,因而实现起来有一定困难。 “n u x 系统集成的现成的免费数据库可供研究人员使用,这样大大减少了研究人 3 3 从头预测法 这种方法在原理上是最为理想的方法。只需要知道蛋白质的级序列,通过 其一级序列氨基酸性质和排列直接算出蛋白质的高级结构。事实上这种方法并不 容易达到,这需要具有强大的计算能力的服务器,而现在的服务器尚小能完成如 此巨大的任务。 综上所述,蛋白质数据挖掘的工作种类繁多而艰巨。然而,也正是这些生物 信息学的工作为实验室工作和蛋白质功能的研究提供了重要的帮助,开拓了新的 领域和新的研究思路。 第二章前言 新基因的起源有两种较为公认的观点。第一种观点主张:原始的基因从随机 序列中进化而来,这是以k i m u m 提出的中性理论为支持的。最近从随机序列 库中选择出具有功能的a t p 结合蛋白【3 6 1 使这种理论得到了实验结果的支持;另 一种观点主张:原始的基因起源于周期性重复的寡聚核苷酸片段,以0 l l l l o 的进 化理论为代表,3 1 。o l u l o 理论在蛋白质层次的描述就是功能蛋白质起源于寡聚 氨基酸为单元的重复片段。这种理论也得到实验结论的侧面支持。实验表明,由 重复寡肽组成的多肽序列较随机序列组成的多肽序列更容易形成二级结构阳。 蛋白质数据库统计显示,1 4 的蛋白质序列包含显著的内部重复片段【3 8 3 9 】。这些 内部重复片段在一条蛋白质序列中以子片段的形式重复出现。重复片段作为蛋白 质组成和结构的主要单元,对蛋白质功能的形成和进化具有重要的意义。多个物 种全基因组测序的完成使得在整体蛋白质组中研究重复片段的构成模式和进化 规律变得可能。 已往的研究仅对个别蛋白质的内部重复片段进行了分析h o ,4 ”。由于蛋白质内 部重复片段构成形式各异,在整体水平上分析它们的序列特征和出现频率比较困 难,从而无法全砥地阐明蛋白质组的进化规律。有些研究采取的方法是对某一类 内部重复序列进行研究,比如v e i t i a 对斑马鱼5 0 条编码基因的单氨基酸重复的 蛋白质内部重复序列进行了研究4 2 1 ,发现这些基因与非重复序列基因相比具有较 高的g c 含量;另一些研究从内部重复序列所属的功能蛋白的角度进行了统计分 析,比如m a r c o t t e 对熏复序列所聚集的h o m 0 1 0 9 0 u sf j m i l i e s 进行了统计研究【4 3 发现在真核与原核生物中共有的富含简单重复序列的基因家族。 本研究使用p e r l 语占编程,结合e m b o s s 的组件,构建了自己的生物信息 学平台,并设计了一种新的方法突破了上述难点。使用滑动窗口将内部重复片段 处理成四肽长度的片段,并通过对四肽片段在矩阵中定位的方法,对s w i s s - p r o t 【9 收录的三大种群( 包括e 舀七矽妒m ,勘c f e ,蛔,爿m d p a ) 蛋白质序列的内部重复 片段进行全局性的描述和比较分析。此外,本研究还对三大种群代表物种的理化 性质作了比较研究,并试图从生物进化的角度解释三大种群生物蛋白质内部重复 序列在分布上的不同。 3 3 蛋白质内部重复片段的取得 为方便取样,蛋白质内部重复序列被定义为在一条蛋白质序列中重复出现的 了片段和子片段相互交迭组成的片段。通过e m b o s s 中的w o r d m a t c h 5 i 】组件实 现蛋白质序列自身的局部联配,即可获得蛋白质内部重复片段。 3 3 1 偶然匹配概率 考虑到蛋白质序列中氨基酸使用的偏向性,偶然匹配子片段的出现几率很 高,可能影响到内部重复片段抽取的无偏性。较长的起始匹配长度可以减弱这种 影响,甚至使之忽略。本研究选择4 为起始匹配长度。在一个完全随机的序列中, 四肽片段偶然匹配的概率为: p 4 ,d _ p 。p t m = ( i 2 0 4 ) ( 1 2 0 4 ) = 3 9 1 0 一“。 所有的四肽重复片段或更长的重复片段都可以得到,其中相互交迭的片段组成新 的片段。 3 3 2 替代打分矩阵 常用的局部联配的方法常常伴随着替代打分矩阵的使用。常用的替代打分矩 阵分为b l o s u m 和p a m ,其作用是在没有完全匹配的情况下允许一定性质的不 完全匹配的氨基酸存在。由于本文没有采用替代打分矩阵h 6 】的方法,正是避免 远距离匹配的出现,这不会影晌下面进行的分析。 3 4 全局矩阵分析 3 4 1 四肽片段处理 用w o l d s i z e 为4 的滑动窗口对所获得的内部重复片段进行处理,将内部重复 片段分解为四肽长度的片段,并按照四肽的种类进行统计。 3 4 2 四肽矩阵的构建 本研究构建了一个包含所有可能的四肽片段的矩阵( 共计4 0 0 4 0 0 种所有 可能的四肽组合方式 ,如图4 所示。矩阵的y 轴和x 轴采用相同的氨基酸排列 的次序( 左侧为y 轴,右侧为x 轴) ,轴上的二肽排列次序依次是i i ,i v ,i l i k i r ,v i r k ,r r 。每个轴包含4 0 0 个单位( 即所有二肽的组合,共2 0 2 0 种) 。限于图的大小,只将二肽的第一个残基的起始位置标志于图上。矩阵中每 个点表示一种四肽模式,这个点的高度则表示这种模式的丰度。 3 4 3 举例说明 以一个假想的六肽片段“a c d e f g ”为例,经过滑动窗口的处理,这个片段 变成“a c d e ”,“c d e f ”和“d e f g ”三个片段;假设我们总共得到4 0 个“a c d e ” 的片段那么定位于矩阵y 轴的a c 位置,x 轴d e 的位置的点的高度为4 0 。 这种方法会弓l 入一些在序列中并非重复的片段( 此种片段源自于交迭片段的组 合) ,但使用此种方法仍然可以反映全部序列的片段使用状况。以下图( 图1 ) 为例,若此六肽是a c d e 和d e f g 合并而成,并没有c d e f 的参与,但是经过 滑动窗口的处理,会多出c d e f 的这样在序列中并不熏复的片段,当然这种情况 很少而且随机,对最后的统计结果并不影响。 f i g lt h es a m p i eo f t h es l i d i n gw i n d o w st r e a t 图l 一个滑动窗口处理内部重复序列的例子 3 5 氨基酸成分分析 3 肽样本 f m b o s s 软件包中的p e p s t a t s 彩序可咀用于单个蛋白质序列的氨幕 酸成分分析。本研究使用p e r l 语言编写了一个埘“p 印s t a t s ”进行扩充的脚本, 使“p e p s t a t s 程序可以用于多序列甚至序列数据库的分析。_ i _ j 改进的“p e p s t a t s ” 对8 个代表物种的蛋白质组序列及其内部重复片段序列的数据进行了分析,得到 它们的氨基酸的组成成分百分比( 表4 a ,表4 b ) 。 3 6 互联网资源 本研究中涉及的所有程序脚本都由p e r l 语言【4 8 】编程。其中涉及到自由软件包 e m b o s s 的n t h s e q 【4 9 】,e x t r a c t s e q 删,w b r d m a t c h l 5 l 】,p e p s t a t s 程序,这些程 序在附录2 中都有详细的注解。本研究所有的数据、图表和脚本都可以免费从互 联网上获得( h ! 垃;丛坠盟鱼出g q 堕! :q 哑d 4 垫) 。 3 7 流程图 砷:i蜀。蜀m的_矗。臣。一再目i廿_葺一曲ii_-。尊口】ii。,二_i。_k矗ii。誊eq口。蜗霉岛茸叫的口目村_u矗1_帕丑n_目 第四章结果 4 1 蛋白质组与内部重复片段的初步统计 表3 采用的蛋白质与其内部重复片段的状况 1 h b l e 3t h e s u r v e yo fa d o p t e dp t e i n sa n d i t e r n a ir e p e a t s e g m e n t s i 蚩自质内挪重复片段的总体数日 2 内酃重复”段模式的数日 3 蚩臼质内部重复片段的简称( i n 把m “呜弦a t i “g3 e g 嗍b ) 我们对本研究使用的蛋白质序列及相应的内部重复片段序列做了初步统计 ( 表3 ) 。所使用序列的分类、来源,基因组蛋白质的数目、平均长度、氨基酸 数目,获得的蛋白质内部重复片段的数目,重复片段模式的数目、氨基酸数目都 在表3 中列出。 针对内部重复片段在不同物种的蛋白质序列中所占的成分,我们计算了八种 模式生物中内部重复片段与基因组蛋白质的氨基酸数目的比值,并在图1 中表示 出来。这个比值在原核生物中比真核生物低,在四种原核生物中的平均值为4 3 ,在真核生物中为9 7 ;而在真核生物中,这个比值从低等生物到高等生物 也有逐渐递增的趋势,在s c e r e v 埘e 、c g f e g 勰s 、d m e f 鲫o g a j 旭r 、h s 印伦 s p 4 。2 蛋白质内部重复片段的总体分布( 矩阵分析) 所有的内部重复片段被处理成四肽片段,并置于矩阵中显示其丰度( 图4 ) 。 图中z 轴的单位是出现次数。在e u k a i y o t a ( 图4 a ) 、b a c t e r i a ( 图4 b ) 和a r c h a e a ( 图4 c ) 中,三大种群的蛋白质内部重复片段在分布上有明显的差别。 在真核生物中,内部重复片段有十分明显的分布趋势。几乎所有的含量丰富 的片段都集中分布于矩阵的对角线位嚣( 图4 a ) 。这些片段是简单重复片段,例 如“a a a a ”、“l a l a ”等,或是近似简单重复片段,例如“l l l a ”、“l f l h ” 等。含量最多的7 种片段被标记出来,如图4 a 所示。这些片段按照其丰度从高 到低排列分别是“q q q q ”( 8 2 3 2 ) ,“a a a a ”( 6 8 6 7 ) ,“s s s s ”( 6 7 7 4 ) ,“e e e e ” ( 5 9 8 9 ) , “g g g g ”( 5 3 8 7 ) ,“p p p p ”( 5 0 8 9 ) ,“l l l l ”( 4 4 0 8 ) 。含量最丰富 的非对角线位置的片段是“g p p g ”( 2 9 0 1 ) 。 重复片段对角线聚集分布的现象也存在于真细菌( 图4 b ) 中,但只有微弱痕 迹。与真核生物不同,真细菌的蛋白质内部重复片段的主要成分是富含l 、a 和 g 的片段,而不是对角线聚集分布的片段。在古细菌中( 图4 c ) ,含量最多的片 段模式是“e e e e ”( 2 2 1 ) 、“a a a a ”( 1 1 7 ) 和“g g g g ”( 6 6 ) ,但其内部重复 片段的分布并没有明显的对角线聚集趋势。 图4 a 真核生物蛋白质内部重复片段四肽矩阵分析 黑色标注是蛋白质内部重复序列中使用最多的7 种四肽模式 红色标注的是非对角线聚集的使用最多的四肽模式 f i g 4 at h et e t r a - p e p t i d em a t r i xo f i n t e r n a lr e p e a t i n gs e g m e n t i ne u k a r y o t i cp r o t e o m e s t h eb l a c kl a b e l e dp e a k sr e p r e s e n tt h et o ps e v e np a t t e r n so f t e t r a - p e p t i d ef o u n di ni n t e r n a lr e p e a t i n gs e g m e n t s t h er e dl a b e l e dp e a kr e p r e s e n tt h et o pn o n c a t e r c o r n e r - l o c u sp a t t e mf o u n di ni n t e r n a lr e p e a t i n gs e g m e n t s 图4 b 真细菌蛋白质内部重复片段四肽矩阵分析 黑色标注是蛋白质内部重复序列中使用最多的四肽模式 f i g 4 bt h et e t r a p e p t i d em a t r i xo f i n t e r n a lr e p e a t i n gs e g m e n ti nb a c t e r i a lp r o t e o m e s t h eb l a c kl a b e l e dp e a k sr e p r e s e n tt h et o pp a t t e mo f t e t r a - p e p t i d ef o u n di ni n t e r n a lr e p e a t i n gs e g m e n t s 图4 c 古细菌蛋白质内部重复片段四肽矩阵分析 黑色标注是蛋白质内部重复序列中使用最多的三种四肽模式 f i g 4 ct h et e t r a - p e p t i d em a t r i xo f i n t e r n a lr e p e a t i n gs e g m e n ti na r c h a e a lp r o t e o m e s t h eb l a c kl a b e l e dp e a k sr e p r e s e n tt i l et o pt h r e ep a t t e r n so f t e t r a - p e p t i d ef o u n di ni n t e m a lr e p e a t i n g s e g m e n t s 4 3 蛋白质组和蛋白质内部重复片段的氨基酸成分分析( p e p s t a t s 分析) 通过改进的“p e p s t a t s ”程序对8 种模式生物进行序列分析,分别得到了8 个物种蛋白质组和蛋白质内部重复片段的各种氨基酸成分百分比( 表4 a 表4 b ) 。 t h eb l a c kl a b e l e dp e a k sf e p r e s e n tl h et o pp a n e mo f t e t r a - p e p t i d ef o u n di ni n t e m a ir e p e a t i n gs e g m e n t s 图4 c 古细菌蛋白质内部重复片段四肽矩阵分析 黑色标注是蛋白质内部重复序列中誊芎荽簪誊季曩羲萋鬈0 力丝?t二曩叠一j。j一叠譬鬻曩毫拜薯i镪毫了照妻蒜蒜蒌羔雾i誊黼薹尊鼋麓;l;鳗-i譬g扑+p+s+t+u) ;a l i p h a t i c 表示脂肪类氨基酸,包括( 1 +

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论