




已阅读5页,还剩153页未读, 继续免费阅读
(生物物理学专业论文)原核与真核生物蛋白质编码区识别及基因组分析.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 随着人类基因组、模式生物基因组及微生物基因组计划的蓬勃发展,己 有近 二百种自 由生物体全基因组完成测序,国际三大核酸序列数据库中的 碱基数量呈 指数形式增长。基因组序列测定之后,找出其中的蛋白质编码基因是进行基因组 分析的第一步,在生物信息学研究中占有非常重要的地位。本论文主要致力于原 核生物与真核生物及冠状病毒蛋白质编码基因识别以及基因组分析方面的工作。 论文第一部分介绍了生物信息学的发展背景及主要研究内容、原核生物与 真 核生物基因的结构特点、主要的蛋白 质编码基因识别算法以及d n a序列的z曲 线理论及应用。 z曲 线理论是本文中 我们分析原核生物和真核生物基因组的主要 工具,因此对其做了较为详细的介绍。 论文的第二部分是原核生物及冠状病毒的基因识别和分析。首先我们提出了 一种方法从细菌、古细菌基因组中注释较好的已知基因出发训练参数,进而确定 注释不完善的o r f s 中可能不编码蛋白 质的o r f s ,在此基础上开发了一套细菌、 古细菌基因识别软件 z c u r v e c并提供网上服务;我们还发现基因组的g c含 量比进化上的亲缘关系对于细菌、古细菌的基因识别更为重要。其次,我们利用 z曲 线方法参数少的优点, 开发了 专门 适用于冠状病毒 ( 尤其是s a r s 冠状病毒) 的 基因 识 别 软件z c u r v e - c o v , 并 采用 位 置 权重矩阵 来预 测3 c - l i k e 和p a p a i n 一 工i k e 两种蛋白 酶的 剪切位点,开发出能预测冠状病毒多聚蛋白 酶切位点的新版本。 论文的第三部分是真核生物基因识别和基因组结构分析。首先,我们基于z 曲线的非窗口技术分析了拟南芥基因组的i s o c h o r e 结构,画出了 拟南芥五条染色 体的z 曲线图。详细分析了2 号染色体上找到的两个i s o c h o r e ,其中一个位于核 仁组织区,另外一个是线粒体 d n a插入片断,我们可以精确的确定它的大小和 在染色体中的位置。 其次, 我们开发了基于z曲线方法的真核生物从头预测基囚 识别软件z c u r v e e 。 该软件侧重于提取蛋白质编码序列在三个密码子位的全局统 计学特征, 具有参数少和通用性较强的优点。 将z c u r v e e 和当今识别效果较好的 g e n s c a n 联合使用,可以部分降低g e n s c a n 的伪正率,得到更好的识别效果。 关键词:z曲 线, 细菌 和古 细 菌 基因 组 , 基因 识 别, s a r s 冠 状 病 毒 基因 组 i s o c h o r e ,真核生物基因组 a b s t r a c t t h e f a s t i n c r e as i n g p a c e o f h u m a n a n d o t h e r m o d e l o r g a n i s m g e n o m e - s e q u e n c i n g p r o j e c t s h a v e p r o v i d e d u s a l a r g e q u a n t i t y o f g e n o m e d a t a , w h i c h l e a d s t o a g r e a t n e e d f o r a u t o ma t i c g e n o m e a n n o t a t i o n . o n e o f t h e i m p o r t a n t t as k s o f a n n o t a t i o n i s t o r e c o g n i z e p r o t e i n - c o d i n g g e n e s i n p r o k a ry o t i c a n d e u k a r y o t i c g e n o m e s . t h i s p a p e r d e s c r i b e s s o m e n e w a p p r o a c h e s f o r r e c o g n i z i n g p r o t e i n - c o d i n g g e n e s i n b a c t e r i a l a n d a r c h a e a l , c o r o n a v i r u s a n d e u k a ry o t i c g e n o m e s b y u s i n g t h e z c u r v e m e t h o d . t h e fi r s t p a rt o f t h e p a p e r i n t r o d u c e s t h e d e v e l o p m e n t o f b i o i n f o r m a t i c s a n d t h e p r o g r e s s o f c o m p u t a t i o n a l g e n e - fi n d in g a l g o r i t h m s . t h e z c u r v e t h e o ry , w h i c h i s t h e b as i c t o o l i n a n a l y z i n g p r o k a ry o t i c a n d e u k a ryo t i c g e n o m i c s e q u e n c e s in t h i s p a p e r , i s a l s o p r e s e n t e d i n t h i s s e c t io n t h e s e c o n d p a r t p ro p o s e s s o m e a lg o r i t h m s i n t h e r e c o g n i t i o n o f p r o t e in - c o d i n g g e n e s i n p r o k a r y o t i c g e n o m e s . s i n c e f a l s e p o s i t i v e p r e d i c t i o n a l w a y s e x i s t s i n t h e a n n o t a t i o n o f m i c r o b i a l g e n o m e s , i t i s e s s e n t i a l t o c o n f i r m w h i c h o r f i s c o d i n g a n d w h i c h i s n o t . s t a r ti n g fr o m t h e k n o w n g e n e s i n t h e a n n o t a t i o n fi l e , w e d e s c r i b e a me t h o d b ase d o n z c u r v e t h e o ry t o r e c o g n i z e p r o t e i n - c o d i n g g e n e s i n q u e s t i o n a b l e o r f s . t h e a v e r a g e r e c o 加t i o n a c c u r a c y o f 5 7 b a c t e r i a l a n d a r c h a e a l g e n o m e s i s g r e a t e r t h a n 9 9 % . a c o m p u t e r p r o g r a m , z c u r v e ee c , h a s b e e n d e v e l o p e d a n d w e b s i t e s e r v i c e i s p r o v i d e d . we a l s o f in d t h a t t h e g e n o m i c g c c o n t e n t o f b a c t e r i a l a n d a r c h a e a l g e n o m e s i s m o r e i m p o r t a n t t h a n p h y lo g e n e t i c l i n e a g e i n g e n e r e c o g n i t i o n . f i n a l l y , a n e w p r o g r a m t o r e c o g n i z e g e n e s i n c o r o n a v i r u s g e n o m e s , e s p e c i a l l y s u i t a b l e f o r s a r s - c o v g e n o m e s , h as b e e n p r o p o s e d . t h e i m p r o v e d s y s t e m , z c u r v e c o v 2 .0 , c a n p r e d i c t t h e c l e a v a g e s i t e s o f v ir a l p r o t e i n as e s i n c o r o n a v i r u s p o l y p r o t e i n s . t h e t h i r d p a r t a n a l y z e s t h e g e n o m e s t r u c t u r e o f a r a b i d o p s i s t h a l i a n a a n d d e v e l o p s a n a b i n i t i o e u k a r y o t i c g e n e r e c o g n i t i o n p r o g r a m . u s i n g a w i n d o w l e s s t e c h n i q u e b a s e d o n t h e z c u r v e m e t h o d , t h e i s o c h o r e s t r u c t u r e o f a r a b i d o p s is t h a l i a n a g e n o m e h as b e e n e x p l o r e d . t h e p o s it i o n a n d s i z e o f a m i t o c h o n d r i a l d n a i n s e rt i o n i s o c h o r e h a s b e e n p r e c i s e l y p r e d i c t e d . i t s a m i n o a c i d u s a g e a n d c o d o n p r e f e r e n c e s h o w d i f f e r e n t p r o p e rt i e s w i t h g e n e s i n o t h e r r e g i o n s . f u rt h e r m o r e , a n e w a b i n i t i o u g e n e - f i n d i n g s o ft w a r e f o r e u k a ry o t i c o r g a n i s m s , z c u r v e e , h a s b e e n p r o p o s e d i n t h i s s e c t i o n . t h e n e w a l g o r i t h m a d d r e s s e s g l o b a l s t a t i s t i c a l f e a t u r e s o f p r o t e in - c o d i n g s e q u e n c e s b y t a k i n g t h e fr e q u e n c i e s o f b a s e s a t t h r e e c o d o n p o s i t i o n s i n t o a c c o u n t . c o n s e q u e n t ly , i t g i v e s b e t t e r c o n s i d e r a t i o n t o b o t h t y p i c a l a n d a t y p i c a l c a s e s c o m p a r e d w i t h o t h e r g e n e - f i n d i n g s o ft w a r e , t h e p r e s e n t p r o g r a m h a s t h e m e ri t s o f s i m p l i c i t y , u n i v e r s a l i t y a n d r e l i a b i l i ty . j o in t a p p l i c a t i o n s o f z c u r v e e w i t h g e n s c a n , w h i c h i s p r o b a b l y t h e b e s t s o f t w a r e c u r r e n t l y a v a il a b l e f o r g e n e r e c o g n i t i o n i n e u k a r y o t i c g e n o m e s , m a y l e a d t o b e tt e r r e s u l t s o v e r a n y in d i v i d u a l p r o g r a m . k e y w o r d s : z c u r v e , b a c t e r i a l a n d a r c h a e a l g e n o m e s , g e n e r e c o g n i t io n , s a r s - c o v , g e n o m e s , i s o c h o r e , e u k a r y o t i c g e n o m e s i i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人己经发 表 或 撰 写 过 的 研 究 成 果 , 也 不 包 含 为 获 得k : 大 上 或 其 他 教 育 机 构 的 学 位 或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在 论文中作了明确的说明并表示了谢意。 学位论文作者签名: l x f in t 签字日 期:2 0 0 4年 5月 2 4日 陈玲玲 学位论文版权使用授权书 本 学 位 论 文 作 者 完 全 了 解户孟生史 有 关 保 留 、 使 用 学 位 论 文 的 规 定 特 授 权 k 生夕乞可 以 将 学 位 论 文 的 全 部 或 部 分 内 容 编 入 有 关 数 据 库 进 行 检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学 校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: x v , 导师签名 陈玲玲张春霆 签字日期:2 0 0 4年 5月 2 4日签字日期: 2 0 0 4年 5月 2 4日 第一章绪 论 第一章绪 论 i n t r o d u c t i o n 1 8 5 9 年达尔文进化论的发表和 1 8 6 5 年孟德尔遗传定律的发现,是十九世纪 生命科学发展的里 程碑, 1 9 5 3 年d n a双螺旋结构模型的 提出和1 9 7 2 年d n a重 组技术的诞生,则开辟了二十世纪分子生物学和现代生物技术的新纪元。 被誉为 “ 生命科学阿波罗计划”的人类基因组计划于1 9 9 0 年开始实施, 这一耗资3 0 亿 美元的工程旨在测定人类基因组 3 0亿对碱基序列,发现人类所有的基因,确定 它们在染色体上的 位置及功能, 破译全部遗传信息,使人类第一次在分子水平上 全面地认识自 我。 2 0 0 0 年6 月2 6日 ,各国科学家公布了 人类基因组工作草图, 2 0 0 3 年国际人类基因组测序协作组宣布人类基因组序列图绘制成功。 当今分子生 命科学研究的重点是基于大规模基因组和蛋白 质组的分析,而不再是单个基因和 蛋白质水平的研究。 1 . 1 原核生物及真核生物基因组 众所周知每个生物的基因组携带着它的所有遗传信息, 除少数病毒具有r n a 基因组外, 绝大部分基因组由d n a组成,因此d n a是主要的遗传物质携带者。 随着人类基因组计划的实施, 其它模式生物基因组计划也开展的如火如茶。1 9 9 5 年, 第一 个 细 菌 基 因 组 流 感 嗜血 杆 菌 (h a e m o p h il u s in f u e n z a e r d ) 序 列 公 布 1 11 , 该 基因 组全 长1 , 8 3 0 , 1 3 8 b y , 含1 7 0 9 个 可能 基因。 此后, 从 细菌到 高等 真 核生 物 的一系列生物全基因组序列被测定。根据 g o l d数据库 ( g e n o m e s o n l i n e d a t a b a s e ) 伪 仰:/ w i t .in t e g r a t e d g e n o m ic s .c o m / g o l d 勺 2 的 统 计, 截 止 到2 0 0 4 年3 月 底已 完成了1 8 3 种自 由 生 物体全基因 组 ( 包 括4 条 染色 体 ) 测序 工作, 其中 包 括 1 8 种古 细菌, 1 4 1 种 细 菌和2 4 种真核生 物, 包括线虫 3 1 、 果蝇 4 1 、 拟南 芥 5 1 、 水 稻6 1和人7 1 等。 此外, 还 有4 8 8 种原 核生 物和4 1 6 种 真核生 物正 在测序。 原核生物基因结构比较简单, 其蛋白 质编码区是从起始密码子 ( a t qg t g c t g , g t g )开始到终止密码子 ( t a a , t a c k t g a )结束, 长度为三的 整数 倍的 一 段连续的d n ) 、 片 段, 符合o r f ( o p e n r e a d i n g f r a m e )的结构。 原核生 物基因 组 第一章绪论 第一章绪论 i n t r o d u c t i o n 1 8 5 9 年达尔文进化论的发表和1 8 6 5 年孟德尔遗传定律的发现,是十九世纪 生命科学发展的里程碑,1 9 5 3 年d n a 双螺旋结构模型的提出和1 9 7 2 年d n a 重 组技术的诞生,则开辟了二十世纪分子生物学和现代生物技术的新纪元。被誉为 “生命科学阿波罗计划”的人类基因组计划于1 9 9 0 年开始实施,这一耗资3 0 亿 美元的工程旨在测定人类基因组3 0 亿对碱基序列,发现人类所有的基因,确定 它们在染色体上的位置及功能,破译全部遗传信息,使人类第一次在分子水平上 全面地认识自我。2 0 0 0 年6 月2 6 日,各国科学家公布了人类基因组工作草图, 2 0 0 3 年国际人类基因组测序协作组宣布人类基因组序列图绘制成功。当今分子生 命科学研究的重点是基于大规模基因组和蛋白质组的分析,而不再是单个基因和 蛋白质水平的研究。 1 1 原核生物及真核生物基因组 众所周知每个生物的基因组携带着它的所有遗传信息,除少数病毒具有r n a 基因组外,绝大部分基因组由d n a 组成,因此d n a 是主要的遗传物质携带者。 随着人类基因组计划的实施,其它模式生物基因组计划也开展的如火如荼。1 9 9 5 年,第一个细菌基因组流感嗜血杆菌( h a e m o p h i l u si n f l u e n z a er d ) 序列公布 1 】, 该基因组全长1 ,8 3 0 ,1 3 8b p ,含1 7 0 9 个可能基因。此后,从细菌到高等真核生物 的一系列生物全基因组序列被测定。根据g o l d 数据库( g e n o m e so n l i n e d a t a b a s e ) ( h t t p :w i t i n t e g r a t e d g e n o m i c s c o r n g o l d ) | 2 的统计,截止到2 0 0 4 年3 月 底已完成了1 8 3 种自由生物体全基因组( 包括4 条染色体) 测序工作,其中包括 1 8 种古细菌,1 4 1 种细菌和2 4 种真核生物,包括线虫口1 、果蝇 4 、拟南芥”、水 稻 6 】和人【7 等。此外,还有4 8 8 种原核生物和4 1 6 种真核生物正在测序。 原核生物基因结构比较简单,其蛋白质编码区是从起始密码子( a t gg t g c t g , g t g ) 开始到终止密码子( t a a ,t a gt g a ) 结束,长度为三的整数倍的一 段连续的d n a 片段,符台o r f ( o p e nr e a d i n gf r a m e ) 的结构。原核生物基因组 第一章绪论 主要有以下特点:( 1 ) 基因组较小,大部分由单一的d n a 分子组成。其基因组结 构紧密,基因间隔很少,编码区在基因组中所占的比例很高( 8 0 9 0 ) ,基因常 以操纵子形式组织。( 2 ) 除少数几个物种外( 主要是古细菌婵1 ) ,原核生物的基因 是连续的,基因组中几乎没有断裂基因。( 3 ) 原核生物基因组中几乎不存在类似 于真核生物基因组中的高拷贝的、全基因组范围分布的重复序列( r e p e a t s e q u e n c e s ) 。但存在一些可以在基因组中移动,并可在生物体问转移的转座元件 ( t r a n s p o s a b l ee l e m e n t s ) ,如插入序列( i n s e r t i o ns e q u e n c e s ) 等。 与原核生物相比,真核生物的基因结构要复杂得多,基因的编码序列中插入 了长度不等的非编码片段,其中的编码序列称为外显子( e x o n ) ,非编码序列称为 内含子( i n t r o n ) 。在基因中外显子和内含子交替排列,每个基因的外显子和内含 子的数目及长度不同,也存在不含内含子的基因,称为单外显子基因。据报道, 目前发现的最大的基因是d y s t r o p h i n 基因,它有7 9 个外显子,长度为2 3m b , 其中9 9 是内含子,最长的内含子长度大于1 0 0k b 【9 1 。除了上述真核生物基因结 构的复杂性,选择性剪接( a l t e r n a t i v es p l i c e i n g ) 在真核基因中广泛存在,而且基 因组序列中存在着大量的假基因和沉默基因。真核生物基因组主要有以下特点: ( 1 ) 基因组d n a 与蛋白质结合形成染色体,储存于细胞核内,除配子细胞外,体 细胞内的基因组是双倍体。( 2 ) 真核细胞基因转录产物为单顺反子。一个结构基 因经过转录和翻译生成一个m r n a 分子和一条多肽链。( 3 ) 存在重复序列,重复 次数可达百万次以上。( 4 ) 基因组中不编码的区域远多于编码区域。如人类基因 组含有约3 0 亿碱基对,其中的3 5 编码了约3 万个基因,其余9 5 9 7 为非 编码区。f 5 ) 绝大多数基因含有内含子,因此基因是不连续的。( 6 ) 基因组大小远 远大于原核生物的基因组,具有许多复制起点,而每个复制子的长度较小。 图1 1 画出了真核生物基因结构的示意图。每个外显子和内含子接头区都有 一段高度保守的一致序列( c o n s e n s u ss e q u e n c e ) ,即内含子5 末端大多数是g t 开 始,3 末端大多是a g 结束,称为g t - a g 法则,是普遍存在于真核基因中r n a 剪接的识别信号【1 0 】。每个结构基因在第一个和最后一个外显子的外侧,都有一段 不被转录的非编码区。称为侧翼序列,包括启动子、增强子、终止子等。侧翼序 列含有基因调控序列,对基因的有效表达起重要的调控作用。 第一章绪论 图1 - 1 真核基因结构示意图 1 2 生物信息学及其主要研究内容 随着人类基因组及模式生物基因组大规模测序的顺利实施,国际三大核酸数 据库g e n b a n k ,e m b l 和d d b j 中的序列和碱基数量呈指数形式增长。同时国际 上著名的蛋白质数据库( 如p i r 、s w i s s p r o t 、p d b 等) 中的蛋白质数目也迅 速增长。大量的数据,如d n a 序列、蛋自质的一级结构、三级结构、基于c d n a 测序所建立起来的e s t 数据库等构成了一个生物学数据的海洋。这些数据是2 】 世纪人类文明的宝库、是获取信息和知识的源泉,但数据并不等于信息和知识, 它还需要一个开发挖掘过程。面对巨大而复杂的数据,运用计算机管理数据、控 制误差、加速分析过程势在必行。如何开发和利用生物信息数据,已经成了当前 个前沿领域和研究热点,一门新兴的边缘学科,“生物信息学”应运而生。 生物信息学是以核酸、蛋白质等生物大分子数据库及其相关的图书、文献、 资料为主要研究对象,以数学、信息学、计算机科学为主要手段,以计算机硬件、 软件和计算机网络为主要工具,对浩如烟海的原始数据和资料进行存储、管理、 第一章鳍论 注释、加工,使之成为具有明确生物学意义的生物信息。并通过对生物信息的查 询、搜索、比较、分析,从中获取基因的编码、调控、遗传、突变等知识,研究 核酸和蛋白质等生物大分子的结构、功能及其相互关系,研究它们在生物体内的 物质代谢、能量转移、信号传导等生命活动中的作用机制。在大量理性知识的基 础上,探索生命起源、生物进化的基本规律,探索细胞、器官和个体的生长、发 育、衰亡等生命科学中重大问题。它的发展对人类的健康、疾病的防止和治疗、 物种的改良、新型药物的设计、基因工程以及代谢工程等发面都有重要的意义。 在研究分子生命科学的许多关键问题中,生物信息学占有相当重要的地位】。以 下仅简单列出当今生物信息学领域的几个主要研究方向: ( 1 ) 生物信息数据的收集、存储与管理。生物学数据库是一切生物信息学工作的 出发点。归纳起来,生物学数据库可分为四大类,包括序列数据库( 如核苷酸序 列数据库6 衙l b 粕k 伽l ,d d b j ,蛋白质序列数据库s w i s s p r o t 和p m ) 、生物大 分子结构数据库( 如蛋白质结构数据库p d b ,蛋白质分类数据库s c o p 和 c a t h ) 、基因组数据库( 如人类基因组数据库g d b ,线虫基因组数据库a c e d b ) 及基于上述三类数据库和文献资料为基础构建的二次数据库( 如蛋白质功能位点 数据库p r o s i t e ,同源蛋白家族数据库p f a m ) 。根据生命科学不同研究领域的实际 需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、 整理、归纳、注释,构建具有特殊生物学意义和专门用途的二次数据库,是生物 数据库开发的有效途径。 ( 2 ) 序列比对( s e q u e n c ea l i g n m e n t ) 。其基本问题是比较两个或多个符号序列的相 似性或差异性,它是生物信息学的基础。两个序列的比对有较成熟的动态规划【l 2 】 算法,以及在此基础上编写的比对软件包b a l s t h 1 和f a s t a t ”j ,可以免费下载 使用。这些软件在数据库查询和搜索中有重要的应用。有时两个序列总体并不很 相似,但某些局部片断相似性很高。s m i t h w a t e r m a n 算法f l5 】是解决局部比对的好 算法,缺点是速度较慢。多序列比对的常用程序有c l u s t a l w 埔】等。 f 3 ) 基因组序列信息的提取和分析。包括基因的发现与鉴定,如利用国际e s t 数 据库f d b e s t ) 和其它实验测定的数据,经过大规模并行计算发现新基因和新 s n p s 以及各种功能位点;基因组中非编码区的信息结构分析,提出理论模型, 阐明该区域的重要生物学功能;进行模式生物完整基因组的信息结构分析和比较 研究;利用生物信息研究遗传密码起源、基因组结构的演化、基因组空间结构与 d n a 折叠的关系以及基因组信息与生物进化关系等生物学的重大问题。 4 第一章绪论 “) 功能基因组相关信息分析。包括与基因组信息相关的核酸、蛋白质空间结构 的预测和模拟;基因表达调控网络的研究以及蛋白质功能预测的研究。 f 5 、生物大分子结构模拟和药物设计。包括r n a 的结构模拟和反义r n a 的分子 设计;蛋白质空间结构模拟和分子设计;具有不同功能域的复合蛋白质以及连接 肽的设计;生物活性分子的电子结构计算和设计;纳米生物材料的模拟与设计; 基于酶和功能蛋白质结构、细胞表面受体结构的药物设计;基于d n a 结构的药 物设计等。 ( 6 ) 分子进化和比较基因组学。分子进化是对不同生物的同源分子,即结构和功 能相似的蛋白质或编码该蛋白质的基因进行比较。早期的工作主要是利用不同物 种中同一种基因序列的异同来研究生物的进化,构建进化树。从比较的角度看, 这与在宏观上比较不同生物的同源器官类似,所不同的是,宏观比较时尺度单位 比较粗放,分子水平上的比较则尺度单位比较精细。分子水平上是以氨基酸或核 萤酸为单位进行比较的,比较同源分子的组成和顺序,并从中揭示生物进化的历 程。既可以用d n a 序列也可以用氨基酸序列来做,甚至可通过相关蛋白质的结 构比对来研究分子进化。以上研究己经积累了大量的工作。近年来由于越来越多 物种的全基因组序列被测定,为研究全基因组水平上物种间的比较创造了条件。 分子进化和比较基因组学的研究对揭示生命起源和进化奥秘有极其重要的意义。 1 3 原核及真核生物基因识别算法 基因组序列测定之后,首要任务之一就是从所测序列中找出所有的蛋白质编 码基因7 ,”】,仅仅依靠实验方法来找出全部的基因是相当困难的,因此发展有效 的计算机算法来识别定位基因是一个重要手段。计算机辅助基因识别 ( c o m p u t e r - a i d e dg e n er e c o g n i t i o n ) 的基本问题是给定基因组序列后,正确预测出基 因在整个基因组序列中的精确位置。基因识别工作开始于上世纪八十年代初期, 早期的工作主要是蛋白质编码区的识别 1 ,后来的主要研究方向转移到识别完整 基因上来【2 0 ,2 “。经过二十多年的努力,科学家提出了几十种算法来预测蛋白质编 码基因( 主要的原核和真核生物基因识别算法见附录i ) ,有十余种重要的算法和 相应软件提供网上免费服务 9 】。 基因识别算法按照识别对象的不同,主要分为原核生物和真核生物基因识别 两大类。按照识别方法的不同,可以分为基于序列同源性f h o m o l o g y - b a s e d 第一章绪 论 ( 4 ) 功能 基因组相关信息分析。 包括与 基因组信息相关的核酸、 蛋白 质空间结构 的预测和模拟;基因表达调控网络的研究以及蛋白质功能预测的研究。 ( 5 ) 生物大分子结构模拟和药物设计。 包括r n a的 结构模拟和反义r n a的 分子 设计;蛋白 质空间结构模拟和分子设计;具有不同功能域的复合蛋白 质以 及连接 肤的设计;生物活性分子的电子结构计算和设计;纳米生物材料的模拟与设计; 基于酶和功能蛋白质结构、细胞表面受体结构的药物设计;基于d n a结构的药 物设计等。 ( 6 ) 分子进化和比 较基因 组学。 分子进化是对不同 生物的同 源分子,即结 构和功 能相似的蛋白 质或编码该蛋白 质的基因进行比 较。 早期的工作主要是利用不同物 种中同一种基因序列的异同来研究生物的进化,构建进化树。从比较的角度看, 这与在宏观上比较不同生物的同源器官类似,所不同的是,宏观比较时尺度单位 比 较粗放,分子水平上的比 较则尺度单位比较精细。分子水平上是以氨基酸或核 昔酸为单位进行比 较的,比 较同源分子的组成和顺序,并从中揭示生物进化的历 程。既可以用 d n a序列也可以 用氨基酸序列来做,甚至可通过相关蛋白 质的结 构比对来研究分子进化。以上研究已经积累了大量的工作。近年来由于越来越多 物种的全基因组序列被测定,为研究全基因组水平上物种间的比较创造了 条件。 分子进化和比较基因组学的研究对揭示生命起源和进化奥秘有极其重要的意义。 1 . 3 原核及真核生物基因识别算法 基因组序列测定之后,首要任务之一就是从所测序列中找出所有的蛋白 质编 码基因 ” 7 ,1 8 1 , 仅 仅 依 靠实 验方法 来找出 全部 的 基因 是相当困 难的,因 此发 展有效 的计算机算法来识别定位基因是一个重要手段。计算机辅助基因识别 ( c o m p u t e r - a i d e d g e n e r e c o g n i t i o n ) 的 基本问 题是给定基因 组序列后, 正确预 测出 基 因在整个基因组序列中的精确位置。基因识别工作开始于上世纪八十年代初期, 早期的工作主要是蛋白 质编码区的识别 l 9 , 后来的主要研究方向 转移到 识 别完整 基因 上来2 0 ,2 1 1 。 经过二十多年的努力, 科学家提出了 几十种算法来预测蛋白 质编 码基因 ( 主要的原 核和真核生物基因 识别算 法见附录i ) , 有十余种重要的 算法和 相应软件提供网 上免费 服务9 基因识别算法按照识别对象的不同, 主要分为原核生物和真核生物基因识别 两大类。按照识别方法的不同,可以分为基于序列同源性 h o m o l o g y - b a s e d 第一章绪 论 m e t h o d s ) 和 基于 序列组 成 统计学 特征( s t a t i s t i c s - b as e d m e t h o d s ) 两 大类9 1 。 基于 序 列同源性的基因识别主要使用序列比对工具b l a s t或f a s t a来搜索数据库中的 己知序列。 例如原核基因 识别软件o r p h e u s 2 2 主要是基于序列同 源性, 再考虑 密码子 使用。 基于序列统计特征的 基因 识别算法, 又称为从头预测 ( a b i n i t io ) 方 法,主要利用蛋白质编码区组成特性和一些功能位点的保守信号。早期的从头预 测基因识别 算法主要是编码区的识别。 从上个世纪八十年代起, s h e p h e r d 2 3 1, f i c k e t t , s t a d 二和m c l a c h l a n 2 4 1等人陆续发 现d n 序列的编码区和非编 码区 存 在显著的统计学差异,此后统计学方法广泛应用于基因编码区的识别。这些方法 包括 密 码子 使 用 19 ,2 4 -2 6 、 编 码 区的 三周 期 性 和功 率 谱2 7 ,2 8 1 、 傅立 叶 变 换2 9 -3 1 、 六 核普酸频率3 2 1氨基酸使用 1 9 1等。九十年代以 后的软件主要是识别完整的基因, 包 括基 因 上 游 和 下 游区 域 的 调 控 序 列。 f i c k e tt 和t u n g 1 7 1在1 9 9 2 年 列出 了 当 时 关 于基因识别的二十种算法, 并认为 核昔酸六聚体的使用 ( h e x a m e r u s a g e ) 是描述 编码区的最好方法。 高阶马尔可夫模型 ( h i g h e r - o r d e r m a r k o v c h a i n m o d e l ) 或隐马尔可夫模型 ( h i d d e n m a r k o v c h a i n m o d e l ) 是当 前许多基因识别算法的 基础。 马尔科夫模型是在 ma r k o v 假设基础上, 用来描述离散随机过程的模型。 模型的参数是初始状态概率 ( 用向 量表示) 和状态转移概率 ( 用矩阵 表示 ) , 其数目 由 状态个数和模型阶数共同 决定。 对于d n a序列来说,一阶马尔科夫链有4 个初始概率和1 6 个状态转移概 率。一般地, 描述核昔酸k 聚体的 ( k - 1 ) 阶马尔科夫模型的 状态初始概率 和转移 矩阵, 总 共需要 确定4 k + 1 - 1 个 独 立参 数。 许多 基因 识别 算法使 用五阶马 尔 科 夫链, 主要刻画d n a序列中核昔酸六聚体的统计特征。以上参数的计算公式,是针对 齐次马尔科夫模型 ( h o m o g e n e o u s m a r k o v m o d e l)的,若模型为非齐次 ( n o n - h o m o g e n e o u s ) , 即转移矩阵与位置有关, 则参数的 数目 还会增加。 一 般说来, 参数 越多, 需 要的 训 练集就 越大。 隐 马尔 科 夫 模型 ( h i d d e n m a r k o v m o d e l , h m m ) , 是在马尔科夫模型的基础上,增加了输出概率,即在某一特定状态下,以一定的 概率输出一个值。输出值也称为观察值,相对地,把产生观察值的状态, 称作隐 含 状 态( h i d d e n s t a t e ) 。 在d n a 序 列 分 析中 , 观 察 值的 集 合 也 是 离 散的 。 隐 含 状 态到输出值概率用输出概率矩阵来表示。 若隐含状态数为n , 观察值的数目 为m , 则输出概率矩阵的大小为n x ma隐马尔科夫模型有三个基本问题,即评估问题、 解 码问 题 和 学习问 题, 分别 用向 前 算 法 3 3 1 、 韦 特比( v it e r b i) 算法 3 4 3 5 和向 前向 后算法1 3 6 1 来解决。 在原核生物基因识别中, 选取的状态主要有正链编码、 正链非 第一章绪 论 编码、反链编码、反链非编码等, 观察值为四种核昔酸a , c , g , t o在真核生 物基因识别中,由于真核基因 结构复杂, 需要的状态值较多, 如 在 g e n s c a n 1 3 7 中 用到了2 7 种状态值,其观察值也是a , c , g , t四种核昔酸。 对于 细 菌 和古 细菌 基因 组, 常 用的 头预 测 基因 识 别 程 序 有 g e n e m a r k s 3 8 -4 0 1, g li m m e r 4 1 ,4 2 和 g e n e h a c k e r p l u s 4 3 1 。 其中 使用最为广泛的 程序是 g l i m m e r 。 近 期我们实验室基于z曲 线理论开发的软件z c u r v e 1 .0 14 4 在各个评价指标上都和 g l i m m e r 具有可比性,尤其在识别高g c含量的细菌、古细菌基因组中,前者占 有明显优势。 真核生物基因识别的复杂程度比原核生物的要大的多。其主要任务是准确识 别出 基因外显子的个数及在序列中所处的位置, 对于含有较多内 含子的真核生物 基因, 要想正确识别出起始密码子、 5 和3 剪接位点、终止密码子和完整的基 因结构,是相当困难的。真核基因识别软件有多种,分类方法也有多种。根据所 使用的 预测模型不同,主要可以 分为:以隐马尔可夫模型 ( h i d d e n m a r k o m o d e l , h m m ) 为 基 础 的 软 件 , 如 g e n e m a r k .h m m 4 5 1 , g e n s c a n (17 1 , g e n ie 14 6 ,4 7 1 , h m m g e n e 4 11 v e i 114 9 1及a u g u s t u s ls 0 7等; 以 神 经网 络 ( n e u r a l n e tw o r k s ) 为 基 础的 软 件, 包 括 g r a i l 等 ; 以 决 策 树( d e c is io n tr e e ) 为 基 础 的 软 件, 如m o r g a n 1 1 ; 以 曲 线 判 别 分 析( q u a d r a t ic d i s c r im in a n t a n a ly s i s ) 为 基 础的 软 件, 如m z e f 1 1等; 基于 规 则的 软 件, 如g e n e i d 15 4 1 ; 整合多种统计预测方法的软件, 如f g e n e s h 1 1 等。 大部分基 因 预 测 软 件 均 使用 了 动 态 规 划 算 法( d y n a m i c p r o g r a m m i n g ) l1 2 1进 行 组 装。 目 前 普 遍 认为g e n s c a n 是最好的基因从头预测软件之一,并被广泛应用于基因组的 注释。 基于同源性和序列组成统计学特征的两大类基因识别方法都存在一些尚未 解决的问 题19 1 。 前者的 主 要问 题是 基因 识别 率低, 对 于一个 新测 序的 细菌 基因 组, 大约只有6 0 一 7 0 %的基因在现有的数据库中存在同源序列, 还有约3 0 一 4 0 %是找 不到同源性的新基因。对于新测序的真核生物基因组,能够找到的同源序列就更 少。 基于序列组成统计学特征的从头预测算法对原核生物基因识别率可达9 8 %以 上, 但仍然存在以 下几个难点: ( 1 ) 原核生物基因间序列很少, 基因容易 发生 重 叠 ( 如重叠1 b y 或4 b p ) , 基因5 端的 翻译起始位点很难准确预测; ( 2 ) 短基因( 如 长 度小 于 1 5 0 b p ) 的 组 成 统 计学 特征不明 显
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版文旅产业商业合作总协议
- 2025年文化旅游产业财务策划服务协议
- 诺如病毒培训知识小结课件
- 纪念白求恩课件
- 语音课件教学课件
- 语音干货知识培训课件
- 2025购销合同争议管辖权异议申请书范文
- 语言文字知识培训课件
- 2025年财务、审计岗位劳动合同模板(或范文)
- 2025智能监控系统维护保养合同
- 我这样做老师
- 2021年SYB创业培训考试试卷及答案
- 第一单元项目一探秘鸟类研究-认识数据、信息与知识课件沪科版(2019)高中信息技术必修1
- 垃圾焚烧发电项目电气安装与调试施工方案
- 设施蔬菜生产机械化技术
- LY/T 1821-2009林业地图图式
- JJF 1272-2011阻容法露点湿度计校准规范
- 液压与气压传动 第2版 马振福 高职课件0、1新
- 危化品安全管理学习课件
- SY∕T 7298-2016 陆上石油天然气开采钻井废物处置污染控制技术要求
- 突发事件处理记录表(标准范本)
评论
0/150
提交评论