




已阅读5页,还剩33页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
脊椎动物基因组的超级保守序列 及剪接位点分析 a n a l y z i n gu l t r a e o n s e r v e de l e m e n t sa n d s p l i c es i t e si nv e r t e b r a t eg e n o m e s 专业 研究生 指导教师 生物物理学 黄倩 张春霆教授 天津大学理学院 2 0 0 8 年5 月 舢94jj-jj13舢_ f )jjjj削y 中文摘要 中文摘要 人类基因组计划是首个被启动的脊椎动物基因组计划。接着又有作为模式 生物的斑马鱼和小鼠的基因组被测序。目前已经有鸡、犬、牛、黑猩猩、河豚 等越来越多的脊椎动物基因组测序任务完成。开展脊椎动物的基因组计划,并 通过比较基因组学的途径进行研究是生物信息学的一个重要的研究方向。研究 的目的一方面是为了更好的识别和描述人类基因组的特征、基因组中的调控因 子尤其是那些突变后会导致人类疾病的因子;另一方面为了更好的认识脊椎动 物的进化机制,探寻人类相对其它物种具有独特性的原因。 近年来,关于脊椎动物物种之间的保守性问题成为热点问题。人们发现亲 缘关系较远的物种之间通常存在保守的且不编码任何蛋白质的d n a 序列,例如 脊椎动物基因组的超级保守片段。但是这些超级保守区域所具备的功能尚不清 楚。 本文主要利用z 曲线方法分析了脊椎动物基因组的超级保守片段和剪接位 点。由张春霆教授提出的z 曲线方法为分析d n a 序列提供了一个直观的、可视 化的工具。z 曲线是一条与d n a 序列一一对应的三维曲线。 论文第一部分介绍了生物信息学发展的背景和主要研究内容,脊椎动物基 因组的特点,还包括超级保守序列以及剪接的主要特征。 论文的第二部分致力于脊椎动物基因组超级保守序列的分析。用z 曲线表 示出了4 8 1 个超级保守片段和这些片段在人类染色体上的分布状况。 论文的第三部分主要分析了脊椎动物基因组的剪接位点。通过信号检索的 途径对剪接位点进行了分析,并将基于z 曲线理论开发的d n a 序列新分段算法 应用到这一问题中。 关键词:脊椎动物基因组,超级保守序列,剪接位点,z 曲线 a bs t r a c t h u m a ng e n o m ep r o j e c ti st h ef i r s ti n i t i a t e dv e r t e b r a t eg e n o m ep r o je c t f o l l o w i n g t h i s ,t h eg e n o m e so fz e b r aa n dm o u s ew e r es e q u e n c e da sm o d e lo r g a n i s m s n o w m o r ea n dm o r ev e r t e b r a t eg e n o m es e q u e n c i n gt a s k sh a v eb e e nc o m p l e t e d s u c ha s c h i c k e n , d o g ,c a t t l e ,c h i m p a n z e ea n df u g uf i s h i ti sa l li m p o r t a n tr e s e a r c hd i r e c t i o no f b i o i n f o r m a t i c st o s e q u e n c e v e r t e b r a t e g e n o m e sa n ds t u d y t h e mt h r o u g ht h e c o m p a r a t i v eg e n o m i c sa p p r o a c h f i r s t l y , t h ei n c e n t i v eo ft h i sr e s e a r c hi s f o rb e a e r i d e n t i f i c a t i o na n dc h a r a c t e r i z a t i o no fh u m a ng e n e sa n dt h e i rr e g u l a t o r ye l e m e n t s , e s p e c i a l l yt h o s et h a ta r em u t a t e di nh u m a nd i s e a s e s s e c o n d l y , i ti s f o rab e a e r u n d e r s t a n d i n go ft h em e c h a n i s m so fv e r t e b r a t eg e n o m ee v o l u t i o n a n dt h ed i s c o v e r y o fw h a tm a k e sh u m a n su n i q u e t h ec o n s e r v m i o na m o n gv e r t e b r a t es p e c i e sh a sb e c o m ea l lh o ti s s u ei nr e c e n t y e a r s i th a sb e e nd i s c o v e r e dt h a td i s t a n t l yr e l a t e ds p e c i e so f t e ns h a r el o n gc o n s e r v e d s f f e t c h e so fd n at h a td on o ta p p e a r t oc o d ef o ra n yp r o t e i ns u c ha st h e u l t r a c o n s e r v e de l e m e n t s b u tt h ef u n c t i o no fs u c hu l t r a - c o n s e r v e dr e g i o n sr e m a i n s u n k n o w n t h ep a p e ri sd e v o t e dt oa n a l y z et h eu l t r a c o n s e r v e de l e m e n t sa n dt h es p l i c es i t e s i nv e r t e b r a t eg e n o m e sb yt h ezc u r v em e t h o d t h eze l l w et h e o r y , d e v e l o p e db yd r c h u r l t i n gz h a n g ,p r o v i d e sa ni n t u i t i v et o o lf o rv i s u a l i z i n g a n da n a l y z i n gd n a s e q u e n c e s t h ezc u r v ei s at h r e e d i m e n s i o n a lc u r v ew h i c hh a s o r l e t o _ o n e c o r r e s p o n d e n c et ot h ed n as e q u e n c e w eh a v ed r a w nt h ez c h iv e so ft h e4 81u l t r a c o n s e r v e de l e m e n t sa n dt h eh u m a n c h r o m o s o m e s a l s ow eh a v er e p r e s e n t e dt h ed i s t r i b u t i o no fu l t r a c o m e r v e de l e m e n t s a m o n gt h eh u m a nc h r o m o s o m e s a st ot h es p l i c es i t e s ,w ea n a l y z et h e mt h r o u g h a s i g n a ls e a r c hw a ya n da p p l y an e ws e g m e n t a t i o na l g o r i t h mf o rd n as e q u e n c e sw h i c h i sb a s e do nt h ezc u r v em e t h o d k e yw o r d s :v e r t e b r a t eg e n o m e s ,t h eu l t r a c o n s e r v e de l e m e n t s ,t h es p l i c es i t e s , t h ezc 1 3 j v e 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得苤鲞盘堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:筏j 有 签字日期: 移移分年勿月2 日 学位论文版权使用授权书 本学位论文作者完全了解基盗盘堂 有关保留、使用学位论文的规定。 特授权鑫鲞盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 莒倩 签字日期:扫勺8 年易月2 日 新警缴眨 签字日期:锄岱舻年6 月乙日 第一章绪论 1 1 生物信息学发展背景 第一章绪论 i n t r o d u c t i o n 生物信息学这一词出现已经很久,早在1 9 5 6 年美国田纳西州盖特林堡召开 的首次“生物学中的信息理论研讨会 上便产生了生物信息学的概念【l 】。 在早期,从事生物信息学的研究人员来自于各个领域。研究某些特定问题 的生物学家进入了计算领域:x 射线结晶学、n m r 波谱学、系统发生学和统计 遗传学。同时又有些计算机科学家利用计算机图形学和计算几何来研究生命大 分子的三维结构。另外有些热衷于字符串分析算法的计算机科学家做序列分析, 例如生物信息学的基本领域一双序列比对领域在2 0 世纪的七、八十年代就已 经建立。后来一些统计学家开始分析富有噪声但有意义的微阵列数据。基于他 们的努力,一些有效的且应用广泛的数据分析方法( 如b l a s t ) 开发成功,使 得后来更多的研究者受益。 近二十年来,人类基因组测序计划的实施促使海量的生物学数据产生。仅 关于基因序列方面,到目前( 截至到2 0 0 8 年3 月8 日) 已经公布的有7 3 0 种生 物的全基因组测序完毕,其中包括5 1 种古细菌生物、5 9 7 种细菌和8 2 种真核生 物的基因组。正在测序的还有9 0 5 种真核生物的基因组、1 7 6 3 种细菌的基因组 以及9 1 种古细菌的基因组( h t t p :w w w g e n o m e s o n l i n e o r g ) 。面对如此庞大的数 据量,利用传统的研究方式人们已经无法及时迅速的消化并理解其中包含的信 息,人们急需要一强有力的工具来管理和分析这些数据。这就导致了生物信息 学迅速发展成为独立的学科并成为当今生命科学研究的焦点。 1 2 生物信息学的主要研究内容 根据美国国立卫生研究院( n a t i o n a li n s t i t u t e so fh e a l t h , n i h ) 的定义 ( h t t p :w w w n c b i n l m n i h g o v g r a n t s b i s t i c c o m p u b i o d e f p d f ) ,生物信息学是 “研究、开发或者应用计算工具和方法来扩展对生物学、医学、行为科学和卫 生数据的使用,包括获取、储存、组织、分析和可视化这些数据”。,国际上公认 的生物信息学的研究内容,大致包括以下几个方面【2 j : 1 生物信息的收集、存储、管理与提供。包括建立国际基本生物信息库和 生物信息传输的国际联网系统;建立生物信息数据质量的评估与检测系 统;提供生物信息的在线服务:进行生物信息可视化和专家系统的研究。 第章绪论 2 基因组序列信息的提取和分析。包括基因的发现与鉴定,如利用国际 e s t 数据库( d b e s t ) 和各自实验室测定的相应数据,经过大规模并行 计算发现新基因和新s n p s 以及各种功能位点;基因组中非编码区的信 息结构分析,提出理论模型,阐明该区域的重要生物学功能;进行模式 生物完整基因组的信息结构分析和比较研究;利用生物信息研究遗传密 码起源、基因组结构的演化、基因组空间结构与d n a 折叠的关系以及 基因组信息与生物进化关系等生物学的重大问题。 3 功能基因组相关信息分析。包括与大规模基因表达谱分析相关的算法、 软件研究,基因表达调控网络的研究;与基因组信息相关的核酸、蛋白 质空间结构的预测和模拟,以及蛋白质功能预测的研究。 4 生物大分子结构模拟和药物设计。包括r n a ( 核糖核酸) 的结构模拟和 反义r n a 的分子设计;蛋白质空间结构模拟和分子设计;具有不同功 能域的复合蛋白质以及连接肽的设计;生物活性分子的电子结构计算和 设计;纳米生物材料的模拟与设计;基于酶和功能蛋白质结构、细胞表 面受体结构的药物设计;基于d n a 结构的药物设计等。 5 生物信息分析的技术与方法研究。包括发展有效的能支持大尺度作图与 测序需要的软件、数据库以及若干数据库工具,诸如电子网络等远程通 讯工具;改进现有的理论分析方法,如统计方法、模式识别方法、隐马 尔科夫过程方法、分维方法、神经网络方法、复杂性分析方法、密码学 方法、多序列比较方法等;创建一切适用于基因组信息分析的新方法、 新技术,包括引入复杂系统分析技术、信息系统分析技术等;建立严格 的多序列比较方法;发展与应用密码学方法以及其他算法和分析技术, 用于解释基因组的信息,探索d n a 序列及其空间结构信息的新表征; 发展研究基因组完整信息结构和信息网络的研究方法等;发展生物大分 子空间结构模拟、电子结构模拟和药物设计的新方法与新技术。 6 应用与发展研究。汇集与疾病相关的人类基因信息,发展患者样品序列 信息检测技术和基于序列信息选择表达载体、引物的技术,建立与动植 物良种繁育相关的数据库以及与大分子设计和药物设计相关的数据库。 1 3 脊椎动物基因组 脊椎动物包括了鱼类、两栖类、爬行类、鸟类和哺乳类。人类基因组是被 测序的第一个脊椎动物基因组。2 0 0 2 年啮齿类动物小鼠的基因组测序完成,这 是一个里程碑。因为小鼠和人类有着许多相同的生理特性,一直是实验室绝佳 2 第一章绪论 的模式生物。非人类的灵长类动物如黑猩猩、猕猴和狒狒等的基因组也相继被 测序和分析。 人们发现基因组中基因的分布并不是均一的,存在很多基因间序列和重复 序列以及假基因。例如人类基因组中有2 0 左右是没有基因的沙漠,而重复序 列占了基因组的5 0 以上。因此有人做了这样的比喻:在6 0 0 0 k g 的干草堆中寻 找一根2 9 重的普通的针要比在真核生物全基因组中寻找一个基因容易1 0 0 0 倍 【3 】 o 脊椎动物属于高等真核生物,其基因的结构也很复杂。高等真核生物基因 组中大多数基因都是断裂基因,耳l j j , r 显子和内含子在基因内交替排列 4 1 。因此断 裂基因在转录形成一个r n a 拷贝( 它的序列与基因组的序列完全相同) 后,必 须除去该r n a 中的内含子,从而产生信使r n a ,只由一系列外显子组成,这一 加工过程被称为r n a 剪接。在结构基因( 指编码任何一种r n a 或蛋白质的基 因而非调控基因) 的第一个外显子和最后一个外显子的外侧都有一段不被转录 的非编码区,称为侧翼序列,其中包括启动子、增强子和终止子等,对基因的 表达起着重要的调控作用。图1 - 1 显示了真核基因的典型结构。 另外,基因组计划的实施过程中出现了一系列的基本问题等待人们回答: 1 ) 是否可以分别确定出蛋白质编码基因和r n a 编码基因? 2 ) 是否可以给这些基因指派相应的生物学功能? 3 ) 是否可以确定或者预测所有基因产物的结构? 4 ) 是否可以通过每个基因产物来重构转录调控网络和代谢调控网络? 5 ) 是否可以将基因型和表现型一一对应起来? 6 ) 是否可以定义生命的进化历史? 要回答其中的第一个问题就涉及到基因识别领域,第二个、第三个问题涉 及到功能基因组学领域,第四个问题是系统生物学的研究目的,若成功的解决 最后一个问题需要通过比较基因组学的研究手段。 1 3 1 超级保守序列 众多物种的基因组计划完成之后,人们将不同物种之间的基因组进行比对 分析,发现了许多同源基因,包括种内同源基因和种间同源基因。这一现象从 d n a 水平上验证了进化关系。例如小鼠和人都是哺乳动物,亲缘关系较近,通 过将小鼠和人类的基因组进行比较,发现8 0 的小鼠基因都含有一个人类的同 源基因,而且不到l 的人类基因在小鼠中没有同源基因,反之亦然。然而人类 基因组中,只有4 的部分与鸡的基因组具有平均6 2 9 的保守性,还有不到1 8 的部分与河豚之间有6 0 的保守性。 第一章绪论 进一步分析脊椎动物的同源基因人们发现了许多高度保守或者超级保守的 序列片段。2 0 0 4 年b e j e r a n o 等人通过比较人、大鼠和小鼠的同源序列发现了有 4 8 1 个长度大于2 0 0b p 的超级保守序列口】。这些序列保持绝对一致,不含任何插 入删除成分。这4 8 】个片段在鸡和狗的基因组中几乎都依然保守,平均相似程 度分别高达9 5 和9 9 。其中许多片段在鱼的基因组中也保守p j 。这些人类基因 组的超级保守片段通常位于以下位置:或者与r n a 加工相关的基囡的外显子重 合或者在内含子中,或者位于与转录调控相关的基因附近。在这三个哺乳动 物基因组中有超过5 0 0 0 段长度大于1 0 0 b p 的序列片段超级保守。是什么原因导 致这些片段在经历了漫长的进化过程后保持不变? 它们到底具有什么样的生物 功能? 这些问题还有待人们进一步地探索。 罔i - 1 真核基因结构示意图 第一章绪论 1 3 2 真核生物基因的剪接 真核生物的基因表达包括转录和翻译两个过程,转录是在细胞核内完成, 而翻译则是在细胞质中的核糖体上完成。转录产生一条r n a 链。该r n a 同d n a 的一条链完全相同,被称为m r n a 前体( p r e m r n a ) 。转录终止后要对该 p r e - m r n a 进行加工,包括5 端形成帽子结构,3 端加上多聚腺苷酸尾巴( p o l ya t a i l ) ,以及去除内含子、连接外显子,即剪接。最后形成m r _ n a ,该m r n a 通 过核孔游离到细胞质内参与翻译过程。图1 2 以鸡卵清蛋白基因为例清楚的表示 了其转录及修饰的基本机制。 人们发现在大多数内含子和外显子的交界处附近、内含子的一端存在一致 序列。即内含子的5 ( 左) 端上的5 剪接位点包括一致序列g u ,另一端3 ( 右) 端上的3 剪接位点包括一致序列a g 。这一现象被称为g u a g 法则。也有少数 内含子的两端是g c a g 或者a u a g 。人类基因组的剪接位点中遵守g u a g 法 则的内含子占在9 8 以上,有不到l 的内含子遵守g c a g 规律,还有0 1 的 内含子两端的标志为a u - a g 【4 1 。 剪接是通过一套马索结构完成的。剪接的第一步是在5 剪接位点上切割, 把左边的外显子同右边的内含子- 夕 显子分开。左边的外显子仍呈线性分子,右 边的内含子- 夕 显子中原来的5 端与在同一内含子内部的一位点连接起来,靶碱 基是分支位点序列中的a ,如此即形成一套马索结构。最后在内含子的3 剪接位 点附近切割,将该套马索结构去除,外显子连接在一起,完成剪接。 分支位点序列是位于内含子的3 剪接位点上游1 8 4 0 个核苷酸处的一段短 一致序列。它的作用是帮助识别与其最近的3 剪接位点,并作为5 剪接位点结 合的靶。酵母的分支位点是高度保守的,其一致序列为u a c u a a c 。而高等真 核生物的分支位点保守性较低,但都有优先的嘌呤或嘧啶,靶标都是a 核苷酸。 第章绪论 鸡卵清蛋白基因 p r e - m p , n a 卜一7 7 k b _ 一 l123 456 7 4 71 8 55 11 2 91 1 8 1 4 31 5 6 , 1 0 4 3 转录 一- - 卜卜_ _ 1 一一 i 5 端和3 端的修饰g p p 9 g - 卜- 一- 1 _ a a a a a i 除去内含子,连接外显子g p p p g a a a a a a l 。 成熟的m r n ag p p p g a a a 从a 图1 2 鸡卵清蛋白基因转录及转录后的修饰 最上方的鸡卵清蛋白基因的表示中,标有a ,b ,c ,d ,e ,f , g 的空白方块表示内含子,黑色方块 表示外显子。 1 4 论文的主要工作 本论文的研究对象是脊椎动物基因组。本论文主要致力于分析脊椎动物基 因组中的超级保守序列以及剪接位点。 论文的第一部分介绍了生物信息学发展的背景和主要研究内容,脊椎动物 基因组的特点以及真核基因剪接的生物学基础。 论文第二部分主要利用z 曲线分析了脊椎动物基因组中的超级保守序列。 论文第三部分主要应用基于z 曲线理论的分段新算法对脊椎动物基因组 剪接位点的做了初步的预测。 6 第二章用z 曲线方法分析脊椎动物基因组的超级保守片段 第二章用z 曲线方法分析脊椎动物基因组的超级保守片段 a n a l y z i n gt h eu l t r a c o n s e r v e de l e m e n t si nv e r t e b r a t ag e n o m e sb yt h e z c u r v em e t h o d 摘要:随着越来越多的脊椎动物的基因组计划被完成,研究人类基因组与其它脊椎动 物基因组之间的保守性成为近年来的研究热点这一研究的首要目的在于更好 的识别和描述人类基因组的特征、基因组中的调控因子尤其是那些能够导致人 类疾病的因子;同时为了更好的认识脊椎动物基因组的进化机制,这项研究终 会导致人类因何而相对其它物种具有独特性的发现。种间比较恰为这一研究提 供了有力的工具通过这种方法,人们在包括人类、鼠类等脊椎动物的基因组 中发现了4 8 1 个超级保守片段。本章应用z 曲线方法对这些片段作了分析。 a b s 仃a c t :a sm o r ea n dm o r ep r o j e c t so fv e r t e b r a t eg e n o m es e q u e n c i n gh a v e b e e n a c c o m p l i s h e d ,t h er e s e a r c ho fc o n s e r v a t i o nb e t w e e nd i f f e r e n tv e r t e b r a t eg e n o m e s h a sb e c o m eah o ti s s u ei nr e c e n ty e a r s 1 1 1 ep r i m a r yi n c e n t i v ef o rt h i sr e s e a r c hl i e s i nb e t t e ri d e n t i f i c a t i o na n dc h a r a c t e r i z a t i o no fh u m a ng e n e sa n dt h e i rr e g u l a t o r y e l e m e n t s e s p e c i a l l y 血o s et h a ta r em u t a t e di nh u m a nd i s e a s e s m e a n w h i l ef o ra b e r e ru n d e r s t a n d i n go ft h em e c h a n i s m so fv e n e b m t eg e n o m ee v o l u t i o n ,t h i s r e s e a r c hc o u l du l t i m a t e l yl c a dt ot h ed i s c o v e r yo fw h a tm a k e sh u m a n su n i q u e i n t e r s p e c i e sc o m p a r i s o np r o v i d e sap o w e r f u lt o o lf o r t h i sr e s e a r c h t h r o u g ht h i s a p p r o a c h , 4 81u l t r a c o n s e r v e ds e g m e n t sh a v eb e e nd i s c o v e r e db e t w e e n 也e v e r t e b r a t eg e n o m e si n c l u d i n gh u m a n ,r a t ,a n dm o u s e i nt h i sc h a p t e r , w ea p p l yt h e z c u r v em e t h o dt oa n a l y z i n gt h e s eu l t r a c o n s e r v e ds e g m e n t s 关键词:超级保守片段;比较基因组学;z 曲线方法 k e y w o r d s : u l t r a c o n s e r v e de l e m e n t s ;c o m p a r a t i v eg e n o m i c s ;t h ez c u r v em e t h o d ; 7 第二章用z 曲线方法分析脊椎动物基因组的超级保守片段 2 1 比较基因组学 人类基因组计划实施的过程中,许多模式生物的基因组计划( m o d e l o r g a n i s mg e n o m ep r o j e c t ,m o g p ) 也被相继启动:如酵母菌、线虫、果蝇、斑马 鱼以及小鼠和拟南芥等基因组计划。模式生物是经典遗传学和生物学研究的主 要对象和基础,已在个体水平和细胞水平上对生物的遗传规律进行了大量的 研究,其生物特性和遗传特性己基本搞清楚。在基因水平上深入研究模式生物 的目的在于利用模式生物基因组与人类基因组之间编码顺序和组织结构上的同 源性,用单一或简单的生物模式阐明高等生物特别是人的基因组在结构、功能 以及物种进化的内在联系,目前已从模式生物之间以及与人类之间发现了些 共性特征以及各自的独特性。在这样的背景下,产生了一门基于基因组图谱和 测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达 机理和物种进化的学科一比较基因组学( c o m p a r a t i v e g e n o m i c s ) i 引。 比较基因组学分为种内比较基因组学和种间比较基因组学 6 1 。种内的比较 基因组学研究主要涉及个体或群体基因组内诸如s n p 、c n p 等变异和多态现象。 种间的比较基因组学通过对不同亲缘关系物种的基因组序列进行比较、能够鉴 定出编码序列、非编码调控序列及给定物种独有的序列,而基因组范围之内的 序列比对,可以了解不同物种在核苷酸组成、同线性关系和基因顺序方面的异 同,进而得到基因分析预测与定位、生物系统发生进化关系等方面的信息。 了解脊椎动物各物种之间的遗传差异或相似程度是目前比较基因组学的一 项重要课题。随着越来越多的脊椎动物的基因组被测序完毕,研究人类基因组 与其它脊椎动物基因组之间的保守性成为近年来的研究热点。种间比较基因组 学为这一研究提供了有力的工具,能帮助理解基因序列所具有的功能以及发现 人类相对其它物种所具有的独特性的原因。 2 1 1 脊椎动物基因组的比较基因组学研究 在人类基因组计划实施的同时,模式生物基因组计划也被启动,其中包括 斑马鱼和小鼠的基因组测序。随后人们就将人类基因组同这两种脊椎动物的基 因组进行了比较,发现虽然斑马鱼的基因组大小只是人类基因组的九分之一, 但二者之间却拥有大约相同数目的基因1 7 j 。人们可以将更多的脊椎动物基因组进 行比较,从而识别出基因组中的编码区、非编码区及调控因子( 尤其是那些能 导致人类疾病的因子) ,并最终找到促使现代基因组形成的主要因素:同时也有 助于了解脊椎动物之间的遗传差异或相似程度,探寻人类相对其它物种具有独 特性的原因。因此有研究者称这些基因组测序计划是比较基因组学研究的基石 第= 章用z 曲线方法分析脊椎动物基园组的超级保守片段 n 2 0 0 3 年,又有一美国的研究组将人类、黑猩猩、砩狒、猫、狗、牛、猪、 大鼠、小鼠、鸡、斑马鱼与两种河豚的d n a 序列共1 3 种脊椎动物的基因组进 行了比较。他们发现与灵长类动物( 人类、黑猩猩与狒狒等) 母亲近的是啮齿 类动物( 大鼠与小鼠) ,食肉类( 猫、狗) 和偶蹄娄( 牛、猪) 反而较远。这在 过去一直未有定论。他们还发现在不同生物的基因组中,不舍基因的d n a 区域 没有太大的差异,说明这些区域并非没有用处,但其生物学功能还有待人们探 索。2 0 0 4 年,美国加利福尼亚圣达菲大学和澳太利亚女王岛大学的科学家们通 过对人类、大鼠、小鼠相对应的含2 0 0 个甚至更多碱基数目的基因组序列相比 较,发现了4 8 】个“超级保守”片段【5 j 。这些片段在鸡、狗的基因组中存在9 5 以r 的保守性,并且在鱼类的基因组中也存在一定的保守性。这4 8 1 个超级保 守的d n a 片段位于基凼组的非编码区。其中一半以上具有相互重叠的区域,与 具有多种表现形式的基因相关,这些基因的表现形式取决于它们是如何进行 r n a 转录的,因此研究者们认为这4 8 1 个片段与选择性剪接过程有着十分明显 的联系。 ! ! 巴竺 粕蛳 船 啪,伽 黧善篙删t蜘w d 岬m m 自蝌 黧竺鸳鬻嚣i _ m 4 m a 一) - m m b r h ? _ 僦怒蕊鬻h f m m 5 【 ;篓搿:毫箩 b ”j e i r i i 黧器:j 自b * i 帮口州t o q m f t _ qi m a m h m _ 1 f ”自r 口咿4 删“_ h 忡,呻蚪f 舯p m “1 坩“j 髑哆篱 p d * n m e 图2 - i 脊椎动物基因组的避化圉 这里表示了几种目前已经测牛的脊椎动物之间进化关系、在进化时分离的年代及基因 组大小。 蓦箸=羞一尹。 第二章用z 曲线方法分析脊椎动物基因组的超级保守片段 基于z 曲线方法,这一章里我们对脊椎动物基因组中的超级保守片段作了 分析。 2 2 材料与方法 2 2 1 材料 4 8 1个脊椎动物的超级保守一片段下载 自 h t t p :w w w s o e u c s c e d u j i l l u l t r a h t m l 。这4 8 1 个片段分布在除2 1 号和y 染色体 以外的所有的人染色体,长度在2 0 0 5 0 0 b p 范围内。g i l lu e l :j e r a n o 等人将这些 片段分为三类:( 1 ) 有1 1 1 个片段与已知的编码蛋白质的人类基因( 或者非翻译 区) 之间存在重叠,称这些片段为部分外显子( p a r t l ye x o n i c ) ;( 2 ) 与转录没有任 何关联的片段共有2 5 6 个,称其为非外显子的;( 3 ) 对于其它的11 4 个片段没有 确凿的证据说明它们与转录之间的关系,称其是可能外显子的( p o s s i b l ye x o n i c ) 。 2 2 2z 曲线方法 考虑一个长度为l 的单链d n a 序列,从第一个碱基开始,依次考察该序列, 每次只增加一个碱基。当考察到第n 个碱基时( n = 1 ,2 ,l ) ,从1 到n 这 个子序列中四种碱基各自出现的次数分别用a 。,c 。,g 。,l 表示。由于有 彳。+ c 。+ g 。+ l = n ,所以彳。,c n ,g 。,l 可以由三个变量x n ,y 。,z 。表示,_ , 以,z 。的定义如下: j = ( 4 + g ) 一( e + ) 兰r n 一匕, y 。= ( a 。+ g ) 一( q + ) 三m 。一e ,矗,y 。,z 。 _ , ,z = 0 , 1 ,2 ,( 2 - 1 ) i z 。= ( a 。+ z ) 一( g 。+ e ) 兰呢一s n , 则以,y 。,z 。可以对应于三维空间的一点只,把这样一系列点只( 共l 个点) 连 接起来构成的曲线称为d n a 序列的z 曲线 1 0 , 1 1 】。可以证明z 曲线与所表示的d n a 序列是一一对应的。即给定一d n a 序列,存在唯一的一条z 曲线与之对应;反 之,给定一z 曲线,可以找到唯一的一个d n a 序列与之对应【2 7 1 。z 曲线包含了 d n a 序列的全部信息,是d n a 序列等价表示的一种几何形式。 z 曲线的三个分量有着明确的生物学意义:z 。表示嘌呤( a + g ) 嘧啶( c + t ) 碱基沿序列的分布。当嘌呤碱基多于嘧啶碱基时,x 。 o ,否则x 。 o ,否则y 。 0 ,否则乙 0 ,代表该区间g c 含量降低;相反z 曲 线下降代表该区间g c 含量增加。利用z 曲线可以不使用窗口技术来计算g c 含 量。这种方法的最高精度水平,可用来计算序列中单个碱基的g c 含量,而不是 象以往那样以确定大小的窗口为单位。 我们首先做出了这4 8 1 个超级保守片段的三维的z 曲线以及z 曲线,观察 其特点。然后做出了人类染色体( 除2 l 号和y 染色体以外) 的z 曲线,并标出 超级保守片段的相应位置,观察其在染色体上的分布特点。 2 3 结果与讨论 , 、 2 3 1 超级保守片段的z 曲线分析 第二章用z 曲线方法分析脊椎动物基因组的超级保守片段 l “( q u c 4 u 7 佃哪 u c 7 屺1 0 b p ) u c 1 0 l 1 2 u c 2 l l 8 仲j u c 8 m 3 ( 嘲 u c 3 u c 6 1 2 ( 咐 1 3 ( 嘲 u c 1 2t i c 1 3 图2 2 一号染色体上的部分超级保守片段的z 曲线 限于篇幅这里只列出部分超级保守序列的z 曲线图,4 8 1 个超级保守片段的 z 曲线各不相同,说明其内部碱基组成完全不相同。 1 2 第二章用z 曲线方法分析脊椎动物基因组的超级保守片段 2 3 2 超级保守片段在人类染色体上的分布 厂、 广| v j f i f j 广, j 彳 , 图2 31 号至6 号染色体上的三类超级保守片段分布 口e x o n i c n o n - c x o n i c p o s s i b l ee x o n i c 1 3 第二章用z 曲线方法分析脊椎动物基因组的超级保守片段 由 j 广、 v v 暑 一 j n j f 童 i 八 c 八| 卜v 图2 - 47 号至1 2 号染色体上的三类超级保守片段分布 de x o n i ca n o n e x o n i cq p o s s i b l ee x o n i c 1 4 丘 一 n 第二章用z 曲线方法分析脊椎动物基因组的超级保守片段 a t 口n 葛口m 1 3 ( 1 0 k b ) 以 f f j r ; ”、 f试 j 图2 51 3 号至1 8 号染色体上的三类超级保守片段分布 口e x o n i ea n o n - e x o n i co p o s s i b l ee x o n i c 第二章用z 曲线方法分析脊椎动物基因组的超级保守片段 图2 - 61 9 号、2 0 号、2 2 号和x 染色体上的三类超级保守片段分布 de x o n i cz x n o n - e x o n i co p o s s i b l ee x o n i c 图2 3 、2 4 、2 - 5 和2 - 6 画出了人类除2 1 号和y 染色体以外的2 2 条染色 体的z 曲线,并相应的标出了4 8 1 个超级保守片段的位置。从这些图上可以看 出,这4 8 1 个超级保守片段的大多数分布在染色体中g c 含量变化较大的区域, 少数位于g c 含量均匀的区域,极少部分处于g c 含量的跳变点上。 2 4 结论 本章我们做出了脊椎动物基因组中4 8 1 个超级保守片段的z 曲线图,同时 在人类染色体的z 曲线上观察这些片段的分布特点。这4 8 1 个超级保守片段的z 曲线各不相同,其中大部分位于染色体中g c 含量跳变较为剧烈的区域,少数位 于g c 含量均匀的区域,极少部分处于g c 含量的跳变点上。 1 6 第三章脊椎动物基因组剪接位点的分析 摘要: 第三章脊椎动物基因组剪接位点的分析 a n a l y z i n gt h es p l i c es i t e si nv e r t e b r a t ag e n o m e s 现在,计算机的基因识别在基因组计划的发展中所发挥的作用日益突出。国际 上已经涌现出如g e n s c a n 、f g e n e s h 、h m m g e n e 、g e n i e 、g r a i l 、 g e n e m a r k 、 g e n e l d 及m z e f 等优秀的基因识别算法但是关于真核生物基因组的剪接位 点的识别还没有很好的解决。在这一章里,我们通过信号检索的途径对脊椎动 物基因组的剪接位点进行了分析,并将基于z 曲线理论开发的d n a 序列新分 段算法应用到这一问题中。 a b s t r a c t : c o m p u t a t i o n a lg e n ei d e n t i 缸c a t i o ni ss e tt op l a ya l li n c r e a s i n g l yi r n p o r t a n tr o l ei n t h ed e v e l o p m e n to ft h eg e n o m ep r o j e c t s t h e r ea r eal o to fr e m a r k a b l e c o m p u t a t i o n a lg e n ei d e n t i f i c a t i o na l g o r i t h m sn o w , s u c ha sg e l l s c a t l ,f g e n e s h h 卟皿订g e n e ,g e n i e ,g r 灿l ,g e n e m a r k , g e n e i da n d 汜e fe t c b b tt h e i d e n t i f i c a t i o no ft 1 1 es p l i c es i t e si ne u k a r y o t eg e n o m e sh a sn o tb e e nw e l lr e s o l v e d i nt h i sc h a p t e r , w ea n a l y z et h ec h a r a c t e ro ft h es p l i c es i t e si nv e r t e b r a t eg e n o m e s t h r o u g has i g n a ls e a r c ha p p r o a c h a 1 s ow ea p p l yan e ws e g m e n t a t i o na l g o r i t h mf o r d n as e q u e n c e sw h i c hi sb a s e do nt h ezc u r v em e t h o dt ot h i sp r o b l e m 关键词:剪接位点;基因识别;z 曲线方法; k e y w o r d s : s p l i c es i t e ;g e n er e c o g n i t i o n ;t h ezc u r v em e t h o d ; 1 7 第三章脊椎动物基因组剪接位点的分析 3 1 引言 基因识别的方法大致可分为基于内容检测、基于信号检测和基于相似性比 较三类。其中信号检测的方法就是根据人们目前对基因组结构的一些相关的位 点信号的认识来识别基因。这些信号包括剪接信号、起始密码子信号、终止密 码子信号、启动子信号、转录终止信号、分支点( b r a n c hp o i n t ) 等。 在真核基因组中,每个外显子和内含子接头区都有一段高
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025数码产品购销合同
- 2025年4月贵州黔南州福泉市招聘城镇公益性岗位4人模拟试卷及答案详解(必刷)
- 2025第二季度贵州安顺市平坝区美农科技有限公司招聘9人考前自测高频考点模拟试题及答案详解(夺冠)
- 2025年延安东辰中学教师招聘模拟试卷有完整答案详解
- 大专建筑考试题库及答案
- 国防大学语法考试题库及答案
- 业务合同评审与执行监督双控工具
- 高效能治理工作目标承诺书(4篇)
- 2025年国防教育知识竞赛题库及参考答案
- 高新技术产品代理销售合同计划书
- 商务谈判(完整版)课件
- 小学数学教师新课标考试试题
- 小学数学北师大四年级上册五方向与位置四上《用数对确定位置》北师大版李雪梅PPT
- 步进电机控制系统课件
- 2022年混凝土预制U型槽单元工程质量评定表
- 井喷及井喷失控案例教育
- 职业发展与就业创业指导ppt课件完整版
- 挠度计算模板表格(自动版)
- 宝钢集团生产安全事故案例汇编
- 潍城区5万吨污水处理厂及配套管网建设项目环评报告书
- 为老年人更换纸尿裤评分标准
评论
0/150
提交评论