




已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
a b s t r a c t t h e s i st i t l e :b i o i n f o r m a t i c s a n a l y s i so fm e i o t i cr e c o m b i n a t i o nr a t eo fy e a s t s a c c h a r o m y c e sc e r e v i s i a eg e n o m e g r a d u a t es t u d e n tn a m e :w e ix u s u p e r v i s o r n a m e :z u h o n gl u ( p r o f e s s o r ) s c h o o ln a m e :s o u t h e a s t u n i v e r s i t y r e c o m b i n a t i o nl sc r i t i c a ii nt h ep r o c e s so fb i o l o g i c a le v o l u t i o nw i t h o u tr e c o m b i n a t i o n g e n e s o fe a c hi n d i v i d u a lw o u l db ef i x e du n l e s sm u t a t i o n so c c u r r e c o m b i n a t i o nr a t ea l o n g t h eg e n o m ei sn o ts t o c h a s t i c r e c o m b i n a t i o nr a t e aa r er e l a t i v eh i g hj ns o m ep l a c e s s o t h e r ea r er e c o m b i n a t i o n h o t s - p o t s a n d c o l d s p o t s h o w e v e r i t s d i 竹i c u l tt o m a pt h e r e c o m b i n a t i o nh o t s p o t sa n dc o l d s p o t sa l o n gg e n o m e f o r t u n a t e l y , g e r t o ne t c ,m a p p e dt h e m e i o t i cr e c o m b i n a t i o nh o t s p o t sa n dc o l d s p o t si nt h ey e a s ts a c c h a r o m y c e sc e r e v i s i a ew i t h d e l i c a t e de x p e r i m e n t s w h i c hm a d ei tp o s s i b l ef o ru st oa p p l yb i o i n f o r m a t i c si nt h er e s e a r c h o fm e i o t i cr e c o m b i n a t i o nr a t ei nt h ey e a s t t h e k e y t oa n a l y s i so ft h er e c o m b i n a t i o nd a t ai st h ee x t r a c t i o no fi n f o r m a t i o na l o n gg e n o m e r e c o m b i n t a i o nh o t s p o t sa n dc o l d s p o t sa r er e t r i e v e da c c o r d i n gt ot h er e s e a r c hb yg e r t o n e t cw ee x t r a c t3 5 0y e a s to r f s m e a t i n go u rc r i t e d a a m o n gw h i c h3 0 2o r f sa r eh o t s p o t s a n dt h er e s t4 8o r f sa r ec o l d s p o t s g cc o n t e n t sa r ea n a l y z e dl ti sf o u n dt h a tt h e r ei s s i g n i f i c a n t d i f f e r e n c eb e t w e e ng cc o n t e n t so fr e c o m b i n a t i o nh o t s d o t sa n dt h o s eo f c o l d s p o t s t h e nw es t e pi n t ot h ed e t a i l s0 fg cc o n t e n t g c 3 sh a sm o l es i g n i f i c a n td i f f e r e n c e c o m p a r e dw i t hg c 2 sa n dg c l s t h i sr e s u l tg i v e su sah i n tt oa n a l y z et h ec o d o nu s a g eo f r e c o m b i n a t i o n h o t s p o t sa n dc o l d s p o t s s ow ec a l c u l a t er s c u ( r e l a t i v es y n o n y m o u s c o d o nu s a g e la n dc l u s t e rt h e3 5 0o r f sa c c o r d i n gt ot h er s c u t h e4 8c o l d s p o t sa r e c l u s t e r e dt o g e t h e ra n dt h e3 0 2h o t s p o t sa r ea r o u n dt h ec o l d s p o t s o b v i o u s l y c o d o nu s a g e o fy e a s t g e n o m ej ss o m e w h a t a f f e c t e db yr e c o m b i n a t i o ne v e n t s i n t e r e s t i n g l y , w ef i n dt h a t f w ee x c l u d et h es i xc o d o n s f o r a r g w e c a n g e t ab e f f e rr e s u l tf o rc l u s t e ra n a l y s i s t oi d e n t i l yt h ec h a r a c t e r i s t i c st h a ta r ea f f e c t e db yr e c o m b i n a t i o ne v e n t a w ea n a i y - z et h e w h o l eg e n o m eo fy e a s t 6 15 0o r f sa r er e t r i e v e dw i t ho u rc r i t e d aa c c o r d i n gt ot h e a n a l y s i s o fc o d o nu s a g e ,g cc o n t e n t s ,d r a ,a m i n oa c i du s a g ea n ds oo n w eh a v et h ef o l l o w i n g r e s u l t s :( 1 ) t h er e l a t i v er e c o m b i n a t i o nr a t eh a ss i g n i f i c a n tc o r r e l a t i o nw i t hc o d o nu s a g e f a c t o ra n a l y s i sh e l p su st oi d e n t i f yt w om a j o rf a c t o r so fc o d o nu s a g e ,b o t ho fw h i c hh a v e s i g n i f i c a n tc o r r e l a t i o nw i t hr e c o m b i n a t i o nr a t eo fy e a s tg e n o m ew h a t l sm o r ef a c t o r2h a s m o r es i g n i f i c a n tc o r r e l a t i o nw i t hp e a r s o nc o e 竹j c i e n l0 4 5 6 ( 2 ) a c c o r d i n gt ot h ec o r r e l a t i o n a n a l y s i sb e t w e e nt h et w of a c t o r sa n d o t h e rc h a r a c t o r so fg e n e s ,w ef i n df a c t o r1r e l a t e dt o g e n ee x p r e s s i o n w h i c hi sd u e t ot h es i g n i f i c a n tn e g a t i v ec o r r e l a t i o nb e t w e e nf a c t o r1a n d c a if p e a r s o nc o e f f e c i e n t o 9 5 6 ) f a c i o r2i s p o s i t i v e l yc o r r e l a t e dw i t hg c 3 s ( p e a r s o n c o e f f e c i e n t0 9 1 0 ) t h e s ec o r r e l a t i o n sa r ea l l s i g n i f i c a n tw i t hp o 0 0 0 1 ( 3 ) t h e r ei sn o s i g n i f i c a n tc o r r e l a t i o nb e t w e e nr e c o m b i n a t i o nr a t ea n dd r a o ft h o s eb a s e p a i r sw i t hgo rc t h e r ei sn os i g n i f i c e n tc o r r e l a t i o nb e t w e e nr e c o m b i n a t i o nr a t ea n da m i n oa c i du s a g ee i t h e r b a s e do nt h ea b o v er e s u l t s w ef i n dt h a tt h em a j o rc o d o n si ny e a s tg e n o m ea r ee n d e di na i i o rt h o w e v e r , t h o s eg e n e s w i t hr e l a t i v eh i g hr e c o m b i n a t i o nr a t ep r e f e rc o d o n se n d e di ng o rc i ti sc o n c l u d e dt h a tc o d o nu s a g eo fy e a s tg e n o m ei sa f f e c t e db yr e c o m b i n a t i o ne v e n t s n a t u r es e l e c t i o ni sn o tc o n s i d e r e dt h em a j o rp r e s s u r ef o rt h ec o d o nu s a g e i n s t e a d ,b i a s e d g e n e c o n v e r s i o nt og ci sc o n s i d e r e dt ob et h em o s ti m p o r l a n te x p l a n a t i o nf o rw h a tw eh a v e f o u n d w ea p p l ys t a t i s t i cm e t h o dt oa n a l y z et h ew h o l eg e n o m eo fy e a s tr e l a t e dt om e i o t i c r e c o m b i n a t i o nr a t e ,w h i c hg i v e su sa no v e 阳l lu n d e r s t a n d i n go fm e i o t i cr e c o m b i n a t i o n e v e n m a m o n gy e a s tg e n o m e k e y w o r d s :m e i o t i cr e c o m b i n a t i o n ,c o d o nu s a g e b i a s e dg e n ec o n v e r s i o n 1 1 1 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 研究生签名:硷! 垄 日期:型生工彦 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位 论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人 电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论 文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包 括刊登) 授权东南大学研究生院办理。 研究生签名: 给t 衫 导师签名:巨鼍日期:泸f g l 芦魍 一一,一 第一章绪论 1 1 生物信息学 - 2 】 第一章绪论 1 1 1 生物信息学产生的背景【3 6 】 近年来随着分子生物学及生物工程技术的飞速发展,生物学数据呈爆炸性增跃。随着人 类基因组计划测序工作的提前完成及一些其它模式生物基因绢测序工作的相继开展,大量的 核酸序列加入到国际核酸数据库之中。自1 9 9 5 年科学家测序了全长为1 8 0 万核苷酸的嗜血流 感杆菌基因组以来,到目前已有大约6 0 个微生物和若干真核生物如:线虫、拟南芥、酵母、 果蝇的完整基因组完成测序。至2 0 0 1 年的春天,又公布了人类基冈组工作草图。这些成就意 味着基因组的研究将全面进入数据分析和信息提取的崭新阶段。据统计,1 9 9 9 年1 2 月d n a 碱基数目为3 0 亿,2 0 0 0 年4 月d n a 碱基数目是6 0 亿,现在这一数目已达1 4 0 亿。生物学 数据的积累并不仅仅表现在己测序核酸序列的数目迅速增长,与此同时来自各物种的新发现 基因的数目也迅速增跃,相应蛋白质的一级结构也即氨基酸序列也迅速增长。同时,蛋白质 高级结构预测工作也e 速发展,已知结构的蛋白数t ;i 每两年就增长一倍。迄今为止,已有一 万多种蛋白质的空间结构被测定。基于c d n a 序列测序所建立起来的e s t 数据库其纪录己达 数百万条。在这些数据基础上派生、整理出来的数据库己达5 0 0 余个。这切构成了一个生 物学数据的海洋。这种科学数据的积累,在人类的科学研究历史中是空前的。 数据并不等于信息和知识,但却是信息和知识的源泉,关键在于如何从中挖掘它们。与 正在以指数方式增长的生物学数据相比人类相关知识的增长却十分缓慢。一方面是巨量的 数据;另一方面是我们在医学、药物、农业和环保等方面对新知识的渴求,这些新知识将帮 助人们改善其生存环境和提高生活质量。这就构成了一个极大的矛盾。人类基因组的3 2 亿碱 基对包含了人体的结构和功能以及生命活动过程的大量信息。如何从中解读、提取、获得有 用的信息,己成为人类基因组计划下一步亟待解决的问题。 以大规模序列信息产山为基本特征的基因组计划,对计算机科学和信息技术无疑是一种 压力和挑战。值得庆幸的是,在生物技术快速发展的同时,计算机科学及信息技术也以惊人 的速度发展。一方面,计算机芯片对于数字处理能力的几乎每1 8 个月就翻一番,即著名的摩 尔定律。目前,微型计算机的数据处理能力己远远超过过去的小型机、中型机甚至于大型机。 另一方面,计算机的存储设备发展也十分迅速,以计算机硬盘为例,过去一般为几百兆容量, 现在几百g 甚至更大的硬盘已经出现。冈此计算机能够有效地存储、管理和分析海量数据。 同时,由于计算机网络技术和数据库技术的迅速发展及普及人大方便了广大研究人员对生 物数据的获取方便了生物数据的共享及交流。基因组研究最终是要把生物学问题转化成对 数字符号的处理问题。要解决这样的问题就必须发展新的分析理论、方法、技术和工具,就 必须依赖计算机的信息处理。同时,还需要有其他学科如数学、物理学、信息科学、化学等 学科方面专业知识人才的加盟。这样,一门新的学科,生物信息学应运而生。 东南大学硕士学位论文 1 1 2 生物信息学的定义1 1 - 2 , 7 】 生物信息学( b i o i n f o r m a t i c s ) 是一门新兴的交叉学科。它是伴随基口:i | 组研究而产生的, 它的研究内容紧随着基因组研究而发展。广义的讲,正如美国人类基网组计划实施五年后的 总结报告中对生物信息学所作的定义:生物信息学是一交叉科学,它包含了生物信息的获 取、加1 :、存储、分配、分析及注释在内的所有方面,它综台运t i ;j 数学、计算机科学和生物 学的各种工具,来阐明和理解大量数据所包含的生物学意义。这一定义包括了两层含义,一 是数据的收集、组织与管理。另一个是也就是开发并利用这些数据,从中发现新规律。狭义 的讲,生物信息学是以核酸及蛋白质序列信息分析入手,从中找到编码蛋白质的区域,并阐 明基因组中大量的非编码区的作用及意义,破译隐藏在d n a 序列中的遗传规律;在此基础上, 归纳、整理与遗传信息表达、调控相关的数据,从而认识机体生k 、发育、代谢、进化的规 律。生物信息学还对蛋白质的空间结构和功能进行模拟及预测,并将此类信息与生命过程中 的生理生化信息相结合,阐明其分子机理,最终进行分子设计及相关药物设计。 1 1 3 生物信息学的主要研究内科7 - 9 】 核酸序列的装配:基因组测序的每一环节都与信息分析紧密相关。其中,序列拼接和间 隙填补最为关键。基网组研究的首要目标是获得人的整套d n a 序列。人的基闵组有3 2 亿个 碱基,然而现在的d n a 测序技术,每次反应只能读取几百到上千个碱基。要得到人的序列首 先要把人的基因组打碎,测完一个个小段的序列后再把它们重新拼接起来。这一过程的困难 不仅来自庞大的数据量,而且在于人类基因组含有大量的高度重复的序列,这就需要把实验 设计和信息分析紧密联系在一起,发展适当的算法及相应的软件以解决各种复杂的问题。 在拼接e s t 数据以发现全殴新基因的过程中也有类似的问题。 序列及结构比较( a l i g n m e n t ) :基本问题是比较两个或两个以上序列的相似性序列比较 是生物信息学的基础。两个序列的比较有较成熟的动态规划算法,以及在此基础上编写的序 列比较软件包b a l s t 和f a s t a ,可以免费下载使用。有时两个序列总体并不很相似,但 某些局部片断相似性很高。s m i t h - w a t e n n a n 算法是解决局部比较的好算法,缺点是速度较慢。 两个以上序列的多重序列比较目前还缺乏快速而又十分有效的算法。结构比较的基本问题是 比较两个或两个以上蛋白质分子空间结构的相似性。 寻找新基因:发现新基因是当前国际上基因组研究的热点,生物信息学方法是发现新基 因的重要手段。其基本问题是给定基冈组序列后,正确识别基因的范围和在基因组序列中的 精确位置。经过多年的研究,目前己提出数十种算法,有十种左右重要的算法和相应软件上 网提供免费服务。原核生物的基因识别相对容易。对于具有较多内含子的真核生物基因组, 要正确识别起始密码子、剪切位点和终i l 密码子,这是个相当困难的问题,研究现状不能令 人满意,仍有大量的工作要做。 非编码区域的结构与功能研究:原核生物中的非编码区域只占整个基因组序列的1 0 到 2 0 。随着生物的进化,非编码区越来越多,在高等生物汞1 人的基因组中非编码序列已占到 基因组序列的绝人部分。在人类基因组中编码部分只l 总序列的1 左右,其它都是非编码 区域。非编码区具有重要的生物功能。普遍认为它们可能与基因的表达调控有关。分析非编 码区d n a 序列需要大胆的想象和崭新的研究思路和方法。d n a 序列作为一种遗传语言,不仅 体现在编码序列之中,而且隐含在非编码序列之中。寻找这些区域的编码特征与信息调节方 2 第一章绪论 式是是生物信息学一个重要的研究领域。 单核苷酸多态性( s n p ) 的研究;s n p 在基因组中分布相当广泛,近来的研究表明在人 类基因组中每3 0 0 碱基对就出现一次。有些s n p 并不直接导致痰病。但由于它与某些疾病基 因相邻,而成为重要的标记。人量存在的s n p 位点,使人们有机会发现与各种疾病,包括肿 瘤相关的基因组突变。目前,s n p 已广泛用于高危群体的发现、疾病相关基冈的鉴定及药物 设计等领域。 分子进化研究:分子进化的早期的1 :作主要是利用不同物种中同一蛋白序列的序列差异 来研究生物的进化,构建进化树,也有的是通过蛋向质的结构比较来研究分子进化。近年来 由于多种模式生物基因组测序任务的完成,为从整个基因组的角度米研究分子进化提供了条 件。 核酸的序列信息是通过密码子米决定蛋向质的序列信息的。密码子为何是现在的形式 这一问题到目前为止尚无定论。一种最简单的理论认为,密码子与氨基酸之间的关系是生物 进化过程中一次偶然的事件而造成的,并在现代生物最后的批同祖先的基因组中确定下来, 延续至今。这即为密码子起源的“冻结”理论。另外,有人分别提山过选择优化、化学和历 史等学说来解释密码子的起源。随着各种生物基因组测序任务的完成,为研究遗传密码的起 源和检验上述理论的真伪提供了新的素材。 全基因组比较:在后基因组时代,完整基因组数据越来越多有了这些资料人们就能对 若干重大生物学问题进行分析研究。一些重大的问题只有在基因组水平上才能回答。例如小 鼠和人的基因组大小相似,都含有约3 0 亿碱基对,基因的数目也类似,且大部同源。可是小 鼠和人差异却如此之大。同样,据估计不同人种间基因组的差别仅为0 1 ,而人与猿之间差 别也仅为1 ,但他们表型差异十分显著。因此,这种差异不仅麻从d n a 序列找原因,也戍 考虑到接个基因组,考虑染色体组织上的差异。这一下作开创了比较基因组学。 从功能基因组到系统生物学:不同组织表达基因的数目差别很大,同一组织在不同的生 k 发育阶段,表达基因的种类、数量也是不同的。我们不仅需要了解基冈的序列、基因的功 能,也要了解基冈在不同时间、不同组纵中的表达情况。这就是功能基因组研究。 为研究基因的表达谱,人们从核酸和蛋白两个层次入手。在核酸层次上,基因芯片技术的出 现大大方便了基因表达谱的研究。在蛋白质层次上,发展起了大规模蛋白质分离和序列鉴定 技术,也称蛋白质组技术。无论是基因芯片技术还是蛋白质组技术的发展,都依赖于生物信 息学的理论与技术。目前,功能基冈组研究正向复杂系统的方向发展,即探讨生物系统中各 部分、各层次的相互作用,即系统生物学。 蛋白质结构预测:蛋白质结构预测是指根据蛋白质的一级结构,而推测其高级结构。从 方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研 究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结 己知结构蛋白的结构规律出发,来预测未知蛋白的结构。同源模建方法属于这一范畴。目前 蛋白结构预测研究现状远远不能满足实际需要。 药物分子设计:人类基因组计划的目的之一在于阐明人类约3 4 万种蛋白质的结构、功能、 相互作用以及与人类疾病的关系,寻找有效的防治方法,包括药物治疗。基于生物大分子结 构的药物设计是生物信息学中的极为重要的研究领域。为抑制某些酶或蛋白的活性,在已知 其3 级结构的基础上,用计算机设计新的化学分子,作为候选药物。这种发现新药物的方法 有强大的生命力,也有着巨大的经济效益。 其他:疾病相关的基因分析、代谢网络分析、基因芯片设计和蛋白质组学数据分析等, 逐渐成为生物信息学中新兴的重要研究领域。 东南大学硕j :学位论文 1 2 基因重组【1 0 - 1 1 1 2 。1 基因重组的概念 基因重组是指由于不同d n a 链的断裂和连接而产生d n a 片段的交换和重新组合,形成 新d n a 分子的过程。它是生物进化的一种重要过程。如果没有基因重组,每个染色体中的成 分都会永远固定在它特定的等位基因上,只有通过突变才可能使这些基因发生变化。 1 2 2 重组的意义以及突变和重组 生命进化到如今,很难想象如果没有重组机制,会是怎样的一幅景象。说不定现在还不 会有人这样高等的生物出现。我们知道,遗传和变异是生物进化中的两个相辅相成的机制。 遗传,使得一个物种能够保留其特定的性质,之所以有物种这样的分类也正是由于遗传。变 异,则导致了进化。突变是一种变异,它是在基因组的某一特定区域核苷酸序列发生改变而 引起的基因型稳定的可遗传的改变。重组是已经存在的遗传物质产生新的组合的过程。因此 重组是和突变截然不同的一种变异的机制:重组是已经存在的信息重排,而突变是在基因组 中导入新的信息。尽管如此,突变和重组在分子水平上是相互关联的网为很多重组事件( 特 别是引起转座和不正常重组) 会导致基因破坏,被描述成突变。突变相对于重组来说,虽然 是引入了新物质,但如果没有重组,突变便不能在基因中尽快稳定,毫无疑问,进化的效率 就会降低。 1 2 3 重组的分类 重组有很多种,分子间或染色体间重组通过混合离散染色体产生新的组合( 真核染色体 减数分裂时独立分配核病毒基因组片段的重新连接) ,而分子内或染色体内重组是酶依赖的过 程新的遗传物质通过d n a 的剪切和连接产生。分子内重组有五种类型:同源重组、位点特 异性重组、转座、不正常重n , f u 人工重组。同源重组,顾名思义,其重组对之间是同源的。 调节这一过程的蛋白不是序列特异的,经常涉及长的同源区域( 如减数分裂中) 。位点特异性 重组的重组对之间不需要同源性。阑节这一过程的蛋白( 位点特异性重组酶) 在供体和受体 分子中识别短的、特异d n a 序列,这些蛋白之间的相互作用帮助重组。供体和受体位点之间 经常存在同源性,因为同样的重组酶蛋白可结合两者的识别位点。转座的重组对之间也不需 要同源性。它是由转座酶( 整合酶) 识别重组分子中的短特异序列,即转座因子。一股识别 位点是转座因子和宿主d n a 之间的结合处。受体位点一般在序列上相对菲特异,重组将可转 座因子整合到宿主d n a 中。不正常重组的重组对之间没有或者有少量同源性,是不止常细胞 加工的结果,包括复制中不正常末端连接,链滑动或成环。人二【:重组是在体外用纯化的酶和 底物进行的d n a 连接引起的重组。在本论文中主要讨论的对象是同源重组,下面就这种类型 的重组展开进一步阐述。 第一市绪论 1 2 4 同源重组【1 0 - 1 2 】 1 2 4 1 同源重组的基本概念和分类 同源重组是同源依赖性的,所以具有相关序列的d n a 分子可以进行同源重组。同源重组 有两个基本功能,遗传混合和d n a 修复。转特定噬菌体的复制、酵母交配类型的转化和相关 表型、以及减数分裂时染色体的分配等也与同源重组有关。 同源重组的模型分成二类:拷贝选择模型、断裂和重新连接模型以及杂合模型。拷贝选 择型重组在d n a 复制中发生,新生链延伸时转换为新的模板:断裂和重新连接模型中,重组 在没有d n a 复制时发生,d n a 双链在中间被打断,然后交换、重新链接。杂合模型是结合了 上面两种模型的特征。所有三种类型的重组在不同的环境中发生。减数分裂时发生的同源重 组基本上是通过链断裂和重新连接,而通过重组的d n a 修复涉及拷贝选择和杂台机制。 1 2 4 2 同源重组的步骤 同源重组分成四个阶段:联会、链转移、修复和分解。 联会:同源双链排列。 链转移:一条链从双链转移到另一双链中。当第一条链进入同源双链( 如果受体双 链是完整的) 并取代停留的链时,标志着重组的起始。这样的过程可以产生一个短 区域的异源双链d n a ( 含有从不同亲本分子来源链的取链d n a ,可能包含有不配对 碱基,反映了亲本链的顺利差别) 。如果受体双链是完整的,取代的停留链能够与起 始双链的自由链配对。两条转移链相互交换,形成称为交换桥、交换分支或h o l l i d a y 连接的结构。h o l l i d a y 连接的位置可以通过不断的双链间交换发生移动,这就是分支 移动,可以增加或减少异源双链d n a 的数量。 修复和解离:它们不以固定的顺序进行,因为修复和解离主要看重组的一对烈链是 否能有合适的酶。修复指三个不同的过程。在最简单的例子中,重组双链是完整的 ( 也就是说任何双链都没有遗传信息的丢失) ,修复涉及断裂链的重新链接。这就是 保守重组( c o n s e r v a t i v er e c o m b i n a t i o n ) 。h o l l i d a y 连接可以以两种不同的方式被解 离,产生两种不同的产物一种是不含重组部分的异源双链d n a 另一种是有重 组标记的异源双链的接合。如果双链中的任一条丢失了遗传信息( 即如果有单链缺 口或断裂) ,d n a 修复合成用来自同源烈链的信息为模板来取代丢失的信息。含有新 d n a 合成的重组称为不保守重组。在极端的例子中,整个染色体片段丢失,h o l l i d a y 连接的解离产生了一个能重复丢失片段的复制交叉。第三种类型的d n a 修复为异源 双链d n a 错配修复,它的方向通常是随机的可能引起基因反转。 1 1 2 5 有丝分裂重组 尽管真核生物的同源重组经常发生在减数分裂( 当同源染色体配对时) ,联会和交换也在 其他时期发生特别是在果蝇这样的生物中。同源染色体配对与体细胞有关。任何不在减数 分裂中发生的重组( 也就是说在没有有性生殖的情况) 称为准性交换( p a r a s e x u a le x c h a n g e ) , 东南大学硕上学位论文 这主要指是在细菌中遗传交换的形式。在真核生物中的准性交换发生在细胞器基因中和体细 胞的细胞核染色体间,这就是有丝分裂重组。 同源染色体间的有丝分裂重组可以导致有丝分裂分离,杂合基因座分配到子代体细胞中, 产生根据它们不同表型确定的受体同源克隆。第一个有丝分裂重组的证据来自果蝇,受体同 源组织的邻近片段( 孪生点) 在杂台背景中观察到。如同其他异常的染色体行为,有丝分裂 重组可由x 射线的照射产生双链d n a 断裂诱发。说明这个过程可能是d n a 修复的副产品。 同源染色体间的有丝分裂重组能够用来进行遗传作图。这与减数图谱相类似,但对遗传距离 的计算不完全一样,表明了至少推动减数和有丝分裂重组的因子是不同的。在酵母中发现的 减数分裂和有丝分裂重组基因也证实了这一点。 第二种有丝分裂重组的形式不是发生在同源染色体之间,而是姐妹染色体之间姐妹 染色单体交换。这也是为d n a 损伤所促进的,且它相对上面讨论的非姐妹染色体交换占优势, 反映了细胞周期屙期相关姐妹染色体更近的物理关系。 1 3 本课题的任务及主要研究任务 1 3 1 课题任务 现今对于减数分裂重组机制及其相关表现的研究还主要是通过实验的方法。而由于这些 生物过程本身的复杂性使得这些研究不仅耗时、耗力,而且确定性也不够好。在现在已经 积累了一定的数据的基础上用生物信息学方法米分析相关的数据无疑将给研究带来新的契 机,用最少的代价,换来最多的信息,甚至指导新的研究方向。因此我们深入具体的分析了 文献中报道的有价值的数据,详尽的分析了各种序列特征,以期能够找出隐藏在减数分裂重 组后面的有意义的序列特征,反过来帮助我” 更好的理解减数分裂重组机制。 1 3 2 主要研究成果 本课题的主要思路为:首先对减数分裂重组热点和冷点区域做序列分析。通过分析得到 一些提示性的结果,以这些结果为指导,我们对酵母全基因组的基因进行分析。充分利用实 验得到的数据,分析了相对重组率和各种序列统计特征之间的关系,揭示重组的规律。 课题首先提取了3 5 0 个减数分裂重组热点和冷点基闵,分析了这些基冈的密码子使用偏 性。发现这些密码子的使用偏性和重组率有非常强的相关性。聚类和冈子分析的结果也非常 直观的显示了这种相关性。 然后我们对酵母全基因组的基冈做了更进一步的分析。我们充分利用实验得到的相对重 组率的数据,考察了相对重组率和包括基因的密码子使用偏性在内的各种统计特征之间的关 系。发现基因的重组率和g c 3 s 的相关性最高。 最后我们对得到的结果给出了生物学解释,即基因转换的g c 偏性。我们认为基因转换 的偏性是这里我们得到各种结果的原因,而不是一般认为h i l l - - r o b e r t s o n 效应。当然这个问 题还有很多需要讨论的地方。但就我们的结果而言,都直接或间接的说明这个模型。 第一章绪论 1 3 3 论文结构 第一章:简要介绍了课题的背景,包括生物信息学、基冈重组等,并且说明了本课题的 任务和成果。 第二章:介绍了基因序列统计特征的一些方法,主要涉及我 j 将要应_ j 的一些特征,包 括碱基含量、密码子使用偏性、氨基酸组分等等。同时也介绍了本文涉及的些统计方法。 第三章:介绍了p e r l 在生物信息学中的应用。本文所涉及的程序编制都用p e d 完成。 第四章:分析了酵母基因组减数分裂重组相关的序列特征特别是就酵母的全基因组给 出了详尽的分析。 第五章:对所得到的结果给出了解释。 第六章:对本课题作出总结,并对屙续i :作提山展望。 东南大学硕士学位论文 第二章基因组序列统计特征分析 2 1 序列统计特征分析方法概要吣1 5 1 在产生了海量的基冈组序列之后,如何解读这些蕴含生命意义的数据成了生物信息学的 一个重要课题。由于样本多、单个样本的数据量大等特征,使得统计学在序列结构分析中成 为一个非常重要的研究手段。各种各样的统计特征对于我们从不同的角度理解生物学问题有 着不可替代的作用。例如,_ i 千;| 于识别与基冈相关的特殊序列信号,预测基因的编码区域,或 预测外显子所在的区域等。碱基含量、密码子使用偏性、氨基酸组分等这些简单的序列统计 量,都能在各种不同的序列分析中提示一些很有意义的结果,例如在不同程度上标识一条序 列的来源,反映其功能上的差异等等。当然不同的统计量对不同问题的解析能力也各有不同。 例如在利用寡核苷酸的频率来分辨序列时,如果剧长= 度为8 的寡核苷酸单词,对于4 0 0 b p 的 序列的分辨能力可达8 5 ;用密码子使用偏性来分辨编码序列时j l 乎可以达1 0 0 ,但氨基 酸组分就只能区分5 0 ;g c 含量的解析力就更低了,只有4 0 。因此,在不同的应用中, 首先需要掌握和分析尽可能多的生物学背景,从而找到最适合的统计特征,才能最大限度的 提高分析的效率。 2 2 几种常用的序列统计特征 2 2 1 寡核苷酸含量【1 6 】 寡核苷酸含量是一个基因序列最简单、直观的一种统计特征。一条d n a 序列有四种不同 的寡核苷酸组成,这四种寡核萤酸分别对麻四种不同的碱基:腺嘌呤a 、胸腺嘧啶t 、胞嘧啶 c 、鸟嘌岭g 。假设一条d n a 序列是一句话,那么每句话都由四个字母a t c g 组成。现在我 们来看寡核苷酸含量的定义。殴一条序列长为上,对于2 ”种长为n 的单词,每一种出现的次 数为f f ,f 2 i 。= 1 , 2 ,3 ,4 ,那么在该序列中每个寡核苷酸单词含量为 f nb = f v ,( l 一月+ 1 ) ,i i f 2 i 。= 1 , 2 ,3 ,4 。最简单的,”= 1 时,就是四种寡核苷酸的含量, 也称为四种碱基的丰度。单碱基丰度中最常见的是g c 含量,即g 和c 的单碱基丰度之和。 这在进化、序列功能分析中都很常见。l = 2 时,所得为双碱基丰度。以上定义的是绝对丰度, 在应用中也常用由此衍生的相对丰度,例如二联核苷酸相对丰度d r a ( d i n u l c e o t i d er e l a t i v e p a b u n d a n c e ) ,是1 9 9 4 年k a r l i ns 和l a d u n g ai 提出的,其计算公式为;z ,= 羔,其中e r t f t 表示单个碱基山现的频率,p 表示双碱基丰度。 第二章基因组序列统计特征分析 2 2 2 密码子使用偏性 2 2 2 1 遗传密码 1 7 - 2 1 】 d n a 是生命体的遗传物质是携带遗传信息的载体。生物体的遗传信息以密码形式编码 在d n a 分子上,表现为特定的核营酸排列顺序,并通过d n a 的复制使遗传信息从亲代传向 子代。在后代的生长发育过程中,d n a 分子中的遗传信息转录到r n a 分子中,再由r n a 翻 译成体内各种蛋白质,行使特定的生物功能。在m r n a 翻译过程中,m r n a 上三个相邻的碱 基组成一个密码于,编码一种氨基酸。 遗传密码具有以下的基本特征: ( 1 ) 连续性:两个密码子之间没有任何起标点符号作_ i = j 的密码予加以隔离。 ( 2 ) 线性、不重叠:三个碱基组成一个密码,密码之间没有重叠。 ( 3 ) 通用性:即各种高等和低等的生物( 包括病毒、细菌和真核生物) 基本上共用同 一套密码。 ( 4 ) 简并性:大多数氨基酸所对廊的密码子不止一种( 图2 1 ) 。 六联密码的氨基酸 icecc a l 蠢二g “u k j l t :guao fu v uu :a lcccc16g l a e 6ujcq 圈圈园圃圆 计甘plokg拇v柚 二联密码的氨基酸 圆圆园园园园园园园 l 拇 5 ng i ni - i t s g 吣 蛳t y r铆p 懈 奇数个密码的氨基酸 圈围困 瓣蝴 冈 l 6 l ! 曼苎| t r p终止子 圈2 1 密码子的简并性 - 9 东南大学硕士学位论文 ( 5 )专一性:密码子的简并性往往只涉及到第三位碱基,而密码子的专一性主要由头 两位碱基决定。 遗传密码是所有生物系统都具有的一个最基本的特征,它的结构是进化过程的一个中心 问题。虽然标准的遗传密码在四十年前就已经被破译出来,但是对丁标准的遗传密码究竟怎 么出现的,在有些物种中它又是怎么变化出一些不同的密码的,以及遗传密码的形式与物种 基因组的碱基组成和基因组结构有什么关联这些问题迄今为l t 人们还没有完全认识。然而这 些问题的解释和澄清,对于人们理解生物的进化以及认识生命的过程有着重要的意义。 2 2 2 2 同义密码子使用模式【2 1 】 由于氨基酸对应的密码子的简并性,同一种氨基酸可以使用不同的密码子。在同一个物 种中,同义密码子的使用频率是不相同的。在有些物种中,同义密码子使用的不均匀的程度 甚至非常明显。比如,在编码大肠杆菌的o m p a 蛋白的基因中,一共有2 3 个亮氨酸。尽管亮 氨酸具有六个同义密码子,但o m p a 基因中有2 1 个亮氨酸的编码密码子都是密码子c u g 。 目前已有专门的密码子使用概率的数据库存储基因的密码子使用概率表。不同基因的同义密 码子的使用都不相同,这似乎不能简单的用碱基随机突变来解秆这种现象。 2 2 2 3 密码子使用偏性的生物基础【2 1 _ 2 2 】 虽然对于同义密码子的使j ;i 偏性产生的生物基础已经有了大最的研究,但是到目前为止 人们对这一问题并没有很清楚的认识。对于不同的物种以及不同的基因,产生同义密码子使 用偏性的生物基础各有不同。 基因组本身的组成:由于同一物种或者进化比较近的物种中基因的密码子使用模式 相似,每一物种都有特定的密码子使用模式因此密码子的使用可能跟物种相关, 这也是所谓的基阕组假说( g e n o m eh y p o t h e s i s ) 。 基因表达的多少和表达的时间:高表达的基因。密码子的使用偏性比低表达的基冈 的使用偏性要高得多。 密码子和反密码子的相互作用、t r n a 的丰富度以及基因转录和翻译的效率:密码子 的使用偏性与细胞内的t r n a 含量成正相关特别是对于高表达的基因更是如此。另 外,密码子的使用偏性还与t r n a 的解读能力相匹配。 密码子的前后的相关性:如果密码子的第一和第二位是a 、u ,那么第三位的碱基则 尽量使用g 、c ,反之亦然,这在高表达的基因中尤为明显。这是因为如果密码子 的三位碱基都是a 、u 密码子和反密码子的结合是配对难而分开容易,不利于基闻 的转录和翻译。 整体和局部的基因的g c 含量:整体或局部的g c 禽量高时,密码子的第三位碱基 多选择g 、c ,反之亦然。 基因密码子编码对鹿的氨基酸的二级结构:在e
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 20242-2025声学助听器真耳声性能特性测量
- GB/T 20643.1-2025特殊环境条件环境试验方法第1部分:总则
- 护士考试题库及答案来源
- 桩板墙施工培训课件
- 电工教学培训课件模板下载
- 2025养老护理员理论试题及答案
- 2025年外贸业务跟单员初级实操技能题库
- 2025篮球裁判考试试题及答案
- 2025年质量工程师中级专业技能考试模拟题集及答案详解
- 桥梁介绍课件
- 学校食堂员工薪资方案
- 2025-2030中国冷冻榴莲行业供需现状究及未来销售渠道趋势报告
- DBJ41T 137-2014 防渗墙质量无损检测技术规程
- 百岁居区域+乐活内外勤宣导材料
- 内蒙古职工考勤管理制度
- GB/T 21220-2024软磁金属材料
- 《数字媒体技术导论》全套教学课件
- 吉林大学介绍
- 卫浴设备安装技能的培训与认证
- 废气处理工程协议
- SH/T 3158-2024 石油化工管壳式余热锅炉(正式版)
评论
0/150
提交评论