




已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及 取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论 文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得重麽 整电太堂或其他教育机构的学位或证书而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢 意。 学位论文作者签名:王蝴 签字日期: 硼7 7 钳月沈日 学位论文版权使用授权书 本学位论文作者完全了解重废自g 电太堂有关保留、使用学位论 文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘, 允许论文被查阅和借阅。本人授权重庞童g 壹太堂可以将学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等 复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:王蝻 签字日期: 矽产j 月潮 翩躲专男l 签字日期:玩内c 年6 月z 日 震蓊黧震蒸黧飘鬻霹露蒸熏露露鬻鞭瓣鬻震慕霸鬻瑟鬻鬻熏瓣爨蕊瓣黎黉鬻麓瓣甄瓣鬣瓣鬻瓣臻渤瓣嚣然鬻孺巍瓣篓雾黪龄1 一;? 拍。屯龆砖。0 铀;础p o 非脚,j 胁 “- ,岫嘣- 静 渤妒n 钟自蝴 z ;都甜嘶壮蛳拟蜘舻2 知私蚺榭棚q $ 搬幽褂一r 。一毋带斛蝴* 俐州7 = 妒。 w r 辘豫二w 枷口, 俐w , _ 重庆邮电大学硕士论文摘要 摘要 2 0 0 0 年以来,在人类、水稻等重要生物基因组草图相继完成和信息技 术发展不断推动下,生物信息学研究进入了崭新的后基因组时代。基因组 信息爆炸式增长、研究工具不断涌现、研究理论逐渐完善为人们进一步探 求基因组天书的秘密提供了一个广阔的领域。其中,比较基因组学是以信 息学与计算机科学为工具,通过不同物种相关数据的比较来研究基因组进 化的研究方向。微卫星是基因组中广泛存在的一种简单重复序列,具有高 度的多态性,被广泛应用于分子标记、亲子鉴定、种群遗传研究等领域, 有的还与基因功能和某些遗传性疾病有关。作为一种重要的基因组组分, 其进化研究是基因组进化研究领域的一个热点。 本文采用新的数据和方法研究基因组的基因倍增区域,研究水稻两个 亚种全基因组倍增区域的微卫星进化过程,通过比对分析两种水稻微卫星 进化数据,得到水稻微卫星进化滑动突变、点突变、微卫星长度等因素之 间的关系,估算出了水稻微卫星突变率,得到突变率与微卫星长度之间存 在高斯衰减关系的双碱基微卫星进化模型。由于建模过程中运用极大似然 法与信息学中常用的a i c 信息量准则,模型可移植性较强。与同类进化模 型进行比较发现本文提出的模型比同类模型能更准确地描述水稻微卫星 进化过程。 关键词:基因倍增,微卫星,进化模型 重庆邮电大学硕士论文a b s t r a c t a b s t r a c t s i l l c e2 0 0 0 ,m 孤ys p e c i e s g e i l o m es e q u e i l c ed r a r sh a v eb e 饥c 0 m p l e t e d p o p u l a r s e q u e n c ed a t a b 鹤e sh a v eb e e n 粤d w i i l ga te x p o n 锄t i a lr a t 髓w i mt h em e 唱e n c eo f m f 0 肌撕o n t 池l o g ) r ,c o 叫,u t e rs c i e i l c e 髓d b i 0 1 0 9 ) ,i n t o a s i i l 酉e d i s c i p l i n 争- b i o i i l f o m a t i c s ,i ti sag r e a to p p o r t u i l i t yt 0d i s c 0 v e r 廿1 en e wb i o l o 西c a l i n s i 曲她舔w e u 舔t oc r e a t ea 酉o b a lp c r s p e c t i v e 丘d mw l l i c hu l l i f 洫gp n c i p l e si i l b i 0 1 0 9 y g e l l ed u p l i c a t i o ni s0 n eo fm e 埘吼a 巧耐v i i l gf o r a e si i l n l ee v o l u t i o no f g e n o m e s 锄d 舭l e t i cs y s t e m s t h ed i s t r i b u t i o no fs s ri nt l l ed n as e q u e l l c e t 1 1 e m e c h a i l i 锄o fs s re v o l u t i o na n dc a 啷eo fs s rc o m i n gi 1 1 t ob e i i l ga r ep a n i c u l a r r e c o n :1 1 1 1 e n d e d b y 戚n gt l 圮p o p u l 盯b i o 枷b m a :c i c st o o l s :b l a s t ,b i o p 甜e t c ,c o m p 撕n gs s r a 1 1 e l el o c i a n d 觚a 1 ) ,z i n gs s rm u t a t i o 璐,w eh a y ef o u n do u tm ee v o l u t i o n a l p 剥l i 耐t i e sa l l dm l l t a t i o nb i 嬲o f r i c es s r e v o l u t i o 玛a n dp r e s e n tan e wh y p o n l 懿i so f s s re 、,o h l t i o nm e c h a l l i s m m a x i m l l ml i k e l i h o o dm 卅b di su s e dt 0 池a t em e p a r a m 酏e r so ft l l em o d c l h l0 r d e rt o 伍l d l el a t 朗tm l 岱o f 耻c es s re v 0 l u t i o 玛w e m 肌dm em o d e la n di m p r 0 v em e 南n i l e f m o d d g a :i l s s i 孤d e c a yi n t 0e x p o n 饥t i a ld e c a y w eu s ea i ci n f o 吼a t i o n 嘶t e r i o na n dt r i 肌c l e o t i d e 唧l e a t ss s 飚d a t at 0 飘l b s t a 埘a t e s u p e r i o r i 够o f m ei i i l p r 0 v e dm o d e l k e yw o r d s :g 胁o m ed u p l i c a t i o l l m i c r o s a t e l l i t e ,e v 0 1 砸o nm o d e l n 重庆邮电大学硕士论文 目录 目录 摘要i a b s t r a c t ; 第一章绪论1 1 1 研究背景 1 2 研究任务和目标 1 3 论文结构。 第二章基因倍增研究背景5 2 1 基本概念 2 2 基因倍增研究进展。6 2 2 1 基因倍增现象及其重要性6 2 2 2 模式植物基因倍增研究进展7 2 3 本章小结 8 第三章微卫星进化模型研究背景9 3 1 微卫星介绍 3 2 微卫星进化模型 9 3 2 1 逐步突变模型10 3 2 2 k 等位基因模型1 2 3 2 3 无限等位基因模型13 3 3 研究方法介绍1 4 3 3 1m 列( o v 链1 4 3 3 2 极大似然法。16 3 3 3a i c 信息量准则1 6 3 4 本章小结 第四章水稻基因倍增的微卫星提取与分析1 8 4 1 材料与方法 4 1 1 微卫星筛选标准18 4 1 2 数据提取19 4 1 3 微卫星多态性分析算法2 0 i i l 重庆邮电大学硕士论文目录 4 2 结果与分析 4 2 1 微卫星频率分布分析”2 1 4 2 2 微卫星突变分析2 3 4 3 本章小结 第五章微卫星进化模型构建2 8 5 1 数据与方法 5 1 1 原始数据2 8 5 1 2 模型构建”2 8 5 1 3 参数选择2 9 5 2 模型构建结果与分析 5 3 模型比较与分析 5 - 3 1 突变倾向31 5 3 2 模型的适应性31 5 3 3 模型比较与分析3 2 5 4 本章小结。3 3 第六章总结及未来的工作”3 4 6 1 总结 6 2 未来的工作 3 4 3 5 致访 3 6 攻硕期间从事的科研工作及取得的研究成果3 7 参考文献3 8 重庆邮电大学硕士论文 第一章绪论 1 1 研究背景 第一章绪论 生物信息学( b i o i n f o 彻a t i c s ) 是8 0 年代未随着人类基因组计划( h u m a n g e n o m ep r o j e c t ) 的启动而兴起的一门交叉学科。生物信息学研究的目标是 揭示生物分子信息的本质,使人类彻底了解、掌握遗传信息的编码、传递 及表达,从而加快人类了解自身的进程。研究内容有:收集和管理生物分 子数据,使得生物学研究人员能够方便地使用这些数据,并为信息分析和 数据挖掘打下基础;进行数据处理和分析,通过信息分析发现数据之间的 关系和本质规律,进而上升为生物学知识;开发分析工具和实用软件,解 决具体的问题,为具体的生物信息学应用服务,如生物分子序列比较工具、 基因识别工具、生物分子结构预测工具、基因表达数据分析工具等。 在生物信息学领域,常常要对数据进行分析,对数据的分析和挖掘能 够获得新的设想和猜测,基于这些基本的数据分析结果,可以建立合适的 数学模型,再利用计算机进行模拟仿真验证模型的可靠性,根据模拟的结 果再改进模型,依次循环,直到得到满意的仿真结果为止。计算机模拟在 生物信息中的步骤如下图1 1 所示: 反馈,改进楱熠 图1 1 计算机模拟试验 信息技术特别是计算机科学技术的快速发展让人们能够依靠高性能 的计算机完成传统生物学不可能完成的任务,采用高性能计算机对大量生 物数据进行全面的分析,通过数学建模以及计算机模拟技术能够使生物学 得到快速的发展。通过收集、组织、管理生物数据,使研究人员能够迅速 霖雾蓊蒸飘熏瑟蓊毳雾蓊臻蓊焉溪鬻鬟焉霹羲綦懑慧黼薷蘩嚣黧鬻鬻瓣鬻纛蓊鬻鬻鬟瓣蔫瓣嚣黧蓊蓊鬻囊懑黼:0 ,越j r :t i 赍瓣蝴1 5 啼蝣舻琳l 舢- 嚣铷;1 ;船掣瑚舭,硝啦r m 带4 撇p _ ;,协# 矾,? 鞯吨s k # 惭: ,黼。腻* , 埘+ 十堍g 斟、“稍h 嘭fo 鲋;”帆? _ 柙训v o 榉h 。峨荆口3 ,i 7 就“一o - 耕, 重庆邮电大学硕士论文第一章绪论 地获得和方便地使用相关信息;通过处理、分析、挖掘生物分子数据,得 到深层次的生物学知识,加深对生物世界的认识;在生物学、医学研究和 应用中利用生物分子数据及其分析结果,可以大大提高研究和开发的科学 性及效率。计算机建模以及仿真技术在生物信息分析中也具有重要作用, 从分子或者原子水平上的相互作用出发,建立分子体系的数学模型,利用 计算机进行模拟实验,预测生物分子的结构和功能,预测动力学及热力学 等方面的性质等。建模和仿真技术在生物信息学各个方向都得到了广泛应 用。 基因的起源及其进化过程一直是研究者们热衷于研究的问题,生物进 化经历了一个漫长而复杂的过程,而基因作为生物体的基本元素,它的起 源及其进化过程更加复杂,如何由少数的基因进化到现今的众多的基因, 基因倍增在进化过程中具有十分重要的作用,所谓基因倍增是指d n a 片段 在基因组中倍增出一个或更多的拷贝,这种d n a 片段可以是一小段基因组 序列、整条染色体甚至是整个基因组。早在上世纪七十年代o h n o 就提出了 基因倍增理论,他认为基因功能在具备多样化之前,必需先发生基因倍增, 生物的进化过程中基因倍增的重要性可能超过突变与天择。基因倍增是基 因组进化最主要的驱动力之一,是产生具有新功能的基因和进化出新物种 的主要原因。基因倍增研究对揭示早期基因组进化的神秘面纱具有重要意 义。 而基因进化过程中的倍增过程是非常复杂的,传统的试验生物学无法 阐明这个过程,通过对基因数据的分析和处理发现,基因倍增有两种模式: 连续基因倍增和大规模基因倍增,两种基因倍增过程均产生大量基因家 族。连续基因倍增是d n a 分子倍增出一个或多个邻近拷贝的过程,其通过 高频率的基因产生和死亡实现基因家族的进化;大规模基因倍增是染色体 中大片段基因组倍增甚至全基因组倍增,其发生频率较低,且倍增基因通 常大量丢失,存留下来的倍增基因积聚突变或者获得新的功能,或者退化 成没有功能的假基因。尽管能够通过对基因数据的分析找到两种倍增模式 的存在,然而,整个基因组进化过程中,基因倍增的许多细节并不清楚。 利用计算机建模和模拟对基因倍增过程进行研究将会在该领域取得突破 性的进展,l y n c h 和c o n e f y 第一次研究了全基因组中基因倍增和基因丢失 的程度,发现倍增年代对应的倍增基因数量关系曲线呈现l 形状,他们提 出一个随机模型来动态刻画基因数量的增长过程,由此推断基因倍增和丢 失的比例。该模型对基因倍增的研究具有启发意义,揭示了基因组的倍增 过程,其缺点在于模型并没有考虑两种倍增模式在进化中的不同作用。 2 重庆邮电大学硕士论文第一章绪论 随着许多基因组测序列计划的完成,基因组数据飞速增长,这为基因 倍增的研究提供了更多的数据支撑。目前,通过大量的基因组数据的研究 揭示了许多物种的基因倍增情况,基因倍增现象的普遍存在证明了o h n o 关 于基因倍增重要性的观点。随着对基因倍增研究的深入,不能再局限于发 现基因倍增的现象,而是研究基因倍增的整个过程,动态刻画基因倍增两 种模式对基因组进化产生的影响,从而更深刻的理解基因倍增过程。 1 2 研究任务和目标 本文通过数学建模和计算机模拟对水稻基因组倍增的过程进行了研 究,模拟结果表明水稻基因组在进化中的实际倍增过程与本文提出的模型 能够较好的吻合。本文的模型考虑了两种基因倍增模式的影响,并结合了 特定基因组实际的倍增特点,动态刻画了基因倍增的过程,运用模型对基 因倍增过程进行模拟,更深入的理解了基因倍增在基因进化中的重要作 用。然后将以w h i t t a k e r 提出的i a m 模型建模思想为基础【3 】,利用全基因 组微卫星数据,综合考虑了突变倾向,突变对微卫星长度的依赖,模型可 移植性等因素,得到一种全新的基于高斯衰减的微卫星进化模型。本文提 取水稻两个亚种基因组中双碱基与三碱基微卫星,运用b l a s t 序列比对软 件确定微卫星的理想性与特异性,并借助p e r l 语言编写的分析程序,研究 微卫星多态性。估算出水稻双碱基微卫星进化过程中突变率、突变倾向、 突变率随长度的衰减参数。本文利用信息建模与计算机模拟技术,对两种 水稻亚种间双碱基微卫星进化进行研究,数据拟合结果显示水稻双碱基微 卫星进化过程与本文提出的模型能够较好的吻合。运用a i c 信息量准则将 本文提出的模型与w h i t t a k e r 提出的指数衰减模型进行比较,得到的结果 显示,本文模型比指数衰减模型更符合水稻微卫星进化过程。由于建模过 程运用极大似然估计与a i c 信息准则,使得模型具有较强的移植性,可以 应用于其他物种全基因组微卫星进化的研究。 1 3 论文结构 本文共分六章,各章的内容安排如下: 第一章主要介绍生物信息学的发展,基因倍增研究的背景和有待解决 的问题,以及本文的任务和目标。第二章介绍基因倍增研究基础,介绍了 模式植物基因倍增的研究和发展,以及基因倍增研究的方法和发展方向。 3 重庆邮电大学硕士论文第一章绪论 第三章介绍微卫星及其进化研究进展,进化模型的分类以及各类模型的特 点,主要研究方法。为第五章提出模型提供理论依据和参考对象。第四章 收集水稻基因组,通过编写p e r l 代码提取水稻基因组1 2 个染色体中的双 碱基与三碱基微卫星,并利用序列比对工具b l a s t 进行特异性验证。分析 水稻微卫星多态性、突变特点、突变倾向,为第五章建立进化模型提供数 据支持。第五章根据二、三、四章的理论数据支持,结合信息学与计算机 工具,构建水稻全基因组基因倍增区域的微卫星进化模型,利用m a r k o v 过程计算滑动突变率,利用极大似然估计法估算出水稻微卫星的突变率, 并得出了描述水稻微卫星进化的高斯衰减模型。并与w h i t t a k e r 提出的指 数衰减模型进行对比【3 】,运用信息学常用的a i c 信息量准则,对模型进行 评价。 4 女赫。v 孤一,幽咄m 酵融鹄删女神涨t 戚黼嘲二。、 ;争t 喘二勰:拱坩h _ ,# 嘏,鼢舯瑞z 缸,蕊* 崩裂* 职4 0 ,- 血删骺w 忧蝴毋”喇剐弘;鳓# 他十舡v 删郴。辚扣辑加一嘶熟槲靴? # v 3 “矿 ,o r ”舳# 帆轴蝴删抟喘黼俯k q 啪壮一 鎏鎏杰:兰;:j 童墨i 云砷舞j ! 。:碗簪毛:j = 鼍i ;。- 赢。:矗;葛毒一;量曩曼;璺:曼曼。! 曼兰兰:竺i 銎窭曩毫蠹。爱蒜毒三= 曼品t 喾耋鬲:= = 淼i 毛,赫,眵品毒,孟越i 。诫茹、 _ 专二赢呵旁= t 赢i 一帮一国鼍盎鼍i 每多。多惫j 弘 重庆邮电大学硕士论文第二章基因倍增研究背景 2 1 基本概念 第二章基因倍增研究背景 生物信息学( b i o i n f o r m a t i c s ) 是生物学与计算机科学以及应用数学等学 科相互交叉而形成的一门新兴学科。它通过对生物学实验数据的获取、加 工、存储、检索与分析,进而达到揭示数据所蕴含的生物学意义的目的。 由于当前生物信息学发展的主要推动力来自分子生物学,生物信息学的研 究主要集中于核苷酸和氨基酸序列的存储、分类、检索和分析等方面,所 以目前生物信息学可以狭义地定义为:将计算机科学和数学应用于生物大 分子信息的获取、加工、存储、分类、检索与分析,以达到理解这些生物 大分子信息的生物学意义的交叉学科。 基因是d n a ( 脱氧核糖核酸) 分子上具有遗传效应的特定核苷酸序列的 总称,是具有遗传效应的d n a 分子片段。基因位于染色体上,并在染色 体上呈线性排列。基因不仅可以通过复制把遗传信息传递给下一代,还可 以使遗传信息得到表达。不同人种之间头发、肤色、眼睛、鼻子等不同, 是基因差异所致。 染色体( c h r o m o s o m e ) :是染色质在细胞分裂过程中经过紧密缠绕、折叠 凝缩和精细包装形成的具有固定形态的遗传物质存在形式。简而言之,染 色体是一个大的单一的双链d n a 分子与相关蛋白质组成的复合物,d n a 中含有许多贮存和传递遗传信息的基因。 基因组( g e n o m e ) 就是一个染色体组上遗传物质所有的补足物。大部分 动植物细胞都含有两个基因组,也就是双倍体,而相对的真菌、藻类和细 菌大多只含有一组染色体,被叫做单倍体。 基因倍增是指d n a 片段在基因组中倍增出一个或更多的拷贝,这种 d n a 片段可以是一小段基因组序列、整条染色体甚至是整个基因组。基 因倍增是基因组进化的一种重要机制,是基因功能多样化的前提,也是物 种进化的主要推动力。 基因倍增有两种模式:连续基因倍增和大规模基因倍增,两种基因倍 增过程均产生大量基因家族。连续基因倍增是d n a 分子倍增出一个或多 个邻近拷贝的过程,其通过高频率的基因产生和死亡实现基因家族的进 化;大规模基因倍增是染色体中大片段基因组倍增甚至全基因组倍增,其 5 重庆邮电大学硕士论文 第二章基因倍增研究背景 发生频率较低,且倍增基因通常大量丢失,存留下来的倍增基因积聚突变 或者获得新的功能,或者退化成没有功能的假基因。 同源基因:经过共同祖先基因进化而来的不同基因。分为种内同源和 种间同源。 同义置换:是指不影响氨基酸编码的d n a 序列变异,同义置换率( k s ) 是指同义置换在基因组序列中发生的概率。 2 2 基因倍增研究进展 2 2 1 基因倍增现象及其重要性 基因倍增现象广泛存在,据估计,人类基因组中大约有15 的基因由 基因倍增产生,而在果蝇、线虫和酵母基因组中有8 2 0 的基因由此产生, 模式生物的基因倍增率大约为每个基因每百万年倍增0 2 2 嘣2 9 1 。近年来 对基因倍增研究发现脊椎动物,模式植物,酵母等中存在不同程度的大规 模基因倍增,有的甚至是全基因组倍增。 在基因倍增的研究中,存在大量对应同源基因的两个片段被称为同线 性( s y n t e n y ) 区域,通过寻找这些片段并结合片段中丢失的基因来判断大规 模基因倍增的范围;利用同源基因的平均同义置换率( k s ) 估计基因倍增的 年代,结合系统发育分析来研究基因倍增和物种分化的前后顺序。基于以 上的理论和方法,近年来对基因倍增研究发现脊椎动物,模式植物,酵母 等中存在不同程度的大规模基因倍增,有的甚至是全基因组倍增。 美籍日本科学家o h n o 在上世纪七十年代发表了题为基因倍增进化的 文章,从而引发了对基因倍增进化理论的研究和讨论。在o h n o 关于基因 倍增的专论中提到:从一个细菌到形成大量种类的细菌,进化完全取决于 自然选择吗? 从一个单细胞有机体发展到多细胞动物,脊椎动物,再到后 来的哺乳动物是很不可思议的。这样的进化飞跃需要产生先前不存在的新 功能的基因,只有那些冗余的顺反子能够逃脱残酷的自然选择压力。它通 过逃脱自然选择积聚了先前禁止的突变来形成一个新的基因位。后来, o h n o 意识到d n a 能够作为一个强大的手段,通过这个手段可以形成新的 基因或者旧的基因的新功能基因可以在进化过程中通过多种方式产生新 基因。 基因功能在具备多样化之前,必需先发生基因倍增,由此可见基因倍增 在进化中的重要性。基因倍增是基因组进化最主要的驱动力之一,是产生 6 重庆邮电大学硕士论文第二章基因倍增研究背景 具有新功能的基因和进化出新物种的主要原因之一。 2 2 2 模式植物基因倍增研究进展 1 拟南芥 双子叶模式植物拟南芥基因组中存在大量的基因倍增区域,不同的研 究者提出了从一次到多次可能发生过的基因倍增事件。l y n c h 和c o n e r y 发 现多数拟南芥基因的倍增发生在6 5 0 0 万年前,由此表明拟南芥发生了一 次基因倍增事件。g u i l l a u m eb l a n c 等利用蛋白质序列相似性搜索来探测在 基因组中的倍增区域,并分析基因倍增发生的年代和邻接倍增区域的重叠 度,结果表明拟南芥至少经历了两次截然不同的基因倍增事件,一次是大 约发生莅比先前估计的年代更久远的多倍化事件,在拟南芥和芸苔分化之 前,大约地球上出现十字花科的时期( 2 4 4 0 百万年前) ;另一次更古老的倍 增发生在单子叶和双子叶植物分化之后。分析拟南芥基因组中一个严重退 化的倍增区域表明形成这个双子叶植物模式生物的基因组很可能是三次 多倍化事件。 研究拟南芥倍增片段发现其中大部分基因丢失,大约有2 8 的倍增基 因保留下来【35 1 ,虽然基因倍增后严重的基因丢失减少了拟南芥基因组中的 同线性( s y n t e n y ) 区域,但拟南芥基因组仍然包含大量的倍增染色体片段, 以上研究由于采用不同的方法导致基因倍增的年代和规模的不同解释,在 今后研究拟南芥基因组倍增的年代和规模中,运用恰当的方法和新的基因 组注释数据变得更加重要。此外,最近的研究发现,在拟南芥中,伴随一次 基因组倍增事件存留下来的副本基因在接下来的基因倍增中将有大于5 0 甚至更大的可能性继续存留下来,该研究将引发研究者对其他物种基因 组是否存在同样或类似的规律的讨论。 2 水稻 水稻具有较小基因组,能更好的理解遗传和进化问题。早在7 0 多年 前便有研究者第一次提出水稻是一个多倍体,但水稻基因组的多倍性起源 却长期没有证据支撑。2 0 0 2 年水稻基因组测序完成后有许多文献报道水稻 基因组中存在大量的基因倍增,主要根据水稻基因倍增的年代与范围的不 同来研究水稻的多倍性起源。 水稻基因倍增研究比较表明( 如表2 1 所示) :较多的研究趋向于水稻 基因倍增年代在7 0 m y a ,在基因倍增范围上,随着基因数据的完善,最近 的研究多数也支持水稻的全基因倍增。关于水稻基因组倍增的年代和范围 7 重庆邮电大学硕士论文 第二章基因倍增研究背景 的不同结果是由于不同的方法或者数据造成的不同的解释。 表2 1 水稻基因倍增研究比较( m y a 指百万年前) 倍增年代发表 水稻亚种倍增程度作者结论 ( m y a ) 年代 ja p o n i c a 4 0 5 05 9 g o f f 等2 0 1全基因组倍增 2 0 0 2 j a p o n i c a 7 01 5 v a n d e p o e l e 等 非整倍体 2 0 0 3 ja p o n i c a 7 02 0 s i m i l l i o n 等2 2 1非整倍体 2 0 0 4 ja p o n i c a 7 0 6 1 9 p a t e r s o n 等多倍体2 0 0 4 i n d i c a6 6 7 04 5 w a n g 等 两次全基因组倍增 2 0 0 5 i n d i c a5 5 7 06 5 7 y u 等2 4 1全基因组倍增 2 0 0 5 2 3 本章小结 本章主要介绍了基因倍增的基本概念目前基因倍增研究进展。基因功 能在具备多样化之前,必需先发生基因倍增,由此可见基因倍增在进化中的 重要性。基因倍增是基因组进化最主要的驱动力之一,是产生具有新功能 的基因和进化出新物种的主要原因之一。后面研究数据采用水稻全基因组 数据,本章重点介绍了拟南芥和水稻基因倍增的研究进展,为后面提取和 分析数据打好基础。 第三章微卫星进化模型研究背景 第三章微卫星进化模型研究背景 3 1 微卫星介绍 微卫星属于串连重复,串连重复是基因组中的一大类重复序列,按长 度分为:卫星、小卫星以及微卫星。 卫星长达数m b ( m e g ab a s e ) ,在整个基因组中约占数个百分比,常位 于着丝点附近,与着丝点蛋白质的结合有关,并且也可能参与着丝点的功 能。小卫星,又称为v n t r ( v a r i a b l en u m b e rt a n d e mr e p e a t ) ,是单元长度在 1 0 一10 0 个核苷酸的一种重复序列,其长度可达数百上千个核苷酸。小卫 星可以作为探针用于d n a 指纹识别技术。小卫星重复次数的变化会影响 等位基因的结构,另外其还与基因转录有关。 微卫星,又称简单重复序列,是以少数几个核苷酸( 1 1 0 个,多数为 2 4 个) 为单位多次串联重复的d n a 序列。微卫星标记由核心序列和两侧 保守的侧翼序列构成。保守的侧翼序列使微卫星特异地定位于染色体某一 区域,核心序列重复数的差异则形成微卫星的高度多态性。造成微卫星重 复序列长短变化的原因目前认为主要是d n a 聚合酶复制打滑和点突变。 根据微卫星的结构,w e b e r 等将其分为三类【4 】 理想( p e r f e c t ) 微卫星,即由不中断的重复单位构成的微卫星,且微卫 星左侧翼序列不包含迸一步的重复单元。 非理想( i m p e r f e c t ) 微卫星,即微卫星重复序列中间有3 个以下的非重 复碱基,两侧不中断的部分重复数大于3 。 重复单元 厂 理想微卫星a g c t a g 嘲a ga t a t a t a t 胛 c g 甜 1。j【一 侧翼序列核心序列( 模体) 繇理想微卫星a g c t a t o g t a t a ga t a 强a a t 觚a a 懈t 复合式微卫星a g c - r t a t a ga t a t a 丁m a a a a a a 盯c g 图3 1 微卫星分类 9 釉料脚,埘二“* n “硼一娜。“”一” w 一。一1 。+ + :”。“一“1 “。 i 毒:嚣鬻篱i 毫誉叠鸶鬻罐藕蔷篓荔j = 嚣;鸶耋! 耋毒麓豢翥毒豢;萼萋茹毒骞簿誊i i 爱乎”嘉舞篓豢誊蠹i 熹i 囊豢豢骛禚豪誊囊荔囊鬻辫瓣i 誊誊墓誊譬一 重庆邮电大学硕士论文第三章微卫星进化模型研究背景 复合式( c o m p o u n d ) 微卫星。复合式微卫星则指两类或两类以上的串联 重复单位由3 个连续的非重复碱基分隔开,但不中断的重复单位的重复数 不小于5 。 。 在本文中微卫星将用( 基本重复单元) 重复次教形式表示,如图3 1 所示。 3 2 微卫星进化模型 为了解等位基因在特定群体中的数目、大小、范围、分布频率等是如 何形成的,往往需要借助于模型来进行研究。从目前所进行的一些研究来 看,没有一种模型能够适用于所有微卫星数据。微卫星进化的模型经历了 s m m 模型、k a m 模型、i a m 模型三个阶段,对于每一类模型,又因为突 变过程与种类是否一致、滑动突变是否依赖微卫星长度、是否具有起始突 变长度等假设的存在,衍生出许多子模型。 3 2 1 逐步突变模型 最早的微卫星模型是逐步突变模型( s m m ) 模型,是在研究等位基因电 泳( e l e c t r o p h o r e t i ca 1 1 e l e s ) 时提出【5 】。该模型认为,当微卫星突变时只会增 加或者减少一个重复单元,这就暗示两个等位基因如果只相差一个重复单 元,那么他们是紧密相关的( 可能有一个相对较近的共同祖先) 。换句话 说,当我们用统计学手段检测种群基础时,微卫星的尺寸是问题的关键。 在该模型中微卫星突变率与微卫星重复单元长度相互独立,而且发生 突变时只增加或减少一个重复单元,当然微卫星的长度不能小于一个重复 单元,如果以x 作为微卫星的长度,那么 z 一 x + 1 突变速度为y 彳一 x 一1 突变速度为y v 一7 这是一个具有最小边界的随机游动模型。根据这个原始模型,通过附 加条件,又演变出许多子模型。 k r u 9 1 y a k 等【6 】对上述模型提出了修正,允许突变率随微卫星的长度变 化,认为突变率同微卫星的长度呈正比例关系: 石一 x + l 突变率为6 ( x 一1 ) , 、 x 一 x 一1 突变率为6 ( x 一1 ) v 一7 s i b l y ,w h i t t a k e r 和t a l b o t 又提出了线性模型【7 】: l o 嚣蔫曩飘零燕露薷焉纛震露瑟霖震需懑雾蓊蒸需零零需蓊纛黧瑟蓊蒸熏瓣瓣蒸鬻黧黼瓣麟嚣鬻瓣瓣 重庆邮电大学硕士论文第三章微卫星进化模型研究背景 x 一 x + 1 突变率为6 0 + 6 l ( x 一1 ) , 工一 x 一1 突变率为6 0 + 6 l ( x 一1 ) 【j j j 这一恒定比例项6 0 类似于d i e r i n g e r 提出的“i n d e ls l i p p a g e ”比例项【8 1 。 为防止微卫星比最小长度誓还短的变化,c a l a b r e s e 等进一步拓展了该模型 【9 】: x 一 x “耋兰兰拳6 ( x k ) +( 3 4 ) x 一 x 一1 突变率为6 ( x 一彭) + 、7 ( 这里的( x r ) + = m a ) 【( x 一茁,o ) ) 。有规则随机游动的模型在他们可列的 状态空间上不存在稳态分布10 1 。n a u t a 提出了基于s m m 模型的无限等位 基因模型,通过对随机游动加入反射边界,约束取值范围,从而确保存在 一个稳态分布【1 1 ,12 1 。 另外一种复杂的情况就是让突变速率变得不规则。w a l s h 【1 3 】提出了线 性生灭链,一个比例复制打滑模型。该模型中的变化率在偏向的收缩是随 微卫星的长度线性增加: x 一 x + 1 突变率6 z 一 x 一1 突变率砑 ( 3 5 ) 因为x 2 ,3 ,4 ,) 并且在更小的生成率y 时,1 专2 。出当d b 1 时该模型存在恒定的分布【1 ”。f u 和c h a k r b o n y 【1 4 1 提出在稳定状态允许更 大变动、按照几何分布的模型。c a l a b r e s e 和d u r r e t t 【1 5 】概括描述的模型早 于不对称的现状模型以及二次模型,其中线性模型: x 一 x + l 突变率为+ ( x 一茁) + x 一 x 一1 突变率为+ 西( x 一茁) + ( 3 6 ) 非线性模型: x 一 x + 1 突变率为+ ( x r ) + + 【甜2 ( x 一茁) + 】2 x 一 x 一1 突变率为或+ 4 ( x r ) + + 吐( x 一茁) + 】2 ( 3 7 ) 本文考虑的是包含复杂变化一点突变的模型。点突变可以中断微卫 星,例如( a t ) 2 0 变换为( a t ) 1 2 g t ( a t ) 7 。b e l l 和j u r k a 提出了点突变压抑了 微卫星成长的论断 16 1 ,k r u g l y a k 提出了两个过程的模型【6 1 。 单步比例滑动突变( 如上所述) :在x 专彳+ 1 时,突变率6 ( x 一1 ) ;在 x x 一1 时,突变率为6 ( x 一1 ) 。 点突变:x 寸, 1 o 批 o 口 其他 ( 3 10 ) 该模型允许突变率随着微卫星的长度增加,k 为起始长度,当微卫星 大于起始长度时才会发生滑动突变;q 是微卫星的最大长度,一般为几十 1 3 重庆邮电大学硕士论文第三章微卫星进化模型研究背景 个重复单元;s 是一个比例参数,表示微卫星突变率对长度的依赖程度, 它的取值范围为( 天,) ;( o ,) ,表示基本突变率;材为常数倾向参 s 2 一r 数,代表微卫星突变率是常数的程度,取值范围 0 ,1 】;,( 咖,o o ) ,线性倾 向参数,表征微卫星突变率是线性的程度。 3 3 研究方法介绍 早期的微卫星进化模型研究应用的研究方法主要是通过试验观察和 基本的统计分析。目前对微卫星进化模型研究的数据主要来源于基因组, 需要处理海量的数据,而且基因组数据之间已经具有复杂的进化过程,因 此需要一个能够反映两个状态关系,而不深究其过程的算法。除此之外, 建模过程中需要对参数进行估计,模型之间的优劣更需要有评价标准,于 是选择正确的工具与方法,能够更有效的提现微卫星本质的进化规律。目 前微卫星研究领域主要运用m a r k o v 链来描述进化过程【3 ,6 ,7 ,1 7 ,1 9 ,2 0 2 1 1 ,极大 似然估计法进行参数估计【3 ,7 ,9 1 ,a i c 信息量准则来评价模型【2 0 ,2 1 1 。 3 3 1m a r k o v 链 m a r k o v 过程是一类重要的随机过程,原始模型m a r k o v 链由俄国数学 家m a r k o v 于1 9 0 7 年提出,描述在已知系统目前( 现在) 状态的条件下,系 统未来( 将来) 的演变不依赖于以往( 过去) 的演变,换言之,在已知“现在” 的条件下,“将来”与“过去”无关,具有这种特性的随机过程成为m a r k o v 过程。 设随机序列 以,刀r ) 为一m a r k o v 过程,r = o ,1 ,2 ,) 为离散的时间参 数集合,记s 为e 可能取值的全体组成的状态空间: s = 墨,& ,s ( 3 1 1 ) 若对所有正整数刀丁,如果条件概率均满足 尸 一黾p 一s o ,五以一,五一& = 尸 五一& i 以一 ( 3 1 2 ) 则称随机过程 以,刀仨丁) 为一个m a r k o v 链,其统计特性完全由条件概 率 1 4 重庆邮电大学硕士论文第三章微卫星进化模型研究背景 p b 一邑盼一k n 来决定。直观的含义是:如果系统在现在时刻刀一1 处于状态,则 在将来时刻,z 的状态s 与过去时刻以一2 ,1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025挖掘机租赁合同范本模板
- 工地持续供货合同范本
- 疫情点对点包车合同范本
- 仓储与运输合同范本
- 茶叶销售合同范本
- 美容产品合作合同范本
- 2025鞋类生产外协合同
- 2025授权销售合同协议范本
- 物业防水补漏合同范本
- 水果产品合同范本模板
- 2025年初级工程测量员考试试题(附答案)
- 2025低空经济发展及关键技术概况报告
- 学堂在线 经济学原理 章节测试答案
- 2025年湖北省宜昌市【辅警协警】笔试模拟考试(含答案)
- 2025学校“三重一大”事项集体决策制度及会议记录
- 动脉采血常见并发症及处理护理
- 2025年高压电工作业操作证考试题库及答案含答案
- 2025年我国优抚安置政策法规考试试题及答案解析
- 快递驿站分区管理办法
- 中职学校就业管理办法
- 保税进口料件管理办法
评论
0/150
提交评论