(通信与信息系统专业论文)信息建模技术在水稻基因组研究中的应用——水稻微卫星进化模型研究.pdf_第1页
(通信与信息系统专业论文)信息建模技术在水稻基因组研究中的应用——水稻微卫星进化模型研究.pdf_第2页
(通信与信息系统专业论文)信息建模技术在水稻基因组研究中的应用——水稻微卫星进化模型研究.pdf_第3页
(通信与信息系统专业论文)信息建模技术在水稻基因组研究中的应用——水稻微卫星进化模型研究.pdf_第4页
(通信与信息系统专业论文)信息建模技术在水稻基因组研究中的应用——水稻微卫星进化模型研究.pdf_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

重庆邮电学院硕士论文 摘要 摘要 2 0 0 0 年以来,在人类、水稻等重要生物基因组草图相继完成和信息技术发 展不断推动下,生物信息学研究进入了崭新的后基因组时代。基因组信息爆炸 式增长、研究工具不断涌现、研究理论逐渐完善为人们进一步探求基因组天书 的秘密提供了一个广阔的领域。其中,比较基因组学是以信息学与计算机科学 为工具,通过不同物种相关数据的比较来研究基因组进化的研究方向。微卫星 是基因组中广泛存在的一种简单重复序列,具有高度的多态性,被广泛应用于 分子标记、亲自鉴定、种群遗传研究等领域,有的还与基因功能和某些遗传性 疾病有关。作为一种重要的基因组组分,其进化研究是基因组进化研究领域的 一个热点。 本文首先介绍微卫星进化研究的背景和微卫星进化的最新研究进展,包括: 微卫星的序列特征,产生原因和突变机制,以及微卫星进化模型的发展过程。 目前对亚种间微卫星进化的研究还未见报道,本文主要研究水稻( o r y z a s a t v a l ) 两个亚种( i n d i c a 与j a p o n f c a ) 全基因组微卫星进化过程,通过比对分析两种水稻 微卫星进化数据,得到水稻微卫星进化滑动突变、点突变、微卫星长度等因素 之间的关系,估算出了水稻微卫星突变率,得到突变率与微卫星长度之间存在 高斯衰减关系的双碱基微卫星进化模型。由于建模过程中运用极大似然法与信 息学中常用的a i c 信息量准则,模型可移植性较强。与同类进化模型进行比较 发现本文提出的模型比同类模型能更准确地描述水稻微卫星进化过程。 关键词:水稻,微卫星,进化模型,a i c 信息量准则,建模 重庆邮电学院硕士论文 摘要 a b s t r a c t s i n c e2 0 0 0 ,m a n ys p e c i e s g e n o m es e q u e n c ed r a i t sh a v eb e e nc o m p l e t e d , i n c l u d i n gh u m a ng e n o m ed r a f t ,r i c eg e n o m ed r a f t p o p l a rs e q u e n c ed a t a b a s e s , s u c ha sg e n b a n ka n de m b l h a v eb e e ng r o w i n ga te x p o n e n t i a lr a t e s w i t ht h e m e r g e n c eo fi n f o r m a t i o nt e c h n o l o g y ,c o m p u t e rs c i e n c ea n db i o l o g yi n t oas i n g l e d i s c i p l i n e - 一b i o i n f o r m a t i c s ,i ti sag r e a to p p o r t u n i t yt od i s c o v e rt h ei l e wb i o l o g i c a l i n s i g h t sa sw e l lf i t st oc r e a t eag l o b a lp e r s p e c t i v ef r o mw h i c hm 母洒gp r i n c i p l e si n b i o l o g y i nt h i sp a p e r , t h ed e f i n i t i o n , a p p l i c a t i o n sa n dr e s e a r c hp r o g r e s so fs s ra n di t s e v o l u t i o nm o d e l sa r ei n t r o d u c e d n ed i s t r i b u t i o no fs s ri nt h ed n a s e x l u c u c e , t h e m e c h a n i s mo fs s re v o l u t i o na n dc a u s eo fs s rc o m i n gi n t ob e i n ga r ;ep a r t i c u l a r r e c o m m e n d e d w ee x t l a c td i n u c l c o t i d er e p e a t ss s r sa n dt r i n u c l c o t i d er e p e a t ss s r s f r o mt w ok i n d so ff i c eg e n o m es e q u e n c e s , t h ei n d i c a sa n dt h ej a p o n i c a s b yu s i n g t h ep o p u l a rb i o i n f o r m a t i c st o o l s :b l a s t , b i o p e r lc t c c o m p a r i n gs s ra 1 1 e l el o c ia n d a n a l y z i n gs s rm u t a t i o n s ,w eh a v ef o u n do u tt h ee v o l u t i o n a lp e c u l i a r i t i e sa n d m u t a t i o nb i a so ff i c es s r e v o l u t i o n , a n dp r e s e n ta u e wh y p o t h e s i so fs s re v o l u t i o n m e c h a n i s m f o l l o wo u rh y p o t h e s e s ,w eb r i n gf o r w a r dt h en e w s s re v o l u t i o nm o d e lw h i c h p r o p o s e st h a tt h es s rm u t a t i o nr a t eh a sag a u s s i a nd e c a yw i t ht h en u m b e ro f m u t a t e dr e p e a tu n i t s m a x i m u ml i k e l i h o o dm e t h o di su s e dt oe s t i q l a t et h ep a r a m e t e r s o ft h em o d e l i no r d e rt of i n dt h el a t e n tr u l e so fr i c es s re v o l u t i o n , w em e n dt h e m o d e la n di m p r o v et h ef o r m e rm o d a l g a u s s i a nd e c a yi n t oe x p o n e n t i a ld e c a y w e u s ea i ci n f o r m a t i o nc r i t e r i o na n dt r i n u c l e o t i d er e p e a t ss s r sd a t at os u b s t a n t i a t e s u p e r i o r i t yo f t h ei m p r o v e dm o d e l k e yw o r d s :r i c e ,m i e r o s a t e l l i t e ,e v o l u t i o nm o d e l ,a k a i k ci n f o r m a t i o nc r i t e r i o n , m o d e l i n g 重庆邮电学院硕士论文 缩写术语 s s r m s i s m m m l d n a r n a p c r a i c k a m i a m s s e 缩写术语 s i m p l es e q u e n c er e p e a t m i c r o s a t e u i t ei n s t a b i l i t y s t e p w i s em u t a t i o nm o d e l m a x i m u ml i k e l i h o o d d e o x y r i b o n u c l e i ca c i d r i b o n u c l e i ca c i d p o l y m e r a s ec h a i nr e a c t i o n a k a i k ei n f o r m a t i o nc r i t e r i o n k ”a l l e l em o d e l i n f i n i t ea l l e l em o d e l s u m o f s q u a r e de r r o r v 简单序列重复 微卫星不稳定性 一步突变模型 极大似然法则 脱氧核糖核酸 核糖核酸 聚合酶链式反应 赤池信息量准则 k 步等位基因模型 无限等位基因模型 平方差总和 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得 的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得重庞整鱼塞堂或 其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所 做的任何贡献均己在论文中作了明确的说明并表示谢意。 学位论文作者签名:彳刁灵 签字日期:2 。6 年5 月1 5 日 学位论文版权使用授权书 本学位论文作者完全了解重鏖壑鱼太堂有关保留、使用学位论文的 规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文 被查阅和借阅。本人授权重庞整电太堂可以将学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇 编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:2 丑灸导师躲 笤冬、 签字日期:2 0 0 6 年5 月1 5e t签字日期:2 0 0 6 年5 月1 5 日 重庆邮电学院硕士论文第一章绪论 1 1 生物信息学简介 第一章绪论 随着计算机和信息理论的发展,信息技术不断地应用于生物学领域,s h a n n o n 的经典信息论从物理的角度对信息给出了新认识。注重信息量( 信息数) 、信息 传递、信息编码等的信息论,多是物理性或物理变化的信息论。有信息熵、信息 是不确定性的减少的非语义、狭义信息论的“经典信息定义”;广义的信息,具有 语义( 信息质) 的信息定义:信息是事物现象属性标识的集合,需要更多的“语 义”和内涵。生命信号的转导( 信使的作用) ,基因形式的变化( 基因一翻译成 蛋白质一器官一组织一系统一生命整体) ,内在本质( 语义) 没变,语义的传递、 存储都是过程形式的化学变化,载体转换的物理变化i n 。 生物信息学( b i o i n f o r m a t i c s ) 是8 0 年代未随着人类基因组计划( h u m a n g e n o m ep r o j e c t ) 的启动而兴起的- - f l 交叉学科。生物信息学研究的目标是揭示生 物分子信息的本质,使人类彻底了解、掌握遗传信息的编码、传递及表达,从而 加快人类了解自身的进程。研究内容有:收集和管理生物分子数据,使得生物学 研究人员能够方便地使用这些数据,并为信息分析和数据挖掘打下基础;进行数 据处理和分析,通过信息分析发现数据之间的关系和本质规律,进而上升为生物 学知识;开发分析工具和实用软件,解决具体的问题,为具体的生物信息学应用 服务,如生物分子序列比较工具、基因识别工具、生物分子结构预测工具、基因 表达数据分析工具等。 应用 基因工程 蛋白质设计 疾病诊断 疾病治疗 开发新药 图l - i 生物信息处理流程 生物信息学的研究意义是从理论上认识生物本质的必要途径,通过生物信息 学研究和探索,可以更为全面和深刻地认识生物科学中的本质问题,了解生物分 子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系。 生物信息学所用的方法和技术很丰富,常用的有:数学统计方法、动态规划 方法、机器学习与模式识别技术、数据库技术及数据挖掘、人工神经网络技术、 重庆邮电学院硕士论文 第一章绪论 专家系统、分子模型化技术、量子力学和分子力学计算,生物分子的计算机模拟 ( 如图1 2 所示) 、网络技术等 2 1 。 图1 - 2 计算机模拟实验过程 1 2 研究任务与目标 本文将以w h i t t a k e r 提出的i a m 模型建模思想为基础 3 1 ,利用全基因组微卫 星数据,综合考虑了突变倾向,突变对微卫星长度的依赖,模型可移植性等因素, 得到一种全新的基于高斯衰减的微卫星进化模型。本文提取水稻两个亚种基因组 中双碱基与三碱基微卫星,运用b l a s t 序列比对软件确定微卫星的理想性与特异 性,并借助p c r l 语言编写的分析程序,研究微卫星多态性。估算出水稻双碱基微 卫星进化过程中突变率、突变倾向、突变率随长度的衰减参数。本文利用信息建 模与计算机模拟技术,对两种水稻亚种问双碱基微卫星进化进行研究,数据拟合 结果显示水稻双碱基微卫星进化过程与本文提出的模型能够较好的吻合。运用 a i c 信息量准则将本文提出的模型与w h i t t a k e r 提出的指数衰减模型进行比较, 得到的结果显示,本文模型比指数衰减模型更符合水稻微卫星进化过程。由于建 模过程运用极大似然估计与a i c 信息准则,使得模型具有较强的移植性f ,】,可以 应用于其他物种全基因组微卫星进化的研究。 1 3 论文内容安排 本文提取两种水稻全基因组中的微卫星并研究其进化模型,共有六章,具体 安排如下: 第一章简要介绍生物信息学,本文研究的任务与目标,以及论文内容安排。 第二章介绍微卫星及其进化研究进展,进化模型的分类以及各类模型的特 点,主要研究方法。为第四章提出模型提供理论依据和参考对象。 2 重庆邮电学院硕士论文 第一章绪论 第三章收集水稻基因组,通过编写p c r l 代码提取水稻基因组1 2 个染色体中 的双碱基与三碱基微卫星,并利用序列比对工具b l a s t 进行特异性验证。分析水 稻微卫星多态性、突变特点、突变倾向,为第四章建立进化模型提供数据支持。 第四章根据二、三章的理论数据支持,结合信息学与计算机工具,构建水稻 全基因组微卫星进化模型,利用m a r k o v 过程计算滑动突变率,利用极大似然估 计法估算出水稻微卫星的突变率,并得出了描述水稻微卫星进化的高斯衰减模 型。 第五章将本文构建的、基于微卫星突变率随微卫星长度变化呈高斯衰减的模 型,与w h t t a k c r 提出的指数衰减模型进行对比 3 1 ,运用信息学常用的a i c 信息量 准则,对模型进行评价。结果证实高斯衰减模型能够更为准确地描述水稻微卫星 的进化过程。 第六章概括性的总结了全文的工作,并对今后的研究方向进行展望。 3 重庆邮电学院硕士论文第二章微卫星进化模型研究背景 第二章微卫星进化模型研究背景 2 1 微卫星介绍 微卫星( m i c m s a t e l l i t e ) 属于串连重复( t a n d e m l y - r e p e a t e mc o m p o n e n t s ) ,串 连重复是基因组中的一大类重复序列,按长度分为:卫星( s a t e l l i t e ) 、小卫星 ( m i n i s a t e l l i t e ) 以及微卫星。 卫星长达数m b ( m e ob a s e ) ,在整个基因组中约占数个百分比,常位于着 丝点( c e n m ) m e r e s ) 附近,与着丝点蛋白质( c e n w o m e r ep r o t e i n ) 的结合有关, 并且也可能参与着丝点的功能。小卫星,又称为哪t ( v a r i a b l en u m b e r t a n d e m r e p e a t ) ,是单元长度在1 0 一1 0 0 个核苷酸的一种重复序列,其长度可达数百上 千个核苷酸。小卫星可以作为探针用于d n a 指纹识别技术。小卫星重复次数的 变化会影响等位基因( a l l e l e ) 的结构,另外其还与基因转录有关。 微卫星,又称简单序列重复( s i m p l es e q u e n c er e p e a t s ) ,是以少数几个核苷 酸( 1 1 0 个,多数为2 4 个) 为单位多次串联重复的d n a 序列。微卫星标记 由核心序列( m o t i f ) 和两侧保守的侧翼序列( f l a n k i n gr e g i o n ) 构成。保守的侧 翼序列使微卫星特异地定位于染色体某一区域,核心序列重复数的差异则形成微 卫星的高度多态性。造成微卫星重复序列长短变化的原因目前认为主要是d n a 聚合酶复制打滑( r e o l i c a t i o ns l i p a g e ) 和点突变。 根据微卫星的结构,w e b e r 等将其分为三类【4 l : 1 理想( p e r f e c t ) 微卫星,即由不中断的重复单位构成的微卫星,且微卫 星左侧翼序列不包含进一步的重复单元。 2 非理想p e r f e c t ) 微卫星,即微卫星重复序列中间有3 个以下的非重 复碱基,两侧不中断的部分重复数大于3 ; 3 复合式( c o m p o u n d ) 微卫星。复合式微卫星则指两类或两类以上的串 联重复单位由3 个连续的非重复碱基分隔开,但不中断的重复单位的重 复数不小于5 。 在本文中微卫星将用( 基本重复单元) 重复款藏形式表示: 4 重庆邮电学院硕士论文 第二章微卫星进化模型研究背景 蓑挝孽庵 几 理想搬p 毽 g c 弘。斟w 珊aa t a t a t a t a ta a t r c g g t 1。j i 一 侧鬓洋列 籁办垮别( 援棒) 奠舟式畿f 疑 a g c t a t c g a t a t a ga t a t a t a a a a a aa a i t c g g t 图2 - 1 微卫星分类 2 2 微卫星进化模型 微卫星进化的模型经历了s m m 模型、k a m 模型、队m 模型三个阶段, 对于每一类模型,又因为突变过程与种类是否一致、滑动突变是否依赖微卫星 长度、是否具有起始突变长度等假设的存在,衍生出许多子模型。 2 2 1 逐步突变模型( s m m ) 最早的微卫星模型是s m m 模型,是在研究等位基因电泳( e l e e t r o p h o r e t i c a l l e l e s ) 时提出【5 l 。该模型认为,当微卫星突变时只会增加或者减少一个重复单 元,这就暗示两个等位基因如果只相差一个重复单元,那么他们是紧密相关的 ( 可能有一个相对较近的共同祖先) 。换句话说,当我们用统计学手段检测种群 基础时,微卫星的尺寸是问题的关键。 在该模型中微卫星突变率与微卫星重复单元长度相互独立,而且发生突变时 只增加或减少一个重复单元,当然微卫星的长度不能小于一个重复单元,如果以 x 作为微卫星的长度,那么 x - x + i 突变速度为, , ,、 x 一 x 一1 突变速度为, ” 这是一个具有最小边界的随机游动模型。根据这个原始模型,通过附加条件, 又演变出许多子模型。 k r u g l y a k 等【6 】对上述模型提出了修正,允许突变率随微卫星的长度变化,认 为突变率同微卫星的长度呈正比例关系: x - x + l 突变率为b ( x - i ) z 一 x l 突变率为b ( x n ” s t r a y , w h i t t a k e r 和t a l b o t 又提出了线性模型7 】: 5 重庆邮电学院硕士论文 第二章微卫星进化模型研究背景 z x :;妻:1 1 霎萋茎凳乏:妻:; g s , 一 彳一突变率为6 0 + 扛( x d 这一恒定比例项6 0 类似于d i e r i n g c r 提出的“i n d e ls l i p p a g e 比例项圈。为防止 微卫星比最小长度r 还短的变化,c a l a b f e 等进一步拓展了该模型f 9 j : x x - 一 x x + 一l l 突删变率为6 b ( ( x x 一- r , o ) + + ( 2 4 ) x 一 x l 突变率为6 ( x r ) + 、 其中( x 一曲+ = m a x ( x 一茁,0 ) 。有规则随机游动的模型在他们可列的状态空 问上不存在稳态分布o o l 。n a u t a 提出了基于s m m 模型的无限等位基因模型,通 过对随机游动加入反射边界,约束取值范围,从而确保存在一个稳态分布 1 1 , 1 2 。 另外一种复杂的情况就是让突变速率变得不规则。w a l s h t 3 1 提出了线性生灭 链,一个比例复制打滑模型。该模型中的突变率无论是收缩还是增长均随微卫星 的长度线性增加: 妻:浏b 羽x 1 , x 一 x 一突变率羽 、7 因为 2 ,j ,4 , 并且在更小的生成率y 时,1 - - 2 。出当d b 1 时该 模型存在恒定的分布1 3 】。f u 和c l l a k r 呻【1 4 】提出了微卫星突变服从几何分布的 模型。c a l a b r e s e 和d u r r e t t 【1 5 1 提出不对称的线性模型以及二次模型,其中线性模 型: 妻一-xx一+l突粼变率为磊uo+u4a(x-一x譬)+1 + ( 2 6 )x 一 x 一突变率为瓯+ 4 ( 一譬) + ”。7 非线性模型: x 一 z + 1 突变率为+ 码( x 一矽+ ( x - x ) + 】2 ,。 一 z l 突变率为磊+ 4 ( j 一矿+ 【吐( z 一】2 u 点突变可以中断微卫星,例如“r ) 2 0 交换为( a t ) 1 2 g t ( a t ) 7 。b e l l 和 j u r k a 提出了点突变抑制了微卫星成长的结论【1 6 1 。k r u g l y a k 提出了两个过程的模 型【6 l 。 1 单步比例滑动突变( 如上所述) ;在x _ x + i 时,突变率b ( x 1 ) ; 在x _ 名一1 时,突变率为b ( x 1 ) 。 z 点突变:x 寸_ ,j x 在比率a 。 6 重庆邮电学院硕士论文第二章微卫星进化模型研究背景 点突变可以打断微卫星。d u r r e n t 和k r u g j y a k 【1 7 j 提出并证明该模型存在平稳 分布。 综上所述,s m m 模型的理论依据是随机游动,认为亲代微卫星的长度是 现在时刻的状态,当子代微卫星长度增加一个单位时,认为向右游动一个单位; 而子代微卫星长度减少一个单位时,认为向左游动一个单位;如果子代微卫星 长度不发生变化,则认为其保持原点不动。进而根据各个点距离原点的远近来 决定它们之间的种群关系,这就引入了同形问题。 假设研究种群时发现了4 个个体,其中3 个具有相同的基因形,另外一个没 有。这就显示前3 个有同形基因的个体之间与没有同形的1 个相比更相关。然而 事实上并非如此,下面的系统发育史可以说明( 星号表示微卫星突变) 。 c 1 0 口惦c & c o m m o na n c 0 均i r 图2 - 2s 姗模型的同形问题 图2 - 2 中,种群1 分化为两个种群,2 和3 。在种群3 种,有一次逐步突变, 因此导致了4 个c a g 单元出现,有别于其他三个。种群3 分化成2 个小种群,6 和7 。种群6 丢失一个重复剩下3 个c a g 。现在问题就是种群4 ,5 ,6 在微卫星 基座有相同的等位基因,然而他们有着不同的进化过程。我们可以说它们的等位 基因处于同一状态,而非同一世系。然而如果只检验这一个基座,可能得出6 和 4 ,5 更为接近而与7 较远的错误结论。 2 2 2 “k ”等位基因模型( k a m ) 正因为s m m 模型存在同形问题,所以为了避免这个问题,出现了k a m 模 型。k a m 模型认为微卫星可以随机地突变成为任何一个k 长度的等位基因。 因此也就不存在8 个重复单元的序列必须突变成7 个或9 个重复单元的序列,它 也可能突变成1 5 个重复单元。 7 重庆邮电学院硕士论文第二章微卫星进化模型研究背景 d i r e e n z o 掣1 研提出了允许更大单位突变的模型。以概率p 发生一步突变,以 概率l p 发生长度超过一个单元的突变。在他们的公式中,一步突变符合s m m 模型,更大的变动有可能会扩大或缩小,至于变化量的大小服从截取的几何分布 ( t r u n c a t e dg e o m e t r i cd i s t r i b u t i o n ) 。 2 2 3 无限等位基因模型( i a m ) 虽然k a m 模型避免了s m m 模型的同形问题,但是引入了一个不确定因素 k ,如何确定k 的值、受何种因素的制约、对于不同长度的微卫星k 值是否一致 等,使得k a m 模型的研究遇到了更大的阻力。 2 0 0 2 年人类基因组已经绘制完成,这对微卫星模型研究是一个极大的鼓舞, 最近的研究试图利用基因组数据捕捉微卫星的特性。w h i t t a k e r 等提出了具有指数 分布的i a m 进化模型旧,此模型带有微卫星从长度x = i 到_ ,的突变率。 ,f ,j , 鳓。t 胖a d i e - 删,f 叫 ( 2 8 ) 其中心决定微卫星扩展基本突变率,同理乃决定微卫星收缩的基本突变率; 吼反映当微卫星长度增加时,突变率的变化率,a 0 反映当微卫星长度增加时, 突变率的变化率;名表示衰减率参数。 s a i n u d i i n 1 9 】等通过分析人类与黑猩猩基因组中部分染色体上的微卫星数,提 出目前最复杂的i a m 模型。该模型认为每次突变都能随机产生新的等位基因, 一个1 5 个重复单元的等位基因可能和l o 个与l1 个重复单元的等位基因具有相 同的相关性。 s a i n u d i i n 的模型假设微卫星从长度z = f 到j 的转移概率为: f 似( 1 + ( f j r b ) - 一u o r ) b - ,( 1 一m ) | j - j l - ! ,f , ( 2 9 ) 在等式( 2 9 ) 中,符号的意思是: ( 2 1 0 ) 蚶妯地归弘其 l o 窿 s ,-,、-、 = 矗p 重庆邮电学院硕士论文第二章微卫星进化模型研究背景 该模型允许突变率随着微卫星的长度增加,r 为起始长度,当微卫星大于起始 长度时才会发生滑动突变;q 是微卫星的最大长度,一般为几十个重复单元; s 是一个比例参数,表示微卫星突变率对长度的依赖程度,它的取值范围为 一1 ( 丢,) :j ( o ,o 。) ,表示基本突变率;材为常数倾向参数,代表微卫星 s z r 突变率倾向于常数的程度,取值范围 0 ,1 】;1 ,( _ o o ,) ,线性倾向参数,表 征微卫星突变率倾向于线性的程度。 2 3 研究方法 早期的微卫星进化模型研究应用的研究方法主要是通过试验观察和基本的 统计分析。目前对微卫星进化模型研究的数据主要来源于基因组,需要处理海量 的数据,而且基因组数据之间已经具有复杂的进化过程,因此需要一个能够反映 两个状态关系,而不深究其过程的算法。除此之外,建模过程中需要对参数进行 估计,模型之间的优劣更需要有评价标准,于是选择正确的工具与方法,能够更 有效的提现微卫星本质的进化规律。目前微卫星研究领域主要运用m a r k o v 链来 描述进化过程d ,6 ,t 1 7 ,1 9 2 0 , 2 ”,极大似然估计法进行参数估计【3 硼,a i c 信息量准则 来评价模型 2 0 2 “。 2 3 1m a r k o v 链 m a r k o v 过程是一类重要的随机过程,原始模型m a r k o v 链由俄国数学家 m a r k o v 于1 9 0 7 年提出,描述在已知系统目前( 现在) 状态的条件下,系统未来 ( 将来) 的演变不依赖于以往( 过去) 的演变,换言之,在已知“现在”的条件下, “将来与“过去”无关,具有这种特性的随机过程成为m a r k o v 过程。 设随机序列 咒,n e t ) 为一m a r k o v 过程,t = o ,l ,2 , 为离散的时间参数 集合,记s 为置可能取值的全体组成的状态空间: s = 墨,是,s , ( 2 1 1 ) 若对所有正整数珂t ,如果条件概率均满足: 尸辑一& l 一屯,矗:一,五一墨) = p 五一瓯i 一钆 ( 2 1 2 ) 则称随机过程 五,丹t 为一个m a r k o v 链,其统计特性完全由条件概率 9 重庆邮电学院硕士论文第二章微卫星进化模型研究背景 p 陋一i 一 ( 2 1 3 ) 来决定。直观的含义是:如果系统在现在时刻疗一l 处于状态,则在将来时刻 行的状态& 与过去时刻”一2 ,1 的状态一:,& 一,墨无关,仅与现在时刻 疗一1 的状态s 0 有关。这就是:已知系统的现在,则系统的将来与过去无关 在m a r k o v 链中,记 只,i s p t = i v ( x o = f ) o ( f s ) 且满足p ,= l 为m a d ( o v 链的初始分布。记露( 聊) 力( 肼) = p k + i = j l x = 母 i , j 8( 2 1 4 ) 为m a r k o v 链的k 步转移概率。当后= l 时成为一步转移概率,记为 露( 哟= 助( 坍) ,进一步若有:岛1 m j = 乃k ,表示转移概率与m 无关,对于一 个m m k o v 链,若其转移概率与m 无关,则称其为齐次m l 斌o v 链。 对于齐次m a r k o v 链 兄,胛t ,若对所有f ,_ ,均存在不依赖于f 的极限 舰考= 马o 且满足乃= 只岛,易= l ( 2 1 5 ) n 。 j = o 一 。 则称其为具有遍历性的m a r k o v 链。遍历性的直观意义是,无论随机点从哪一个 状态墨出发,当转移步长足够大时,转移到状态巴的概率都近似等于一个常数 日因此,如果转移步数n 充分大,就可以用一个常数马作为行步转移概率巧的 近似值。也就是说m a r k o v 链在初始时刻可以处于任意状态,经过足够长时间的 状态转移后,它所处的状态与初始状态无关。此时,每种状态出现的概率已经达 到一种平稳分布。因此可以根据齐次m a r k o v 链的性质,可以基于前后发生的事 件,计算下一个独立事件发生的概率。 由于m a r k o v 链的演算相对容易,且能探讨前后独立事件的概率,因此,被 广泛应用于:信息理论中信源的分类假设,物理化学中分子运动研究,以及生物 学上族群的扩张 9 1 ,染色体微卫星的演化研等等众多领域。 1 0 重庆邮电学院硕士论文 第二章微卫星进化模型研究背景 2 3 2 极大似然法 极大似然法的原理假定样本数据是群体z ( _ ,而,;印的一个代表,选择 秒的值使得观测数据发生的可能性最大,即一旦观测数据给定x ,, x 2 ,毛, 六( 毛,x 2 ,毛;咿) 仅仅是目的函数,使得概率密度函数最大的值时最可能的取值, 它就是极大似然估计,记做乱( 。设葺,屯,为含未知参数护的总体f 的样 本。当孝是离散型时,设其概率分布为p g = x ) = p ( x ,。令 三( 力= 兀p ; ( 2 1 6 ) 三( 称为似然函数,其实质就是样本出现的概尸噶= x t ,磊= x 2 ,磊= 而) 。当 是连续型时,设其概率密度为妒( x ;印 上( 卵= 兀妒( ;d ( 2 1 7 ) 参数的取值应使所抽到的样本以最大的概率出现。换言之,应使似然函数 三( 印达到最大值。这又等价于使l n l ( e ) 达到最大值。这是因为l n l 是工的单调 增函数。一般而言,极大似然法就是通过求解方程: d ,l n l := 0 d 8 来获得参数口的估计值各。 , 当总体孝含多个未知参数q ,岛,。最时,则是通过求解方程组: 筹= 。( f = 1 ,玑的 ( 2 1 8 ) 重庆邮电学院硕士论文 第二章微卫星进化模型研究背景 来确定参数6 :的估计值巨o = l ,2 ,| i ) 。 2 3 3a i c 信息量准则 仙农在“通信的数学理论”中给出了信息度量的数学公式圈,反映了系统的组 织化、复杂化,系统越复杂,信息越重要。对于控制系统,可以利用对系统的观 测数据,提取有用的信息,从而估计出系统有用的参量,完成基于系统输入,输 出观测的对系统模型的建立。 设系统的输入、输出观测值z = u t , y o = 1 ,2 ,) ,并假定其概率密度函数 ( p d f ) 已知,l l p 其在t 时刻z 的密度函数为:五( f ,z ) 。x 设f o ( t ,z ) 代表观 测值的值是密度函数,在这两个密度函数之间可用k u l l b a c k - l e i b l e r 信息距离来 测量,即: ,瓴,厶) = 肪( , ,) l o g 要黯彬 ,“ ( 2 1 9 ) 。 ,为z 的积分变量,瓴,厶) 是五与五有关的负熵: s ( 石,厶) = 一i ( f o ,厶) 对系统的建模或辨别,就是根据不同系统寻找一个模型使得熵s 最大,或与 实际系统的信息距离,最小,a i c 信息准则的基本思想就在于此。 a k a i k e 利用n - l 平均信息量最小的原则来确定系统的阶次和估计相应的参 数值,导出了如下的定阶准则鲫: _ | c - - - - 2 1 n l + 2 n ( 2 2 0 ) 其中工为模型的极大似然函数;以为模型的独立参数个数。如果使用剥靴法 ( b o o t s t r a p ) 计算参数,那么对应的4 ,c 表达式有以下形式: a c = l o g ( s s e n ) 锄+ 2 k ( 2 2 1 ) 其中s s e 为平方错误的和( s u mo fs q u a r e de r r o r ) ,栉为样本容量,k 为参数个 数。 a k a l k e 建议,当欲从一组可供选择的模型中选取一个最佳模型时,a i c 为 最小的模型是最佳的。当两个模型之间存在相当大的差异时,这个差异在等式右 边第一项得到体现;而当两个模型问的差异几乎没有时,则等式右边第- - g a 起作 用,从而参数数量最小的模型是最好的。 重庆邮电学院硕士论文 第三章水稻基因组微卫星提取与分析 第三章水稻基因组微卫星提取与分析 2 0 0 3 年水稻基因组计划基本完成,从基因组水平研究水稻亚种间微卫星的 进化模式成为可能。水稻含有1 2 对染色体,基因组大小约为4 5 0 m b 。本文研究 的籼稻( o r y z as a t i v al s s pi n d i c a ) 与粳稻( o r y z as a h v al s s p j a p o n i c a ) 两个亚种 的分化年代约为5 0 万年刚。 3 1 材料与方法 3 1 1 微卫星筛选标准、 本文研究的籼稻i n d i c a 基因组共1 2 个染色体的基因组数据来自嘲; t i p :l t i p g e n o m i c s o r g e n p u b d e e d b r g p v s 9 3 1 1 ,9 3 1 1 s c q l l e n c 们m e 粳稻j a p o n i c a 基因组共1 2 个染色体的基因组数据来自酬: i t p :i t p g e n o m i c s o r g e n p u b d c e d b r g p v s 9 3 11 r g p s e q u e n c e c h r o m o s o m e 以上数据来自中科院北京基因组研究所( 华大基因研究中心) ,其中籼稻由 我国科学家首先测序完成,使用的是著名育种专家袁隆平院士培育的中国杂交水 稻父本“籼稻9 3 1l ”。籼稻基因组共包含4 6 6 亿个碱基对,基因数目在4 6 万至 5 6 万之间。籼稻基因组有约7 0 以上的基因出现重复现象。粳稻数据为国际水 稻基因组计划测序结果,共测定碱基对3 6 6 亿,精确度达到9 9 9 9 ,并预测遗 传基因6 2 4 3 5 个。 由于微卫星散布在整个基因组中,而且种类繁多,因此,筛选微卫星需要有 一个严格而统一的标准。借鉴以往对微卫星的研究经验,结合水稻基因组的特点 与模型研究的需要,以下列三个标准筛选微卫星: 1 必须具有左右共3 0 0 b p 的侧翼区域,同时侧翼区域能够保证模体( m o t i f ) 在基因组中特异性; 2 必须是理想的( p e r f e c t ) 微卫星f 6 l 。即微卫星的左侧翼区域两倍于模体 长度的d n a 序列中,不能包含微卫星重复单元。例如:序列 ( 爿r ) ,t r ( a t ) ,根据理想的微卫星定义,该序列的重复单元的长度为3 , 而非4 ; 3 微卫星模体内不包含突变或者被打断。例如:序列 a r ) , t r ( a t ) :我们 认为它的模体长度( 重复单元的数量) 为5 ,而不是7 。 重庆邮电学院硕士论文 第三章水稻基因组微卫星提取与分析 3 1 2 数据提取、理想性与等位基座确认 根据3 1 1 节中的标准,同时确保收集到的理想微卫星属于有效的等位基因 数据,在进行b l a s t 序列比对时我们令比对精度为p = l x l o 一。由于微卫星存在 滑动突变的起始长度( 当微卫星长度大于某一个值的时候才会发生滑动突变) 【9 】, 而且双碱基微卫星的突变具有代表性,因此我们在提取时考虑重复单元长度大于 等于5 的双碱基微卫星和长度大于4 的三碱基微卫星。在具体的分析流程图如下: 是 是 图3 - 1 微卫星分析程序流程 在分析流程中,由于b l a s t 序列比对程序对系统要求都很高,仅同基因组b l a s t 比对需要在4 颗2 8 g 至强c p u ,8 g 内存的i b mx 3 6 5 服务器上耗时三天,整个 分析程序需要月余时间才能完成,因此程序对于不具有特异性的微卫星数据,虽 不作多态性分析,亦为统计结果的有效补充。 1 4 。, 曲菡 重庆邮电学院硕士论文 第三章水稻基因组微卫星提取与分析 3 1 3 微卫星多态性分析算法 多态性是微卫星存在形式的一个显著特点,在遗传过程中,由于微卫星受到 多种因素影响而发生突变,从而形成微卫星的高度多态性。如何判别微卫星的多 态性,发生突变的原因是什么,影响突变的因素有那些,突变的形式等等问题, 将是多态性分析的主要任务。 图3 - 2 多态性分析的原理图 图3 - 2 是利用微卫星的多态性,确定分子标记的一个过程。微卫星多态性的 分析需要找出具有多态性的模体,并不需要序列标记位点,这是两者的区别。在 确定具有多态性的位点后,需要编写突变分析程序,对两个物种等位基因的微卫 重庆邮电学院硕士论文 第三章水稻基因组微卫星提取与分析 星突变情况进行分析,并统计分析结果。在编写突变分析程度中,确立微卫星突 变的过程是非常重要的。 微卫星突变存在两种过程:一种是由于d n a 复制打滑而造成的,称为滑动 突变( s l i p p a g em u t a t i o n ) ;另外一种单个碱基上发生的突变,称为点突变( p o i n t m u t a t i o n ) 。本文沿用这个标准,根据b l a s t 程序对微卫星比对的结果,以双碱基 微卫星为例制定出一下鉴别标准: 1 对于籼稻与粳稻微卫星比对中的以下结果,本文认为是发生了滑动突 变: 翻4 赋c 弼c 邢r ( 翻) 2 一( 翻) 8c t g t t c t g c t lliiliiliiliiili | ill ii 洲煅弼彻r ( 翻) 2c 4 c a ( c 4 ) 8c t g i t c t g c t 很显然由于d n a 复制打滑,造成重复单元c a 增加了两次,从而使微卫 星发生了突变。 2 如果出现如下情况,属于点突变: , 彤黝c 购删r ( 形) 1 0 倒g c c g 玎 i jl ii i | jf i jl il | ili 陀刚c 删粥c rt , 4 ( t 6 3 。例g c c g 玎 微卫星模体由于碱基g 一4 从而打断了微卫星,使得模体长度由原先的 1 0 寸9 。 3 两种突变都存在的复合突变情况,分别计算滑动突变次数与点突变次 数。 基于这三条鉴别标准,利用p e r l 语言强大的字符处理功能,分析经过特异 性与理想性确认的微卫星数据。首先分离出微卫星模体,以微卫星起始长度,即 亲代长度为关键字分类,分别存入h a s h 链表中,链表的长度是该类微卫星突变 为其他长度微卫星的所有情况的数量,链表项包含五个元素:亲代长度,子代长 度,滑动突变次数,点突变次数,发生次数。部分重要程序见附录。 3 2 结果与分析 3 2 1 微卫星频率分布分析 对水稻基因组中微卫星进行提取和确认后,从粳稻和籼稻中分别得到了双碱 基微卫星为11 7 4 2 对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论