(生物医学工程专业论文)基于序列统计特征的全基因组系统发生分析.pdf_第1页
(生物医学工程专业论文)基于序列统计特征的全基因组系统发生分析.pdf_第2页
(生物医学工程专业论文)基于序列统计特征的全基因组系统发生分析.pdf_第3页
(生物医学工程专业论文)基于序列统计特征的全基因组系统发生分析.pdf_第4页
(生物医学工程专业论文)基于序列统计特征的全基因组系统发生分析.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(生物医学工程专业论文)基于序列统计特征的全基因组系统发生分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

a b s t r a c t t h e s i st i t l e :w h o l eg e n o m ep h y l o g e n e t i ca n a l y s i sb a s e do ns e q u e n c e c h a r a c t e r i s t i c s g r a d u a t es t u d e n tn a m e :f uj i n g s u p e r v i s o rn a m e :s u nx i a o ( p r o f e s s o r ) s c h o o l n a m e :s o u t h e a s tu n i v e r s i t y p h y l o g e n yi sr e f e r r e dt ot h eh i s t o r yo fg e n e r a t i o na n de v o l u t i o no fo r g a n i s m s p h y l o g e n e t i ca n a l y s i s e x t r a c t sc h a r a c t e r i s t i c sf r o mb i o l o g i c a ld a t a ,a n dc o m p a r e st h e m ,i no r d e rt og e ti n f o r m a t i o na b o u ts p e c i e s e v o l u t i o nr e l a t i o n s h i p w eh y p o t h e s i z et h a to r g a n i s m sw i t hs i m i l a rc h a r a c t e r i s t i c sh a v eg e n e t i c a l l yc l o s e r e l a t i o n s h i p t h e r e b y , w ec o u l ds t u d yt h eh i s t o r yo fg e n e r a t i o na n de v o l u t i o no fo r g a n i s m sa c c o r d i n gt o t h e i rc h a r a c t e r i s t i c s t h ee x t r a c t i o no fo r g a n i s mc h a r a c t e r i s t i c si st h ek e yp r o c e s so fp h y l o g e n e t i c a n a l y s i s a n dt h e g u a r a n t e eo f t h er e l i a b i l i t yo f r e s u l t s t r a d i t i o n a lm e t h o d sb a s e do ns e q u e n c ea l i g n m e n tc o u l dn o tp e r f o r m l a r g e - s c a l ec o m p u t a t i o no fl o n gs e q u e n c e s s i m i l a r l y , t r a d i t i o n a lm e t h o d sb a s e do nw h o l eg a n o m ec o u l d n o ta n a l y z ep h y l o g e n yi nl a r g es c a l eb e c a u s eo ft h el a c ko fd a t ar e s o u r c e sa n dt h ei n t r i n s i cl i m i t a t i o n so f t h e s em e t h o d s w ep e r f o r m e das t a t i s t i c a la n a l y s i so fd n as e q u e n c e s ,w h i c ha r et h em o s ta b u n d a n c e b i o l o g i c a l d a t ai nd a t a b a s e st o d a ya n da r ea b l et or e f l e c tt h ee s s e n c eo fe v o l u t i o n ,a n de x t r a c t e dt h e c h a r a c t e r i s t i c so ft h el o c a ls t r u c t u r eo fd n a s e q u e n c e s ,a n dt h e np e r f o r m e dp h y l o g e n e t i ea n a l y s i s t h u s , w en o to n l ys o l v e dt h ep r o b l e mo f l a r g e s c a l ec o m p u t a t i o no fl o n gs e q u e n c e s ,b u ta l s oo b t a i n e da b u n d a n t d a t ar e s o u r c e s t h e r e f o r e ,w ew e r ea b l et op e r f o r mp h y l o g e n e t i ca n a l y s i sa m o n go r g a n i s m si nal a r g e r r a n g e f i r s to fa l l ,w ea n a l y z et h es t a b i l i t yo ft w os t a t i s t i c a lc h a r a c t e r s ,d r aa n db b c w ef i n dt h a td r ai s w e l ls t a b l e ,a n db b c ss t a b i l i t yi sb e s tw h e np a r a m e t e rke q u a lt o2 a l t h o u g hb b c ss t a b i l i t yi sab i t w o r s et h a nd r a s b o t ho ft h ec h a r a c t e r sa r ec a p a b l et o d i s t i n g u i s hs p e c i e s t h a t i st o s a y , s e q u e n c e s b e l o n g i n g t os a m ec h r o m o s o m eh a v es i m i l a rc h a r a c t e r s a n dt h ec h a r a c t e rc a l c u l a t e df r o mas m a l lc o n t i g c a na l s or e f l e c tt h ec h a r a c t e ro f t h ew h o l es e q u e n c e m e a n w h i l e ,w ef i n dt h a tt h ea v e r a g ec h a r a c t e ro f t h e c o n t i g sf r o mt h es a m es e q u e n c ec a nr e f l e c tt h ec h a r a c t e ro f t h ew h o l es e q u e n c eb e u e r a n dt h i sp r o v i d ea m e t h o dt oi m p r o v et h es t a b i l i t yo fc h a r a c t e r s f r o mt h ea n a l y s i so ft h et w oc h a r a c t e r s s t a b i l i t y , w ec a n s a y t h a tt h es t a t i s t i c a lc h a r a c t e r i s t i c so f s e q u e n c e sc a nr e p r e s e n tg e n o m e , t h e nw ea n a l y z et h ep h y l o g e n e s i so fs p e c i e sa n dt h ee v o l u t i o no fm i t o c h o m d r i o nu s i n gd r aa n d b b cc h a r a c t e r t h ep h y l o g e n e t i cr e l a t i o n s h i po fe u k a r y o t em a t c ht h ei d e aa c c e p t e dt o d a y a n dt h er e s u l to f a n a l y s i so f a r c h a e a a n db a c t e r i ai sn o tg o o d w et h i n ki ti sr e l a t e dt ot h ee v o l v i n gm o d e o f m i c r o - o r g a n i s m t h er e s u l to fa n a l y s i so fm i t o c h o m d r i o ne v o l u t i o nv o t e st h eh y p o t h e s i so fa ne n d o s y m b i o t i co r i g i no f m n o c h o n d r i o n n e x t ,w ea n a l y z et h es p e c i a lp h e n o m e n o nf o u n di nt h er e s e a r c ha b o v eu l t e r i o r l y w ef i n dt h e3 l i i c h o m o s o m eo fa n o p h e l e sg a m b i a ei s s os p e c i a lt h a t i ti ss i m i l a rt oi t sm i t o c h o n d r i o na tb a s e 。b a s e c o r r e l a t i o ni nl o n gd i s t a n c e w em a k es u r et h a tt h ei n s t a b i l i t yp o n d e r a n c e so fb b c c h a r a c t e rc o r r e l a t et o s p e c i e s t h a t i st os a y , s e q u e n c e sb e l o n g i n gt os a m es p e c i e sh a v es a m ei n s t a b i l i t yp o n d e r a n c e so fb b c a n d s e q u e n c e sb e l o n g i n g t od i f f e r e n ts p e c i e sh a v ed i f f e r e n ti n s t a b i l i t yp o n d e r a n c e so fb b c a n dw ca l s of i n d t h a tt h e r ea l et w os p e c i a lc o n t i g si n7 “c h r o m o s o m eo f h o m os a p i e n s f i n a l l y , w cd e s i g nt h eg e n o m ef e a t u r ed a t a b a s e ,p r o v i d et h ep r o g r a m st o c a l c u l a t et h es e q u e n c e s c h a r a c t e ra n dp r o v i d et h es e q u e n c es e a r c h i n ge n g i n eb a s e do ns e q u e n c e sc h a r a c t e r t h en e ws e q u e n c e s e a r c h i n ge n g i n ec a i l f i n ds e q u e n c e sn o to n l yh a v es i m i l a ra r r a n g e m e n tb u ea l s oh a v es i m i l a rs e q u e n c e s t r u c t u r e ,a n di tu s e sf e wt i m e k e yw o r d s :p h y i o g e n e t i ca n a l y s i s ,s e q u e n c ea n a l y s i s ,m i t o c h o n d r i o ne v o l u t i o n 1 i i 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过 的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意。 研究生签名:日期: 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内 容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可 以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研 究生院办理。 研究生签名:导师签名: 日期: 第一章绪论 第一章绪论 从d a r w i n l 8 5 9 年出版物种起源,提出自然选择原则到现今,这1 4 5 年中人类在遗传学和基 因组学上的研究成果累累。尤其是1 8 6 5 年m e n d e l i a n 通过他的豌豆发现了遗传法则,以及1 9 5 3 年 j a m e s w a t s o n 和f r a n c i s c r i c k 在自然杂志上发表d n a 双螺旋结构的论文,开创了生物学在分子 领域的研究。1 9 9 0 年美国正式启动人类基因组计划随后,德国、日本、英国、法国和中国也相继 加入该计划。在此前后,k a r ym u l l i s 于1 9 8 3 年发展了聚合酶链式反应( p c r ) 技术,l e r o yh o o d 于1 9 8 6 年开发出自动测序机,c r a i gv e n t e r 于1 9 9 1 年开发山新的测序技术,使得人类基因组序列图 在2 0 0 3 年提前绘制成功。与此同时,研究者们还完成了其他很多物种的基因组测序:1 9 9 6 年酵母 基因组测序完成、1 9 9 7 年大肠杆菌基因组测序完成、1 9 9 8 年结核性分枝杆菌、梅毒螺旋体、线虫基 因组测序完成、2 0 0 0 年果蝇和拟南芥的基因组测序完成、2 0 0 2 年水稻、小鼠、疟原虫和按蚊基因组 测序完成。这些研究成果都收集在g e n b m a k 数据库中,并且无偿向世界公开。但是测序的结果提供 给人们的只是一本由a 、g 、t 、c 四个字母排列组成的厚厚的天书,如何理解这些字母,从中找出 关于生命的秘密,才是人们最关心的问题。这就需要通过各种方法对这些序列进行分析,以期能够 揭示生命的本质。 1 1 基因组学( g e n o m i c s ) 基因f 日( g e n o m e ) - - 词是1 9 2 0 年w i n k l e s 从g e n e s 和c h r o m o s o m e s 组成的,用于描述生物的 全部基因和染色体组成的概念。基囡组学的概念是由羹国科学家t h o m a sr o d e r i c k 在1 9 8 6 年提出的, 指对所有基因进行基因组作图( 包括遗传图谱、物理图谱、转录图谱) ,核苷酸序列分析,基因定位 和基因功能分析的一门科学。因此,基因组研究应该包括两方面的内容:以全基因组测序为目标的 结构基因组学( s t r u c t u r a lg e n o m i c s ) 和以基因功能鉴定为目标的功能基因组学( f u n c t i o n a lg e n o m i c s ) 。 随着人类基因组计划( h u m a ng e n o m ep r o j e c t ,h g p ) 的实施和完成,模式生物( m o d e l o r g a n i s m s ) 基冈组计划和微生物基因组计划( m i c r o b i a lg e n o m ep r o j e c t ,m g p ) 也在进行。7 0 年代末,f r e d e r i c k s a n g e 发明双脱氧终止法,这使得测序工作进展迅速。截止到2 0 0 4 年2 月,g e n b a n k 数据库中收录 的全基因组序列物种达到1 7 6 个,其中细菌1 4 2 种,古细菌1 7 种,真核生物1 7 种。 可以说,结构基因组的工作已基本完成,但是对于整个基因组的研究来说,得到序列仅仅是第 一步,对这些象天书样的序列进行收集、整理、检索,分析序列及其表达蛋向质结构与功能的信 息,找出规律,揭开生命的秘密,才是晟终目的。这些工作是所谓的后基因组时代( p o s t g e n o m ee r a ) 的任务。生物信息学也正是因此而产生和发展起来的一门新兴科学,它在后基因组时代研究中的扮 演着至关重要的角色,它的理论和研究将渗透到基因组研究的各个方面。而系统发生分析是整个生 物学研究的基础,从新的分子( d n a 和蛋白质) 的基n n 的角度,再次重新研究生物的进化发展, 将是一件非常有意义的工作,它是后基因组研究的一个重要组成部分。 东南大学硕小学位论文 1 2 生物信息学( b i o i n f o r m a t i c s ) 生物信息学是以生物大分子为研究对象,以计算机为j :具,运用数学和信息科学的观点、理论 和方法去研究生命现象、组织和分析呈指数级增长的生物信息数据的一门科学。它是随着8 0 年代末 基因组测序数据迅猛增加而逐渐兴起的一门新的科学领域,最初以收集、储存、分析、处理基因序 列和结构数据为主。现在其研究重点已经扩展到基因组和蛋白质组的序列、结构和功能两个方面, 成为一门独立的交叉学科。 传统的分子生物学是一门实验科学,通过实验发现新的现象、新的生物学规律,经过分析和归 纳总结,提炼出新的生物学知识。但是随着人类基因组计划的实施和顺利完成,以及由它带动的新 技术的发展,生物分子数据以每1 5 个月翻一翻的速度在增k ,超过了摩尔定律,即半导体芯片上的 晶体管数量每1 8 个月翻一翻的速度。并且分子生物学的研究从原来对单个基因或者单个蛋白质的研 究,发展成对基因的调控表达蛋白质结构和功能预测甚至系统发生的研究。这些都需要对大量 的数据而不是单一或者少量的数据进行分析,用传统的人工分析方法显然是一件不可思议的事情, 需要结合生物学、数学、计算机科学和信息科学来共同完成。 生物信息学的长远目标是揭示生物分子数据的内涵,揭示生命的本质。生物分子数据数量惊人, 并且数据之间存在着复杂的关系,但是这些数据具有深刻的内涵,要理清这些关系,从数据中挖掘 出生物学知识和生物学规律是一件不容易的事情。生物信息学技术的发展,最终将揭示出生物分子 信息的本质,从而加快人类了解自然,了解自身的进程。 目前生物信息学的主要研究任务有三个: 一是建立数据库系统收集和管理来自于生物实验的生物分子数据,提供数据查询和数据通讯工 具。应用信息学技术收集和管理这些数据,使得生物学研究人员能够方便地使用这些数据并为信 息分析和数据挖掘打下基础。 二是处理和分析生物分子数据,发现数据之间的关系和本质规律,把生物分子数据中隐藏的生 物学知识挖掘出来。在此基础上解释与生物分子信息复制、传递、表达有关的生物过程,解释生物 过程中出现的故障与疾病的关系,帮助发现新的药物作用目标,设计新的药物分子,为进一步的研 究和应用打下基础。生物分子信息处理流程见图1 1 。 三是开发分析工具和实用软件,如生物分子序列比较工具、基冈识别工具、生物分子结构预测 工具、基因表达数据分析工具等,解决具体的问题,为具体的生物信息学应用服务。 收集- 寝示分析卜建搂 剡确特征托较 推理 图1 1 生物分子信息处理流程 2 笙二皇堕堡 1 3 系统发生学( p h y l o g e n i c s ) 系统发生( p h y l o g e n y ) 是指生物形成或进化的历史。系统发生分析就是通过对生物学数据的建 模提取特征,比较这些特征,并且认为特征相似的生物在遗传学上接近,从而研究生物形成或进化 的历史。 事实上,系统发生学是进化生物学的一个重要子学科,是比较基因组学( c o m p a r a t i v e g e n o m i c s ) 的一个重要组成部分。它综合各个生物学领域的研究成果,以检验现今关于生物进化的观念一所 有现存的生物都是由共同祖先历经很长的时间,在与生存环境的相互作用卜,沿边分化而来的( 单 起源进化论) 。进化论是“生物学中最大的统一理论”,生命科学各个层次的研究以及各分支学科体 系的建立无不以生物进化的理论为其指导思想,肉此系统发生学的研究,系统发生分析所得结果对 整个生物学的研究都具有重大意义,并且对农业上发展新的作物、发现传染病的治疗方法等都有指 导性作用。 系统发生学是- - 1 7 十分古老的科学,从d a r w i n 在物种的起源一书中提出进化论开始,科学 家们开始寻找物种的源头、物种之间的进化关系,给各个物种分门别类。在人类基因组计划开始之 前传统的物种分类建立在生物表型特征的比较分析上,这里所谓的表型特征主要指形态学的( 结 构的) 特征,也包括某些生理的、生化的以及行为习性的特征。由于微生物的表型特征不是很明显, 所以用这个传统的方法对之进行分类的时候存在着一定的困难。随着人们对生物的认识从宏观发展 到微观,科学家对物种分类的依据也从宏观上的形态发展到了微观上的分子,并且有了突破性的进 展a 现在科学家认为作为生物遗传物质的核酸和实现各种功能的蛋白质分子的序列和结构中存在着 关于生物进化的信息,可用于系统发生关系的研究。1 9 9 0 年c a r lw o s e s 在他的论文中提出:既然生 物分子的序列和结构层次所包含的信息可以体现生物的表型特征,那么以后的分析都将主要地基丁 序列、结构和分子之间的关系,传统的方法更多的将起到确认的作用。 随着基因组测序工作的快速进展,基丁分子的系统发生分析有了足够的数据源,使得基于分子 的系统发生分析迅速发展起来。 1 4 生物信息学在系统发生研究中的应用 沃森和克里克发现d n a 双螺旋结构,并在后来因此得到了诺贝尔奖,但他们t = j 的方法却是像 小孩子做拼图游戏一样的“拼凑”法。无独有偶,门捷列夫本人没有发现过个新的元素,但 他却在前人的基础上“拼凑”出了看似纷繁复杂各不相同的元素之间的内在规律,总结出了 元素周期表。科学史家指出,看似简单的“拼凑”是一种重要的研究方法。如今生物学的研究进入 到分子层次,很多生物的基因组测序已经完成,要在这么多的数据中“拼凑”出关于物种间的系统 发生关系实非易事,用像以前一样的手1 :方法更是不可能的事情。生物信息学的产生和发展使基于 分子的系统发生研究成为了可能,虽然生物数据的海量性和复杂性也给生物信息学提出了挑战。用 生物信息学研究基于分子的系统发生主要分成三个部分:信息特征的提取、系统发生树的构造以及 结果的检验。 东南大学顺士学位论文 1 4 1 信息特征的提取 基因或者生物体信息特征的提取是整个系统发生分析的基础,是至关重要的一个步骤。这一步 产生的结果数据往往以两两距离矩阵的形式出现,即两两生物体之间距离的矩阵,它是第二步,即 构造系统发生树的输入数据。系统发生分析根据所采用的物种特征的不同,可以分为三个不同的层 次。是基于单个基因或者蛋白质序列的特征,二是基于多个基因和蛋白质的特征,三是基于物种 的全基因序列或者全蛋白质的特征。对于第二和第三个层次的系统发生分析我们将它们统称为基 丁- 全基囡组的系统发生分析。这些特征,本质上是对碱基变化,序列相似性的建模。 对于单个基冈或者蛋白质的特征提取,通常采用两两序列比对或者多重序列比对的方法得到基 因或蛋白质序列之间的距离。序列比对的原理是,在一个或者多个序列的某些位置上插入一个或者 几个空位,使得序列能更好的对齐,得到最大的相似性。两两比对采用动态规划法,技术成熟,它 可以在计算出两个序列之间的最小距离的同时得到两个序列的最佳比对。多序列比对也可以采用 动态规划法,但是随着参加比对序列数目的增加,计算量和所耍求的计算空间猛增。所以虽然动态 规划算法能够得到最佳比对结果但是在实际操作中,通常不用这个方法来计算多重序列比对。对 于多重序列比对,目前还没有很好的解决方法,但是可以采用一些方法得到近似的结果。这些方法 有;渐进的比对方法即在序列两两比对的基础上逐步优化多序列比对的结果,星型比对,树型比 对都属于这种渐进方法;除此以外还有分治平衡方法、遗传算法、模拟退火算法、隐马尔柯夫模型 等。 对于基于全基因组的系统发生分析,要求提取整个或者人部分基冈组的信息特征。这些信息特 征大致有如下方面: 1 基因内容,即一个基因组所包含的所有基因,它是一个集合的概念。对一个基冈组进行分析的 时候,这个特征是最简单最直接的。一般说来,亲缘关系近的生物体之间有较多的相同基因 而亲缘关系远的生物体之间拥有的相同基冈较少。换句话说,生物体之间的亲缘关系与它们拥 有的相同基因的数目成正比。这样就可以把两个生物体之间的相似性定义为,两个生物体拥有 的相同基因数目除以它们总的基因数目。可以看出,由此定义的进化距离代表的是基因获得和 丢失的进化事件。但是,如果两个生物之间的相同基因不是从共同祖先进化而来,而是由其他 原因造成的,比如物种间的水平基因传递,家族特有基因的丢失和在进化过程中存在特殊环境 的高选择压而造成的趋同进化等,都将造成晟终分析结果的错误。因此在提取基冈内容作为信 息特征的时候,要对基因组中的基因进行选择,找出直向同源基因从同一个祖先进化而来 的,存在于不同物种中的基因,从而排除一些干扰因素。 2 基因次序,即基因在染色体上的排列顺序。2 0 0 1 年,t a m a m e s 指出在原核生物中,基因次序在 亲缘关系近的生物之间用较大的保守性,而在亲缘关系远的生物之间保守性较少。随着亲缘关 系的由近及远,保守性下降很快。尽管如此,人量保守的基因次序仍存在丁中等距离的物种中, 所以基因次序是一个有价值的信息特征,可以用来分析物种之间的关系。基因次序的保守性可 以归结为以下几个方面的原因:1 物种的分化不久,基因次序还没有被破坏;2 存在整块基 因的水平基因传递;3 基因块的存在对细胞的适应性很重要。基因次序的信息特征提取可以如 下操作:从c o g s 数据库可以得到直向同源基因,考虑存在t - - 个或三个以上基因组中的相同 4 第一章绪论 基因对:定义如果一对基因在至少一个基因组中相连,并且在至少另外的两个基因组中不被大 于两个的基因分隔,那么这对分别来自两个直向同源基因组的基因是保守的;然后用某个生物 体的基因组中是否存在某个保守的基因对建立了0 ,l 矩阵,得到信息特征。 3 核酸序列的统计特征。核酸序列,即d n a 或r n a 是由四种核苷酸排列面成的序列,对它最简 单的建模就是将它看成是由四种字符组成的字符串。既然核酸序列带有遗传信息,在生命的过 程中作为遗传物质代代相传,并且生物体各种各样外表,生命的代谢等都是由它决定的,它是 本质所在,那么核酸序列就不可能是随机序列,它应该具有一定的统计特征。最简单的核酸序 列统计特征就是g c 含量,不同生物体的核酸序列甚至是一条核酸序列不同部分( 编码区和 非编码区) ,g c 含量值都是不同的。除此以外还有单核苷酸含量,二联核苷酸含量三联核营 酸含量等等统计特征都可以作为生物体的信息特征。 4 蛋白质折叠结构,即对一个生物体基因组所包含的蛋白质折替结构的种类和数目进行统计,作 为这个基因组的信息特征。基丁这种信息特征的进化距离定义和基于基因内容的进化距离定义 相似。但是蛋向质的折叠结构是和功能相关的,氨基酸序列不同的蛋白质可能有相同的结构, 所以一种蛋自质折叠结构的缺失不能崩一次家族特有基因的丢失和水平基因传递来解释。因此 水平基因传递和家族特有基冈的丢失对用基丁这种信息特征的系统发生分析没有什么影响。这 种信息特征提取的困难在于,目前已知的结构的蛋白质很少,只能采用一些方法来预测蛋白质 结构。理论上认为,蛋白质的序列中包含有蛋白质结构的信息,并且蛋白质的结构比序列的保 守性更强。所以,可以认为相似的蛋白序列有相同的蛋白结构。网此将未知结构的蛋白序列与 己知结构的蛋白序列比对,我们就可以预测基因组中大部分蛋白质的结构,但是这种预测结果 的准确性取决于序列对比的可靠性。 5 代谢途径,即通过比较某条代谢途径中参与的酶以及底物来得到信息特征。这种信息特征实际 上以单个基因或蛋白质信息特征为基础的。首先比较两个生物体某条代谢途径的结构。如果不 完全相同则引入缺失距离,然后用序列比对的方法比较相同路径上对应的酶和底物,晟后求出 这些两两序列比对得到的距离和缺失距离的加权和,作为信息特征,来表示两个物种之间的进 化距离。 其中核酸序列的统计特征最早是应用于序列分析方面的研究的。用来识别与基因相关的特殊序 列信号,如启动子、起始密码子,以及预测基因的编码区域或预测外显子所在的区域等。现在我 们把它用来分析整个染色体序列,期望能够发现与物种有关的特征。染色体序列相当& ,满足统计 分析的基本要求。同时染色体序列是遗传物质,生物体各种生理功能实现、各种不同形态的表现都 是由它控制的,它是进化的本质所在,含有所有的信息,所以染色体序列不可能是一个随机序列, 一定存在着某些统计特异性。事实上,上述的各种全基因组特征,基因内容、基冈次序和蛋白质折 叠结构等,都能在染色体序列的统计特征上有所反映。用核酸序列的统计特征进行系统发生分析的 优点在于:( 1 ) 与序列比对的特征相比,加强了序列结构特征上的信息。因为排列上相似的序列, 结构上也相似,而结构上相似的序列,排列上不一定相似:( 2 ) 与其它全基冈组特征( 基因内容、 基因次序和蛋冉质折叠结构等) 相比,它反映的整条染色体序列的总体特征,少数基冈水平传递和 趋同进化不会影响最后的系统发生分析结果;( 3 ) 有丰富的数据源,可以在比较大的范围内分析物 5 查堕查堂堡主堂堡堡兰 种之间的进化关系;( 4 ) 可以把序列分析方面的研究和物种系统发生关系的研究联系和统一起来。 序列统计特征用于系统发生分析的这些优点,使得它将会成为今后系统发生方面研究的一个热点。 1 4 2 系统发生树的构造 系统发生树的构造方法很多,根据处理数据类型的不同,可以分为两大类。一类是基于距离的 构造方法,是以物种或者分类单元之间的进化距离作为分析数据的。如非加权组平均法( u p g m a ) 和邻近归并法( n e i g h b o r - j o i n i n g ) 。另一类是基于离散特征的构造方法,是以物种或者分类单元的离 散特征数据,如d n a 和蛋白质序列数据,作为分析数据的,建树时分析每个特征的进化关系。属于 这一类的方法有最大简约法( m a x i m u mp a r s i m o n y ) 、最大似然法( m a x i m u ml i k e l i h o o d ) 等。一旦 建立决定了所有可能状态之间相似性的标准,特征数据就能很容易地转换成距离数据。冈此,对于 离散特征数据,在重建系统发生树时,既可以用距离法,也可以采用离散特征法。而相似性和距离 数据,在重建系统发生树时只能用距离法。此外,根据建树算法在执行过程中采用搜索方式的不同, 可以把系统发生树的构造方法分为三类。第一类是穷尽搜索方法:根据评价标准一一评价所有可能 的系统发生树,然后选择其中最优的一棵。第二类方法是分支约束方法:根据一定的约束条件将搜 索空间限制在一定范围内,评价范围内所有可能的树,选择最优的一棵。这是人j 二智能技术中的一 种空间搜索策略,这种搜索方式不需要搜索整个空间,可大大提高搜索效率。第三类是启发式方法: 根据先验知识或一定的指导性规则压缩搜索空间,提高计算速度。这种方法能够处理大量的分类单 元,虽然不能保证所构建的树是最优的但实际结果往往接近于最优解。当待分析的对象个数比较 多时,必须采用分支约束方法或者启发式的方法。 现今最流行的算法主要有:邻近归并法、最大简约法和最大似然法。 邻近归并法是另一种快速的聚类方法,由s a i t o u 和n e iy - 1 9 8 7 年首次提出。这种方法构建系统 发生树时,允许在进化分支上发生不同的趋异次数。计算机模拟表明它是最有效的基于距离数据重 建系统发生树的方法之一。邻近归并法在构建系统发生树时考虑的是使整棵树的分支长度最短,但 是它不能发现长度为负数的分支,并消除错误。 最大简约法是基于特征的算法,其基本思路是:对每一个信息位点分别考虑每棵可能的树,将 每棵树进行记分,这些树在每个位点的晟小替换值都已经明了,当所有的信息位点都被考虑后替 换数目总和最小的树被记为最简约树。 最大似然法是一种纯粹基于统计的系统发生树重建方法。这种方法,在一组序列比对中,考虑 每一个核苷酸替换的概率。例如,转换( 将一个嘌呤替换成另一个嘌呤,或者将一个嘧啶替换成另 一个嘧啶) 出现的概率大约是颠换( 将嘌呤替换成嘧啶,或者反过来) 的三倍。在一个三序列的比 对中,如果发现其中有一列为一个c ,一个t 和一个g ,那么有理由认为,更人的可能是,c 和t 所在的序列相互之间的关系更加亲近。由于被研究序列的共同祖先序列是未知的可能在一个位点 或多个位点发生多次替换,并且不是所有的位点都是独立的或是等价的,概率的计算十分复杂。最 大似然法计算每棵可能的系统发生树的概率值,并且认为概率最大的那棵系统发生村就是晟可能反 映真实进化关系的系统发生树。 6 第一章绪论 1 4 3 系统发生树的检验 尽管现在分子数据已经达到了不可想象的数目,研究者所采集到的生物数据仍是有限的并且 真实的生物进化历程未知,因此对进化树的估计和计算极易带有不确定性。这种不确定性不但体现 在树的分枝长度上,并且主要体现在树的拓扑结构上。大多数的科学测量都伴随着精确度的估计, 例如3 0 0 3 e r a ,推断出的系统发生树也应该有个表示其可信度的示数。一般地,在系统发生树 的内部分支上标记数值来表示该分支和相应分类的可信程度。 造成拙劣估计的一个原因是数据采样误差,所以基于采样的系统发生估计也会有误差存在。测 量采样误差的一个好方法是,对研究的类群多次采样,比较不同样本得到估计值。估计值的分布可 以说明一些问题,例如得到的结论在多大程度上依赖丁采集到的样本。b o o t s t r a p 是一种现代统计技 术它使用与上述相同的原则,和_ 薛i 计算机随机地重采样数据,来确定采样误差和一些参数估计的 置信区间。不同的是,它并不重采样类群的复本,而是重采样数据的伪复本。对于每一个伪复本, 我们得到一个参数的估计。从这些参数估计值的变化我们可以测量采样误差。 白举法是一个十分有价值且使用广泛的技术。它是基于这样的假没的,即原数据是来自一个更 大的独立一致分布的数据集的随机样本。b o o t s t r a p 比率表明了,当有更多的相同分布的数据可获得 时,给定分支不受影响的可能性。它与置信区间有一定的差异,对于b o o t s t r a p 值要大于多少才够好, 现今还没有没有统一的标准。b o o t s t r a p 值低并不表明推断出的关系是错误的,只是说明对这个关系 的支持比较少而己。如果估计得到的树不一致,那么自举法将无用武之地。 最近,将贝叶斯( b a y e s ) 方法应用到系统发生树的构造上成为了研究的热点。贝叶斯方法可以 避免一些在频率学派方法中存在的问题,例如定义采样空间。缺乏一致性等。其基本观点是在构造 树的同时进行评测- t 作。但是贝叶斯方法仍存在着一定的问题,比如要求选择先验分布,容易受到 所选择的进化模型的影响。尽管如此,贝n l 斯方法与其他方法相比仍然存在着优势,有望突破和解 决现有的问题。 1 4 4 基于全基因组的系统发生分析 基于单个基因或者蛋白质序列特征的系统发生树又称为基因树,因为它只反映单个基因的进化 历程,这和生物体的进化历程是有差异的。举一个简单的例子,如果只用人白血球抗原( h u m a n l e u k o c y t ea n t i g e n ,h l a ) 的等位基闲来构造物种树,许多人将和大猩猩划分在起,而不是和其它 人分在一起,这是因为h l a 基因的多态性分化早于两个物种的分化。其次,单个基因的系统发生分 析是基于这样的理论假设的,即物种的进化是直向遗传的。但是并非所有的基因都符合这个假设, 一些基因可以在物种之间转移传递。现在对全基因组的系统比较的结果表明了一个复杂的进化过程: 除直向遗传外,还存在其它进化方式。一直以来被认为是特例的水平基因转移( h o r i z o n t a lg e n e t r a n s f e r ) 和家族特有基因的丢失( 1 i n e a g e - s p e c i f i c g e n e l o s s ) 可能是微生物的主要进化方式。这似乎 破坏了我们一直以来“树一样”的进化观念,但是这至少说明简单的基丁单个或者少量基因的系统 发生研究的结果只能反映单个基因的进化历程,要_ 【| j 这样的结果来说明物种之间的进化关系是不可 东南大学硕士学位论文 靠的,并且要把握直向进化的微弱关系必须从生物的基因组角度出发,对研究对象有总体的把握。 除此以外,单个基因的同源序列往往不能存在于我们所要研究的所有生物体中,造成了一定的局限, 所以现在多用全基因组的方法来进行系统发生分析。 基于全基因组的系统发生分析的方法可分为:基于序列比较的方法,非序列比较的方法( 如用 蛋白质的折叠结构作为特征的方法) 和混合的方法。w 0 1 f 认为:非序列比较的方法并不比基于序列 比较的方法优越,产生更可靠的结果。但是非序列比较的方法似乎更易丁发现可能的深层次分支。 一些全基因组的分析方法是从单个基冈的分析方法扩展演化而来的。比如基丁多棵系统发生树 的方法,它重建基因组中每一个基因的系统发生树,比较这些系统发生树的异同,将基于不同基因 的系统发生树叠加起来,就可能得到不同生物体2 间完整的系统发生关系。基于多棵系统发生树的 方法的优点在于;1 可以使用不同的参数构建不同基因的系统发生树,这样解决了不同的基因可能 有不同进化速率的问题;2 所选的序列不一定要在每一个物种中都存在,这样在一定程度上扩大了 序列的数量,从而减少了可能的分析数据偏差。又如基于连接的直向同源蛋白的方法,它先找出存 在于所有被研究物种中的直向同源蛋白,将这些商向同源蛋闩序列分别进行对比排列,去除比对不 好的区域,然后将这些比对后的蛋白序列首尾相接连成一个氏序列,以此用来重建系统发生树。它 的优点是,使得整个参加分析的序列的信息位点增加了,从而能够得到比较可靠的系统发生关系。 它的缺点在于,所选的蛋白序列必须存在丁每个被研究的物种中,与基_ r 多个系统发生树的方法比 较,此方法使得在构造系统发生树的时候,每个蛋白序列所用的参数是一样的,从而不能分别考虑 不同的基因可能有不同的进化速率,从这一点上来说基于连接的直向同源蛋白的方法是基于多个系 统发生树的方法的一个特殊情况。其它的一些全基因组的分析方法主要是基于提取不同的全基因组 信息特征,如i 4 1 所提到的那些,来构造距离矩阵,从而重建系统发生树。 基于全基因组的系统发生的研究在观念上和以前的基于单个基因的系统发生研究是不同的。原 先的研究者目的在于找到一棵与实际情况相符的系统发生树,而现在,通过大量的研究,我们知道 物种之间的系统发生关系,尤其是微生物之间的系统发生关系,是不能用“树”这样一个简单的关 系来表示的,因此虽然现在的系统发生的研究结果仍然以树型结构来表示,但是它的含义是完全不 一样的,这样的树形结构表示的不是物种之间的进化关系,而仅仅是在某个研究水平上的被研究生 物之间的系统发生关系,而原来的基于单个基因的系统发生树也只能是表示被研究的单个基因的发 展历史。目前在基于全基因组的基础上,可以用不同的特征来考察物种之间的进化关系,能够从不 同的观察角度和不同的层次( 如序列层次和结构层次) 来研究物种之间的系统发生关系。当然更加 彻底的办法是完全抛开树形结构,用图或者网络结构来表示系统发生关系,这样的算法可能正在研 究中,不久的将来会成为主要的方法。 1 5 本课题的任务及主要研究成果 1 5 1 课题任务 现今对于物种的系统发生分析主要依赖于序列的比对,或者是基于物种全基因组的高级特征, 比如基因内容、基因次序、蛋白质折叠结构。前者的困难在于多序列比对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论