(生物化学与分子生物学专业论文)拟南芥、水稻和杨树actin家族全基因组分析.pdf_第1页
(生物化学与分子生物学专业论文)拟南芥、水稻和杨树actin家族全基因组分析.pdf_第2页
(生物化学与分子生物学专业论文)拟南芥、水稻和杨树actin家族全基因组分析.pdf_第3页
(生物化学与分子生物学专业论文)拟南芥、水稻和杨树actin家族全基因组分析.pdf_第4页
(生物化学与分子生物学专业论文)拟南芥、水稻和杨树actin家族全基因组分析.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(生物化学与分子生物学专业论文)拟南芥、水稻和杨树actin家族全基因组分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海大学硕士学位论文 摘要 肌动蛋白( a c t i n ) 家族是一个在动植物中广泛存在的基因家族。这个 家族成员众多并且在动植物的生长发育过程中起到十分重要的调控作用。但 目前,这个家族成员的功能在植物中的研究还比较少。近年来,拟南芥、水 稻和杨树的全基因组测序工作的完成,为从基因组水平研究和比较开花植物 的a c t i n 基因家族提供了坚实的基础。通过数据库搜索和分析,在拟南芥、 水稻和杨树三种植物基因组中找到了6 0 个可能的a c t i n 基因家族成员。系 统发生分析表明,这些a c t i n 基因可以依据支持度划分成多个亚家族。同 时,多项信息学分析的结果初步揭示了这个家族的成员在进化和功能上的相 关性。a c t i n 家族成员在水稻和拟南芥基因组上的分布和复锘1 ( d u p l i c a t i o n ) 分析也为染色体区域复制的理论提供了有力证据。此外,对拟南芥、水稻和 杨树中a c t i n 成员所做的系统发生分析表明,a c t i n 基因含有的共同的祖 先。这一分析也支持了基因家族进化的“发生和消亡 理论。本研究有助于 揭示植物a c t l n 基因家族的进化历史,为后续a c t i n 基因家族的功能提供 线索,对研究植物a c t i n 基因家族功能和进化上的多样性提供理论基础。 关键词:拟南芥;水稻;杨树;a c t i n 基因家族 v 上海大学硕士学位论文 a b s t r a c t a c t r ng e n ef a m i l yi sal a r g eo n ei np l a n ta n da n i m a lg e n o m e sa n dp l a yi m p o r t a n tr o l e s i nt h es p e c i f i c a t i o no ft i s s u et y p ei na n i m a l s o nt h eo t h e rh a n d ,f e wp l a n ta c t i np r o t e i n s h a v eb e e ns t u d i e df u n c t i o n a l l y r e c e n tw h o l eg e n o m es e q u e n c e so fa r a b i d o p s i st h a l i a n a , o r y s as a t i v aa n dp o p u l u st r i c h o c a r p aa l l o wg e n o m e w i d ea n a l y s i sa n dc o m p a r i s o no ft h e a c t i nf a m i l yi nf l o w e r i n gp l a n t s w eh a v ei d e n t i f i e d6 0a c t i ng e n e si nt h et h r e eg e n o m e s , a n dt h e i rp h y l o g e n e t i ca n a l y s i si n d i c a t e st h a tt h e yf o r mw e l l - s u p p o r t e dc l a d e s ,w h i c ha r e d e f i n e d 嬲s u b f a m i l i e s i na d d i t i o n ,t h ea n a l y s e sf u r t h e rs u p p o r tt h ee v o l u t i o n a r ya n d p o t e n t i a lf u n c t i o n a lr e l a t i o n s h i p sa m o n gt h e s ep r o t e i n s t h eg e n o m ed i s t r i b u t i o n o ft h e s e a c t i ng e n e ss t r o n g l ys u p p o r t e dt h eh y p o t h e s i st h a tg e n o m ed u p l i c a t i o n ( s ) c o n t r i b u t e dt ot h e e x p a n s i o no ft h ea c t i ng e n ef a m i l y f u r t h e r m o r e p h y l o g e n e t i cs t u d i e so f a l lt h r e ea c t i n g e n e se s t i m a t et h a tt h e yw e r ep r e s e n ti nt h em o s tr e c e n tc o m m o na n c e s t o ro fm o n o c o t sa n d e u d i c o t s a l s o ,t h i sa n a l y s i sa l s op r o v i d e ss t r o n gs u p p o r tf o rt h e “b i r t h - a n d - d e a t h t h e o r yo f g e n ef a m i l ye v o l u t i o n t h e s er e s u l t sp r o v i d ec l u e sf o rs t u d yo fg e n ef a m i l ye v o l u t i o n ,a n da s o l i db a s ef o rf u t u r ef u n c t i o n a lg e n o m i cs t u d i e so ft h ea c t i ng e n ef a m i l i e si np l a n t s k e y w o r d s : a r a b i d o p s i st h a l i a n a ;o r y z as a t i v a ;p o p u l u st r i c h o c a r p a ;a c t i ng e n e f a m i l y v i 上海大学硕士学位论文 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发表 或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 本论文使用授权说明 期:翟堕7 卫 本人完全了解上海大学有关保留、使用学位论文的规定,即:学 校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学校可 以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) i i 上海大学硕士学位论文 1 1 研究背景 第一章绪论 1 1 1 生物信息学概述 生物信息学是一门新兴的交叉学科。1 9 5 6 年,在美国召开的首次“生物学 中的信息理论研讨会 上,产生了生物信息学的概念。但是,就生物信息学的发 展而言,它还是一门相当年轻的学科。直到2 0 世纪8 0 9 0 年代,伴随着计算机 科学技术的进步,生物信息学才获得突破性进展。1 9 8 7 年,这一学科被命名为 “生物信息学( b i o i n f o r m a t i c s ) 。此后,其内涵随着研究的深入和现实需要的变 化而几经更迭。1 9 9 5 年,在美国人类基因组计划第一个五年总结报告中,给出 了一个较为完整的生物信息学定义:生物信息学是一门交叉科学,它包含了生物 信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数 学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意 义。2 0 世纪后期,生物科学技术迅猛发展,无论从数量上还是从质量上都极大 地丰富了生物科学的数据资源。特别是各种物种基因组测序计划的顺利推进,科 学家们已经获得大量的d n a 序列和蛋白质序列等数据,并且获得数据的速度还 在迅猛增长。具体地说,生物信息学通过基因组d n a 序列信息分析,找到基因 组序列中代表蛋白质或者r n a 基因的编码区,破译隐藏在d n a 序列中的遗传 语言规律,归纳整理与基因组遗传信息相关的转录谱和蛋白质谱的数据,从而发 现认识普通生物学中的规律。生物信息学工作者门的工作范围也很广泛,主要有 四个工作:收集与管理生物数据;搜索生物数据及序列对比;序列分析;蛋白质 结构与功能预测。 在收集与管理生物数据方面,值得一提的是欧洲分子生物学实验室的美国生 物技术信息中心( n c b i ) 的g e n e b a n k ( h t t p :w w w n c b i n l m n i h g o v ) 、e m b l ( h t t p :w w w e x p a s y c h s p r o t ) 和日本遗传研究所的d d b j ( h t t p :w w w d d b j n i g a c j p ) ,这三个数据库和其他许多公用的大型数据库一起,专门负责整理序列数 据及相关文献资料供研究者共享。而上述三个数据库相互合作,各数据库的数据 1 上海大学硕士学位论文 保持一致,保证最全面准确的数据以备查询。数据库搜集的数据主要有人和各种 生物的完整基因组、新发现的基因和新的单核苷酸多态性等,各种数据库可借助 c d r o m 发布,也可以通过i n t e m e t 网络查询。在我国,生物信息学随着人类基 因组研究的展开才刚刚起步,但已显露出蓬勃发展的势头。许多科研单位已经开 始或准备开始从事这方面的研究工作。北京大学研究建立起一个e m b l 的镜像 数据库( 即完整地将e m b l 的数据库移植过来) ,并提供部分的检索服务。在复 旦大学遗传学研究所,为克隆新基因而建立的一整套生物信息系统也已初具规 模。中科院上海生化所、生物物理所等单位在结构生物学和基因预测研究方面也 有相当的基础。 一般来说,对于测序等手段得到的新序列,研究者并不知道其相应的生物学 功能,因此研究者们希望能够通过搜索数据库得到序列相应的资料。通常新序列 并不能在数据库中搜索得到完全相同的序列,而需要通过序列对比找到同源序 列,并根据同源的已知序列来预测新序列的结构与功能。序列比较的一个基本操 作就是对比排列( a l i g n m e n t ) ,即将两个序列的各个元素按照对应等同关系进行 排列,其结果是两个序列共有的排列顺序,目前在序列搜索方面有多种不同的实 用程序,但较成功的两个程序是b l a s t 1 和f a s t a 2 ,它们能够根据所给定的 目标序列,快速地从d n a 序列数据库或蛋白质序列数据库中找出同源序列。 在d n a 序列分析方面,识别编码区域或寻找基因是最关键的。实验测定d n a 序列要比测定蛋白质序列容易得多,因此可以通过实验测定一段基因的序 列,并由此推导蛋白质的氨基酸序列。实际上许多蛋白质序列就是直接从为其编 码的d n a 序列而获得的。但由于许多蛋白质被编码在d n a 序列的不同序列, 所以需要结合计算找到并证实所有的外显子。目前,已发展了一些用于识别、翻 译和转录特征以及功能位点的算法 3 】【4 】,功能位点包括启动子、起始编码、剪 切位点、内含子、外显子等。 一 蛋白质序列可以从d n a 序列获得,而蛋白质序列又隐含了蛋白质折叠后的 空间结构,因此理论上可以从d n a 序列计算出自然折叠的蛋白质结构。但是由 2 上海大学硕士学位论文 于蛋白质多肽链可能的构象是个天文数字,现有的计算能力不可能搜索整个构象 空间,需采用一定的启发式方法寻找自由能最优或接近于最优的构象。蛋白质结 构预测分为二级结构预测和空间结构预测。目前,基于神经网络或h m m ( h i d d e i lm a r k o vm o d e l ,隐马尔可夫模型) 预测二级结构的方法已经较为成熟,预测 的准确率也相当高。预测准确率超过7 0 的第一个软件是基于神经网络的p h d 系统,该系统除使用序列的局部信息外,还使用了序列的进化信息【5 】。而对蛋 白质的空间结构进行预测,难度要比二级结构预测大得多,需要也更为迫切。在 空间结构预测方面,比较成功的理论方法是同源模型法。该方法的依据是:相似 序列的蛋白质倾向于折叠成相似的三维空间结构。运用同源模型方法仅可以完成 蛋白质1 0 - 3 0 的空间结构预测工作。预测蛋白质结构以后就可以进一步分析 和研究蛋白质的生物学功能。 , 随着计算机硬件的提高,生物信息学在研究大分子生物功能方面对单纯采用 实验手段比较,速度快、成本低的优势越来越明显,因此有必要将生物信息学与 生物实验相结合来对进行生物学研究。生物信息学的发展将会对生命科学带来革 命性的变革。它的成果不仅对相关基础学科起巨大的推动作用,而且还将对医药、 卫生、食品、农业等产业产生巨大的影响,甚至引发新的产业革命。 1 1 2 生物信息学数据库介绍 d n a 的序列测定是分子生物学的一个突破,目前已测定的d n a 序列的数量 呈指数级增长。根据人类基因组计划进展情况,到2 0 0 3 年将得到人类的3 0 亿个 碱基对,其它种属基因组的d n a 全序列测定也在积极地进行。大量生物学实验 的数据积累,形成了当前数以百计的生物信息数据库。这些生物信息数据库可以 分为一级数据库和二级数据库。一级数据库的数据都直接来源于实验获得的原始 数据,只经过简单的归类整理和注释;二级数据库是在一级数据库、实验数据和 理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整 理。国际上著名的一级核酸数据库有g e n b a n k 数据库、e m b l 核酸库和d d b j 库等;蛋白质序列数据库有s w i s s p r o t 、p i r 等;蛋白质结构库有p d b 等。 上海大学硕士学位论文 g e n b a n k 6 包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文 献著作和生物学注释。在1 9 9 2 年l o 月,n c b i 承担起对g e n b a n kd n a 序列数 据库的责任。n c b i 受过分子生物学高级训练的工作人员通过来自各个实验室递 交的序列和同国际核酸序列数据库( e m b l 和d d b j ) 交换数据建立起数据库。 同美国专利和商标局的安排使得专利的序列信息也被整合。g e n b a n k 是n i h 遗 传序列数据库,一个所有可以公开获得的d n a 序列的注释过的收集。g e n b a n k 同欧洲分子生物学实验室的d n a 数据库( e m b l ) 和日本的d n a 数据库( d d b j ) 共同构成了国际核酸序列数据库合作,这三个组织每天交换数据。g e n b a n k 以指数形式增长,核酸碱基数目大概每1 4 个月就翻一倍。e n t r e z 是n c b i 的为 用户提供整合的访问序列,定位,分类,和结构数据的搜索和检索系统。e n t r e z 同时也提供序列和染色体图谱的图形视图。e n t r e z 是一个用以整合n c b i 数据库 中信息的搜寻和检索工具。这些数据库包括核酸序列,蛋白序列,大分子结构, 全基因组,和通过p u b m e d 检索的m e d l i n e 。e n t r e z 的一个强大和独特的特点 是检索相关的序列,结构,和参考文献的能力。杂志文献通过p u b m e d 获得,p u b m e d 是一个网络搜索界面,可以提供对在m e d l i n e 上的九百万杂志引用的访 问,包含了链接到参与的出版商网络站点的全文文章。b l a s t 是一个n c b i 开 发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段。b l a s t 能够在 小于1 5 秒的时间内对整个d n a 数据库执行序列搜索。n c b i 提供的附加的软件 工具有:开放阅读框寻觅器( o r ff i n d e r ) ,电子p c r ,和序列提交工具,s e q u i i l 和b a n k i t 。所有的n c b i 数据库和软件工具可以从w 佩,或f t p 来获得。n c b i 还有e m a i l 服务器,提供用文本搜索或序列相似搜索访问数据库一种可选方 法。 t i g r 7 】( h t t p :w w w t i g r o r g ) 原先由基因组研究所( t h ei n s t i t u t ef o rg e n o m i er e s e a r c h ,t i g r ) 所维护,于2 0 0 6 年1 0 月t i g r 与数个研究单位合并成为 新j c r a i gv e n t e r 研究所( n e wj c r a i gv e n t e ri n s t i t u t e ,j c v i ) ,其他单位包含、 有j c r a i gv e n t e r 科学基金会、j o i n tt e c h n o l o g yc e n t e r 以及i n s t i t u t ef o rb i o l o 4 上海大学硕士学位论文 g i c a le n e r g ya l t e r n a t i v e s ( i b e a ) ,目前这些单位形成了一个多领域的基因组研 究机构,共计有超过5 0 0 个科学家及成员,以及二十五万平方英尺的实验室空间, 坐落于马里兰州的r o c k v i l l e 以及加州的l aj o l l a ,并且新j c r a i gv e n t e r 研究所 是世界的基因组研究领导者。t i g r 的基因组计划是要收集经专家确认的资料库, 包含有d n a 及蛋白质序列、基因表现、细胞角色、蛋白质家族以及微生物、植 物及人类的分类资料。共包含下列资料库:1 综合微生物资源网( c o m p r e h e n s i v em i c r o b i a lr e s o u r c e s ,c m r ) ;2 尚未完成的微生物基因组( u n f i n i s h e dm i c r o b i a lg e n o m e s ) ;3 植物基因组( p l a n tg e n o m i c s ) ;4 寄生虫数据库( p a r a s i t e sd a t a b a s e s ) ;5 其他真核生物计划( o t h e re u k a r y o t i cp r o j e c t s ) :6 基因目录( g e n e i n d i c e s ) ;7 t i g r 蛋白质家族( t i g 酣认m s ) ;8 真菌数据库( f u n g a ld a t a b a s e s ) ; 9 瘤胃纤维分解菌( f i b r o l y t i cr u m i n a lb a c t e r i a ) ;1 0 t i g r 微生物监测站( t i g rm i c r o b i a lo b s e r v a t o r i e s ) ;1 1 基因组特性数据库( g e n o m ep r o p e r t i e sd a t a b a s e ) ;1 2 感染性病原基因体数据库( g e m i n a ) 。t i g ra r a b i d o p s i st h a l i a n aa n n o t a t i o nd a t a b a s e ( t i g r 拟南芥注释数据库) 和t i g rr i c ea n n o t a t i o nd a t a b a s e ( t i g r 水稻注释数据库)由t i g r ( 基因组研究所) 维护,包括拟南芥和水稻 测序计划的所有序列,这些序列已经以统一的形式被注释。 p i r 8 】( h t t p :p i r g e o r g e t o w n e d u ) 国际蛋白质序列数据库( p s d ) 是由蛋白 质信息资源( p i r ) 、慕尼黑蛋白质序列信息中心( m i p s ) 和日本国际蛋白质序 列数据库( j i p i d ) 共同维护的国际上最大的公共蛋白质序列数据库。这是一个 全面的、经过注释的、非冗余的蛋白质序列数据库,包含超过1 4 2 ,0 0 0 条蛋白质 序列( 至9 9 年9 月) ,其中包括来自几十个完整基因组的蛋白质序列。所有序列 数据都经过整理,超过9 9 的序列已按蛋白质家族分类,一半以上还按蛋白质超 家族进行了分类。p s d 的注释中还包括对许多序列、结构、基因组和文献数据库 的交叉索引,以及数据库内部条目之间的索引,这些内部索引帮助用户在包括复 合物、酶一底物相互作用、活化和调控级联和具有共同特征的条目之间方便的检 索。每季度都发行一次完整的数据库,每周可以得到更新部分。p s d 数据库有几 上海大学硕士学位论文 个辅助数据库,如基于超家族的非冗余库等。p i r 提供三类序列搜索服务:基于 文本的交互式检索;标准的序列相似性搜索,包括b l a s t 、f a s t a 等;结合序 列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜 索、结构域搜索g e n e f i n d 等。 s w i s s - p r o t 9 】( h t t p :w w w e b i r e u k s w i s s p r o t ) 是国际上主要的蛋白质序 列数据库。s w i s s p r o t 数据库包括了从e m b l 翻译而来的蛋白质序列,这些 序列经过检验和注释。该数据库是经过注释的蛋白质序列数据库,由欧洲生物信 息学研究所( e b i ) 维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质 序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后 修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺 与疾病的关系、序列变异体和冲突等信息。s w i s s p r o t 中尽可能减少了冗余序 列,并与其它3 0 多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列 库和蛋白质结构库等。利用序列提取系统( s r s ) 可以方便地检索s w i s s p r o t 和其它e b i 的数据库。s w i s s p r o t 只接受直接测序获得的蛋白质序列,序列 提交可以在其w e b 页面上完成。 t a i r ( h t t p :w w w a r a b i d o p s i s o r e , ) 和j g i ( h t t p :g e n o m e jg i p s f o r g ) 是拟 南芥和杨树研究工作者的首选网站。这两个网站分别提供了一系列对拟南芥和杨 树基因组进行诸如b l a s t , f a s t a 等分析的工具。此外,研究者也可以以f t p 的形式下载部分数据库并进行本地分析。该网站也包括与其他生物学网站的链 接。 1 1 3 生物信息学工具介绍 1 、f a s t a i o 】( h t t p :w w w e b i a c u k f a s t a 3 3 ) 和b l a s t 1l 】( h t t p :w w w n c b i n l m n i h g o v b l a s t ) 是目前运用较为广泛的相似性搜索工具。比较和确定某 一数据库中的序列与某一给定序列的相似性是生物信息学中最频繁使用和最有 价值的操作。本质上这与两条序列的比较没有什么两样,只是要重复成千上万次。 但是要严格地进行一次比较必定需要一定的耗时,所以必需考虑在一个合理的时 6 上海大学硕士学位论文 间内完成搜索比较操作。f a s t a 使用的是w i l b u r - l i p m a n 算法的改进算法,进 行整体联配,重点查找那些可能达到匹配显著的联配。虽然f a s t a 不会错过那 些匹配程度高的序列,但有时会漏过一些匹配程度不高但达到显著水平的序列。 使用f a s t a 和b l a s t ,进行数据库搜索,找到与查询序列有一定相似性的序列。 一般认为,如果蛋白的序列一致性为2 5 3 0 ,则可认为序列同源。b l a s t ( b a s i cl o c a la l i g n m e n ts e a r c ht o o l ,基本局部联配搜索工具) 是基于匹配短序列片段, 用一种强有力的统计模型来确定未知序列与数据库序列的最佳局部联配。b l a s t 是现在应用最广泛的序列相似性搜索工具,相比f a s t a 有更多改进,速度更 快,并建立在严格的统计学基础之上。这两个工具都采用局部比对的方法,选择 计分矩阵对序列计分,通过分值的大小和统计学显著性分析确定有意义的局部比 对。b l a s t 根据搜索序列和数据库的不同类型分为5 种:l 、b l a s t p 是蛋白序 列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作 一对一的序列比对。2 、b l a s t x 是核酸序列到蛋白库中的一种查询。先将核酸 序列翻译成蛋白序列( 一条核酸序列会被翻译成可能的六条蛋白) ,再对每一条 作一对一的蛋白序列比对。3 、b l a s t n 是核酸序列到核酸库中的一种查询。库 中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。4 、t b l a s t n 是蛋白序列到核酸库中的一种查询。与b l a s t x 相反,它是将库中的核酸序 列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。5 、t b l a s t x 是核酸 序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻 译成蛋白( 每条核酸序列会产生6 条可能的蛋白序列) ,这样每次比对会产生3 6 种比对阵列。另外p s i b l a s t 通过迭代搜索,可以搜索到与查询序列相似性较 低的序列。其中b l a s t n 、b l a s t p 在实践中最为常用,t b l a s t n 在搜索相似 序列进行新基因预测时特别有用。 2 、c l u s t a l w 1 2 ( h t t p :w w w e b i a c u k c l u s t a l w ) 是一个最广泛使用的对核酸与 蛋白序列进行多序列比对的程序,在任何主要的计算机平台上都可以免费使用。 这个程序基于渐进比对的思想,得到一系列序列的输入,对于每两个序列进行双 7 上海大学硕士学位论文 重比对并且计算结果。基于这些比较,计算得到一个距离矩阵,反映了每对序列 的关系,于是,基于邻近加入方法,这个矩阵被用来计算出一个系统发生辅助树。 这个辅助树,加权后可以证实极相近的序列,然后以双重比对极相近的序列开始, 为组建比对提供基础,然后重新比对下一个加入的比对,依次类推。如果加入的 序列较多,那么必须加入空位以适应序列的差异,但是加入空位必须接受空位开 放罚分和空位扩展罚分。在绝大多数情况下,使用者不会在比对时加入结构信息, 但是空位开放补偿利用了可以出现在q 螺旋或1 3 折叠末端的特殊残基以及空 位罚分所偏好的残基,而这些残基更喜欢显示这个特异性。已经存在的空位的扩 展原则很简单,只是要在那些极有可能在结构中形成弯曲的位点扩展空位,这些 空位扩展罚分计算是有位置决定的。多序列比较在分子生物学中是一个基本方 法,用来发现特征序列,进行蛋白分类,证明序列间的同源性,帮助预测新序列 二级结构与三级结构,确定p c r 引物,以及在分子进化分析方面均有很大帮助, c l u s t a lx 很适合这些方面的要求。输入序列使用f a s t a 格式,输出结果除了可以 文本形式外,还可以通过j a l v i e w 显示和编辑结果。此外,还可以另外使用g e n e d o c ( 常见于文献) 及d n a s t a r 软件等显示结果。多序列比对的结果还用于进 一步绘制进化树。 3 、m e g a 13 】( h t t p :w w w m e g a s o f t w a r e n e t ) 系列软件用于检验和分析d n a 、蛋白质序列的演化。m e g a 能对多个序列数据进行分析、对类群内和类群间 的遗传多样性进行估计,还可以推断高等级水平的物种、基因的演化关系。这个 软件内嵌了很多用于估计演化距离、计算类群内和类群间分子序列和遗传多样 性、以及最小演化和最大简约标准下推断系统发育关系的方法。它还可以对系统 发育关系进行自展和可靠性置信概率( c o n f i d e n c ep r o b a b i l i t y ) 检验、以及确定 世系间替代模式异质性分散指数( d i s p a r i t yi n d e x ) 。新的m e g a 版本强调了序 列获得和演化分析的整合;允许多种格式数据输入,用户可以在多个窗口检视结 果,进行序列数据的操作和编辑、系列比对和系统发育关系树推断,并进行演化 距离估计。结果输出窗口( r e s u l t se x p l o r e r s ) 允许使用者进行浏览、编辑、总结 8 上海大学硕士学位论文 和输出结果。还包括距离矩阵、系统发育关系展示窗口( e x p l o r e r s ) ,以及一些 用于直观呈现输入数据和输出结果的高级图形模块。 4 、m e m e 1 4 1 5 】( h t t p :m e m e s d s c e d u ) 是在d n a 或者蛋白质序列中搜 索高度保守域的一个在线工具,也可下载在本地使用。 5 、p f a m 1 6 ( w w w s a n g e r a c u k s o f i w a r e p f a m ) 是一收录大量序列比较和基 于隐马可夫链算法的蛋白质家族比较的数据库及服务器。p f a m1 9 0 ( 2 0 0 5 年1 2 月) 版本包含了8 1 8 3 个蛋白家族连配序列数据和模型,序列数据来自s w i s s p r o t 4 8 1 和s p t r e m b l3 1 1 蛋白数据库。 6 、s m a r t 1 7 】( h t t p :s m a r t e m b l - h e i d e l b e r g d e ) 也是基于隐马尔可夫链算 法的蛋白质家族比较的工具,提供蛋白序列,在结构域数据库中查询显示出其结 构域和跨膜区等。最初用来研究涉及真核生物信号转导的蛋白质结构域,现已扩 展到细胞外蛋白质的活性结构域、细菌调控系统以及与d n a 、r n a 、染色体和 细胞骨架功能有关的结构域。 7 、g s d s 1 8 】( h _ t t p :g s d s c b i p k u e d u c n c h i n e s e p h p ) 是一个绘制基因结构示 意图的在线网络服务器,还能在基因结构图上标注特定的区域( 如功能区) 和内 含子相位。 8 、m a p l n s p e c t ( h t t p :w w w d p w w a u n l p v p u b m a p c o m p ) 是一个计算基因 距离并图形化显示的软件,可将基因在染色体上定位。 1 1 4植物中的生物信息学研究 拟南芥、水稻和杨树作为植物分子生物学研究中三种常见的模式生物,可用 于比较单子叶植物双子叶植物和草本植物木本植物之间的异同。它们的基因组 相对较小,便于测序和分析。而水稻作为世界最重要的农作物之一,其基因功能 和生物信息分析更是具有重要的意义。拟南芥全基因组约为1 2 5m b p ,其测序 工作已于2 0 0 0 年完成 1 9 】。水稻全基因组约3 9 0m b p ,中9 5 以上序列的测序 和拼接也由i r g s p ( i m e r n a t i o n a lr i c eg e n o m es e q u e n c i n gp r o j e c t ,国际水稻 基因组测序计划) 完成【2 0 。杨树全基因组全长约5 0 0 m b p ,测序则于2 0 0 6 年 9 上海大学硕士学位论文 完成【2 1 】。除全基因组测序的数据外,还有一些拟南芥、水稻或杨树的专有公共 数据库可供使用,比如数据库t a i r ( h t t p :w w w a r a b i d o p s i s o r g ) 、t i g r ( h t t p : w w w t i g r o r g ) 与j g i ( h t t p :g e n o m c j g i - p s f o r g p o p t r l 一1 p o p t r l j h o m e h t m l ) 。 植物中各基因家族分子进化的研究,也在植物生物信息学研究中占很大比 重。大量的公共数据,以及各种基因家族的信息学分析,给用生物信息学方法研 究植物基因的功能打下了坚实的基础。此外在揭示植物各个物种的进化过程和相 互间亲缘关系,以及物种内各基因家族成员进化关系方面,生物信息学也正在占 据越来越重要的地位。 1 2 系统发育分析方法 对d n a 序列进行系统发育分析的四个主要步骤是比对,建立取代模型,建 立进化树以及进化树评估。一般来说,执行这四个步骤的计算机程序都是相互独 立的,但是他们都是进行系统发育分析的有机部分。 三种主要的建树方法分别是距离法、最大简约法( m a x i m u mp a r s i m o n y , m p ) 和最大似然法( m a x i m u ml i k e l i h o o d ,m l ) 。最大似然方法考察数据组中序列的 多重比对结果,优化出拥有一定拓扑结构和树枝长度的进化树,这个进化树能够 以最大的概率导致考察的多重比对结果。距离树考察数据组中所有序列的两两比 对结果,通过序列两两之间的差异决定进化树的拓扑结构和树枝长度。最大节约 方法考察数据组中序列的多重比对结果,优化出的进化树能够利用最少的离散步 骤去解释多重比对中的碱基差异。 一 距离方阵方法简单的计算两个序列的差异数量。这个数量被看作进化距离, 而其准确大小依赖于进化模型的选择。然后运行一个聚类算法,从最相似( 也就 是说,两者之间的距离最短) 的序列开始,通过距离值方阵计算出实际的进化树, 或者通过将总的树枝长度最小化而优化出进化树。用最大节约方法搜索进化树的 原理是要求用最小的改变来解释所要研究的分类群之间的观察到的差异。最大似 然方法评估所选定的进化模型能够产生实际观察到的数据的可能性。进化模型可 能只是简单地假定所有核苷酸( 或者氨基酸) 之间相互转变的概率一样。程序会 l o 上海大学硕士学位论文 把所有可能的核苷酸轮流置于进化树的内部节点上,并且计算每一个这样的序列 产生实际数据的可能性( 如果两个姐妹分类群都有核苷酸“a ,那么,假定原先 的核苷酸是“c ,得到现在的“a 的可能性比起假定原先就是“a 的可能性 要小得多) 。所有可能的再现( 不仅仅是比较可能的再现) 的几率被累加,产生一 个特定位点的似然值,然后这个数据集的所有比对位点的似然值的加和就是整个 进化树的似然值。【2 2 】 1 2 1 分子系统发生分析 系统发生学是进化生物学的一个重要研究领域,系统发生分析早在达尔文时 代就已经开始。从那时起,科学家们就开始寻找物种的源头,分析物种之间的进 化关系,给各个物种分门别类。经典系统发生学研究所涉及的特征主要是生物表 型( p h e n o t y p e ) 特征,所谓的表型特征主要指形态学的( 结构的) 特征,如生物体 的大小、颜色、触角个数,也包括某些生理的、生化的以及行为习性的特征。通 过表型比较来推断生物体的基因型( g e n o t y p e ) ,研究物种之间的进化关系。但是, 利用表型特征是有局限性的。有时候关系很远的物种也能进化出相似的表型,这 是由称为趋同进化( c o n v e r g e n te v o l u t i o n ) 的过程造成的。例如,如果一个生物学 家按照生物体是否有眼睛来构建进化树,那么他可能将人类、两翼昆虫和软体动 物放在同一个进化组中,因为它们都有光探测器官。在这个例子中,很明显这三 种生物体并不具有密切的关系,在其它特征上有天壤之别,就是它们眼睛的构造 也大相径庭。这说明表型有时候会误导我们,表型相似并不总是反映基因相似。 用表型来判定进化关系的另一个问题是,对于许多生物体很难检测到可用来进行 比较的表型特征。例如,即使用显微镜检查,也难以发现细菌的明显特性。当我 们试图比较关系较远的生物体的时候,第三个问题又出现了,即什么样的表型特 征能用来比较呢? 例如,分析细菌、蠕虫和哺乳动物,它们之间的共同特征实在 是少之又少。 随着人们对生物的认识从宏观发展到微观,科学家对物种分类的依据也从宏 观上的形态发展到了微观上的分子,并且有了突破性的进展,系统发生分析进入 上海大学硕士学位论文 分子层次。科学家认为,现今世界上存在的核酸和蛋白质分子都是从共同的祖先 经过不断的进化而形成的,作为生物遗传物质的核酸和作为生命机器的蛋白质分 子中存在着关于生物进化的信息,可用于系统发生关系的研究。在分子水平上进 行分析具有许多表型分析所没有的优势,所得到的结果更加科学、可靠。分子系 统发生分析直接利用从核酸序列或蛋白质分子提取的信息,作为物种的特征,通 过比较生物分子序列,分析序列之间的关系,构造系统发生树,进而阐明各个物 种的进化关系。当然,这些分子不仅在序列上保留进化的痕迹,它们的结构也保 留着进化的痕迹。 在分子水平上研究生物之间的关系早在2 0 世纪初就开始了。科学家发现, 当把一个生物体的血液注射到另一个测试生物体中时,产生免疫反应的程度与这 两个生物体的进化关系直接相关,由此最早正确地推断出人和猿比它们和其它灵 长类动物有更近的共同祖先。直到2 0 世纪中期,分子数据才开始被广泛应用于 系统发生研究。蛋白质电泳使得我们可以在一些浅层特征上,如分子大小和电荷, 来分离和比较相关的蛋白质。2 0 世纪6 0 年代,蛋白质测序成为可能;2 0 世纪7 0 年代,研究者开始能够获得基因组信息,特别是d n a 序列。蛋白质序列和d n a 序列为分子系统发生分析提供了可靠的数据。 在现代分子进化研究中,根据现有生物基因或物种多样性来重建生物的进化 史是一个非常重要的问题。一个可靠的系统发生的推断,将揭示出有关生物进化 过程的顺序,有助于我们了解生物进化的历史和进化机制。根据核酸和蛋白质的 序列信息,可以推断物种之间的系统发生关系。其基本原理非常简单,从一条序 列转变为另一条序列所需要的变换越多,那么,这两条序列的相关性就越小,从 共同祖先分歧的时间就越早,进化距离就越大;相反,两个序列越相似,那么它 们之间的进化距离就可能越小。为了便于分析,一般假设序列变化的速率相对恒 定。关于地球上现代人起源的研究是一个典型而有趣的例子,科学家分析了取自 世界不同地区许多人的线粒体d n a ,分析结果表明,所有现代人都是一个非洲 女性的后代。线粒体d n a 非常适合于系统发生分析,因为线粒体d n a 从母体 1 2 上海大学硕士学位论文 完全传到子代,不与父代d n a 重组。由于d n a 分子非常稳定,所以我们既可 以通过d n a 分析活着的生物,也可以分析死去的生物,甚至分析已经绝种的生 物。当然,用细胞核基因来研究系统发生关系时,遇到的一个严重的问题是,基 因常常会被复制,导致在个体基因组中,一个基因可能有若干个拷贝。在进化过 程中,这些拷贝各自演变,形成两个或更多的相似基因。在对不同物种的基因进 行比较时,如果选择这类基因,其分析结果的可靠性将存在问题。 所有的生物都可以追溯到共同的祖先,生物的产生和分化就像树一样地生 长、分叉,以树的形式来表示生物之间的进化关系是非常自然的事。可以用树中 的各个分支点代表一类生物起源的相对时间,两个分支点靠得越近,则对应的两 群生物进化关系越密切。 系统发生分析一般是建立在分子钟( m o l e c u l a rc l o c k ) 基础上的。生物随着时 间的推进而演化,进化的速率被视为进化研究中的基本问题之一。进化速率就是 在某一段时间内的遗传改变量。分子进化速率相关的分子钟的概念源于对蛋白质 序列的研究。在长期的进化过程中,有着相似功能约束的位点的分子进化速率则 几乎完全一致。2 0 世纪6 0 年代最早由e m i l ez u c k e r k a n d l 和l i n u sp a u l i n g 所做 的蛋白质序列的比较研究表明,蛋白质同系物的替换率就算过了千百万年也能保 持恒定,因此他们将氨基酸的变异积累比做分子钟。科学家们在比较几种动物的 血红蛋白、细胞色素c 的序列后注意到:这些蛋白质的氨基酸取代速率在不同 的种系间大致相同,即分子水平的进化存在恒速现象。分子时钟在不同的蛋白质 中运行的速率是不同的,但是,两个蛋白质同系物的差异始终和它们独立分化的 时间成正比。两序列间稳定的变异速率,不仅有助于确定物种间系统发生关系, 而且能够像利用放射性衰变考察地质年代那样,准确测定序列分化发展的时间。 不同物种间的蛋白质氨基酸序列差异随着分歧时间的加大而增加,而d n a 序列 也存在这种规律。k i m u r a 进一步提出了具体的分子进化观点:对于各物种的每 个蛋白质,如果用每个位点每年发生的氨基酸替换次数作为衡量分子进化的速 率,则该速率是大致恒定的;功能上次要的分子( 或者分子部分) 的进化速率比 上海大学硕士学位论文 功能重要的分子( 或者分子部分) 进化速率快:对现有分子结构或者功能破坏小 的氨基酸替换比破坏力大的氨基酸替换

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论