基于rbcL序列验证5个十字花科植物的系统发育关系.docx_第1页
基于rbcL序列验证5个十字花科植物的系统发育关系.docx_第2页
基于rbcL序列验证5个十字花科植物的系统发育关系.docx_第3页
基于rbcL序列验证5个十字花科植物的系统发育关系.docx_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于rbcL序列验证5个十字花科植物的系统发育关系摘要:本文选择了十字花科5个植物拟南芥(Arabidopsis thaliana)、琴叶拟南芥(Arabidopsis lyrata)、荠菜(Capsella rubella)、芜菁(Brassica rapa)、小盐芥(Thellungiella halophila)的rbcL基因的CDS序列,运用MEGA6进行序列分析并构建系统发育关系。结果得到该基因序列总长度为4394bp,其保守位点3542个,变异位点793个,简约信息位点200个,运用MP法构建的进化树所显示的关系与Phytozome首页一致。关键词:十字花科 rbcL序列 系统发育关系1. 十字花科与rbcL序列1.1. 十字花科十字花科是植物中最繁盛的科之一,大约有约375属,3200种,广布于全世界,主产北温带,特别是地中海地区,中国有96属,约411余种。十字花科植物可以合成较高浓度的芥子油,菜粉蝶对芥子油具有趋化性,因此会将卵产于十字花科植物叶片上,于是菜青虫也就集中在了十字花科植物叶片上。科内植物为一年生、二年生或多年生草本,叶互生,基生叶呈莲座状无托叶;叶全缘或羽状深裂。花两性,辐射对称,排成总状花序。本科有经济价值的许多蔬菜和油料作物(油菜), 少数供药用、观赏和作饲料。其代表植物有拟南芥(Arabidopsis thaliana)大白菜(B. pekinensis)甘蓝(B.oleracea)萝卜(Raphanus sativus L)等,本文选择了拟南芥(Arabidopsis thaliana)、琴叶拟南芥(Arabidopsis lyrata)、荠菜(Capsella rubella)、芜菁(Brassica rapa)、小盐芥(Thellungiella halophila)这5种植物(在Phytozome首页上为一单系)作为对象进行分析验证。1.2. rbcL基因核酮糖-1,5-双磷酸羧化酶/加氧酶(Rubisco)是叶绿体基质中的主要可溶性蛋白,此酶在光合作用的Calvin-Benson循环中固定CO2,而且也在C3植物的光呼吸过程中起作用。它由8个相同的大亚基和8个相同的小亚基组成。大亚基由叶绿体DNA编码并且由叶绿体的核糖体合成;小亚基由核基因编码。首先由细胞质内的核糖体合成前体蛋白,穿越叶绿体膜后再加工为成熟形式。编码大亚基的基因简称为rbcL基因,编码小亚基的基因简称为rbcS基因。在1980 年就首次测定了玉米rbcL 基因的序列,这也是第1个被克隆和测序的叶绿体蛋白质的基因。紧接着又测定了菠菜和烟草rbcL基因的序列,迄今已测得1000余种种子植物rbcL基因的序列。高等植物rbcL基因在结构上和原核生物基因相似, 由5非编码区、编码区和3非编码区三部分组成。5非编码区具有可以和叶绿体16S rRNA3端附近互补的SD序列;3非编码区具反向重复序列,能形成典型的茎环结构作为转录终止信号;多数rbcL基因还具有和原核生物基因启动子类似的共通序列。另外,除在纤细裸藻(Euglena gracilis)的rbcL基因内发现9个内含子外,高等植物和衣藻的rbcL基因均不具内含子。rbcL 基因序列是分子系统学研究中使用最为广泛的分子指标之一。它在用于此目的的研究时具有一些独特的优点: 一般以单拷贝形式存在, 不发生基因转变;长度较大, 能提供较多的分子性状;进化速率比较适于研究高等级类元间的系统关系等。因此,本文运用rbcL序列进行分析验证。2. 方法2.1. 序列的获取AT3G18110.1_CDS318569_CDS0.037Carubv10012815m_CDS0.0660.066Bra022281_CDS0.1130.1200.120Thhalv10019896m_CDS0.0930.0950.0970.096在Phytozome首页进化树中选择整个植物界Viridiplantae,在tools中选择Keyword search,Search term里输入rbcL,点击submit后进行搜索。结果得到有一个基因家族,点击展开后得到每个物种中属于该家族的基因列表。发现在Ath、Aly、Cru、Bra、Tha中分别有4个、4个、4个、5个、4个基因,本文选择了Ath的AT3G18110.1基因、Aly的318569基因、Cru的Carubv10012815m基因、Bra的Bra022281基因和Tha的 Thhalv10019896m基因,对于每个基因,点击G(go to the gene page)图标进入基因页面,在Sequences中选择CDS sequence,将得到序列复制下来,以fasta格式保存在word文件中。表1 基于Kimura 2- Parameter 距离模式的遗传距离2.2. 序列的排序打开MEGA6软件,点击Align,选择Edit/Build Alignment,创建一个新的Alignment,选择DNA序列,将word文件中的序列复制下来,粘贴到新建的Alignment中,选择全部的序列,点开Alignment菜单,选择Align by ClustalW(Codons),设置均为默认,点击OK进行排序,将排序完毕的序列保存为2.mes,并且已MEGA格式输出为3.meg。在打开的3.meg中可查得保守位点3542个,变异位点793个,简约信息位点200个。2.3. 进化树的构建打开3.meg文件,在Phylogeny菜单下选择Construct/Test Maximum Parsimony Tree(s),在Test of Phylogeny出选择Bootstrap method,数目设置为100后进行Compute,得到的进化树保存为4MP.mts。3. 结果与讨论3.1. 结果运用MEGA6对十字花科5种植物的rbcL序列进行排序分析,结果显示该基因序列总长度为4394bp,其保守位点3542个,变异位点793个,简约信息位点200个。将排序后的序列打开,选择Kimura 2- Parameter 核酸距离模式计算得遗传距离矩阵如表1 所示,运用MP法,在自展百分比分析中, 经过100次重复抽样计算, 获得的最大简约树(图1)与Phytozome首页的进化树(图2)一致。图2 Phytozome首页进化树图1 MP进化树(Tha)(Bra)(Cru)(Aly)(Ath)3.2. 讨论本次运用rbcL序列验证5个十字花科植物系统发育关系得到的结果较好,其自展支持率均为100%,可能的原因有两点,一是选择的物种数目较少,而且亲缘关系较近;二是选择的rbcL基因也适合用于系统发育分析。在选择基因时,自然是选择保守且在植物中广泛存在的基因比较好,而在生化课程中学到了对于光合作用很重要的酶Rubisco,于是便选择其基因序列进行分析,查阅相关资料后,恰巧发现编码大亚基rbcL基因非常适合用于系统分析,最终就决定用这个基因了。在获取序列时,搜索得到了Ath中共有4个基因属于rbcL基因家族,点击进入了第一个基因(AT3G18110.1)的页面里,发现其基因与Aly的318569基因、Cru的Carubv10012815m基因、Bra的Bra022281基因和Tha的 Thhalv10019896m基因相似度都比较高(分别为95.3%、95.2% 、91.0% 、86.8%),而且其拷贝数均为1,于是选择了这5个基因(事实上Ath的AT5G27270.1基因与其他4个物种相应的基因相似度更好些)。经BLAST反查后也显示这5个基因序列最为相似。本文选择了用MP法构建进化树,MEGA6还提供了其他方法,如邻接法(NJ)、最小进化法(ME)、不加权配对组算术方法(UPGMA)等。邻接法(NJ)是距离法构建系统发育的常用方法,基于最小进化原理,而不使用优化标准。邻接法中一个重要概念就是“近邻”。在谱系树上,如果两个分支之间只通过一个内部节点相连,那么这两个分支就被称为“近邻”。完全解析出的进化树是通过对完全没有解析出的“星型”进化树进行“分解”得到的,分解的步骤是连续不断地在最接近(实际上,是最孤立的)的序列对中插入树枝,而保留进化树的终端。于是,最接近的序列对被巩固了,而“星型”进化树被改善了,这个过程将不断重复。这种方法并不检验所有可能的拓扑结构,因此相对而言运算速度很快。最小进化法(ME)首先使用与Fitch-Margoliash法相同的方式计算出路径长度,然后根据路径长度优化出最短的进化树;也就是说,它要求将观察到的距离相对于基于进化树的距离的偏差的平方最小化。ME方法并不使用所有可能的双重序列距离和所有可能的相关的进化树路径长度,而是先根据到外层节点的距离固定进化树内部节点的位置,然后根据这些观察点之间的最小计算误差,对内部的树枝长度进行优化。ME的理论基础是,当使用无偏的进化距离估计时,无论序列数目为多少,真实拓扑结构的预期值将会达到最小。这是一个很好的统计学特性,但是具有最小预期值的拓扑结构并不一定是真实拓扑结构的无偏估计。最大简约法(MP)是依据生物演化应该遵循简约性原则,所需变异次数最少(演化步数最少)的演化树可能为最符合自然情况的系统树。在最大简约法中,只有在两个以上分类单元中存在差异的性状或位点才能为构建系统发育树提供有效的信息,对于DNA序列来说,这样的位点称为简约性信息位点(parsimony-informative site)。Bootstrap是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法,也称为自展法。其核心思想和基本步骤是,采用重抽样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样;根据抽出的样本计算给定的统计量T;重复上述N次(一般大于1000),得到N个统计量T;计算上述N个统计量T的样本方差,得到统计量的方差,以此评价建树的可靠性。Bootstrap是现代统计学较为流行的一种统计方法,在小样本时效果很好。通过方差的估计可以构造置信区间等,其运用范围得到进一步延伸。本文除了应用MP法,还用了NJ法和ME法构建了进化树,均得到了相同的结果(在附件中)。在阅读文献时发现,科研中要确定某些物种的系统发育关系,首先要选择适合分类的基因如rbcL、ITS2、matK等,经过DNA提取、PCR扩增、序列测定后才可得到序列进行分析,而且分析的方法也更复杂精细

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论