桑树WRKY转录因子的全基因组鉴定及生物信息学分析.doc_第1页
桑树WRKY转录因子的全基因组鉴定及生物信息学分析.doc_第2页
桑树WRKY转录因子的全基因组鉴定及生物信息学分析.doc_第3页
桑树WRKY转录因子的全基因组鉴定及生物信息学分析.doc_第4页
桑树WRKY转录因子的全基因组鉴定及生物信息学分析.doc_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

桑树WRKY转录因子的全基因组鉴定及生物信息学分析 摘要:目的明确桑树基因组中WRKY转录因子家族结构及其功能特征,为进一步揭示WRKY转录因子家族生物学功能提供科学依据。方法利用生物信息学方法对桑树WRKY转录因子的数目、类型、结构、系统进化关系、保守结构域和密码子使用偏性等进行全面分析。结果基于桑树全基因组蛋白数据库,共鉴定出55个桑树WRKY转录因子家族基因,占桑树基因总数(29261)的1.88%。桑树WRKY转录因子存在6种内含子数量类型及15种内含子相位类型,其中27个基因含有2个内含子,25个基因的相位类型为2-2型。保守结构域系统进化分析结果显示,桑树WRKY转录因子家族蛋白主要分为三大类(、和),I类可分为IN和Ic两个亚组,类根据聚类情况又可分为a、b、c、d和e等5个亚组。桑树WRKY转录因子蛋白保守结构域分析发现有五类Motif的保守性较强,桑树WRKY转录因子蛋白中均包含c端Motif1,I类蛋白同时含有N端Motif3。桑树WRKY转录因子家族基因启动子区富含PBF(C2H2锌指因子)和AHL(拟南芥hook因子)元件。密码子使用偏性分析结果显示,桑树WRKY转录因子家族基因的有效密码子数(ENC)介于48.00-60.00,密码子第3位GC含量(GC3s)介于0.330-0.722,平均亲水性值(Gravy)均为负值;同义密码子相对使用度(RSCU)I.000的密码子有29个,且以A(6个)或T(11个)结尾较G(4个)或c(8个)结尾的略多。结论桑树WRKY转录因子家族包含55个成员,内含子相位类型一致的同组成员可能同一祖先基因,且与基因复制和基因组重排有关;蛋白序列高度保守,在植物抵御环境胁迫过程中发挥作用;基因密码子使用偏性较弱,主要受碱基突变选择压力影响。 关键词:桑树;WRKY转录因子;密码子使用偏性;系统进化;生物信息学 0引言 研究意义WRKY转录因子家族是仅存于高等植物中的一类锌指蛋白,参与植物的生长发育,能对环境胁迫和病原侵染作出响应。首先,WRKY转录因子蛋白在植物免疫反应中发挥重要作用,是植物免疫系统各通路的中心组件,包括MTI、PTI、ETI、基本防御及系统获得抗性(Birkenbihletal.,xx)。其次,WRKY转录因子在植物的应激反应中也起关键作用,其网络涉及生物和非生物胁迫的各组成部分(Eulgem,xx;Zhuetal.,xx)。WRKY转录因子家族基因过表达能增強植物对盐和干旱胁迫的耐受性,同时增强抗病性(OiuandYu,xx)。此外,WRKY转录因子还在植物种子发芽、衰老及其他发育反应中发挥重要作用(Rushtoal.,xx;Verweijetal.,xx)。密码子使用偏性是指各种生物体偏爱使用三联密码子(编码相同氨基酸的同义密码子)的现象,普遍存在于生物界中,且物种的亲缘关系越近密码子使用偏性越相似;密码子使用偏性还与基因表达、蛋白质功能等密切相关。因此,研究密码子使用偏性对开展基因进化压力研究、基因表达水平预测及外源基因改良等均具有重要意义。前人研究进展WRKY转录因子家族含有60个高度保守的氨基酸WRKY功能域,包含N端的WRKYGQK保守的氨基酸和C端非典型的锌指结构(Rushtoal.,xx)。根据WRKY结构域数量和锌指结构氨基酸组成的不同,可将WRKY转录因子家族蛋白分为三大类:第1类含有2个WRKY结构域,具有Cys2-His2型(CX46CX22-23HX1H)锌指结构;第类和第类仅含有1个WRKY结构域,其中第类的锌指结构与第1类的类似,第类的锌指结构为Cys2-His-Cys型(CXvCXE3HTC),根据保守氨基酸残基的差异,第类又可分为5个亚类(Eulgemetal.,2000)。至今,已有多种植物WRKY转录因子家族基因被鉴定(Wuetal.,xx;Rossetal.,xx;Lingetal.,xx;HuangetaL,xx;DmgetaL,xx;Songetal,xx;Zhangetal.,xx),并证实WRKY转录因子家族参与植物的多种生理生化过程,包括衰老(zhangetal.,xx)、纤维发育(Dingetal.,xx)、生物和非生物胁迫(Songetal.,xx;Weietal.,xx)等。不同物种或同一物种不同基因问的密码子使用偏性不同,与基因在进化过程中所面对的选择压力不同有关。物种在进化过程中受基因突变压力和自然选择压力的双重影响,但由于二者在基因进化过程中所发挥作用的权重不同,导致密码子使用偏性具有物种特异性(赵洋等,xx;曲俊杰等,xx)。密码子使用偏性与GC含量有关时表示受突变压力影响(Cheal.,xx),与翻译过程有关时表示受正向选择压力影响(Sharpetal.,xx)。因此,通过优化密码子可提高外源基因在寄主细胞中的表达水平(周宗梁等,xx;Zelaskoetal.,xx)。本研究切入点桑树(Morusnotabilis)是一种常见的落叶乔木,其叶片是桑蚕的主要饲料,桑皮可用作造纸原料,桑果可供食用或酿酒,在我国多个省份均有栽培,但目前针对桑树WRKY转录因子基因及其蛋白的研究鲜见报道。拟解决的关键问题在桑树基因组测序工作的基础上,利用生物信息学方法全面预测分析桑树基因组中WRKY转录因子家族结构及其功能特征,为进一步揭示WRKY转录因子家族生物学功能提供科学依据。 1材料与方法 1.1蛋白序列获取与鉴定 桑树全基因组蛋白序列从GenBank数据库中搜索获得,以拟南芥WRKY转录因子蛋白序列为探针,在桑树全基因组蛋白数据库中进行BLASTp同源序列比对分析,通过NCBI在线工具CDD(s:/.ncbi.nlm.nih/cdd)和Pfam数据库(:/pfam.xfam/)进行蛋白结构域分析,并剔除无WRKY结构域的蛋白序列。 1.2基因及其蛋白结构分析 从NCBI中获得桑树WRKY转录因子基因序列和CDS序列,使用基因结构显示系统(:/gsds.cbi.pku./index.php)绘制基因结构示意图;通过MEMESUITE(:/meme-suite/tools/meme)預测桑树WRKY转录因子蛋白序列保守氨基酸Motif,参数设为默认值。 1.3基因启动子区特征分析 通过GenBank数据库获取桑树WRKY转录因子家族基因转录起始位点上游的2kb序列,以JASPAR(:/iaspar.genereg./)数据库分析启动子区富含转录调控基序。选择植物启动子基序数据库作为搜索数据库,相对阈值分数选择100%。 1.4蛋白系统进化分析 所有桑树WRKY家族蛋白通过Clustalx进行比对分析,选取WRKY和锌指结构域保守序列,采用MEGA5.0中的NJ(Neighbor-jioining)法构建系统发育进化树,参数选择Bootstrap为1000。系统发育进化树的绘制与优化使用Itol在线工具(:/itol.embl.de/)完成。 1.5基因密码子使用偏性分析 利用CodonW1.4.4对桑树WRKY转录因子家族基因CDS序列密码子的使用偏性进行分析,包括密码子适应指数(CAI)、有效密码子数(ENC)、密码子第3位GC含量(GC3s)和平均亲水性值(Gravy)等参数。以GC3s为横坐标、ENC为纵坐标绘制ENC-plot图谱。图谱中的曲线为ENC预期值,表示密码子使用偏性仅由碱基组成决定,计算公式为:ENC=2+GC3s+29/GC3s2+(1-GC3s)2。分布点越靠近标准曲线表示密码子使用偏性受碱基突变影响越大,越远离标准曲线表示密码子使用偏性受自然选择影响越大。使用EMBOSSexplorer网站(:/emboss.toulouse.inra.fr/)在线软件Cusp对同义密码子的相对使用度(Relativesynonymouscodonusage,RSCU)进行分析。 2结果与分析 2.1桑树WRKY转录因子家族成员鉴定及其序列分析结果 基于桑树全基因组蛋白数据库,经BLASTp同源搜索和SMART保守结构域鉴定,共获得55个桑树WRKV录因子基因(表1),占桑树基因总数(29261)的1.88%。其中,蛋白氨基酸残基数小于300aa的基因序列占24%,介于300-650aa的基因序列占71%,大于650aa的基因序列占5%。 桑树WRKY转录因子家族基因存在6种内含子数量类型(图1)。其中,有27个基因含有2个内含子,为数量最多的类型;有10个基因含有4个内含子;WRKY9基因的内含子数量达14个,为内含子数量最多的类型。桑树WRKY转录因子家族基因内含子相位类型有15种,呈多样性。其中,有25个基因的内含子相位为2-2型,是基因数量最多的类型;有6个基因的内含子相位为2型。进化组和进化组c中的基因内含子数量和相位类型较多样,说明组内基因较复杂;进化组a、进化组b、进化组d、进化组e和进化组中的基因结构和内含子相位类型高度一致,内含子相位为22型,可能是由同一祖先基因复制而来。 2.2桑树WRKY家族蛋白的系统进化分析结果 利用MEGA5.05对72个拟南芥WRKY转录因子蛋白和55个桑树WRKY转录因子蛋白的保守结构域序列进行系统进化分析,结果显示,桑树WRKY转录因子蛋白主要分为三大类(、和),其中,第类根据WRKY保守结构域处于N端或C端,可分为N和C两个亚组;第类根据聚类情况又可分为a、b、c、d和e等5个亚组(图2)。但MnWRKY49和MnWRKYlC未归入以上分组。 2.3桑树WRKY转录因子蛋白保守结构域分析结果 使用MEMESUITE对桑树WRKY转录因子保守氨基酸Motif进行分析,结果发现有五类Moti啪保守性较强,其正则表达式如图3所示。其中,Motif1是WRKYMotif,在桑树WRKY转录因子家族中高度保守;Motif3为进化组IN端的WRKY保守结构域;Motif2为锌指结构,仅MnWRKY28、MnWRKY43和MnWRKY54缺少该结构域。55个WRKY转录因子蛋白均具有Motif1,所有I类基因蛋白均具有Motif1和Motif3。Motif4为结构域,Motif5为LXsLXgLX3L基序,类似LRR结构域,进化组I、进化组a和进化组c的基因蛋白结构包含Motif4,进化组a、进化组b和进化组的基因蛋白结构包含Motif5。部分桑树WRKY转录因子保守结构域和锌指结构存在变异,如进化组c中MnWRKY50和MnWRKY51的保守结构域为WRKYGKK,MnWRKY28和MnWRKY54的锌指结构缺少CX.sCX22.23部分,进化组中MnWRKYl9和MnWRKY23的锌指结构分别为CX7CX23HRC和CX7CX23HIC,保守氨基酸残基发生变异。 2.4桑树WRKY转录因子家族基因启动子区特征分析结果 桑树WRKY转录因子家族基因启动子区均含有PBF结合元件(AAAGC),每个基因启动子平均含有4.8个元件(表2),PBF属于Dof家族C2H2锌指因子类,有助于bZIP转录因子结合DNA(Vicente-Carbaiosaetal.,1997);另外两种C2H2锌指因子类(DOF2.4和DOF5.3)含量也较高。55个桑树WRKY转录因子家族基因中有28个基因的启动子区含有AHL20结合元件(AATTAAAT),AHLl2与AHL20转录因子均属于拟南芥hook因子,能特异性结合与核基质附着相关且富含AT的DNA序列,通过下调PAMP引发的NH01和FRKl可负调控植物对病原菌的先天性免疫作用(Luetal.,xx)。此外,部分桑树WRKY转录因子家族基因启动子区含有bZIP、ERF、GT-1、MYB、TGA和WRKY转录因子结合序列。 2.5桑树WRKY转录因子家族基因密码子使用偏性分析结果 为了解桑树WRKY转录因子家族基因密码子使用偏性,对ENC、GC3s和Gravy等参数进行分析,结果发现,桑树WRKY转录因子家族基因ENC介于48.00-60.00,GC3s介于0.330-0.722,Gravy均为负值(表3),表明桑树WRKY轉录因子蛋白均为亲水性蛋白,且多数具有强亲水性。 ENC与GC3s的关联分析结果显示,基因分布越靠近ENC-plot图谱标准曲线表示密码子使用受碱基突变压力影响越大,基因分布在标准曲线下方或远离曲线,表示基因受自然选择压力影响越大。GC3s分布则反映植物所受的选择压力,GC3s分布越广泛,表明密码子使用偏性受碱基突变压力越大,GC3s分布范围越小,表明密码子使用偏性受正向选择压力影响越大(KawabeandMivashita,xx)。由图4可知,桑树WRKY转录因子家族基因的GC3s介于0.330-0.722,分布较广泛,且多数基因ENC分布在标准曲线下方,表明桑树WRKY转录因子家族基因同时受到碱基突变和正向选择压力的影响。 RSCU是同义密码子实际使用量与理论使用量的比值。RSCU1.000,表示密码子使用频率高于其他同义密码子;反之则使用频率低。由表4可知,RSCUI.000的密码子有29个,且以A(6个)或T(11个)结尾较G(4个)或C(8个)结尾的略多,说明桑树WRKY转录因子家族基因的密码子使用偏性较弱,略偏好A或T结尾。 3讨论 WRKY转录因子蛋白为植物特有转录因子家族,广泛参与植物多种生物学进程的调控。至今,多个已完成基因组测序植物的WRKY转录因子家族基因被鉴定,番茄基因组中有81个WRKY转录因子家族基因(Wuetal.,xx),黄瓜有55个WRKY转录因子家族基因(Rossetal.,xx),大豆有176个WRKY转录因子家族基因(Lingetal.,xx),棉花有113个WRKY转录因子家族基因(Huangetal.,xx),粳稻有98个WRKY转录因子基因(周宗梁等,xx),拟南芥有72个WRKY转录因子家族基因(Zelaskoetal.,xx),苹果有132个WRKY家族基因(谷彦冰等,xx)。Baranwal等(xx)研究发现,桑树基因组中含有54个WRKY转录因子基因。同一家族基因的数量与植物进化过程中基因复制、基因组重排等有关,如水稻、番茄、苹果和棉花的WRKY转录因子家族均存在基因复制现象(Wuetal.,xx;Huangetal.,xx;周宗梁等,xx),但在WRKY转录因子数量较少的黄瓜中未发现基因复制现象(Rossetal.,xx)。WRKY转录因子基因数目除了与物种基因组有关外,还与植物进化过程中所受的环境压力有关。本研究结果显示,桑树WRKY转录因子家族基因数量为55个,属于WRKY转录因子家族基因相对较少的物种类型,说明进化过程中该家族基因受到的环境压力较小。 基因结构中内含子数量及相位类型是研究基因进化的重要证据。根据剪接中位置的不同,内含子分为3种相位类型,0型内含子位于2个密码子之间,1型内含子位于密码子的第1和第2碱基之间,2型内含子位于密码子的第2和第3碱基之间(Sharp,1981)。内含子相位的改变会导致后续阅读框发生变化,因此内含子的相位通常比较保守。本研究中,桑树WRKY家族蛋白主要分为三大类(、和),且有2个蛋白(MnWRKY49和MnWRKYlC)未进行分组,与Baranwal等(xx)将桑树WRKY转录因子家族分为四类的研究结果基本一致。本研究还发现,同一进化组的基因结构内含子数量和相位类型高度一致,进化组a和进化组b的内含子相位类型全部为0型,进化组d、进化组e和进化组全部为2型。约50%桑树WRKY转录因子家族基因包含2个内含子,其中有25个基因的内含子相位为2-2型,分别属于进化组c、进化组d、进化组e和进化组,推测其共同的祖先基因。 本研究的系统进化分析结果显示,桑树WRKY家族蛋白主要分为三大类,类又分为5个亚组。所有成员均含有保守基序WRKYGQK(MnWRKY50和MnWRKY51为WRKYGKK外),类和类还包含有保守的锌指结构C2H2(除MnWRKY28和Mn-WRKY54缺少外),类的锌指结构为C2HC。Rinerson等(xx)研究认为,植物中WRKY转录因子家族基因存在两种可能的起源方式,一种起源于类蛋白C端WRKY结构域,一种起源于藻类a或b的某一蛋白结构域。桑树WRKY转录因子蛋白保守结构域分析发现有五类Motif的保守性较强,所有桑树WRKY蛋白中均包含C端Motif1,类蛋白同时含有N端Motif3。进化组a、进化组b和进化组中含有类似LRR结构域的Motif5。可见,植物WRKY转录因子基因家族结构上高度保守,桑树WRKY转录因子可能起源于I类基因蛋白C端WRKY结构域。 WRKY蛋白特异性结合DNA的最小基序TTGAC(C/T)称作W-box。多数WRKY转录因子的目标基因启动子中均含有数量不定的W-box,彼此间或同向排列或形成回文结构,WRKY转录因子与其结合,而调节下游功能基因或其他转录因子的表达(Eulgemetal.,2000)。一些植物WRKY转录因子家族基因启动子中也存在W-box,如拟南芥WRKYl8启动子中的W-box是起负调控作用的顺式作用元件,能阻止拟南芥WRKYl8在抗病期间的过量表达,从而缓解该基因对植物生长造成的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论