基因家族分析_第1页
基因家族分析_第2页
基因家族分析_第3页
基因家族分析_第4页
基因家族分析_第5页
已阅读5页,还剩53页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基因家族分析——挖掘与物种特性相关的生物学问题张

龙华中农业大学&广东省农科院2539570165@qq.cm基本内容一、获取目标物种基因二、目标物种基因基本信息的获取(命名、理化性质、亚细

)●蛋白物理化学性质分析/protparam/●亚细胞定位ttp://www.csbio.sjtu.e/bioinf/plant-multi/#一般将以上信息汇总在一张

表格中在文章中展示。alP/三、构建系统发育树——构建、评估、解读1、构建·

序列比对,选择保守区域·

有根树or

无根树:一般由于信息不足,采用无根树·

建树方法的选择:NJ

法(常用,远缘)、ML

法(进化模型)、MP

(近缘)等2、评估自展检验(Bootstrap

method)法,检验次数一般1000次,可将分支上的

百分数视为这支结果的可信度。三、构建系统发育树——构建、评估、解读3、解读阐明系统进化关系。注意:系统发育树并不能

确切指示进化方向FpTPS1pTF

S120eGpTPS

522GppsiAGo输入的序分7进化关系,数字是评估,长度是进化距离亚家族分类ss2四、染色体定位分析1、基因主要分布于哪条染色体?2、是否能形成基因簇?基因簇的形成一般与基因家族的来源和特定功能有关。T

patop名言名名的

师0pToptmTPS4五

、motif分析(保守基序分析)在文章中,motif

分布图通常与基因家族进化树合并,这样有助于直观查看不同分支保守和特异性motif。如果对某些motif

感兴趣,还可进一

步用CDD注释motif

功能。可见每一推测同一亚家族成员有类似的功能亚家族成员中Motif

组成和

排列顺序的与功能相关六、基因结构分析了解基因家族成员的基本分类信息、提供对某些基因家族内进化关系的见解。在文章中,基因结构图通常与基因家族进化树合并,这样有助于直观查看不同分支在基因结构上的保守性和特征。同一亚家族成员的基因结构是否类似,反证建树是否可靠。UTR(非编码区、内含子组)、CDS

(编码区、外显子组)数量与基因结构、功能有关七、基因复制和共线性分析阐明目标物种基因家族的潜在进化机制,有无串联重复和大片段复制。研

究目标物种和其他物种基因家族成员之间的直系同源对关系。一般来说,基因长度和相似性大于70%则为基因复制;两个重复基因的物理间隔小于100kb

且被少于5个基因分隔,则为串联重复基因。红线越多,直系同源基因对越多,亲缘关系越近,基因功能越相似红色:高表达蓝色:低表达一般有以下几种类型:·不同组织表达分析:根、茎、叶·不同时间表达分析:1d、2d、3d·不同处理表达分析:干旱、盐碱、水渍

明确基因家族的表达情况八

、基因表达分析基因家族的表达分析与基因功能的关系最紧密九、启动子分析获得基因家族功能相关的上游调控通路或因子,或响应的上游信号。是否含有某些胁迫响应顺式元件或激素响应相关的基因。十、其他分析1、蛋白互作网络分析:·分析家族成员之间的蛋白互作情况,分析是否需要形成同源或异源二聚体或多聚体来发挥功能;·

目标基因家族蛋白发挥作用时是否需要和其他蛋白形成复合体;·分析目标基因家族蛋白的上下游互作调控蛋白,比如转录因子通过结合基因启

动子来调控基因表达,或者激酶通过蛋白互作磷酸化该蛋白从而进行信号转导;·可以靶向下游基因发挥作用,比如酶催化底物蛋白进行生化反应等2、蛋白domian

比对分析和可视化3、蛋白3D结构分析和可视化4、基因家族特殊结构域分析基因家族分析简明教程1、获取目标物种基因2、目标物种目标基因家族鉴定3、基因家族成员理化性质分析4、亚细胞定位预测5、染色体定位分析6、系统进化分析7、基因结构分析8、motif分析9、启动子分析10、基因共线性分析11、其他分析目

录已超链接,点击跳转1.基因家族的鉴定·1.1获取参考基因组信息NCBI(https://www.ncbi.nlm.nih.gov)在此输入物种拉丁名+基因家族名称如:TriticumaestivumTCP1.2获取目标物种相关基因组数据(

DNA,cDNA,CDS,Proteinsequence,Genesets(GTF&GFF3)等)——使用EnsemblPlants

数据库http://plants.ensembl.org/info/data/ftp/index.htmlLoginRegister2

基因家族成员鉴定:hummer

鉴定在Pfam网站https:

//pfam.xfam.org

/下载隐马尔可夫模型2

.2在Pfam

网站https://pfam.xfam.org

/下载隐马尔可夫模型12.3

以下载好的HMM

模型向目标物种基因组序列(蛋白)搜索,以筛选得到大

致的基因家族成员(候选基因)。hmmer程序/

下的子程序hmmsearch2.4.1将候选基因提交到

NCBI

中的

Batch

CDDsearch

Pf

am

数据库比对,验证是否具有目标基因特征,删除假阳性基因。

首先是Batch

CDD

search。·打开NCBI——CDD——batch—CD—search·输入刚刚提取得到的蛋白序列,点击Browse

result,全选序列:2.4.2再点击show

selected

queries,查看蛋白结构域将不含有目

的基因家族结构域的蛋白删除,最后得到的蛋白序列即为该基因家族的序

列。或者使用TBtools

中的VisualizeNCBICDDDomainPattern

可视化结构域图。2.5.1Pfam数据库验证比对(

http://pfam-

legacy.xfam.org/search)2.5.2.Pfam结果可视化2.6根据验证结果确定基因,除去以下序列,最终得到确定的基因序列·无典型结构域·结构不完整·冗余序列3.1

蛋白物理和生化特征分析,预测蛋白质分子量、等电点、相对分子质量、稳定性等(/protparam/)。只输入氨基酸序列即可,单个依次分析3.2

结果解读ExpasyProtParamHomel

Contact Molecular

weight:29563.71

Theoretical

pI:6.124

亚细胞定位预测(http://wwW.csbio.sjtu.edu.cn/bioinf/plant-multi/#)5

基因位置分析及可视化6.

进化树构建6.1

目标物种基因家族文件与拟南芥等参考物种基因家族文件合并。

将两个序列信息文件粘贴复制进一个新的fasta

文件中即可6

.2

MEGA比对,将新合并的fasta

文件拖入ME

GA软件中,选择对齐进入。进化树构建6.3

分析,完成后关闭当前页面网

Molecular

EvolutionaryGenetics

Analysis□

×File

Analysis

Help点击建树DATA进化树构建6.4

建树,一般选择NJ

法进化树构建6.5

导出建树文件,并保存。其他分析有用进化树构建6

.6进化树美化(https://evolgenius.info//evolviewv2/#login)

-进化树构建6、进化树美化。改变树各部分颜色,可点击下图红框框处查看官方详细

配置说明。具体参考文章https://WWW.csdn.net/tags/0tDaQg4sODkzNjQtYmxvZw0000000000.html添加颜色的分组信息,编辑模板如下:AT2G04880.1,AT2G30250.1blue

adAT4G01250.1,AT4G31550.1red

adAT4G39410.1,AT5G49520.1yellow

ad《7.基因结构分析TBtools8

motif分析8.1

序列提取motif分析8.2

MEME文件提取(

/meme/tools/meme)motif分析8.3motif可视化9.启动子分析9.1

提取基因组文件中前2000bp

作为启动子区域序列启动子分析9.2

简化所提取的启动子区域序列TBtools

(Toolbox

forBiologists)v1.098774SequenceToolkitBLASTGO&KEGGGraphicsOthersAbout?RepotIHelp0区

Fasta

stats

sequence

Manipulate

(Rev&Comp)区

AboutTBtools区

GXFSequencesExtractFastaID

SimplifySeta

Input

Fasta

FileE:

研究生穿心莲TCP\8启动子分析12000bp.fasta

目标物种启动子序列信息Note:Ifthe

input

file

is

a

table,the

last

column

must

be

the

sequences.□Removeversion输出文件SimplifyMy

Sequences"IDFile

OutputOutputTextAreaSetanOutput

FileE:研究生穿心莲TCP\8启动子分析2000bp.simpliy.fasta启动子分析9.3提取目标基因家族启动子序列信息启动子分析9.4反向验证提取序列是否是前2000bp启动子分析9.

5

将目标基因家族启动子序列信息转化大写(所得大写化的信息需手

动复制进新建文本文档中并修改格式为fasta)启动子分析9.6大写化的目标基因家族序列信息提交至plant

care在线网站(

htttml/)

进行,等待结果发送至邮箱,下载邮箱中的附件,解压后用execl打开其中的xxx.tab

文件p://bioinformatics.psb.ugent.be/webtools/plantcare/h启动子分析9.7

根据作图形式整理TAB

文件数据,删除无用列,保留有需要的信息,

对location列进行加减20得出起始、终止位置信息,根据功能描述列筛选所研究的顺势作用元件进行进一步分析。启动子分析9.8.1.作

,TBtools

线形图需用文件准备:①整理筛选后的TAB文件信息格式为:第一列基因ID

、第二列起始位置、

第三列终止位置、第四列顺式作用元件。ABCDCXN00000643-RA2000CXN00001195-RA2000CXN00002762-RA2000CXN00002878-RA2000CXN00004183-RA2000CXN00004279-RA2000CXN00004746-RA2000CXN00007220-RA2000CXN00008155-RA2000CXN00008471-RA2000CXN00008509-RA2000CXN00008780-RA2000CXN00010818-RA2000启动子分析9.8.1.作

,Tbtools线形图需用文件准备:②2000bp

文件准备:第一列基因ID

,

第二列均为2000。Ex

cel

准备数

据后粘贴复制进新建文本文档方可使用启动子分析9.8.1.作

,Tbtools线形图需用文件准备:③进化树文件准备:将只含有目标物种目标基因家族的序列信息文件放入

MEGA软件中,进行构建进化树操作至导出建树文件(本教程进化树构建

第5步)粘贴复制进新建文本文档中。ABCDEFCXN00001195-RAApTCP2CXN00004183-RAApTCP5CXN00004746-RAApTCP7CXN00008155-RAApTCP9CXN00008780-RAApTCP12CXN00011342-RAApTCP14CXN00011470-RAApTCP15CXN00017071-RAApTCP17CXN00018640-RAApTCP18CXN00019468-RAApTCP19CXN00004279-RAApTCP6CXN00008509-RAApTCP11CXN00020943-RAApTCP22CXN00000643-RAApTCP1CXN00002762-RAApTCP3启动子分析9.8.1.作

,Tbtools线形图需用文件准备:④重命名文件:第一列基因ID,

第二列新命名。Excel

准备数据后粘贴

复制进新建文本文档方可使用。启动子分析9.8.2作图可视化,将准备的文件信息导入TBtools

中。ABCDE基因号顺势作用元件CXN00000643-RAI-boxCXN00000643-RAI-boxCXN00000643-RAGATA-motifCXN00000643-RAGT1-motifCXN00000643-RALTRCXN00000643-RAMRECXN00000643-RATGA-elementCXN00000643-RAARECXN00000643-RAARECXN00000643-RAAE-boxCXN00000643-RAMBSCXN00000643-RAABRECXN00000643-RAG-boxCXN00000643-RABox

4ICXN00001195-RAGT1-motif启动子分析9.9.1.TBtools

热图制作,与上述线性图一致选用一个即可。文件准备:①筛选后的TAB文件信息只保留基因ID和顺式作用元件两列即

可,使用Excel中的数据透视表功能处理数据如右图所示。ABCDE基因号顺势作用元件CXN00000643-RAI-boxCXN00000643-RAI-boxCXN00000643-RAGATA-motifCXN00000643-RAGT1-motifCXN00000643-RALTRCXN00000643-RAMRECXN00000643-RATGA-elementCXN00000643-RAARECXN00000643-RAARECXN00000643-RAAE-boxCXN00000643-RAMBSCXN00000643-RAABRECXN00000643-RAG-boxCXN00000643-RABox

4ICXN00001195-RAGT1-motif启动子分析9.9.1.TBtools

热图制作,与上述线性图一致选用一个即可。文件准备:①筛选后的TAB文件信息只保留基因

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论