基因家族分析套路_第1页
基因家族分析套路_第2页
基因家族分析套路_第3页
基因家族分析套路_第4页
基因家族分析套路_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基因家族分析套路(一)近年来,测序价格的下降,导致越来越多的基因组完成了测序,在数据库中形成了大量的可用资源。如何利用这些资源呢?今日我带你生疏一下不测序也能发文章的思路-全基因组基因家族成员鉴定与分析(现在这一领域可是很热奥);一、基本分析内容n 数据库检索与成员鉴定n 进化树构建n 保守domain和motif分析.n 基因结构分析.n 转录组或荧光定量表达分析.二、数据库检索与成员鉴定1、数据库检索1)首先了解数据库用法,学会下载你要分析物种的基因组相关数据。一般也就是下面这些数据库了n Brachypodiumdb:/n TAIR:h

2、ttp://n Rice Genome Annotation Project :/.n Phytozome:n Ensemble:/genome_browser/index.html n NCBI基因组数据库:/assembly/?term=2)已鉴定的家族成员猎取。      如何获得其他物种已发表某个基

3、因家族的全部成员呢,最简洁的就是下载该物种蛋白序列文件(可以从上述数据库中下载),然后依据文章中的ID,找到对应成员。对于没有全基因组鉴定的,可以下列数据库中找:   a. NCBI: nucleotide and protein db.     b. EBI: http:/www.ebi.ac.uk/.     c. UniProtKB:/un

4、iprot/2、比对工具。一般使用blast和hmmer,具体使用命令如下:n Local BLASTformatdbi db.fasp F/T;blastallp blastp(orelse) i known.fasd db.fasm 8 b 2(or else) e 1e-5 o alignresult.txt.-b:output two different members in subjec

5、t sequences (db).n Hmmer (hidden Markov Model) search. Thesame as PSI-BLAST in function. It has a higher sensitivity, but the speed islower.Command:hmmbuild-informatafaknown.hmmalignknown.fa; 

6、60;hmmsearchknown.hmmdb.fas>align.out.3、过滤。n Identity: 至少50%.n Cover region: 也要超过50%或者蛋白结构域的长度.n domain: 必需要有完整的该蛋白家族的。工具pfamdb (http:/pfam.sanger.ac.uk/) 和NCBI Batch CD- search. (/Structure/bwrpsb/bwrpsb.cgi).n EST 

7、支持n  Blast and Hmmer同时检测到4、通过上述操作获得某家族的全部成员基因家族分析套路(二)本次主要讲解在基因家族分析类文章中,进化部分分析的内容。主要是进化树的构建与分析。一、构建进化树的基本步骤、多序列比对. Muscle program.、Model 选择. 分别针对蛋白序列和核酸序列的模型选择程序。ProtTest program for protein and ModelTest or Jmodetlest for

8、60;DNA(、算法选择。三种. NJ, ML and BI.、软件选择。 MEGA (bootstrap least 1000 replicates), phyML and Mrbayes (、进化树修饰. MEGA: view->options and subtree-> draw options. Also can be decorated 

9、;in word (二、具体步骤 2.1 多序列比对。一般接受muscle。由于 MUSCLE is one of the best-performing multiple alignment programs according to published benchmark tests, with accuracy and speed that are&#

10、160;consistently better than CLUSTALW.2.2 模型选择。对于用蛋白序列构建进化树的可以接受下面命令:   java  -Xmx250m  -classpath  path/ProtTest.jar  prottest.ProtTest  -i alignmfile.phy.运行结果如下图 留意:1)“.Phy” format. Only a

11、llow ten charaters.留意名字不能重复相同。2)AIC: Akaike Information Criterion framework.3)Gamma distribution parameter (G): gamma shape.3)proportion of invariable sites: I. 2.3 构建进化树2.3.1 意义:a聚类分析。如亚家族分类。像MAPKKK基因家族通过进化树可以清楚分为&

12、#160;MEKK, Raf and ZIK三个亚家族.b亲缘关系鉴定。在进化树上位于同一支的往往示意这亲缘关系很近c 基因家族复制分析。争辩基因家族复制大事(duplication events),两种复制大事类型常接受的标准:Tandem duplication: Identity and cover region more than 70% and tightly linked (Holub, 2001).&#

13、160;Chromosomal segment duplication: Plant Genome Duplication Database (PGDD: /duplication/)2.3.2 进化树。一般ML树比较精确,但应结合方法,如NJ树,相互验证。2.3.3 进化部分分析:KaKs计算 简洁的方法. 可以使用下面的网页PAL2NAL(http:/www.bork.embl.de/pal2nal/)2.

14、3.3.2 标准方法:.a. ParaAT: ParaAT.pl-h test.homologs -n test.cds -a test.pep -p proc f axt k -o outputb. KaKs_Calculator m NG(or else) -i test.axt -o test.axt.kaksc.分歧时间计算:Divergenttime(T)&

15、#160;calculation.    T=Ks/2.  : mean 5.1-7.1×10-9  .d. Ka/Ks意义:  Ka/Ks=1.中性进化。.  Ka/Ks<> Ka/Ks>1.正选择。Positively selected genes and produce fitness advantagemutations to evolve 

16、new functions.基因家族分析套路(三)本节主要讲基因结构分析套路1、Motif分析 使用软件MEME,命令如下:  meme sample.fa -dna revcomp -nmotifs 10  -mod zoops -minw 6-maxw 50>meme_htmlFormat.html2、基因结构分布图可以使用在线网站GSDS2.0:website:用法如下:结果呈现3、基因结构常见统计信息:自己excel或写程序统计&#

17、160;  a. The number of intron andexon.   b. The splicing intronpattern inculding 0,1,2 phase.   c. The marked region. Forexample kinase domain.   d. sequen

18、ce length.   e. UTR.4、启动子分析。网站:主要做植物的:http:/bioinformatics.psb.ugent.be/webtools/plantcare/html/留意事项:a. IE brower.b. Only one sequence for oncesearch and the length was limited in 1000 bp.c. DNA&

19、#160;sequence origin: 1000 or1500 bp upstream of ATG of one gene.分析结果:基因家族分析套路(四)一、转录组及芯片原始数据下载网站  1、  GEO datesets/profile(/gds ).。用法见下图。GEO数据ID命名规章:GPL->GSE->GSM.GPL: platformGSE:&#

20、160;multiple series.GSM: multiple samples.GDS  GSE. Thedifference concentrated on the data labeled GDS can be analyzed for one geneonline. It is simple and easily.The data in&

21、#160;the sameGPL can be used to  compare inexperiment下面是在线分析转录组数据的用法:2、EBI ArrayExpress(http:/www.ebi.ac.uk/arrayexpress/) 该数据库下载数据用法如下:3、PLEXdb(/).该数据库下载数据用法如下,留意用户名和密码!4、SRA db(/sra/)5、DRA db(

22、http:/trace.ddbj.nig.ac.jp/DRASearch/)二、数据处理 拿到原始数据,要进行处理,才能进行后续数据分析。1、芯片数据。原始数据格式“.cel”格式。以AffyMicroarray数据处理为例叙述主要的命令如下:> library(affy); >library(makecdfenv);  >library> barleyGenome = make.cdf.env(“barleyGenome.cdf")>mydata <-

23、60;ReadAffy() #choose “.cel “ file analyzed.>eset <- rma(mydata);>write.exprs(eset,file="mydata.txt")>design <- model.matrix(-1+factor(c(1,1,2,2,3,3) # Createsappropriate design matrix. >colnames(design

24、) <-c("group1", "group2", "group3") # Assigns column names.>fit <- lmFit(eset, design) # Fits a linear model for each gene based onthe given series

25、0;of arrays.>contrast.matrix <- makeContrasts(group2-group1,group3-group2, group3-group1, levels=design) # Creates appropriate contrast matrix toperform all pairwise comparisons.>fit2 <- contrasts.fit(fit,

26、60;contrast.matrix)# Computes estimatedcoefficients and standard errors for a given set of contrasts.>fit2 <- eBayes(fit2) # Computes moderated t-statistics and log-oddsof differential expr

27、ession by empirical Bayes >topTable(fit2, coef=1,adjust="fdr", sort.by="B", number=10) # Generates list of top 10 ('number=10')differentially expressed genes sorted by B-valu

28、es ('sort.by=B') for firstcomparison group.>write.table(topTable(fit2, coef=1,adjust="fdr", sort.by="B", number=500),file="limma_complete.xls", s=F, sep="t") # Exports complete limma statistics table forfirst comparison group.>results <-&

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论