生物信息中的常规分析及软件使用_第1页
生物信息中的常规分析及软件使用_第2页
生物信息中的常规分析及软件使用_第3页
生物信息中的常规分析及软件使用_第4页
生物信息中的常规分析及软件使用_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息中的常规分析及工具生物信息室童维各个层次的数据分析:

一,日常数据处理二,基因组数据分析三,EST数据分析四,蛋白质组数据分析……一,日常数据处理1,小片段DNA序列的拼接:Phredphrap套件 2,序列相似性搜寻:BLAST,BLAT,…3,序列多重比对:Clustalw4,引物设计:Primer35,序列酶切位点分析:restrict6.DNA序列本身的处理,如:提取、转为互补链、翻译等:extractseq,seqret,……….拼接套件1,phred

读取程序,它实现碱基识别和错误率估算,生成*.phd文件。2,phd2fasta转化程序,它将*.phd文件转化为FASTA格式的*.seq,*.seq.qual的文件。3,cross_match载体标记程序,它将*.seq文件中的载体顺序标记为X.4,phrap拼接程序,拼接各短片段,并进行质量评估。5,consed

校对程序,查看拼接结果,并结合人工校对。FASTA数据格式先让我们认识一下FASTA序列及其质量文件的格式. >dpsxa0_000101.scf TCTAGAACTAGTGGATCCCCCGGGCTGCAGGAATTCGGCACGAGGGCCTA ATAGAAGGGGACCGAAAACACATAATCCAAGCACTATCCATCAGCCATTG CACTAGGCGTATACTTCACCCTCCTCCAAGCCTCAGAATATTACGAAGCA CCATTCACAATCTCCGACGGAGTGTATGGATCCACTTTCTTTGTGGCTAC AGGATTTCACGGGTTGCACGTAATCATCGGATCTACTTTCCTAGCAGTGT GCTTACTACGACAACTAAAATTCCACTTCACATCCAACCACCACTTCGGC TTTGAAGCCGCAGCCTGATACTGACACTTCGTAGATGTAGTTTGACTATT CCTTTACGTATCAATCTATTGATGAGGATCCTAAAAAAAAAAAAAAAAAA AACTCGAGGGGGGGCCCGGTACCCAATTCGCCCTATAGTGAGTCGTATTA CGCGCGCTCACTGGCCGTCGTTT

>dpsxa0_000101.scf 20212922252529373434

343232

32403432 32272927292727

2729293537374040

4042 424243465656

56

5651515656

56

56

56

56

56 56425656

56

56

5651514040

40

405656

56

56 5656

56

56

56

56

56

56

56

56514040

40

40

4046 4848

48

482822137771319314040

403333 3737

37

37

37405656

56

564242

42

42445151 5656

56

56

56

56

5642425151563734333331 32354540404356564040

403838

38453740 4040563535

35

35

35

35

35

35

35

35

35

35

35

35 3535

35

35

35

35

354040

40

404540424040

40 39352929

293535374040

40

40

40

40454235 353537373535403535

35

35434040

40

40

40 4040

40

40

40

40

40

40

40

40

4032353131

3129 3740383535

35

35

35

35

35

35373740404545 404040

40

4045424243435656

564040

40

40 37374040

40

40

403737

374040

4044444240 4045403737

37

37

37

37443532293232

3242 56564242

4240403738383535

353737

3742 404038373535322929

29

29353540353533 33333540434240343535404033332929

29 3232

3229252025272729294040

40

40

40

40 4037404042464242

42

42

4233333434

34

34 4233302626

2642334247474242

42

42

4238 40383737

3742463740373738404242

4244 4437353533333133332924292024304233 4233332828

283030323535

35

35

35

353335 3229293732251715211919

1917phred基本命令:phred-idchromat_dir/-pdphd_dir/-trim_alt““–trim_phd-trim_cutoff0.05其中目录chromat_dir存放待处理的峰图文件(tracefile),phd_dir存放phred产生的phd文件参数trim_alt“”–trim_phd–trim_cutoff0.05决定碱基识别的严格程度,其中0.05为错误率.对应的质量数为-10*lg0.05=13.该值越小表示错误率越低,即质量越高phd2fasta基本命令:phd2fasta–idphd_dir/-osassemble/1.seq-oqassemble/1.seq.screen.qualPhd2fasta是用来将phred的phd结果文件转化为FASTA及其质量文件的软件.目录phd_dir存放phred的phd结果文件,-os,-oq分别引导转化得到的序列和质量文件cross_match运行目录:assemble基本命令:cross_match1.seqvector.seq

-minmatch12-penalty-2-minscore20-screen>screen.out生成文件:*.seq.screen;screen.outvector.seq是所用的载体的序列.在phd2fasta得到的序列1.seq当中,可能含有载体片断,cross_match通过精确比对将这一片断顺次标记为X并生成到一个新的序列文件1.seq.screen被X标记后的序列如以下序列>dpsxa0_000101.scfTCTAGAXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXGGCACGAGGGCCTAATAGAAGGGGACCGAAAACACATAATCCAAGCACTATCCATCAGCCATTGCACTAGGCGTATACTTCACCCTCCTCCAAGCCTCAGAATATTACGAAGCACCATTCACAATCTCCGACGGAGTGTATGGATCCACTTTCTTTGTGGCTACAGGATTTCACGGGTTGCACGTAATCATCGGATCTACTTTCCTAGCAGTGTGCTTACTACGACAACTAAAATTCCACTTCACATCCAACCACCACTTCGGCTTTGAAGCCGCAGCCTGATACTGACACTTCGTAGATGTAGTTTGACTATTCCTTTACGTATCAATCTATTGATGAGGATCCTAAAAAAAAAAAAAAAAAAAACTCGAGGGGGGGCCCGGTACCCAATTCGCCCTATAGTGAGTCGTATTACGCGCGCTCACTGGCCGTCGTTTphrap运行目录:assemble基本命令:phrap1.seq.screen-view-new_ace-revise_greedy–forcelevel1–trim_qual20-minmatch17-minscore40>phrap.out

Phrap拼接程序对1.seq.screen序列进行拼接并对其质量进行评估-minmatch为最小有效匹配长度,-minscore为最小有效分值-view生成*.view文件供phrapview使用,-new_ace生成新版ace文件供consed使用Assemble目录下的文件<project>.seq

是由phd2fasta将phd目录的phd文件转换成fasta格式后的序列文件。<project>.seq.qual(<project>.seq.screen.qual)是由phd2fasta将phd目录下的phd文件转换成fasta格式后的质量文件。<project>.seq.screen是由cross_match对<project>.seq去污染后产生的序列文件。<project>.seq.screen.contigs是包括了所有contig的fasta

格式的文件。<project>.seq.screen.singlets包括了所有的没有与其它reads有overlap的单独reads。<project>.seq.screen.ace是由phrap软件在拼接后产生,为consed软件所用的一种文件格式。<project>.seq.screen.view是由phrap软件在拼接后产生,为phrapview软件所用的一种文件格式。<project>.seq.screen.contigs.qual是phrap产生的相对于contigs的质量文件。Phrap.out

是由phrap产生的记录拼接结果的文件。consed运行目录:assemble/命令:consedConsed为图形化软件,需要在X-win中运行.在chromat_dir,phd_dir,assemble目录及相应文件正确存在的前提下在assemble中运行consed,将会弹出图形窗口,具体如随后几页所示.序列比对工具两两比对

局部区域比对:

非精确比对:

BLAST;Fasta;Blat….

精确比对(Smith-Waterman算法):

cross_match;water….

全局比对:

est2genome;needle;stretcher…多重比对:

Clustw…BLAST

/BLAST/

BLAST软件包含如下五个子程序:Nucleotidequeryvs.nucleotidedatabase(blastn)Pteindatabase(blastp)TranslatedNteindatabase(blastx)

Proteinqueryvs.translatedNucleotidedatabase(tblastn)

TranslatedNucleotidequeryvs.translatedproteindatabase(tblastx)

Unix下基本运行方式包括以下两步:formatdb–idatabase.seq–pT/F–oT/Fblastall–pblastn–iquery.seq–ddatabase.seq–e1e-10–oquery_database.out

BLAST的交互界面BLAT:

blatdatabasequery-t=type-q=type-tileSize=N-minScore=N-minIdentity=N–out=typeoutput.pslClustalw:各个层次的数据分析:

一,日常数据处理二,基因组数据分析三,EST数据分析四,蛋白质组数据分析……GenBank数据的增长

(28,507,990,166basesin22,318,883sequencerecordsasofJanuary2003)--

二,基因组数据分析序列拼接序列注释(包括tRNA,基因,重复序列,调控区域,CpG岛等)成分分析(包括基因,重复序列,调控区,GC含量等)比较基因组分析1995Haemophilus

influenzae

1830Kb1997Yeast12.7Mb1998C.elegans

9700Kb2002Rice~430Mb2001Human~3Gb2000Drosophila137Mb

基因组拼接的流程(BACtoBAC法)全基因组拼接流程(shotgun法)水稻基因组拼接流程图Lander-Waterman曲线广义上的基因组注释(三个层次)各种层次注释可用的工具DNA水平的注释:1)gene:blastn,genscan,glimmer,grail,genefinder,Fgenesh,BGF,etc;2)repeat:RepeatMasker,TRF,etc.;3)RNAandregulatoryregions:tRNAscan-SE,MEME,TRANSFAC,PROSITEetc;4)Mappingvariation:aligningthegenomicsequencestoidentifySNPs蛋白质水平的注释:blastp,PSI-BLAST,TrEMBL,PRINT,SMART,BLOCKS,COG,Interpro,etc.细胞过程的注释:GO,etc.Genscan:

genscan

parfname

seqfname-cds-v>result.out人7号染色体部分区域的注释图人基因组中散在分布重复序列的分类和特征:重复序列的相关分析:RepeatMasker:RepeatMasker的报告结果:蛋白质二维结构水平上的注释(COG,InterPro等):GeneOntology(GO):

/

GC含量的比较分析Comparisonbetweenhumanandmousegenomes.Initialsequencingandcomparativeanalysisofthemousegenome.

Nature.2002Dec5;420(6915):520-62.全基因组比较工具:blastz

blastzseq1seq2>result.out

Human-mousealignmentswithBLASTZ.GenomeRes.2003Jan;13(1):103-7.

Outlineofcomparativegenomics:Comparisonofcompletegenomesequences

“Whatarethefeaturestobecompared?”Predictionofproteininteractionmapsforcompletegenomesbasedongenefusionevents.“Whatcanwedowithgenomecomparison?”Relativelyfa

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论