版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生物信息中的常规分析及工具生物信息室童维各个层次的数据分析:
一,日常数据处理二,基因组数据分析三,EST数据分析四,蛋白质组数据分析……一,日常数据处理1,小片段DNA序列的拼接:Phredphrap套件 2,序列相似性搜寻:BLAST,BLAT,…3,序列多重比对:Clustalw4,引物设计:Primer35,序列酶切位点分析:restrict6.DNA序列本身的处理,如:提取、转为互补链、翻译等:extractseq,seqret,……….拼接套件1,phred
读取程序,它实现碱基识别和错误率估算,生成*.phd文件。2,phd2fasta转化程序,它将*.phd文件转化为FASTA格式的*.seq,*.seq.qual的文件。3,cross_match载体标记程序,它将*.seq文件中的载体顺序标记为X.4,phrap拼接程序,拼接各短片段,并进行质量评估。5,consed
校对程序,查看拼接结果,并结合人工校对。FASTA数据格式先让我们认识一下FASTA序列及其质量文件的格式. >dpsxa0_000101.scf TCTAGAACTAGTGGATCCCCCGGGCTGCAGGAATTCGGCACGAGGGCCTA ATAGAAGGGGACCGAAAACACATAATCCAAGCACTATCCATCAGCCATTG CACTAGGCGTATACTTCACCCTCCTCCAAGCCTCAGAATATTACGAAGCA CCATTCACAATCTCCGACGGAGTGTATGGATCCACTTTCTTTGTGGCTAC AGGATTTCACGGGTTGCACGTAATCATCGGATCTACTTTCCTAGCAGTGT GCTTACTACGACAACTAAAATTCCACTTCACATCCAACCACCACTTCGGC TTTGAAGCCGCAGCCTGATACTGACACTTCGTAGATGTAGTTTGACTATT CCTTTACGTATCAATCTATTGATGAGGATCCTAAAAAAAAAAAAAAAAAA AACTCGAGGGGGGGCCCGGTACCCAATTCGCCCTATAGTGAGTCGTATTA CGCGCGCTCACTGGCCGTCGTTT
>dpsxa0_000101.scf 20212922252529373434
343232
32403432 32272927292727
2729293537374040
4042 424243465656
56
5651515656
56
56
56
56
56 56425656
56
56
5651514040
40
405656
56
56 5656
56
56
56
56
56
56
56
56514040
40
40
4046 4848
48
482822137771319314040
403333 3737
37
37
37405656
56
564242
42
42445151 5656
56
56
56
56
5642425151563734333331 32354540404356564040
403838
38453740 4040563535
35
35
35
35
35
35
35
35
35
35
35
35 3535
35
35
35
35
354040
40
404540424040
40 39352929
293535374040
40
40
40
40454235 353537373535403535
35
35434040
40
40
40 4040
40
40
40
40
40
40
40
40
4032353131
3129 3740383535
35
35
35
35
35
35373740404545 404040
40
4045424243435656
564040
40
40 37374040
40
40
403737
374040
4044444240 4045403737
37
37
37
37443532293232
3242 56564242
4240403738383535
353737
3742 404038373535322929
29
29353540353533 33333540434240343535404033332929
29 3232
3229252025272729294040
40
40
40
40 4037404042464242
42
42
4233333434
34
34 4233302626
2642334247474242
42
42
4238 40383737
3742463740373738404242
4244 4437353533333133332924292024304233 4233332828
283030323535
35
35
35
353335 3229293732251715211919
1917phred基本命令:phred-idchromat_dir/-pdphd_dir/-trim_alt““–trim_phd-trim_cutoff0.05其中目录chromat_dir存放待处理的峰图文件(tracefile),phd_dir存放phred产生的phd文件参数trim_alt“”–trim_phd–trim_cutoff0.05决定碱基识别的严格程度,其中0.05为错误率.对应的质量数为-10*lg0.05=13.该值越小表示错误率越低,即质量越高phd2fasta基本命令:phd2fasta–idphd_dir/-osassemble/1.seq-oqassemble/1.seq.screen.qualPhd2fasta是用来将phred的phd结果文件转化为FASTA及其质量文件的软件.目录phd_dir存放phred的phd结果文件,-os,-oq分别引导转化得到的序列和质量文件cross_match运行目录:assemble基本命令:cross_match1.seqvector.seq
-minmatch12-penalty-2-minscore20-screen>screen.out生成文件:*.seq.screen;screen.outvector.seq是所用的载体的序列.在phd2fasta得到的序列1.seq当中,可能含有载体片断,cross_match通过精确比对将这一片断顺次标记为X并生成到一个新的序列文件1.seq.screen被X标记后的序列如以下序列>dpsxa0_000101.scfTCTAGAXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXGGCACGAGGGCCTAATAGAAGGGGACCGAAAACACATAATCCAAGCACTATCCATCAGCCATTGCACTAGGCGTATACTTCACCCTCCTCCAAGCCTCAGAATATTACGAAGCACCATTCACAATCTCCGACGGAGTGTATGGATCCACTTTCTTTGTGGCTACAGGATTTCACGGGTTGCACGTAATCATCGGATCTACTTTCCTAGCAGTGTGCTTACTACGACAACTAAAATTCCACTTCACATCCAACCACCACTTCGGCTTTGAAGCCGCAGCCTGATACTGACACTTCGTAGATGTAGTTTGACTATTCCTTTACGTATCAATCTATTGATGAGGATCCTAAAAAAAAAAAAAAAAAAAACTCGAGGGGGGGCCCGGTACCCAATTCGCCCTATAGTGAGTCGTATTACGCGCGCTCACTGGCCGTCGTTTphrap运行目录:assemble基本命令:phrap1.seq.screen-view-new_ace-revise_greedy–forcelevel1–trim_qual20-minmatch17-minscore40>phrap.out
Phrap拼接程序对1.seq.screen序列进行拼接并对其质量进行评估-minmatch为最小有效匹配长度,-minscore为最小有效分值-view生成*.view文件供phrapview使用,-new_ace生成新版ace文件供consed使用Assemble目录下的文件<project>.seq
是由phd2fasta将phd目录的phd文件转换成fasta格式后的序列文件。<project>.seq.qual(<project>.seq.screen.qual)是由phd2fasta将phd目录下的phd文件转换成fasta格式后的质量文件。<project>.seq.screen是由cross_match对<project>.seq去污染后产生的序列文件。<project>.seq.screen.contigs是包括了所有contig的fasta
格式的文件。<project>.seq.screen.singlets包括了所有的没有与其它reads有overlap的单独reads。<project>.seq.screen.ace是由phrap软件在拼接后产生,为consed软件所用的一种文件格式。<project>.seq.screen.view是由phrap软件在拼接后产生,为phrapview软件所用的一种文件格式。<project>.seq.screen.contigs.qual是phrap产生的相对于contigs的质量文件。Phrap.out
是由phrap产生的记录拼接结果的文件。consed运行目录:assemble/命令:consedConsed为图形化软件,需要在X-win中运行.在chromat_dir,phd_dir,assemble目录及相应文件正确存在的前提下在assemble中运行consed,将会弹出图形窗口,具体如随后几页所示.序列比对工具两两比对
局部区域比对:
非精确比对:
BLAST;Fasta;Blat….
精确比对(Smith-Waterman算法):
cross_match;water….
全局比对:
est2genome;needle;stretcher…多重比对:
Clustw…BLAST
/BLAST/
BLAST软件包含如下五个子程序:Nucleotidequeryvs.nucleotidedatabase(blastn)Pteindatabase(blastp)TranslatedNteindatabase(blastx)
Proteinqueryvs.translatedNucleotidedatabase(tblastn)
TranslatedNucleotidequeryvs.translatedproteindatabase(tblastx)
Unix下基本运行方式包括以下两步:formatdb–idatabase.seq–pT/F–oT/Fblastall–pblastn–iquery.seq–ddatabase.seq–e1e-10–oquery_database.out
BLAST的交互界面BLAT:
blatdatabasequery-t=type-q=type-tileSize=N-minScore=N-minIdentity=N–out=typeoutput.pslClustalw:各个层次的数据分析:
一,日常数据处理二,基因组数据分析三,EST数据分析四,蛋白质组数据分析……GenBank数据的增长
(28,507,990,166basesin22,318,883sequencerecordsasofJanuary2003)--
二,基因组数据分析序列拼接序列注释(包括tRNA,基因,重复序列,调控区域,CpG岛等)成分分析(包括基因,重复序列,调控区,GC含量等)比较基因组分析1995Haemophilus
influenzae
1830Kb1997Yeast12.7Mb1998C.elegans
9700Kb2002Rice~430Mb2001Human~3Gb2000Drosophila137Mb
基因组拼接的流程(BACtoBAC法)全基因组拼接流程(shotgun法)水稻基因组拼接流程图Lander-Waterman曲线广义上的基因组注释(三个层次)各种层次注释可用的工具DNA水平的注释:1)gene:blastn,genscan,glimmer,grail,genefinder,Fgenesh,BGF,etc;2)repeat:RepeatMasker,TRF,etc.;3)RNAandregulatoryregions:tRNAscan-SE,MEME,TRANSFAC,PROSITEetc;4)Mappingvariation:aligningthegenomicsequencestoidentifySNPs蛋白质水平的注释:blastp,PSI-BLAST,TrEMBL,PRINT,SMART,BLOCKS,COG,Interpro,etc.细胞过程的注释:GO,etc.Genscan:
genscan
parfname
seqfname-cds-v>result.out人7号染色体部分区域的注释图人基因组中散在分布重复序列的分类和特征:重复序列的相关分析:RepeatMasker:RepeatMasker的报告结果:蛋白质二维结构水平上的注释(COG,InterPro等):GeneOntology(GO):
/
GC含量的比较分析Comparisonbetweenhumanandmousegenomes.Initialsequencingandcomparativeanalysisofthemousegenome.
Nature.2002Dec5;420(6915):520-62.全基因组比较工具:blastz
blastzseq1seq2>result.out
Human-mousealignmentswithBLASTZ.GenomeRes.2003Jan;13(1):103-7.
Outlineofcomparativegenomics:Comparisonofcompletegenomesequences
“Whatarethefeaturestobecompared?”Predictionofproteininteractionmapsforcompletegenomesbasedongenefusionevents.“Whatcanwedowithgenomecomparison?”Relativelyfa
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 浮雕《和服少女》的创作实践报告
- 100%覆盖面试考点2025德语游戏客服面试题库及答案
- 2021上海事业单位招聘考试历年真题+岗位选择指南
- 2023市政院技术岗笔试专属试题及答案解析
- 2020年民用燃气户内安检员培训考试题及完整答案
- 大学武术公共课2022期末考零基础必过指南+题目答案
- 2024潍坊教育类优才计划笔试在职备考指南+真题答案
- 支教战略合作协议书
- 女性疾病妇科炎症护理指南
- 结核性脑膜炎护理指南
- 公务接待基础培训课件
- 部编版六年级下册语文课堂作业(可打印)
- 材料承认管理办法
- 中共山西省委党校在职研究生考试真题(附答案)
- 2025年浙江杭钢集团招聘笔试冲刺题2025
- 2025年广东省中考数学试卷真题(含答案详解)
- DB64∕680-2025 建筑工程安全管理规程
- 山姆基本工资管理制度
- 高中生研究性报告及创新成果
- DB32/ 4385-2022锅炉大气污染物排放标准
- 湘雅临床技能培训教程第2版操作评分标准表格内科
评论
0/150
提交评论