基因组注释详解_第1页
基因组注释详解_第2页
基因组注释详解_第3页
基因组注释详解_第4页
基因组注释详解_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基因组注释,基因组测序相关技术的发展,2 weeks$ 1,000,0.01,0.10,1.00,10.00,1,000.00,10,000.00,$M,Throughput(Gb ), costofperchuranmee innovationofngsthroughput,3Gb,6Gb,20-30Gb,0,20,40,60,80,100,120,240,2007,2008,2009,2010,1990,2010 0.001,0.5 Mooreslaw,价格更低,基于测序的科学研究和临床应用越来越被接受,13 years$ 3,000,000,000,200Gb-300Gb, 测序技术的发展导致测序价格下降illumina/so LexA/giixgeneticalanalyzer 5095gb/run illumina/so LexA/his eq 200 GB/run, Roche/454 genomesequenceerflx 500 MB/run, appliedbisystemssolid 4100 GB/runappliedbiosystemssolid/HQ 300 GB/run,成熟的二代测序技术平台,高吞吐量测试序列服务, 未知基因组测序(denoggenomesequenceing )基因组重排分析(Wholegenomeresequencing )高吞吐量测序服务,外显捕获测序(Targetexomecapture )全基因组高吞吐量测量序列服务、转录组测序(RNA-sesesequencing)mirna测序(microRNAsequencing )、高吞吐量测量序列服务元基因组序列分析(meta-genomesequencing ) 未知病毒检测(Unknownvirusdetecting ),两种序列分析策略:基于BAC的方法:首先将基因组分割成200-300kb的片段,制作BAC文库,选择BAC再分割成3kb左右的小片段,进行序列分析并连接。 全基因组鸟枪法:将基因组直接分割成3kb左右的小片段,决定序列进行连接。 基于BAC方法,全基因组DNA随机选择大片段进行克隆、重新分割、克隆、序列决策、连接、全基因组鸟枪法、基因组DNA随机序列决策、连接软件的新需求利用正反序列决策对信息, 基因组注释Sequence、GENESCAN、ORFFinder、GENEMARK、GenePrediction、 transcriptionregoryregen,predictedgene,原核基因,基因组注释,Sequence, GENESCAN、ORFFinder、GENEMARK、GenePrediction、TranscriptionRegulatoryRegion、PredictedGeneOrGene、openreadingframe,以及一系列阵列是开始命令(start ) 发现微生物基因需要解决的问题,微生物基因的80%-90%序列参与编码的主要问题:如果有两个以上重复的阅读框,哪个是基因(假设可能只有一个)最可靠的方法同源搜索(使用BLAST或FASTA等) 主要困难: web访问http:/bioweb.pasteur.fr/se anal/interfaces/get orf.html应用程序(下载embb )在不知道同源信息的情况下搜索基因get orf :高级选项, I .代码到用户:选择另一个可编程表(1)标准(2)标准(有线标准) (3) vertebratemitochonderial (4)是protozoa n coelectrenteratemitochonderialandsmycoplasma/spiropplasma (6) invertebrate mitochondrial (7) ciliatemacrnuclearandsdasyclar echinodermmitotchondrial (9) euplotidnuclear (10 ) bacterial (11 ) alternativeyeastnuclear (12 ) ascidian mitochondrial (13 ) flatwormmitochol blepharismaacronclear (15 ) chlorrophyceanmitochondrial (16 ) trematodemitochondrial (17 ) scenedesmysoliqus (18 ) thraustoschytriummitocal GETORF:AdvancedOptions,ii .最小的开放阅读框由几个核酸构成,默认值为30,即10氨基酸。iii.Typeofoutput :可以选择不同的输入结果(1) translationofregionsbetweenstopcodons (2) translationofregionsbetweenstardstopcodons (3) nucleiccsequenceesbetweenstartandstopcodons (5) nucleotidesflankingstartcodons (6),包括nucleiccsequenceesbetweenstopcodons (4) nucleotidesflankinginitialstopcodons (7) nucleotidesflankingendingstopcodons, fastagcgphylimimblysnchbinbrfgenkidsodatastrideracedbstadentextfitsfclustalphylipphylin3ASN 1,metagenomicsmunitygenomicsenviron -divrsityabundanceswhattheyard? - metabolicinteractionwhytheyaethere? -Ecologicalrelations,Speciescomplexity,Acidminedrainage,1100100010000,Seawater,Humangut, soil the cultivation-indentendanalysistofthecolletivegeneomosofmicrobiapplationsobtainedrectlyfromtheenvironment,thecomplecomplect c,d,a,isolated genomesinglesourceofdna,meta genomemultipleesourceofdna,x,genone hugemultipleorganismsfragmentalray,HugePartialORFsWrongORFs,q :解决方案? a : teinfamiliesnovelamiliesORFvaliation、hugemultipleorganismsuneventoverge、真核生物基因的完整结构及其表达过程、基因识别、orf到某DNA序列基因结构表明起始位置、外显子/内含子边界、启动子、polyA区域、非翻译区域(UTR )等。 预测真基因和“伪基因”可能的剪切部位。 在基于同源性的基因预测方法“从头开始”(Abinitio )预测方法中,将以上的两个方法:例如TwinScan的其他方法3360,例如数字信号处理、z曲线等基因预测方法分类、基于序列相似性的基因预测、基因组序列作为est (expressedsequency ) 将基因组序列与蛋白质数据库进行比较(使用BLASTX等方法),找出可能的编码区域。 将预测的多肽与蛋白质数据库进行比较,比较与基因组序列同源性相近的种类的基因组,找出保存区域。 优点:由于基于现有生物学数据,因此生物学意义的缺点:对于相似度应当如何定义现有生物学数据库中可能存在的误差,基于同源性的基因预测方法的优点和缺点,同源搜索HomologySearch,a .序列局部相似性比较。 试图在生物上发现保守的序列,但并非总体上相似。 由于局部相似,两个序列可能与相同的功能或功能相关联。 b .比较得出的是相似性,不是同源性,我们必须根据相似性与其他证据联系起来进行判断。 blast web :3358 www.NCBI.NLM.NIH.gov/blast /应用程序:3358 www.NCBI.NLM.NIH.gov/blast/download.shtml,了解如何正确查看比较结果必须结合其他分析结果进行判断。 BLAST结果的类似部分需要认真观察。看类似的部分是生物学上重要的维护部分还是非重要的重复序列是否与已知信息组合(例如,蛋白质不能具有某个功能还是可能具有某个功能)。 注意,在比较中与其他已知信息排在后面的记录统计学中存在生物显着性差异,相同或类似的功能蛋白质和基因,以及与已知功能相关的蛋白质基因,如果存在问题也是相似的。 请注意,BlastNoHits并不表示找不到相同的accagttacccggtaccttaccgatttac。 如果未找到11个完全匹配的WordSize=accagagagagtacttactcagattac默认WordSize,则可以修改无法扩展Hits的wordsize。 WordSize越小搜索速度越慢找到无用的一致性也越多,解决办法: PatternHunter, 基于ssearch(fasta ),注意:同源对照的蛋白功能注释:导入了GeneDuplication的同源对照的判断误差,一致点数最高的不是功能类似,解决方案3360需要导入种子进化树的辅助判断,隐马尔可夫模型(HiddenMarkovModel ) HMM)*人工神经网络(NeuralNetwork )动态规划决策树语言学方法线性判别法、“从头”基因预测法:gene tition gene sian http:/genesis.MIT.edu/gens can.htmlgenenemark /genenmmerk/euk hmm.cgifgenesis,genesian,genesian,genesian,genesian,genesian,genesian,genesian genenmmerk GeneMark,fgensesh,fgensesh,UCSCGenomeBrowser,sequenceandandalysisysisisfrickchroome 4, granaltructructuralfeaturesofricechromosome4cissticationofrepetitionequenchromosome 4,Functionalclassification, structuralcomparisonoftwosubspeciesover2.3MB

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论