生物信息学-高通量测序技术及数据分析-陈润生院士ppt课件_第1页
生物信息学-高通量测序技术及数据分析-陈润生院士ppt课件_第2页
生物信息学-高通量测序技术及数据分析-陈润生院士ppt课件_第3页
生物信息学-高通量测序技术及数据分析-陈润生院士ppt课件_第4页
生物信息学-高通量测序技术及数据分析-陈润生院士ppt课件_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学,陈小伟陈小伟中国科学院生物物理研究所2015.09.30,高吞吐量排序技术和数据分析简介。介绍高吞吐量排序技术和数据分析,背景介绍第一代排序技术第二代(高吞吐量)排序技术基因芯片和高吞吐量排序技术比较高吞吐量排序数据分析概述高吞吐量排序数据质量评估和筛选基因组排序RNA-seq chip-sequcsgenomioinformatics,背景介绍,背景介绍,第一代排序技术Sanger排序链终止法双脱产终止法1975年Transcription,frederick Sanger fredericks anger Sanger 1918年8月13日-2013年11月19日1958年诺贝尔化学终止法sequencing technologies-the next generation . NAT revgenet 11,31-46。illuminatiseq 2500,背景说明,构建高吞吐量排序库单端排序,Single-end首先对DNA样本进行分段,形成200-500bp的片段,引物序列连接到DNA片段的一端,在末端附加接头,在flowcell上固定以生成DNA群集,机器排序是单端读取序列。双级排序,paired-end在创建正在测试的DNA库时,将排序引物结合部位添加到两端的连接器上,在完成第一次排序后,删除第一次排序的模具链,达到第二次排序中使用的模板量,从而诱导第二次互补链的合成排序。背景说明,以Illumina为例的排序原理,IlluminaHiSeq2500,cBot,背景说明,高路径排序数据格式fasta序列文件的第一行是任何大于主要用于标记序列的符号()的文本说明。从第二行开始,顺序本身,标准核苷酸符号,一般来说,核苷酸符号大小写都像fastq第一行以“”开头,后跟有关顺序的说明信息的fasta格式。第二行是序列。第三行也可以以“”开头,后跟序列说明信息。第四行是第二行中的“质量评估”(qualityvalues),字符数与第二行中的序列相同。,背景说明,高通过排序数据格式fastq,Q=-10 log 10(p)ORq=-10 log 10p/(1-p)(p:默认错误率)字符的ASCII值illuminina pipeline 1.2 and earrier . usingasolexa/illumin alscale(-5to 40)Using ascii 59 to 104 . theworkbenchautomatic allycoonsillumina pipeline 1.3 and 1.4。usingaphrescaleusingascii 64 to 104。illumina pipeline 1.5 to 1.7。usingaphrescaleusingascii 64 to 104 . values 0()an D1(a)arenotusedanymore . value 2(b)hasspecintalmeaningdisuses,基因芯片和高吞吐量排序比较,芯片和测序比较,基因芯片约20年历史,技术比较成熟,成本相对较低的原理探测,互补双星政策目标顺序通过荧光亮度间接反映目标序列数量的荧光标记检测已知基因的表达水平SNP部位的基因型检测CNV,芯片和测序比较,高吞吐量约10年,快速发展,节省成本原则方面合成侧测序碱使用全基因组测序转录组测序(smallrnasseq,RNA-seq)作为荧光组标记,检测已知基因的表达水平,并进行新的转录本芯片-seq,芯片和排序比较,高吞吐量排序技术和基因芯片技术检测基因表达,Malone,j.h .and Oliver,B. (2011)。microarray,deps quency cingandthetruasrefthetranscriptome . BMC biol 9,34。排序应用程序,高排序数据分析概述,排序应用程序、quality assessment、raw data、fast QCFastx _ quality _ stats、remove adaptor/linker、fastx _ trimmer、fastx _ clipper、spitaccordingtobarcode,应用测序,全基因组denovo测序第一阶段:全测序深度不超过20倍。进行初步数据分析,对基因组大小、GC含量等进行初步评价,构建帧图表梯度库,确定具体战略第二阶段:基因组帧图表基因组复盖率超过90%,基因区域复盖率超过95%,单碱基的错误率在1万分之一以内,整体测序复盖率不低于60倍。同时进行基本基因注释和功能注释,简单的比较基因组学分析。第三阶段:基因组精密图,基因组覆盖率在95%以上,基因区域复盖率在98%以上,单碱基的错误率在10万分之一以内,全基因组复盖率在100倍以上,ScaffoldN50大小不到300Kb,基因组精度的详细基因注释,基因功能注释,基因功能注释。,全基因组测序数据拼接算法过程,DeBruijnGraph,测序应用程序。发现整个基因组排序(excon组排序)算法进程遗传变异(SNP、indel等),排序应用程序,测序应用,转录组测序,检测SmallRNA(主要是miRNA)的表达水平,新的small RNA-seqpoly(a)检测蛋白质编码基因的可变剪切体和表达水平totalr na(exceptrna),排序应用程序,RNA-seq数据分析工具BowtieBowtieisanultrafast,Memory-efficientshortcreadlealigtowardquicklyaligninglargest sofshortcreadlealigtowardquicklyaligninglargest、排序应用程序、OverviewofTopHat、排序应用程序、Splicing junctions、exonskippingorcassetteexon、mutuallyexclusiveexons、alternativeservices、alternative exons,排序应用程序,Top hat : discveringsplicejunctionstraphatv 1 . 0 . 7 earrier seed-and-extendalignmenttophatv 1 . 0 . 7 andlatersupport.snwithtbowtietotthegenomesegmentssi、si 1 that botheregntothegenome、Butnotadjacentlyasegmensifrailtoalignbecause EIT croalignbecause,排序应用程序,Top hat : discveringsplicejunctionstraphatv 1 . 0 . 7 andlatraegmensisifrlstoalignbecause sesasmcenicejunction,butsi、si-1、si 1、Si、Si、MBP、k-MBP、m=1、24,m=12,应用排序,OverviewofCufflinks,应用排序,与此连接算法相关的概念偏序关系和偏序集partialorderandpartiallial lyor deredset偏序关系偏序(反序)关系是集中定义的顺序结构,是满足特定条件的集合上的二进制关系。直观地说,部分顺序意味着只能对集合中的部分成员进行排序。在全顺序关系集a中存在偏顺序关系“”,并且对于任意a a,ba,a,即,a的每个元素对满足关系“”的话,集合a的偏顺序“”就是全顺序或线性顺序。直观地,整体顺序是集合内所有成员的比较,表示所有元素的排放顺序。偏序集是偏序关系集,排序应用程序,转录本连接算法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论