生物信息学_高通量测序技术及数据分析_陈润生院士_第1页
生物信息学_高通量测序技术及数据分析_陈润生院士_第2页
生物信息学_高通量测序技术及数据分析_陈润生院士_第3页
生物信息学_高通量测序技术及数据分析_陈润生院士_第4页
生物信息学_高通量测序技术及数据分析_陈润生院士_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物信息学陈小伟中国科学院生物物理研究所2015.09.30高通量测序技术及数据分析介绍高通量测序技术及数据分析介绍 背景介绍 第一代测序技术 第二代(高通量)测序技术 基因芯片与高通量测序的比较 高通量测序技术的应用 高通量测序数据分析概览 高通量测序数据质量评估与过滤 基因组测序 RNA-seq ChIP-seq UCSC Genome Bioinformatics背景介绍背景介绍 第一代测序技术 Sanger测序法 链终止法 双脱氧终止法 1975年Transcriptionhttp:/ Sanger弗雷德里克桑格1918年8月13日2013年11月19日1958年 诺贝尔化学奖1980

2、年 诺贝尔化学奖背景介绍 第二代测序技术 边合成边测序 2005年左右 Sequencing by synthesis 代表性测序技术 Illumina/Solexa Roche/454 ABI/SOLiD Polonator HeliScope 参考文献 Metzker, M.L. (2010). Sequencing technologies - the next generation. Nat Rev Genet 11, 31-46.http:/ HiSeq 2500背景介绍 高通量测序文库构建 单末端测序,single-end 首先将DNA样本进行片段化处理形成200-500bp的片段

3、,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flow cell上生成DNA簇,上机测序单端读取序列。 双末端测序,paired-end 在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序。背景介绍 以Illumina为例简单介绍测序原理Illumina HiSeq 2500cBot背景介绍 高通量测序数据格式 fasta 序列文件的第一行是由大于符号()打头的任意文字说明,主要为标记序列用。从第二行开始是序列本身,标准核苷酸符号,通常核

4、苷酸符号大小写均可 fastq 第一行由开始,后面跟着序列的描述信息,这点跟fasta格式是一样的;第二行是序列;第三行由+开始,后面也可以跟着序列的描述信息;第四行是第二行序列的质量评价(quality values),字符数跟第二行的序列是相等的。背景介绍 高通量测序数据格式 fastqQ =-10 log10(p) OR Q =-10 log10p/(1-p) (p:碱基错误率)字符的ASCII值 - 64 = 质量值 OR 字符的ASCII值 - 33 = 质量值NCBI/Sanger or Illumina 1.8 and later. Using a Phred scale enc

5、oded using ASCII 33 to 93. This is the standard for fastq formats except for the early Illumina data formats (this changed with version 1.8 of the Illumina Pipeline). Illumina Pipeline 1.2 and earlier. Using a Solexa/Illumina scale (-5 to 40) using ASCII 59 to 104. The Workbench automatically conver

6、ts these quality scores to the Phred scale on import in order to ensure a common scale for analyses across data sets from different platforms (see details on the conversion next to the sample below). Illumina Pipeline 1.3 and 1.4. Using a Phred scale using ASCII 64 to 104. Illumina Pipeline 1.5 to 1

7、.7. Using a Phred scale using ASCII 64 to 104. Values 0 () and 1 (A) are not used anymore. Value 2 (B) has special meaning and is used as a trim clipping. This means that when selecting Illumina Pipeline 1.5 and later, the reads are trimmed when a B is encountered in the input file if the Trim reads

8、 option is checked.36 39 39 39 39 39 39 39 39 39 38 39 39 36 36 34 34 29 31 2 20 20 19 19 19 38 38 38 36 36 36 36 36 36 30 32 35 35基因芯片与高通量测序的比较芯片与测序比较 基因芯片 约20年的历史,技术比较成熟,成本相对较低 原理 探针,互补配对的原则 靶序列用荧光标记 通过荧光强度间接反映靶序列的数量 应用 检测已知基因的表达水平 检测SNP位点的基因型 检测CNV芯片与测序比较 高通量测序 约10年的历史,发展快速,成本逐步减少 原理 边合成边测序 碱基用荧光

9、基团标记 直接测定碱基序列 应用 全基因组测序 转录组测序 (small RNA seq, RNA-seq),可以检测已知基因的表达水平,可以发现全新的转录本 ChIP-seq CLIP-seq, 芯片与测序比较 用高通量测序技术和基因芯片技术检测基因表达Malone, J.H., and Oliver, B. (2011). Microarrays, deep sequencing and the true measure of the transcriptome. BMC Biol 9, 34.高通量测序技术的应用测序应用 高通量测序数据分析概览测序应用Quality Assessment

10、Raw DataFastQC; fastx_quality_statsRemove adaptor / linkerfastx_trimmerfastx_clipperSplit according to barcodefastx_barcode_splitter.plfastx_trimmerQuality Controlfastq_quality_trimmerfastq_quality_filterFurther Analysis 高通量测序数据质量评估与过滤 FastQC FASTX-Toolkit测序应用 全基因组de novo测序 第一期:基因组调研图 整体测序深度不低于20倍覆盖

11、度。进行初步的数据分析,对基因组大小,GC含量等做出初步评估,确定框架图梯度文库构建具体策略 第二期:基因组框架图 基因组覆盖度达到90% 以上,基因区覆盖度达到95% 以上,单碱基的错误率达到1万分之一以内,整体测序覆盖深度不低于60倍覆盖度。同时对框架图进行基本基因注释和功能注释,和简单的比较基因组学分析。 第三期:基因组精细图 基因组覆盖度达到95% 以上,基因区覆盖度达到98% 以上,单碱基的错误率达到10万分之一以内,整体基因组覆盖度不低于100倍,Scaffold N50大小不低于300Kb,对基因组精细图进行详细基因注释,基因功能注释,基因代谢途径注释和比较基因组学分析。 全基因

12、组de novo测序数据拼接组装算法流程De Bruijn Graph(德布鲁因图)Read: AGATACTk-merAGAGATATATACACTAGAGATATATACACT测序应用 全基因组重测序(外显子组测序)算法流程 发现遗传变异(SNP,indel等)测序数据与参考基因组做比对重新校对测序质量打分每一种基因型的先验概率对基因型做推断计算每一种基因型的概率测序应用测序应用 转录组测序 Small RNA seq 检测small RNA(主要是miRNA)的表达水平 发现新的small RNA RNA-seq Poly(A) 检测蛋白质编码基因的可变剪切体及表达水平 Total RN

13、A(except rRNA) 检测mRNA及long noncoding RNA的表达水平 发现新的long noncoding RNA 数据分析工具 Bowtie (http:/bowtie- TopHat (/software/tophat/index.shtml) Cufflinks (/)测序应用 RNA-seq数据分析工具 Bowtie Bowtie is an ultrafast, memory-efficient short read aligner geared toward quickl

14、y aligning large sets of short DNA sequences (reads) to large genomes. TopHat TopHat is a fast splice junction mapper for RNA-Seq reads. Cufflinks Cufflinks assembles transcripts, estimates their abundances, and tests for differential expression and regulation in RNA-Seq samples.Cole Trapnell: TopHa

15、t(2009), Cufflinks(2010)PhD Steven Salzberg, University of Maryland Lior Pachter, University of California, BerkeleyPostdoc Join Rinns lab, The Broad Institute测序应用 Overview of TopHat测序应用 Splicing JunctionsExon skipping or cassette exonMutually exclusive exonsAlternative donor siteAlternative accepto

16、r siteIntron retention测序应用 TopHat: Discovering splice junctions TopHat v1.0.7 earlier seed-and-extend alignment TopHat v1.0.7 and later Suppose S is a read of length l that crosses a splice junction splits S into n segments, n=floor(l/k), (k=25bp) maps the segments s1,sn with Bowtie to the genome se

17、gments si, si+1 that both align to the genome, but not adjacently a segment si fails to align because it crosses a splice junction, but si-1 and si+1 are aligned.测序应用 TopHat: Discovering splice junctions TopHat v1.0.7 and later a segment si fails to align because it crosses a splice junction, but si

18、-1 and si+1 are aligned.si-1Si+1si12345678910111213141516171819202122232425sim bpk-m bpm=1,24m=12测序应用 Overview of Cufflinks测序应用 转录本拼接算法中涉及到的概念 偏序关系与偏序集合 Partial order and Partially ordered set 偏序关系 偏序(亦称半序)关系是定义在集合上的一种序结构,是集合上满足一定条件的二元关系。 直观的说,偏序指集合中仅有部分部分成员之间可以排序。 全序关系 在集合 A 中,存在偏序关系“” ,如果对于任意 aA, bA, 有 a b 或 b a,即 A 中的每对元素都满足关系“”,则集合 A 上的偏序 “” 是全序的或线性次序的。直观来说,全序指集合中全体成员之间都可以进行比较,可以排出所有元素的顺序。 偏序集合 指配备了偏序关系的集合测序应用 转录本拼接算法中涉及到的概念 偏序关系 非严格偏序,自反偏序 给定集合S,“”是S上的二元关系,若“”满足: 自反性自反性:aS,有aa; 反对称性反对称性:a,bS,ab且ba,则a=b; 传递性传递性:a,b,cS,ab且bc,则ac; 则称“”是S上的非严格偏序或自反偏序 严格偏序,反自反偏序 给定集合S,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论