生物信息学_高通量测序技术及数据分析_陈润生院士ppt课件_第1页
生物信息学_高通量测序技术及数据分析_陈润生院士ppt课件_第2页
生物信息学_高通量测序技术及数据分析_陈润生院士ppt课件_第3页
生物信息学_高通量测序技术及数据分析_陈润生院士ppt课件_第4页
生物信息学_高通量测序技术及数据分析_陈润生院士ppt课件_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学,陈小伟chenxiaowei中国科学院生物物理研究所2015.09.30,高通量测序技术及数据分析介绍,1,高通量测序技术及数据分析介绍,背景介绍第一代测序技术第二代(高通量)测序技术基因芯片与高通量测序的比较高通量测序技术的应用高通量测序数据分析概览高通量测序数据质量评估与过滤基因组测序RNA-seqChIP-seqUCSCGenomeBioinformatics,2,背景介绍,3,背景介绍,第一代测序技术Sanger测序法链终止法双脱氧终止法1975年,Transcription,FrederickSanger弗雷德里克桑格1918年8月13日2013年11月19日1958年诺贝尔化学奖1980年诺贝尔化学奖,4,背景介绍,第二代测序技术边合成边测序2005年左右Sequencingbysynthesis代表性测序技术Illumina/SolexaRoche/454ABI/SOLiDPolonatorHeliScope参考文献Metzker,M.L.(2010).Sequencingtechnologies-thenextgeneration.NatRevGenet11,31-46.,IlluminaHiSeq2500,5,背景介绍,高通量测序文库构建单末端测序,single-end首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flowcell上生成DNA簇,上机测序单端读取序列。双末端测序,paired-end在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序。,6,背景介绍,以Illumina为例简单介绍测序原理,IlluminaHiSeq2500,cBot,7,背景介绍,高通量测序数据格式fasta序列文件的第一行是由大于符号()打头的任意文字说明,主要为标记序列用。从第二行开始是序列本身,标准核苷酸符号,通常核苷酸符号大小写均可fastq第一行由开始,后面跟着序列的描述信息,这点跟fasta格式是一样的;第二行是序列;第三行由+开始,后面也可以跟着序列的描述信息;第四行是第二行序列的质量评价(qualityvalues),字符数跟第二行的序列是相等的。,8,背景介绍,高通量测序数据格式fastq,Q=-10log10(p)ORQ=-10log10p/(1-p)(p:碱基错误率)字符的ASCII值-64=质量值OR字符的ASCII值-33=质量值NCBI/SangerorIllumina1.8andlater.UsingaPhredscaleencodedusingASCII33to93.ThisisthestandardforfastqformatsexceptfortheearlyIlluminadataformats(thischangedwithversion1.8oftheIlluminaPipeline).IlluminaPipeline1.2andearlier.UsingaSolexa/Illuminascale(-5to40)usingASCII59to104.TheWorkbenchautomaticallyconvertsthesequalityscorestothePhredscaleonimportinordertoensureacommonscaleforanalysesacrossdatasetsfromdifferentplatforms(seedetailsontheconversionnexttothesamplebelow).IlluminaPipeline1.3and1.4.UsingaPhredscaleusingASCII64to104.IlluminaPipeline1.5to1.7.UsingaPhredscaleusingASCII64to104.Values0()and1(A)arenotusedanymore.Value2(B)hasspecialmeaningandisusedasatrimclipping.ThismeansthatwhenselectingIlluminaPipeline1.5andlater,thereadsaretrimmedwhenaBisencounteredintheinputfileiftheTrimreadsoptionischecked.363939393939393939393839393636343429312202019191938383836363636363630323535,9,基因芯片与高通量测序的比较,10,芯片与测序比较,基因芯片约20年的历史,技术比较成熟,成本相对较低原理探针,互补配对的原则靶序列用荧光标记通过荧光强度间接反映靶序列的数量应用检测已知基因的表达水平检测SNP位点的基因型检测CNV,11,芯片与测序比较,高通量测序约10年的历史,发展快速,成本逐步减少原理边合成边测序碱基用荧光基团标记直接测定碱基序列应用全基因组测序转录组测序(smallRNAseq,RNA-seq),可以检测已知基因的表达水平,可以发现全新的转录本ChIP-seqCLIP-seq,12,芯片与测序比较,用高通量测序技术和基因芯片技术检测基因表达,Malone,J.H.,andOliver,B.(2011).Microarrays,deepsequencingandthetruemeasureofthetranscriptome.BMCBiol9,34.,13,高通量测序技术的应用,14,测序应用,高通量测序数据分析概览,15,测序应用,QualityAssessment,RawData,FastQC;fastx_quality_stats,Removeadaptor/linker,fastx_trimmer,fastx_clipper,Splitaccordingtobarcode,fastx_barcode_splitter.plfastx_trimmer,QualityControl,fastq_quality_trimmerfastq_quality_filter,FurtherAnalysis,高通量测序数据质量评估与过滤,FastQCFASTX-Toolkit,16,测序应用,全基因组denovo测序第一期:基因组调研图整体测序深度不低于20倍覆盖度。进行初步的数据分析,对基因组大小,GC含量等做出初步评估,确定框架图梯度文库构建具体策略第二期:基因组框架图基因组覆盖度达到90%以上,基因区覆盖度达到95%以上,单碱基的错误率达到1万分之一以内,整体测序覆盖深度不低于60倍覆盖度。同时对框架图进行基本基因注释和功能注释,和简单的比较基因组学分析。第三期:基因组精细图基因组覆盖度达到95%以上,基因区覆盖度达到98%以上,单碱基的错误率达到10万分之一以内,整体基因组覆盖度不低于100倍,ScaffoldN50大小不低于300Kb,对基因组精细图进行详细基因注释,基因功能注释,基因代谢途径注释和比较基因组学分析。,17,全基因组denovo测序数据拼接组装算法流程,DeBruijnGraph(德布鲁因图),测序应用,18,全基因组重测序(外显子组测序)算法流程发现遗传变异(SNP,indel等),测序数据,与参考基因组做比对,测序应用,19,测序应用,转录组测序SmallRNAseq检测smallRNA(主要是miRNA)的表达水平发现新的smallRNARNA-seqPoly(A)检测蛋白质编码基因的可变剪切体及表达水平TotalRNA(exceptrRNA)检测mRNA及longnoncodingRNA的表达水平发现新的longnoncodingRNA数据分析工具Bowtie(http:/bowtie-,20,测序应用,RNA-seq数据分析工具BowtieBowtieisanultrafast,memory-efficientshortreadalignergearedtowardquicklyaligninglargesetsofshortDNAsequences(reads)tolargegenomes.TopHatTopHatisafastsplicejunctionmapperforRNA-Seqreads.CufflinksCufflinksassemblestranscripts,estimatestheirabundances,andtestsfordifferentialexpressionandregulationinRNA-Seqsamples.,ColeTrapnell:TopHat(2009),Cufflinks(2010)PhDStevenSalzberg,UniversityofMarylandLiorPachter,UniversityofCalifornia,BerkeleyPostdocJoinRinnslab,TheBroadInstitute,21,测序应用,OverviewofTopHat,22,测序应用,SplicingJunctions,Exonskippingorcassetteexon,Mutuallyexclusiveexons,Alternativedonorsite,Alternativeacceptorsite,Intronretention,23,测序应用,TopHat:DiscoveringsplicejunctionsTopHatv1.0.7earlierseed-and-extendalignmentTopHatv1.0.7andlaterSupposeSisareadoflengthlthatcrossesasplicejunctionsplitsSintonsegments,n=floor(l/k),(k=25bp)mapsthesegmentss1,snwithBowtietothegenomesegmentssi,si+1thatbothaligntothegenome,butnotadjacentlyasegmentsifailstoalignbecauseitcrossesasplicejunction,butsi-1andsi+1arealigned.,24,测序应用,TopHat:DiscoveringsplicejunctionsTopHatv1.0.7andlaterasegmentsifailstoalignbecauseitcrossesasplicejunction,butsi-1andsi+1arealigned.,si-1,Si+1,si,si,mbp,k-mbp,m=1,24,m=12,25,测序应用,OverviewofCufflinks,26,测序应用,转录本拼接算法中涉及到的概念偏序关系与偏序集合PartialorderandPartiallyorderedset偏序关系偏序(亦称半序)关系是定义在集合上的一种序结构,是集合上满足一定条件的二元关系。直观的说,偏序指集合中仅有部分成员之间可以排序。全序关系在集合A中,存在偏序关系“”,如果对于任意aA,bA,有ab或ba,即A中的每对元素都满足关系“”,则集合A上的偏序“”是全序的或线性次序的。直观来说,全序指集合中全体成员之间都可以进行比较,可以排出所有元素的顺序。偏序集合指配备了偏序关系的集合,27,测序应用,转录本拼接算法中涉及到的概念偏序关系非严格偏序,自反偏序给定集合S,“”是S上的二元关系,若“”满足:自反性:aS,有aa;反对称性:a,bS,ab且ba,则a=b;传递性:a,b,cS,ab且bc,则ac;则称“”是S上的非严格偏序或自反偏序严格偏序,反自反偏序给定集合S,“”是S上的二元关系,若“”满足:反自反性:aS,有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论