生物信息学在高通量测序数据分析中的应用_第1页
生物信息学在高通量测序数据分析中的应用_第2页
生物信息学在高通量测序数据分析中的应用_第3页
生物信息学在高通量测序数据分析中的应用_第4页
生物信息学在高通量测序数据分析中的应用_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学在高通量测序数据分析中的应用第1页,课件共66页,创作于2023年2月提纲高通量测序技术的介绍高通量测序技术的主要应用生物信息学在高通量测序数据中的主要应用第2页,课件共66页,创作于2023年2月高通量测序简介高通量测序:一次性对几百万到十亿条DNA分子进行并行测序,又称为下一代测序技术,其使得可对一个物种的转录组和基因组进行深入、细致、全貌的分析,所以又被称为深度测序。High-throughputSequencingNextGenerationSequencingDeepSequencing3第3页,课件共66页,创作于2023年2月主要测序技术

第一代测序技术Sangersequencing(1980’s)第二代测序技术(nextgenerationsequencing,NGS)Roche/454(2005)Illumina/Solexa(2006)Life/APG’sSOLiD(2007)Life/APG’sIontorrent(2010)第三代测序技术PacificBioscience’ssinglemoleculesequencing(2011)Nanoporesequencing第4页,课件共66页,创作于2023年2月测序的基本反应原理:DNA聚合反应第5页,课件共66页,创作于2023年2月第一代测序技术Sanger法第6页,课件共66页,创作于2023年2月结合荧光标记和毛细管电泳第7页,课件共66页,创作于2023年2月测序峰图第8页,课件共66页,创作于2023年2月ABI3730sequencerReadlength:>1,000bpAccuracy:99.999%Cost:$0.5/kbThroughput:6x105bp/day第9页,课件共66页,创作于2023年2月SangervsNGSSangerNGS样品量大小是否需要电泳是否通量低高单位成本高低准确率高偏低读长长短第10页,课件共66页,创作于2023年2月高通量测序技术

Roche/454pyrosequencing以固化了引物的玻璃微球为中心形成油包水结构的乳滴,每个乳滴都是一个PCR反应的微量反应器(通过控制测序文库DNA的浓度和微球悬浊液的浓度,保证大多数微球只结合一条DNA模板)。经过多轮循环反应,每个微球表面都结合了数千个相同的拷贝。变性后,使微球上结合的都是单链DNA片段。富集微球,转移到刻有大规模微孔阵列的微孔板上,每个微孔只容纳一个微球。第11页,课件共66页,创作于2023年2月高通量测序技术

Roche/454pyrosequencing顺次向流通池中加入4种dNTP中的一种,流过微孔板的一面。当dNTP与脱氧核糖骨架连接后释放出焦磷酸,在与dNTP一起加入的ATP硫酰化酶和荧光素酶作用下产生一系列级联反应,放出不同的光信号。每个微孔中光信号的有无,就表明对应的dNTP是否连接到了片段上。第12页,课件共66页,创作于2023年2月454测序的原理:焦磷酸测序逐次加入dATP等,每加入一种,检测信号,清洗再加下一种。ATP硫酸化酶5’-磷酰硫酸荧光素酶第13页,课件共66页,创作于2023年2月高通量测序技术

Roche/454pyrosequencing优势:读长长(max1kb,GSFLXTitaniumXL+),运行时间短(10-23hours)主要错误来源:难以准确判定连续碱基(经过3次级联化学反应产生的荧光信号与连接上碱基的数量线性关系较差),容易产生Indel劣势:通量相对偏低(max700M),单位成本高GSFLX+SystemGSJuniorSystem第14页,课件共66页,创作于2023年2月高通量测序技术

Illumina/Solexa单链DNA两端加上非对称的通用接头(包括测序引物),接头与事先固定在固相芯片表面的序列互补单链DNA结合到芯片表面形成桥式结构。然后使用接头引物进行PCR扩增变性后在一个芯片上可以形成上亿个不相关的单链DNA分子簇,其一端固定在芯片表面,另一端是自由的第15页,课件共66页,创作于2023年2月高通量测序技术

Illumina/Solexa使用测序引物从自由的通用接头一侧开始测序反应。测序使用的dNTP每种碱基被不同的荧光基团标记,同时脱氧核糖的3’-OH被封闭,这样每轮测序循环只能延伸一个核苷酸。读取碱基荧光信号,就能知道这一轮每个簇结合上的是什么核苷酸然后切除荧光基团,打开被封闭的3’-OH,继续进行下一轮反应第16页,课件共66页,创作于2023年2月Solexa测序的原理:可逆阻断第17页,课件共66页,创作于2023年2月高通量测序技术

Illumina/Solexa优势:通量最高(max600Gb,HiSeq2500)主要错误来源:同一个簇内不同DNA链延伸情况不同(相位差),导致读取错误劣势:读长较短(max250bp,HiSeq2500),运行时间长(1-14days,HiSeq2500大幅提升了运行速度),数据存储和分析难度大。MiSeqHiSeq2000GenomeAnalyzerII第18页,课件共66页,创作于2023年2月高通量测序技术

AB/SOLiDSOLiDSystem5500series第19页,课件共66页,创作于2023年2月SOLiD测序探针介绍类似454的微球反应体系,但使用连接反应。第20页,课件共66页,创作于2023年2月SOLiD

Sequencing每次测序反应的第1轮,测序引物1与接头序列互补形成平末端,然后与探针连接。当探针1,2位与待测序列模板互补并连接上之后,获取荧光信息。然后在探针的5,6位之间切开探针,进行下一个连接反应。这样重复多次,可以获得模板序列的第1-2,6-7,11-12……位置的信息。第21页,课件共66页,创作于2023年2月高通量测序技术

Life/APG’sSOLiD优点:由于使用双碱基编码技术(two-baseencoding),准确率最高,通量高(max300Gb)缺点:读长最短(max75bp),运行时间长(7-10day),数据储存和分析难度大5500SeriesGeneticAnalysisSystems第22页,课件共66页,创作于2023年2月高通量测序技术

Life/APG’sIontorrentPGM454发明者的新作品测序反应在微阵列芯片上的微反应池中进行。每个dNTP结合到延伸链上,会释放出一个H+,pH值变化会导致电位变化。检测每次dNTP流过的电位差变化,就能知道该dNTP是否连接上去。第23页,课件共66页,创作于2023年2月高通量测序技术

Life/APG’sIontorrentPGM优点:速度快(<2hours),准确度较高(只需要1次聚合反应,电位变化与碱基数量线性关系较好),成本低,芯片可升级缺点:读长较短(max200bp),通量较低(max~1G)已有升级版IonProton,号称比Iontorrent强100倍。Iontorrent318chipIonProton第24页,课件共66页,创作于2023年2月高通量测序技术

PacificBioscience’ssinglemoleculesequencing每个纳米孔底部固定一个已经结合了引物和模板的DNA聚合酶分子。每次测序反应加入一种荧光标记的dNTP核苷酸,聚合酶在检测空间内将其捕获后产生光曝。通过连续实时检测每个孔内的荧光信号,就快速测定了每个孔内的模板序列第25页,课件共66页,创作于2023年2月高通量测序技术

PacificScience’ssinglemoleculesequencing优点:读长长(max15kb)缺点:错误率高(单次反应错误率~15%。经改进后使用多次循环重复,错误率降低到1%),通量低(与读长有关)SMATCells第26页,课件共66页,创作于2023年2月Comparisonof5NGStechniques454SolexaSOLiDIontorrentPacific文库制备乳滴PCR桥式PCR乳滴PCR乳滴PCR单分子测序反应聚合反应聚合反应连接反应聚合反应聚合反应原理焦磷酸反向终止合成可剪切探针连接pH电位差单分子实时荧光光学检测是是是否是最大读长~1kb250bp75bp200bp~15kb最大数据产出*700Mb600Gb300Gb~1.2Gb~80Mb运行时间较短长最长短短主要错误Indel替换替换IndelCG删除准确率低高最高较高低平均数据成本高低低较低高数据分析难度较低高最高高最低*最大数据产出量往往不是最大读长的文库HiSeq2500和IonProton均号称1天测1个30x的人类基因组,成本$1000第27页,课件共66页,创作于2023年2月高通量测序技术的主要应用DNA测序基因组deno测序基因组重测序宏基因组(Metagenome)测序外显子组测序RNA测序转录组测序表达谱测序小RNA测序降解组测序表观基因组测序Chip-seqClip-seq

第28页,课件共66页,创作于2023年2月生物信息学在高通量测序

数据中的主要应用

第29页,课件共66页,创作于2023年2月常用生物信息学分析平台与资源常用编程分析平台:

Perl/BioPerl

Python/BioPython

R/Bioconductor

JAVA/BioJava常用网上资源:

NCBISRA–SequenceReadArchive

UCSCGenomeBrowser

SEQanswers–WiKi&ForumforNGS第30页,课件共66页,创作于2023年2月常用基因组拼接软件VelvetRayABySSSOAPdenovoSSAKESHARCGSMIRAEdena第31页,课件共66页,创作于2023年2月基因组比对软件BLASTBLATMAQSOAPBowtieBWASSAHAELAND第32页,课件共66页,创作于2023年2月SNP分析软件SAMToolsSOAPsnpNGS-BackboneMAQSeqManNGenCLCBioGenomics第33页,课件共66页,创作于2023年2月生物信息学在基因组分析方面的应用

基因组denovo测序对未知基因组序列的物种取样:

动物:血液、肌肉植物:叶片(黄化叶,组培植株)估算基因组复杂度(大小、重复序列比例、杂合度)测序技术:Illunimapaired-end为主Sanger、454、SOLiD为辅,PacBio目前也开始用于基因组测序补洞文库构建尽量随机打断第34页,课件共66页,创作于2023年2月WGS(wholegenomeshortgun)Coveragedepth(覆盖深度or测序深度):每个碱基被测序的平均次数,是用来衡量测序数据量的首要参数。测序总数据量/基因组大小Coverageratio(覆盖率):被测序到的碱基占全基因组大小的比率。覆盖比率随覆盖深度升高而提高,亦受测序bias的影响,如illumina测序会受到GCbias的影响,而导致测序不均匀。理论上(完全随机打断)测序深度达到20x即可覆盖整个基因组。实际工作中一般需要50x以上(100bp读长)。Reads长度越长越好。第35页,课件共66页,创作于2023年2月DenovoassemblyPaired-endreadsContigMate-endreadsorlongreadsScaffoldGeneticmap,FISH…..Chromosome第36页,课件共66页,创作于2023年2月基因组注释蛋白编码基因注释重复序列注释非编码RNA注释,主要是miRNA基因组注释流程第37页,课件共66页,创作于2023年2月全基因组成功测序案例互叶梅基因组(国际互叶梅基因组测序项目,2013)TheAmborellaGenomeandtheEvolutionofFloweringPlants完全使用NGS测序组装最原始的被子植物互叶梅Amborella已被确定是所有其他存活被子植物的单一姊妹物种,是其他被子植物比较的关键参照物。Amborella植物测序基因组解决了“达尔文难解之谜”——为什么几百万年前花在地球上突然激增的问题。基因组序列为地球生命史上重大事件提供了理论参考:开花植物的起源。第38页,课件共66页,创作于2023年2月全基因组测序不成功案例麻风树基因组(日本,2011)Sanger结合NGS组装完成度低只进行了基本的基因组注释。发现许多与脂质合成及抗病相关的基因。推测这些都是麻风树不断适应干燥环境获得的性质。第39页,课件共66页,创作于2023年2月重测序(Resequencing)对已有参考基因组物种的不同基因型或不同个体的全基因组或部分区段进行测序,以获得个体之间的基因组和功能差异。用途:了解物种的起源和演化历程理解疾病的成因理解动植物性状的分子机制全基因组关联分析(Genome-wildassociationstudy,GWAS)第40页,课件共66页,创作于2023年2月SNP检测,注释和统计Indel

检测,注释和统计SV检测,注释和统计CNV检测,注释和统计变异检测第41页,课件共66页,创作于2023年2月SNPcalling考虑测序错误等位基因的SNP(考虑个体测序深度)ACSNVvsSNPSNV(singlenucleotidevariation):单个个体中出现的单核苷酸变异。但是在癌症研究中,SNV往往指somaticmutation(体细胞突变)SNP(singlenucleotidepolymorphism):在一个群体中出现一定频率(有人认为>5%)的单核苷酸变异群体SNPcalling第42页,课件共66页,创作于2023年2月ATCGATCGAATTCGTACGATGCTTAGCTAGCATACGReferenceReadsATCGATCGCGTACGATGCTTAGCTAGCATACGShortInDel检测第43页,课件共66页,创作于2023年2月寻找SV(structurevariation)第44页,课件共66页,创作于2023年2月Copynumbervariation(CNV)需要一定的测序覆盖度(>10x),mappingdepth也需要仔细检查第45页,课件共66页,创作于2023年2月转录组SmallRNA降解组TextRNADGE生物信息学在RNAomics方面的应用RNA高通量测序第46页,课件共66页,创作于2023年2月转录组SmallRNA降解组TextRNADGERNA测序—转录组测序第47页,课件共66页,创作于2023年2月转录组测序简介转录组即特定细胞在某一功能状态下所能转录出来的所有RNA的总和,包括mRNA和非编码RNA(Non-coding

RNA)。

第二代测序系统可精确检测单个碱基,并且不受到研究中先验信息的干扰,科研人员能够快速地获得某一物种特定器官或组织在某一状态下几乎所有mRNA转录本序列,从而能够开展:UTRs区域界定、可变剪切研究、低丰度新转录本发现、融合基因鉴定、cSNP(编码序列单核苷酸多态性)研究等。第48页,课件共66页,创作于2023年2月转录组研究内容转录组数据评估基因表达注释差异表达基因鉴定、聚类、Geneontology、KEGGpathway分析基因结构优化新转录本可变剪接融合基因SNP第49页,课件共66页,创作于2023年2月转录组测序流程无参考序列测序流程有参考序列测序流程第50页,课件共66页,创作于2023年2月转录组主要分析内容无参考序列转录组分析内容有参考序列转录组分析内容1测序数据产量统计,数据成分和质量评估;2Contig及Scaffold组装、长度分布3Unigene的长度分布和功能注释,GO分类,Pathway分析,差异表达分析4蛋白功能预测与分类,差异表达基因GO富集和Pathway富集分析。1基本数据统计,比对参考序列2序列在基因组上在分布3测序深度分析、随机性评估和基因差异表达分析4新基因预测,基因可变剪接鉴定和基因融合鉴定等。第51页,课件共66页,创作于2023年2月基因融合分析基因嵌合分析流程MIPOL1-DGKB

基因融合模式第52页,课件共66页,创作于2023年2月GenomicintergenicregionReadsclusterPairedReadsdistribution优化基因结构

鉴定新的转录本Paired-End(PE)ReadsReads比对到参考序列基因间区域第53页,课件共66页,创作于2023年2月鉴定可变剪接(AlternativeSplicing)exon1exon2exon3exon1exon2exon3exon1exon3commonreadsjunctionreadsmRNA第54页,课件共66页,创作于2023年2月分析RNA水平SNP转录组重测序比对软件:SOAPDenovo转录组测序:组装软件:SoapDenovo比对软件:SoapSNP第55页,课件共66页,创作于2023年2月转录组SmallRNA降解组TextRNADGERNA测序—小RNA测序第56页,课件共66页,创作于2023年2月SmallRNA:是长度在18-40nt的非编码RNA,在基因表达调控中发挥着重要的作用。小RNA的产生第57页,课件共66页,创作于2023年2月总RNA通过切胶回收CATGGCTGAAGTCAAGGATGTCATGGAAGGCAATCCCACATACATGCTAGAAAACATTTAATACATGCTAGAAAACATTTAATACATGGTTGAATCTGAAACCCTCATGGTTGAATCTGAAACCCTCATGGCTGAATCTGAGGCTCTCATGGCTGAATCTGAGGCTCTCATGCTAGAAAACATTTAATACATGCTAGAAAACATTTAATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGCTGAAGTCAAGGATGTCATGGCTGAAGTCAAGGATGT测序CATGCTAGAAAACATTTAATACATGCTAGAAAACATTTAATACATGCTAGAAAACATTTAATACATGCTAGAAAACATTTAATACATGGTTGAATCTGAAACCCT

CATGGTTGAATCTGAAACCCTCATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATAmiRNAsiRNArepeatunann比对注释和预测SmallRNA测序第58页,课件共66页,创作于2023年2月SmallRNA分析smallRNA的长度分布;rRNA、tRNA、snRNA、sno

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论