基因组测序的原理与方法.ppt

上传人：y*** IP属地：广东上传时间：2020-01-16 格式：PPT 页数：125 大小：13.81MB 积分：30 举报 版权申诉

已阅读5页，还剩120页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大规模基因组测序的原理与方法胡松年husn 元素周期表的发现奠定了二十世纪物理化学研究和发展的基础元素周期表基因组序列图将奠定二十一世纪生命科学研究和生物产业发展的基础基因组生命科学的元素周期表人体解剖图奠定了现代医学发展的基础生命的奥秘蕴藏于四字天书之中 GCTTCTTCCTCATTTTCTCTTGCCGCCACCATGCCGCCACCATCATTTTCTCTTGCCGCCACCATGCTTCTTCCTCATTTTCTCTCCACCATGCCGCCACCACGCCACCATGCTTCTTCCTCATCTCGCTTTCTTGCCGCCACCATGCCGCCACCGCTTCTTCCtTCTCT 基因组学的基础理论研究基因组学是要揭示下述四种整合体系的相互关系基因组作为信息载体碱基对重复序列的整体守恒与局部不平衡的关系基因组作为遗传物质的整合体基因作为功能和结构单位与遗传学机制的关系基因组作为生物化学分子的整合体基因产物作为功能分子与分子细胞机制的关系物种进化的整合体物种在地理与大气环境中的自然选择基因组学是一个大学科界门纲目科属种地球上现存物种近亿所有生生灭灭的生物无一例外都有个基因组基因组作为信息载体它所储存的信息是最基本的生物学信息之一既是生命本质研究的出发点之一又是生物信息的归宿基因组学研究包括对基因产物转录子组和蛋白质组的系统生物学研究基因多态性的规模化研究就是基因组多态性的研究基因组学的研究必然要上升到细胞机制分子机制和系统生物学的水平基因组的起源与进化和物种的起源与进化一样是一个新的科学领域基因组信息正在以天文数字计算规模化地积累它的深入研究必将形成一个崭新的学科基因组学是一门大科学基因组的信息是用来发现和解释具有普遍意义的生命现象和它们的变化内在规律和相互关系基因组的信息含量高基因组学的研究又在于基因组间的比较基因组学的复杂性必然导致多学科的引进和介入各生物学科医学药学计算机科学化学数学物理学电子工程学考古学等基因组学研究的手段和技术已经走在生命科学研究的最前沿基因组信息来自于高效率和规模化所产生的实验数据人类基因组计划证明了基因组研究的迫切性和可行性基因组与生命之谜基因组的产生与进化基因组DNA组分的变化 GC百分比嘌呤嘧啶守恒遗传密码的发生发展和进化内含子尤其是大于100 000核苷酸的大内含子剪出后的运输和降解最小内含子的生物学意义动物基因组与植物基因组在基因分布上的共性和个性物种衍变过程中基因组水平的变化基因组大小变化与遗传分子细胞机制的关系 JUNKDNA 的发生分类进化与功能测序设备的垄断和高速度换代 8 测序设备发展现状 9 第一代稳定需求 ABi3130 xL3730 xL3500 xL 第三代即将面市 HelicosBiosciencesHelicosGeneticAnalysisSystemPacificBiosciencesRSSystem 第二代高速发展 RocheGenomeSequencerFLXSystemGSJuniorSystemIlluminaGenomeAnalyzerIIxMiSeqHiSeq1000HiSeq2000LifeTechnologies ABi 5500SOLiD System5500 xLSOLiD SystemIonTorrentPGM DanaherMotionPolonatorG 007CompleteGenomics无锡艾吉因生物信息技术有限公司AG 100深圳华因康基因科技有限公司Pstar 1中科院北京基因组所半导体所BIGIS 1BIGIS 4 大规模基因组测序的几个支撑技术 Sanger双脱氧末端终止法PCR技术DNA自动测序仪的发展生物信息学分析软硬件设施双脱氧末端终止的含义 PCR 聚合酶链式反应原理反应所需物质 DNA模板引物 DNA聚合酶 dNTP 缓冲液每个循环包括变性 90 退火 54 延伸 72 Sanger双脱氧末端终止法测序原理大规模基因组测序的两种策略逐步克隆法 ClonebyClone 全基因组霰弹法 WholeGenomeShot gun ATGCCGTAGGCCTAGCTAGGCCTAGCTCGGA ATGCCGTAGGCCTAGCTCGGA 基因组DNA BAC文库根据物理图谱正确定位的BAC或contig 用于霰弹法测序的候选克隆用于霰弹法测序的亚克隆测序并组装完整的基因组序列逐步克隆法 ClonebyClone 全基因组霰弹法 WholeGenomeShot gun 基因组DNA 霰弹法克隆测序并进行全基因组序列组装完整的基因组序列两种大规模基因组测序策略的比较 BACbyBAC WholeGenomeShotgun thesequencingofthehumangenomeislikelytobetheonlylargesequencingprojectcarriedtocompletionbythemethodsdescribedinthisissue MaynardV Olson Themaps Clonebyclonebyclone Nature409 816 818 2001 WorkingDraft 90 4X FinishedGenome 99 99 8X Gap1 Gap2 Chromosome 工作草稿框架图与完成图 BACbyBAC ThesequenceofthehumangenomeC Venteretal Science16Feb 291 1304 1351 2001 人类基因组计划研究的主要成果和进展表现在这四张图上遗传图谱又称为连锁图谱 linkagemap 指基因或DNA标志在染色体上的相对位置与遗传距离物理图谱以定位的DNA标记序列如STS作为路标以DNA实际长度即bp kb Mb为图距的基因组图谱转录图谱利用EST expressedsequencetags表达序列标签作为标记所构建的分子遗传图谱序列图谱通过基因组测序得到的以A T G C为标记单位的基因组DNA序列逐步克隆法 ClonebyClone 物理图谱的构建大片段克隆的筛选霰弹法测序与工作框架图的构建序列的全组装与完成图构建物理图谱的制作物理图谱的制作序列标签位点 STS 作图物理图谱是以特异的DNA序列为标志所展示的染色体图标志之间的距离或图距以物理距离如碱基对 basepair bp Kb Mb 表示最精细的物理图是核苷酸顺序图最粗略的物理图是染色体组型图 STS图谱是最基本和最为有用的染色体物理图谱之一 STS SequenceTaggedSite 本身是随机地从人类基因组上选择出来的长度在200 300bp左右的特异性短序列每个STS在基因组中是唯一的 STS图谱就是以STS为路标平均每100Kb一个将DNA克隆片段有序地定位到基因组上 STS的来源随机基因组序列表达基因序列如EST遗传标记序列如微卫星标记有关STS的信息可在基因组数据库GDB中找到http gdbwww gdb org 物理图谱构建的步骤确定各STS序列及其在基因组中的位置大插入片段基因组文库的构建 BAC文库以特定STS为标记筛选并定位克隆含有STS的克隆在基因组中排序基因组数据库 GDB 中至少含有24568个STS路标信息关于文库作为载体的基本要求能在宿主细胞中进行独立的复制具有多克隆位点可插入外源DNA片段有合适的筛选标记如抗药性大小合适易于分离纯化拷贝数多文库的概念含有某种生物体全部基因的随机片段的重组DNA克隆群体载体能携带外源DNA进入宿主细胞的工具常用的载体有质粒载体噬菌体载体细菌人工染色体等宿主能容纳外源DNA片段的生物体常用的有大肠杆菌酵母等 BAC文库的构建 NotI SacI 脉冲场凝胶电泳得200Kb左右的大片段DNA 纯化后与载体连接电转化将连接产物导入大肠杆菌感受态细胞插有外源DNA片段的BAC载体在含有氯霉素的固体培养基中培养每一个菌落为带有相同外源DNA片段的单克隆 BAC克隆的筛选 STS PCR反应池方案筛选种子克隆特定的STS标记相互间具有重叠片段的BAC克隆根据STS信息组装成contig 并定位于基因组上 Contig 每一个菌落为带有相同外源DNA片段的单克隆 Regionalmapping Regionalmapping Minimaltilingpathselectedforsequencing Regionalmapping BeijingMap 共48个每组8个每8个96孔板组成1个superpool 384个96孔板组成48个superpools 48superpools ColumnpoolsRowpools 123456789101112 第八板第二板 Platepools第一板 platepools rowpools columnpools的构成 STS PCR反应池方案 PoolingProtocol 123456789101112 超级池 8个96孔板共768个克隆板池 96个克隆行池 12个克隆列池 8个克隆大大减少筛选的工作量降低成本所得筛选结果准确可靠 28VS768 sheetofsuperpools platepools rowpools columnpools 一BACScreening前48个样品为引物OGG1 51对superpool sp 的筛选结果后48个样品为引物OGG1 52对superpool sp 的筛选结果引物OGG1 52对应sp 27 34 45的plate row columnpools的筛选结果 BACclone确定为阳性克隆引物OGG1 52的Colony PCR 延伸克隆的筛选 STS的密度尚未达到绘制高精度物理图谱的要求且在基因组中的分布不均匀造成很多区域没有阳性克隆覆盖形成空洞因此需用指纹图谱 FPC法或末端序列 WalkingbyEndSequence 步移等手段对种子克隆进行延伸形成连续克隆群利用延伸方法筛选得到的克隆称为延伸克隆 Contig1 Contig2 重叠序列重叠序列延伸引物筛选到的延伸克隆 Molecularweightmarkerevery5thlane BACclones在96深孔板中培养 HindIII完全酶切 1 琼脂糖凝胶电泳指纹图谱法 WalkingbyFingerprintingdatabase 挑取靠近空洞的种子克隆酶切构建其指纹图谱在FPC数据库中进行比对搜索含有此克隆的重叠克隆群信息从中确定覆盖空洞区域的克隆达到延伸目的 HindIII完全酶切 HindIII完全酶切 FPC数据库中比对 CloneA CloneB CloneC C A B contig搭建中克隆的错位末端序列步行法 WalkingbyEndSequence 挑取靠近空洞的种子克隆进行末端测序然后在基因组数据库中进行比对确定专一性的序列片段作为新的STS路标最后设计新路标的PCR引物按照STS PCR 反应池方案筛选新的克隆达到延伸的目的克隆350A18序列输入endsequencedatabase的查询结果四 CloneIdentification1 STS PCR2 BACendsequencing3 Fingerprinting4 FISH CK2 CK1 CK2 CK1 13f06 267l16 481o07250a15 204c23 340j13 对15个克隆进行HindIII酶切后电泳结果工作框架图绘制根据序列与STSdatabase进行blastn比较结果将克隆定位末端序的比较判定延伸在contig外的一端序列并可及时进行walking 筛选新的克隆霰弹法测序组装与Finishing 工作流程图 ShotgunSequencingI RANDOMPHASE BacClone 100 200kb ShearedDNA 1 0 2 0kb SequencingTemplates RandomReads ShotgunSequencingII ASSEMBLY Consensus Consensus ShotgunSequencingIII FINISHING Consensus ShotgunSequencingIII FINISHING Consensus ShotgunSequencingIII FINISHING Consensus ShotgunSequencingIII FINISHING ShotgunSequencingIII FINISHING Consed软件显示序列组装结果界面 1 Filling intraclonegaps Gapfillingbyendsequences 2 Filling interclonegaps TheactualandpredictedfingerprintofR 260J13digestedwithHindIIILane1 marker Lane2 R 260J13digestedwithHindIII 3 thepredicted 克隆211B19组装后的序列的错误率为零 WholeGenomeShotgun Thisbacteriumhasacirculargenomestructurewith2 689 445basepairs thesecondlargestoneofthermophilesdecodedcompletelytodate CircularrepresentationofthegenomeofT tengcongensis Whatisunderheavenisforall SunYat sen thefatherofmodernChina 天下为公国际一流测序生产线7万克隆 3000万碱基天高产出低成本 bp bp 美分 bp 分 bp 基因组学数据导向的大科学有数据才是硬道理世上无难事只要肯登攀 Contigs 127 550 N50 6 688bp Scaffolds 102 444 N50 11 764bp Quality 546bpatQ20 DeNovoSequencingtheGenomeinBIG HuSongnian BeijingInstituteofGenomics ChineseAcademyofSciences NextGenerationSequencing NGS Technology Secondgenerationsequencers Solexa 3 SOLiD 5 DenovosequencingRNA seq Re sequencingChIP seq Meth seq MetagenomicsDenovosequencingRNA seq Re sequencingChIP seqRNA seq known Genome Novelgenome s Bothtypes 1x4545xSOLiD4 02x5500 xl3xSOLEXA2xHiseq20003x3730 xl1xsequenom 1000CPUcores 800TBStorage 数据中心完善的试验与测序体系和流程强有力的计算存储及数据库支持体系成熟的生物信息数据处理和分析流程 2020 1 16 SecondgenerationsequencersinBIG 高通量测序仪10台 3730XL测序仪2台 Sequenom仪器1台高性能计算机刀片服务器100余台大内存服务器4台存储设备约800TB SequencingGlossary Reads Acollectionofclonesthatover samplethetargetgenome Pair endreads Sequencereadsderivedfrombothendsofasequencing libraryclone Mate pairreads Sequencereadsderivedfrombothendsofamate pairlibraryclonewhichinsertsizeisusually 1kb Insertsize Thesizeoftheclone insertfromwhichaclone endpairistaken Contig Theresultofjoininganoverlappingcollectionofsequencereads Scaffold Theresultofconnectingnon overlappingcontigsbyusingpair endreads N50size Asappliedtocontigsorscaffolds thatsizeabovewhich50 oftheassembledsequencecanbefound Genomeassemblystrategy Contigassembly Scafffolding Internalgapclosing Recentwholegenomesequencingprojects FlowchartoftheWGSdenovoassembly Fillinintra scaffoldgapsandgetthefinalscaffolds Solexapart 454part Hybridassemblyandscffolding 454readsprocess Assembly Hybridscaffolding Solexareadsprocess Assembly Mappingto454contig Hybridscaffolding Cov Comp longreads assembly contigs shortreads A C B scaffolding A B C scaffolds Fixgap Hybridassembly EST Unigene ScafA ScafC ScafB ScafD NewScaf A B C D ESTbasedAssemblyinshortreadsofNGS ConstructeBIGerScaffording Rawsequencingreadspre processingI Significanceandpurpose SequencinglibraryqualitycontrolSequencingbiasanalysisInheritedprosperitiesoncertainsecondgenerationsequencerGenomesequencingblackholeeffectTranscriptomesamplingandquantificationbiasReadyformappingReadyfordenovoassembly Rawsequencingreadspre processingII SequencingreadsnumbersDuplicatesdetection regionaldistributionanalysisandtrimmingAdapterdetectionandtrimmingReadsqualityanalysisandlowqualityreadsfilterAveragequalitydensitydistributionAveragequalitypositionaldistributionregionaldistributionF RcorrelationGCcontent qualitycorrelationInsertlengthdistribution Pipeline rawdatapre process Imageanalysisandbasecalling GOATpipeline OLB1 6 CASAVA QualityControl GERALDSummary htm FastqandQuality SolexareadsoftheFastqformats 1 1 sequence txt HWI EAS724 0001 8 32 374 374 0 1GAGCTGTATATGAATAATAGTTCGTTTTTCATTATCCAAGATGGATCGGTATAAAGTCTGCTAAAATAAAGGTACAACG HWI EAS724 0001 8 32 374 374 0 1fcfcfggdfggggfggggcggggggggfgggggcgggfWgggggggggfgcggdgcgcggggfacbbb bgcgggggds 1 2 sequence txt HWI EAS724 0001 8 32 374 374 0 2TACCGTTAATAGCAGTAATATCATAATAGTAATAGCATCATAACGGTAGTCCCATAAAAGTGTGTCAGTAGTAGTAGTA HWI EAS724 0001 8 32 374 374 0 2ggggfgggggd adcggggeggfggeggegf geececdegggggfegcfegggegggfgac aced bd c Yb Illumina1 3formatencodesaPhredqualityscorefrom0to40usingASCII64to104errorprobability p forsolexa p 0 01 Q 19 p 0 05 Q 12 8 p 0 10 Q 9 5 forphred p 0 01 Q 20 p 0 05 Q 13 p 0 10 Q 10 DataassessmentI Readqualitydistribution LowQuality HighQuality Trim 3 endtrimifQN30 60Assessment DistanceDistrubitionbetweentwoLowquality Q 20 454dinucleotideproportioncheck 454rawreadsquality DataassessmentII Libraryinsertsize Numbersofreadswithnon insertDNA fulllengthadapter indifferentinsertsizelibraries DataassessmentIII MappingRate SolexaSequencingDataUsagein500bpLibrary DataassessmentIV Duplicationassessment Duplicatesdetectionandfilter F R N N 2N Qaverage 20 Lanedatausageindifferentsolexalibrary Fiterduplicationreads AverageReadsperStartPoint ReadCorrectionCorrectIlluminaGAshortreads Kmer 17 GenomeSizePrediction M N L K 1 LN TotalLength bp GenomesizeL AverageRadsLength bp M GenomesizeestimationusingKmer Beforeestimatingthegenomesize wesetahypothesis thek merwepickedoutfromthegenomecanergodicthewholegenomesequence AccordingtotheLanderwatermanalgorithm thealgorithmshouldberepresentedas G Knum KdepthHere Gisthegenomesize Knumisthetotalnumberofk merandKdepthistheexpecteddepthofthek mer Ifweobtaintheexpecteddepthofk mer wecancalculatethegenomesize Becausethedistributionofk merfrequencyyieldstoPoissondistribution wecanconsiderthepeakofthek merdistributioncurveastheexpecteddepthofk merandcalculatethegenomesize Note Atotalof15 437 084 746Kmers thepeakvalueontherightfigureis8 sothegenomesizeisestimatedas 15 437 084 746 8 1 93G HighQualityReadRateafterpreprocess Assembly RawdataVSpreprocessedData Questions Genomesizeestimationmethods K mer Cov Assemblyoptimization parameters Assemblyevaluation 454 SolexaEST Unmappablesolexareadsreuse filter assemble Scaffoldingcomparison ABI BIG Bambus blat solexatosolidfeasible Assemblyassessment BAC 3730 necessary Sequencing

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基因组测序的原理与方法.ppt

文档简介

温馨提示

最新文档

评论

基因组测序的原理与方法.ppt

文档简介

温馨提示

最新文档

评论

相关文档