基因组测序的原理与方法.ppt_第1页
基因组测序的原理与方法.ppt_第2页
基因组测序的原理与方法.ppt_第3页
基因组测序的原理与方法.ppt_第4页
基因组测序的原理与方法.ppt_第5页
已阅读5页,还剩120页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大规模基因组测序的原理与方法 胡松年husn 元素周期表的发现奠定了二十世纪物理 化学研究和发展的基础 元素周期表 基因组序列图 将奠定二十一世纪生命科学研究和生物产业发展的基础 基因组 生命科学的 元素周期表 人体解剖图奠定了现 代医学发展的基础 生命的奥秘蕴藏于 四字天书 之中 GCTTCTTCCTCATTTTCTCTTGCCGCCACCATGCCGCCACCATCATTTTCTCTTGCCGCCACCATGCTTCTTCCTCATTTTCTCTCCACCATGCCGCCACCACGCCACCATGCTTCTTCCTCATCTCGCTTTCTTGCCGCCACCATGCCGCCACCGCTTCTTCCtTCTCT 基因组学的基础理论研究 基因组学是要揭示下述四种整合体系的相互关系 基因组作为信息载体 碱基对 重复序列的整体守恒与局部不平衡的关系 基因组作为遗传物质的整合体 基因作为功能和结构单位与遗传学机制的关系 基因组作为生物化学分子的整合体 基因产物作为功能分子与分子 细胞机制的关系 物种进化的整合体 物种在地理与大气环境中的自然选择 基因组学是一个大学科 界门纲目科属种 地球上现存物种近亿 所有生生灭灭的生物 无一例外 都有个基因组 基因组作为信息载体 它所储存的信息是最基本的生物学信息之一 既是生命本质研究的出发点之一 又是生物信息的归宿 基因组学研究包括对基因产物 转录子组和蛋白质组 的系统生物学研究 基因多态性的规模化研究就是基因组多态性的研究 基因组学的研究必然要上升到细胞机制 分子机制和系统生物学的水平 基因组的起源与进化和物种的起源与进化一样是一个新的科学领域 基因组信息正在以天文数字计算 规模化地积累 它的深入研究必将形成一个崭新的学科 基因组学是一门大科学 基因组的信息是用来发现和解释具有普遍意义的生命现象和它们的变化 内在规律 和相互关系 基因组的信息含量高 基因组学的研究又在于基因组间的比较 基因组学的复杂性必然导致多学科的引进和介入 各生物学科 医学 药学 计算机科学 化学 数学 物理学 电子工程学 考古学等 基因组学研究的手段和技术已经走在生命科学研究的最前沿 基因组信息来自于高效率和规模化所产生的实验数据 人类基因组计划证明了基因组研究的迫切性和可行性 基因组与生命之谜 基因组的产生与进化 基因组DNA组分的变化 GC百分比 嘌呤 嘧啶守恒 遗传密码的发生 发展和进化 内含子 尤其是大于100 000核苷酸的大内含子 剪出后的运输和降解 最小内含子的生物学意义 动物基因组与植物基因组在基因分布上的共性和个性 物种衍变过程中基因组水平的变化 基因组大小变化与遗传 分子 细胞机制的关系 JUNKDNA 的发生 分类 进化与功能 测序设备的垄断和高速度换代 8 测序设备发展现状 9 第一代 稳定需求 ABi3130 xL3730 xL3500 xL 第三代 即将面市 HelicosBiosciencesHelicosGeneticAnalysisSystemPacificBiosciencesRSSystem 第二代 高速发展 RocheGenomeSequencerFLXSystemGSJuniorSystemIlluminaGenomeAnalyzerIIxMiSeqHiSeq1000HiSeq2000LifeTechnologies ABi 5500SOLiD System5500 xLSOLiD SystemIonTorrentPGM DanaherMotionPolonatorG 007CompleteGenomics无锡艾吉因生物信息技术有限公司AG 100深圳华因康基因科技有限公司Pstar 1中科院北京基因组所 半导体所BIGIS 1BIGIS 4 大规模基因组测序的几个支撑技术 Sanger双脱氧末端终止法PCR技术DNA自动测序仪的发展生物信息学分析软硬件设施 双脱氧末端终止 的含义 PCR 聚合酶链式反应 原理 反应所需物质 DNA模板 引物 DNA聚合酶 dNTP 缓冲液每个循环包括 变性 90 退火 54 延伸 72 Sanger双脱氧末端终止法测序原理 大规模基因组测序的两种策略 逐步克隆法 ClonebyClone 全基因组霰弹法 WholeGenomeShot gun ATGCCGTAGGCCTAGCTAGGCCTAGCTCGGA ATGCCGTAGGCCTAGCTCGGA 基因组DNA BAC文库 根据物理图谱正确定位的BAC或contig 用于霰弹法测序的候选克隆 用于霰弹法测序的亚克隆 测序并组装 完整的基因组序列 逐步克隆法 ClonebyClone 全基因组霰弹法 WholeGenomeShot gun 基因组DNA 霰弹法克隆 测序并进行全基因组序列组装 完整的基因组序列 两种大规模基因组测序策略的比较 BACbyBAC WholeGenomeShotgun thesequencingofthehumangenomeislikelytobetheonlylargesequencingprojectcarriedtocompletionbythemethodsdescribedinthisissue MaynardV Olson Themaps Clonebyclonebyclone Nature409 816 818 2001 WorkingDraft 90 4X FinishedGenome 99 99 8X Gap1 Gap2 Chromosome 工作草稿 框架图 与完成图 BACbyBAC ThesequenceofthehumangenomeC Venteretal Science16Feb 291 1304 1351 2001 人类基因组计划研究的主要成果和进展表现在这 四张图 上 遗传图谱又称为连锁图谱 linkagemap 指基因或DNA标志在染色体上的相对位置与遗传距离物理图谱以定位的DNA标记序列如STS作为路标 以DNA实际长度即bp kb Mb为图距的基因组图谱 转录图谱利用EST expressedsequencetags表达序列标签 作为标记所构建的分子遗传图谱序列图谱通过基因组测序得到的 以A T G C为标记单位的基因组DNA序列 逐步克隆法 ClonebyClone 物理图谱的构建 大片段克隆的筛选 霰弹法测序与 工作框架图 的构建 序列的全组装与 完成图 构建 物理图谱的制作 物理图谱的制作 序列标签位点 STS 作图 物理图谱是以特异的DNA序列为标志所展示的染色体图 标志之间的距离或图距以物理距离如碱基对 basepair bp Kb Mb 表示 最精细的物理图是核苷酸顺序图 最粗略的物理图是染色体组型图 STS图谱是最基本和最为有用的染色体物理图谱之一 STS SequenceTaggedSite 本身是随机地从人类基因组上选择出来的长度在200 300bp左右的特异性短序列 每个STS在基因组中是唯一的 STS图谱就是以STS为路标 平均每100Kb一个 将DNA克隆片段有序地定位到基因组上 STS的来源 随机基因组序列表达基因序列 如EST遗传标记序列 如微卫星标记 有关STS的信息可在基因组数据库GDB中找到http gdbwww gdb org 物理图谱构建的步骤 确定各STS序列及其在基因组中的位置大插入片段基因组文库的构建 BAC文库 以特定STS为标记筛选并定位克隆含有STS的克隆在基因组中排序 基因组数据库 GDB 中至少含有24568个STS路标信息 关于文库 作为载体的基本要求 能在宿主细胞中进行独立的复制具有多克隆位点 可插入外源DNA片段有合适的筛选标记 如抗药性大小合适 易于分离纯化拷贝数多 文库的概念含有某种生物体全部基因的随机片段的重组DNA克隆群体 载体 能携带外源DNA进入宿主细胞的工具 常用的载体有质粒载体 噬菌体载体 细菌人工染色体等 宿主 能容纳外源DNA片段的生物体 常用的有大肠杆菌 酵母等 BAC文库的构建 NotI SacI 脉冲场凝胶电泳得200Kb左右的大片段DNA 纯化后与载体连接 电转化 将连接产物导入大肠杆菌感受态细胞 插有外源DNA片段的BAC载体 在含有氯霉素的固体培养基中培养 每一个菌落为带有相同外源DNA片段的单克隆 BAC克隆的筛选 STS PCR反应池 方案筛选种子克隆 特定的STS标记 相互间具有重叠片段的BAC克隆根据STS信息组装成contig 并定位于基因组上 Contig 每一个菌落为带有相同外源DNA片段的单克隆 Regionalmapping Regionalmapping Minimaltilingpathselectedforsequencing Regionalmapping BeijingMap 共48个 每组8个 每8个96孔板组成1个superpool 384个96孔板组成48个superpools 48superpools ColumnpoolsRowpools 123456789101112 第八板 第二板 Platepools第一板 platepools rowpools columnpools的构成 STS PCR反应池 方案 PoolingProtocol 123456789101112 超级池 8个96孔板 共768个克隆 板池 96个克隆 行池 12个克隆 列池 8个克隆 大大减少筛选的工作量 降低成本 所得筛选结果准确可靠 28VS768 sheetofsuperpools platepools rowpools columnpools 一BACScreening前48个样品为引物OGG1 51对superpool sp 的筛选结果后48个样品为引物OGG1 52对superpool sp 的筛选结果 引物OGG1 52对应sp 27 34 45的plate row columnpools的筛选结果 BACclone确定 为阳性克隆 引物OGG1 52的Colony PCR 延伸克隆的筛选 STS的密度尚未达到绘制高精度物理图谱的要求 且在基因组中的分布不均匀 造成很多区域没有阳性克隆覆盖 形成空洞 因此需用指纹图谱 FPC法 或末端序列 WalkingbyEndSequence 步移等手段对种子克隆进行延伸 形成连续克隆群 利用延伸方法筛选得到的克隆称为延伸克隆 Contig1 Contig2 重叠序列 重叠序列 延伸引物 筛选到的延伸克隆 Molecularweightmarkerevery5thlane BACclones在96深孔板中培养 HindIII完全酶切 1 琼脂糖凝胶电泳 指纹图谱法 WalkingbyFingerprintingdatabase 挑取靠近空洞的种子克隆 酶切构建其指纹图谱 在FPC数据库中进行比对 搜索含有此克隆的重叠克隆群信息 从中确定覆盖空洞区域的克隆 达到延伸目的 HindIII完全酶切 HindIII完全酶切 FPC数据库中比对 CloneA CloneB CloneC C A B contig搭建中克隆的错位 末端序列步行法 WalkingbyEndSequence 挑取靠近空洞的种子克隆进行末端测序 然后在基因组数据库中进行比对 确定专一性的序列片段作为新的STS路标 最后设计新路标的PCR引物 按照STS PCR 反应池 方案筛选新的克隆 达到延伸的目的 克隆350A18序列输入endsequencedatabase的查询结果 四 CloneIdentification1 STS PCR2 BACendsequencing3 Fingerprinting4 FISH CK2 CK1 CK2 CK1 13f06 267l16 481o07250a15 204c23 340j13 对15个克隆进行HindIII酶切后电泳结果 工作框架图 绘制 根据序列与STSdatabase进行blastn比较结果 将克隆定位末端序的比较 判定延伸在contig外的一端序列 并可及时进行walking 筛选新的克隆 霰弹法测序组装与Finishing 工作流程图 ShotgunSequencingI RANDOMPHASE BacClone 100 200kb ShearedDNA 1 0 2 0kb SequencingTemplates RandomReads ShotgunSequencingII ASSEMBLY Consensus Consensus ShotgunSequencingIII FINISHING Consensus ShotgunSequencingIII FINISHING Consensus ShotgunSequencingIII FINISHING Consensus ShotgunSequencingIII FINISHING ShotgunSequencingIII FINISHING Consed软件显示序列组装结果界面 1 Filling intraclonegaps Gapfillingbyendsequences 2 Filling interclonegaps TheactualandpredictedfingerprintofR 260J13digestedwithHindIIILane1 marker Lane2 R 260J13digestedwithHindIII 3 thepredicted 克隆211B19组装后的序列的错误率为零 WholeGenomeShotgun Thisbacteriumhasacirculargenomestructurewith2 689 445basepairs thesecondlargestoneofthermophilesdecodedcompletelytodate CircularrepresentationofthegenomeofT tengcongensis Whatisunderheavenisforall SunYat sen thefatherofmodernChina 天下为公 国际一流测序生产线7万克隆 3000万碱基 天高产出 低成本 bp bp 美分 bp 分 bp 基因组学 数据导向的大科学有数据才是硬道理 世上无难事只要肯登攀 Contigs 127 550 N50 6 688bp Scaffolds 102 444 N50 11 764bp Quality 546bpatQ20 DeNovoSequencingtheGenomeinBIG HuSongnian BeijingInstituteofGenomics ChineseAcademyofSciences NextGenerationSequencing NGS Technology Secondgenerationsequencers Solexa 3 SOLiD 5 DenovosequencingRNA seq Re sequencingChIP seq Meth seq MetagenomicsDenovosequencingRNA seq Re sequencingChIP seqRNA seq known Genome Novelgenome s Bothtypes 1x4545xSOLiD4 02x5500 xl3xSOLEXA2xHiseq20003x3730 xl1xsequenom 1000CPUcores 800TBStorage 数据中心 完善的试验与测序体系和流程 强有力的计算 存储及数据库支持体系 成熟的生物信息数据处理和分析流程 2020 1 16 SecondgenerationsequencersinBIG 高通量测序仪10台 3730XL测序仪2台 Sequenom仪器1台 高性能计算机刀片服务器100余台 大内存服务器4台 存储设备约800TB SequencingGlossary Reads Acollectionofclonesthatover samplethetargetgenome Pair endreads Sequencereadsderivedfrombothendsofasequencing libraryclone Mate pairreads Sequencereadsderivedfrombothendsofamate pairlibraryclonewhichinsertsizeisusually 1kb Insertsize Thesizeoftheclone insertfromwhichaclone endpairistaken Contig Theresultofjoininganoverlappingcollectionofsequencereads Scaffold Theresultofconnectingnon overlappingcontigsbyusingpair endreads N50size Asappliedtocontigsorscaffolds thatsizeabovewhich50 oftheassembledsequencecanbefound Genomeassemblystrategy Contigassembly Scafffolding Internalgapclosing Recentwholegenomesequencingprojects FlowchartoftheWGSdenovoassembly Fillinintra scaffoldgapsandgetthefinalscaffolds Solexapart 454part Hybridassemblyandscffolding 454readsprocess Assembly Hybridscaffolding Solexareadsprocess Assembly Mappingto454contig Hybridscaffolding Cov Comp longreads assembly contigs shortreads A C B scaffolding A B C scaffolds Fixgap Hybridassembly EST Unigene ScafA ScafC ScafB ScafD NewScaf A B C D ESTbasedAssemblyinshortreadsofNGS ConstructeBIGerScaffording Rawsequencingreadspre processingI Significanceandpurpose SequencinglibraryqualitycontrolSequencingbiasanalysisInheritedprosperitiesoncertainsecondgenerationsequencerGenomesequencingblackholeeffectTranscriptomesamplingandquantificationbiasReadyformappingReadyfordenovoassembly Rawsequencingreadspre processingII SequencingreadsnumbersDuplicatesdetection regionaldistributionanalysisandtrimmingAdapterdetectionandtrimmingReadsqualityanalysisandlowqualityreadsfilterAveragequalitydensitydistributionAveragequalitypositionaldistributionregionaldistributionF RcorrelationGCcontent qualitycorrelationInsertlengthdistribution Pipeline rawdatapre process Imageanalysisandbasecalling GOATpipeline OLB1 6 CASAVA QualityControl GERALDSummary htm FastqandQuality SolexareadsoftheFastqformats 1 1 sequence txt HWI EAS724 0001 8 32 374 374 0 1GAGCTGTATATGAATAATAGTTCGTTTTTCATTATCCAAGATGGATCGGTATAAAGTCTGCTAAAATAAAGGTACAACG HWI EAS724 0001 8 32 374 374 0 1fcfcfggdfggggfggggcggggggggfgggggcgggfWgggggggggfgcggdgcgcggggfacbbb bgcgggggds 1 2 sequence txt HWI EAS724 0001 8 32 374 374 0 2TACCGTTAATAGCAGTAATATCATAATAGTAATAGCATCATAACGGTAGTCCCATAAAAGTGTGTCAGTAGTAGTAGTA HWI EAS724 0001 8 32 374 374 0 2ggggfgggggd adcggggeggfggeggegf geececdegggggfegcfegggegggfgac aced bd c Yb Illumina1 3formatencodesaPhredqualityscorefrom0to40usingASCII64to104errorprobability p forsolexa p 0 01 Q 19 p 0 05 Q 12 8 p 0 10 Q 9 5 forphred p 0 01 Q 20 p 0 05 Q 13 p 0 10 Q 10 DataassessmentI Readqualitydistribution LowQuality HighQuality Trim 3 endtrimifQN30 60Assessment DistanceDistrubitionbetweentwoLowquality Q 20 454dinucleotideproportioncheck 454rawreadsquality DataassessmentII Libraryinsertsize Numbersofreadswithnon insertDNA fulllengthadapter indifferentinsertsizelibraries DataassessmentIII MappingRate SolexaSequencingDataUsagein500bpLibrary DataassessmentIV Duplicationassessment Duplicatesdetectionandfilter F R N N 2N Qaverage 20 Lanedatausageindifferentsolexalibrary Fiterduplicationreads AverageReadsperStartPoint ReadCorrectionCorrectIlluminaGAshortreads Kmer 17 GenomeSizePrediction M N L K 1 LN TotalLength bp GenomesizeL AverageRadsLength bp M GenomesizeestimationusingKmer Beforeestimatingthegenomesize wesetahypothesis thek merwepickedoutfromthegenomecanergodicthewholegenomesequence AccordingtotheLanderwatermanalgorithm thealgorithmshouldberepresentedas G Knum KdepthHere Gisthegenomesize Knumisthetotalnumberofk merandKdepthistheexpecteddepthofthek mer Ifweobtaintheexpecteddepthofk mer wecancalculatethegenomesize Becausethedistributionofk merfrequencyyieldstoPoissondistribution wecanconsiderthepeakofthek merdistributioncurveastheexpecteddepthofk merandcalculatethegenomesize Note Atotalof15 437 084 746Kmers thepeakvalueontherightfigureis8 sothegenomesizeisestimatedas 15 437 084 746 8 1 93G HighQualityReadRateafterpreprocess Assembly RawdataVSpreprocessedData Questions Genomesizeestimationmethods K mer Cov Assemblyoptimization parameters Assemblyevaluation 454 SolexaEST Unmappablesolexareadsreuse filter assemble Scaffoldingcomparison ABI BIG Bambus blat solexatosolidfeasible Assemblyassessment BAC 3730 necessary Sequencing

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论