




已阅读5页,还剩120页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.,1,大规模基因组测序的原理与方法,胡松年husn,.,2,元素周期表的发现奠定了二十世纪物理、化学研究和发展的基础,元素周期表,“基因组序列图”将奠定二十一世纪生命科学研究和生物产业发展的基础!,“基因组”-生命科学的“元素周期表”,人体解剖图奠定了现,代医学发展的基础,.,3,生命的奥秘蕴藏于“四字天书”之中,GCTTCTTCCTCATTTTCTCTTGCCGCCACCATGCCGCCACCATCATTTTCTCTTGCCGCCACCATGCTTCTTCCTCATTTTCTCTCCACCATGCCGCCACCACGCCACCATGCTTCTTCCTCATCTCGCTTTCTTGCCGCCACCATGCCGCCACCGCTTCTTCCtTCTCT,.,4,基因组学的基础理论研究,基因组学是要揭示下述四种整合体系的相互关系:基因组作为信息载体(碱基对、重复序列的整体守恒与局部不平衡的关系)基因组作为遗传物质的整合体(基因作为功能和结构单位与遗传学机制的关系)基因组作为生物化学分子的整合体(基因产物作为功能分子与分子、细胞机制的关系)物种进化的整合体(物种在地理与大气环境中的自然选择),.,5,基因组学是一个大学科,“界门纲目科属种”,地球上现存物种近亿,所有生生灭灭的生物,无一例外,都有个基因组。基因组作为信息载体,它所储存的信息是最基本的生物学信息之一;既是生命本质研究的出发点之一,又是生物信息的归宿。基因组学研究包括对基因产物(转录子组和蛋白质组)的系统生物学研究。基因多态性的规模化研究就是基因组多态性的研究。基因组学的研究必然要上升到细胞机制、分子机制和系统生物学的水平。基因组的起源与进化和物种的起源与进化一样是一个新的科学领域。基因组信息正在以天文数字计算,规模化地积累,它的深入研究必将形成一个崭新的学科。,.,6,基因组学是一门大科学,基因组的信息是用来发现和解释具有普遍意义的生命现象和它们的变化、内在规律、和相互关系。基因组的信息含量高。基因组学的研究又在于基因组间的比较。基因组学的复杂性必然导致多学科的引进和介入(各生物学科、医学、药学、计算机科学、化学、数学、物理学、电子工程学、考古学等)。基因组学研究的手段和技术已经走在生命科学研究的最前沿。基因组信息来自于高效率和规模化所产生的实验数据。人类基因组计划证明了基因组研究的迫切性和可行性。,.,7,基因组与生命之谜,基因组的产生与进化。基因组DNA组分的变化、GC百分比、嘌呤:嘧啶守恒。遗传密码的发生、发展和进化。内含子(尤其是大于100,000核苷酸的大内含子)剪出后的运输和降解。最小内含子的生物学意义。动物基因组与植物基因组在基因分布上的共性和个性。物种衍变过程中基因组水平的变化。基因组大小变化与遗传、分子、细胞机制的关系。“JUNKDNA”的发生、分类、进化与功能。,.,8,测序设备的垄断和高速度换代,.,9,测序设备发展现状,第一代(稳定需求)ABi3130 xL3730 xL3500 xL,第三代(即将面市)HelicosBiosciencesHelicosGeneticAnalysisSystemPacificBiosciencesRSSystem,第二代(高速发展)RocheGenomeSequencerFLXSystemGSJuniorSystemIlluminaGenomeAnalyzerIIxMiSeqHiSeq1000HiSeq2000LifeTechnologies(ABi)5500SOLiDSystem5500 xLSOLiDSystemIonTorrentPGMDanaherMotionPolonatorG.007CompleteGenomics无锡艾吉因生物信息技术有限公司AG-100深圳华因康基因科技有限公司Pstar-1中科院北京基因组所/半导体所BIGIS-1BIGIS-4,.,10,大规模基因组测序的几个支撑技术,Sanger双脱氧末端终止法PCR技术DNA自动测序仪的发展生物信息学分析软硬件设施,.,11,“双脱氧末端终止”的含义,.,12,PCR(聚合酶链式反应)原理,反应所需物质:DNA模板、引物、DNA聚合酶、dNTP、缓冲液每个循环包括:变性(90)、退火(54)、延伸(72),.,13,Sanger双脱氧末端终止法测序原理,.,14,大规模基因组测序的两种策略,逐步克隆法(ClonebyClone)全基因组霰弹法(WholeGenomeShot-gun),.,15,ATGCCGTAGGCCTAGCTAGGCCTAGCTCGGA,ATGCCGTAGGCCTAGCTCGGA,基因组DNA,BAC文库,根据物理图谱正确定位的BAC或contig,用于霰弹法测序的候选克隆,用于霰弹法测序的亚克隆,测序并组装,完整的基因组序列,逐步克隆法(ClonebyClone),全基因组霰弹法(WholeGenomeShot-gun),基因组DNA,霰弹法克隆,测序并进行全基因组序列组装,完整的基因组序列,.,16,两种大规模基因组测序策略的比较,.,17,BACbyBAC,WholeGenomeShotgun,thesequencingofthehumangenomeislikelytobetheonlylargesequencingprojectcarriedtocompletionbythemethodsdescribedinthisissue.MaynardV.Olson,Themaps:Clonebyclonebyclone,Nature409,816-818(2001),.,18,“WorkingDraft”(90%;4X),FinishedGenome(99.99%;8X),Gap1,Gap2,Chromosome,工作草稿(框架图)与完成图,.,19,BACbyBAC,.,20,ThesequenceofthehumangenomeC.Venteretal.Science16Feb.291:13041351,2001,.,21,人类基因组计划研究的主要成果和进展表现在这“四张图”上,遗传图谱又称为连锁图谱(linkagemap),指基因或DNA标志在染色体上的相对位置与遗传距离物理图谱以定位的DNA标记序列如STS作为路标,以DNA实际长度即bp、kb、Mb为图距的基因组图谱。转录图谱利用EST(expressedsequencetags表达序列标签)作为标记所构建的分子遗传图谱序列图谱通过基因组测序得到的,以A、T、G、C为标记单位的基因组DNA序列,.,22,逐步克隆法(ClonebyClone),物理图谱的构建,大片段克隆的筛选,霰弹法测序与“工作框架图”的构建,序列的全组装与“完成图”构建,.,23,物理图谱的制作,.,24,物理图谱的制作序列标签位点(STS)作图,物理图谱是以特异的DNA序列为标志所展示的染色体图。标志之间的距离或图距以物理距离如碱基对(basepair;bp,Kb,Mb)表示。最精细的物理图是核苷酸顺序图,最粗略的物理图是染色体组型图。STS图谱是最基本和最为有用的染色体物理图谱之一,STS(SequenceTaggedSite)本身是随机地从人类基因组上选择出来的长度在200300bp左右的特异性短序列(每个STS在基因组中是唯一的,STS图谱就是以STS为路标(平均每100Kb一个),将DNA克隆片段有序地定位到基因组上。,STS的来源,随机基因组序列表达基因序列,如EST遗传标记序列,如微卫星标记,有关STS的信息可在基因组数据库GDB中找到,.,25,物理图谱构建的步骤,确定各STS序列及其在基因组中的位置大插入片段基因组文库的构建(BAC文库)以特定STS为标记筛选并定位克隆含有STS的克隆在基因组中排序,基因组数据库(GDB)中至少含有24568个STS路标信息,.,26,关于文库,作为载体的基本要求,能在宿主细胞中进行独立的复制具有多克隆位点,可插入外源DNA片段有合适的筛选标记,如抗药性大小合适,易于分离纯化拷贝数多,文库的概念含有某种生物体全部基因的随机片段的重组DNA克隆群体,载体:能携带外源DNA进入宿主细胞的工具,常用的载体有质粒载体、噬菌体载体、细菌人工染色体等,宿主:能容纳外源DNA片段的生物体,常用的有大肠杆菌、酵母等,.,27,BAC文库的构建,NotI、SacI,脉冲场凝胶电泳得200Kb左右的大片段DNA,纯化后与载体连接,电转化,将连接产物导入大肠杆菌感受态细胞,插有外源DNA片段的BAC载体,在含有氯霉素的固体培养基中培养,每一个菌落为带有相同外源DNA片段的单克隆,.,28,BAC克隆的筛选,“STS-PCR反应池”方案筛选种子克隆,特定的STS标记,相互间具有重叠片段的BAC克隆根据STS信息组装成contig,并定位于基因组上,Contig,每一个菌落为带有相同外源DNA片段的单克隆,.,29,.,30,Regionalmapping,.,31,Regionalmapping,Minimaltilingpathselectedforsequencing.,Regionalmapping,.,33,BeijingMap,.,34,.,35,共48个,每组8个,每8个96孔板组成1个superpool,384个96孔板组成48个superpools,48superpools,.,36,ColumnpoolsRowpools,123456789101112,第八板,第二板,Platepools第一板,platepools,rowpools,columnpools的构成,.,37,“STS-PCR反应池”方案(PoolingProtocol),123456789101112,超级池(8个96孔板,共768个克隆),板池(96个克隆),行池(12个克隆),列池(8个克隆),大大减少筛选的工作量,降低成本,所得筛选结果准确可靠,28VS768,.,38,sheetofsuperpools,platepools,rowpools,columnpools,.,39,一BACScreening前48个样品为引物OGG1.51对superpool(sp)的筛选结果后48个样品为引物OGG1.52对superpool(sp)的筛选结果,.,40,引物OGG1.52对应sp#27,34,45的plate,row,columnpools的筛选结果,.,41,BACclone确定(+为阳性克隆),.,42,引物OGG1.52的Colony-PCR,.,43,延伸克隆的筛选,STS的密度尚未达到绘制高精度物理图谱的要求,且在基因组中的分布不均匀,造成很多区域没有阳性克隆覆盖,形成空洞。因此需用指纹图谱(FPC法)或末端序列(WalkingbyEndSequence)步移等手段对种子克隆进行延伸,形成连续克隆群。利用延伸方法筛选得到的克隆称为延伸克隆。,Contig1,Contig2,重叠序列,重叠序列,延伸引物,筛选到的延伸克隆,.,44,Molecularweightmarkerevery5thlane,BACclones在96深孔板中培养-HindIII完全酶切-1%琼脂糖凝胶电泳,指纹图谱法(WalkingbyFingerprintingdatabase),挑取靠近空洞的种子克隆,酶切构建其指纹图谱,在FPC数据库中进行比对,搜索含有此克隆的重叠克隆群信息,从中确定覆盖空洞区域的克隆,达到延伸目的。,.,45,HindIII完全酶切,HindIII完全酶切,FPC数据库中比对,CloneA,CloneB,CloneC,C,A,B,.,46,contig搭建中克隆的错位,.,47,末端序列步行法(WalkingbyEndSequence)挑取靠近空洞的种子克隆进行末端测序,然后在基因组数据库中进行比对,确定专一性的序列片段作为新的STS路标。最后设计新路标的PCR引物,按照STSPCR“反应池”方案筛选新的克隆,达到延伸的目的。,克隆350A18序列输入endsequencedatabase的查询结果,.,48,四、CloneIdentification1、STS-PCR2、BACendsequencing3、Fingerprinting4、FISH,.,49,CK2,CK1,CK2,CK1,13f06,267l16,481o07250a15,204c23,340j13,对15个克隆进行HindIII酶切后电泳结果,.,50,.,51,“工作框架图”绘制,根据序列与STSdatabase进行blastn比较结果,将克隆定位末端序的比较,判定延伸在contig外的一端序列。并可及时进行walking,筛选新的克隆,.,52,霰弹法测序组装与Finishing,.,53,工作流程图,.,54,ShotgunSequencingI:RANDOMPHASE,BacClone:100-200kb,ShearedDNA:1.0-2.0kb,SequencingTemplates:,RandomReads,.,55,ShotgunSequencingII:ASSEMBLY,Consensus,.,56,Consensus,ShotgunSequencingIII:FINISHING,.,57,Consensus,ShotgunSequencingIII:FINISHING,.,58,Consensus,ShotgunSequencingIII:FINISHING,.,59,Consensus,ShotgunSequencingIII:FINISHING,.,60,ShotgunSequencingIII:FINISHING,.,61,Consed软件显示序列组装结果界面,1、Filling“intraclonegaps”,.,62,.,63,Gapfillingbyendsequences,2、Filling“interclonegaps”,.,64,TheactualandpredictedfingerprintofR-260J13digestedwithHindIIILane1:marker,Lane2:R-260J13digestedwithHindIII,3:thepredicted,.,65,克隆211B19组装后的序列的错误率为零,.,66,WholeGenomeShotgun,.,67,Thisbacteriumhasacirculargenomestructurewith2,689,445basepairs,thesecondlargestoneofthermophilesdecodedcompletelytodate.,CircularrepresentationofthegenomeofT.tengcongensis,.,68,Whatisunderheavenisforall.SunYat-sen,thefatherofmodernChina,天下为公,.,69,国际一流测序生产线7万克隆,3000万碱基/天高产出、低成本:$/bp¥/bp美分/bp分/bp,基因组学:数据导向的大科学有数据才是硬道理,世上无难事只要肯登攀,.,70,Contigs:127,550(N50=6,688bp),Scaffolds:102,444(N50=11,764bp),Quality:546bpatQ20,.,71,DeNovoSequencingtheGenomeinBIG,HuSongnian,BeijingInstituteofGenomics,ChineseAcademyofSciences,NextGenerationSequencing(NGS)Technology,.,72,Secondgenerationsequencers,Solexa,3,SOLiD,5,DenovosequencingRNA-seq,Re-sequencingChIP-seq,Meth-seq,MetagenomicsDenovosequencingRNA-seq,Re-sequencingChIP-seqRNA-seq,“known”Genome,Novelgenome(s),Bothtypes,.,73,1x4545xSOLiD4.02x5500 xl3xSOLEXA2xHiseq20003x3730 xl1xsequenom,1000CPUcores,800TBStorage,数据中心,完善的试验与测序体系和流程,强有力的计算、存储及数据库支持体系,成熟的生物信息数据处理和分析流程,2020/5/31,.,74,SecondgenerationsequencersinBIG,高通量测序仪10台,3730XL测序仪2台,Sequenom仪器1台,高性能计算机刀片服务器100余台,大内存服务器4台,存储设备约800TB。,.,75,.,76,SequencingGlossary,Reads.Acollectionofclonesthatover-samplethetargetgenome.Pair-endreads.Sequencereadsderivedfrombothendsofasequencing-libraryclone.Mate-pairreads.Sequencereadsderivedfrombothendsofamate-pairlibraryclonewhichinsertsizeisusually1kb.Insertsize.Thesizeoftheclone-insertfromwhichaclone-endpairistaken.Contig.Theresultofjoininganoverlappingcollectionofsequencereads.Scaffold.Theresultofconnectingnon-overlappingcontigsbyusingpair-endreads.N50size.Asappliedtocontigsorscaffolds,thatsizeabovewhich50%oftheassembledsequencecanbefound.,.,77,Genomeassemblystrategy,Contigassembly,Scafffolding,Internalgapclosing,.,78,Recentwholegenomesequencingprojects,.,79,.,80,FlowchartoftheWGSdenovoassembly,Fillinintra-scaffoldgapsandgetthefinalscaffolds,Solexapart,454part,Hybridassemblyandscffolding,.,81,454readsprocess,Assembly,Hybridscaffolding,.,82,Solexareadsprocess,Assembly,Mappingto454contig,Hybridscaffolding,Cov/Comp,.,83,longreads,assembly,contigs,shortreads,A+,C,B,scaffolding,A+,B,C,scaffolds,Fixgap,Hybridassembly,.,84,EST,Unigene,ScafA,ScafC,ScafB,ScafD,NewScaf,A,B,C,D,ESTbasedAssemblyinshortreadsofNGS:ConstructeBIGerScaffording,.,85,Rawsequencingreadspre-processingI,Significanceandpurpose,SequencinglibraryqualitycontrolSequencingbiasanalysisInheritedprosperitiesoncertainsecondgenerationsequencerGenomesequencingblackholeeffectTranscriptomesamplingandquantificationbiasReadyformappingReadyfordenovoassembly,.,86,Rawsequencingreadspre-processingII,SequencingreadsnumbersDuplicatesdetection,regionaldistributionanalysisandtrimmingAdapterdetectionandtrimmingReadsqualityanalysisandlowqualityreadsfilterAveragequalitydensitydistributionAveragequalitypositionaldistributionregionaldistributionF-RcorrelationGCcontent-qualitycorrelationInsertlengthdistribution,Pipeline,.,87,rawdatapre-process,.,88,Imageanalysisandbasecalling,GOATpipeline(OLB1.6),CASAVA,.,89,QualityControl,GERALDSummary.htm,.,90,FastqandQuality,SolexareadsoftheFastqformats_1_1_sequence.txtHWI-EAS724_0001:8:32:374:374#0/1GAGCTGTATATGAATAATAGTTCGTTTTTCATTATCCAAGATGGATCGGTATAAAGTCTGCTAAAATAAAGGTACAACG+HWI-EAS724_0001:8:32:374:374#0/1fcfcfggdfggggfggggcggggggggfgggggcgggfWgggggggggfgcggdgcgcggggfacbbbbgcgggggds_1_2_sequence.txtHWI-EAS724_0001:8:32:374:374#0/2TACCGTTAATAGCAGTAATATCATAATAGTAATAGCATCATAACGGTAGTCCCATAAAAGTGTGTCAGTAGTAGTAGTA+HWI-EAS724_0001:8:32:374:374#0/2ggggfgggggd_adcggggeggfggeggegfgeececdegggggfegcfegggegggfgacacedbd_cYb,Illumina1.3formatencodesaPhredqualityscorefrom0to40usingASCII64to104errorprobability(p):,#forsolexa:p=0.01,Q=19;p=0,05,Q=12.8,p=0.10,Q=9.5;#forphred:p=0.01,Q=20;p=0,05,Q=13,p=0.10,Q=10;,.,91,DataassessmentIReadqualitydistribution,.,92,LowQualityHighQuality,Trim:3endtrimifQN30)60Assessment:DistanceDistrubitionbetweentwoLowquality(Q20?,.,99,Lanedatausageindifferentsolexalibrary-Fiterduplicationreads,.,100,AverageReadsperStartPoint,.,101,ReadCorrectionCorrectIlluminaGAshortreads,Kmer=17,GenomeSizePrediction:M=N*(L-K+1)/LN=TotalLength(bp)/GenomesizeL=AverageRadsLength(bp),M,.,102,GenomesizeestimationusingKmer,Beforeestimatingthegenomesize,wesetahypothesis:thek-merwepickedoutfromthegenomecanergodicthewholegenomesequence.AccordingtotheLanderwatermanalgorithm,thealgorithmshouldberepresentedas:G=Knum/KdepthHere,Gisthegenomesize,Knumisthetotalnumberofk-merandKdepthistheexpecteddepthofthek-mer.Ifweobtaintheexpecteddepthofk-mer,wecancalculatethegenomesize.Becausethedistributionofk-merfrequencyyieldstoPoissondistribution,wecanconsiderthepeakofthek-merdistributioncurveastheexpecteddepthofk-merandcalculatethegenomesize.,Note:Atotalof15,437,084,746Kmers,thepeakvalueontherightfigureis8,sothegenomesizeisestimatedas:15,437,084,746/8=1.93G,.,103,HighQualityReadRateafterpreprocess,Assembly:RawdataVSpreprocessedData?,.,104,Questions,Genomesizeestimationmethods(K-mer&Cov)Assemblyoptimization(parameters)Assemblyevaluation(454_SolexaEST)Unmappablesolexareadsreuse(filter-assemble)Scaffoldingcomparison(ABI&BIG&Bambus&blat)solexatosolidfeasible?Assemblyassessment(BAC,3730,necessary?),.,105,SequencingStrategyforsolexa,SamplepreperFragmentorPairedEndorMatePairSequencingdifferentlibraries:Dat
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 更新钢管井施工方案(3篇)
- 道路石材面板施工方案(3篇)
- 严管厚爱系列活动方案策划(3篇)
- 景区许愿活动策划方案模板(3篇)
- 长宁企业年会活动策划方案(3篇)
- 机械模具考试题库及答案
- 教学课件里能用党旗党徽
- 小学学科融合题目及答案
- 改写寻隐者不遇作文14篇
- 文化娱乐行业节目分类表
- 《亚低温冬眠治疗》课件
- 热原张媛媛讲解
- 应急预案的实施与验证
- 餐饮业中的顾客满意度管理
- 《跟单信用证统一惯例(UCP600)》
- DB32-T 4878-2024 居住区供配电设施建设标准
- 2025年山西中阳钢铁有限公司招聘笔试参考题库含答案解析
- 2025年四川攀枝花钒钛高新国有资本投资运营有限公司招聘笔试参考题库附带答案详解
- 饲料检验化验员职业技能考试题及答案(新版)
- (新版)电信网上大学智能云服务交付工程师认证考试题库-上(单选题)
- 2024-2025学年八年级上册物理 第五章 透镜以及其应用 测试卷(含答案)
评论
0/150
提交评论