最新基因组测序的原理和方法专业知识讲座课件_第1页
最新基因组测序的原理和方法专业知识讲座课件_第2页
最新基因组测序的原理和方法专业知识讲座课件_第3页
最新基因组测序的原理和方法专业知识讲座课件_第4页
最新基因组测序的原理和方法专业知识讲座课件_第5页
已阅读5页,还剩243页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

元素周期表的发现奠定了二十世纪物理、化学研究和发展的基础元素周期表“基因组序列图”将奠定二十一世纪生命科学研究和生物产业发展的基础!

“基因组”----生命科学的“元素周期表”人体解剖图奠定了现代医学发展的基础元素周期表的发现奠定了二十世纪物理、化学研究1生命的奥秘蕴藏于“四字天书”之中…GCTTCTTCCTCATTTTCTCTTGCCGCCACCATGCCGCCACCATCATTTTCTCTTGCCGCCACCATGCTTCTTCCTCATTTTCTCTCCACCATGCCGCCACCACGCCACCATGCTTCTTCCTCATCTCGCTTTCTTGCCGCCACCATGCCGCCACCGCTTCTTCCtTCTCT…生命的奥秘蕴藏于“四字天书”之中…GCTTCTTCCTCA2基因组学的基础理论研究基因组学是要揭示下述四种整合体系的相互关系:基因组作为信息载体

(碱基对、重复序列的整体守恒与局部不平衡的关系)基因组作为遗传物质的整合体

(基因作为功能和结构单位与遗传学机制的关系)基因组作为生物化学分子的整合体

(基因产物作为功能分子与分子、细胞机制的关系)物种进化的整合体

(物种在地理与大气环境中的自然选择)基因组学的基础理论研究基因组学是要揭示下述四种整合体系的相互3

基因组学是一个大学科“界门纲目科属种”,地球上现存物种近亿,所有生生灭灭的生物,无一例外,都有个基因组。基因组作为信息载体,它所储存的信息是最基本的生物学信息之一;既是生命本质研究的出发点之一,又是生物信息的归宿。基因组学研究包括对基因产物(转录子组和蛋白质组)的系统生物学研究。基因多态性的规模化研究就是基因组多态性的研究。基因组学的研究必然要上升到细胞机制、分子机制和系统生物学的水平。基因组的起源与进化和物种的起源与进化一样是一个新的科学领域。基因组信息正在以天文数字计算,规模化地积累,它的深入研究必将形成一个崭新的学科。基因组学是一个大学科“界门纲目科属种”,地球上现存物种4

基因组学是一门大科学基因组的信息是用来发现和解释具有普遍意义的生命现象和它们的变化、内在规律、和相互关系。基因组的信息含量高。基因组学的研究又在于基因组间的比较。基因组学的复杂性必然导致多学科的引进和介入(各生物学科、医学、药学、计算机科学、化学、数学、物理学、电子工程学、考古学等)。基因组学研究的手段和技术已经走在生命科学研究的最前沿。基因组信息来自于高效率和规模化所产生的实验数据。人类基因组计划证明了基因组研究的迫切性和可行性。基因组学是一门大科学基因组的信息是用来发现和解释具有普遍5基因组与生命之谜基因组的产生与进化。基因组DNA组分的变化、GC百分比、嘌呤:嘧啶守恒。遗传密码的发生、发展和进化。内含子(尤其是大于100,000核苷酸的大内含子)剪出后的运输和降解。最小内含子的生物学意义。动物基因组与植物基因组在基因分布上的共性和个性。物种衍变过程中基因组水平的变化。基因组大小变化与遗传、分子、细胞机制的关系。“JUNKDNA”的发生、分类、进化与功能。基因组与生命之谜基因组的产生与进化。6测序设备的垄断和高速度换代199020052020Year2015201020001995Mb1000Mb4000ABI373ABI377ABI3130ABI3730ABI3730xlGA-I

GA-IILessThan5yrsHiSeq1000/2000Mb4500ABI3700ABI3700xlSOLiDSOLiD2SOLiD35500xlSOLiDABI3130xlGA-IIx5500SOLiD7测序设备的199020052020Year201520102测序设备发展现状第一代(稳定需求)ABi3130xL3730xL3500xL第三代(即将面市)HelicosBiosciencesHelicosGeneticAnalysisSystemPacificBiosciencesRSSystem第二代(高速发展)RocheGenomeSequencerFLXSystemGSJuniorSystemIlluminaGenomeAnalyzerIIxMiSeqHiSeq1000HiSeq2000LifeTechnologies(ABi)5500SOLiD™System5500xLSOLiD™SystemIon

TorrentPGM™DanaherMotionPolonatorG.007CompleteGenomics无锡艾吉因生物信息技术有限公司AG-100深圳华因康基因科技有限公司Pstar-1中科院北京基因组所/半导体所BIGIS-1BIGIS-48测序设备发展现状第一代(稳定需求)第三代(即将面市)第二代(大规模基因组测序的几个支撑技术

Sanger双脱氧末端终止法

PCR技术

DNA自动测序仪的发展生物信息学分析软硬件设施大规模基因组测序的几个支撑技术Sanger双脱氧末9“双脱氧末端终止”的含义“双脱氧末端终止”的含义10

PCR(聚合酶链式反应)原理反应所需物质:DNA模板、引物、DNA聚合酶、dNTP、缓冲液每个循环包括:变性(90℃)、退火(54

℃)、延伸(72℃)PCR(聚合酶链式反应)原理反应所需物质:D11Sanger双脱氧末端终止法测序原理Sanger双脱氧末端终止法测序原理12大规模基因组测序的

两种策略逐步克隆法(ClonebyClone)全基因组霰弹法(WholeGenomeShot-gun)大规模基因组测序的

两种策略逐步克隆法13………ATGCCGTAGGCCTAGCTAGGCCTAGCTCGGA……………ATGCCGTAGGCCTAGCTCGGA……基因组DNABAC文库根据物理图谱正确定位的BAC或contig用于霰弹法测序的候选克隆用于霰弹法测序的亚克隆测序并组装完整的基因组序列逐步克隆法(ClonebyClone)

全基因组霰弹法(WholeGenomeShot-gun)基因组DNA

霰弹法克隆测序并进行全基因组序列组装完整的基因组序列………ATGCCGTAGGCCTAGC14

两种大规模基因组测序策略的比较

项目

策略全基因组霰弹法逐步克隆法

遗传背景不需要需要(需构建精确的物理图谱)速度快慢费用低高计算机性能高(以全基因组为单位进行拼接)低(以BAC为单位进行拼接)适用范围工作框架图精细图代表测序物种果蝇、水稻人、线虫两种大规模基因组测序策略的比较

项目策略15BACbyBACWholeGenomeShotgun…thesequencingofthehumangenomeislikelytobetheonlylargesequencingprojectcarriedtocompletionbythemethodsdescribedinthisissue.MaynardV.Olson,Themaps:Clonebyclonebyclone,Nature409,816-818(2001)BACbyBACWholeGenomeShotgun16“WorkingDraft”(90%;4X)FinishedGenome(99.99%;8X)Gap1Gap2Chromosome工作草稿(框架图)与完成图“WorkingFinishedGap1Gap2Chromo17BACbyBAC

BACbyBAC18ThesequenceofthehumangenomeC.Venteretal.Science16Feb.291:1304–1351,2001Thesequenceofthehumangeno19人类基因组计划研究的主要成果和进展表现在这“四张图”上

遗传图谱

又称为连锁图谱(linkagemap),指基因或DNA标志在染色体上的相对位置与遗传距离物理图谱

以定位的DNA标记序列如STS作为路标,以DNA实际长度即bp、kb、Mb为图距的基因组图谱。转录图谱

利用EST(expressedsequencetags

表达序列标签)作为标记所构建的分子遗传图谱序列图谱

通过基因组测序得到的,以A、T、G、C为标记单位的基因组DNA序列

人类基因组计划研究的主要成果和进展表现在这“四张图”上遗传20逐步克隆法(ClonebyClone)物理图谱的构建大片段克隆的筛选霰弹法测序与“工作框架图”的构建序列的全组装与“完成图”构建逐步克隆法(ClonebyClone)物理图谱的构建大片21物理图谱的制作

最新基因组测序的原理和方法专业知识讲座课件22物理图谱的制作——序列标签位点(STS)作图

物理图谱是以特异的DNA序列为标志所展示的染色体图。标志之间的距离或图距以物理距离如碱基对(basepair;bp,Kb,Mb)表示。最精细的物理图是核苷酸顺序图,最粗略的物理图是染色体组型图。

STS图谱是最基本和最为有用的染色体物理图谱之一,STS(SequenceTaggedSite)本身是随机地从人类基因组上选择出来的长度在200~300bp左右的特异性短序列(每个STS在基因组中是唯一的,STS图谱就是以STS为路标(平均每100Kb一个),将DNA克隆片段有序地定位到基因组上。STS的来源随机基因组序列表达基因序列,如EST遗传标记序列,如微卫星标记有关STS的信息可在基因组数据库GDB中找到物理图谱的制作——序列标签位点(STS)作图23物理图谱构建的步骤确定各STS序列及其在基因组中的位置大插入片段基因组文库的构建(BAC文库)

以特定STS为标记筛选并定位克隆含有STS的克隆在基因组中排序基因组数据库(GDB)中至少含有24568个STS路标信息

物理图谱构建的步骤确定各ST24关于文库作为载体的基本要求

能在宿主细胞中进行独立的复制具有多克隆位点,可插入外源

DNA片段有合适的筛选标记,如抗药性大小合适,易于分离纯化拷贝数多

文库的概念

含有某种生物体全部基因的随机片段的重组DNA克隆群体载体:能携带外源DNA进入宿主细胞的工具,常用的载体有质粒载体、噬菌体载体、细菌人工染色体等宿主:能容纳外源DNA片段的生物体,常用的有大肠杆菌、酵母等关于文库作为载体的基本要求能在宿主细胞中进行25BAC文库的构建NotI、SacI脉冲场凝胶电泳得200Kb左右的大片段DNA

纯化后与载体连接

电转化,将连接产物导入大肠杆菌感受态细胞插有外源DNA片段的BAC载体在含有氯霉素的固体培养基中培养每一个菌落为带有相同外源DNA片段的单克隆BAC文库的构建NotI、SacI脉冲场凝胶电泳得200Kb26BAC克隆的筛选“STS-PCR反应池”方案筛选种子克隆特定的STS标记

相互间具有重叠片段的BAC克隆根据STS信息组装成contig,并定位于基因组上Contig每一个菌落为带有相同外源DNA片段的单克隆BAC克隆的筛选“STS-PCR反应池”方案筛选种子克隆特定27最新基因组测序的原理和方法专业知识讲座课件28RegionalmappingRegionalmapping29RegionalmappingRegionalmapping30Minimaltilingpathselectedforsequencing.RegionalmappingMinimaltilingpathselectedf31BeijingMapBeijingMap32最新基因组测序的原理和方法专业知识讲座课件33共48个每组8个每8个96孔板组成1个superpool,384个96孔板组成48个superpools

48superpools共48个每组8个每8个96孔板组成1个superpoo34

Columnpools

Rowpools

123456789101112第八板第二板Platepools第一板

platepools,rowpools,columnpools的构成

12345678935“STS-PCR反应池”方案(PoolingProtocol)

1234567891011

12超级池(8个96孔板,共768个克隆)板池(96个克隆)行池(12个克隆)列池(8个克隆)大大减少筛选的工作量,降低成本,所得筛选结果准确可靠

28

VS

768“STS-PCR反应池”方案(PoolingProtoco36sheetofsuperpools,platepools,rowpools,columnpools

sheetofsuperpools,platepoo37

BACScreening前48个样品为引物OGG1.51对superpool(sp)的筛选结果后48个样品为引物OGG1.52对superpool(sp)的筛选结果

一BACScreening38引物OGG1.52对应sp#27,34,45的plate,row,columnpools的筛选结果引物OGG1.52对应sp#27,34,45的plate,r39BACclone确定

(+为阳性克隆)

BACclone确定(+为阳性克隆)40引物OGG1.52的Colony-PCR

引物OGG1.52的Colony-PCR41延伸克隆的筛选

STS的密度尚未达到绘制高精度物理图谱的要求,且在基因组中的分布不均匀,造成很多区域没有阳性克隆覆盖,形成空洞。因此需用指纹图谱(FPC法)或末端序列(WalkingbyEndSequence)步移等手段对种子克隆进行延伸,形成连续克隆群。利用延伸方法筛选得到的克隆称为延伸克隆。

Contig1Contig2重叠序列重叠序列延伸引物筛选到的延伸克隆延伸克隆的筛选STS的密度尚未达到绘制高42>20kb~300bpMolecularweightmarkerevery5thlaneBACclones在96深孔板中培养-HindIII完全酶切-1%琼脂糖凝胶电泳

指纹图谱法

(WalkingbyFingerprintingdatabase)

挑取靠近空洞的种子克隆,酶切构建其指纹图谱,在FPC数据库中进行比对,搜索含有此克隆的重叠克隆群信息,从中确定覆盖空洞区域的克隆,达到延伸目的。>20kb~300bpMolecularweight43HindIII完全酶切HindIII完全酶切FPC数据库中比对CloneACloneBCloneCCABHindIII完全酶切HindIII完全酶切FPC数44contig搭建中克隆的错位

contig搭建中克隆的错位45末端序列步行法(WalkingbyEndSequence)

挑取靠近空洞的种子克隆进行末端测序,然后在基因组数据库中进行比对,确定专一性的序列片段作为新的STS路标。最后设计新路标的PCR引物,按照STS—PCR“反应池”方案筛选新的克隆,达到延伸的目的。克隆350A18序列输入endsequencedatabase的查询结果末端序列步行法(WalkingbyEndSeque46四、CloneIdentification

1、STS-PCR

2、BACendsequencing

3、Fingerprinting

4、FISH

四、CloneIdentification47CK2CK1CK2CK113f06267l16481o07250a15204c23340j13对15个克隆进行HindIII酶切后电泳结果

CK2CK1CK2CK113f06267l16481o07248最新基因组测序的原理和方法专业知识讲座课件49“工作框架图”绘制根据序列与STSdatabase进行blastn比较结果,将克隆定位末端序的比较,判定延伸在contig外的一端序列。并可及时进行walking,筛选新的克隆

“工作框架图”绘制根据序列与STSdatabase进行bl50霰弹法测序组装与Finishing霰弹法测序组装与Finishing51工作流程图

工作流程图52ShotgunSequencingI:RANDOMPHASEBacClone:100-200kbShearedDNA:1.0-2.0kbSequencingTemplates:RandomReadsShotgunSequencingI:RANDOMP53ShotgunSequencingII:ASSEMBLYConsensusSequenceGap

LowBaseQualitySingleStrandedRegionMis-Assembly(Inverted)ShotgunSequencingII:ASSEMBLY54ConsensusSequenceGap

LowBaseQualitySingleStrandedRegionMis-Assembly(Inverted)ShotgunSequencingIII:FINISHINGConsensusSequenceLowBaseSing55ConsensusSequenceGap

SingleStrandedRegionMis-Assembly(Inverted)ShotgunSequencingIII:FINISHINGConsensusSequenceSingleMis-Ass56ConsensusSequenceGap

Mis-Assembly(Inverted)ShotgunSequencingIII:FINISHINGConsensusSequenceMis-AssemblyS57ConsensusMis-Assembly(Inverted)ShotgunSequencingIII:FINISHINGConsensusMis-AssemblyShotgunS58ShotgunSequencingIII:FINISHINGHighAccuracySequence:<1error/10,000basesShotgunSequencingIII:FINISH59Consed软件显示序列组装结果界面

1、Filling“intraclonegaps”Consed软件显示序列组装结果界面1、Filling“60BAC-----453F3’sfinishing>>Sp6<<T7?First4primers1234Allthecontigswalkedhundreds’bpstowardthegaps.453F3’s2600reads12contigsOverlappingBAC-454F24’s200reads+>>Sp6<<T71324abcSecond3primers

1200bp’sAT-rich,(CATATATA)nrepeat.Finally,filledbyusingETsequencingKit.

1240bp’sGC-rich,GC-contentis69.03%;theBAC’sis39.98%.WeuseddGTPKitfillingit.>>Sp6<<T7CompletedsequenceBAC-----453F3’sfinishing>><<?61

SequencedcloneBACselectedbyend-sequence113L10324K11173F11101A4167P17586C2116K5572B22544N5R-155E142006P232306M15R-149E1560K?Gapfillingbyendsequences2、Filling“interclonegaps”

SequencedcloneBACselectedb62

TheactualandpredictedfingerprintofR-260J13digestedwithHindIII

Lane1:marker,Lane2:R-260J13digestedwithHindIII,3:thepredicted

Theactualandpredicted63克隆211B19组装后的序列的错误率为零

克隆211B19组装后的序列的错误率为零64WholeGenomeShotgun

WholeGenomeShotgun65Thisbacteriumhasacirculargenomestructurewith2,689,445basepairs,thesecondlargestoneofthermophilesdecodedcompletelytodate.CircularrepresentationofthegenomeofT.tengcongensis

Thisbacteriumhasacircula66Whatisunderheavenisforall.

SunYat-sen,thefatherofmodernChina

天下为公

/riceDDBJ/EMBL/GenBank:AAAA01000000Whatisunderheavenisfora67国际一流测序生产线7万克隆,3000万碱基/天高产出、低成本:$/bp¥/bp美分/bp分/bp基因组学:数据导向的大科学有数据才是硬道理世上无难事只要肯登攀国际一流测序生产线基因组学:世上无难事68Contigs:127,550

(N50=6,688bp)Scaffolds:102,444(N50=11,764bp)Quality:546bpatQ20Contigs:127,550

(N50=6,688bp69DeNovoSequencingtheGenomeinBIGHuSongnianBeijingInstituteofGenomics,ChineseAcademyofSciencesNextGenerationSequencing(NGS)TechnologyDeNovoSequencingtheGenome70Secondgenerationsequencers4541Solexa3SOLiD5DenovosequencingRNA-seq,Re-sequencingChIP-seq,Meth-seqMetagenomicsDenovosequencingRNA-seqRe-sequencingChIP-seqRNA-seq“known”GenomeNovelgenome(s)BothtypesSecondgenerationsequencers45711x4545xSOLiD4.02x5500xl3xSOLEXA2xHiseq20003x3730xl1xsequenom1000CPUcores800TBStorage数据中心完善的试验与测序体系和流程强有力的计算、存储及数据库支持体系成熟的生物信息数据处理和分析流程2023/1/51x4545xSOLiD4.02x5572SecondgenerationsequencersinBIG测序仪PlatformNumRaw/runlengthSolid4580~100Gb50bpGAII340~60Gb120bp4541400Mb400bpSolid5500xl0150~200Gb50bpHiseq20001200~300Gb100bp高通量测序仪10台,3730XL测序仪2台,Sequenom仪器1台,高性能计算机刀片服务器100余台,大内存服务器4台,存储设备约800TB。Secondgenerationsequencersi73测序平台SOLiDSolexaGA454DNAFragment2-5ug2-5ug2-5ugPair-end2-5ug2-5ugMate-pair5-100ug5-100ug5-100ugRNA转录组10-20ug10ug10ugSmallRNA10-15ug10-15ugMicroRNA40-50ug40-50ug建库时间1-2周1-2周1-2天上机时间单向6天双向12天单向5天双向10天10小时测序平台SOLiDSolexaGA454DNAFragme74SequencingGlossaryReads.Acollectionofclonesthatover-samplethetargetgenome.Pair-endreads.Sequencereadsderivedfrombothendsofasequencing-libraryclone.Mate-pairreads.Sequencereadsderivedfrombothendsofamate-pairlibraryclonewhichinsertsizeisusually>1kb.Insertsize.Thesizeoftheclone-insertfromwhichaclone-endpairistaken.Contig.

Theresultofjoininganoverlappingcollectionofsequencereads.Scaffold.

Theresultofconnectingnon-overlappingcontigsbyusingpair-endreads.N50size.Asappliedtocontigsorscaffolds,thatsizeabovewhich50%oftheassembledsequencecanbefound.SequencingGlossaryReads.Aco75GenomeassemblystrategyContigassemblyScafffoldingInternalgapclosing/2010/11/4/R41GenomeassemblystrategyContig76RecentwholegenomesequencingprojectsTable.BasicinformationofRrecentlysequencedgenomes.OrganismGenomesizestrategyCoverageContigScafffolds#N50MaxTotal#N50MaxTotalHuman3.0GbSolexa45x2.76M1.5Kb18.8Kb2.18GbNRNRNRNRApple742.3MbSangr+4544.4x+12.5x122,14616,171NR603.9Mb1,629102KbNR598.3Castor320MbSanger4.59x54,00021.1kb190kb324Mb25,828496.5kb4.7Mb350.6MbGrapevine500MbSangr+4547x+4.2x58,61118.2Kb238kb531Mb2,0931.33Mb7.8Mb421MbPanda2.4GbSolexa74x200,60436,728434,6352.25Gb81,4961.22Mb6.05Mb2.30GbStraberry220Mb454+solexa+solid24.5x+6.4x+6.4x16,48728,072215,349202Mb3,2631.44Mb4.1Mb214MbCacoo430Mb454+sanger+solexa16.7x+44x25,91219.8kb190Kb291.44,792473.8Kb3415Kb326.9MbTomato900Mb454+sanger+solexa+solid31x+3.6x+82x+140x110,87255.7kbNR763Mb3,7614.45MbNR782MbPotato840Mb454+solexa+solid11x+106x+0.2x111,18731KbNR683Mb66,301387KbNR727MbRecentwholegenomesequencing77最新基因组测序的原理和方法专业知识讲座课件78

FlowchartoftheWGSdenovoassemblyGenomicDNADNAfragmentation,constructfragmentedlibrariesGeneratesequencingreadsusing454technologySequencingerrorcorrectionOutputcontigsFillinintra-scaffoldgapsandgetthefinalscaffoldsGenomicDNADNAfragmentation,constructpaired-endlibrarieswithvariantinsertsizesGeneratesequencingreadsusingIlluminaGAtechnologySequencingpre-processOutputcontigsandminiscaffoldsSolexapart454partHybridassemblyandscffoldingFlowchartoftheWGSdenovo79

454readsprocessRawreadsKmerevaluationQ20,removeadaptor,trimSequencingpre-processNewblerassemblyAssembledreadsUnassembledreadsUnigenecoverageKmerevaluationSolexamappingNr/NtblastContigstatusAssemblyHybridscaffolding454readsprocessRawreadsKm80

SolexareadsprocessRawreadsKmerevaluationSequencingpre-processSoapassemblyAssembledreadsUnassembledreadsUnigenecoverageKmerevaluationSolexamappingNr/NtblastContigstatusAssemblyMappingto454contigHybridscaffoldingCov/CompSolexareadsprocessRawread81longreadsassemblycontigsshortreadsA+C–B–scaffoldingA+B–C–scaffoldsFixgapHybridassemblylongreadsassemblycontigsshort82ESTUnigeneScafAScafCScafBScafDNewScafABCDESTbasedAssemblyinshortreadsofNGS:ConstructeBIGerScaffordingESTUnigeneScafAScafCScafBSc83Rawsequencingreadspre-processingISignificanceandpurposeSequencinglibraryqualitycontrolSequencingbiasanalysisInheritedprosperitiesoncertainsecondgenerationsequencerGenomesequencingblackholeeffectTranscriptomesamplingandquantificationbiasReadyformappingReadyfordenovoassemblyRawsequencingreadspre-proce84Rawsequencingreadspre-processingIISequencingreadsnumbersDuplicatesdetection,regionaldistributionanalysisandtrimmingAdapterdetectionandtrimmingReadsqualityanalysisandlowqualityreadsfilterAveragequalitydensitydistributionAveragequalitypositionaldistributionregionaldistributionF-RcorrelationGCcontent-qualitycorrelationInsertlengthdistribution

PipelineRawsequencingreadspre-proce85rawdatapre-processrawdatapre-process86ImageanalysisandbasecallingGOATpipeline(OLB1.6),CASAVAImageanalysisandbasecalling87QualityControlGERALDSummary.htmLaneLaneYield(kbases)Clusters(raw)Clusters(PF)1stCycleInt(PF)%intensityafter20cycles(PF)%PFClusters%Align(PF)AlignmentScore(PF)%ErrorRate(PF)152630597464+/-487887676+/-921975+/-2186.17+/-5.2589.76+/-5.9599.06+/-0.25102.41+/-1.621.30+/-0.22QualityControlGERALDSummary.88FastqandQualitySolexareadsoftheFastqformats_1_1_sequence.txt…@HWI-EAS724_0001:8:32:374:374#0/1GAGCTGTATATGAATAATAGTTCGTTTTTCATTATCCAAGATGGATCGGTATAAAGTCTGCTAAAATAAAGGTACAACG+HWI-EAS724_0001:8:32:374:374#0/1fcfcfggdfggggfggggcggggggggfgggggcgggfWgggggggggfgcggdgcgcggggfacbbb][bgcgggggds_1_2_sequence.txt…@HWI-EAS724_0001:8:32:374:374#0/2TACCGTTAATAGCAGTAATATCATAATAGTAATAGCATCATAACGGTAGTCCCATAAAAGTGTGTCAGTAGTAGTAGTA+HWI-EAS724_0001:8:32:374:374#0/2ggggfgggggd_adcggggeggfggeggegf`geececdegggggfegcfegggegggfgac[aced`bd__\_c[[YbIllumina1.3formatencodesaPhredqualityscorefrom0to40usingASCII64to104errorprobability(p):#forsolexa:p=0.01,Q=19;p=0,05,Q=12.8,p=0.10,Q=9.5;#forphred:p=0.01,Q=20;p=0,05,Q=13,p=0.10,Q=10;FastqandQualitySolexareads89DataassessmentI–ReadqualitydistributionDataassessmentI–Readquali90LowQualityHighQuality

Trim:3’endtrimifQN<20Filter:Percent(hightqualityQ>30)>60Assessment:DistanceDistrubitionbetweentwoLowquality(Q<20)LowQualityHighQualityTri91454dinucleotideproportioncheck454rawreadsquality454dinucleotideproportionch92DataassessmentII–LibraryinsertsizeDataassessmentII–Libraryi93Numbersofreadswithnon-insertDNA(fulllengthadapter)indifferentinsertsizelibraries

Numbersofreadswithnon-inse94DataassessmentIII–MappingRateDataassessmentIII–Mapping95SolexaSequencingDataUsagein500bpLibraryDataassessmentIV–DuplicationassessmentSolexaSequencingDataUsagei96DuplicatesdetectionandfilterFRNN2NQaverage>20?Duplicatesdetectionandfilt97Lanedatausageindifferentsolexalibrary

-FiterduplicationreadsLanedatausageindifferent98AverageReadsperStartPointAverageReadsperStartPoint99ReadCorrection

CorrectIlluminaGAshortreadsKmer=17GenomeSizePrediction:M=N*(L-K+1)/LN=TotalLength(bp)/GenomesizeL=AverageRadsLength(bp)MReadCorrection

CorrectIllumi100GenomesizeestimationusingKmerBeforeestimatingthegenomesize,wesetahypothesis:thek-merwepickedoutfromthegenomecanergodicthewholegenomesequence.AccordingtotheLanderwatermanalgorithm,thealgorithmshouldberepresentedas:

G=Knum/KdepthHere,Gisthegenomesize,Knumisthetotalnumberofk-merandKdepthistheexpecteddepthofthek-mer.Ifweobtaintheexpecteddepthofk-mer,wecancalculatethegenomesize.Becausethedistributionofk-merfrequencyyieldstoPoissondistribution,wecanconsiderthepeakofthek-merdistributioncurveastheexpecteddepthofk-merandcalculatethegenomesize.Note:Atotalof15,437,084,746Kmers,thepeakvalueontherightfigureis8,sothegenomesizeisestimatedas:15,437,084,746/8=1.93GGenomesizeestimationusingK101HighQualityReadRateafterpreprocessAssembly:RawdataVSpreprocessedData?HighQualityReadRateafterp102QuestionsGenomesizeestimationmethods(K-mer&Cov)Assemblyoptimization(parameters)Assemblyevaluation(454_SolexaEST)Unmappablesolexareadsreuse(filter->assemble)Scaffoldingcomparison(ABI&BIG&Bambus&blat)

solexatosolidfeasible?Assemblyassessment(BAC,3730,necessary?)QuestionsGenomesizeestimatio103SequencingStrategyforsolexaSamplepreperFragmentorPairedEndorMatePairSequencingdifferentlibraries:Datacoverage(<=500bp),Data300/Data500=?Datacoverage(>500bp).10X,20X…..Largergenomesize,Largerlibrariesneeded.>10K?LengthofsolexaReads?>100bp?F+R=OneReads?OtherData:3730,454,solid.EST.SequencingStrategyforsolexa104OVERVIEWOFTESTEDASSEMBLERSOVERVIEWOFTESTEDASSEMBLERS105DepthVSCoverageDepthVSCoverage106ESTbasedScaffoldingESTbasedScaffolding107基因组混合拼接验证及结构变异检测流程

基因组混合拼接验证及结构变异检测流程108

重复序列注释流程重复序列注释流程109RepeatanalysisLib5•Totallength:167,786,201bp•Basesmasked:1,267,118bp0.75%•SINEs:29828,108•ALUs00•MIRs21121,533•LINEs:1,891347,604•LINE11,246292,428•LINE223626,166•L3/CR128920,348•LTRelements:18542,779•ERVL398,334•ERVL-MaLRs5510,011•ERVL_classI5012,852•ERVL_classII71,292•DNAelements:14116,729•hAT-Charlie768,642•TcMar-Charlie253,424•Unclassified:1139•Totalinterspersedrepeats:435,359•SmallRNA:709101,246•Satellites:2280•Simplerepeats:9,466560,018•Lowcomplexity:3,674170,215RepeatanalysisLib5•Totallen110

基因结构及功能注释技术路线基因结构及功能注释技术路线111GenepredictionDenovopredictionGenScan16,609->3,775uniprothitAugustus19378->10,245hitHomology-basedpredictionalignment-genescaffold-genewiseReferencegenesetGenepredictionDenovopredict112tRNAscantRNAscan113CpGislandCpGisland114miRNApredictionUsingmiRNAdatabasefastaasqueryandblastwithourmaskedscaffoldsmiRNApredictionUsingmiRNAda115GenefunctionannotationGeneOntology(localuniprotdatabase)KEGG(online)GenefunctionannotationGeneO116GOannotationGenScanuniprotannotationGeneOntologyGOannotationGenScanuniprota117KEGGpathwayoverview血吸虫KEGGpathwayoverview血吸虫118

基因家族进化分析及比较生物学分析技术路线基因家族进化分析及比较生物学分析技术路线119

以应用为主导的基因组学将阔步走向未来走向人类的健康与生活走向人类赖以生存的物质基础走向人类赖以生存的环境走上人类社会和经济发展的大舞台以应用为主导的基因组学将阔步走向未来走向人类的健康与生活120基因组学研究成果将走近人类的健康与生活疾病相关基因的发现、功能的鉴定和分子机制的探讨突破常见病(复杂疾病)基因水平的研究以基因为基础的疾病诊断、预测和预防基因治疗与细胞治疗治疗的结合以基因多态性为基础的“个体化”药物以基因多态性为基础的“个体健康计划”传统药物、生物药物和“有机药物”的自然回归基因组学研究成果将走近人类的健康与生活疾病相关基因的发现、功121走向人类赖以生存的物质基础抗病、抗虫和抗极端环境GM农作物高生殖率、高生长率、高营养率的GM家畜、家禽和水产品新品种维生素和营养物质富集的水果和蔬菜生物杀虫剂、除草剂和抗病药物微生态环境下生产的有机食品走向人类赖以生存的物质基础抗病、抗虫和抗极端环境GM农作物122

走向人类赖以生存的环境基因组信息记录了物种亿万年来在环境变迁中起源和进化的历史。生物多样性资源的研究、保护与开发:地球上估计有1亿个物种生态环境的研究、保护与开发:巨大的海洋(占地球总面积71%)广袤的森林(占地球总面积40%)诸多的湖泊与河流走向人类赖以生存的环境基因组信息记录了物种亿万年来在环境变123谢谢!谢谢!124

元素周期表的发现奠定了二十世纪物理、化学研究和发展的基础元素周期表“基因组序列图”将奠定二十一世纪生命科学研究和生物产业发展的基础!

“基因组”----生命科学的“元素周期表”人体解剖图奠定了现代医学发展的基础元素周期表的发现奠定了二十世纪物理、化学研究125生命的奥秘蕴藏于“四字天书”之中…GCTTCTTCCTCATTTTCTCTTGCCGCCACCATGCCGCCACCATCATTTTCTCTTGCCGCCACCATGCTTCTTCCTCATTTTCTCTCCACCATGCCGCCACCACGCCACCATGCTTCTTCCTCATCTCGCTTTCTTGCCGCCACCATGCCGCCACCGCTTCTTCCtTCTCT…生命的奥秘蕴藏于“四字天书”之中…GCTTCTTCCTCA126基因组学的基础理论研究基因组学是要揭示下述四种整合体系的相互关系:基因组作为信息载体

(碱基对、重复序列的整体守恒与局部不平衡的关系)基因组作为遗传物质的整合体

(基因作为功能和结构单位与遗传学机制的关系)基因组作为生物化学分子的整合体

(基因产物作为功能分子与分子、细胞机制的关系)物种进化的整合体

(物种在地理与大气环境中的自然选择)基因组学的基础理论研究基因组学是要揭示下述四种整合体系的相互127

基因组学是一个大学科“界门纲目科属种”,地球上现存物种近亿,所有生生灭灭的生物,无一例外,都有个基因组。基因组作为信息载体,它所储存的信息是最基本的生物学信息之一;既是生命本质研究的出发点之一,又是生物信息的归宿。基因组学研究包括对基因产物(转录子组和蛋白质组)的系统生物学研究。基因多态性的规模化研究就是基因组多态性的研究。基因组学的研究必然要上升到细胞机制、分子机制和系统生物学的水平。基因组的起源与进化和物种的起源与进化一样是一个新的科学领域。基因组信息正在以天文数字计算,规模化地积累,它的深入研究必将形成一个崭新的学科。基因组学是一个大学科“界门纲目科属种”,地球上现存物种128

基因组学是一门大科学基因组的信息是用来发现和解释具有普遍意义的生命现象和它们的变化、内在规律、和相互关系。基因组的信息含量高。基因组学的研究又在于基因组间的比较。基因组学的复杂性必然导致多学科的引进和介入(各生物学科、医学、药学、计算机科学、化学、数学、物理学、电子工程学、考古学等)。基因组学研究的手段和技术已经走在生命科学研究的最前沿。基因组信息来自于高效率和规模化所产生的实验数据。人类基因组计划证明了基因组研究的迫切性和可行性。基因组学是一门大科学基因组的信息是用来发现和解释具有普遍129基因组与生命之谜基因组的产生与进化。基因组DNA组分的变化、GC百分比、嘌呤:嘧啶守恒。遗传密码的发生、发展和进化。内含子(尤其是大于100,000核苷酸的大内含子)剪出后的运输和降解。最小内含子的生物学意义。动物基因组与植物基因组在基因分布上的共性和个性。物种衍变过程中基因组水平的变化。基因组大小变化与遗传、分子、细胞机制的关系。“JUNKDNA”的发生、分类、进化与功能。基因组与生命之谜基因组的产生与进化。130测序设备的垄断和高速度换代199020052020Year2015201020001995Mb1000Mb4000ABI373ABI377ABI3130ABI3730ABI3730xlGA-I

GA-IILessThan5yrsHiSeq1000/2000Mb4500ABI3700ABI3700xlSOLiDSOLiD2SOLiD35500xlSOLiDABI3130xlGA-IIx5500SOLiD131测序设备的199020052020Year201520102测序设备发展现状第一代(稳定需求)ABi3130xL3730xL3500xL第三代(即将面市)HelicosBiosciencesHelicosGeneticAnalysisSystemPacificBiosciencesRSSystem第二代(高速发展)RocheGenomeSequencerFLXSystemGSJuniorSystemIlluminaGenomeAnalyzerIIxMiSeqHiSeq1000HiSeq2000LifeTechnologies(ABi)5500SOLiD™System5500xLSOLiD™SystemIon

TorrentPGM™DanaherMotionPolonatorG.007CompleteGenomics无锡艾吉因生物信息技术有限公司AG-100深圳华因康基因科技有限公司Pstar-1中科院北京基因组所/半导体所BIGIS-1BIGIS-4132测序设备发展现状第一代(稳定需求)第三代(即将面市)第二代(大规模基因组测序的几个支撑技术

Sanger双脱氧末端终止法

PCR技术

DNA自动测序仪的发展生物信息学分析软硬件设施大规模基因组测序的几个支撑技术Sanger双脱氧末133“双脱氧末端终止”的含义“双脱氧末端终止”的含义134

PCR(聚合酶链式反应)原理反应所需物质:DNA模板、引物、DNA聚合酶、dNTP、缓冲液每个循环包括:变性(90℃)、退火(54

℃)、延伸(72℃)PCR(聚合酶链式反应)原理反应所需物质:D135Sanger双脱氧末端终止法测序原理Sanger双脱氧末端终止法测序原理136大规模基因组测序的

两种策略逐步克隆法(ClonebyClone)全基因组霰弹法(WholeGenomeShot-gun)大规模基因组测序的

两种策略逐步克隆法137………ATGCCGTAGGCCTAGCTAGGCCTAGCTCGGA……………ATGCCGTAGGCCTAGCTCGGA……基因组DNABAC文库根据物理图谱正确定位的BAC或contig用于霰弹法测序的候选克隆用于霰弹法测序的亚克隆测序并组装完整的基因组序列逐步克隆法(ClonebyClone)

全基因组霰弹法(WholeGenomeShot-gun)基因组DNA

霰弹法克隆测序并进行全基因组序列组装完整的基因组序列………ATGCCGTAGGCCTAGC138

两种大规模基因组测序策略的比较

项目

策略全基因组霰弹法逐步克隆法

遗传背景不需要需要(需构建精确的物理图谱)速度快慢费用低高计算机性能高(以全基因组为单位进行拼接)低(以BAC为单位进行拼接)适用范围工作框架图精细图代表测序物种果蝇、水稻人、线虫两种大规模基因组测序策略的比较

项目策略139BACbyBACWholeGenomeShotgun…thesequencingofthehumangenomeislikelytobetheonlylargese

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论