基因组学课件基因组测序与序列组装_第1页
基因组学课件基因组测序与序列组装_第2页
基因组学课件基因组测序与序列组装_第3页
基因组学课件基因组测序与序列组装_第4页
基因组学课件基因组测序与序列组装_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第4章基因组测序与序列组装4.1DNA测序的方法学链终止法(Thechainterminationmethod)(Sanger,1977)原理:通过合成与单链DNA互补的多核苷酸链来读取待测DNA分子的顺序,合成的互补单链可在不同位置随机终止反应化学降解法(Chemicaldegradationmethod)(MaxamandGilbert,1977)原理:双链DNA分子经化学试剂处理,可在特定的核苷酸位点产生切口。用同位素标记测序碱基,以此确定顺序组成4.1.1链终止法测序

技术要点

:制备相同的单链模板DNA加入少量的双脱氧核苷酸(dideoxynucleotide,ddNTP)技术路线与要求制备单链模板↓将单链模板与一小段引物退火↓加入DNA多聚酶

4种脱氧核苷酸分别加入少量4种双脱氧核苷酸↓将4种反应产物分别在4条泳道电泳↓根据4个碱基在4条泳道的终止位置读出基因序列

A克隆于质粒中DNA→用碱或热变性BM13克隆单链DNA(单链→双链→单链)C噬粒克隆DNA(helper)→单链DPCR产生单链DNAA高聚合酶活性B5’→3´外切酶活性?C3´→5´外切酶活性?ddATP/ddCTP/ddGTP/ddTTP的3’碳原子连接的是氢原子,不是羟基图4.1

链终止法测序

图4.2用于测序的DNA多聚酶

用于测序的DNA多聚酶Klenow多聚酶由大肠肝菌DNA多聚酶I而来5‘→3’酶切活性已被切除合成长度250bp,缺乏单一性测序酶(Sequenase)由噬菌体T7编码的DNA多聚酶有很高的加工效率无外切核酸酶活性能利用修饰的核苷酸作为底物制备单链DNA的方法

将DNA克隆到质粒载体中双链→碱或热变性为单链2条互补单链,双向测序缺点:未纯化的DNA污染以M13载体克隆单链DNAM13复制产生单链,不用变性只能用于小片段DNA,大片段容易丢失或重排利用噬菌体M13制备单链DNA制备单链DNA的方法

以噬粒(phagemid)克隆DNA2个复制原点:质粒&M13噬粒和辅助噬菌体(helperphage)克隆片段大于10kbPCR产生单链DNA引物对一侧连接小磁珠吸磁提纯扩增利用PCR制备模板DNA用于链终止法测序

不同类型的引物用于链终止法测序

热循环测序优点:

1)作为模板的样本可以是双链DNA

2)仅需微量的DNA模板

PCR后处理15μl反应液,加入60μl75%异丙醇(45μl异丙醇+15μl灭菌水)上下颠倒,RT,20min离心,Max,4500rpm,20℃,45分钟。温度不要低于15℃,温度过低则容易使引物沉淀下来,影响测序结果倒掉上清,去掉盖,翻转离心,700rpm,20℃,1min,然后放在PCR仪上,打开盖,94.0℃,30sec加入10μl甲醛,混匀,94℃,6min。完成后,迅速置于冰上,冰水混合物为好技术的多样性和灵活性SequencingTemplateDNAGenefragmentBAC-endPurification沉淀溶解过柱真空干燥溶解4.1.2化学降解法

基本原理在选定的核苷酸碱基中引入化学基团再经化合物处理使DNA分子在被修饰的核苷酸位置降解图4.7化学降解测序法

M-G法所用的化学修饰技术碱基特异修饰方法GpH8.0,用硫酸二甲酯对N7进行甲基化,使C8-C9键对碱基裂解有特殊敏感性A+GpH2.0,哌啶甲酸可使嘌呤环的N原子化,从而导致脱嘌呤,并因此削弱腺嘌呤和鸟嘌呤的糖苷键C+T肼可打开嘧啶环,后者重新环化成五元环后易于除去C在1.5mol/LNaCl存在时,可用肼除去胞嘧啶4.1.3自动化测序以荧光化合物标记双脱氧核苷酸进行自动测序ddATPddCTPddTTPddGTP毛细管电泳测序装置

a)一束并列的充满凝胶的用于DNA测序的毛细管b)共聚焦荧光扫描显微镜ABIPRISM3100GeneticAnalyzerABIPRISM3100GeneticAnalyzerABIPRISM3100GeneticAnalyzerABIPRISM3100GeneticAnalyzer非常规DNA测序——光点测序光点测序脱氧三磷酸核苷酸连接到DNA3’-末端时会释放1个焦磷酸(PPi)焦磷酸在磷酸化酶的作用下转化为化学能,并发出光亮往反应液中每次只加入1种核苷酸,当加入的核苷酸结合时,反应液发出亮点,并记录核苷酸种类当核苷酸未结合时,反应液中的核苷酸酶迅速分解此核苷酸,由此来测定DNA序列测序如何加快100倍的

乳胶材料和皮升级反应孔的焦磷酸盐测序法特点:一个典型的反应可以在4小时内测出2千5百万个碱基,准确率可达到99%Sanger毛细管电泳法测序平均每个小时可读6万7千个碱基,平均准确率为99.4%PCR反应:随机切割基因组,将双链解旋,给单链的DNA加上接头每颗珠子带有自己特有的单一的DNA片段,然后在倒入的含有PCR必需试剂的乳胶颗粒中发生PCR反应,PCR在不同的地方终结使珠子带有同一DNA模板的不同拷贝的DNA洗去乳胶物质,使DNA变性,将带有单链DNA的珠子加入到光学纤维玻片(fibre-opticslide)上加入更小的带有焦磷酸盐测序所需酶的颗粒工作流程a是光学纤维玻片装载的地方,从ATGC瓶子来的溶液垂直流过开放板面,进行PCR反应b是电荷偶联装置(charge-coupleddevice,CCD,扫描仪一般也采用这种原理成像),负责捕获每个孔发出的光子c就是负责与人进行交互作用的电脑装置454生命科学公司Watson血液样本,给DNA的老爸做一份基因组图谱---100天Solexa基本原理基因组DNA被随机打断成为小的DNA片断;并在DNA片断的两端连上接头(adapter)

Solexa测序专用的测序芯片(flowcell)表面连接有一层单链引物(Primer),单链状态的DNA片断与芯片表面的引物通过碱基互补被一端“锚定”在芯片上通过扩增反应使得单链DNA成为双链DNA

双链再次变性后成为单链,其一端“锚定”在测序芯片上,另外一端(5’或3’)随机和附近的另外一个引物互补,被“锚定”住,形成“桥“(bridge)

在测序芯片上同时有上千万DNA单分子发生以上的反应4中形成的单链桥,以周围的引物为扩增引物,在测序芯片表面再次进行扩增,形成双链双链经变性成单链,再次形成桥,成为下一轮扩增模板继续扩增反应在反复进行30轮扩增,每个单分子得到了1000倍扩增,成为单克隆“DNA簇群”“DNA簇群”在Solexa测序仪上进行序列分析测序反应:专利的“可逆性末端终结反应”,提高碱基合成来进行测序。四种碱基分别标记四种不同荧光,每个碱基末端被保护基团封闭,单次反应只能加入一个碱基,经过扫描,读取该次反应颜色后,该保护基团被除去,下一个反应可继续进行,如此反复,得出碱基的精确序列Solexa测序原理Solexa技术特色每张测序芯片有8个通道,每个通道可单独运行一个样品,也可以把多个样品混合在一起检测;一次实验可读取大于15亿个碱基/芯片可精确读取重复序列,如:AAAAAAAAAAAAAAAAA,TTTTTTTTTTTTT

实验费用低,测序成本为传统测序方法的1/100

无需建库,自动化样品制备,简单,成本低样本使用效率极高,所以对少量样本也可以极灵敏精确地检测(1ugDNA即可以进行末端双向测序反应)可以进行35碱基长度的末端双向测序反应纳米孔道测序法——Nanopore纳米孔道测序法利用当单链DNA分子在外加电压下通过纳米尺寸的孔道时产生的离子电流阻滞来测序电流阻滞的调制显示出分子的长度、组成、结构和动态行为非常规DNA测序——DNA芯片测序基本原理将各种排列顺序的寡核苷酸点播在芯片上,每个点播的寡核苷酸在排列的方阵中都有指定的位置待检测的DNA分子与芯片温浴,凡是能杂交的寡核苷酸都会在确定位置发出信号,然后根据获取的信息将寡核苷酸的顺序进行对比组装,拼接成完全的DNA顺序芯片技术测序利用基因芯片进行杂交测序的原理4.2DNA顺序的组装

鸟枪法(shotgun)

克隆重叠法

引导鸟枪法

4.2.1随机测序与序列组装流感嗜血杆菌(Haemorphilusinfluenzae)顺序组装1830kb(1995年,Fleischmann)流程:超声波将纯化的DNA随机打成2.0kb的片段琼脂糖凝胶分离收集1.6~2.0kb片段连接到质粒克隆载体,构建质粒文库随机挑取19687个克隆,进行了28643次测序可读顺序11,631,485bp,6×基因组组装获得140个覆盖全基因组的顺序重叠群用鸟枪法完成流感嗜血杆菌基因组测序空隙(gap)顺序间隙(sequencegap)测序遗漏序列相邻已知序列为探针筛选阳性克隆99个遗漏间隙物理间隙(physicalgap)建库丢失(载体或宿主选用不当)新建文库:PCR或探针筛选42→23流感嗜血杆菌基因组完整顺序的组装

果蝇基因组鸟枪法测序180Mb,3对常染色体,1对性染色体

1/3为异染色质4.2.1随机测序与序列组装

果蝇测序策略构建3个基因组文库2kb:测序10kb:覆盖重复序列-----contig130kb:大范围序列组装-----Scaffold末端测序3×106个末端测序2%来自于异色质DNASTS结合物理图筛选——95%区域单一重叠群(U-contig)和支架:20Mb,97.5%

用于果蝇基因组鸟枪法测序的文库载体

(kb)插入子长度

成对末端序列

测序的覆盖面

高拷贝质粒27323807.3x低拷贝质粒105499745.4xBAC13098690.07x总数129082312.8x鸟枪法的优势与局限优点速度快,无需提供相关的遗传图与物理图生殖道支原体(Mycoplasmagenitalium)590kb,5人8周局限大基因组,结构过于复杂,序列组装的起始阶段工作量非常大小重复顺序及其数量,在顺序组装时可能出现错误连接美国斯坦福大学:CeleraGenomics公司果蝇基因组注释,29%完全正确,26%基本正确,45%有严重错误4.2.2限定测序与序列组装

在一些已经绘制了遗传图与物理图的生物基因组测序中,先进行各个克隆的随机测序,再按照基因组物理图进行序列组装,即重叠克隆群测序指导随机测序法的工作流程

4.2.3指导测序与序列组装4.3基因组测序的其它路线

重要区域的优先测序

人类主要组织相容性复合区

(humanmajorhistocompatibilitycomplex,hMHC)的测序正是根据这一考虑率先完成的

EST测序

浏览测序

人类主要组织相容性复合区(MHC)位于第6号染色体,全长3.6x106bp,与人类免疫系统有关诸如类风湿关节炎,牛皮藓等炎症以及从癌症到阅读障碍等不同的疾病均与该区的遗传缺陷有关(Beck,1999)人类MHC区由224个基因座组成,其中有93个座位(41.5%)是直接通过基因组测序发现的人类MHC区是迄今为止已测序的人类基因组中基因分布最密集的区域,平均每16kb含一个基因,也是多态性最丰富的区域,有些座位等位基因成员超过200

EST测序的优点mRNA可直接反转录为cDNA,并很易构建cDNA文库

只需一次cDNA测序即可获取EST的顺序,500bp的cDNA序列足以鉴定所代表的基因

不必反复检测EST顺序的准确性

浏览测序(sequenceskimming)粗略分析初步测序结果从中寻找基因编码顺序的方法

4.4人类基因组的测序与组装

2001年2月由国际人类基因组测序联合体与CeleraGenomics同时发表的两份人类基因组顺序草图是采用物理图与鸟枪法有机结合的技术路线完成的(Venteretal.2001;InternationalHumanGenomeSequencingConsortium,2001)

基因组计划专门术语SequenceRawsequence:Individualunassembledsequencereads,producedbysequencingofclonescontainingDNAinserts原始序列:直接从克隆载体插入子阅读的单个序列,尚未组装Paired-endsequence:Rawsequenceobtainedfrombothendsofaclonedinsertinanyvector,suchasaplasmidorbacterialartificialchromosome成对末端序列:从任何基因组文库的克隆插入子两端读取的原始序列,包括质粒、PAC和BAC载体插入子Finishedsequence:Completesequenceofacloneorgenome,withanaccuracyofatleast99.99%andnogaps完成序列:已完成测序的任何一个克隆或基因组的序列,它们是连续的,不含任何内部间隙,误差率0.01%Coverage(ordepth):Theaveragenumberoftimesanucleotideisrepresentedbyahigh-qualitybaseinacollectionofrandomrawsequence.Operationally,ahigh-qualitybase'isdefinedasonewithanaccuracyofatleast99%(correspondingtoaPHREDscoreofatleast20)覆盖面(或深度):每个核苷酸在完成序列中平均出现的次数,或者是完成序列长度与组装序列长度之比Fullshotguncoverage:Thecoverageinrandomrawsequenceneededfromalarge-insertclonetoensurethatitisreadyforfinishing;thisvariesamongcentresbutistypically8±10-fold.Cloneswithfullshotguncoveragecanusuallybeassembledwithonlyahandfulofgapsper100kb完全鸟枪法覆盖面:从克隆的大插入子获取的随机的原始序列覆盖面,用于序列的组装。鸟枪法覆盖面一般在8~10倍之间,组装时只允许100kb含1个间隙Halfshotguncoverage:Halftheamountoffullshotguncoverage(typically,4±5-foldrandomcoverage)半鸟枪法覆盖面:覆盖面仅为完全覆盖面的1/2ClonesBACclone:BacterialartificialchromosomevectorcarryingagenomicDNAinsert,typically100±200kb.Mostofthelarge-insertclonessequencedintheprojectwereBACclonesFinishedclone:Alarge-insertclonethatisentirelyrepresentedbyfinishedsequence完成的克隆:含有已达到完成序列标准的克隆插入子Fullshotgunclone:Alarge-insertcloneforwhichfullshotgunsequencehasbeenproduced完全鸟枪法克隆:全部由鸟枪法测序的大插入子克隆Draftclone:Alarge-insertcloneforwhichroughlyhalf-shotgunsequencehasbeenproduced.Operationally,thecollectionofdraftclonesproducedbyeachcentrewasrequiredtohaveanaveragecoverageoffourfoldfortheentiresetandaminimumcoverageofthreefoldforeachclone草图克隆:整体上覆盖面仅为4×的大插入子克隆,其中某些序列的覆盖面最小倍数为3Predraftclone:Alarge-insertcloneforwhichsomeshotgunsequenceisavailable,butwhichdoesnotmeetthestandardsforinclusioninthecollectionofdraftclones预草图克隆:已有现成的某些鸟枪法序列的大插入子克隆,但是尚未满足草图克隆的要求ContigsandscaffoldsContig:Theresultofjoininganoverlappingcollectionofsequencesorclones重叠群:一组由重叠序列或克隆连接的序列Scaffold:Theresultofconnectingcontigsbylinkinginformationfrompaired-endreadsfromplasmids,paired-endreadsfromBACs,knownmessengerRNAsorothersources.Thecontigsinascaffoldareorderedandorientedwithrespecttooneanother支架:由质粒或BAC成对末端序列以及其它来源的序列将重叠群连接组成的集合体,其中各个重叠群彼此的位置与方向已确定Fingerprintclonecontigs:Contigsproducedbyjoiningclonesinferredtooverlaponthebasisoftheirrestrictiondigestfingerprints指纹连接的克隆重叠群:根据克隆插入子指纹重叠组建的重叠群Sequenced-clonelayout:Assignmentofsequencedclonestothephysicalmapoffingerprintclonecontigs测序克隆排列:将已测序的克隆与指纹连接的克隆重叠群物理图对比排列Initialsequencecontigs:Contigsproducedbymergingoverlappingsequencereadsobtainedfromasingleclone,inaprocesscalledsequenceassembly起始序列重叠群:从单个克隆两端获取的阅读序列中的查找重叠序列,并依此连接组建的重叠群,又称序列组装Sequence-contig

scaffolds:Scaffoldsproducedbyconnectingsequencecontigsonthebasisoflinkinginformation序列重叠群支架:依据连接信息将多个序列重叠群组建成更大的连续的DNA区段,简称为支架Sequenced-clonecontigs:Contigsproducedbymergingoverlappingsequencedclones测序的克隆重叠群:由已测序的克隆组成的重叠群Sequenced-clone-contigscaffolds:Scaffoldsproducedbyjoiningsequenced-clonecontigsonthebasisoflinkinginformation测序的克隆重叠群支架:根据连接信息将测序的克隆重叠群连接组成的支架Draftgenomesequence:Thesequenceproducedbycombiningtheinformationfromtheindividualsequencedclones(bycreatingmergedsequencecontigsandthenemployinglinkinginformationtocreatescaffolds)andpositioningthesequencealongthephysicalmapofthechromosomes草图基因组序列:将各个单独的序列通过连接信息组装成连续的并定位在染色体物理图上的序列,尚未全部达到完成序列的标准人类基因组的测序策略CeleraGenomics人类基因组测序计划两组数据首先采集5个自愿者提供的DNA样品,构建了三个不同插入子大小的基因组文库:2kb,10kb和50kb,共完成约2700万次插入子末端测序,获得覆盖人类基因组5个当量的顺序,总长14800Mb另一套用于顺序组装的资料来自政府资助的人类基因组计划(publiclyfundedHumanGenomeProject,PFP)发表的公开数据,主要是BAC克隆的顺序,共有4443.3Mb采取了两种组装路线:全基因组组装(whole-genomeassembly,WGA),类似于果蝇基因组顺序的组装方式区间化组装(compartmentalizedshotgunassembly,CSA),类似于上面谈到的以物理图标记为基础进行指导序列组装

CeleraGenomics采取WGA和CSA策略组装的人类基因组结果比较

项目WGACSA位于支架中的顺序(bp)

28478903902905568203位于重叠群中的顺序(bp)25866341082653979733支架数目118968170

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论