




免费预览已结束,剩余61页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
天津工业大学毕业论文基于高重复区域基因序列的无模板拼接算法姓 名 徐 学 院 计算机科学与软件 专 业 软件工程 指导教师 陈 职 称 副教授 2013年5月27日天津工业大学毕业论文任务书题目基于高重复区域基因序列的无模板拼接算法学生姓名徐学院名称计算机科学与软件专业班级软件课题类型实际课题课题意义利用全基因组无模板拼接技术,可以获得动物、植物、细菌、真菌的全基因组序列,从而推进该物种的研究。一个物种基因组序列图谱的完成,意味着这个物种学科和产业的新开端,这也将带动这个物种下游一系列研究的开展。全基因组序列图谱完成后,可以构建该物种的基因组数据库,为该物种的后基因组学研究搭建一个高效的平台,为后续的基因挖掘、功能验证提供dna序列信息,为疾病、癌症等的研究提供真实有效的数据。任务与进度要求2013.2.20-2013.3.11 选题确认并完成开题报告、任务书的填写、提交、 审核2013.3.12-2013.3.26 深入了解课题内容、算法分析、确定算法系统框架、熟悉开发工具2013.3.27-2013.5.3 完成算法的逻辑实现,和算法工具包的开发,完成算法系统的大部分功能,初稿完成2013.5.4-2013.5.21 进行实验结果整理,并在整理中进一步提高拼接序列的的各项指标,二稿完成2013.5.22-2013.6.5 毕业论文的审核、修改及定稿并装订2013.6.6答辩主要参考文献1 bresler, m., sheehan, s., chan, a.h., and song, y.s. telescoper: de novo assembly of highly repetitive regions. eccb12 special issue, bioinformaticsj. 2012,28 i311-i3172 maccallum,i. et al. allpaths 2: small genomes assembled accurately and with high continuity from short paired readsj. genome biol. 2009, 10, r1033 simpson,j.t. et al. abyss: a parallel assembler for short-read sequence dataj. genome res. 2009, 19, 111711234 zerbino,d.r. and birney,e. velvet: algorithms for de novo short-read assembly using de bruijn graphsj. genome res. 2008, 18, 8218295 li,r. et al. de novo assembly of human genomes with massively parallel shortread sequencingj. genome res. 2010, 20, 265272起止日期2013年2月25日至2013年6月 6日备注院长 教研室主任 指导教师 毕业论文开题报告表 2013年3月 8日姓名徐学院计算机科学与软件专业软件工程班级软件题目基于高重复区域基因序列的无模板拼接算法指导教师陈一、与本课题有关的国内外研究情况、课题研究的主要内容、目的和意义:1. 与本课题有关的国内外研究情况 随着新一代基因组测序技术的推广使用,全基因组shotgun拼接算法和软件得到了广泛的研究。新一代的基因测序技术像illumina,complete genomics,helicos,454 life sciences,solid and ion torrent等,测序得到的dna序列数据相对于第一代测序方法-sanger测序表现为:高通量、高覆盖率、低成本,与此同时短读长、更多类型的错误,而且普通高等生物的基因组碱基数目巨大,如人类基因组总长约30亿bp,而按新一代的测序技术,一次实验最多只能直接测得不大于1, 000个碱基,另外高等生物的基因还具有非常复杂的重复结构,因而基因组的无模板拼接有很大难度。这样,绝大多数生物的基因组都不能通过实验手段一次性获得,必须借助计算机技术进行后续拼接。自从2005年以后,出现了多种基于下一代测序平台基因序列的从头拼接算法软件包,包括velvet,abyss,allpath,soapdenovo等。尽管人们普遍认识到,不同拼接算法所产生的结果具有互补的,但是现在还没有一个方法能融合多个拼接算法的结果。2. 课题研究的主要内容 基因序列是包含在生物中每个染色体中的dna碱基序列的集合。基因序列拼接是一个研究如何将包含较短的读长基因数据库中的所有序列通过合并和排序之后拼接成长序列的问题。通常序列拼接的输出是一个称为重叠群(contig)的集合,进而由contigs经过排序、调整、填补间隙等一系列的操作而生成的scaffold序列。 本文提出了一个基于图论的算法,对多个不同算法拼接出的contigs进行拼接,得到更长的scaffold序列。算法首先识别出每对contigs之间的共同片段。然后将达到一定长度的共同片段聚到一个簇中。对于每一个簇,建立一个包含不同contigs之间关系的图结构,最后求解图的最长路径。算法具体步骤如下:(1) 获得其他算法产生contigs。一部分算法的结果也scaffolds。尽量使用较长的scaffolds。(2) 为contigs建立索引结构。将每个算法生成的contigs集合建立一个索引结构,生成索引文件。(3) 利用索引进行映射。根据索引将原始数据库中的全部的基因序列映射到contigs上。 我们规定read-pair中的left read和right read中的部分碱基同时和contig中的某段碱基一致(部分一致,具体的见映射规则),则称为映射成功。映射结果一般表现为:一个contig的不同的位置上有多个read对应。映射规则如下:.对contigs中碱基进行数值化。.我们只对非atgc碱基个数不超过碱基序列(read)的5%的read,进行映射。.同时对每个read的逆序的碱基互补序列进行映射。.我们允许最少2个碱基,最多2%个碱基的错误。.我们只分别取出left read前n(要求为取3的倍数)个碱基和right read后n个碱基,组成的有间隙的序列进行映射。(4) 寻找潜在可拼接的contig对。根据第4步中的映射结果,即每个contig会映射上多个read,多个read组成了集合 (i,基本算法的标识;j,算法结果中contig 编号)。寻找潜在可拼接的contig对是任何两个不同拼接算法中的contig映射到的集合 彼此之间交集的元素个数超过一个给定阈值。(5) 求最长公共子序列筛选潜在可拼接的contig对。计算第4步中找到的潜在可拼接的两个contigs的最长公共子序列,移除最长公共子序列的长度小于某一阈值的contig对。 (6) 将潜在可拼接的contigs对进行聚簇,簇数记为。 构建子图,并拼接。将簇中所有(簇中的第簇个子图)合并成能表示一个簇的图(暂且称为簇图,cluster-graph),最后求解簇图的最长路径。最长路径所包含的碱基序列即为我们算法拼接之后的结果。(7) 最终结果的评估。比较各项指标n50、max。结果显示,使用我们的算法,大幅度的增长了的max contigs。我们也证实了,引进将更多的拼接算法的结果,我们的算法结果将提高的更多。3. 课题研究的主要的目的和意义利用全基因组无模板拼接技术,可以获得动物、植物、细菌、真菌、病毒的全基因组序列,从而推进该物种的研究。一个物种基因组序列图谱的完成,意味着这个物种学科和产业的新开端,这也将带动这个物种下游一系列研究的开展。全基因组序列图谱完成后,可以构建该物种的基因组数据库,为该物种的后基因组学研究搭建一个高效的平台,为后续的基因挖掘、功能验证提供dna序列信息,为疾病、癌症等的研究提供真实有效的数据。二、进度及预期结果:起止日期主要内容预期结果2013.2.20-2013.3.112013.3.12-2013.3.262013.3.27-2013.5.32013.5.4-2013.5.212013.5.22-2013.6.52013.6.6选题确认并完成开题报告、任务书的填写、提交、审核深入了解课题内容、算法分析、确定算法系统框架、熟悉开发工具完成算法的逻辑实现,和工具包的开发,完成算法系统的大部分功能,初稿完成进行实验结果整理,并进一步提高各项指标,二稿完成毕业论文的审核、修改及定稿并装订答辩完成完成完成 完成完成完成完成课题的现有条件硬件: 曙光小型机(sugon server main server chassis)软件: vim、emacs、gcc/g+、eclipse、python、visual studio2010参考文献:1 bresler, m., sheehan, s., chan, a.h., and song, y.s. telescoper: de novo assembly of highly repetitive regions. eccb12 special issue, bioinformaticsj. 2012,28 i311-i3172 maccallum,i. et al. allpaths 2: small genomes assembled accurately and with high continuity from short paired readsj. genome biol. 2009, 10, r1033 simpson,j.t. et al. abyss: a parallel assembler for short-read sequence dataj. genome res. 2009, 19, 111711234 zerbino,d.r. and birney,e. velvet: algorithms for de novo short-read assembly using de bruijn graphsj. genome res. 2008, 18, 8218295 li,r. et al. de novo assembly of human genomes with massively parallel shortread sequencingj. genome res. 2010, 20, 265272审查意见指导教师: 年 月 日学院意见主管领导: 年 月 日天津工业大学本科毕业论文评阅表(论文类)题目基于高重复区域基因序列的无模板拼接算法学生姓名徐学生班级软件指导教师姓名陈评审项目指标满分评分选题能体现本专业培养目标,使学生得到较全面训练。题目大小、难度适中,学生工作量饱满,经努力能完成。10题目与生产、科研等实际问题结合紧密。10课题调研、文献检索能独立查阅文献以及从事其他形式的调研,能较好地理解课题任务并提出实施方案;有分析整理各类信息,从中获取新知识的能力。15论文撰写结构严谨,理论、观点、概念表达准确、清晰。10文字通顺,用语正确,基本无错别字和病句,图表清楚,书写格式符合规范。10外文应用能正确引用外文文献,翻译准确,文字流畅。5论文水平论文论点正确,论点与论据协调一致,论据充分支持论点,论证过程有说服力。15有必要的数据、资料支持,数据、资料翔实可靠,得出的结论有可验性。15论文有独到见解或有一定实用价值。10合计100意见及建议:评阅人签名: 年 月 日天津工业大学毕业论文成绩考核表学生姓名 徐学院名称计算机科学与软件专业班级软件题目基于高重复区域基因序列的无模板拼接算法1毕业论文指导教师评语及成绩: 成绩: 指导教师签字: 年 月 日2毕业论文答辩委员会评语及成绩:成绩:答辩主席(或组长)签字: 年 月 日3毕业论文总成绩:a.指导教师给定成绩b.评阅教师给定成绩c.毕业答辩成绩总成绩(a0.5+b0.2+c0.3)摘 要随着新一代基因组测序技术的推广使用,全基因组shotgun拼接算法和软件得到了广泛的研究。当前的基因测序技术获得的dna序列数据相对于第一代测序方法-sanger测序表现为:高通量、高覆盖率、低成本,与此同时还具有短读长、更多类型的错误等特点。而且普通高等生物的基因组碱基数目巨大,如人类基因组总长约30亿bp。另外高等生物的基因还具有非常复杂的重复结构,因而基因组的无模板拼接具有很大难度。自从2005年以后,出现了多种基于下一代测序平台基因序列的从头拼接算法软件包,包括telescoper、velvet、abyss、allpath 2、soapdenovo、euler-usr、cortex等。alkan等人在报告中指出,使用短读长进行人类基因组无模板拼接的结果比使用长读长得到的拼接结果还短16%。因此,我们很容易认识到设计出更好的算法还有很大的空间。对以上多个算法的结果进行详细的分析,我们提出了一种基于图论的算法,在多个不同基算法拼接出的contigs的基础上通过构建索引、读长映射、contig聚簇、构建簇图等步骤将contig拼接成更长的称为scaffold序列。构建索引和读长映射两个步骤旨在通过读长(read)找到不同算法获得的contig之间的相关性,然后通过这个相关性进行聚簇,簇内的所有contig具有互补性,是潜在的可拼接的序列。最后构建簇图,求解图的全局最长路径,得到拼接的结果。实验结果表明,算法得到最长的scaffold序列的长度和scaffold n50等两项指标,相对于目前拼接效果最好的算法velvet、abyss、soapdenovo等增长的比例高达50%。当更多的基算法结果加入到我们的算法中,结果将会有更大的提高。本文提出的方法大幅度的提高了contig的序列的长度,将为进一步对基因评估和分析降低了难度,为解决生物问题提供了更好的线索,将迅速加快生物基因组研究的步伐。关键词:无模版拼接;重叠群;融合;基因组测序abstractthe emergence of next-generation sequencing platforms leads to resurgence of research in whole-genome shotgun assembly algorithms and software. dna sequencing data from recent platforms typically presents higher throughput, higher coverage, lower cost, but shorter read lengths and different error profiles when compared with sanger sequencing data. producing high-quality de novo assemblies from short-reads remains challenging, primarily because of the complex repeat structures found in the genomes of most higher organisms. since 2005, several assembly software packages have been created or revised for de novo assembly of next-generation sequencing data, including velvet, abyss, allpaths, soapdenovo, and telescoper. alkan et al. report that a de novo shotgun assembly of the human genome using short-reads is 16% shorter than the reference assembled using more laborious means. indeed, it is well recognized that there is room for better algorithmic use of the data.after a detailed analysis of the results of these assembly algorithms, we propose a graph-based algorithm, using contigs from some base assembly algorithms by indexing, read mapping, contig clustering and cluster-graph building and some other steps with the result of longer sequence called scaffold. by indexing and read mapping, we aim at obtaining the correlation between the contigs from different assembly algorithms, and then clustering these contigs. contigs in each cluster are considered complementary, potential that could be assembled. finally, we build a cluster-graph for each cluster, the longest path of each cluster-graph will be the scaffold produced by our method.the results of our study show that two standard metrics (the largest scaffold and scaffold n50) are increased by 50% when compared to the current best algorithm velvet, abyss, and soapdenovo. we also demonstrate that the assembly results could be further improved when more base assembly algorithms are included. the proposed method greatly improves the length of contig sequence, reduces the difficulty of further evaluation and analysis of genes, provides better clues to solve biological problems and rapidly accelerates the pace of genomic research organisms.key words:de novo assembly; contig; incorporates; dna sequencing 目 录第一章 绪 论11.1 背景目的和意义11.2 术语21.3 基因组测序技术简介41.3.1 第一代测序技术41.3.2 第二代测序技术51.3.3 新一代测序技术71.4 基因组拼接技术简介91.4.1 基因组拼接技术的研究现状91.4.2 基因组重测序技术111.4.3 基因组无模版拼接技术121.5 论文组织结构13第二章 基因组无模版拼接算法152.1 基因组无模版拼接的难点152.2 当前拼接算法采用的两种途径162.3 几种常见的无模版拼接的方法介绍182.3.1 velvet拼接算法182.3.2 abyss拼接算法182.3.3 soapdenovo拼接算法192.3.4 telescoper拼接算法192.4 融合的基因组拼接方法20第三章 融合的基因组无模版拼接方法的实现223.1 融合的拼接算法的简介223.2 数据准备223.3 构建索引223.4 读长映射233.5 contig聚簇233.6 构建簇图cluster-graph253.7 生成拼接结果26第四章 实验和结果评价284.1 运行环境284.1.1 实验机器284.1.2 软件包依赖284.2 数据集284.2.1 准备数据库294.2.2 数据预处理294.3 算法软件包说明314.4 实验结果分析324.5 小结34第五章 结论和展望355.1 结论355.2 展望36参考文献37附录 文献翻译39英文原文39中文译文45谢 辞52天津工业大学2013届本科生毕业论文第一章 绪 论1.1 背景目的和意义生物信息学是以计算机为工具对生物信息进行存储、检索和分析的科学,是当前自然科学前沿领域之一,也将是21世纪自然科学的核心领域之一34。生物信息学是研究生物信息的获取、处理、存储、分析和解释等方面的一门综合学科,通过计算机科学和信息技术而揭示大量而复杂的生物数据所包含的生物学奥秘。生物信息学还有一个重要的活动就是开发出一些工具软件进行分析和处理,从而得到一些有用的生物学知识。自从2006年5月18日自然杂志报道称,科学家已对含有2.23亿个碱基对占人类基因组中碱基对总量的8%左右的人类第一号染色体完成测序宣告持续16年的人类基因组计划全部完成1。作为人类自然科学史上重要的里程碑,“人类基因组”的研究已从“结构基因组”阶段进入“功能基因组”阶段。在人类基因组计划后相继推出的水稻基因组计划、马铃薯基因组计划、草鱼基因组计划等和快速增长的微生物基因测序“海量”的基因信息的积累催生了“功能基因组”时代的来临。针对充分利用“海量”基因组信息的生物信息学不仅应运而生而且为以注释、阐明基因功和利用基因生物学功能的“后基因组时代”的研究发挥了重大作用。基因组测序的目的就是要确定dna分子的碱基序列,而dna序列拼接则是基因组测序的关键技术之一。dna序列拼接的定义可概括为:从dna片段集合f中重构该dna序列s,其中f为该dna序列s的子序列。无模版拼接算法,是指在没有参考基因作为模板的情况下,根据f重构s。这些重构的dna源序列可以被进一步的评估和分析,可以成为解决生物问题的线索,如寻找致病病毒、进行药物设计、研究如何将纤维物质转化为生物燃料、揭示生物遗传和变异的。另外,对进行基因诊断、基因治疗、药物设计都有巨大的作用。基因组拼接的挑战在于将碎片状的读长进行重建得到原始的基因组。基于化学的第一代测序技术-桑格测序方法得到的读长的长度范围从大约500至1000个碱基。像illumina,complete genomics公司2、helicos3、454 life sciences4、solid5、ion torrent公司6等这些新一代的技术是以牺牲读长的长度为代价获得高产量。这种海量的、短小的、包含错误的读长数据导致了拼接的高难度。序列拼接问题主要转化为图论的知识进行求解。拼接算法最初阶段的提升主要在于如何处理数据以及如何检测重叠区域。de bruijn图7已被证明是一个非常有用的数据结构,并用于短读长拼接,像velvet8、abyss9、allpath 210、soapdenovo11、euler-usr12、还有cortex13许多高通量测序平台产生配对末端或读长对。配对的读长,构成了强大的信息源,大大促进了基因组拼接。最近的一些拼接算法将提高使用读长对信息放在最核心的地位,像allpaths lg14、pe-assembler15和基于pair-end的de bruijn 图16,他们是较早的一批创新的使用的短读长对进行拼接的算法。telescoper17算法是以一个较长的序列作为种子进行启发式迭代扩展的。然后,alkan18等人在报告中指出,使用短读长进行人类基因组无模板拼接的结果比使用长度长拼接得到的参考基因序列还短16%。因此基因拼接还有很大的提升空间。本文就是在此背景下,针对上述拼接算法获得的序列还不够长并且它们彼此之间具有互补性,我们提出了一种基于簇图的算法,根据contig的相关性,将contig聚到多个簇中,并为每一个簇构建一个簇图,通过求解簇图的最长路径,得到了更长的scaffold。另外,利用互补性,本文的算法可以得到比其他任何算法更好的结果,这便是本文算法最大的意义所在。利用全基因组无模板拼接技术,可以获得动物、植物、细菌、真菌的全基因组序列,从而推进该物种的研究。一个物种基因组序列图谱的完成,意味着这个物种学科和产业的新开端,这也将带动这个物种下游一系列研究的开展。全基因组序列图谱完成后,可以构建该物种的基因组数据库,为该物种的后基因组学研究搭建一个高效的平台,为后续的基因挖掘、功能验证提供dna序列信息,为疾病、癌症等的研究提供真实有效的数据。1.2 术语本节主要将文中用到的部分专业术语作了简要的描述,1 read:读长,高通量测序平台产生的序列就称为读长,一次测序中仪器读取的核苷酸序列,该序列是原始dna序列经过随机打断生成的碎片序列,基因序列的无模板拼接(de novo assembly)就是要将这些碎片序列拼接成更长的序列。高通量测序中read一般会成对出现,也就是以read-pair形式存在。图 1-1 读长示意图2 contig:重叠群,是拼接软件基于read之间的重复区将较短的read拼接成为更长的序列片段称为contig。理论上同一个染色体上的read结合起来拼出一个contig,但实际上很难做到。contig是最终得到的完整的基因组序列的子序列。一般的拼接软件会得到很多条contig,需要进一步根据read pair之间的信息进行组装,产生更长的序列,从而完成拼接任务。图 1-2 contig示意图3 scaffold:由拼接的产物contig经过有效的连接之后产生的更长的序列。在实际情况中,contig和contig之间并不能直接连接起来。很多情况下是它们之间只有通过它们内部的一些小的read之间的某些距离信息或者mate信息进行连接。这个scaffold所做的事情。它借助其他reads之间的关系信息,把contig直接的缝隙进行填充。图 1-3 scaffold示意图4 mate:是read pair中的其中一个read,read pair中的两个read一般称为left read和right read。图 1-4 mate pair示意图5 cluster-graph:我们算法生成的簇图,是将同一个簇中的所有contig根据其匹配的位置信息建立的图结构,该图结构由多种类型的子图经过一系列的节点合并和分割产生的。6 contig n50:拼接算法将所有的读长经过拼接得到的很多更长的序列contig。所有的contig的长度之和为 。接下来将所有的contig按照从长到短进行排序,然后依次进行编号,得到 。将contig按照这个顺序依次相加,当长度的和达到contig总长度的50%即的一半时,最后一个加上的contig的长度为contig n50,即满足不等式的最小的m的对应的的长度。contig n50是一个常见的评价基因组拼接的结果好坏的指标。7 scaffold n50:scaffold n50与contig n50的定义基本相似,即为满足不等式的最小的m的对应的的长度。scaffold n50也是常见几个的评价基因组拼接结果好坏的标准之一。8 测序深度和覆盖度:测序深度是指一次测序得到的所有的碱基的总数数与被测生物基因组大小的比值,它是评价基因测序量的指标之一。测序深度与基因组覆盖度之间是一个正相关的关系,测序带来的错误率或假阳性结果会随着测序深度的提升而下降。重测序的个体,如果采用的是双端测序(pair end sequencing),当测序深度在1015x以上时,基因组覆盖度和测序错误率控制均得以保证。假设一个基因大小为5mbp,测序深度为10x,那么获得的总数据量为50mbp。覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中存在高gc、重复序列等复杂结构,测序最终拼接获得的序列通常无法覆盖基因组所有的区域,这部分没有被覆盖的区域就称为gap。例如一个生物的基因组测序,覆盖度是98%,那么说明还有2%的gap,也就是测序获得无法获得这2%的序列区域。1.3 基因组测序技术简介众所周知,生物的基因组是指该生物所有遗传物质的总和,绝大部分基因组由dna(脱氧核糖核酸)组成。dna是由核苷酸单体构成的线性、无分支的多聚分子。dna(脱氧核糖核酸)是人类主要的遗传物质,呈双螺旋链状结构,是由许多脱氧核苷酸按一定碱基顺序彼此用3、5-磷酸二酯键相连构成的长链,人们常说的基因就是 dna 链上具有特定生物学功能的一个片段。dna 链上排列着许多碱基对,如果能测出这些碱基对的顺序,就能够了解各个基因的特点,帮助遗传学和医学中的相关研究。比如对各种遗传疾病、病毒或细菌的感染与变异的研究,以及在基因水平上的个性化用药,最终都依赖于基因测序结果测定。核苷酸由碱基区分,dna中,碱基分别是腺嘌呤(adenine)、胞嘧啶(cytosine)、鸟嘌呤(guanine)和胸腺嘧啶(thymine),分别用字母a,c,g,t表示。dna 的碱基序列对了解遗传的本质即了解每个基因的编码方式无疑是十分重要的。测序技术发展到目前经过了两个阶段,从 1976 年开始到2005年第二代测序技术问世为止,这期间主要采用自动化桑格测序法测序。从2005年到目前采用的测序技术被称为第二代测序技术。1.3.1 第一代测序技术于1976年问世的sanger自动化测序技术,代表了广泛使用的鸟枪法的第一代测序技术。在1990年正式启动伟大的“人类基因组计划”中,各个国家的科研人员联手耗费10年时间对人体10万个4基因进行了测序,同时绘制出了第一个人类基因的谱图,其测序技术就是采用sanger测序法。在 2005 年第二代测序技术问世,sanger测序法改称为第一代测序技术。sanger 测序包含如下步骤:1 文库制备:首先将待测序的dna用超声波打碎成小片段,并将这些 dna片段大量地克隆到质粒并转染大肠杆菌或使用引物对这些 dna片段进行pcr扩增。2 序列测定:聚合酶用单链 dna 模板作指导,不断地将 dntp 加到引物的3-oh 末端,使引物延伸,合成出新的互补dna链。如果加入一种特殊核苷酸,双脱氧核苷三磷酸 (ddntp),由于它在脱氧核糖的3位置缺少一个羟基,故不能同后续的dntp 形成磷酸二酯键,引物延伸终止。在测定时,首先将模板分为4 个反应管,分别加入引物和dna聚合酶,在4组独立的反应体系反应一定时间后,每一管内加入4种 ddntp 中的一种,就可获得4组分别终止于模板链的每一个a、c、g和t位置上的一系列大小不同的dna片段。通过高分辨率变性聚丙烯酰胺凝胶电泳分离这些片段,随后利用放射自显影就可以读出dna的序列。sanger 平台的并行化上限是384根毛细管同时电泳。3 计算机分析:根据得到的谱带,运用计算机读取软件 (base-calling software)进行图像处理,以确定谱带所蕴含的dna序列。四条谱带在测序时被同步保留,处理软件试图按照一定的间隔读出一个碱基。通常谱带中达到峰值时最亮的颜色所代表的碱基被读出,有时会出现几种亮度相近的情况,这可能会带来一定差错。1.3.2 第二代测序技术第一代测序技术测序时最多384根毛细管同时电泳,使得该技术测序速度较慢。近年出现了一些新的测序技术,这些测序技术不断得到创新和改良,在保证基因组测序足够精确度的前提下,测定通量的急速增加,是传统 sanger 法的几百到几千倍,测试的成本也呈现直线下降的趋势,只为原有技术的几十分之一。这些测序技术包括 454、solid、solexa等。他们被称为第二代测序技术。第二代测序技术具有公共特点:测序时将基因组分割成小片段并在片段两侧连上接头,随后运用不同的步骤来产生几百万个空间固定的pcr克隆阵列。每个克隆由单个文库片段的多个拷贝组成。之后进行引物杂交和酶延伸反应。由于所有的克隆都在同一平面上,这些反应就能够大规模平行进行。同样地,每个延伸所掺入的荧光标记的成像检测也能同时进行,来获取测序数据。dna序列延伸和成像的持续反复构成了相邻的测序阅读片段,再经过计算机分析就可以获得完整dna序列信息。下面分别介绍454、solid、solexa测序技术的原理。454测序技术原理如下:首先将基因组打碎为短dna片段,再将这些dna片段固定在特别设计的dna 捕获磁珠上。一个磁珠只结合一个dna片段。随后用扩增试剂把磁珠乳化,形成油包水的混合物,这样就形成了只包含一个磁珠和一个dna片段的微反应器。454 测序技术的序列读长为200至450个核苷酸。454 测序仪测序的价格较昂贵,虽然是传统 sanger 测序仪费用的1/10,但却是其他新一代测序仪测序费用的10 倍左右。solexa测序技术基本原理如下:将待测样品dna打碎成几百个碱基(或更短)的小片断,在片断的两个末端加上接头。solexa测序仪最大的优势在于测序价格低廉,数据读取量大,它也是所有新一代测序仪中市场占用率最高的。solid测序技术采用dna连接酶在连接过程中读取序列solid测序技术的基本步骤如下:将待测dna序列打碎,在dna碎片两端加上一对接头。将待测dna片断固定到磁珠表面,然后pcr扩增获得大量待测dna片断的拷贝。因此,这种测序方法又被称为“双碱基读序”。solid 测序技术也因此有较高准确率。下面简要的介绍一下第二代测序技术的特点和应用:1 第二代测序技术的特点与 sanger 测序技术相比,第二代测序技术具有如下特点:(1) 具有很高的并行性。第二代测序技术的一个芯片上可以并行同时 执行上百万个 dna 片段的测序,因而有比sanger测序技术高得多的通量。solid 3 系统是目前最高通量的系统,该测序系统单次运行能产生 50gb 的人类基因组序列数据,相当于基因组的 17 倍覆盖度。(2) 测序成本低廉。当前sanger测序法的成本为每一千个碱基花费$0.5。第二代测序技术以sanger 研究所现在使用的illumina新一代仪器为例,算上样品准备、仪器运行、数据分析的时间,平均一台仪器在一个月内就可以产生相当于1个人全基因组图谱的数据,而其运行成本已经降到一两万美元左右的量级,平均每兆数据 2 美元左右。新一代 dna 测序技术诞生带来了测序成本极大降低,科学界发布基因组图谱的速率不断上升,从以前的十年一份,到两三年一份,再到一年之内就可以出一份,2009 年更是涌现出十来份基因组图谱而就在过去的一年里,涌现出了十来份基因组图谱。(3) 生成的read长度短。第二代测序技术生成的 read 长度与自动化桑格测序法相比较短。自动化桑格测序法生成的 read 长度能达到 1000bp,而第二代测序技术得到的read长度与第一代测序技术相比显得较短,454 测序技术生成的 read 较长,能达到 250-400bp,而solid测序技术得到的 read 长度在 25-50bp。(4) 较高的错误率。传统 sanger 测序法经过几十年发展,测序比较精确,每位碱基准确率可达99.999%,而当前第二代测序技术每位碱基错误率通常在 1%到1.5%左右。2 第二代测序技术的应用第二代测序技术到目前为止已经取得了广泛应用。对于已有基因组参考序列的物种,可以以更低的成本对更多具有不同性状特征的品种和个体进行基因组重测序研究。应用序列捕获芯片和测序结合的办法,还可以对基因组特定区域进行重测序研究。通过比较不同品种间的基因组序列差异,可以发现与特殊性状或者疾病相关的基因。目前,许多模式生物的重测序项目己在开展,这将不仅有利于扩大可用的基因组数据库,而且还使许多在基因组水平上比较基因型和表现型的研究成为可能。目前尚未测序的物种基因组也能应用新一代测序技术,不过目前主要集中在454 测序仪,因为它的读长较长,而其他测序仪器应用主要集中在微生物的基因组从头测序。自 2005 年以来,454 测序技术、solexa 测序技术和solid测序技术等第二代测序技术相继出现,它们相对第一代测序技术在测序通量和测序成本等方面取得了质的飞跃,并已经在基因组从头测序和转录组测序等领域得到了广泛的应用,极大地推动了生命科学的发展。但是第二代测序技术仍然存在诸多亟待解决的问题,如前期文库构建过程复杂、测序反应体系为多酶体系难以控制、需要荧光标记、“反应 - 拍照 -洗脱”的步骤影响测序速度和测序读长等。针对这些问题,最近发展了几种新一代的高通量测序技术,它们通过改变测序原理或检测手段,进一步简化了测序过程,降低了测序成本,提高了测序速度,推动了大规模测序的广泛应用。下一小节就这些新一代测序技术的原理、特点和应用前景作简要介绍。1.3.3 新一代测序技术第二代测序技术的出现使 dna 测序的通量大幅提高,测序的成本大幅下降,原来只有在大型测序中心才能完成的测序任务现在已经可以在更多的实验室展开。但是,早期的第二代测序技术仍然存在诸如文库构建过程复杂、测序成本依然较高等缺点。为了克服上述缺点,近三年发展了几种新的第二代和新一代测序技术(又称为第三代测序技术),这些技术不仅继承了早期第二代测序技术通量高的优点,而且在文库构建等方面取得了重要突破,进一步简化了测序操作,降低了测序成本,缩短了测序时间。第三代测序技术的关键优势是能够对单个dna(脱氧核糖核酸)分子进行测序,而目前市场上的主流测序仪只能对分子群体进行平均测序。单分子测序能对dna中罕见的序列变异进行分析,也不需要在测序之前对dna样本进行放大,因为放大过程可能引发错误,导致对某个dna序列检测失败。第三代测序技术还有一个最大的特点是简化了测序模板的制备过程。被称为第三代测序的he-licos单分子测序仪、pacific bioscience 的smrt 技术和oxford nanopore technologies 公司正在研究的纳米孔单分子测序技术正向着高通量、低成本、长读取长度的方向发展35。ion torrent 测序技术摒弃了454 测序技术中采用生物发光检测延伸产生的焦磷酸的检测原理,通过检测dna链延伸时产生的氢离子实现边合成边测序。heliscope 测序技术是单分子测序技术的一种,该技术无需 pcr 扩增测序模板,可直接对单个dna 分子进行序列测定。heliscope 测序技术的测序通量可以达到 35 gb,平均测序读长为35nt(nucleotide核苷酸),在测序深度为 20 倍覆盖率的情况下,测序准确率为 99.995 %。并且由于无需 pcr 扩增待测模板,避免了pcr非特异性扩增的影响,简化了文库制备过程。目前heliscope测序技术已有所应用,但是由于单分子测序设备价格十分昂贵,使其推广应用存在一定困难。和heliscope一样,smrt 测序技术也是单分子测序技术的一种。smrt 测序技术的单分子荧光检测设备采用零模式波导技术,可以将激发光局限在反应孔底部很薄的空间内,价格低于全内反射显微镜,使测序成本比 heliscope 测序技术有所降低。smrt 测序技术的测序速度可以达到 1.5nt每秒,且测序读长可以达到 3000 nt,比 heliscope 测序技术有明显提高。但是,smrt 测序技术目前仍处于试用阶段。oxford 纳米孔测序技术也是一种单分子测序技术。它利用镶嵌于脂
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 民生频道安全素质培训课件
- 民爆安全培训总结课件
- 传播理论考试题库及答案
- 仓库自动化考试题及答案
- 部署会议议程讲解
- 新质生产力发展的政治意义
- 海淀区:新质生产力发展的创新路径
- 安全生产人人有责讲解
- 新质生产力六个原则
- 安全生产警示故事讲解
- 教科版四年级上册科学全册教案
- 新版苏教版四年级上册科学(全册教案及教学计划及进度表)
- 国际压力性损伤-溃疡预防和治疗临床指南(2025年版)解读课件
- 慢性乙型肝炎防治指南(2022年版)
- 幼儿园事故案例分析及法律法规课件-幼儿园事故案例及分析
- 修理厂焊工安全生产责任清单
- 输液泵/微量注射泵使用技术操作考核评分标准
- 气流粉碎机课件
- 梁若瑜著-十二宫六七二象书增注版
- SJG 74-2020 深圳市安装工程消耗量定额-高清现行
- “国培计划”优秀工作案例推荐表——“八张清单”撬动送教下乡的兴奋点
评论
0/150
提交评论