一个基于高物理覆盖度正反向关系的scaffold构建方法.doc_第1页
一个基于高物理覆盖度正反向关系的scaffold构建方法.doc_第2页
一个基于高物理覆盖度正反向关系的scaffold构建方法.doc_第3页
一个基于高物理覆盖度正反向关系的scaffold构建方法.doc_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

发明名称 一个基于高物理覆盖度正反向关系的scaffold构建方法技术领域 本发明涉及一个基于高物理覆盖度的正反向关系的scaffold构建方法,属于基因工程技术领域。技术背景 基因组学的研究是对生物全套遗产信息进行比较分析,能在总体上把握这些信息的机制和功能,然而,基因组学研究的最基础的一个环节是如何获得生物的全套基因组序列。而scaffold构建方法一直是de novo 拼接流程中十分重要的一环,方法的优劣直接影响到最后基因组序列的最终结果。自从人类基因组计划完成以来,基因组测序技术得到了长足的发展。在第一代Sanger测序方法的基础上,以Solexa, Solid和454为代表的第二代测序技术迅速发展并开始大规模投入使用,第二代测序技术的特点是通量高,低成本,测序错误率低的优点,但其测序读长要明显较第一代测序技术短的多. 因此原先根据传统的Sanger测序法(”霰弹法”)的scaffold构建策略几乎完全不能胜任.因此迫切需要根据第二代测序技术的自身特点,发明一整套完全适用于第二代测序技术平台的全自动的scaffold构建方法,使之能胜任对几乎所有物种基因组的拼接任务。因此我们的新拼接方法重点考虑了新技术的高物理覆盖度,和短序列读长,以及允许有多个高覆盖插入长度并存的特点,并依据这些特点作出合理应对。发明内容 本发明的目的是提出一种基于高物理覆盖度正反向的scaffold构建方法,使之完全适应第二代测序平台数据对基因组拼接的要求. 在分析了第二代测序技术获得成对reads信息,利用由高物理覆盖成对reads和可变插入长度梯度,解决第二代测序技术de novo拼接的scaffold构建,为第二代测序技术的全面高效地推广应用奠定基础。基本原理: 我们的scaffold的构建流程由已映射正反向短序列的contig开始,利用多条正反向关系计算contig间空位的平均长度,并标记权重。我们假设利用一条的正反向获得的contig片段之间的空位大小Xi服从期望为,方差为2的正态分布N( m , 2 ), 则通过N条正反向获得的空位大小的平均值服从N(m, s2/N)分布,因此高覆盖度的正反向信息可以大大提高scaffod构建中contig间空位的大小估计。我们计算所有正反向连接关系的contig间的空位大小,可以获得一个连接完整的scaffold图,然后采用基本的解图算法, 把图转化为基本的线性结构,来完成scaffold的构建任务。基本流程构建scaffold的基本步骤如图1所示: 首先, 把正反向映射到contig片段上 其次, 根据映射的正反向关系, 构建scaffold图 再次, 进行scaffld图的简化, 其有三个主要子步骤:a.重复片段的屏蔽.b.子图的线性化.c.重复片段的恢复.具体步骤正反向映射 利用正反向映射程序进行映射. 图的构建 利用已经映射到contig上的正反向信息,找到有连接关系的contig, 根据每个正反向的距离关系,计算contig之间的空位大小的平均值,作为空位大小的一个估计.图的简化 图的简化过程实质是一个从图上提取contig路径的的过程. 其存在两个难点: (1) 重复片段. (2)交错连接. 这两者都会导致图的分叉. 因此在实际过程中,我们针对这两个问题设计了三个特别的解决策略.a.重复片段的屏蔽 我们认为重复序列是表现在scaffold图上会有多个接入/接出的contig, 如果一个contig如果在同一方向上连接到多个有交叠的contig,那么我们认为这是一个重复contig. 如图3所示, 其中AB, EF 分别有交叠,用阴影表示, R认定为重复,需要屏蔽.所有的重复片段都首先需要屏蔽.b.子图的线性化 我们把所有的contig片段根据他们的空位长度放入子图的合适位置,如果任意两个片段之间没有很显著的交叠,我们根据他们的位置关系转化为一个线性结构.如图4所示, 已知有AB, ED, AE, EC的距离连接关系,我们可以直接得到线性结构关系为AEBCD, 并且重新计算AE, EB, BC,CD见空位的大小.c.重复片段的恢复 最后, 我们可以恢复一部分被屏蔽的重复片段,当这个重复片段恰好满足位于两个唯一片段之间.如图5所示, 若片段A, D是满足唯一片段条件, 则他们之间早先被屏蔽的重复片段R就可以直接恢

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论