动植物基因组de novo常见问题_第1页
动植物基因组de novo常见问题_第2页
动植物基因组de novo常见问题_第3页
动植物基因组de novo常见问题_第4页
动植物基因组de novo常见问题_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、动植物基因组de novo常见问题基础知识1、什么是基因组de novo测序?答:对某一物种进行高通量测序,利用高性能计算平台和生物信息学方法,在不依赖于参考基因组的情况下进行组装,从而绘制该物种的全基因组序列图谱。 2、普通基因组的定义?答:单倍体,纯合二倍体或者杂合度<0.5%,且重复序列含量<50%,GC含量为35%到65%之间的二倍体。 3、复杂基因组的定义?答:杂合率0.5%,重复序列含量50%,GC含量处于异常的范围(GC含量35%或者GC含量65%的二倍体,多倍体。诺禾致源对二倍体复杂基因组进一步细分为微杂合基因组(0.5%杂合率0.8%、高杂合基因组(杂合率0.8%

2、)以及高重复基因组(重复序列比例>50%)。 4、怎么查询基因组的大小?答:查询植物基因组大小的网站:;查询动物基因组大小的网站:。 5、基因组的项目周期?6、基因组承诺的组装指标?答:简单基因组:contig N50>20K,scaffold N50>500K;复杂基因组:contig N50>20K,scaffold N50>300K。 样品要求1、动植物基因组测序对取样有什么要求?答:植物:需要黑暗无菌条件下培养的黄化苗、组培苗,基因组样本量500g1mg,越多越好。选择纯合或杂合度尽可能小的样品(杂合度<0.5%)。动物:应选取肌肉、血液等含脂肪较少

3、的部位取样,尽量选择同一个体取样,以减少个体差异性对后续拼接的影响。基因组样本量500g1mg,越多越好。样本的性别决定模式是XY型,则尽量选择雌性个体(XX型),如果是ZW型,则尽量选择雄性个体(ZZ型)。 2、全基因组测序对DNA样本有什么要求?答:(1)样品需求量(单次):小片段文库,3g;2Kb5Kb大片段文库,20g;10Kb20Kb大片段文库,60g;完成全基因组测序样品DNA量需求约为500g1mg;        (2)样品浓度:对于小片段文库,50ng/l,对于2Kb5Kb大片段文库,150ng/l;对于1

4、0Kb20Kb大片段文库,150ng/l;        (3)样品纯度:OD260/280=1.82.0;无蛋白质、RNA污染或肉眼可见杂质污染;        (4)样品质量:基因组完整。如需建立5Kb的插入片段文库,则电泳结果,基因组DNA主带23Kb;脉冲场电泳结果,基因组DNA主带40Kb。 文库构建1、基因组测序的文库构建及测序策略?答:简单基因组:180bp、500bp、2K、5K、10K;PE100测序;测序深度一般为100-150X;&#

5、160;       复杂基因组:180bp、300bp、500bp、2K、5K、10K、20K;PE100测序;测序深度一般为200-300X。 2、DNA Fragment文库的定义、用途及实验流程?答:(1)定义:将基因组或大片段DNA随机打断成800bp的小片段(主要为200bp、300bp、500bp等),加上特定接头做成DNA文库后直接对DNA片段进行单末端(Single-End)或者双末端(Paired-End)测序,不需要克隆到细菌中,可以获得大量的DNA序列信息。    

6、60;   (2)用途:DNA Fragment文库制备的整个过程只需2天,单末端测序长度可达100bp,双末端为200bp。该技术测序通量高,可在全基因组水平上最大限度的、完整的获取基因组及多态性信息。广泛地应用于基因组的de novo测序、基因组重测序、BAC测序和长片段PCR产物测序等。        (3)实验流程: 3、DNA mate-pair文库的定义、用途及实验流程?答:(1)定义:首先将基因组DNA随机打断到特定大小(2-20kb);然后经末端修复,生物素标记和环化等实验步骤后,再把环化

7、后的DNA分子打断成400-600bp的片段并通过带有链亲和霉素的磁珠将带有生物素标记的片段捕获。这些捕获的片段再经末端修饰和加上特定接头后建成大片段文库,不需要克隆到细菌中,直接在Illumina测序仪上进行测序。通过大片段文库构建,从而获得基因组中较大跨度(2-20kb)片段两端的序列。        (2)用途:DNA Mate-pair文库制备的整个过程需要5天,这种从较大跨度两端所获得的序列对基因组de novo项目的组装和基因组结构变异发掘具有非常重要的作用。    

8、60;   (3)实验流程: 信息分析1、什么是Read、Contig、Scaffold?答:Read:测序读到的碱基序列片段,测序的最小单位;Contig:由reads通过对overlap区域拼接组装成的没有gap的序列段;Scaffold:通过pair ends信息确定出的contig排列,中间有gap。 2、什么是N50,N70,N90?答:把组装出的contigs或scaffolds从大到小排列,当其累计长度刚刚超过全部组装序列总长度50%时,最后一个contig或scaffold的大小即为N50的大小,N50对评价基因测序的完整性有重要意义;N70和N90的计算方

9、法与N50类似,只是百分数变为70%或90%。 3、普通基因组的解决方案?答:诺禾采用自主升级的SOAPdenovoII进行普通基因组组装。        组装流程(图1)包括:       (1)构建不同长度的插入片段文库;       (2)构建de Brujin图;       (3)化简de Brujin图;  

10、0;    (4)构建contigs;       (5)构建scaffolds;       (6)补gaps;       诺禾致源的技术升级包括:       (1)开发了新的序列纠错模块,降低测序错误对组装的影响;       (2)在contigs组装步骤,开

11、发了Step K连接模块,以混合拼接算法连接contigs,从而提升原始的contigs长度;       (3)在scaffolds组装步骤,开发了ctg distance evaluation模块,更精确地评估contigs间的距离;同时开发了scaf construction模块,以新的连接单位来组装scaffold,从而提升scaffolds的连接准确率及长度。 图1  基因组de novo测序及拼接组装流程经过以上几步,最终简单基因组的组装结果至少应达到contig N50>20K,scaffold N50&

12、gt;300K。 4、复杂基因组(二倍体杂合)的解决方案?答:针对复杂基因组中二倍体杂合基因组,诺禾致源开发了NOVOheter软件,成功实现了二倍体杂合基因组组装。与SOAPdenovo相比,NOVOheter软件组装二倍体杂合基因组的技术创新主要体现在以下几个方面:(1)通过高深度测序(200-300X)将基因组上的杂合和纯合区域分开;(2)利用reads信息和PE关系连接杂合位点,延长原始contigs:在杂合部分间距离较短的情况下,利用reads信息将杂合位点连接起来,若杂合部分间距离较长时,利用Pair-End关系连接杂合位点(所以需要加入更多类型的小片段文库,以连接不同距离的杂合位

13、点),从而提高了contigs的长度,为后续组装打下基础(图3); 图3 基于NOVOheter软件构建contigsa:利用深度信息区分杂合部分(覆盖度为n)和纯合部分(覆盖度为2n);b:若杂合部分的距离较短(如60bp),则可利用reads信息将杂合位点连接起来;c:若杂合部分的距离较长(如400bp),则利用Pair-End关系,将杂合位点连接起来;d:得到杂合contigs。注:图中不同颜色的点表示杂合位点。(3)分区域构建scaffolds:同样利用contigs深度信息区分纯合contigs和杂合contigs;利用Pair-End关系将纯合contigs,杂合contigs分别

14、组装成scaffolds;最后将相邻的纯合contigs和杂合contigs进行连接,构建更长的scaffolds。 5、如何评价组装结果?答:常染色体区的覆盖度:评价基因组常染色体区的覆盖度,可以用BAC或者是Fosmid序列来评估;把已公布或者客户提供的BAC或fosmid克隆序列作为Refrence,将拼接完成的基因组序列map回已知的BAC或者fosmid序列上,检查拼接的序列对已知序列的覆盖度到什么水平。        基因区的覆盖度:评价基因区的覆盖度,可以用EST序列或者是转录组序列来评估;把已公布或者客户提供

15、的EST或转录组序列作为query序列map到拼接完成的基因组序列上,检查拼接序列对已知序列的覆盖度是达到什么水平。 6、影响基因组组装的因素?答:基因组的重复序列和杂合度,是否污染以及基因组的倍性情况。 7、基因组项目的标准生物信息分析的内容?答:基因组项目的标准生物信息分析的内容如下:(1)数据处理;(2)基因组组装:            基因组评估:基因组大小、GC含量、复杂序列、杂合度评;        &

16、#160;  组装:数据纠错;Contig、Scaffold组装;Gap填充;组装质量分析、评估和结果统计;(3)基因组注释:重复序列注释;基因预测;基因组功能注释;非编码RNA注释;(4)比较基因组学分析:            基因家族鉴定;           基因组共线性分析;           全基因组复制分析(动物:WGAC;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论