版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、动植物基因组 de novo 常见问题 基础知识1、什么是基因组 de novo 测序答:对某一物种进行高通量测序, 利用高性能计算平台和生物信息学 方法,在不依赖于参考基因组的情况下进行组装, 从而绘制该物种的 全基因组序列图谱。2、普通基因组的定义答:单倍体,纯合二倍体或者杂合度 <%,且重复序列含量 <50%, GC 含量为 35%到 65%之间的二倍体。3、复杂基因组的定义答:杂合率,重复序列含量50%, GC含量处于异常的范围(GC 含量V 35%或者GC含量> 65%=的二倍体,多倍体。诺禾致源对二倍体复杂基因组进一步细分为微杂合基因组(%V 杂合率V %=、高杂
2、合基因组(杂合率)以及高重复基因组(重 复序列比例 >50%)。4、怎么查询基因组的大小答:查询植物基因组大小的网站:; 查询动物基因组大小的网站:。5、基因组的项目周期6、基因组承诺的组装指标答:简单基因组:contig N50>20K scaffold N50>500K复杂基因组:con tig N50>20K scaffold N50>300K样品要求1、动植物基因组测序对取样有什么要求答:植物:需要黑暗无菌条件下培养的黄化苗、组培苗,基因组样本 量500卩g1mg,越多越好。选择纯合或杂合度尽可能小的样品(杂 合度<%)。动物:应选取肌肉、血液等含脂
3、肪较少的部位取样,尽量选择同一个体取样,以减少个体差异性对后续拼接的影响。基因组样本量500卩g1mg,越多越好。样本的性别决定模式是 XY型,则尽量选择 雌性个体(XX型),如果是ZW型,则尽量选择雄性个体(ZZ型)。2、全基因组测序对 DNA 样本有什么要求答:(1)样品需求量(单次):小片段文库,3卩g; 2Kb5Kb大 片段文库,20卩g; 10Kb20Kb大片段文库,60卩g;完成全基因 组测序样品DNA量需求约为500卩g1mg;(2)样品浓度:对于小片段文库,50ng/口 I,对于2Kb5Kb 大片段文库,150ng/口 I;对于10Kb20Kb大片段文库,150ng/ 1;(
4、3)样品纯度:OD260/280=;无蛋白质、RNA污染或肉眼可见杂质污染;(4)样品质量:基因组完整。如需建立5Kb的插入片段文库,则电泳结果,基因组DNA主带23Kb;脉冲场电泳结果,基因组DNA主带40Kb。文库构建1、基因组测序的文库构建及测序策略答:简单基因组:180bp、500bp、2K、5K 10K; PE100测序;测序深度一般为 100-150X;复杂基因组: 180bp、300bp、500bp、2K、5K、10K、20K;PE100 测序;测序深度一般为 200-300X。2、DNA Fragment文库的定义、用途及实验流程答:(1)定义:将基因组或大片段DNA随机打断成
5、v 800bp的小片 段(主要为200bp、300bp、500bp等),加上特定接头做成 DNA文 库后直接对DNA片段进行单末端(Single-End或者双末端(Paired-E nd测序,不需要克隆到细菌中,可以获得大量的DNA序列信息。(2)用途:DNA Fragment文库制备的整个过程只需2天,单末 端测序长度可达100bp,双末端为200bp。该技术测序通量高,可在 全基因组水平上最大限度的、 完整的获取基因组及多态性信息。 广泛 地应用于基因组的de novo测序、基因组重测序、BAC测序和长片段 PCR产物测序等。3)实验流程:基因组DNA随机打断1dna片殿的末端修真4将入到
6、DNA片段的3来踹在DNA片段的末錨扣上特定接咲IFCR扩壇连上接头的DNA片段1文康检测DM在cBot的成簇扩僧1上机测序J|生物信息分析3、DNA mate-pair文库的定义、用途及实验流程答:(1)定义:首先将基因组DNA随机打断到特定大小(2-20kb); 然后经末端修复,生物素标记和环化等实验步骤后,再把环化后的DNA分子打断成400-600bp的片段并通过带有链亲和霉素的磁珠将带 有生物素标记的片段捕获。这些捕获的片段再经末端修饰和加上特定 接头后建成大片段文库,不需要克隆到细菌中,直接在lllumina测序仪上进行测序。通过大片段文库构建,从而获得基因组中较大跨度(2-20kb
7、)片段两端的序列。(2) 用途:DNA Mate-pair文库制备的整个过程需要5天,这种 从较大跨度两端所获得的序列对基因组 de novo项目的组装和基因组 结构变异发掘具有非常重要的作用。(3) 实验流程:基因组DNA髄机打断将定六小片段3-10吐I末端修具生物壽标记I啣化I获得来自片显两輪4fl0-600bp的DMA片段1储怖、加接头FCK扩離上接头的DNA片段I文库检测iDNA S cBot上的廉谨扩增I上机别陣I生物信鳥分析信息分析1、什么是 Read Con tig、Scaffold答:Read:测序读到的碱基序列片段,测序的最小单位;Contig:由reads通过对overla
8、p区域拼接组装成的没有 gap的序列段;Scaffold:通过pair ends信息确定出的contig排列,中间有gap。2、什么是 N50, N70, N90答:把组装出的con tigs或scaffolds从大到小排列,当其累计长度刚 刚超过全部组装序列总长度 50%时,最后一个 contig 或 scaffold 的大 小即为N50的大小,N50对评价基因测序的完整性有重要意义;N70和 N90 的计算方法与 N50 类似,只是百分数变为 70%或 90%。3、普通基因组的解决方案答:诺禾采用自主升级的 SOAPde novol进行普通基因组组装。组装流程(图 1)包括:(1)构建不同
9、长度的插入片段文库;(2)构建 de Brujin 图;(3)化简 de Brujin 图;(4)构建 contigs;(5)构建 scaffolds;(6)补 gaps;诺禾致源的技术升级包括:(1)开发了新的序列纠错模块,降低测序错误对组装的影响;(2) 在con tigs组装步骤,开发了 Step K连接模块,以混合拼接 算法连接co ntigs,从而提升原始的con tigs长度;(3) 在 scaffolds组装步骤,开发了 ctg distanee evaluation模块, 更精确地评估con tigs间的距离;同时开发了 scaf con struction模块, 以新的连接单
10、位来组装scaffold,从而提升scaffolds的连接准确率及 长度。Fragnifinl 目nd p ai r-e-d-er*d at Hjrairies with "tfarierit insert skev2-10 KbRoprosHnl: rood 空叫uace using de 日厲即“ grarphRonww erroneous conrocicn% on It%>(i)Cllp ilp*ii Remove low- (jta JRagcHv? coverage links tiny repeats(ivJMarg bubbles图1基因组de novo测序及拼
11、接组装流程经过以上几步,最终简单基因组的组装结果至少应达到co ntigN50>20K scaffold N50>300K4、复杂基因组(二倍体杂合)的解决方案答:针对复杂基因组中二倍体杂合基因组,诺禾致源开发了NOVOheter 软件,成功实现了二倍体杂合基因组组装。 与 SOAPdenovo 相比,NOVOheter软件组装二倍体杂合基因组的技术创新主要体现在 以下几个方面:(1)通过高深度测序(200-300X)将基因组上的杂合和纯合区域分 开;(2)利用reads信息和PE关系连接杂合位点,延长原始con tigs:在 杂合部分间距离较短的情况下,利用reads信息将杂合位
12、点连接起来, 若杂合部分间距离较长时,利用Pair-End关系连接杂合位点(所以需 要加入更多类型的小片段文库,以连接不同距离的杂合位点),从而 提高了 contigs 的长度,为后续组装打下基础(图 3);hetercontigs图3基于NOVOheter软件构建con tigsa:利用深度信息区分杂合部分(覆盖度为 n)和纯合部分(覆盖度 为 2n);b:若杂合部分的距离较短(如 60bp),则可利用reads信息将杂合 位点连接起来;c:若杂合部分的距离较长(如 400bp),贝y利用Pair-End关系,将 杂合位点连接起来;d:得到杂合 con tigs。注:图中不同颜色的点表示杂合
13、位点。(3)分区域构建scaffolds:同样利用con tigs深度信息区分纯合con tigs 和杂合con tigs;利用Pair-E nd关系将纯合con tigs,杂合con tigs分别 组装成scaffolds;最后将相邻的纯合con tigs和杂合con tigs进行连接, 构建更长的 scaffolds。5、如何评价组装结果答:常染色体区的覆盖度: 评价基因组常染色体区的覆盖度, 可以用 BAC或者是Fosmid序列来评估;把已公布或者客户提供的 BAC或 fosmid克隆序列作为Refrenee,将拼接完成的基因组序列map回已 知的BAC或者fosmid序列上,检查拼接的序列对已知序列的覆盖度 到什么水平。基因区的覆盖度:评价基因区的覆盖度,可以用EST序列或者是 转录组序列来评估;把已公布或者客户提供的EST或转录组序列作为 query 序列 map 到拼接完成的基因组序列上, 检查拼接序列对已知序 列的覆盖度是达到什么水平。6、影响基因组组装的因素 答:基因组的重复序列和杂合度,是否污染以及基因组的倍性情况。7、基因组项目的标准生物信息分析的内容答:基因组项目的标准生物信息分析的内容如下:(1)数据处理;(2)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年九州职业技术学院单招职业倾向性考试题库附答案详解(黄金题型)
- 2026年云南工程职业学院单招职业技能考试题库带答案详解ab卷
- 2026年上海电机学院单招职业适应性测试题库含答案详解(新)
- 2026年云南交通运输职业学院单招职业技能测试题库附答案详解(培优)
- 2026年上饶职业技术学院单招职业倾向性测试题库附答案详解(a卷)
- 2026年上海工程技术大学单招职业适应性考试题库附参考答案详解(培优)
- 2026年云南三鑫职业技术学院单招职业倾向性考试题库带答案详解(模拟题)
- 2026年上海应用技术大学单招职业倾向性测试题库附答案详解(培优)
- 2026年云南省怒江傈僳族自治州单招职业适应性考试题库及答案详解(夺冠)
- 2026年丽水职业技术学院单招综合素质考试题库附参考答案详解(综合题)
- 2026三维设计一轮总复习高中化学-第19讲 硫及其化合物
- 加油站新员工岗前培训内容记录
- 山西省晋中市2026届化学高一上期末考试试题含解析
- 《销售技巧提升》课件
- 西安民宿管理制度规定
- 《防御性驾驶》课件
- 口腔医学课件:口腔科学全套教学课件
- 2025年度医疗设备采购担保函合同范本
- 产业链韧性理论研究新进展与提升路径
- 2024年个人居间保密协议3篇
- 2024年苏州卫生职业技术学院单招职业适应性测试题库及答案解析
评论
0/150
提交评论