




已阅读5页,还剩64页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生物信息学在高通量测序数据分析中的应用 主讲人 李广林 提纲 高通量测序技术的介绍 高通量测序技术的主要应用 生物信息学在高通量测序数据中的主要应用 高通量测序简介 高通量测序 一次性对几百万到十亿条DNA分子进行并行测序 又称为下一代测序技术 其使得可对一个物种的转录组和基因组进行深入 细致 全貌的分析 所以又被称为深度测序 High throughputSequencingNextGenerationSequencingDeepSequencing 3 主要测序技术 第一代测序技术Sangersequencing 1980 s 第二代测序技术 nextgenerationsequencing NGS Roche 454 2005 Illumina Solexa 2006 Life APG sSOLiD 2007 Life APG sIontorrent 2010 第三代测序技术PacificBioscience ssinglemoleculesequencing 2011 Nanoporesequencing 测序的基本反应原理 DNA聚合反应 第一代测序技术Sanger法 结合荧光标记和毛细管电泳 测序峰图 ABI3730sequencer Readlength 1 000bpAccuracy 99 999 Cost 0 5 kbThroughput 6x105bp day SangervsNGS 高通量测序技术Roche 454pyrosequencing 以固化了引物的玻璃微球为中心形成油包水结构的乳滴 每个乳滴都是一个PCR反应的微量反应器 通过控制测序文库DNA的浓度和微球悬浊液的浓度 保证大多数微球只结合一条DNA模板 经过多轮循环反应 每个微球表面都结合了数千个相同的拷贝 变性后 使微球上结合的都是单链DNA片段 富集微球 转移到刻有大规模微孔阵列的微孔板上 每个微孔只容纳一个微球 高通量测序技术Roche 454pyrosequencing 顺次向流通池中加入4种dNTP中的一种 流过微孔板的一面 当dNTP与脱氧核糖骨架连接后释放出焦磷酸 在与dNTP一起加入的ATP硫酰化酶和荧光素酶作用下产生一系列级联反应 放出不同的光信号 每个微孔中光信号的有无 就表明对应的dNTP是否连接到了片段上 454测序的原理 焦磷酸测序 逐次加入dATP等 每加入一种 检测信号 清洗再加下一种 ATP硫酸化酶 5 磷酰硫酸 荧光素酶 高通量测序技术Roche 454pyrosequencing 优势 读长长 max1kb GSFLXTitaniumXL 运行时间短 10 23hours 主要错误来源 难以准确判定连续碱基 经过3次级联化学反应产生的荧光信号与连接上碱基的数量线性关系较差 容易产生Indel劣势 通量相对偏低 max700M 单位成本高 GSFLX System GSJuniorSystem 高通量测序技术Illumina Solexa 单链DNA两端加上非对称的通用接头 包括测序引物 接头与事先固定在固相芯片表面的序列互补单链DNA结合到芯片表面形成桥式结构 然后使用接头引物进行PCR扩增变性后在一个芯片上可以形成上亿个不相关的单链DNA分子簇 其一端固定在芯片表面 另一端是自由的 高通量测序技术Illumina Solexa 使用测序引物从自由的通用接头一侧开始测序反应 测序使用的dNTP每种碱基被不同的荧光基团标记 同时脱氧核糖的3 OH被封闭 这样每轮测序循环只能延伸一个核苷酸 读取碱基荧光信号 就能知道这一轮每个簇结合上的是什么核苷酸然后切除荧光基团 打开被封闭的3 OH 继续进行下一轮反应 Solexa测序的原理 可逆阻断 高通量测序技术Illumina Solexa 优势 通量最高 max600Gb HiSeq2500 主要错误来源 同一个簇内不同DNA链延伸情况不同 相位差 导致读取错误劣势 读长较短 max250bp HiSeq2500 运行时间长 1 14days HiSeq2500大幅提升了运行速度 数据存储和分析难度大 MiSeq HiSeq2000 GenomeAnalyzerII 高通量测序技术AB SOLiD SOLiDSystem 5500series SOLiD测序探针介绍 类似454的微球反应体系 但使用连接反应 SOLiDSequencing 每次测序反应的第1轮 测序引物1与接头序列互补形成平末端 然后与探针连接 当探针1 2位与待测序列模板互补并连接上之后 获取荧光信息 然后在探针的5 6位之间切开探针 进行下一个连接反应 这样重复多次 可以获得模板序列的第1 2 6 7 11 12 位置的信息 高通量测序技术Life APG sSOLiD 优点 由于使用双碱基编码技术 two baseencoding 准确率最高 通量高 max300Gb 缺点 读长最短 max75bp 运行时间长 7 10day 数据储存和分析难度大 5500SeriesGeneticAnalysisSystems 高通量测序技术Life APG sIontorrentPGM 454发明者的新作品测序反应在微阵列芯片上的微反应池中进行 每个dNTP结合到延伸链上 会释放出一个H pH值变化会导致电位变化 检测每次dNTP流过的电位差变化 就能知道该dNTP是否连接上去 高通量测序技术Life APG sIontorrentPGM 优点 速度快 2hours 准确度较高 只需要1次聚合反应 电位变化与碱基数量线性关系较好 成本低 芯片可升级缺点 读长较短 max200bp 通量较低 max 1G 已有升级版IonProton 号称比Iontorrent强100倍 Iontorrent318chip IonProton 高通量测序技术PacificBioscience ssinglemoleculesequencing 每个纳米孔底部固定一个已经结合了引物和模板的DNA聚合酶分子 每次测序反应加入一种荧光标记的dNTP核苷酸 聚合酶在检测空间内将其捕获后产生光曝 通过连续实时检测每个孔内的荧光信号 就快速测定了每个孔内的模板序列 高通量测序技术PacificScience ssinglemoleculesequencing 优点 读长长 max15kb 缺点 错误率高 单次反应错误率 15 经改进后使用多次循环重复 错误率降低到1 通量低 与读长有关 SMATCells Comparisonof5NGStechniques 最大数据产出量往往不是最大读长的文库HiSeq2500和IonProton均号称1天测1个30 x的人类基因组 成本 1000 高通量测序技术的主要应用 DNA测序基因组deno测序基因组重测序宏基因组 Metagenome 测序外显子组测序RNA测序转录组测序表达谱测序小RNA测序降解组测序表观基因组测序Chip seqClip seq 生物信息学在高通量测序数据中的主要应用 常用生物信息学分析平台与资源 常用编程分析平台 Perl BioPerlPython BioPythonR BioconductorJAVA BioJava常用网上资源 NCBISRA SequenceReadArchiveUCSCGenomeBrowserSEQanswers WiKi ForumforNGS 常用基因组拼接软件 VelvetRayABySSSOAPdenovoSSAKESHARCGSMIRAEdena 基因组比对软件 BLASTBLATMAQSOAPBowtieBWASSAHAELAND SNP分析软件 SAMToolsSOAPsnpNGS BackboneMAQSeqManNGenCLCBioGenomics 生物信息学在基因组分析方面的应用基因组denovo测序 对未知基因组序列的物种取样 动物 血液 肌肉植物 叶片 黄化叶 组培植株 估算基因组复杂度 大小 重复序列比例 杂合度 测序技术 Illunimapaired end为主Sanger 454 SOLiD为辅 PacBio目前也开始用于基因组测序补洞文库构建尽量随机打断 WGS wholegenomeshortgun Coveragedepth 覆盖深度or测序深度 每个碱基被测序的平均次数 是用来衡量测序数据量的首要参数 测序总数据量 基因组大小Coverageratio 覆盖率 被测序到的碱基占全基因组大小的比率 覆盖比率随覆盖深度升高而提高 亦受测序bias的影响 如illumina测序会受到GCbias的影响 而导致测序不均匀 理论上 完全随机打断 测序深度达到20 x即可覆盖整个基因组 实际工作中一般需要50 x以上 100bp读长 Reads长度越长越好 Denovoassembly Paired endreadsContigMate endreadsorlongreadsScaffoldGeneticmap FISH Chromosome 基因组注释 蛋白编码基因注释重复序列注释非编码RNA注释 主要是miRNA 基因组注释流程 全基因组成功测序案例 互叶梅基因组 国际互叶梅基因组测序项目 2013 TheAmborellaGenomeandtheEvolutionofFloweringPlants完全使用NGS测序组装最原始的被子植物互叶梅Amborella已被确定是所有其他存活被子植物的单一姊妹物种 是其他被子植物比较的关键参照物 Amborella植物测序基因组解决了 达尔文难解之谜 为什么几百万年前花在地球上突然激增的问题 基因组序列为地球生命史上重大事件提供了理论参考 开花植物的起源 全基因组测序不成功案例 麻风树基因组 日本 2011 Sanger结合NGS组装完成度低只进行了基本的基因组注释 发现许多与脂质合成及抗病相关的基因 推测这些都是麻风树不断适应干燥环境获得的性质 重测序 Resequencing 对已有参考基因组物种的不同基因型或不同个体的全基因组或部分区段进行测序 以获得个体之间的基因组和功能差异 用途 了解物种的起源和演化历程理解疾病的成因理解动植物性状的分子机制 全基因组关联分析 Genome wildassociationstudy GWAS SNP检测 注释和统计Indel检测 注释和统计SV检测 注释和统计CNV检测 注释和统计 变异检测 SNPcalling 考虑测序错误等位基因的SNP 考虑个体测序深度 ACSNVvsSNPSNV singlenucleotidevariation 单个个体中出现的单核苷酸变异 但是在癌症研究中 SNV往往指somaticmutation 体细胞突变 SNP singlenucleotidepolymorphism 在一个群体中出现一定频率 有人认为 5 的单核苷酸变异群体SNPcalling ShortInDel检测 寻找SV structurevariation Copynumbervariation CNV 需要一定的测序覆盖度 10 x mappingdepth也需要仔细检查 DGE 生物信息学在RNAomics方面的应用RNA高通量测序 DGE RNA测序 转录组测序 转录组测序简介 转录组即特定细胞在某一功能状态下所能转录出来的所有RNA的总和 包括mRNA和非编码RNA Non codingRNA 第二代测序系统可精确检测单个碱基 并且不受到研究中先验信息的干扰 科研人员能够快速地获得某一物种特定器官或组织在某一状态下几乎所有mRNA转录本序列 从而能够开展 UTRs区域界定 可变剪切研究 低丰度新转录本发现 融合基因鉴定 cSNP 编码序列单核苷酸多态性 研究等 转录组研究内容 转录组数据评估基因表达注释差异表达基因鉴定 聚类 Geneontology KEGGpathway分析基因结构优化新转录本可变剪接融合基因SNP 转录组测序流程 无参考序列测序流程 有参考序列测序流程 转录组主要分析内容 基因融合分析 基因嵌合分析流程 MIPOL1 DGKB基因融合模式 Genomicintergenicregion Readscluster PairedReadsdistribution 优化基因结构鉴定新的转录本 Paired End PE Reads Reads比对到参考序列基因间区域 鉴定可变剪接 AlternativeSplicing exon1 exon2 exon3 exon1 exon2 exon3 exon1 exon3 commonreads junctionreads mRNA 分析RNA水平SNP 转录组重测序比对软件 SOAPDenovo转录组测序 组装软件 SoapDenovo比对软件 SoapSNP DGE RNA测序 小RNA测序 SmallRNA 是长度在18 40nt的非编码RNA 在基因表达调控中发挥着重要的作用 小RNA的产生 总RNA 通过切胶回收 测序 比对 注释和预测 SmallRNA测序 SmallRNA分析 smallRNA的长度分布 rRNA tRNA snRNA snoRNA miRNA piRNA siRNA的注释 物种特有的miRNA预测 miRNA的靶基因预测 对
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 口腔充填知识培训内容课件
- 高二联考试卷及答案淮阴
- 8 正多边形和圆说课稿-2025-2026学年初中数学鲁教版五四制2012九年级下册-鲁教版五四制2012
- 口红专业知识培训总结课件
- 口服给药基础知识培训
- 5.2 珍惜师生情谊(说课稿)七年级道德与法治上册同步高效课堂(统编版2024)
- 2025年全球知名企业财务实习生招聘模拟题及解析
- 2025年乡镇医保服务站招聘中的常见问题解答及应对策略
- 2025年养老护理员初级面试模拟题集合含安宁疗护内容
- 2025年体彩中心法务部招聘考试高频考点梳理
- 预制混凝土板施工方案及技术措施
- 智能书架解决方案
- 五金厂生产管理方案
- 江苏省南京师范大学附属中学2023-2024学年高二上学期期初测试数学试题
- 海关法律法规培训制度
- (高清版)JTG 6310-2022 收费公路联网收费技术标准
- 快递实务(第2版)高职物流管理专业全套教学课件
- 线上平台运营方案
- 详细的电机分类讲解课件
- 《区域空间结构》课件
- 三品一标知识概述课件
评论
0/150
提交评论