版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、生物信息学在高通量测序数据分析中的应用主 讲 人:李广林提 纲高通量测序技术的介绍高通量测序技术的主要应用生物信息学在高通量测序数据中的主要应用高通量测序简介高通量测序:一次性对几百万到十亿条DNA分子进行并行测序,又称为下一代测序技术,其使得可对一个物种的转录组和基因组进行深入、细致、全貌的分析,所以又被称为深度测序。 High-throughput Sequencing Next Generation Sequencing Deep Sequencing3主要测序技术 第一代测序技术Sanger sequencing (1980s)第二代测序技术(next generation seque
2、ncing, NGS)Roche/454 (2005)Illumina/Solexa (2006)Life/APGs SOLiD (2007)Life/APGs Ion torrent (2010)第三代测序技术Pacific Biosciences single molecule sequencing (2011)Nanopore sequencing测序的基本反应原理:DNA聚合反应第一代测序技术 Sanger 法结合荧光标记和毛细管电泳测序峰图ABI 3730 sequencerRead length: 1,000 bpAccuracy: 99.999%Cost: $0.5/kbThro
3、ughput: 6x105 bp/daySanger vs NGSSangerNGS样品量大小是否需要电泳是否通量低高单位成本高低准确率高偏低读长长短高通量测序技术Roche/454 pyrosequencing以固化了引物的玻璃微球为中心形成油包水结构的乳滴,每个乳滴都是一个PCR反应的微量反应器(通过控制测序文库DNA的浓度和微球悬浊液的浓度,保证大多数微球只结合一条DNA模板)。经过多轮循环反应,每个微球表面都结合了数千个相同的拷贝。变性后,使微球上结合的都是单链DNA片段。富集微球,转移到刻有大规模微孔阵列的微孔板上,每个微孔只容纳一个微球。高通量测序技术Roche/454 pyros
4、equencing顺次向流通池中加入4种dNTP中的一种,流过微孔板的一面。当dNTP与脱氧核糖骨架连接后释放出焦磷酸,在与dNTP一起加入的ATP硫酰化酶和荧光素酶作用下产生一系列级联反应,放出不同的光信号。每个微孔中光信号的有无,就表明对应的dNTP是否连接到了片段上。454测序的原理:焦磷酸测序逐次加入dATP等,每加入一种,检测信号,清洗再加下一种。ATP硫酸化酶5-磷酰硫酸荧光素酶高通量测序技术Roche/454 pyrosequencing优势:读长长(max 1 kb, GS FLX Titanium XL+),运行时间短(10-23 hours)主要错误来源:难以准确判定连续碱
5、基(经过3次级联化学反应产生的荧光信号与连接上碱基的数量线性关系较差),容易产生Indel劣势:通量相对偏低(max 700M),单位成本高GS FLX+ SystemGS Junior System高通量测序技术Illumina/Solexa单链DNA两端加上非对称的通用接头(包括测序引物),接头与事先固定在固相芯片表面的序列互补单链DNA结合到芯片表面形成桥式结构。然后使用接头引物进行PCR扩增变性后在一个芯片上可以形成上亿个不相关的单链DNA分子簇,其一端固定在芯片表面,另一端是自由的高通量测序技术Illumina/Solexa使用测序引物从自由的通用接头一侧开始测序反应。测序使用的dN
6、TP每种碱基被不同的荧光基团标记,同时脱氧核糖的3-OH被封闭,这样每轮测序循环只能延伸一个核苷酸。读取碱基荧光信号,就能知道这一轮每个簇结合上的是什么核苷酸然后切除荧光基团,打开被封闭的3-OH,继续进行下一轮反应Solexa测序的原理:可逆阻断高通量测序技术Illumina/Solexa优势:通量最高 (max 600Gb, HiSeq 2500)主要错误来源:同一个簇内不同DNA链延伸情况不同(相位差),导致读取错误劣势:读长较短 (max 250bp, HiSeq 2500),运行时间长(1-14 days,HiSeq 2500大幅提升了运行速度),数据存储和分析难度大。MiSeqHi
7、Seq 2000Genome Analyzer II高通量测序技术AB/SOLiDSOLiD System5500 seriesSOLiD 测序探针介绍类似454的微球反应体系,但使用连接反应。SOLiD Sequencing 每次测序反应的第1轮,测序引物1与接头序列互补形成平末端,然后与探针连接。当探针1,2位与待测序列模板互补并连接上之后,获取荧光信息。然后在探针的5,6位之间切开探针,进行下一个连接反应。这样重复多次,可以获得模板序列的第1-2, 6-7, 11-12位置的信息。高通量测序技术Life/APGs SOLiD优点:由于使用双碱基编码技术(two-base encoding
8、),准确率最高,通量高 (max 300 Gb)缺点:读长最短 (max 75 bp),运行时间长(7-10 day),数据储存和分析难度大5500 Series Genetic Analysis Systems高通量测序技术Life/APGs Ion torrent PGM454发明者的新作品测序反应在微阵列芯片上的微反应池中进行。每个dNTP结合到延伸链上,会释放出一个H+,pH值变化会导致电位变化。检测每次dNTP流过的电位差变化,就能知道该dNTP是否连接上去。高通量测序技术Life/APGs Ion torrent PGM优点:速度快(5%)的单核苷酸变异群体SNP callingA
9、 T C G A T C G A A T T C G T A C G A T G C T T A G C T A G C A T A C GReferenceReadsA T C G A T C G C G T A C G A T G C T T A G C T A G C A T A C GShort InDel 检测寻找SV (structure variation)Copy number variation (CNV)需要一定的测序覆盖度 (10 x),mapping depth也需要仔细检查转录组Small RNA降解组TextRNADGE生物信息学在RNA omics方面的应用RNA
10、高通量测序转录组Small RNA降解组TextRNADGERNA测序转录组测序转录组测序简介转录组即特定细胞在某一功能状态下所能转录出来的所有RNA的总和,包括mRNA和非编码RNA(Non-codingRNA)。 第二代测序系统可精确检测单个碱基,并且不受到研究中先验信息的干扰,科研人员能够快速地获得某一物种特定器官或组织在某一状态下几乎所有mRNA转录本序列,从而能够开展:UTRs区域界定、可变剪切研究、低丰度新转录本发现、融合基因鉴定、cSNP(编码序列单核苷酸多态性)研究等。 转录组研究内容转录组数据评估基因表达注释差异表达基因鉴定、聚类、Gene ontology 、KEGG pa
11、thway分析基因结构优化新转录本可变剪接融合基因SNP转录组测序流程无参考序列测序流程有参考序列测序流程转录组主要分析内容无参考序列转录组分析内容有参考序列转录组分析内容1 测序数据产量统计,数据成分和质量评估;2 Contig及Scaffold组装、长度分布3 Unigene的长度分布和功能注释,GO分类,Pathway分析,差异表达分析4 蛋白功能预测与分类,差异表达基因GO富集和 Pathway富集分析。 1 基本数据统计,比对参考序列2 序列在基因组上在分布3 测序深度分析、随机性评估和基因差异表达分析4 新基因预测,基因可变剪接鉴定和基因融合鉴定等。基因融合分析基因嵌合分析流程 M
12、IPOL1-DGKB基因融合模式 Genomic intergenic regionReadsclusterPaired Readsdistribution优化基因结构鉴定新的转录本Paired-End (PE) ReadsReads 比对到参考序列基因间区域鉴定可变剪接( Alternative Splicing )exon1exon2exon3exon1exon2exon3exon1exon3common readsjunction readsmRNA分析RNA水平SNP转录组重测序比对软件:SOAPDe novo 转录组测序: 组装软件:SoapDenovo比对软件: SoapSNP转录
13、组Small RNA降解组TextRNADGERNA测序小RNA测序Small RNA:是长度在18-40nt的非编码RNA,在基因表达调控中发挥着重要的作用。小RNA的产生总RNA通过切胶回收CATGGCTGAAGTCAAGGATGTCATGGAAGGCAATCCCACATACATGCTAGAAAACATTTAATACATGCTAGAAAACATTTAATACATGGTTGAATCTGAAACCCTCATGGTTGAATCTGAAACCCTCATGGCTGAATCTGAGGCTCTCATGGCTGAATCTGAGGCTCTCATGCTAGAAAACATTTAATACATGCTAGAAAACA
14、TTTAATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGCTGAAGTCAAGGATGTCATGGCTGAAGTCAAGGATGT测序CATGCTAGAAAACATTTAATACATGCTAGAAAACATTTAATACATGCTAGAAAACATTTAATACATGCTAGAAAACATTTAATACATGGTTGAATCTGAAACCCT CATGGTTGAATCTGAAACCCTCATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCA
15、CATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATAmiRNAsiRNArepeatunann比对注释和预测Small RNA测序Small RNA分析small RNA 的长度分布;rRNA、tRNA、snRNA、snoRNA、miRNA、piRNA、siRNA的注释;物种特有的miRNA预测;miRNA的靶基因预测;对预测的靶基因进行GO分析和KEGG分析;对已知miRNA进行样品间差异分析和聚类分析。Small RNA研究技术比较技术小 RNA 克隆芯片小RNA测序
16、原理Sanger 测序杂交新一代测序通量低高高小 RNA 数据库依赖性无高有时背景噪音低高低表达谱鉴定新小RNAX检测低拷贝小RNAX鉴定SNVX转录组Small RNA降解组TextRNADGERNA测序降解组测序降解组:含有5单磷酸的mRNA降解片段的集合。降解组测序高通量测序在RNA研究中的应用测序技术转录组测序(Transcriptome)数字基因表达谱DGESmall RNA降解组测序研究对象mRNAmRNASmall RNAmRNARead 长度90 PE50SE50SE50SE鉴定新分子OXOO表达谱研究OOOO基因结构分析OXOX筛选分子标记OXXXbiomarkerOOOO融合基因OXXX64PE, paired-end sequencing; SE, single-end sequencing; O, yes; X, noChIP-SeqChIP-Chromatin Immunoprecipitation染色质免疫共沉淀,是指通过蛋白免疫相互作用,用抗体把和染色质相互作用的蛋白,如组蛋白、转录因子等,沉淀下来,从而获取与其相结合的DNA序列。ChIP-Seq就是通过高通量测序对ChIP所得到的序列进行测序,从而进行蛋白和DNA相互作用研究。ChIP
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年柔性显示面板与OLED发光材料项目公司成立分析报告
- 2026年宠物视频通话装置项目可行性研究报告
- 2026年大容量海上风机项目商业计划书
- 2026年智能厨房感应灯项目公司成立分析报告
- 2026年分布式储能项目可行性研究报告
- 2026年宠物食品 跨境出海项目可行性研究报告
- 2026年企业文化建设与组织管理题库
- 2026年现代人力资源管理员工关系管理模拟测试题及答案
- 2026年企业战略管理企业品牌建设与管理策略题目
- 2026年法务专员公司法律实务与案例分析法律测试题
- 2026年度黑龙江省交通运输厅所属事业单位公开招聘工作人员86人备考题库及参考答案详解(新)
- GB/T 32150-2025工业企业温室气体排放核算和报告通则
- 贵州省贵阳市南明区2025-2026学年度第一学期期末测评参考卷八年级历史试题(原卷版+解析版)
- 2025四川数据集团有限公司第四批员工招聘5人参考题库含答案解析(夺冠)
- 数字孪生技术服务协议2025
- 急性胰腺炎饮食护理方案
- 光伏柔性支架施工方案流程
- 汽机专业安全管理制度
- 电三轮科目一试题及答案
- 村级道路借用协议书
- 人工智能在安全监控领域的可行性报告
评论
0/150
提交评论