版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、转录组测序转录组测序(RNA-Seq)Jun YangRNA-Seq 的技术背景的技术背景 RNA-Seq又称又称转录组高通量测序转录组高通量测序(transcriptome sequencing)或称为或称为全转录组鸟枪法测序全转录组鸟枪法测序(Whole Transcriptom Shotgun Sequencing WTSS) 2005年以来年以来, 以以Roche 公司的公司的454 技术、技术、Illumina 公司的公司的Solexa 技术和技术和ABI 公司的公司的SOLiD 技术为标技术为标志的新一代测序技术诞生志的新一代测序技术诞生, 之后之后HelicosBioscienc
2、es 公司又推出公司又推出单分子测序单分子测序(Single molecule sequencing, SMS)技术。新一代测序又称作深度技术。新一代测序又称作深度测序或高通量测序。测序或高通量测序。 转录组是特定组织或细胞在某一功能状态下所能转录组是特定组织或细胞在某一功能状态下所能转录出来的所有转录出来的所有RNA的总和,包括的总和,包括mRNA和非编和非编码码RNA。 转录组(转录组(transcriptome)广义上指某一生理条件广义上指某一生理条件下,细胞内所有转录产物的集合,包括信使下,细胞内所有转录产物的集合,包括信使RNA、核糖体核糖体RNA、转运、转运RNA及非编码及非编码R
3、NA;狭义上指;狭义上指所有所有mRNA的集合。蛋白质是行使细胞功能的主的集合。蛋白质是行使细胞功能的主要承担者,蛋白质组是细胞功能和状态的最直接要承担者,蛋白质组是细胞功能和状态的最直接描述,转录组成为研究基因表达的主要手段,转描述,转录组成为研究基因表达的主要手段,转录组是连接基因组遗传信息与生物功能的蛋白质录组是连接基因组遗传信息与生物功能的蛋白质组的必然纽带,组的必然纽带,转录水平的调控是目前研究最多转录水平的调控是目前研究最多的,也是生物体最重要的调控方式。的,也是生物体最重要的调控方式。 转录组?转录组?转录本转录本All transcripts All mRNAsTotal RN
4、A样品检测样品检测 OD260/280:1.82.2; RNA 28S:18S 1.0; RIN7 ; 样品总量不低于样品总量不低于15ug; 样品浓度:样品浓度:total RNA浓度不低于浓度不低于400ng/ul。 样品样品RNA准备准备2. 测序文库构建测序文库构建 使用使用oligo dT微珠纯化微珠纯化mRNA mRNA片段化处理片段化处理 反转录反应合成合成双链反转录反应合成合成双链cDNA 双链双链DNA末端修复及末端修复及3末端加末端加A 使用特定的测序接头连接使用特定的测序接头连接DNA片段两片段两端端 高保真聚合酶扩增构建成功的测序文高保真聚合酶扩增构建成功的测序文库库3
5、. DNA成簇(成簇(Cluster)扩增)扩增4. 高通量测序(高通量测序(Illumina Genome Analyzer IIx) 5. 数据分析数据分析 原始数据读取原始数据读取 与数据库比对并进行注释与数据库比对并进行注释 深层次数据分析深层次数据分析实验流程标准信息分析流程标准信息分析流程生物信息分析生物信息分析基本信息分析基本信息分析 数据量产出:数据量产出:2Gb per sample 测序策略:测序策略:HiSeq2000, PE91 or 101 插入片段大小:插入片段大小:200 bps 测序质量控制:测序质量控制:Q20% 80相关概念相关概念 高通量测序中,每测一个碱
6、基会给出一个相应的质量值,高通量测序中,每测一个碱基会给出一个相应的质量值,这个质量值是衡量测序准确度的。这个质量值是衡量测序准确度的。Q20与与Q30则表示质量则表示质量值大于等于值大于等于20或或30的碱基所占百分比。的碱基所占百分比。 Q20值是指的测序过程碱基识别过程中,对所识别的碱基值是指的测序过程碱基识别过程中,对所识别的碱基给出的错误概率。给出的错误概率。 质量值质量值Q20,错误识别概率是错误识别概率是1%,即正确率是即正确率是99%;质量值质量值Q30,错误识别概率是错误识别概率是0.1%,即正确率是即正确率是99.9%;质量值质量值Q40,错误识别概率是错误识别概率是0.0
7、1%,即正确率即正确率99.99%;Q“N”0的质量值,就是正确率有的质量值,就是正确率有N个个9的百分比。的百分比。 N50 即覆盖即覆盖50%所有核苷酸的最大所有核苷酸的最大Unigene长度或覆盖长度或覆盖 50%所有核苷酸的最大序列重叠群长度。所有核苷酸的最大序列重叠群长度。相关概念相关概念 高通量测序时,在芯片上的每个反应,会读出一条序列,高通量测序时,在芯片上的每个反应,会读出一条序列,是比较短的,叫是比较短的,叫read,它们是原始数据;有很多,它们是原始数据;有很多reads通通过片段重叠,能够组装成一个更大的片段,称为过片段重叠,能够组装成一个更大的片段,称为contig;多
8、个多个contigs通过片段重叠,组成一个更长的通过片段重叠,组成一个更长的scaffold;一;一个个contig被组成出来之后,鉴定发现它是被组成出来之后,鉴定发现它是编码蛋白质编码蛋白质的基的基因,就叫因,就叫singleton;多个;多个contigs组装成组装成scaffold之后,鉴定之后,鉴定发现它编码蛋白质的基因,叫发现它编码蛋白质的基因,叫unigene。 Unigene是是UniqueGene的英文缩写,意为广泛通用的基因的英文缩写,意为广泛通用的基因数据库,通过电脑对相同基因座数据库,通过电脑对相同基因座(Locus)的收集整理集合的收集整理集合形成一个非冗余的基因数据库
9、。形成一个非冗余的基因数据库。 相关数据库概念相关数据库概念NR是是NCBI里的非冗余蛋白数据库,即里的非冗余蛋白数据库,即NCBI的的blastp程序中的程序中的NR数据库数据库 ,我们可,我们可以用自己的以用自己的query序列,序列,blast搜索这个数据库,得到这些搜索这个数据库,得到这些query序列的具有序列相似序列的具有序列相似性的蛋白序列。性的蛋白序列。NT:NCBI的的blast页面,选择页面,选择nucleotide blast,数据库选,数据库选others,也就是(,也就是(nr/nt). SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所是经过注
10、释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维维护。护。 KEGG(Kyoto Encyclopedia of Genes and Genomes,京都基因与基因组百科全书,京都基因与基因组百科全书)是是基因组破译方面的数据库。基因组破译方面的数据库。COG是是Cluster of Orthologous Groups of proteins(蛋白相邻类的聚簇)的缩写,(蛋白相邻类的聚簇)的缩写,即直系同源基因数据库。即直系同源基因数据库。 COG是对基因产物进行直系同源分类的数据库,每个是对基因产物进行直系同源分类的数据库,每个COG蛋白都被假定来自祖先蛋白,蛋白都被假定来自祖先蛋
11、白,COG数据库是基于细菌、藻类、真核生物具有数据库是基于细菌、藻类、真核生物具有完整基因组的编码蛋白、系统进化关系进行构建的,我们将完整基因组的编码蛋白、系统进化关系进行构建的,我们将Unigene和和COG数据库数据库进行比对,预测进行比对,预测Unigene可能的功能并对其做功能分类统计,从宏观上认识该物种可能的功能并对其做功能分类统计,从宏观上认识该物种的基因功能分布特征。的基因功能分布特征。GO(gene ontology)是基因本体联合会是基因本体联合会(Gene Onotology Consortium)所建立的数据库,所建立的数据库,旨在建立一个适用于各种物种的,堆积因和蛋白质
12、功能进行限定和描述的,并能随旨在建立一个适用于各种物种的,堆积因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标准着研究不断深入而更新的语言词汇标准 相关概念相关概念 基因的编码区基因的编码区(Coding region),亦称为),亦称为“编码序列编码序列”(Coding sequence)或)或“CDS”(Coding DNA Sequence),是指),是指mRNA序列中编码蛋白质的那部分序列。序列中编码蛋白质的那部分序列。CDS也等同于也等同于ORF(open reading frame)是编码蛋白质的序列,以是编码蛋白质的序列,以ATG开始开始-终止密终止密码子结
13、束。码子结束。 环境转录组也可以这样做环境转录组也可以这样做使用使用RNA-seq手段对实验样本进行转录组分析,关注个体或者组织器手段对实验样本进行转录组分析,关注个体或者组织器官在官在不同环境条件下不同环境条件下基因表达的动态变化,挖掘生物对逆境适应的分基因表达的动态变化,挖掘生物对逆境适应的分子机制。子机制。方案设计思路建议:方案设计思路建议:(1)植物个体受到较多环境因素的影响,包括温度、干旱、涝害、)植物个体受到较多环境因素的影响,包括温度、干旱、涝害、光照、盐碱、污染物、虫害以及病原菌侵染等等光照、盐碱、污染物、虫害以及病原菌侵染等等,相应采取的应答策相应采取的应答策略也较为多样,可
14、以通过激素信号分子和细胞表面受体调控相关基因略也较为多样,可以通过激素信号分子和细胞表面受体调控相关基因的表达。的表达。建议设置多个关键处理时间点,建议设置多个关键处理时间点,研究植物个体短时间内和长研究植物个体短时间内和长时间内转录组动态变化趋势;揭示同一器官组织在不同环境胁迫下或时间内转录组动态变化趋势;揭示同一器官组织在不同环境胁迫下或不同器官组织在同一环境胁迫下基因的时空表达模式;不同器官组织在同一环境胁迫下基因的时空表达模式;(2)动物器官组织样本主要来源畜牧动物、水产动物、昆虫、人以)动物器官组织样本主要来源畜牧动物、水产动物、昆虫、人以及模式动物小鼠和线虫,关注点为温度处理、光照
15、处理、污染物处理、及模式动物小鼠和线虫,关注点为温度处理、光照处理、污染物处理、病原菌病原菌/虫感染、用药前后特异性表达基因,根据基因表达模式分析虫感染、用药前后特异性表达基因,根据基因表达模式分析揭示器官组织响应环境胁迫过程的分子机制;揭示器官组织响应环境胁迫过程的分子机制;(3)对于微生物样本,主要通过环境转录组分析不同培养环境、次)对于微生物样本,主要通过环境转录组分析不同培养环境、次生代谢产物积累以及毒素产生差异基因表达,解析环境诱导活性物质生代谢产物积累以及毒素产生差异基因表达,解析环境诱导活性物质生产的分子机理。生产的分子机理。环境转录组也可以这样做环境转录组也可以这样做有参考基因
16、组序列生物信息分析有参考基因组序列生物信息分析 基因结构优化基因结构优化 鉴定基因可变剪接鉴定基因可变剪接 预测新转录本预测新转录本 SNP 分析分析 基因融合鉴定基因融合鉴定有参考基因组序列信息分析流程有参考基因组序列信息分析流程无参考基因组生物信息分析无参考基因组生物信息分析 Unigene功能注释功能注释 Unigene的的GO分类分类 Unigene代谢通路分析代谢通路分析 预测编码蛋白框(预测编码蛋白框(CDS) Unigene表达差异分析表达差异分析 Unigene在样品间的差异在样品间的差异GO分类和分类和Pathway富集性分析富集性分析De novo reads组装流程组装流程Unigene GO 分类分类Unigene COG 功能分类功能分类基因表达差异分析基因表达差异分析N1:total tag Number in sample A N2:total tag Num
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 陕西科学活动方案
- 青少年活动全年活动方案
- 门店窗帘活动方案
- 长征游戏活动方案
- 银行中医活动方案
- 门窗促销活动方案
- 银行下乡团建活动方案
- 青少儿课堂活动方案
- 重庆书店活动方案
- 锦州春节活动方案
- 《死亡时间推断》课件
- 关节病变的康复治疗与护理
- 韶音供应商QSA+QPA审核-checklist-V1
- 反流性食管炎护理查房
- 催化剂工程课件
- 六上语文第四单元习作《笔尖流出的故事》名师指导和佳作点评(10篇)
- GB/T 6739-2022色漆和清漆铅笔法测定漆膜硬度
- 定积分公开课一等奖市优质课赛课获奖课件
- 《教育行动研究》课件
- GB/T 231.2-2012金属材料布氏硬度试验第2部分:硬度计的检验与校准
- 高考地理微专题“副高”及其影响 课件
评论
0/150
提交评论