基因组学考试重点_第1页
基因组学考试重点_第2页
基因组学考试重点_第3页
基因组学考试重点_第4页
基因组学考试重点_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章 大规模基因组测序的原理与方法1、基因组学是要揭示下述四种整合体系的相互关系:(1)基因组作为信息载体 (碱基对、重复序列的整体守恒与局部不平衡的关系)(2)基因组作为遗传物质的整合体 (基因作为功能和结构单位与遗传学机制的关系) (3)基因组作为生物化学分子的整合体 (基因产物作为功能分子与分子、细胞机制的关系)(4)物种进化的整合体 (物种在地理与大气环境中的自然选择)2、为什么说基因组学是一门大科学?(1)“界门纲目科属种”,地球上现存物种近亿,所有生生灭灭的生物,无一例外,都有个基因组。(2)基因组作为信息载体,它所储存的信息是最基本的生物学信息之一;既是生命本质研究的出发点之一

2、,又是生物信息的归宿。(3)基因组学研究包括对基因产物(转录子组和蛋白质组)的系统生物学研究。(4)基因多态性的规模化研究就是基因组多态性的研究。(5)基因组学的研究必然要上升到细胞机制、分子机制和系统生物学的水平。(6)基因组的起源与进化和物种的起源与进化一样是一个新的科学领域。(7)基因组信息正在以天文数字计算,规模化地积累,它的深入研究必将形成一个崭新的学科。(8)基因组的信息是用来发现和解释具有普遍意义的生命现象和它们的变化、内在规律、和相互关系。(9)基因组的信息含量高。基因组学的研究又在于基因组间的比较。(10)基因组学的复杂性必然导致多学科的引进和介入(各生物学科、医学、药学、计

3、算机科学、化学、数学、物理学、电子工程学、考古学等)。(11)基因组学研究的手段和技术已经走在生命科学研究的最前沿。(12)基因组信息来自于高效率和规模化所产生的实验数据。(13)人类基因组计划证明了基因组研究的迫切性和可行性。3、大规模基因组测序的几个支撑技术是什么?(1)Sanger双脱氧末端终止法双脱氧终止法,即sanger测序法,是根据DNA在某一固定的点开始,随机在某一个特定的碱基处终止,并且在每个碱基后面进行荧光标记,产生以A、T、C、G结束的四组不同长度的一系列DNA片段,然后在尿素变性的PAGE胶上电泳进行检测,从而获得可见的DNA碱基序列。通俗点说,就是通过电泳的方法将一系列

4、DNA片段从小到大排列起来,由于每条片段末尾都含有荧光标记的碱基,通过放射性自显影,即可读出这些碱基的种类,这些碱基的排列顺序,就是待测DNA的序列。(2)PCR技术聚合酶链式反应(PCR)是体外酶促合成特异DNA片段的一种方法,由高温变性、低温退火(复性)及适温延伸等几步反应组成一个周期,循环进行,使目的DNA得以迅速扩增,具有特异性强、灵敏度高、操作简便、省时等特点。它不仅可用于基因分离、克隆和核酸序列分析等基础研究,还可用于疾病的诊断或任何有DNA,RNA的地方聚合酶链式反应(Polymerase Chain Reaction,简称PCR)又称无细胞分子克隆或特异性DNA序列体外引物定向

5、酶促扩增技术。(3)DNA自动测序仪的发展DNA序列测定分手工测序和自动测序,手工测序包括sanger双脱氧链终止法和maxam-gilbert化学降解法。自动化测序实际上已成为当今 dna序列分析的主流。美国pe abi公司已生产出373型、377型、310型、3700和3100型等dna测序仪,其中310型是临床检测实验室中使用最多的一种型号。本实验介绍的是abi prism 310型dna测序仪的测序原理和操作规程。(4)生物信息学分析软件硬件设备4、大规模基因组测序的两种策略是什么?二者有何区别?(1)逐步克隆法(Clone by Clone)(2)全基因组霰弹法(Whole Geno

6、me Shot-gun)(3)二者的比较:项 目策 略全基因组霰弹法逐步克隆法遗传背景不需要需要(需构建精确的物理图谱)速度快慢费用低高计算机性能高(以全基因组为单位进行拼接)低(以BAC为单位进行拼接)适用范围工作框架图精细图代表测序物种果蝇、水稻人、线虫5、人类基因组计划所构建的四张图是什么?(1)遗传图谱:又称为连锁图谱(linkage map),指基因或DNA标志在染色体上的相对位置与遗传距离。(2)物理图谱:以定位的DNA标记序列如STS作为路标,以DNA实际长度即bp、kb、Mb为图距的基因组图谱。(3)转录图谱:利用EST(expressed sequence tags 表达序列

7、标签)作为标记所构建的分子遗传图谱。(4)序列图谱:通过基因组测序得到的,以A、T、G、C为标记单位的基因组DNA序列。6、STS的定义,原理、要满足的条件及其来源。(1)序列标记位点(STS)是一段短的DNA序列,通常长度在100到500bp,易于识别,仅存在于待研究的染色体或基因组中。作一套STS图谱需要收集来自单条染色体或一个完整基因组的重叠的DNA片段。在图1中,从单条染色体中制备一组DNA片段,使染色体上每一点平均有5条片段对应。收集作图必需的数据时,须排列每一STS,了解哪些片段包含有哪些STS。这可以通过杂交分析来完成,但通常使用PCR方法,因为PCR更快捷,更易于自动化,两个S

8、TS共存于同个片段的机率依赖于它们在基因组中的相近程度。如果它们相当接近、它们存在于同一片段的机会就相当大;而如果它们位置相对分开,有时它们会在同一片段上,有时则不会(图1)。因此,这些资料可用来计算两个标记间的距离,其方式与计算连锁分析中计算图距的方式相同;在连锁分析中,两个标记间的图距是根据它们的交换频率来计算的。STS作图与其相比、不同之处仅在于两个标记间的图距是根据分离频率来计算的。(2)这些片段覆盖染色体的全长,染色体上每一点平均有五条片段相对应,染色体图谱上两个接近的标记共同存在于一条片段的可能性就高,相隔较远的标记位于同一条片段中的可能性就较小。(3)一个DNA序列要成为STS,

9、须满足两个前提。首先它的序列必须是己知的,以便于用PCR方法检测STS在不同DNA片段中存在与否。第二个要求是STS必须在待研究的染色体上有唯一的定位,或当DNA片段群覆盖全基因组时,STS在整个基因组中具有唯一的定位位点。如果STS序列具有多个定位点,那么作图数据将会模糊不清。因此需要确保STS不包含重复DNA的序列。(4)上述两个前提易于满足,因此可以通过多种途径获得STS,最常见的来源是:表达序列标记:表达序列际记(expressed scquence tag, E5T)是通过互补DNA (cDNA)克隆分析获得的短序列。制备互补DNA是将mRNA转化成双链DNA.由于细胞中mRNA来自

10、于编码蛋白的基因,故此cDNA代表了mRNA来源的细胞中表达的基因序列。EST被看做获得重要基因序列的快捷途径。即使其序列不完整,也仍然有价值。如果EST来自于单一序列DNA,不是基因家族中的某一成员,它也可以被用作STS。而所谓基因家族是指一组具有相同或相近序列的基因。遗传标记序列:如微卫星标记。随机基因组序列 可以通过对克隆的基因组DNA的随机小片段进行测序或在数据库中搜寻贮存序列获得。7、逐步克隆法包括哪几个步骤?(1)物理图谱的构建序列标签位点作图确定各STS序列及其在基因组中的位置;大插入片段基因组文库的构建;(BAC文库的构建 P25)以特定STS为标记筛选并定位克隆; 含有STS

11、的克隆在基因组中的排序。经过这几个步骤,以定位的DNA标记序列(STS)作为路标,以DNA实际长度即bp、kb、Mb为图距的基因组图谱便构建完成了。此时我们仍然不知道具体的序列信息。只知道STS的序列和位置,以及STS间的距离。(2)大片段克隆的筛选(P36;STS-PCR反应池方案 P27) 该步骤包括BAC克隆的筛选和延伸克隆的筛选。前者可使相互间具有重叠片段的BAC克隆根据STS信息组装成contig,并定位与基因组上。后者主要是补充基因组中未被BAC文库覆盖的克隆序列,常用方法有指纹图谱法和末端序列步行法。经过这一步,我们得到了覆盖整个基因组全序列的克隆,以备测序。(3)霰弹法测序与“

12、工作框架图”的构建用霰弹法对筛选到的BAC克隆进行测序,得到大量随机片段。组装这些片段,可能会出现如下问题:低碱基质量区、单链区、序列缺口、未组装区。通过重测序等手段对这些区域进行补充,即所说的Finishing,便可得到高质量的全序列。(4)序列的全组装与“完成图”构建对测序后的BAC克隆序列进行拼接,完成该基因组的序列图谱。8、全基因组霰弹法的测序流程?全基因组霰弹法测序的整个流程如下图所示(1)从头组装流程:Solexa Part & 454 Part(P31)(2)Reads Process流程:Solexa and 454 (P31-32)(3)Hybrid assembly 和基于

13、EST的组装(4)粗测序reads的预处理 P32意义和目的;流程;图像分析和碱基读出;质量控制(5)数据评价 P33Read质量分布;文库插入大小;Mapping Rate;二聚体评价(6)用Kmer估计基因组大小(7)基因组混合拼接验证及结构变异检测流程(8)重复序列注释流程(9)基因结构及功能注释技术路线(Gene Ontology and KEGG)9、Kmer介绍(1)定义:就是一个长度为K的DNA序列,K通常取17。(2)用途:纠正测序错误,估计基因组大小、杂合率、重复序列的含量。(3)K-mer分布图,同样数据量的情况下,峰位决定基因组大小,峰位越靠左,基因组越大。峰值表示大部分

14、K-mer都出现在这个深度。(4)峰位高低的影响因素:a、错误率,错误率越高,起始峰位越高,主峰相对越低;b、重复序列,重复序列越多,主峰下降越慢。(5)杂合率越高,则杂合峰越高,杂合峰出现在主峰的一半处,按照杂合峰大小估计基因组大小,基因组大小等于二倍杂合峰。(6)假设一条reads长45bp,K=17,则每个Reads产生的K-mer数=45-17+1 若测序深度为10,则K-mer实际覆盖深度=10*(45-17+1)/45(7)基因组大小:若在主峰顶端对应的K-mer次数为15,实际测序量为100G,则基因组大小=100*(45-17+1)/45/15(8)不能直接根据杂合峰和主峰的高

15、度估计基因组的杂合率大小,只能通过模拟数据,再用实际数据与模拟数据进行比较,找出最接近的一个,来推测基因组的杂合率大小。(9)测序深度越低,杂合峰与主峰越接近y轴,随着测序深度的增加,会将杂合峰和主峰展开,容易看出杂合峰与主峰的关系。(10)纯下降的K-mer图,原因可以能是数据量不够;若开始下降后来有峰的K-mer图,前面下降的地方可能是测序错误。(11)当数据量超过K-mer最高值(255M)时,则无峰。第二章 新一代测序技术一、第一代测序技术简介Sanger测序法(双脱氧核糖核苷酸末端终止法)的原理?Sanger法是根据核苷酸在某一固定的点开始,随机在某一个特定的碱基处终止,并且在每个碱

16、基后面进行荧光标记,产生以A、T、C、G结束的四组不同长度的一系列核苷酸,然后在尿素变性的PAGE胶上电泳进行检测,从而获得可见的DNA碱基序列。Sanger法测序的原理就是,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP)使之扩增,并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)使之终止。由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止,终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几个至千以上个,相差一个碱基一系列片断。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电

17、泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。二、第二代测序技术1.概述DNA测序(DNA sequencing)作为一种重要的实验技术,在生物学研究中有着广泛的应用。早在DNA双螺旋结构(Watson and Crick,1953)被发现后不久就有人报道过DNA测序技术,但是当时的操作流程复杂,没能形成规模。随后在1977年Sanger发明了具有里程碑意义的末端终止测序法,同年A.M.Maxam和W.Gilbert发明了化学降解法。Sanger法因为既简便又快速,并经过后续的不断改良,成为了迄今为止DNA测序的主流。然而随着科学的发展,传统的Sanger测序

18、已经不能完全满足研究的需要,对模式生物进行基因组重测序以及对一些非模式生物的基因组测序,都需要费用更低、通量更高、速度更快的测序技术,第二代测序技术(Next-generation sequencing)应运而生。第二代测序技术的核心思想是边合成边测序(Sequencing by Synthesis),即通过捕捉新合成的末端的标记来确定DNA的序列,现有的技术平台主要包括Roche/454 FLX、Illumina/Solexa Genome Analyzer和Applied Biosystems SOLID system。这三个技术平台各有优点,454 FLX的测序片段比较长,高质量的读长(

19、read)能达到400bp;Solexa测序性价比最高,不仅机器的售价比其他两种低,而且运行成本也低,在数据量相同的情况下,成本只有454测序的1/10;SOLID测序的准确度高,原始碱基数据的准确度大于99.94%,而在15X覆盖率时的准确度可以达到99.999%,是目前第二代测序技术中准确度最高的。虽然第二代测序技术的工作一般都由专业的商业公司来完成,但是了解测序原理、操作流程等会对后续的数据分析有很重要的作用,下文将以Illumina/Solexa Genome Analyzer 测序为例,简述第二代测序技术的基本原理、操作流程等方面。2.基本原理Illumina/Solexa Geno

20、me Analyzer测序的基本原理是边合成边测序。在Sanger等测序方法的基础上,通过技术创新,用不同颜色的荧光标记四种不同的dNTP,当DNA聚合酶合成互补链时,每添加一种dNTP就会释放出不同的荧光,根据捕捉的荧光信号并经过特定的计算机软件处理,从而获得待测DNA的序列信息。3.操作流程(1)测序文库的构建(Library Construction)首先准备基因组DNA(虽然测序公司要求样品量要达到200ng,但是Gnome Analyzer系统所需的样品量可低至100ng,能应用在很多样品有限的实验中),然后将DNA随机片段化成几百碱基或更短的小片段,并在两头加上特定的接头(Adap

21、tor)。如果是转录组测序,则文库的构建要相对麻烦些,RNA片段化之后需反转成cDNA,然后加上接头,或者先将RNA反转成cDNA,然后再片段化并加上接头。片段的大小(Insert size)对于后面的数据分析有影响,可根据需要来选择。对于基因组测序来说,通常会选择几种不同的insert size,以便在组装(Assembly)的时候获得更多的信息。(2)锚定桥接(Surface Attachment and Bridge Amplification)Solexa测序的反应在叫做flow cell的玻璃管中进行,flow cell又被细分成8个Lane,每个Lane的内表面有无数的被固定的单链

22、接头。上述步骤得到的带接头的DNA 片段变性成单链后与测序通道上的接头引物结合形成桥状结构,以供后续的预扩增使用。(3)预扩增(Denaturation and Complete Amplification)添加未标记的dNTP 和普通Taq 酶进行固相桥式PCR 扩增,单链桥型待测片段被扩增成为双链桥型片段。通过变性,释放出互补的单链,锚定到附近的固相表面。通过不断循环,将会在Flow cell 的固相表面上获得上百万条成簇分布的双链待测片段。(4)单碱基延伸测序(Single Base Extension and Sequencing)在测序的flow cell中加入四种荧光标记的dNTP

23、 、DNA 聚合酶以及接头引物进行扩增,在每一个测序簇延伸互补链时,每加入一个被荧光标记的dNTP就能释放出相对应的荧光,测序仪通过捕获荧光信号,并通过计算机软件将光信号转化为测序峰,从而获得待测片段的序列信息。从荧光信号获取待测片段的序列信息的过程叫做Base Calling,Illumina公司Base Calling所用的软件是Illuminas Genome Analyzer Sequencing Control Software and Pipeline Analysis Software。读长会受到多个引起信号衰减的因素所影响,如荧光标记的不完全切割。随着读长的增加,错误率也会随之

24、上升。(5)数据分析(Data Analyzing)这一步严格来讲不能算作测序操作流程的一部分,但是只有通过这一步前面的工作才显得有意义。测序得到的原始数据是长度只有几十个碱基的序列,要通过生物信息学工具将这些短的序列组装成长的Contigs甚至是整个基因组的框架,或者把这些序列比对到已有的基因组或者相近物种基因组序列上,并进一步分析得到有生物学意义的结果。4、二代测序技术总结(1)需荧光或者化学放光物质;(2)需聚合酶或者连接酶;(3)较昂贵的试剂耗材和光学系统;(4)强大的图像分析计算能力。三、454技术平台简介(焦磷酸测序法)1、化学原理焦磷酸测序是由DNA聚合酶、三磷酸腺苷硫酸化酶(A

25、TP sulfurylase)、荧光素酶(luciferase)和双磷酸酶(apyrase)4种酶催化同一反应体系的酶级联化学发光反应,反应底物5-磷酰硫酸(APS)和荧光素。反应体系还包括待测序DNA单链和测序引物。在每一轮测序反应中,加入1种dNTP,若该dNTP与模板配对,聚合酶就可以将其掺入到引物链中并释放等摩尔数的焦磷酸基团(PPi)。硫酸化酶催化APS和PPi形成ATP,后者驱动荧光素酶介导的荧光素向氧化荧光素的转化,发出与ATP量成正比的可见光信号,并由Pyrogram软件转化为一个峰值,其高度与反应中掺入的核苷酸数目成正比。根据加入dNTP类型和荧光信号强度就可以实时记录模板D

26、NA的核苷酸序列。2、测序技术流程(1)文库构建基因组DNA片段化(fragmentation)及评估;DNA片段末端平齐化(end polishing):为接头的添加反应做准备;接头连接:添加接头A和B。文库固定化:DNA片段通过接头连接到微珠上。补充反应(Fall-in Reaction):修补连接到微珠上的DNA片段的链缺口。DNA双链分离,DNA片段以单链形式结合在微珠上。P39 末端配对文库制备两张图详细介绍了文库构建步骤。(2)文库模板扩增Emulsion PCR: a high efficient way of PCR amplification of random DNA li

27、braries in aptamer selection. 在得到仅有AB衔接子单链的DNA模板后,此DNA模板可与过量DNA不做珠子退火结合,并被吸附到一种用于PCR反应的有水混合物小滴上,此混合物包含了PCR反应所必需的各种试剂,在合适条件进行扩增,最后可对结合的大量DNA链的珠子进行富集。(3)测序反应(4)成像:信号强度图谱。(5)测序数据的处理3、454测序技术优缺点四、Illumina测序技术平台(聚合酶合成测序)1、技术原理及流程(1)文库制备将基因组DNA打成几百个碱基(或更短)的小片段,在片段的两个末端加上接头(adapter)。(2)产生DNA簇利用专利的芯片,其表面连接有

28、一层单链引物,DNA片段变成单链后通过与芯片表面的引物碱基互补被一端“固定”在芯片上。另外一端(5或3)随机和附近的另外一个引物互补,也被“固定”住,形成“桥 (bridge) “。反复30轮扩增,每个单分子得到了1000倍扩增,成为单克隆DNA簇。DNA簇产生之后,扩增子被线性化,测序引物随后杂交在目标区域一侧的通用序列上。(3)测序Genome Analyzer系统应用了边合成边测序(Sequencing By Synthesis)的原理。加入改造过的DNA聚合酶和带有4种荧光标记的dNTP。 这些核苷酸是“可逆终止子”,因为3羟基末端带有可化学切割的部分,它只容许每个循环掺入单个碱基。此

29、时,用激光扫描反应板表面,读取每条模板序列第一轮反应所聚合上去的核苷酸种类。之后,将这些基团化学切割,恢复3端粘性,继续聚合第二个核苷酸。如此继续下去,直到每条模板序列都完全被聚合为双链。这样,统计每轮收集到的荧光信号结果,就可以得知每个模板DNA片段的序列。目前的配对末端读长可达到250 bp,更长的读长也能实现,但错误率会增高。读长会受到多个引起信号衰减的因素所影响,如荧光标记的不完全切割。(4)数据分析自动读取碱基,数据被转移到自动分析通道进行二次分析。2、Solexa测序技术的优缺点P423、Illumina技术应用4、Illumina测序相关数据处理软件五、SOLiD测序(Seque

30、ncing by Oligonucleotide Ligation and Detection)1、SOLiD工作流程(1)文库制备SOLiD系统能支持两种测序模板:片段文库(fragment library)或配对末端文库(mate-paired library)。使用哪一种文库取决于你的应用及需要的信息。片段文库就是将基因组DNA打断,两头加上接头,制成文库。如果你想要做转录组测序、RNA定量、miRNA探索、重测序、3, 5-RACE、甲基化分析、ChIP测序等,就可以用它。如果你的应用是全基因组测序、SNP分析、结构重排/拷贝数,则需要用配对末端文库。配对末端文库是将基因组DNA打断后

31、,与中间接头连接,再环化,然后用EcoP15酶切,使中间接头两端各有27bp的碱基,再加上两端的接头,形成文库。(2)乳液PCR/微珠富集在微反应器中加入测序模板、PCR反应元件、微珠和引物,进行乳液PCR(Emulsion PCR)。PCR完成之后,变性模板,富集带有延伸模板的微珠,去除多余的微珠。微珠上的模板经过3修饰,可以与玻片共价结合。看到这里,是不是有一种似曾相识的感觉呢?那就对了,此步骤与454的GS FLX基本相同。不过SOLiD系统的微珠要小得多,只有1 um。乳液PCR最大的特点是可以形成数目庞大的独立反应空间以进行DNA扩增。其关键技术是“注水到油”,基本过程是在PCR反应

32、前,将包含PCR所有反应成分的水溶液注入到高速旋转的矿物油表面,水溶液瞬间形成无数个被矿物油包裹的小水滴。这些小水滴就构成了独立的PCR反应空间。理想状态下,每个小水滴只含一个DNA模板和一个P1磁珠,由于水相中的P2引物和磁珠表面的P1引物所介导的PCR反应,这个DNA模板的拷贝数量呈指数级增加,PCR反应结束后,P1磁珠表面就固定有拷贝数目巨大的同来源DNA模板扩增产物。(3)微珠沉积3修饰的微珠沉积在一块玻片上。在微珠上样的过程中,沉积小室将每张玻片分成1个、4个或8个测序区域。SOLiD系统最大的优点就是每张玻片能容纳更高密度的微珠,在同一系统中轻松实现更高的通量。(4)连接测序这一步

33、可就是SOLiD的独门秘笈了。它的独特之处在于没有采用惯常的聚合酶,而用了连接酶。SOLiD连接反应的底物是8碱基单链荧光探针混合物。连接反应中,这些探针按照碱基互补规则与单链DNA模板链配对。探针的5末端分别标记了CY5、Texas Red、CY3、6-FAM这4种颜色的荧光染料。探针3端15位为随机碱基,可以是ATCG四种碱基中的任何一种碱基,其中第1、2位构成的碱基对是表征探针染料类型的编码区,下图的双碱基编码矩阵规定了该编码区16种碱基对和4种探针颜色的对应关系,而35位的“n”表示随机碱基,68位的“z”指的是可以和任何碱基配对的特殊碱基。单向SOLiD测序包括五轮测序反应,每轮测序

34、反应含有多次连接反应。第一轮测序的第一次连接反应由连接引物“n”介导,由于每个磁珠只含有均质单链DNA模板,所以这次连接反应掺入一种8碱基荧光探针,SOLiD测序仪记录下探针第1、2位编码区颜色信息,随后的化学处理断裂探针3端第5、6位碱基间的化学键,并除去68位碱基及5末端荧光基团,暴露探针第5位碱基5磷酸,为下一次连接反应作准备。因为第一次连接反应使合成链多了5个碱基,所以第二次连接反应得到模板上第6、7位碱基序列的颜色信息,而第三次连接反应得到的是第11、12位碱基序列的颜色信息几个循环之后,引物重置,开始第二轮的测序。由于第二轮连接引物n-1比第一轮错开一位,所以第二轮得到以0,1位起

35、始的若干碱基对的颜色信息。五轮测序反应反应后,按照第0、1位,第1、2位. 的顺序把对应于模板序列的颜色信息连起来,就得到由“0,1,2,3”组成的SOLiD原始颜色序列。(5)数据分析SOLiD测序完成后,获得了由颜色编码组成的SOLiD原始序列。理论上来说,按照“双碱基编码矩阵”,只要知道所测DNA序列中任何一个位置的碱基类型,就可以将SOLiD原始颜色序列“解码”成碱基序列。但由于双碱基编码规则中双碱基与颜色信息的简并特性(一种颜色对应4种碱基对),前面碱基的颜色编码直接影响紧跟其后碱基的解码,所以一个错误颜色编码就会引起“连锁解码错误”,改变错误颜色编码之后的所有碱基。和其它所有测序仪

36、一样,测序错误在所难免,关键是对测序错误的评价和后续处理。由于SOLiD系统采用了双碱基编码技术,在测序过程中对每个碱基判读两遍,从而减少原始数据错误,提供内在的校对功能。这样,双保险确保了SOLiD系统原始碱基数据的准确度大于99.94%,而在15X覆盖率时的准确度可以达到99.999%,是目前新一代基因分析技术中准确度最高的。为避免“连锁解码错误”的发生,SOLiD数据分析软件不直接将SOLiD原始颜色序列解码成碱基序列,而是依靠reference序列进行后续数据分析。SOLiD序列分析软件首先根据“双碱基编码矩阵”把reference碱基序列转换成颜色编码序列,然后与SOLiD原始颜色序

37、列进行比较,来获得SOLiD原始颜色序列在reference的位置,及两者的匹配性信息。Reference转换而成的颜色编码序列和SOLiD原始序列的不完全匹配主要有两种情况:“单颜色不匹配”和“两连续颜色不匹配”。由于每个碱基都被独立地检测两次,且SNP位点将改变连续的两个颜色编码,所以一般情况下SOLiD将单颜色不匹配处理成测序错误,这样一来,SOLiD分析软件就完成了该测序错误的自动校正;而连续两颜色不匹配也可能是连续的两次测序错误,SOLiD分析软件将综合考虑该位置颜色序列的一致性及质量值来判断该位点是否为SNP。2、SOLiD优势和劣势3、SOLiD测序法的应用(1)测序和重测序(2

38、)全基因表达图谱分析芯片大概是目前应用最广泛的从全局角度分析基因表达整体模式的方法。然而,基于杂交技术的微阵列技术只限用于已知序列,无法检测新的mRNA;而且杂交技术灵敏度有限,难以检测低丰度的目标(需要更多的样品量),难以检测重复序列;也无法捕捉到目的基因表达水平的微小变化-而这恰恰是研究在刺激下或环境变化时的生物反应所必需的。与芯片技术相比,基于测序的高灵敏SOLiD技术可对单个细胞和癌症样品中存在的痕量RNA进行整体的全基因组表达图谱分析,每次运行能定位高达2亿4千万个标签(mRNA的相对表达水平可通过系统产生的序列标签数目来计算),可检测低至每个细胞中10-40pg的总RNA,即使mR

39、NA表达水平很低,SOLiD系统也能够无偏向性地分析样品中存在的已知和未知mRNA,从而定量特定mRNA的差异表达模式。起始样品比微阵列技术要少得多,尤其适用于来源极为有限的生物样品分析,如癌症干细胞-分析其基因和非编码RNA的表达图谱有助于有助于加速发掘潜在的生物标志物,从而更准确区分不同的疾病类型以及识别疾病易感性,帮助于研究人员更好地了解病变细胞的特性。(3)更多RNA研究除了单细胞基因表达图谱分析,SOLiD系统在RNA方面的其他应用还包括利用SOLiD Small RNA Expression Kit来发现和筛选小分子RNA,实现在无需预先知道序列信息的情况下高通量发现新的RNA分子

40、。这个方案有望显著地提高研究人员鉴别小分子RNA的能力,将过去不可能完成的实验变为可能。目前已发现的microRNAs还非常有限,SOLiD可在不知道目标分子DNA序列的情况下进行检测和定量小的RNA分子,可将样品制备工作从常规方法的四天缩短为仅需一天,是分析在生物样品中表达的已知和未知miRNA及其它小分子RNAs的有效工具。利用SOLiD Whole Transcriptome Kit还可以探索和鉴定全转录本。SOLiD无可比拟的高通量和测序数据的高精确性使得可以用短序列读长即可测序整个转录组。了解转录组对有助于解开导致复杂疾病的分子通路的秘密。这一系列应用补充使研究人员能在单个超高通量平

41、台上开展综合的RNA研究。(4)SNP分析尽管绝大多数的人类遗传信息在所有人中都相同,但是研究人员通常更感兴趣的是研究个体之间微小的遗传差异。这种差异包括单碱基变异,以及被称为结构变异的各种较大片段DNA序列变异。结构变异包括DNA片段的插入、缺失、倒位和易位,结构变异的DNA片段范围可从几个碱基对到数百万个碱基对,可能对基因产生重要影响,并导致人类疾病的发生。SOLiD流程获得的严密的片段范围,使研究人员可以鉴别出很宽范围内的插入和缺失片段,结构重排也能很容易鉴别出来。这个平台的超高通量使研究人员可轻而易举地获得高度基因组覆盖率的数据,精确鉴定个体基因组中存在的数百万个单碱基多态性SNP,揭

42、示大量此前未知、具有潜在医学价值的遗传变异,从而促进我们对正常/疾病状态下DNA结构变异的了解,以及在更高的分辨率下对结构变异进行深入分析,解释个体之间的易感性差异和对疾病治疗应答的差异,最终实现个性化医疗。(5)甲基化分析甲基化是自然发生的DNA化学修饰的一种。已知抑癌基因的失活与DNA序列特定区域的甲基化有关。而去甲基化则可能导致基因组不稳定和表达模式变化。DNA甲基化区域可能作为基因在癌症过程中的标记。研究人员一直致力研究从正常到癌变过程中甲基化模式如何变化的,原癌基因异常甲基化模式在癌变过程中扮演怎样的角色。SOLiD系统运行通量非常惊人,很快就可以做多个样本全基因组甲基化模式检测,使

43、得研究人员可以鉴别基因组中对应元件的甲基化状态,从而帮助研究人员检测甲基化模式是否可以作为癌症的生物标识,以及更好了解甲基化在癌变过程中扮演的角色。六、RNA文库构建策略比较1、SOLiD miRNA文库构建2、SOLiD RNA-seq文库构建策略3、Solexa small RNA文库测序策略4、Solexa Transcriptome文库构建策略七、第三代测序技术展望1、非光学显微镜成像2、纳米孔技术3、半导体技术第三章 基因转录组的测定及分析一、大规模表达序列标签(EST)测定及分析1、什么是EST?ESTs(Expressed Sequence tags)是从已建好的cDNA库中随机

44、取出一个克隆,从5末端或3末端对插入的cDNA片段进行一轮单向自动测序,所获得的约60-500bp的一段cDNA序列。2、EST的应用?(1)基因识别包括:在同一物种中搜寻基因家族的新成员;在不同物种间搜寻功能相同的基因;已知基因的不同剪切模式的搜寻。(2)基因图谱的绘制(3)基因预测(4)SNPs的发现(5)利用ESTs大规模分析基因表达水平:癌症基因组解析计划CGAP;基因表达系列分析SAGE;DNA微阵列或基因芯片的研究。3、几种大规模分析基因表达水平的方法?(1)EST技术流程P2-4(2)基因表达系列分析(SAGE)技术流程与分析流程P2-5,6,7.(3)基因芯片或微阵列技术流程P

45、2-8几种大规模分析基因表达水平的方法的比较:4、ESTs数据的不足有哪些?P3-15、EST序列测定及分析的技术路线?(1)cDNA文库的构建:种类、常见问题及其原因。P3-4,5,6.(2)测序方向的选择:取决于实验目的。(3)测序及对测序结果的前处理:去除低质量序列;屏蔽赝象序列;去除镶嵌克隆;去除长度小于100bp的序列。(4)文库质量检验、序列质量检验。(5)ESTs的聚类和拼接:聚类的目的和作用;不严格的和严格的聚类,有参照的和无参照的聚类;常用的拼接软件。拼接:即Cluster的连接。利用cDNA克隆的信息和5,3端Reads的信息,不同的Cluster可以连接在一起。常用的拼接

46、工具有UniGene,TIGR Gene Index和STACK。(6)基因注释及功能分类:基因注释流程;基因功能分类(手工分类、计算机批量处理、基因产物直系同源簇的分析(简称COG,如EST的代谢途径分析KEGG)。(7)后续分析:比较基因组学分析、基因表达谱分析、新基因研究、基因可变剪切分析、实验验证(MicroArray,GeneChip,RT-PCR, Northern Blotting)。二、利用新一代测序仪进行转录组学的研究1、转录组测序(RNAseq)(1)测序对象:转录组测序一般是对用多聚胸腺嘧啶(oligo-dT)进行亲和纯化的RNA聚合酶II转录生成的成熟mRNA和ncRN

47、A进行高通量测序。(2)优势:相对于传统的芯片杂交平台,转录组测序无需预先针对已知序列设计探针,即可对任意物种的整体转录活动进行检测,提供更精确的数字化信号,更高的检测通量以及更广泛的检测范围,是目前深入研究转录组复杂性的强大工具。(3)转录组测序与基因表达谱的区别:转录组测序技术是把mRNA,smallRNA,and NONcoding RNA等用高通量测序技术把它们的序列测出来。全面快速地获取某一物种特定器官或组织在某一状态下的几乎所有转录本。反映出它们的表达水平。 基因表达谱指通过构建处于某一特定状态下的细胞或组织的非偏性cDNA文库,大规模cDNA测序,收集cDNA序列片段、定性、定量

48、分析其mRNA群体组成,从而描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息,这样编制成的数据表就称为基因表达谱。2、转录组的定义和组成P73、RNA-seq的生物学重复和标准P74、RNA-seq的流程?(1)RNA-seq测序文库制备对于mRNA-seq实验,从总RNA到最终的cDNA文库制备完成主要包括以下步骤。首先,用Poly(T)寡聚核苷酸从总RNA中抽取全部带Poly(A)尾的RNA,其中的主要部分就是编码基因所转录的mRNA。将所得RNA随机打断成片段,再用随机引物和逆转录酶从RNA片段合成cDNA片段。然后,对cDNA片段进行末端修复并连接测序接头(adapter),得

49、到将用于测序的cDNA。在以上过程,将RNA随机片段化和采用随机引物进行反转录,都是为了使所得cDNA片段较均匀地取自各个转录本。为提高测序效率,一般还需要用电泳切胶法获取长度范围在200bp(25bp)的cDNA片段,再通过RCR扩增,得到最终的cDNA文库。在上述文库制备过程中,如果不是只抽取带Poly(A)尾的RNA,而是使用全部的RNA,则RNA-seq测得的就是细胞中的全部转录本;如果把带Poly(A)尾的RNA过滤掉,也可以得到非编码的RNA转录本;如果从总RNA中只提取长度为2123个碱基左右的RNA,则得到全部的miRNA(microRNA)转录本,相应的方法也称作miRNA-

50、seq。样品制备最终得到的是双链cDNA文库。在后续测序中,测得的每个读段(read)随机地来自双链cDNA的某一条链,从读段序列本身无法得知它是与RNA方向相同还是倒转互补,在后续的读段定位时需要两个方向都考虑。在新基因识别等应用中,转录本的方向对基因注释尤为重要,需要在文库制备和测序中保留RNA的方向信息。最近有文献报道了保留方向信息的RNA-seq样品制备方法。(2)测序平台数据输出将RNA-seq测序文库加入流动槽(flow cell)中的各通道(lane),在桥式PCR扩增后,就可以进行测序了。测序过程中,计算机软件同步地对荧光图像数据进行处理,通过分析荧光信号来确定被测碱基,并给出

51、质量评分。按照图像上的位置坐标,计算机程序将同一位置测得的碱基根据测序顺序连成读段(read)。由于荧光图像文件所占有的磁盘空间很大,通常GA IIx 平台一次实验能就产生上太字节(TB)的图像文件,所以一般情况下不予保留原始的荧光图像数据,而是只保留程序读出的读段数据及对应的质量分值,这就是多数实验室委托测序中心进行RNA-seq测序后得到的最原始的数据。(3)RNA-seq数据的基本处理读段定位:获得RNA-seq的原始数据后,首先需要将所有测序读段通过序列映射(mapping)定位到参考基因组上,这是所有后续处理和分析的基础。在读段定位之前,有时还需要根据测序数据情况对其做某些基本的预处

52、理。例如,过滤掉测序质量较差的读段,对miRNA测序读段数据去除接头序列等。基因表达水平估计:RNA测序数据是对提取出的RNA转录本中随机进行的短片段测序,如果一个转录本的丰度高,则测序后定位到其对应的基因组区域的读段也就多,可以通过对定位到基因外显子区的读段计数来估计基因表达水平。很显然,读段计数除了与基因真实表达水平成正比,还与基因长度成正比,同时也与测序深度即测序实验中得到的总读段数正相关。造成读段分布出现偏好的原因可能有多个方面:在制备cDNA文库时,反转录所采用的随机引物对RNA序列具有一定的偏好性,使得cDNA片段不能够完全均匀地取自各转录本;在PCR扩增中,扩增效率与序列的GC含

53、量等特征相关,可导致GC含量高的cDNA片段在文库中拷贝数增加超过其他片段;舍弃多定位的读段也可能导致读段的非均匀分布;等等。如果能对读段分布的不均匀性进行建模并加以校正,可以提高RNA-seq推断基因表达量的准确度。选择性剪接事件识别和剪接异构体表达水平推断:在真核生物中,选择性剪接现象普遍存在。基因转录形成的mRNA前体(pre-mRNA)在剪接过程中因去掉不同的内含子区域或保留不同的外显子区域,可形成不同的剪接异构体。根据RNA-seq原理,只要测序深度足够深,就能检测到所有转录本的全部序列,包括来自剪接接合区的序列。利用考虑到接合区的读段定位方法,就有可能系统地研究某一组织或某一条件下

54、的基因选择性剪接事件。新基因的检测:在对RNA-seq数据的分析中,人们发现往往不是所有读段都能定位到已有注释的基因区,说明除了转录噪声或测序错误等的影响外,可能还存在尚未被注释的基因。这里,我们把这种尚未注释的基因称为新基因,包括新的蛋白质编码基因和非编码RNA基因。能检测新基因,尤其是低表达基因是RNA-seq技术优于基因芯片的特点之一,因为它不需要利用已知基因注释来设计检测探针。读段的可视化及注释5、非编码RNA注释的步骤?P106、RNA-seq技术同基因芯片技术的比较7、RNA-seq的优势8、RNA-seq的挑战9、RNA-seq的应用P21三、rad9功能研究1、RNA-seq数

55、据的注释2、基因表达谱的分析3、内含子区域表达的分析4、基因间区域表达的分析5、基因可变剪切的分析6、反义转录本的分析7、差异表达基因的分析附:Illumina测序原理Illumina测序技术应用独特工艺生成高密度、海量平行测序反应,可对每个流动槽中成百至上千万的模板进行单端或对读温暖序。全自动的IlluminaDNA簇,每个簇含有单个模板分子的5001000克隆拷贝。通过仪器在流动槽表面对生成的高密度序列模板进行测序。采用专有的荧光标记的可逆终止子核苷酸,可对样本边合成边测序。对读测序时,完成首次读取后,DNA簇进行原位改良,再生成对读所用模板。然后应用第二个测序引物对同一DNA簇测序,生成

56、第二次数据(1) 为什么要研究表观遗传学?答:表观遗传学主要通过DNA 的甲基化、组蛋白修饰、染色质重塑和非编码RNA 调控等方式控制基因表达。表观遗传学是近几年兴起的而且发展迅速的一个研究遗传的分支学科,其研究和应用不仅对基因表达、调控、遗传有重要作用,而且在肿瘤、免疫等许多疾病的发生和防治以及干细胞定向分化研究、基因芯片中亦具有十分重要的意义。表观遗传学补充了“中心法则”忽略的两个问题,即哪些因素决定了基因的正常转录和翻译以及核酸并不是存储遗传信息的唯一载体; 在分子水平上,表观遗传学解释了DNA序列所不能解释的诸多奇怪的现象。如: 同一等位基因可因亲源性别不同而产生不同的基因印记疾病,疾

57、病严重程度也可因亲源性别而异。表观遗传学信息还可直接与药物、饮食、生活习惯和环境因素等联系起来,营养状态能够通过改变表观遗传以导致癌症发生,尤其是维生素和必需氨基酸。此外,表观遗传学信息的改变,对包括人体在内的哺乳动物基因组有广泛而重要的效应,如转录抑制、基因组印记、细胞凋亡、染色体灭活等。DNA 甲基化模式的改变,尤其是某些抑癌基因局部甲基化水平的异常增加,在肿瘤的发生和发展过程中起到了不容忽视的作用。研究发现,肿瘤细胞DNA 存在广泛的低甲基化和局部区域的高甲基化共存现象,以及总的甲基化能力增高,这3个特征各以不同的机制共同参与甲基化在肿瘤发生、发展中的作用。如胃癌、结肠癌、乳腺癌、肺癌、胰腺癌等众多恶性肿瘤都不同程度地存在一个或多个肿瘤抑制基因CpG 岛甲基化。而表观遗传学改变在本质上的可逆性,又为肿瘤的防治提供了新的策略。所以,随着表观遗传学研究的深入,肯定会对人类生长发育、肿瘤发生以及遗传病的发病机制及其防治做出新的贡献,也必将在其他领域中展示其不可估量的作用和广阔的前景。(2)表观遗传学涉及到哪些方面?答:表观遗传学的研究内容主要包括

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论