现代生物基础 4_第1页
已阅读1页,还剩99页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第10章基因组和功能基因组学本章内容10.1人类基因组计划10.2高通量测序技术的起源、发展与应用10.3功能基因组学及其应用

10.1人类基因组计划为了解析人类基因组中携带的有关人类个体生长发育、生老病死的全部遗传信息,揭开人类生长发育的奥秘,为人类追求健康、战胜疾病、改善人类生活提供理论支持,来自美国、英国、日本、法国、德国和中国的科学家们共同启动了人类基因组计划。该计划于1990年启动,经过10年时间完成了第一版草图,并于2003年完成了第一个人类参考基因组,覆盖了97%的人类基因组。

随着测序技术和分析方法的发展,经过科学家们的不断努力和创新,端粒到端粒(telomere-to-telomere,T2T)的人类基因组于2021年正式发布,包含了3.055亿个核苷酸对。在人类基因组计划执行过程中建立起来的研究策略、思想与技术,极大地推动了生命科学领域新学科——“基因组学”的形成和发展,促进了生命科学与信息科学、材料科学和高新技术相结合产业的发展。基因组学是以整个基因组为单位,对生物体所有基因进行基因作图(包括遗传图谱、物理图谱、全序列图谱和转录图谱等)、核苷酸序列分析、基因定位和基因功能分析的一门学科。自提出以来,基于经典遗传学的研究方法逐渐转变成更加系统和全面的功能基因组学研究。人类基因组计划于20世纪90年代启动。计划测定单倍体染色体组中约30亿碱基对序列,从8个方面阐明这些编码的遗传信息:①确定人类基因组中2万~2.5万个编码基因的序列及其在基因组中的物理位置,表达产物及其功能。②了解转录和剪接调控元件的结构与位置,从整个基因组的宏观水平上理解基因转录与转录后调节。③从整体上了解染色体结构,包括各种重复序列以及非转录调控序列的大小和组织,了解各种不同序列在形成染色体结构、DNA复制、基因转录及表达调控中的影响与作用。④研究空间结构对基因调节的作用。有些基因的表达调控序列与被调节基因在DNA一级结构上相距甚远,但若从整个染色体的空间结构上看则恰恰处于最佳的调节位置。⑤发现与DNA复制、重组等有关的序列。DNA的忠实复制保障了遗传的稳定性,正常的重组提供了变异与进化的分子基础。这将为研究人类基因组的遗传与进化提供重要依据。⑥研究DNA突变、重排和染色体断裂等,了解疾病的分子机制,为这些疾病的诊断、预防和治疗提供理论依据。⑦确定人类基因组中转座子、反转座子和病毒残余序列,研究其周围序列的性质,有助于人类有效地利用病毒载体进行基因治疗。⑧研究个体间各遗传元件的多态性。用于基因诊断、个体识别、亲子鉴定、组织配型、发育进化等医疗、司法和人类学的研究。用于研究人类历史进程、人类在地球上的分布与迁移以及人类与其他物种之间的比较。

图10-1人类基因组计划的关键成果自人类基因组计划实施至今,该计划的关键成果如下:人类基因组计划的实施也极大地推动了包括小鼠、大肠杆菌、酵母、线虫和果蝇等模式生物基因组的研究。在人基因组计划实施过程中,科学家们在研究方法上进行了大量的创新和改进,包括构建遗传图谱、物理图谱、转录图谱和全序列图谱。下面将对这几个方法进行详细介绍。

10.1.1遗传图遗传图又称为连锁图,是指基因或DNA在染色体上的相对位置与遗传距离。遗传距离是通过遗传连锁分析确定的。连锁分析是经典遗传学的重要手段。在同源染色体的同一遗传位点上可能存在不同的等位基因多态性,而在产生配子的减数分裂过程中,同源染色体既能相互配对也可能发生片段互换,从而导致子代出现两个遗传位点等位基因的“重组”,该重组频率与这两个位点之间的距离呈正相关。用两个位点之间的交换或重组频率来表示其遗传距离。图10-2遗传距离与遗传图谱的构建科学上用两个位点之间的交换或重组频率厘摩(cM)来表示其遗传学距离。cM值越大,表明两者之间距离越远。一般说来,这一数值不会大于50%或50厘摩,因为当重组率等于50%时,两个位点之间完全不连锁,只发生随机交换。使用的遗传标志越多、越密集,所得到的遗传连锁图的分辨率就越高。经典的遗传标记是可被电泳或免疫技术检出的蛋白质标记,如红细胞ABO血型位点标记,白细胞HLA位点标记等。由于人类本身不能象其他“非人类”生物那样进行“选择性”婚配,子代个体数量较为有限、世代寿命较长等客观原因,已知呈共显多态性的蛋白质数量不多,等位基因的数量也不多,使人类遗传性状研究受到很大的限制。DNA多态性遗传标记检测技术的建立提供了大量新的人类基因组遗传标记。理想的DNA标记一般应具备遗传多态性高、在基因组中大量存在且分布均匀、选择中性、稳定性及重现性好、分析效率高、检测手段简单快捷、易于实现自动化及开发成本和使用成本低等特征,目前已发展出十几种DNA标记技术。根据对DNA多态性的检测手段,DNA标记可分为四大类:①基于DNA-DNA杂交的DNA标记,如限制性片段长度多态性(restrictionfragmentlengthpolymorphism,RFLP);②基于PCR的DNA标记,如随机扩增多态性DNA(randomamplifiedpolymorphicDNA,RAPD)和简单序列重复(simplesequencerepeat,SSR)标记等;③基于PCR与限制性酶切技术结合的DNA标记,如扩增片段长度多态性(amplifiedfragmentlengthpolymorphism,AFLP)标记和酶切扩增多态性序列(cleavedamplifiedpolymorphicsequences,CAPS)标记;④基于单核苷酸多态性的DNA标记,如单核苷酸多态性(singlenucleotidepolymorphism,SNP)标记。这些DNA遗传标记各有优缺点,为不同的研究目的提供了丰富的技术手段。表10-1各类DNA分子标记的比较RFLP和RAPD属于第一代DNA遗传标记。RFLP标记的检测主要针对的是单拷贝或低拷贝的区域,需针对特定的DNA片段设计探针,并采用放射性同位素及核酸杂交技术进行检测,存在安全问题,检测的灵敏度也较低。RAPD标记采用随机引物进行PCR扩增,不需要合成特异性探针,可针对整个基因组进行检测,安全性高,操作简单,检测速度快,但同时由于其对反应条件的高敏感度,导致其检测存在稳定性和重复性差等问题。SSR标记属于第二代DNA遗传标记,也叫做微卫星序列(microsatellitesequence)标记或短串联重复序列多态性(shorttandemrepeatpolymorphism,STRP)标记,在基因组上广泛存在,具有丰富的多态性、高度的重复性和可靠性等优点,已被广泛地应用于遗传图谱构建和基因定位等领域。目前,已有多个物种商品化的SSR标记,省去了设计开发的过程,可快速稳定地检测样品间的多态性,因而被广泛应用于遗传作图和样品鉴定等方面。作为第三代DNA遗传标记,SNP标记在密度上可以达到人类基因组“多态性”位点数目的极限,是目前应用最广泛的遗传标记,包括单个碱基的替换、缺失和插入,其中单碱基替换发生的频率显著高于缺失和插入变异。到目前为止,已经在人类基因组发现了超过1000万个SNP位点,平均每300个碱基对中就有一个SNP。由于基因组不同部分受到的选择压力不同,而且基因组中蛋白质编码序列仅占10%以下,绝大多数SNP位于非编码区。图10-3单核苷酸多态性(SNP)标记的产生及检测原理(a)

SNP的产生;(b)SNP的产生影响了DNA序列间杂交的强度。“遗传图”的建立为人类疾病相关基因的分离克隆奠定了基础。例如:拥有5000多个遗传学位点,相当于把整个人类基因组划分为5000多个小区,并分别设置了“标牌”。把多态性的疾病基因位点与上述遗传标记进行分析比较时,如果在家系中证实该基因与某个标记不连锁,表明该基因不在这一标记附近。如果发现该基因与某个标记有一定程度的“连锁”(重组率小于50%但大于0),表明它可能位于这个标记附近;如果该基因与某标记间不发生重组(重组率等于0),我们就推测该标记与所研究的疾病基因可能非常接近。

10.1.2物理图谱人类基因组物理图谱(physicalmap)是指以已知核苷酸序列的DNA序列标签位点(sequence-taggedsite,STS)为“路标”,以碱基对(bp、kb、Mb)作为基本测量单位(图距)构建的基因组图。任何DNA序列,只要知道它在基因组中的位置,都能被用作STS标签。一般STS标签长度在100~500bp。构建物理图谱的主要内容是建立相互重叠连接的、相连DNA片段群——重叠群(contig),并用PCR方法予以验证。建立STS物理图之前,首先需要得到至少5套包含相关染色体或整个基因组的DNA片段。然后,分别用各个DNA片段做模板,用来自不同STS标签上的序列做引物进行PCR扩增。如果某两个STS标签在基因组上靠得很近,它们有可能一直同时出现在DNA大片段上;如果某两个STS标签在基因组上相距较远,它们同时出现在一个DNA大片段上的几率就会小得多。只要有一定数量的STS标签,所有DNA大片段在该染色体或基因组中的位置都能被确定下来。图10-4用STS标签技术制作基因组的物理图只要有一定数量的STS标签,所有DNA大片段在该染色体或基因组中的位置都能被确定下来。基于STS的物理图谱可以将来自经典遗传学及细胞遗传学中的基因位点信息转化为基因组上的物理位点信息,并直接以这些片段为材料进行基因克隆和分析。

10.1.3转录图谱生物性状,包括疾病,主要是由结构或功能蛋白质所决定的,而所有已知蛋白质都是由带有多腺苷酸“尾巴”的mRNA按照遗传密码三联子的规律翻译产生的。人类基因组转录图谱,也被称为基因表达谱(expressionprofiling),或表达序列标签(expressedsequencetag,EST)图,是人类基因组图的重要组成部分。实验中可通过得到的一段cDNA或一个EST,筛选出全长的转录本,并根据其序列的特异性将该转录物所代表的基因准确地定位于基因组上。基因表达谱使人们更系统、全面地研究特定细胞、组织或器官的基因表达模式并解释其生理属性,更深入地认识生长、发育、分化、衰老和疾病发生机制。

10.1.4全序列图谱人类基因组的核苷酸序列图谱是分子水平上最高层次的、最详尽的物理图。测定由30亿个核苷酸组成的全序列是人类基因组计划中最明确的任务。该序列在其完成时在理论上代表了全人类的基因组信息,后来也成为所有个体重测序的参考基因组,并为基因分析和诊断提供了各种参考信息。人类基因组与其他动物基因组在染色体水平上有上具有高度同源性和共线性。例如:人类第21号染色体HSA21位点与小鼠第16染色体MMU16、MMU17和MMU10连锁图的比较,我们可以很清楚地看出,两者之间存在着广泛的同源性。图10-5人类第2号染色体HSA2位点与小鼠16号染色体MMU16、MMU17和MMU1位点有“共线”性11.2高通量测序技术的起源、发展与应用对于每个生物体来说,基因组包含了整个生物体的遗传信息。快速和准确地获取生物体的全部遗传信息对于生命科学研究具有十分重要的意义。人类基因组计划的实施,极大地促进了全基因组测序技术的发展,让人们能够更好地了解生物个体或种群的基因组遗传信息,对生命科学的研究至关重要。

1954年Whitfield等提出的化学降解方法测定多聚核糖核苷酸序列是最早的测序技术。直到1977年,Sanger和Gilbert等分别发明了双脱氧核苷酸末端终止法(Sanger法)和化学降解法(Gilbert法),标志着第一代测序技术的诞生。应用第一代测序技术,人们解析了从噬菌体基因组到人类基因组草图等大量测序工作,但其成本高、速度慢、通量低,使得发展新的、更高效的测序技术成为必然。

经过科学家们的不断尝试和创新,多家公司陆续推出了第二代测序技术,包括Roche公司的454技术、Illumina公司的Solexa技术和ABI公司的SOLiD技术等。随着测序技术向着高通量、低成本、长读取长度方向的发展,第三代测序技术也应运而生,包括Helicos公司的Heliscope单分子测序技术、PacificBiosciences公司的单分子实时(singlemoleculerealtime,SMRT)测序技术和OxfordNanoporeTechnologies公司的纳米孔单分子测序技术等。

10.2.1三代测序技术比较1.第一代测序技术第一代测序技术中,Sanger法通过引入带放射性同位素标记的ddNTP随机中断合成待测序列,然后借助凝胶电泳和放射自显影技术对待测DNA分子进行测序。此方法要求使用适当的DNA引物,以单链DNA为模板,在DNA聚合酶的催化下进行DNA的合成,因此也称为引物合成法或酶催引物合成法。

在DNA测序反应中,由于ddNTP没有3′-OH基团,ddNTP取代常规的脱氧核苷酸(dNTP)掺入到寡核苷酸链的3′端之后,阻断了DNA聚合反应,寡核苷酸链不再继续延长,进而发生了特异性的链终止效应。在同一个反应中,加入大量带32P放射性标记的4种dNTP及适量的某种ddNTP,经过适当的温育之后,将会产生出不同长度的DNA片段混合物。这些混合物都具有同样的5′端,并在3′端的ddNTP处终止。将这种混合物加到变性凝胶上进行电泳分离,就可以获得一系列全部以3′端ddNTP为终止残基的DNA片段的电泳谱带。之后,通过放射自显影的方法检测单链DNA片段的放射性带,就可以直接读出DNA的核苷酸顺序,一般一次测序反应的长度不超过1000bp。分别加入ddATP、ddGTP和ddCTP,在不同试管中温育后,点样于同一变性凝胶上作电泳分离,再通过放射自显影的方法检测单链DNA片段的放射性带,就可以直接读出DNA的核苷酸顺序。图10-6Sanger测序的典型结果(引自饶毅手记)2.第二代测序技术与第一代测序技术相比,第二代测序技术(nextgenerationsequencing,NGS)在保持高准确度的基础上,大大降低了测序成本,极大地提高了测序速度。Sanger法耗费了三年时间总共30亿美元的投入才完成人类基因组计划,而第二代SOLiD测序技术则可在一周左右完成相同的测序工作,充分体现了第二代测序技术的高效性与Sanger法中采用细菌克隆培养扩增待测样本的策略不同,第二代测序技术均采用在随机片段化基因组DNA后,直接在体外连接上包含barcode序列(用于区分不同样品)和PCR扩增引物序列的共同接头序列(adaptorsequence),通过PCR扩增产生成簇的扩增子,最终固定到固态反应基底的不同位置上,进而通过一系列自动循环的酶促生化反应和图像收集过程对DNA序列进行检测。相对于Sanger测序法,第二代测序所采取的体外构建测序文库、体外扩增测序模板以及更高密度的阵列化测序更大地提高了测序的自动化和平行化,从而降低了测定单位碱基所消耗的各种生化试剂,大大降低了测序成本。但是,由于第二代测序技术产出的序列长度较短,测序中容易引入随机错误,需加大测序量,并经过更多的计算机分析才能较好的完成基因组的组装,为基因组的组装带来了巨大的挑战。。图10-7传统Sanger法测序(a)与第二代测序技术(b)原理比较Roche(454)测序技术:待测序列首先会被随机打断成300~800bp的小片段,然后在两端加上不同的接头,构建单链DNA文库;之后将ssDNA连接到载体磁珠上,并进行乳液PCR,使得每个磁珠上的DNA扩大到测序所需的浓度;反应结束后,破坏孵育体系,并将富集带DNA的磁珠固定在平板上,以供测序;之后以磁珠上的ssDNA为模板,每次加入一种dNTP进行反应,产生荧光,并用信号收集器进行荧光信号采集;最后,通过相应的信号分析软件进行分析,得出测序结果,并进行后续的分析。此技术测序读取长度可达到400bp,有效提高了后续序列的拼接效率和准确性。然而,每个循环仅能产生400~600Mb数据,产量较低,导致测序成本较高。此外,此技术无法准确测量连续多个同一类型碱基的长度,导致测序的错误主要来自插入和缺失,如当待测序列中出现poly(A)的情况下,测序反应中会一次加上多个T,而加入T的数目只能从荧光信号的强度来推测,从而造成结果不准确。图10-8Roche(454)GSFLX测序流程图Illumina公司的Solexa测序技术:采用边合成边测序方法进行测序,即利用单分子阵列技术在芯片(FlowCell)上进行桥式PCR反应,通过可逆阻断技术实现每次反应只合成一个碱基,再利用相应的激光激发碱基附着的荧光基团发光,并用高精度照相机捕获激发光,从而读取碱基信息。Solexa测序可采用单末端或双末端测序法对片段进行测序,后者在构建待测DNA文库时在两端的接头上都加上了测序引物结合位点,在一轮测序完成后,去除第一轮测序的模板链,用双末端测序模块(Paired-EndModule)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序。双末端测序法使得读取长度达到2×75bp,测序的长度仍有所欠缺,导致后续的序列拼接工作的计算量和难度大大增加。由于Solexa技术在合成中每次只添加一个dNTP,因此能很好的解决同聚物长度准确测量的问题。其主要错误来源是核苷酸替换,错误率大概在1%~1.5%之间。目前,由于Illumina测序周期短、通量高、成本低,相关平台已在全世界广泛应用,也有多家国内外公司开发出类似的高通量测序平台。图10-9Solexa测序流程图ABI公司的SOLiD测序技术:种基于连接酶的测序法,即利用DNA连接酶在连接过程中进行测序。SOLiD系统在DNA片段化、接头序列的连接以及模板扩增等步骤上均与Illumina平台相似,但测序过程中链延伸的反应并非由DNA聚合酶催化,而是由DNA连接酶催化完成。通用的测序引物与小磁珠上待测序列末端的接头序列杂交后,每轮测序过程都涉及DNA连接酶催化被荧光标记的简并八聚核苷酸探针的连接反应。SOLiD系统采用双碱基编码探针,即简并八核苷酸探针的第一位和第二位碱基决定探针所带的荧光标记的颜色。测序引物与模板DNA杂交后便启动了1、2位编码的八核苷酸探针与模板的杂交,随后便进入连接酶催化连接、荧光信号采集、切除探针后3位核苷酸及标记荧光标签的循环。经过10次这样的循环产生10个对应的荧光标记信号,每个标记对应于DNA序列上每五个碱基中的前两个碱基序列。后经变性恢复模板单链,选用一个“n-1”引物,开始新一轮的10次连接反应循环。“n-1”引物重新设定了被检测碱基的位置,所得到的10个荧光标记对应的碱基均向左移了一位。这样分别用5个依次位移的引物起始互补链的延伸,再将得到的不同颜色荧光标记按顺序线性列出,比对到参考基因组上,最终解码出DNA序列。然而,与Solexa技术类似,SOLiD测序读取长度也较短(2×50bp),后续的序列拼接工作也比较复杂。图10-10SOLiD测序原理图(a)SOLiD测序5轮连接反应前2轮示意图,探针3′端第1、2位两个碱基决定荧光标记,杂交后探针3′端6~8位碱基连同荧光标记被酶切切除,因此第一轮连接获得(1,2);(6,7);…;(1+n*5,2+n*5)位的序列信息,然后下4轮探针依次左移一位,这样5轮反应获得全部序列信息;(b)SOLiD测序结果。根据每轮反应对应的双碱基编码矩阵进行基因组比对,SNP位点会造成2轮反应荧光信号的改变。3.第三代测序技术第三代测序技术的最大特点是单分子测序。其中,SMRT技术和Heliscope技术均利用荧光信号进行测序,而纳米孔(nanopore)单分子测序技术则依赖于不同碱基产生的电信号进行测序。对物种基因组的组装是开展基因功能研究的基础。然而,由于第二代测序数据读长较短,导致仅通过第二代测序数据获得组装效果较好的基因组序列信息较为困难。SMRT技术和Nanopore技术可产生读长较长的数据,有效提高基因组组装的效果。Heliscope单分子测序技术是基于边合成边测序的思路,将待测序列随机打断后添加3′-poly(A)尾,然后利用末端转移酶在接头末端加上荧光标记。测序片段与表面带有寡聚poly(T)的平板杂交后,加入DNA聚合酶和荧光标记的dNTP进行DNA合成反应,每一轮反应添加一种dNTP。随后,洗脱未参与反应的酶和dNTP,并对荧光信号进行检测和采集。在开始下一轮反应前,采用化学试剂淬灭荧光标记,然后经过不断地重复合成、洗脱、成像、淬灭过程,最终完成测序。Heliscope技术的读长较短,一般30~35bp,同时在检测连续多个同样碱基上有所欠缺。SMRT测序技术也是基于边合成边测序的思路,以SMRT芯片为测序载体进行测序反应。DNA聚合酶被固定在包含很多零模波导(zeromodewaveguide,ZMW)孔的芯片基底表面,之后将4种带有不同荧光标记的dNTP以最适于DNA聚合反应的浓度(μg分子级别)添加到反应体系中,由DNA聚合酶与结合了引物的单分子模板序列结合,催化链的延伸。ZMW孔结构使得激光对荧光染料的激发被限制在10-21L的空间内,从而只激发处于该范围内的正在反应的荧光染料,排除反应体系中其他所有带荧光标记的dNTP的干扰。一旦核苷酸被整合到DNA链中,连接荧光标记的焦磷酸副产物很快扩散出ZMW的检测区域,荧光信号也随之衰减到背景水平。随后模板移动到下一位,开始新一轮核苷酸的整合和信号检测。SMRT技术属于实时监测的测序平台,也是所有新测序平台中读长最长的测序方法,读长可达1000碱基或更长。但该方法测序精确度不高,只有80%左右。纳米孔测序策略完全有别于基于链合成的测序方法。该方法将核酸分子驱动通过一个纳米孔,逐个检测单碱基与纳米孔的相互作用,或者检测DNA通过纳米孔时电导系数的变化,进而推测核酸分子的序列。目前,基于纳米孔测序技术的MinION测序平台已经商业化,其测序仪仅U盘大小,应用前景备受关注。MinION采用生物膜定位的孔蛋白形成的纳米孔进行测序,经过改造后的生物膜孔蛋白如溶血素(α-hemolysin)会形成直径约1nm、长10nm的通道,利用核酸序列通过这一通道时每个碱基产生的特征电流强度来读取序列信息。纳米孔测序不涉及聚合反应且直接显示测序结果,因此具有反应快、体积小、成本低、读长长和测序时间短等特点。但是,纳米孔测序的错误率较高。图10-11单分子实时测序(SMRT)技术和纳米孔技术(a)SMRT单分子孔及测序反应流程图;(b)纳米孔单分子测序原理示意图。10.2.2高通量测序技术的延伸与发展随着科学研究逐渐由宏观的群体或个体到器官,再到细胞层面的逐渐深入,常用的混合式第二代测序技术已无法满足更加精细的测序需求。单细胞测序(singlecellsequencing)技术的提出,将测序的维度提升到单细胞水平。单细胞测序基于第二代测序技术,只不过关注的是单细胞基因组、转录物组、表观组或染色体构象等信息。目前,单细胞测序主要用来检测单个细胞内的转录物组,根据测序对象的不同,可分为针对单个细胞的转录物组测序(single-cellRNA-seq,scRNA-seq)和针对单核的转录物组测序(single-nucleusRNA-seq,snRNA-seq)。相较于传统的RNA-seq,scRNA-seq可以有效探索组织中存在的细胞类型或亚群,识别未知或稀有的细胞类型或状态,阐明细胞分化过程或不同发育阶段内基因的表达变化,检测特定细胞亚群的差异化表达,进而推断内在的基因调控网络。单细胞测序主要用来检测单个细胞内的转录物组,根据测序对象的不同,可分为针对单个细胞的转录物组测序(single-cellRNA-seq,scRNA-seq)和针对单核的转录物组测序(single-nucleusRNA-seq,snRNA-seq)。目前常见的单细胞测序仪器主要基于液滴法或微孔法。单细胞测序平台,包括10×Genomics公司推出的Chromium单细胞平台和华大智造推出的DNBelabC4平台等。Chromium单细胞平台通过微流控芯片技术获得单细胞反应体系,并在传统文库构建的基础上引入标签(barcode),进而通过追溯标签序列将测序数据定位到每个细胞或每个大片段。DNBelabC4平台采用自主设计的捕获磁珠,单个磁珠可一次性高效捕获多达上百条序列,通过引入自主研发的多磁珠识别技术,可有效提高基因捕获效率及获取细胞的完整信息。

10.3功能基因组学及其应用随着基因组学的发展,基因组学的研究已经由全基因组测序的结构基因组学转向以基因功能鉴定为目标的功能基因组学(functionalgenomics)研究,研究的尺度也由单一基因和蛋白质逐渐转变为系统性鉴定与分析生物体内所有的基因和蛋白质。

10.3.1基因变异分析人类基因组中的变异与人类的演化、生长发育、疾病发生等方面都有着密切的联系。这些变异按照其特征可分为单核苷酸多态性(SNP)、小的插入和缺失(insertionanddeletion,Indel)以及基因结构性变异(structurevariation,SV)。图10-12基因组上基因变异类型SNP不仅在人类基因组遗传图谱的绘制上发挥巨大作用,也为确定疾病的遗传学基础提供了信息。Indel在基因组上也广泛存在,长度一般在50bp以下,可导致编码的蛋白提前终止或移位。SV是基因组上大的基因结构变异,包括较长的插入或缺失、串联重复(tandemrepeat)、染色体倒位(inversion)、染色体内部或染色体间的易位(translocation)、拷贝数变异(copynumbervariation,CNV)及更为复杂的嵌合型变异。目前,根据测序数据获得基因组结构变异的方法可被分为四类:①基于双端测序匹配的方法;②基于测序序列分割匹配的方法;③基于测序数据覆盖度的方法;④基于组装的方法。这四类基因结构变异检测方法中,除了第三种主要适用于缺失和拷贝数变异两类变异的检测,其他方法均适用于所有类型基因组结构变异的检测。

11.3.2功能基因定位功能基因定位是指依据连锁关系,借助分子标记等工具将基因定位到基因组上特定的位置,在遗传学研究中起到至关重要的作用。第二代测序技术的发展加快了对基因组的解析,越来越多的物种基因组信息被公布。探究未知基因的功能,解析基因间复杂的互作网络,挖掘具有重要功能的基因资源,对基因进行定位和克隆显得尤为重要。研究某个基因的功能,可以从该基因出发,通过筛选该基因上的突变(序列变异或表达变异),并观察突变是否造成可稳定遗传的表型,从而将该基因与表型关联起来,这种研究的方法称为反向遗传学(reversegenetics)。TILLING技术(targetinginducedlocallesionsingenomes)是一种常用的反向遗传学定位基因组上化学诱变导致的突变位点的方法,通常依赖于PCR扩增时突变位点处异源DNA双链核酸分子的形成,随后被单链核酸酶剪切释放出荧光,从而检测目的基因上的突变位点。与反向遗传学不同,正向遗传学(forwardgenetics)则从性状出发,通过构建定位群体,并借助分子标记或第二代测序技术等,定位与性状相关的基因。主要包括传统图位克隆(map-basedcloning/positionalcloning)、基于DNA重测序定位的方法、基于RNA-seq定位的方法及传统图位克隆与第二代测序结合定位的方法等。图位克隆:是一种有效的正向遗传学定位基因的方法。它通过将突变体与远缘野生型亲本进行杂交,构建定位群体,然后借助DNA分子标记,筛选在定位群体中突变体与野生型植株具有差异的标记,并通过与表型进行关联分析,确定与突变基因紧密连锁的分子标记,获得初步定位区间,然后再通过不断加密分子标记,利用大定位群体对候选基因进行精细定位。利用图位克隆方法进行基因精细定位一般需要比较长的时间,时间成本和实验成本高,过程繁琐,得到的候选区间较大,候选基因的确定还需要通过转基因手段或突变体进行确认。基于第二代测序技术的基因定位方法通过比较分析突变体和对照材料的测序数据,筛选突变体与对照材料间的多态性位点,并根据多态性位点与表型间的连锁关系,鉴定与突变表型相关的区间或基因。该基因定位方法可分为基于DNA重测序的定位方法和基于RNA测序的定位方法。前者包括SHOREmap、MutMap系列方法和NIKS等,后者包括BSR-seq和MMAPPR等。图10-13SHOREmap和MutMap基因定位示意图传统图位克隆是一种有效的基因定位方法,但定位周期长、成本高、效率低。而基于第二代测序的基因定位方法在分析有参考基因组物种时,可能由于杂交亲本引入的多态性位点、测序的偏向性(MutMap系列)、基因调控区域的变异和基因表达差异导致缺失多态性位点信息(BSR-se和MMAPPR)及组装和基因预测的不确定性(NIKS)等,导致最终无法准确定位候选基因,丢失候选或候选位点较多。结合传统图位克隆和基于第二代测序技术进行基因定位的方法,可以有效地提高复杂物种中定位候选基因的效率和准确性。表10-2各类基因定位方法的比较10.3.3转录物组解析转录物组包含的是特定组织或细胞在某一发育阶段或功能状态下所有信使RNA(messengerRNA,mRNA)的集合。转录物组测序(RNA-seq)作为一种基于第二代测序技术的转录物组研究手段,可对样品中表达的RNA进行定量,为生命科学研究提供另一个维度的信息,是基因功能及结构研究的基础和出发点,也是连接基因组遗传信息和生物功能(蛋白质组)的必然纽带,目前已广泛应用于生物学研究、医学研究、临床研究和药物研发等。转录物组分析主要应用于:①检测新的转录物,包括未知转录物和稀有转录物;②基因转录水平研究,如基因表达量、不同样本间的差异化表达;③转录物组结构变异研究,如可变剪接、基因融合等;④非编码区域的功能研究,如小RNA、长链非编码RNA(longnon-codingRNA,lncRNA)等;⑤开发SNP和SSR标记等。常用的基于第二代RNA-seq测序技术可针对逆转录的cDNA和单链RNA进行测序,后者在获得RNA表达量的同时,还可获得链特异性表达的RNA信息,应用于挖掘功能lncRNA和反义链表达的RNA。随着第三代测序技术的发展,RNA测序的长度有了明显的提升,其中基于纳米孔测序平台的RNA直接测序(directRNA-seq)可直接针对单链RNA进行测序,而SMRT平台仍需将RNA逆转录为cDNA后进行测序。依赖于逆转录的RNA测序一般只能获得具有poly(A)尾的RNA,且在逆转录过程中会丢失RNA上的修饰信息。RNA直接测序可直接分析全长转录物异构体,度量RNA碱基修饰(如N6-甲基腺苷修饰m6A),同时也可用于检测poly(A)尾长度。

10.3.4染色体空间构象捕获染色体空间构象捕获(chromosomeconformationcapture)技术主要针对细胞中染色体的空间排布和相互作用展开研究,相关的方法能够检测不同染色体上的基因位点或同一条染色体上不同的基因位点间在三维结构上的相互作用。这些三维结构上的相互作用具有促进启动子和增强子结合、形成染色体环(chromatinloop)来调控基因表达等生物学功能。通过分析不同片段间的相互作用频率,可以重构染色体三维结构。其建库方法一般为化学方法胶联固定形成染色体三维构象的蛋白质和基因组DNA,酶切消化核酸后三维基因组DNA由于结合蛋白的保护而得以保留,而后平末端的连接和解胶联反应可以使三维相互作用的基因组DNA连接成同一序列,对获得的序列添加接头并进行高通量测序可以获得染色体构象的准确信息。根据研究目的和相互作用尺度的不同,染色体构象俘获技术分为:一对基因位点之间(3C);一个基因位点和多个基因位点(4C);多个位点之间(5C);全部基因位点之间(Hi-C)的相互作用研究。图10-14染色体构象俘获高通量测序结果和染色体构象三维模拟结果(Tangetal.,2015)

11.3.5核糖体图谱解析除了基因的转录调控,基因的翻译调控对最终蛋白质含量的变化发挥着重要作用。目前最常用的全基因组范

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论