基因组学概述ppt课件_第1页
基因组学概述ppt课件_第2页
基因组学概述ppt课件_第3页
基因组学概述ppt课件_第4页
基因组学概述ppt课件_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第11章 基因组与比较基因组学,11.1 人工染色体构建 11.2 高通量DNA序列分析技术 11.3 新的测序策略-全基因组鸟枪法测序 11.4 全基因组序列分析-基因组学的新内容 11.5 人类基因组计划 11.6 比较基因组学(Comparative genomics),11.1 人工染色体构建,1983年,美国的Dana-Farber癌症研究所和哈佛大学医学院的教授首次在Nature上发表文章,报道了构建YAC(Yeast Artificial Chromosome)库的过程。1987年,Burke等人发现,仅仅带有ARS序列(autonomous replicating sequence) 的载体虽然能够被复制,但极易在有丝分裂时丢失。即使在选择培养基上,也只有5%-20%的子代细胞带有ARS载体。加入Centromeres (CEN)能显著提高ARS质粒在有丝分裂时的稳定性,90%以上子代细胞带有该载体。CEN还能显著降低拷贝数,从20-50/细胞降为1-2/细胞。(Science, 236:806-812)。,人工染色体含有三种必需成分:着丝粒、端粒和复制起点。 着丝粒(CEN)位于染色体中央,呈纽扣状结构,在有丝分裂时结合微管并调控染色体的运动,也是姐妹染色单体配对时的最后位点,接收细胞信号而使姐妹染色体分开。 端粒(TEL):主要功能是防止染色体融合、降解、确保其完整复制。端粒酶以其自身RNA为模板,在染色体端部添加上端粒重复序列,并参与端粒长度和细胞增殖的调控。,复制起点: DNA复制通常由起始蛋白与特定的DNA序列相互作用开始。,载体的概念: 1.要把一个有用的基因(目的基因研究或应用基因)通过基因工程手段送到生物细胞(受体细胞),需要运载工具(交通工具)携带外源基因进入受体细胞,这种运载工具就叫做载体(vector)。 2.凡来源于质粒或噬菌体的DNA分子,可以插入或克隆DNA片段统称为vector。 3.基因工程所用的vector实际上是DNA分子,是用来携带目的基因片段进入受体细胞的DNA。,载体的分类,说明: 1.穿梭载体(sbuttle vector) 指在两种宿主生物体内复制的载体分子,因而可以运载目的基因(穿梭往返两种生物之间,如:YEP,DIDB219 2.YAC Yeast Artificial Chromsome 由酵母基因和PBR322质粒衍生物构成,对克隆大的真核基因十分有用,在HGP中发挥主要作用。 3.BAC 细菌人工染色体。,YAC的主要缺点,1存在高比例的嵌合体,即一个YAC克隆含有两个本来不相连的独立片段; 2部分克隆子不稳定,在转代培养中可能会发生缺失或重排; 3难与酵母染色体区分开,因为YAC与酵母染色体具有相似的结构。 4操作时容易发生染色体机械切割。,以细菌寄主系统为基础的克隆载体形成嵌合体的频率较低,转化效率高,又易于分离。科学家用“染色体建造“法用F质粒及其调控基因构建细菌载体,克隆大片段DNA。该质粒主要包括oriS, repE(控制F质粒复制)和parA、 parB(控制拷贝数)等成分。,BAC的优点,1 易于用电击法转化E.coli(转化效率比转化酵母高10-100倍); 2 超螺旋环状载体,易于操作; 3 F质粒本身所带的基因控制了质粒的复制; 4 很少发生体内重排。,有人把人类染色体端粒DNA上单个-卫星DNA单元多聚化形成1Mb左右的大片段并与人类基因组DNA混合,产生了能被复制、能正常分裂并得到长期稳定保存的人工合成的染色体,长度约为6-10Mb,称为MAC或HAC。,人类基因组,线粒体基因组(16.6kb),核基因组(3200Mb),基因外序列,基因和基因有关序列,约10%,约90%,专一或中等重复序列,Non-coding DNA,假基因,内含子,基因片段,10%,90%,专一的或低 拷贝数序列,中度至高度重复序列,2030%,7080%,分散重复序列,串联重复序列/ 成簇重复序列,约60%,约40%,蛋白编码 基因,rRNA 基因,tRNA 基因,Coding DNA,在大规模DNA测序中,目标DNA分子的长度可达上百万个bp。现在还不能直接测定整个分子的序列,然而,可以得到待测序列的一系列序列片段。 序列片段是DNA双螺旋中的一条链的子序列(或子串)。这些序列片段覆盖待测序列,并且序列片段之间也存在着相互覆盖或者重叠。在一般情况下,对于一个特定的片段,我们不知道它是属于正向链还是属于反向链,也不知道该片段相对于起点的位置。另外,这样的序列片段中还可能隐含错误的信息。序列片段的长度范围3001000 bp,而目标序列的长度范围是3100万bp,总的片段数目可达上千个。 DNA序列片段组装(sequence assembly),又称序列拼接)的任务就是根据这些序列片段,重建目标DNA序列。如果能够得到DNA一条链的序列,那么根据互补原则,另一条链的序列也就得到了。,11.2 高通量DNA序列分析技术,DNA测序不能从染色体进行,首先必须克隆化,构建基因组的物理图谱。 先构建片段DNA克隆(以YAC或BAC为载体),并把克隆依染色体排序,这就是“染色体的克隆图”。依片段DNA克隆在染色体上所在的位置排序,可以得到相互重叠的一系列克隆,叫做“克隆重叠群”(contig)。选取有关的克隆进行DNA测序,就可以“拼装”出整个染色体或基因组的DNA序列。如果克隆片段太大仍不便于直接测序,则需通过亚克隆,构建更小的片段。 另外一种方法是对所有相互重叠的亚克隆进行测序,然后直接通过计算机程序根据其重叠部分进行“拼装”。,完整基因组的测序过程一般包括三个步骤: (1)建立克隆的物理图谱:如酵母人工染色体YAC(Yeast Artificial Chromosome)克隆、细菌人工染色体BAC(Bacterial Artificial Chromosome)克隆等; (2)测定每个克隆的序列; (3)序列拼装和注释:当得到一段DNA序列之后,可以利用序列分析工具,进行序列的拼接;继而通过与数据库序列的比较,得到与该序列相关的信息,如基因、调控元件、重复区域等,进而对序列的生物学特性进行注释。,杂交测序法 质谱法 单分子测序法 原子探针显微镜测序法 DNA 芯片法,经典方法: Sanger双脱氧链终止法(Sanger,1977) Maxam-Gilbert DNA化学降解法(Maxam &Gilbert,1977),新技术方法:,Sanger双脱氧链终止法原理: 双脱氧链终止法要求使用一种单链的DNA模板和一种适当的DNA合成引物。 利用DNA聚合酶的两种酶催化反应的特性: 第一,DNA聚合酶能够利用单链的DNA为模板,合成出准确的DNA互补链; 第二,DNA聚合酶能够利用2,3-双脱氧核苷三磷酸作底物,使之参入到寡核苷酸链的3-末端,从而终止DNA链的延长。,Dideoxynucleotides (双脱氧核苷酸),ddNTPs 是反应终止剂 可以当作正常碱基参与复制, 一旦链入DNA中,其后就不能再继续连接。 反应体系中dNTPs的浓度远高于ddNTPs(一般1:34)。,*,少一个OH,脱氧核甘酸 与 双脱氧核甘酸 结构比较,Sanger第一步:加入复制终止剂,荧光检测探头,电泳,看谁跑得快,ddNTPs参与下的DNA复制,Sanger法测序产物的平均链长取决于ddNTP:dNTP的比例,比例高时,得到较短的产物; “标记终止法”测序产物的平均长度可通过标记反应中dNTP浓度(高浓度能得到长的产物)或终止反应的ddNTP:dNTP来调整。,Sanger第二步:荧光检测,Gel Electrophoresis DNA Fragment Size Determination,DNA 带负电 DNA在电泳胶中的迁移率与其片段大小有关,Analyzed Raw Data,除核苷酸序列文本文件外,全自动测序仪还提供曲线图。 Trace diagrams are analyzed by base calling programs that use dynamic programming to match predicted and occurring peak intensity and peak location. Base calling programs predict nucleotide locations in sequencing reads where data anomalies occur. Such as multiple peaks at one nucleotide location, spread out peaks, low intensity peaks.,Maxam-Gilbert法,用化学试剂处理末端放射性标记的DNA片断,造成碱基的特异性切割。由此产生的一组具有不同长度的DNA链的反应混合物,经凝胶电泳按大小分离和放射自显影之后,便可根据x光底片上所显示的相应谱带,直接读出待测DNA片断的核苷酸序列。,原理:,碱基特异性化学切割反应: 硫酸二甲酯(DMS ):使DNA分子中鸟嘌呤(G)上的N7原子甲基化。 肼:使DNA分子中胸腺嘧啶(T)和胞嘧啶(C)的嘧啶环断裂;但高盐条件下,只C断裂,而不与T反应。 哌啶:从修饰甲基处断裂核苷酸链。 在不同的酸、碱、高盐和低盐条件下,三种化学试剂按不同组合可以特异地切割核苷酸序列中特定的碱基。,G反应:DMS使G在中性和高温条件下脱落。 G+A反应:酸性条件(如甲酸)可使A和G嘌呤环上的N原子质子化,利用哌啶使A、G脱落。 T+C反应:肼(低盐) C反应:肼(高盐) 测定DNA长度250bp。,化学裂解法测定DNA的核苷酸序列,杂交法SBH (Sequencing by hybridization) 用特定长度的具有所有可能碱基序列的寡核苷酸探针与未知序列的DNA片段杂交。根据某些探针形成的完全双链,推知目的DNA的碱基序列。,步骤: 1.将待测的靶DNA分子与一组已知核苷酸序列的寡核苷酸探针进行杂交 2. 对能与待测DNA杂交的探针之间的碱基重叠关系作比较分析,据此推算靶DNA的核苷酸序列。,两种操作方式: 1. 将不同的寡核苷酸与固定在滤膜上的靶DNA序列样品进行杂交 2. 应用寡核苷酸矩阵芯片的DNA杂交测序法,全基因组鸟枪法测序的主要步骤,第一,建立高度随机、插入片段大小为2kb左右的基因组文库。克隆数要达到一定数量,即经末端测序的克隆片段的碱基总数应达到基因组5倍以上。 第二,高效、大规模的末端测序。对文库中每一个克隆,进行两端测序,TIGR在完成流感嗜血杆菌的基因组时,使用了14台测序仪,用三个月时间完成了必需的28,463个测序反应,测序总长度达6倍基因组。 第三,序列集合。TIGR发展了新的软件,修改了序列集合规则以最大限度地排除错误的连锁匹配。 第四,填补缺口。有两种待填补的缺口,一是没有相应模板DNA的物理缺口,二是有模板DNA但未测序的序列缺口。他们建立了插入片段为15-20kb的文库以备缺口填补。,鸟枪法测序的缺点,随着所测基因组总量增大,所需测序的片段大量增加,造成重复测定,也易丢失某些序列,且数据处理分析工作量大。 高等真核生物(如人类)基因组中有大量重复序列,导致判断失误。,鸟枪法测序的缺点,对鸟枪法的改进,(1) Clone contig法。首先用稀有内切酶把待测基因组降解为数百kb以上的片段,再分别测序。 (2) 靶标鸟枪法(direted shotgun)。首先根据染色体上已知基因和标记的位置来确定部分DNA片段的相对位置,再逐步缩小各片段之间的缺口。,一些常见的缩写,SSLPs, simple sequence length polymorphisms; STRs, simple tandem repeats; SNPs, single nucleotide polymorphisms. LINEs, long interspersed nuclear elements; SINEs, short interspersed nuclear elements; LTR, long terminal repeat. FISH, Fluorescent in situ Hybridization; STS, Sequence Tagged Site EST, End Sequence Tag.,DNA全序列,切成小段,小段和载体结合,结合后进行测序,Map fragments,Sequence overlapping fragments,Assembled sequence,基因组DNA序列测定示意图 通过随机剪切得到的大分子DNA片段克隆到载体上。绘制出这些重叠片段的图谱,并对重叠片段进行测序,通过“拼装”得到基因组序列。另一种方法不是根据片段的染色体位置,而是根据其重叠部分进行“拼装”。,Sequence all fragments and assemble,11.4 全基因组序列分析-基因组学的新内容 1数据存放。 2碱基百分含量分析。无论是GC富含区还是AT富含区,都可能是一些特殊功能的区域。 肺炎支原体GC百分含量高和GC百分含量低的区域对应于重组值较低的区域,包括着丝粒和端粒,而尿殖道支原体GC百分含量最低的区域对应于rRNA和tRNA。流感嗜血杆菌GC百分含量高的区域也对应于6个rRNA基因。 3. ORF分析。首先要用多个不同的软件来要找到并估测基因组中的每一个ORF。 通过比较确知其功能的; 在数据库中有相匹配的蛋白质序列,但不知其能的; 在数据库中找不到任何相匹配蛋白质序列的新基因。,1995年,J.C. Venter所领导的TIGR(The Institute of Genomic Reseach)完成了第一个单细胞自由生物基因组,流感嗜血杆菌(Haemopophilus influenzae Rd)全序列测定。 1996年他们又完成了拥有最小基因组的单细胞生物尿殖道支原体(Mycoplasma genitalium)和一种不同于原核、真核生物的单细胞生物-产甲烷古细菌(Methanococcus jannaschi) 的全序列测定。 德国人则测定了肺炎支原体(Mycoplasma pneumoniae)基因组全序列。,与此同时,历时七年(1989-1996年)的第一个真核生物酿酒酵母(Saccharomyces cevevisiae)基因组计划在欧共体及美、日、加、英等各国实验室共同努力下得以完成。 1997年大肠杆菌(Escherichia. Coli S)的基因组计划完成,美丽隐杆线虫(caenothabditis elegans)的基因组计划也于1998年完成。 最受瞩目的人类基因组计划 (HGP, Human GenomeProject)也于 2000年底前完成。,DNA 序列分析的内容,确定开放读码 内含子与外显子 DNA序列拼接,基 因 组 学 Genomics,基因 合成有功能的蛋白质或RNA所必需的全部DNA序列,即一个基因不仅包括编码蛋白质或RNA的核酸序列,还应包括为保证转录所必需的调控序列。 基因组(genome) 泛指一个有生命体、病毒或细胞器的全部遗传物质;在真核生物,基因组是指一套染色体(单倍体)DNA。,基因组学概念及范畴,基因组学(genomics) 就是发展和应用DNA制图、测序新技术以及计算机程序,分析生命体(包括人类)全部基因组结构及功能。,基因组学包括3个不同的亚领域 结构基因组学(structural genomics) 功能基因组学(functional genomics) 比较基因组学(comparative genomics),基因组学概念,*结构基因组学,结构基因组学(structural genomics)是通过HGP的实施来完成的。 HGP的内容就是制作高分辨率的人类遗传图和物理图,最终完成人类和其它重要模式生物全部基因组DNA序列测定,因此HGP属于结构基因组学范畴。,11.5 人类基因组计划 human genome project,HGP,1、HGP简介,人类基因组计划是由美国科学家于1985年率先提出、于1990年正式启动的。美国、英国、法国、德国、日本和我国科学家共同参与了这一价值达30亿美元的人类基因组计划。这一计划旨在为30多亿个碱基,编码了5万-6万个基因。对构成的人类基因组精确测序,发现所有人类基因并搞清其在染色体上的位置,破译人类全部遗传信息 。,为什么选择人类的基因组进行研究?,人类是在“进化”历程上最高级的生物 认识自身 掌握生老病死规律 疾病的诊断和治疗 了解生命的起源 在人类基因组计划中,包括对五种生物基因组的研究:大肠杆菌、酵母、线虫、果蝇和小鼠,称之为人类的五种“模式生物”。,HGP的诞生,1984年12月Utah州的Alta,White R受美国能源部的委托,主持召开了一个小型会议,讨论DNA重组技术的发展及测定人类整个基因组的DNA序列的意义。 1985年6月,在美国加州举行了一次会议,美国能源部提出了“人类基因组计划”的初步草案。 1986年6月,在新墨西哥州讨论了这一计划的可行性。随后美国能源部宣布实施这一草案。 1987年初,美国能源部与国家医学研究院(NIH)为“人类基因组计划”下拨了启动经费约550万美元,1987年总额近1.66亿美元。同时,美国开始筹建人类基因组计划实验室。 1989年美国成立“国家人类基因组研究中心”。诺贝尔奖金获得者J.Waston出任第一任主任。 1990年,历经5年辩论之后,美国国会批准美国的“人类基因组计划”于10月1日正式启动。美国的人类基因组计划总体规划是:拟在15年内至少投入30亿美元,进行对人类全基因组的分析。 2000年,人类基因组草图完成。 2003年,人类基因组计划完成。,人类基因组计划的科学意义 确定人类基因组所携带的全部遗传信息,认识自我,揭开人来生长发育的奥秘,追求健康,战胜疾病,是人类基因组计划的最终目标。 人类基因组计划的科学意义在于:,确定人类基因组中约5万个编码基因的序列及其再基因组中的物理位置,研究基因的产物及其功能。 了解转录核剪接调控元件的结构与位置,从整个基因这样结构的宏观水平上理解基因转录与转录后调节。 从整体上了解染色体结构,包括各种重复序列以及非转录“框架序列”的大小和组织,了解各种不同序列在形成染色体结构、DNA复制、基因转录及表达调控中的影响与作用。,研究空间结构对基因调节的作用。从三维空间的角度来研究真核基因的表达调控规律。 发现与DNA复制、重组等有关的序列。 研究DNA突变、重排和染色体断裂等,了解疾病的分子机制,包括遗传性疾病、易感性疾病甚至感染性疾病引发的分子病理学改变及其进程,为这些疾病的诊断、预防和治疗提供理论依据。,确定人类基因组中转座子、逆转座子和病毒残余粗劣,研究其周围序列的性质。 研究染色体和个体之间的多态性。,2、HGP的主要任务,遗传图谱 物理图谱 转录图谱 序列图谱,遗传图 遗传图(genotio map)又称为连锁图(linkage map):是指基因或DNA标志在染色体上的相对位置与遗传距离,通常以基因或DNA片段在染色体交换过程中的分离频率厘摩(cM 1%的重组率称为1cM。)来表示。cM值越大,两者之间距离越远。 连锁分析是经典遗传学的重要内容,实质是通过分析同一遗传位点在不同个体中等位基因的不同(多态性)来研究同一染色体上两个位点之间的相互关系。科学上用两个位点之间的交换或重组频率来表示其“遗传学距离”,经典的遗传标记是可被电泳或免疫技术检出的蛋白质标记,如红细胞ABO血型位点标记,白细胞HLA位点标记等。例如,在ABO血型基因中,位于9号染色体长臂3区4带(9q34)的基因IA,决定抗原A的存在,表现A型血性状。由于ABO血型的广泛存在,所以可用它作遗传标记。当在某一家庭中,观察到了指甲髌骨综合征与A型血相伴遗传时,科学家就认为,这种病的致病基因NP与IA基因相连锁,也位于9q34区段。进一步的观察发现,这个家庭的后代中,有1/10为A型血而无指甲髌骨综合征,这表明基因IA和NP发生了交换,交换率(重组率)为1/10。这时就可说,基因IA和NP相距较近,连锁图上的距离为10厘摩(重组率1即为1厘摩)。,如果只用已知定位的少数几个基因作遗传标记,由于遗传标记的数目太少,很难绘制完整的连锁图。DNA技术的建立为人类提供了大量新的遗传标记。 第一代DNA遗传标记是RFLP(Restriction Fragment Length Polymorphism,限制性片段长度多态性)。DNA序列上的微小变化,甚至1个核苷酸的变化,也能引起限制性内切酶切点的丢失或产生,导致酶切片段长度的变化。由于核苷酸序列的改变遍及整个基因组,特别是进化中选择压力不是很大的非编码序列之中,RFLP的出现频率远远超过了经典的蛋白质多态性。而且,只要选择得当,生物体内出现共显性RFLP及RAPD分子标记的频率较高。,RFLP分子表集中的显性与共显多肽性分子机制,第二代DNA遗传标记利用了存在于人类基因组中的大量重复序列,包括重复单位长度在15-65个核苷酸左右的小卫星DNA(minisatellite DNA),重复单位长度在2-6个核苷酸之间的微卫星DNA(microsatellite DNA),后者又称为简短串联重复(STR、STRP或SSLP,short tandem repeat polymorphism或者simple sequence length polymorphism)。STRP有两个最突出的优点,即作为遗传标记的“多态性”与“高频率”。,人类基因组中的遗传多态性大多表现在重复序列上,特别是短串联重复序列,如小卫星DNA核微卫星DNA上,其多态性主要来自重复序列拷贝数的变化。小卫星DNA一般不超过20kb,由15-65bp的基本单位串联重复而成。有高度变异性但却按照孟德尔的规律遗传,所以,他们是很好的DNA多态性标记,被广泛应用于基因定位、DNA指纹分析和遗传病的连锁诊断。,第三代DNA遗传标记,可能也是最好的遗传标记,是分散于基因组中的单个碱基的差异。这种差异包括单个碱基的缺失和插入,但更常见的是单个核苷酸的替换,即单核苷酸的多态性(SNP,single nucleotide polymorphism)。,SNP与RFLP核STRP标记的主要不同之处在于,它不再以DNA片段的长度的变化作为检测手段,直接以序列变异作为标记。SNP遗传标记分析完全屏弃了经典的凝胶电泳,代以最新的DNA芯片技术,是人类基因组“遗传图”发展方向。,人类基因组中的SNP作为一穿标记的分子机制,“遗传图”的建立为人类疾病相关基因的分离克隆奠定了基础。拥有5000多个遗传学位点,相当于把整个人类基因组划分为5000多个小区,并分别设置了“标牌”。这些标牌将在搜索功能基因的过程中发挥独特的作用。把多态性的疾病基因位点(该位点至少包括“正常”及“致病” 两个等位基因)与上述遗传标记进行分析比较时,如果在家系中证实该基因与某个标记不连锁(重组率为50%),表明该基因不在这一标记附近;如果发现该基因与某个标记有一定程度的“连锁”(重组率小于50%但大于0),表明它可能位于这个标记附近;如果该基因与某标记间不发生重组(重组率等于0),我们就推测该标记与所研究的疾病基因可能非常接近。,遗传图所表现的,是通过连锁分析确定的各基因间的相对位置;物理图则表现染色体上每个DNA片段的实际顺序。物理图是指以已知核苷酸序列的DNA片段(序列标签位点,sequence-tagged site,STS)为“路标”,以碱基对(bp,kb,Mb)作为基本测量单位(图距)的基因组图。,物理图(Physical Map),用STS标签技术制作基因组的物理图,转录图 分离纯化mRNA(或cDNA),就是抓住了基因组的主要成分(可转录部分)。人类的基因转录图(expression profiling)(cDNA图),或者基因的cDNA片段图,即表达序列标签图(EST,expressed sequence tag)是人类基因组图的雏形。人类基因组中,只有1%-5%的序列编码了蛋白质,最多可能有(5-7)万个蛋白质编码基因。,生产EST的主要程序如下: 分离特定组织再某以发展阶段或某种生理条件下的总mRNA,合成cDNA并进行序列分析。 将基因表达谱中的已知基因按照其功能核亚细胞定位分成若干类,主要包括蛋白质合成相干蛋白、细胞骨架蛋白、细胞浆蛋白、核蛋白、膜蛋白、分泌蛋白、未定位或功能未知蛋白。 根据不同的细

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论