基因组与比较基因组学.ppt_第1页
基因组与比较基因组学.ppt_第2页
基因组与比较基因组学.ppt_第3页
基因组与比较基因组学.ppt_第4页
基因组与比较基因组学.ppt_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十一章 基因组与比较基因组学 1 1. 1940年代第一颗原子弹爆炸; 2. 1960年代人类首次登上月球; 3. 1990年代提出并基本完成的人类基因组计划(Human Genome Project,HGP) DNA 双螺旋结构的发现者之一、美国国家卫生研究院(NIH)人 类基因组研究所第一任所长J.D.Watson 1990年在Science上撰文指 出,与人类登月计划相比,HGP的资金投入少,但它对人类生活的影 响却可能更深远。 20世纪纪人类类科技发发展史上的三大创举创举 2 随着这个计划的完成,DNA分子中储藏的有关人类生存和繁衍 的全部遗传信息将被破译,它将不仅帮助我们理解人类如何作为健 康人发挥正常生理功能,还将最终揭开基因在癌症、早老性痴呆症 、精神分裂症等严重危害人类健康的疾病中的作用。 事实上,对人类自身更深入的了解是人类活动最重要的组成部 分,因为任何自然科学研究,都没有比人类尽快找出解决自身所面 临的人口膨胀、粮食短缺、环境污染、疾病危害、能源资源匮乏、 生态平衡破坏、生物物种消亡等一系列难题更为重要、更为迫切。 3 1860至1870年 奥地利科学家孟德尔根据豌豆杂交实验提出遗传因子概念,并总结 出孟德尔遗传定律。 1909年 丹麦植物学家和遗传学家约翰逊首次提出“基因”这一名词,用以表达孟德 尔的遗传因子概念。 1944年 3位美国科学家分离出细菌的DNA(脱氧核糖核酸),并发现DNA是携带生 命遗传物质的分子。 1953年 美国人沃森(Watson)和英国人克里克(Crick)通过实验提出了DNA分子 的双螺旋模型。 1969年 科学家成功分离了第一个基因。 1990年10月 被誉为生命科学“阿波罗登月计划”的国际人类基因组计划启动。 1998年 一批科学家在美国罗克威尔(Rockville)组建塞莱拉遗传公司,与国际人 类基因组计划展开竞争。 1998年12月 一种小线虫完整基因组序列的测定工作宣告完成,这是科学家第一次 绘出多细胞动物的基因组图谱。 1999年9月 中国获准加入人类基因组计划,负责测定人类基因组全部序列的1%。 中国是继美、英、日、德、法之后第6个国际人类基因组计划参与过,也是参与这 一计划的唯一发展中国家。 基因及基因组研究大事记: 4 1999年12月1日 国际人类基因组计划联合研究小组宣告,完整破译出人体第22对染色 体的遗传密码,这是人类首次成功地完成人体染色体完整基因序列的测定。 2000年4月6日 美国塞莱拉公司宣布破译出一名实验者的完整密码,但遭到不少科学 家的质疑。 2000年4月底 中国科学家按照国际人类基因组计划的部署,完成了1%人类基因组的 工作框架图。 2000年5月8日 德、日等国科学家宣布,已基本完成了人体第21对染色体的测序工作 。 2000年6月26日 科学家公布人类基因组工作草图,标志着人类在解读自身“生命之书” 的路上迈出了重要一步。 2000年12月14日 美英等国科学家宣布绘出拟南芥基因组的完整图谱。这是人类首次 全部破译出一种植物的基因序列。 2001年2月12日 中、美、日、德、法、英6国科学家和美国塞莱拉公司联合公布人类 基因组图谱及初步分析结果。 科学家首次公布人类基因组草图“基本信息”。 5 6 11.1 人 类 基 因 组计划 7 基因控制着细胞中的蛋白质合成,控制着生物的各种遗传性状。基因组是生物体 内遗传 信息的集合,是某个特定物种细胞内全部DNA分子的总和。人体是一个多细胞 体系,每个细胞中都包含46条两两配对的染色体,每23条染色体构成一个染色体组。 大约有30亿对 核苷酸,编码 了5-6万个基因,人类基因组中携带了有关人类个体生长 发育、生老病死的全部遗传 信息。从整体上看,不同人类个体的基因是相同的,因此 ,我们说“人类只有一个基因组”,人生来是平等的。当然,不同的人可能拥有不同 的等位基因,这一点决定了人与人之间个体上的差异。 各种遗传病的发生,都源于基因的突变。突变是基因在分子结构上的改变,这种 DNA分子结构的改变会导致基因功能的异常,从而导致遗传病。例如人类2号染色体长 臂某段DNA分子的改变,就会导致并指畸形的产生。至于一些复杂的疾病,如高血压、 冠心病、糖尿病、癌等,则可能涉及多个基因的突变。 8 人类基因组计划的科学意义在于: (1)确定人类基因组中约5万个编码基因的序列及其在基因组中 的物理位置,研究基因的产物及其功能。 (2)了解转录和剪接调控元件的结构与位置,从整个基因组结 构的宏观水平上理解基因转录与转录后调节。 (3)从整体上了解染色体结构,包括各种重复序列以及非转录“ 框架序列”的大小和组织,了解各种不同序列在形成染色体结构、 DNA复制、基因转录及表达调控中的影响与作用。 (4)研究空间结构对基因调节的作用。有些基因的表达调控序 列与被调节基因从直线距离上看,似乎相距甚远,但若从整个染 色体的空间结构上看则恰恰处于最佳的调节位置,因此,有必要 从三维空间的角度来研究真核基因的表达调控规律。 9 (5)发现 与DNA复制、重组等有关的序列。DNA的忠实复制保障了遗传 的 稳定性,正常的重组提供了变异与进化的分子基础。局部DNA的推迟复制 、异常重组等现象则导 致疾病或者胚胎不能正常发育,因此,了解与人类 DNA正常复制和重组有关的序列及其变化,将对研究人类基因组的遗传 与 进化提供重要的结构上的依据。 (6)研究DNA突变、重排和染色体断裂等,了解疾病的分子机制,包括遗 传性疾病、易感性疾病、放射性疾病甚至感染性疾病引发的分子病理学改变 及其进程,为这 些疾病的诊断、预防和治疗提供理论依据。 (7)确定人类基因组中转座子、逆转座子和病毒残余序列,研究其周围序 列的性质。了解有关病毒基因组侵染人类基因组后的影响,可能指导人类 有效地利用病毒载体进行基因治疗。 (8)研究染色体和个体之间的多态性。这些知识可被广泛用于基因诊断、 个体识别 、亲子鉴定、组织 配型、发育进化等许多医疗、司法和人类学的 研究。此外,这些遗传 信息还有助于研究人类历史进程、人类在地球上的分 布与迁移以及人类与其他物种之间的比较。 10 人类基因组研究包括遗传图(Genetic Map)绘制、物理图( Physical Map)构建、测序、转录图(Expression Profiling) 绘制和人类基因组的序列图及基因鉴定等方面的工作。 通过多年来的发展,基因组学(genomics)作为一门专门学科,已 应运而生。它涵盖以下几个方面: 结构基因组学,着重遗传图、物理图、测序等研究; 功能基因组学,包括以转录图为基础的功能制图(基因组表达图); 比较基因组学,包括对不同进化阶段生物基因组的比较研究,也包括不 同人种、族群和群体基因组的比较研究。 此外,工业基因组学、环境基因组学、药物基因组学、疾病基因组 学等分支学科也在不断发展。 11 遗传图也称连锁图,是指基因或DNA标志在染色体上的相对位置与遗传 距离, 后者通常以基因或DNA片段在染色体交换过 程中的分离频率厘摩(cM)来表示。遗 传图的绘制是人类基因组研究的第一步,即以染色体上某一点为遗传标记,以与之相 伴遗传的特征为对象,经连锁分析,将编码该特征的基因定位于染色体特定位置。 cM值越大,两者之间距离越远。通过遗传图 分析,我们可以大致了解各个基因或 DNA片段之间的相对距离与方向,了解哪个基因更靠近着丝粒,哪个更靠近端粒等 。遗传 距离是通过遗传连锁 分析获得的,研究中所使用的DNA标志越多,越密集, 所得到的遗传连锁图的分辨率就越高。 经典的遗传标记是可被电泳或免疫技术检出的蛋白质标记 ,如红细 胞ABO血型 位点标记 ,白细胞HLA位点标记 等。例如,在ABO血型基因中,位于9号染色体长臂3 区4带(9q34)的基因IA,决定抗原A的存在,表现A型血性状。由于ABO血型的广泛存 在,所以可用它作遗传标记。当在某一家庭中,观察到了指甲髌骨综合征与A型血相 伴遗传时,科学家就认为,这种病的致病基因NP与IA基因相连锁,也位于9q34区段。 进一步的观察发现,这个家庭的后代中,有1/10为A型血而无指甲髌骨综合征,这表 明基因IA和NP发生了交换,交换率(重组率)为1/10。这时就可说,基因IA和NP相距 较近,连锁图上的距离为10厘摩(重组率1即为1厘摩)。 11.1.2 遗传图的绘制 12 酵母遗传分析中最常用的生物化学标签 标 签表 现 型筛 选 方 法 ADE2培养基中需加入腺苷酸只能在加入腺苷酸的培养基上生长 CAN1对刀豆氨酸有抗性能在含有刀豆氨酸的培养基上生长 CUP1对铜离子有抗性能在含有铜离子的培养基上生长 CYH1对环己酰亚胺有抗性能在含有环己酰亚胺的培养基上生长 LEU2培养基中需加入亮氨酸只能在加入亮氨酸的培养基上生长 SUC2能进行蔗糖发酵能在以蔗糖作为唯一碳源的培养基上生 长 URA3培养基中需加入尿嘧啶只能在加入尿嘧啶的培养基上生长 13 如果只用已知定位的少数几个基因作遗传标记,由于遗传标记 的数目太少,很难绘制完整的连锁图。DNA技术的建立为人类提供 了大量新的遗传标记。 n 第一代DNA遗传标记 是RFLP(Restriction Fragment Length Polymorphism,限制性片段长度多态性)。DNA序列上的微小变化 ,甚至1个核苷酸的变化,也能引起限制性内切酶切点的丢失或产生 ,导致酶切片段长度的变化。由于核苷酸序列的改变遍及整个基因 组,特别是进化中选择压 力不是很大的非编码序列之中,RFLP的 出现频率远远超过了经典的蛋白质多态性。而且,只要选择得当 ,生物体内出现共显性RFLP及RAPD分子标记的频率较高。 14 n第二代DNA遗传标记 利用了存在于人类基因组中的大量重复序列 ,包括重复单位长度在15-65个核苷酸左右的小卫星DNA( minisatellite DNA),重复单位长度在2-6个核苷酸之间的微卫星 DNA(microsatellite DNA),后者又称为简短串联重复(STR、 STRP或SSLP,short tandem repeat polymorphism或者simple sequence length polymorphism)。STRP有两个最突出的优点,即作 为遗传标记 的“多态性”与“高频率”。STR的存在,为遗传图 的绘 制提供了大量可用的遗传标记 。采用聚合酶链反应(PCR)技术 ,以STR两侧的基因作定点标记的完整连锁图 ,已于1996年绘成 ,相邻标记间 的平均距离仅0.7厘摩。 n 第三代DNA遗传标记 ,可能也是最好的遗传标记 ,是分散于基 因组中的单个碱基的差异。这种差异包括单个碱基的缺失和插入, 但更常见的是单个核苷酸的替换,即单核苷酸的多态性(SNP, single nucleotide polymorphism)。 15 “遗传图”的建立为人类疾病相关基因的分离克隆奠定了基 础。拥有5000多个遗传学位点,相当于把整个人类基因组划分 为5000多个小区,并分别设置了“标牌”。这些标牌将在搜索功能 基因的过程中发挥独特的作用。把多态性的疾病基因位点(该位 点至少包括“正常”及“致病” 两个等位基因)与上述遗传标记进 行 分析比较时,如果在家系中证实该 基因与某个标记不连锁(重 组率为50%),表明该基因不在这一标记附近;如果发现该 基 因与某个标记有一定程度的“连锁”(重组率小于50%但大于0) ,表明它可能位于这个标记附近;如果该基因与某标记间 不发 生重组(重组率等于0),我们就推测该标记 与所研究的疾病基 因可能非常接近。 16 遗传图所表现的,是通过连锁分析确定的各基因 间的相对位置;物理图则表现染色体上每个DNA片段 的实际顺序。物理图是指以已知核苷酸序列的DNA 片段(序列标签 位点,sequence-tagged site,STS) 为“路标”,以碱基对(bp,kb,Mb)作为基本测量 单位(图距)的基因组图 。 现在的测序技术还不能对整个DNA分子进行序列 测定,因此须先将它切成一个个大小不同的片段,然 后将这些片段连起来,构成连续的序列。切割的工具 ,是一类限制性内切核酸酶,它能识别DNA中的特定 序列,并在该位点对DNA链进行切割。有一类稀有的 限制性内切核酸酶,由于DNA中这样的序列比较少, 所以用它可将DNA分子切割成约100万碱基大小的大片 断。这样的片段有利于排序,不过必须用脉冲场凝胶 电泳法,才能将它们分开。 11.1.3 物理图(Physical Map) 17 这些大片段在进行DNA分子克隆时,也不能通过细菌质粒或噬菌体 的运载而在大肠杆菌中进行克隆,因为它们太大,而必须用一种特殊 的载体-酵母人工染色体(YAC),将片段导入酵母,在酵母细胞中克 隆。YAC中的DNA大片段是靠序列标记位标(STS)来识别的。STS是一 段200500碱基对的已知序列,在染色体上有一定的位置,所以用STS 作位标可将不同YAC克隆排列成邻接克隆群(contig)。 其他载体还有BAC(细菌人工染色体)、P1(噬菌体人工染色体) 、粘粒(cosmid)、细菌质粒等。现在,人类基因组24条染色体的YAC 、BAC、P1邻接克隆群均已建立,精度约100碱基对的物理图也基本绘 成,并已开始进行大规模测序。 18 19 基 因 组 测 序 以YAC克隆为基础建立的邻接克隆群,由于DNA片段太大,不适于测 序,需另外几种载体克隆的配合。BAC可运载约30万碱基对的片段,P1 可运载约10万碱基对的片段,粘粒可运载约4万5万碱基对的片段,细 菌质粒则可运载约1万碱基对的DNA片段。这几类载体的运用,使YAC克 隆的DNA大片段可先分解成相应克隆的小片段,便于测序。 一次测序一般只能测定1000碱基对,然后用已知序列的下游部分合 成引物,进行另一次测序,如此一步步地“步行”,逐步完成较大片段的测 序。因此,需先用质粒建立许多克隆,构成质粒文库,再对这些质粒克 隆进行测序,然后用电脑搭配成邻接克隆群。 由于自动化和电脑的应用,现在一天已可进行10万个测序反应。现 已完成的1.8亿碱基对的测序,约占人类基因组的56。华盛顿大学 、贝勒医学院等机构,均已完成几百万到几千万碱基对的测序,错误率 仅万分之一,测序速度和准确性已大大提高。 20 21 生物的性状,包括疾病,都由蛋白质决定。所有蛋白质都是由mRNA (信使核糖核酸)编码的,而mRNA又由DNA转录而来。人类基因组中仅1 5的DNA是编码序列(基因);成人各种组织中又只有约10的基 因表达为蛋白质。所以,建立转录图,或从mRNA逆转录而来的cDNA图, 是分离、定位和克隆基因的关键。这里,表达序列位标(EST)具有重 要意义。EST是长约100300碱基对的cDNA片段,是表达基因的一部分 。EST由于序列较短,很难定位,只有筛到较长的基因片段(超过1000 碱基对),才能用荧光原位杂交(FISH)法在染色体上定位。 EST可用工业化的程序生产,只要分离到某一发育阶段某一组织的 mRNA,就可用逆转录法,从mRNA合成相应的cDNA片段,即EST。用它作 探针,就可从基因组文库中筛到全长的基因序列。截止到1998年2月, 已发现约92万条EST,转录图的制作有了良好的开端,但这已属后基因 组计划的工作。 转录图(Expression Profiling) 22 人类基因组的核苷酸序列图其实是分子水平上最高层次 的、最详尽的物理图。测定总长约约1米、由30亿亿个核苷酸组组成的全 序列当然是人类类基因组计组计 划中最明确、最艰艰巨的任务务(图图10-10) 。因为为人类类所拥拥有的基因位点都是相同的,不同种族、不同个体的 基因差异(人类类基因组组的多样样性)以及“正常”与“疾病”基因的差异 ,只是同一位点上的等位基因的差异,所以,现现在的人类类基因组组全 序列来自一个“代表性人类类个体”(其所有权权在法律上不属于任何供 体)。该该序列在理论论上代表了全人类类的基因组组信息,事实实上也可 被用于任何族群、任何个体的基因分析和诊诊断。 人类基因组计划所提供的这四张图,特别是人类核酸序列图, 蕴藏了决定我们生、老、病、死的所有遗传信息,必将成为人类认 识自我、改造自我的用之不绝的知识源泉,为21世纪现代生物学和 医学的迅速发展奠定基础。 11.1.5 人类基因组的序列图(Human Genome Sequence) 23 全基因组鸟枪法测序的主要步骤是: 第一,建立高度随机、插入片段大小为2kb左右的基因组文库。克隆数 要达到一定数量,即经末端测序的克隆片段的碱基总数应达到基因组5 倍以上。 第二,高效、大规模的末端测序。对文库中每一个克隆,进行两端测 序,TIGR在完成流感嗜血杆菌的基因组时,使用了14台测序仪,用三 个月时间完成了必需的28,463个测序反应,测序总长度达6倍基因组。 第三,序列集合。TIGR发展了新的软件,修改了序列集合规则以最大 限度地排除错误的连锁匹配。 第四,填补缺口。有两种待填补的缺口,一是没有相应模板DNA的物 理缺口,二是有模板DNA但未测序的序列缺口。他们建立了插入片段 为15-20kb的文库以备缺口填补。 11.2 DNA的鸟枪法序列分析技术 24 25 鸟枪法测序的缺点 随着所测基因组 总量增大,所需测 序的片段大量增加 ,各个片段重叠或 一个连续体的概率 是2n2-2n 高等真核生物(如 人类)基因组中有 大量重复序列,导 致判断失误。 26 对鸟枪法的改进 (1) Clone contig法。 首先用稀有内切酶把 待测基因组降解为数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论