基因组与基因组学课件_第1页
基因组与基因组学课件_第2页
基因组与基因组学课件_第3页
基因组与基因组学课件_第4页
基因组与基因组学课件_第5页
已阅读5页,还剩173页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物化学与分子生物学系 陈瑜基因组与基因组学Genomes and Genomics1第一章 绪论2基因及基因组学的发展历史1860至1870年奥地利科学家 Gregor Mendel根据豌豆杂交实验提出遗传因子概念,并总结出孟德尔遗传定律。3一、遗传因子 孟德尔提出:生物的遗传性状是通过“遗传因子” (hereditary factor)进行传递的; 遗传因子是一些独立的遗传单位。 孟德尔把可观察的性状和控制它的内在的遗传因子区分开来。 遗传因子作为基因的雏形名词诞生了。41909年,丹麦遗传学家约翰逊在精密遗传学原理一书中根据希腊语“给予生命”之义,创造“基因”(gene)一词来代替孟德尔

2、假定的“遗传因子”。从此基因便成为遗传因子的代名词一直沿用至今。Wilhelm Ludwig Johannsen(18571927)二、基因5 摩尔根在基因论中绘制了果蝇基因位置图,首次完成了当时最新的基因概念的描述:基因是在染色体上呈线性排列的遗传单位,它不仅是决定性状的功能单位,也是一个突变单位和交换单位。 至此,人们对基因概念的理解更加具体和丰富了。 7Thoman Hunt Morgan ( 18661945)因发现染色体的遗传机制,创立染色体遗传理论而于1933年获诺贝尔生理学医学奖8Avery实验:DNA是转化要素的活性组分,确定基因由DNA组成10赫尔歇(HersheyA.)等用

3、同位素32P和35S验证DNA是遗传物质。11121986年美国约翰霍普金斯(Johns Hopkins)大学著名人类遗传学家和内科教授麦克库塞克(McKusick)造出了“基因组学”(Genomics)这个名词,意指从基因组水平研究遗传的学科。14 在人类基因组计划(HGP)的影响下,分子生物学的主要目标已经从传统的单个基因的研究转向对生物整个基因组结构与功能的研究。生命科学正从全新的视觉角度研究与探讨生长与发育、遗传与变异、结构与功能以及健康与疾病等生物学与医学基本问题的分子机理,并形成了一门新的学科分支- 基因组学。15 基因组(genome)泛指一个有生命体、病毒或细胞器的全部遗传物质

4、;在真核生物,基因组是指一套染色体(单倍体)DNA。即物种全部遗传信息的总和。 物种遗传信息的“总词典” 控制发育的“总程序” 生物进化历史的“总档案”一、基因组概念17人体细胞的核型(Spectral Karyotype) “基因组(genome)”一词是1920年Winkles从GENes和chromosOMEs组成的。18一些模式生物的基因组大小19基因组的大小(C值)20 什么是C值?-通常是指一种生物单倍体基因组DNA的总量. 在真核生物中,C值一般随着生物的进化而增加,高等生物C值一般大于低等生物。 C值悖理(Cvalue paradox): 对原核生物和低等真核生物而言,单倍体基

5、因组DNA的量和形态复杂性相关。21C值矛盾:指一个有机体的C值和其编码能力缺乏相关性。如:-爪蟾的基因组大 小和人类相似;-两栖类最小基因组 和最大的基因组之 间相差约100倍;-C值矛盾在进化中 的原因和机制尚不 清楚。223相关基因丛集。 DNA序列中功能相关的RNA和蛋白质基因,丛集在基因组的一个或几个特定部位,形成一个功能单位或转录单位,可被一起转录成为多顺反子mRNA。 4常见重叠基因现象。 5非编码区少,重复顺序少。24蛋白D蛋白E25乙型肝炎病毒(HBV) 聚合酶HBsAgHBcAg 开环部分双链DNA病毒27乙型肝炎病毒基因组-开环部分双链DNA聚合酶HBsAgHBcAg28

6、.禽流感病毒(H5N1) avian influenza A virus 单链RNA病毒8节段-ssRNA血凝素(HA)神经氨酸酶(N)29人类免疫缺陷病毒(HIV)(human Immunodeficiency virus ) 逆转录病毒(单链RNA病毒)RNA30原核生物基因组细菌染色体DNA质粒DNA以大肠杆菌(Escherichia coli)为例311.基因组通常仅由一条环状双链DNA分子组成。 其DNA是与蛋白质结合,不形成染色体结构,只是习惯上将之称为染色体。细菌染色体DNA在胞内形成一个致密区域,即类核(nucleoid),类核无核膜将之与胞浆分开。2.功能相关的几个结构基因往

7、往串联排列在一起组成操纵子结构,受上游共同的调控区控制。3.原核生物基因组中基因密度非常高,结构基因是连续的多为单一拷贝。 原核生物基因组结构与功能的特点324.结构基因无重叠现象,基因组中任何一段DNA不会用于编码2种蛋白质。5.在原核生物基因组中含有编码同工酶的基因。6.在不同原核生物基因组中GC含量变化很大。7.原核生物基因组的非编码区内主要是调控序列。8.细菌基因组中的可移动成分能产生转座现象。9.除细菌染色体外,还有能自主复制的双链环状DNA分子,称为质粒。3334类核(nucleoid):细菌染色体在 细胞内形成的一个致密区域大肠杆菌细胞结构nucleoid质粒plasmid35

8、大肠杆菌染色体DNA 由一条环状双链DNA分子组成, 通常只有一个DNA复制起点。36 质粒DNA质粒是存在于细菌染色体外的,具有自主复制能力的环状双链DNA分子;大小为几kb。37真核生物基因组染色体DNA线粒体DNA38真核生物和原核生物基因表达的对比39真核生物基因组结构与功能特点 1、真核生物基因组的化学本质为DNA,多与蛋白质结合形成染色质,基本结构单位为核小体。每一种真核生物都有一定的染色体数目,除配子为单倍体外,体细胞一般为双倍体,即含两份同源基因组,而原核生物的基因组则是单拷贝的。402、基因组远大于原核生物,结构复杂,基因数庞大,具有许多复制起始点,每个复制子大小不一。3、基

9、因不存在操纵子结构,功能相关基因分散在不同的染色体上。基因都由一个结构基因与相关的调控区组成,转录产物为单顺反子,即一分子mRNA只能翻译成一种蛋白质。真核生物基因组结构与功能特点 414、基因组中有大量低度(重复频率103)、中度(重复频率105,通常这些序列的长度为6-200bp,如卫星DNA; 2.中度重复序列:重复频率 101-105,重复单位平均长度约300bp占基因总量的35%。(rRNA gene, tRNA gene, 组蛋白gene );3.单拷贝基因:单拷贝序列(unique sequence)亦称非重复序列(nonrepetitive sequence)在一个基因组中只有

10、一个拷贝或2-3个拷贝。多数编码蛋白质的基因。5051人类基因组中的DNA多态性 每个人之间基因组并不完全相同,称基因组的多态性,表现在DNA的序列上。统计表明,任意两个人之间的DNA核苷酸差异约占基因组的001,就是这基因组中001的差异,决定了人类的遗传多样性,如有人易生病,而有人却对疾病的免疫能力特别高;有些药物,有人用了就灵验,有人就不灵验。 从不同个体DNA序列差异上阐明人类基因组的多态性,才能真正了解与疾病特别是多基因疾病有关的遗传机制,同时深入准确地了解人类起源、进化和迁徙过程中的DNA序列变化。52 基因组学(genomics)发展和应用DNA制图、测序新技术以及计算机程序,分

11、析生命体(包括人类)全部基因组结构及功能。以整个基因组为研究对象,而不是以单个基因为单位作为研究对象。二、基因组学概念及范畴53基因组学(Genomics)简单地定义为研究基因组结构和功能的科学。 具体:指以分子生物学技术、计算机技术和信息网络技术为研究手段,以生物体内全部基因为研究对象,在全基因背景下和整体水平上探索生命活动的内在规律及其内外环境影响机制的科学。包括对所有基因进行基因组作图(包括遗传图谱、物理图谱、转录图谱),核苷酸序列分析,基因定位和基因功能分析。54基因组学(genomics)1986年提出,至今20年,已经发展成为遗传学中最重要的分支学科。对物种的所有基因进行定位、作图

12、、测序和功能分析。55基因组学研究的最终目标 获得生物体全部基因组序列 鉴定所有基因的功能 明确基因之间的相互作用关系 阐明基因组的进化规律56基因组学包括3个不同的亚领域结构基因组学(structural genomics) 功能基因组学(functional genomics)比较基因组学(comparative genomics) 基因组学概念基因组学概念57结构基因组学 (structural genomics) 人类基因 组计划 结构基因组学(structural genomics) 是通过HGP的实施来完成的。58人类基因组计划59人类基因组计划的由来60对生命的激情对生命的探索当

13、我们陶醉于以前的科学成就时,却突然发现了人类对自身的认识太少了。人的生老病死究竟是由什么决定的?我们基本上没办法解答这个问题。更重要的是,人类面对一些疾病,有时显得束手无策,这迫切需要人类去认识了解自身。61626320世纪初期,人类发现了生命的基本规律之一遗传规律。50年代初,英国和美国的科学家提出遗传物质的双螺旋模型。70年代开始的克隆技术与此同时,我们还发现,几乎人类所有的疾病和基因有关系。背 景64生命的奥秘蕴藏于 “四字天书”之中GCTTCTTCCTCATTTTCTCTTGCCGCCACCATGCCGCCACCA TCATTTTCTCTTGCCGCCACCATGCTTCTTCCTCA

14、TTTTCTCT CCACCATGCCGCCACCACGCCACCATGCTTCTTCCTCATCTC GCTTTCTTGCCGCCACCATGCCGCCACCGCTTCTTCCtTCTCT65人类基因组计划 解读与生、老、病、死有关的遗传信息(基因)的“四字天书”; 总“字”数:30 多亿个; “字 母”:4个。66人类基因组计划(human genome project, HGP)是由美国科学家Renato Dulbecco于1985年率先提出,于1990年正式启动的。美国、英国、法兰西共和国、德意志联邦共和国、日本和我国科学家共同参与了这一价值达30亿美元的人类基因组计划。这一计划旨在为

15、30多亿个碱基对构成的人类基因组精确测序,发现所有人类基因并搞清其在染色体上的位置,破译人类全部遗传信息。简 介67 人类基因组计划(Human genome project)于1990年启动,我国于1999年加入该计划,承担其中1%的任务,即人类3号染色体短臂上约30Mb的测序任务。 681975年,获诺贝尔生理医学奖研究肿瘤病毒和细胞遗传物质之间相互作用 69 “人类基因组计划”与“曼哈顿原子弹计划”、“阿波罗登月计划”一起,并称为人类自然科学史上的“三大计划”,是人类文明史上最伟大的科学创举之一。7020世纪人类科技发展史上的三大创举 90年代人类基因组计划40年代第一颗原子弹爆炸60年

16、代人类首次登上月球71 人类基因组计划是一个合作计划6个国家的16个中心上千名科学家参加。其中美国占54的份额,英国占33,日本占7,法国约占3,德国约占,中国占。每个国家所占的份额同该国的生物产业水平成正比。 为什么选择人类的基因组进行研究?因为人类是在“进化”历程上最高级的生物,对它的研究有助于认识自身、掌握生老病死规律、疾病的诊断和治疗、了解生命的起源。 72在HGP中,还包括对五种生物基因组的研究:大肠杆菌、酵母、线虫、果蝇和小鼠,称之为人类的五种“模式生物”。 HGP的最初目标:15年内(1990-2005)投入30亿美元,完成人类24条染色体的30亿个核苷酸序列分析HGP的终极目标

17、是解码生命、了解生命、认识种属之间和个体之间存在差异的起因、认识疾病产生的机制以及长寿与衰老等生命现象、为疾病的诊治提供科学依据。 7374竞争与合作人类基因组计划的进展并不是一帆风顺的。以全球合作、数据共享为主旨的国际人类基因组计划面临着来自私营公司Celera强有力的挑战。75Celera公司简介Celera公司建立于1998年5月,位于美国马里兰州的Rockville,由PE公司和J. Craig Venter博士共同创建。Craig Venter博士曾是基因组研究所(The Institute for Genomic Research ,TIGR)的创建者和领导人.Celera的本意来

18、自拉丁语的“快速”,因此Celera公司一直致力于开发基因组信息并使之商业化,以加速生物技术的发展和应用。目前Celera公司已针对已有的功能基因组和蛋白质组信息开发出一套新的数据库及服务系统,为相关研究工作提供有力的工具和服务。 76* Craig Venter博士采用散弹法于Science上发表结果。77人类基因组计划大事记1990年10月 被誉为生命科学“阿波罗登月计划”的国际人类基因组计划启动。 1998年5月 组建Celera遗传公司,国际人类基因组计划展开竞争。 9月 中国获准加入人类基因组计划,负责测定人类基因组全部序列的1%12月1日 国际人类基因组计划联合研究小组宣布,他们完

19、整地译出人体第22对染色体的遗传密码。782000年4月末 我国科学家按照国际人类基因组计划的部署,完成了1%人类基因组的工作框架图。 5月8日 由德国和日本等国科学家组成的国际科研小组宣布,他们已经基本完成了人体第21对染色体的测序工作。 6月26日 各国科学家公布了人类基因组工作草图。792000年6月26日值得载入人类自然科学史册的一个日子 国际“人类基因组计划”协作组 6 国 16 中心于当日 18:00(北京时间)同时宣布: 人类基因组计划“工作框架图”胜利完成80二000年六月二十六日克林顿宣布人类基因组草图绘制完成81美国国家人类基因组研究所所长弗朗西斯柯林斯在介绍情况。82人类

20、基因组草图基本信息由31.65亿bp组成含33.5万基因与蛋白质合成有关 的基因占2%人类基因组人类蛋白质61%与果蝇同源43%与线虫同源46%与酵母同源83842000年6月公共领域测序计划工作框架图85 2000 年 12 月美、英等国科学家宣布绘出拟南芥基因组的完整图谱,这是人类首次全部破译出一种植物的基因序列。86Initial sequencing and analysis ofthe human genomeInternational Human Genome Sequencing ConsortiumNATURE VOL 409 15 FEBRUARY 2001 860-9218

21、7The Sequence of the Human Genome16 FEBRUARY 2001 SCIENCE VOL 291 1304-1351Celera Genomics88人类染色体DNA大小 Chr. Mb89人类基因组计划* 耗时10载,耗费20余亿美元;* 基因组大小30亿碱基;* 1%为外显子,99%为内含子和重复序列;* 表达蛋白质的基因组数量约为3万;* 约含100万个单核苷酸多态性(SNP)标记。90HGP的科学目标: 是测定组成人类基因组的全部DNA序列,从而为阐明人类所有基因的结构与功能,解码人类生命奥秘奠基。HGP的基本任务: 构建人类基因组遗传图,物理图,转录

22、图,序列图,为最终完成基因图打下基础。91HGP的技术成果: 主要体现在对人类基因组整体结构的认识,即人类基因组遗传图、物理图、转录图、序列图的完成,从而奠定了人类结构基因组学基础。而人类基因图的完成,仍有大量工作要做。92人类基因组计划的意义93 1990年,国际人类基因组计划启动; 基因组计划具体分为: 构建基因组的遗传图谱; 构建基因组的物理图谱; 绘制基因组的转录本图谱; 测定基因组DNA的全部序列; 分析基因组的功能。94最后一个五年计划的主要目标是: 得到标记间距为1厘摩(1厘摩=重组频率为1%的两个基因间的遗传距离)的遗传图谱; 得到至少有30万个序列标记位点(STS)的物理图谱

23、,1998年10月实际已经有5.2万个STS被作图;952001年得到人类基因组序列的“草稿”,2003年得到最后“定稿”;测序能力要达到每年500Mb(1Mb=1000kb),每个碱基对的分析费用要少于25美分,支持毛细管阵列电泳、DNA芯片等的测序技术的发展;增加测定人类基因组变异的内容,得到10万个作图定位了的单核苷酸多态性(SNP);96得到所有基因的全长cDNA;发展在基因组尺度上分析生物功能的技术;在模式生物基因组研究方面,大肠杆菌、酵母菌、短小丽杆线虫的全基因组序列已经全部完成并发表公布,到2002年完成果蝇的全基因组序列,2005年完成小鼠的全基因组序列。 97除了具体的测序目

24、标外,HGP的另一个重要内容是研究人类基因组计划的论理学、法学和社会学影响与后果,发展生物信息学和计算生物学也是HGP的重要内容。98 我国的人类基因组计划(CHGP)是于1993年启动,由国家自然科学基金委员会、国家高技术计划(863)和国家重点基础研究计划(973)所共同资助的。 根据实际情况,我国HGP的初期目标主要是充分利用我国丰富的人类遗传资源,进行基因组多样性和疾病基因识别的研究。99格雷(HGray) 绘制了第一张人体解剖图,解开了许多人体奥秘,为近代医学的发展奠定了基础。人类基因组计划将最终绘制出人体的第二张解剖图,从基因水平上揭示出人体的奥秘,奠定21世纪医学和生物学飞跃发展

25、的基础。 100 这张解剖图将包括4张小图,包括了人类基因组计划的全部主要内容; 它们分别是遗传图(连锁图)、物理图、转录图和序列图。 101人类基因组计划的主要目标图示转录图102遗传图谱转录图谱0.7 cM 或 kb 序列图谱物理图谱100 kbSTS map四张图:遗传图、物理图转录图、序列图HGP的主要任务103 遗传图谱(genetic map)或连锁图谱(linkage map): 是以在某个遗传位点上具有多个等位基因的遗传标记作为“路标”,以遗传学上的距离即两个遗传位点之间进行交换、重组的百分率cM作为“图距”,反映基因遗传效应的基因组图。 1)根据重组频率来确定突变点之间的距离

26、。 2)通过测量基因组DNA位点间的重组来绘制。(一) 遗传图谱(genetic map)104 遗传图谱是应用遗传学技术构建能显示基因以及其它序列特征在基因组上位置的图。 方法是以多态的遗传标记作为界标,计算细胞减数分裂过程中遗传标记之间发生重组的频率,来确定两个遗传标记在染色体上的相对位置。 遗传学技术对人类是检查家族史。 遗传标记之间的相对距离即图距以厘摩(cM,厘摩尔根,centi-Morgan)为单位。当两个遗传标记之间的重组值为1%时,图距即为1cM。105AEDbAEdBAEdbDBAE两对等位基因之间重组互换的频率即遗传距离10cM10%遗传图谱(genetic map)106

27、遗传图的局限性:分辨率有限 高等真核生物子代数量有限,只有少数的减数分裂事件可供研究,连锁分析的分辨率受很大限制 人类基因组测序要求每100kb有一个标记,1996年发表的人类遗传图达到每0.6Mb一个标记(1Mb=1000kb)精确度较低 假设交换是随机发生的,但由于交换热点的存在使某一区段的交换频率远高于其它区段,无法绘制精确的遗传图。107遗传图谱(连锁图)的构建 图谱标记 图谱构建中需要可以鉴别的标记(marker),在构建遗传图谱中,可用基因和DNA作为标记。 (1) 基因标记 (2) DNA标记 108 基因标记:基因控制性状的表现,利用可鉴别的形态、生化等表型性状作标记根据连锁交

28、换原理来分析基因之间的连锁关系和遗传距离绘制连锁图谱。 缺点:基因数目有限,所构建的遗传图谱不详细,标记间的遗传距离较大。109 DNA标记简称分子标记,以DNA序列的多态性作为遗传标记;优点: 不受时间和环境的限制 遍布整个基因组,数量无限 不影响性状表达 自然存在的变异丰富,多态性好 共显性,能鉴别纯合体和杂合体110多态性:人的DNA序列上平均每几百个碱基会出现一些变异(variation),并按照孟德尔遗传规律由亲代传给子代,从而在不同个体间表现出不同,因而被称为多态性(Polymorphism)。由于不能对人类进行“选择性”婚配,而且人类子代个体数量有限、世代寿命较长,呈共显多态性的

29、蛋白质数量不多,等位基因的数量不多。DNA技术的建立为人类提供了大量新的遗传标记。 遗传标记有三代:111第一代(1975) 限制片断长度多态(RFLP) 分布数量105 多态程度较低,利用价值受限 第二代(1989) 短串连复制序列长度多态(STR) 分布数量104 高度多态 第三代(1996) 单核苷酸多态(SNP) 分布数量3106 一般为二态单体型分析 DNA遗传标记112 第一代DNA遗传标记: RFLP(限制性片段长度多态性) DNA序列上的微小变化,甚至1个核苷酸的变化,也能引起限制性内切酶切点的丢失或产生,导致酶切片段长度的变化。113RFLP产生的原因 是DNA顺序上某个碱基

30、发生突变,如单个碱基置换,或少数碱基缺失、重复、插入,使突变部位的DNA序列产生或丢失某种限制性内切酶位点,当用该限制性内切酶消化此DNA时,使DNA限制性片段长度发生变化,产生与正常不同的限制性片段。 114 一对同源染色体的两个DNA分子,一个具有某种酶切位点,另一个无此位点,酶切后形成的DNA片段长度就有差异,即RFLP,根据该等位基因的遗传,将RFLP作为标记定位在基因组的某一位置上。 RFLP表现为共显性遗传。3115RFLP分析116RFLP片断可被某些限制性内切酶特异识别并切割。DNA序列的改变甚至是一个碱基的改变,将会改变限制性内切酶酶切片段的长度变化,并可通过一种称为凝胶电泳

31、的方法来方便地显示这种长度的“多态性”。RFLP在整个基因组中都存在,根据对RFLP片段的多态性分析,可对某些疾病进行诊断并将与疾病有关的基因进行定位。但RFLP提供的信息量有限,在检测RFLP片段时需用到放射性同位素,不太安全。 117 第二代DNA遗传标记: 利用了存在于人类基因组中的大量重复序列:-重复单位长度在15-65个核苷酸左右的小卫星DNA;-重复单位长度在2-6个核苷酸之间的微卫星DNA,又称为简短串联重复(STR、STRP或SSLP)。卫星DNA分类特征卫星DNA串联重复的基本单位首尾相接,在基因组中呈不均匀分布,但主要集中于着丝粒、端粒等特定部位,高度或中等重复,分属三个大

32、家族。卫星DNA中等重复,基本单位长171bp。小卫星DNA中等重复,基本单位长1565bp。微卫星DNA中等重复,基本单位长28bp 118 小卫星DNA 由1565bp的基本单位串联重复而成,长度一般不超过20kb。主要分布在染色体末端(端粒区域)。重复次数(小卫星DNA区的长度)在人群中是高度变异的;按照孟德尔的规律遗传 微卫星DNA/简短串联重复(STR、STRP或SSLP)重复单元2-8bp,通常重复10-60次,分布在整个基因组。CTAGCTTATATATATATATATATATATATAAGCTTGC119STR具有高度多态性,同一遗传位点数目变化很大,在群体中也可形成多达几十种

33、的等位基因,这是其他遗传标记所不能比拟的;利用PCR的DNA体外扩增技术,实现机器自动化。1996年初,所建立的遗传图已含有6000多个以STR为主体的遗传标记,平均分辨率即两个遗传标记间的平均距离为0.7分摩,这个距离大致对应于0.7Mb的物理距离。120 第三代DNA遗传标记:单核苷酸的多态性(single nucleotide polymorphism,SNP)SNP:是由于单个核苷酸改变而导致的核酸序列多态。121可能是最好的遗传标记,是分散于基因组中的单个碱基的差异,即单核苷酸的多态性(SNP),包括单个碱基的缺失、插入和替换。SNP中大多数为转换,即由一种嘧啶碱基替换另一种嘧啶碱基

34、,或由一种嘌呤碱基替换另一种嘌呤碱基,颠换与转换之比为1:2。SNP有可能在密度上达到人类基因组“多态”位点数目的极限。估计人类基因组中可能有300万个SNP位点!SNP与RFLP和STRP标记的主要不同之处在于,它不再以DNA片段的长度变化作为检测手段,而直接以序列变异作为标记。122人类999的基因密码是相同的,而差异不到01,不同人群仅有140万个核苷酸差异。这些差异是由“单一核苷酸多样性”(SNP)产生的,它构成了不同个体的遗传基础。在整个基因组序列中,人与人之间的变异仅为万分之一,从而说明人类不同“种属”之间并没有本质上的区别。 显微镜下人的染色体组123SNP与RFLP和STR标记

35、的主要不同之处在于,它不再以DNA片段的长度变化作为检测手段,而直接以序列变异作为标记。124125“遗传图”的建立为人类疾病相关基因的分离克隆奠定了基础。拥有5000多个遗传学位点,相当于把整个人类基因组划分为5000多个小区,并分别设置了“标牌”。如果在家系中证实该基因与某个标记不连锁(重组率为50%),表明该基因不在这一标记附近。如果发现该基因与某个标记有一定程度的“连锁”(重组率小于50%但大于0),表明它可能位于这个标记附近。如果该基因与某标记间不发生重组(重组率等于0),我们就推测该标记与所研究的疾病基因可能非常接近。126(二)物理图(physical mapping)人类基因组

36、的物理图是指以已知核苷酸序列的DNA片段(序列标签位点, STS)为“路标”,以碱基对(bp,kb,Mb)作为基本测量单位(图距)的基因组图。STS是基因组中任何单拷贝的长度在100500bp之间的DNA序列,与核酸内切酶识别序列相关联。物理图主要内容是建立相互重叠连接的“相连DNA片段群”。物理图与遗传图相互参照就可以把遗传学的信息转化为物理学信息。127 构建物理图谱的原因 1)遗传图谱有限的分辨率 对于人类或其他高等生物不可能得到大量的子代群体,减数分裂的后代有限,限制了连锁分析。 2)遗传图谱的精确性不高 染色体上存在重组热点,影响邻近区段的遗传图谱的准确性。128 构建物理图谱的三条

37、途径1)限制性酶切图谱 识别位点较多的内切酶:如Not,其8个核苷酸出现的频率为1/48=1/65536bp,而识别位点为6个核苷酸的出现频率为1/46=1/4094bp。 其酶切位点在基因组中出现频率低的内切酶: 人类基因组中,5-CG-3出现的频率很低: Sma 酶切DNA,每78kb只有1个切点。 BssH 酶切DNA,每390kb只有1个切点。 Not 酶切DNA,每10Mb 只有一个切点。1292)荧光原位杂交(Fluorescent in situ hybridization),FISH):通过荧光标记的探针与DNA分子杂交,杂交信号即探针DNA在染色体上的图谱位点。 步骤:取处于

38、有丝分裂中期的细胞制片,将染色体变性成单链,在将标记的DNA探针变性后杂交到染色体上,保温处理后,显微镜下直接观察。130荧光原位杂交(fluorescent in situ hybridization,FISH)1313)序列标签位点 利用某一已知序列为标签的位点(sequence tagged sites,STS)作探针,与DNA杂交,绘制物理图谱。 STS的要求: 已知序列,便于PCR检测; 基因组中仅一个位点,无重复。132DNA序列标定部位(seguones tagged site, STS)重叠克隆群(conting)YAC (yeast artificial chromosome

39、)BAC (bacterial artificial chromosome)133134135人类部分染色体物理图谱136 物理作图是应用分子生物学技术来直接分析DNA分子,从而构建能显示包括基因在内的序列特征的位置图。 限制酶作图是对小的基因组进行物理作图的有效方法。 FISH技术是通过荧光标记显示DNA标记在一条染色体中的位置。 用放射性杂交体组及克隆文库技术进行STS作图,是最有效的物理作图方法。137如某一区域的大小为多少cM可以基本折算为某一区域大小为多少Kb。物理图的绘制需要筛选大量的物理标记以及进行大量复杂和繁琐的分析。1995年,第一张以称为序列标签位点STS为物理标记的物理图

40、谱问世,它包括了94的基因组和1500多个标记位点,平均间距为200Kb(这就是所谓的分辨率)。这样,物理图就把人类庞大基因组分成具有界标的1500个小区域。 人类基因组物理图的问世是基因组计划中的一个重要里程碑,被遗传学家誉为20世纪的生命(生物学)周期表。138利用一张遗传图,研究人员可将一种特定的遗传病的遗传模式同标记顺序的遗传模式进行比较,迅速确定引起该遗传病的基因的位置。然后,计算机把数据固定在物理图框架内。遗传图与物理图结合在一起,就能迅速确定与疾病有联系的基因。物理图的问世标志着离人类基因组全序列测定仅有一步之遥了。139STS作图 序列标记位点(sequence tagged

41、site, STS)作图是通过PCR或分子杂交将小段DNA顺序定位在基因组的DNA区段中。是目前用于构建最为详尽的大基因组物理图的主流技术。 原理: STS是一段短的DNA序列,100-500 bp,每个基因组只有一个拷贝。当两个片段含有同一STS时,可确认这两个片段重叠。 两个不同的STS出现在同一片段的机会取决于它们在基因组中的位置,彼此接近,同时出现在同一片段的机会就大,反之则小。 两个标记间的图距根据分离频率来计算。140ChromosomeMaleFemale 1.12 1.76 0.78 1.40 0.86 1.30 0.67 1.40物理图距离( Mb )与遗传学距离 ( cM

42、) 的对应关系cM / Mb141 制备物理图谱的大容量载体 在制备基因组物理图谱中,需大容量载体。 主要的类型是黏粒:cosmid 粘粒 - YACs(yeast artificial chromosomes), - BACs(bacterial artificial chromosomes)和 PACs (phage P1-based artificial chromosomes)142 克隆载体: Cosmid(粘粒) YAC(酵母人工染色体) BAC(细菌人工染色体)143人类基因组物理图 1987年,RFLP图谱,403个标记,10Mb 1994年,5800个标记,0.7Mb 199

43、6年,17000多个标记,100kb 完全适应全基因组测序的要求144遗传图与物理图的整合 有些标记既是遗传标记,又是物理标记 RFLP标记 SSR标记 某些基因序列 借助这些标记可以将遗传图和物理图整合起来。145人类的基因转录图(cDNA图),或者基因的cDNA片段图,即表达序列标签图(EST,expressed sequence tag)是人类基因组图的雏型。在成年个体的每一特定组织中,一般只有10%20%的结构基因(约12万个不同类型的mRNA)表达。整个人类基因组中,有1%-5%的序列编码了蛋白质,最多可能有(57)万个蛋白质编码基因。得到了一段cDNA或一个EST,就能被用于筛选全

44、长的转录本,并将该基因准确地定位于基因组上。cDNA序列具有转录本的特异性,代表了不同基因的信息。可以将DNA序列和cDNA序列进行比对,找出对应于cDNA的基因。(三)转录图(Transcription Profiling)146收集各种细胞或组织的基因表达谱进行两两或多重比较,能较全面了解哪些基因是特异性表达的。在某一细胞或组织中特异性表达的基因可能与该组织或细胞类型的生理功能有关。获得各类组织或细胞的基因表达谱,从而给出人体200余种基本组织或不同细胞组成的人体基因图(bodymap)。转录图(基因表达谱)研究所提供的信息,使人们能系统地全面地从mRNA水平了解特定细胞、组织或器官的基因

45、表达模式并解释其生理属性,深入认识细胞生长、发育、分化、衰老和疾病发生的机制。147有了一张总的转录图,我们就可以了解某基因在不同的时间、不同组织的表达情况;可以了解不同组织中不同基因的表达;还可以了解正常条件下与异常状况下基因表达的差异。148人类基因组的核苷酸序列图是分子水平上最高层次、最详尽的物理图。测定总长约1米、由30亿个核苷酸组成的全序列是人类基因组计划的最终目标。 既包括可转录序列,也包括非转录序列,是转录序列、调节序列和功能未知序列的总和。(四)全序列图(Sequence Map)149人类所拥有的基因位点都是相同的,不同种族、不同个体的基因差异(人类基因组的多样性)以及“正常

46、”与“疾病”基因的差异,只是同一位点上的等位基因的差异。人类基因组计划所提供的人类核酸序列图,蕴藏了决定我们生、老、病、死的所有遗传信息,将成为人类认识自我、改造自我使人类健康长寿的知识源泉,为21世纪现代生物学和医学奠定了基础。150151基因组DNA序列测定人类基因组的全部核苷酸(3X109)排列顺序152Celera Genomics 人类基因组的 测序策略人类基因组测序策略153采集5个自愿者的DNA样品构建3种不同插入子大小的基因组文库2Kb, 10Kb和50Kb完成约2700万次插入子末端测序,总长14800MbGeneBank下载104018个BAC末端顺序PFP发表的公开数据主

47、要为BAC克隆的顺序,共4443.3Mb随机测序与序列组装方法和指导测序与序列组装方法相结合进行序列组装154B.国际人类基因组测序策略构建BAC克隆 限制性酶处理获得指纹 根据指纹重叠方法组建BAC克隆重叠群 根据STS标记,将BAC克隆重叠群标定在物理图上 每个BAC克隆内部采用鸟枪法测序,组装 将BAC插入顺序与BAC克隆指纹极重叠群对比,将已阅读的顺序锚定到物理图上155156两种基因组测序策略157 DNA测序基本步骤 限制性内切酶将大片段DNA切成小的片段 小片段插入(连接)到测序载体中 用测序仪对小片段DNA测序 超级计算机分析测序结果,进行拼接得到 一致序列158DNA切下的片

48、段插入(连接)到载体中叠连群测序后得出一致序列大量的重叠片段gtatgtacatttttaaaatctcattttaaaaggccagttaaaatgggtatgtacatttttaattttaaaatctcattttaatttaaaaggccagttaagttaaaatgg159人类基因组研究的惊人发现分析得知:全部人类基因组约有2.91Gbp,约有39000多个基因;平均的基因大小有27kbp;基因数量少得惊人: 一些研究人员曾经预测人类约有14万个基因,但实际上不超过40,000,只是线虫或果蝇基因数量的两倍,人有而鼠没有的基因只有300个。1603.人类单核苷酸多态性的比例约为1/12

49、50bp,不同人群仅有140万个核苷酸差异,人与人之间99.99的基因密码是相同的。并且发现,来自不同人种的人比来自同一人种的人在基因上更为相似。在整个基因组序列中,人与人之间的变异仅为万分之一,从而说明人类不同“种属”之间并没有本质上的区别。 1614.人类基因组中存在“热点”和大片“荒漠”: 在染色体上有基因成簇密集分布的区域,也有大片的区域只有“无用DNA” . 在所有的DNA中,只有1%-1.5%DNA能编码蛋白,在人类基因组中98%以上序列都是所谓的“无用DNA”,分布着300多万个长片断重复序列。1625.男性的基因突变率是女性的两倍,而且大部分人类遗传疾病是在Y染色体上进行的。所以,可能男性在人类的遗传中起着更重要的作用。163大肠杆菌 (Escherichia coli)酿酒酵母 (Saccharomyces cerevisiae)拟南芥(Arabidopsis thaliana)秀丽小杆线虫 (Caenorhabditis elegans)果蝇 (Drosophila melanogaster)小鼠

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论