生物学基因组学.pptx_第1页
生物学基因组学.pptx_第2页
生物学基因组学.pptx_第3页
生物学基因组学.pptx_第4页
生物学基因组学.pptx_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基因组学是研究生物基因组的结构和功能的科学。,1990年,启动人类基因组计划; 1995年,完成第一个原核生物(细菌)基因组的测序; 1996年,完成第一个真核生物(酵母)基因组的测序;,结构基因组学的最终目的,是要揭示基因组的分子组成,在分子水平上描绘基因组的结构,即基因组序列(genomic sequence)。,1998年,完成第一个多细胞生物(线虫)基因组的序列; 2000年,完成果蝇和拟南芥的基因组测序以及人类的基因组草图 ; 2002年完成水稻的基因组草图; 2003年完成人类全基因组测序; 2005年完成了水稻基因组全序列测定。,生命的奥秘蕴藏于 “四字天书”之中,GCTTCTTCCTCATTTTCTCTTGCCGCCACCATGCCGCCACCA TCATTTTCTCTTGCCGCCACCATGCTTCTTCCTCATTTTCTCT CCACCATGCCGCCACCACGCCACCATGCTTCTTCCTCATCTC GCTTTCTTGCCGCCACCATGCCGCCACCGCTTCTTCCtTCTCT,第9章 基因组学 9.1 基因组的结构特征 9.2 基因组图谱的构建及应用 9.3 后基因组学,第9章 基因组学 9.1 基因组的结构特征 9.2 基因组图谱的构建及应用 9.3 后基因组学,1、原核生物基因组的结构特征 大多数原核生物的基因组小于5 Mb,比真核生物的基因组小得多。 染色体是由一个核酸分子(DNA或RNA)组成的,DNA(RNA)呈环状或线性。 原核生物还可能含有更小的质粒(plasmid)的DNA分子。, 蛋白质基因通常以单拷贝的形式存在。 存在转座因子。, 功能相关的基因大多以操纵子形式出现,如大肠杆菌的乳糖操纵子等。,2、 真核生物细胞核基因组的结构特征 1)真核生物细胞核基因组的大小从小于10 Mb到大于100,000 Mb。基因组的大小一般与生物的复杂性相一致,高等真核生物的基因组一般大于低等真核生物的基因组。,生物 基因组大小(Mb) 原核生物 Mycoplasma genitalium 0.58 Escherichia coli 4.64 Bacillus megaterium 30 真核生物 真菌 Saccharomyces cerevisiae (酵母) 12.1 Aspergillus nidulans 25.4 原生动物 Tetrahymena pyriformis 190 无脊椎动物 Drosophila melanogaster (果蝇) 100 Bombyx mori (蚕) 490 Locusta migratoria (蝗虫) 5,000 脊椎动物 Fugu rubripes (河豚) 400 Homo sapiens (人类) 3,000 Mus musculus (鼠) 3,300 植物 Arabidopsis thaliana (拟南芥) 100 Oryza sativa (水稻) 565 Zea mays (玉米) 5,000 Triticum aestivum (小麦) 17,000 Fritillaria assyriaca (贝母) 120,000,不同生物类型基因组的大小,资料来源:Brown T.A., 1999。,2)真核生物具有复杂的染色体结构,染色体在细胞间期为染色质,由DNA、组蛋白、非组蛋白以及RNA组成的,基本结构物质是DNA和组蛋白。,真核生物的细胞核基因组由一组线性DNA分子组成,而每一DNA分子包含在一条染色体中。,3)非编码序列比例大大增加,真核生物基因组复杂程度的增加,主要表现在非编码序列比例的增加。例如,大肠杆菌基因组中非编码序列仅占11%,而人类基因组中编码序列只有1.1%-1.5%。 真核生物基因组存在着各种类型的非编码序列,使基因组的DNA序列变得十分复杂。,人类基因组的序列组成 (资料来源:Brown T.A., 1999),重复DNA(repetitive DNA)是由特定大小序列(重复单位),具有特定拷贝数,以特殊的方式组成的DNA序列。 原核生物:含有完全不重复的DNA; 低等真核生物:大部分DNA也是非重复的; 动物:接近50%的DNA是中度或高度重复的; 植物和两栖动物:中度或高度重复序列占基因组的80%。,4)重复DNA的含量增加,5)编码基因数量与复杂程度的增加 随着基因组的增大,基因数目也相应增加。但这种增加并不是按比例的。 随着生物的进化,基因组中基因数目增加同时,基因的复杂程度也在增加。,基因组 大小(bp) 基因数 基因密度(1/kb) 年份 生殖道支原体 5.8 105 470 1 1995 流感嗜血杆菌 1.8 106 1,743 1 1995 詹氏甲烷球菌 1.7 106 1,682 1 1996 大肠杆菌 4.6 106 4,288 1 1997 酵母 1.2 107 5,885 2 1997 线虫 9.7 107 19,099 5 1998 拟南芥 1.2 108 25,000 5 2001 果蝇 1.3 108 13,000 10 2000 水稻 4.2 108 50,000 8 2002 人类 3.0 109 32,000 95 2000,部分已测序基因组的基因数目,6)大量基因以基因家族的形式存在。,基因家族(gene family):基因组中来源相同、结构相似、功能相关的一组基因。 成簇的基因家族(clustered gene family):一个基因家族成员在特殊的染色体区域上成簇存在,中间常以中等重复序列间隔。 散布的基因家族(interspersed gene family):同一基因家族的成员在整个染色体上广泛分布,甚至存在于不同的染色体上。,第9章 基因组学 9.1 基因组的结构特征 9.2 基因组图谱的构建及应用 9.3 后基因组学,物理作图: 就是要把基因组分解成为许多较小的DNA片段,然后再把这些DNA片段连接起来,构建一个由DNA片段重叠群组成的物理图(physical map)。,从分子水平上看,基因组是一个巨大的物体,例如,拟南芥基因组大小为1.2108 bp (base pair,碱基对),而人类基因组为3.0109 bp。要完成基因组测序的巨大工程,通常首先需要把基因组分解成为许多较小的DNA片段,然后分别测序,再综合组装。,物理图谱:以特定DNA序列为界标直线排列在基因组DNA分子上,图上界标之间的距离以物理长度,即核苷酸对(bp)的数目来表示。,1、作图文库 一个基因组分解产生的用于物理作图的DNA片段,在数量上通常是很大的。对这些DNA片段进行有效的管理,以便开展物理作图,需要构建这些DNA片段的文库,这就是作图文库。 作图文库的构建通常包括DNA片段的分离、克隆和分析等环节。,(1) DNA片段的分离 用于物理作图的DNA片段通常较大,一般为100-300kb。 获得途径: 利用限制性内切酶的部分酶切(不完全酶切),或选用稀有切点的限制酶酶切; 片段的大小可以通过酶切的时间来掌握。,分离方法: 通过降低凝胶的浓度来分离较高分子量的DNA片段; 应用脉冲场凝胶电泳技术(pulsed field gel electrophoresis,缩写成PFGE),可成功分离到分子量高达107 bp(1000kb)的DNA大分子。,将一个方向不断变换的电场取代单向电场,使电泳中受阻的DNA分子在电场改变时扭转迁移方向,小分子DNA比大分子DNA更易在凝胶中重新定向,因而迁移速度更快,达到分离大分子DNA的目的。,脉冲场凝胶电泳的原理,(2) DNA片段的克隆载体 所有的克隆载体都包括三种共同的组成部分,即复制基因(replicator)、选择性标记和克隆位点(酶切位点)。,载体的类型: 质粒(plasmid): 5 kb 噬菌体(phase):2-25 kb 粘粒(cosmid): 35-45 kb 细菌人工染色体(bacterial artificial chromosome,缩写成BAC): 100-200 kb 酵母人工染色体(yeast artificial chromosome,缩写成YAC): 200-700 kb。,选择载体时,主要考虑克隆DNA片段的大小。,对于物理作图,由于DNA片段较大,常用的克隆载体为BAC和YAC等。,用BAC载体构建的作图文库称为BAC文库,而用YAC载体构建的作图文库称为YAC文库,BAC文库的构建,NotI、SacI,脉冲场凝胶电泳得200kb左右的大片段DNA,纯化后与载体连接,电转化,将连接产物导入大肠杆菌感受态细胞,插有外源DNA片段的BAC载体,在含有氯霉素的固体培养基中培养,每一个菌落为带有相同外源DNA片段的单克隆,2、物理图的构建 物理作图的下一个目标是要确定作图文库中克隆片段的排列顺序,建立克隆的重叠群。 (1) 重叠群(contig) :彼此可以通过末端的重叠序列相互连接成连续的DNA长片段的一组克隆。 组装物理图有多种方法,如染色体步移、指纹作图等。,(2)染色体步移(chromosome walking): 选择已知位置的克隆作为探针,寻找基因组文库中与其部分重叠的克隆。通过多次重复这一步骤,就可以找出一个彼此重叠的、连续不断的克隆片段重叠群。,染色体步移,DNA指纹: 确定DNA样品所具有的特定DNA片段组成。 一个克隆的指纹表示了该克隆所具有的限定的序列特征,可与其它克隆产生的同类指纹相比较。如果指纹重叠,表明两个克隆具有共同区段。,(3) 指纹作图(clone fingerprinting),克隆指纹法可分为限制性片段指纹法和PCR扩增产物指纹法两大类 。 限制性片段指纹法: 利用限制酶处理DNA克隆,经凝胶电泳分离限制性片段,获得一组克隆的限制性指纹。 PCR扩增产物指纹法: 通过PCR扩增方法,比较克隆间PCR扩增条带的相似性,获得一组克隆的扩增产物指纹。,无论是限制性片段指纹还是PCR扩增产物指纹,根据重叠区指纹相同的原理,可以找出相互重叠的克隆,从而构建重叠群。由于指纹分析涉及大量的试验数据,因此通常通过计算机来进行分析。,3、确定重叠群的长度,从重叠群中选择核心克隆,酶切后标记做探针,与整个重叠群杂交以确定重叠部分大小;将所有克隆长度总和减去相互重叠部分,即整个克隆重叠群的总跨度。 克隆重叠群之间存在的空隙的实际物理距离可以通过步移法找出搭桥克隆加以推算和确定。 这一工作必须由计算机来完成。,遗传图是通过遗传标记的排列顺序和相对距离,来反映基因组的结构,图距单位是以重组率为基础的遗传距离,即厘摩(cM)。 物理图是通过来源于基因组本身的DNA片段的重叠关系,对克隆的DNA片段进行排序,复原染色体全长的DNA分子,图距单位是以碱基数为单位的物理距离(kb)。 通过遗传图与物理图的整合,构成了更能反映基因组本质的基因组图。,4、物理图与遗传图的整合,(1)以遗传图为基础构建物理图 利用遗传图中的分子标记,从作图文库中筛选出相应的克隆,并以锚定的克隆片段为基础构建重叠群。,A B C D E F,600 900 220 850 1100,染色体 遗传距离(cM) 遗传图 锚定标记 物理图 物理距离(kb) DNA分子,3 5 1 4 6,(2)遗传距离与物理距离的关系 不同生物基因组中每厘摩的物理距离存在很大的差异。遗传距离与物理距离的这种关系,反映了通过遗传作图对基因物理定位的精度。该比率越小,基因物理定位的精度越高。如酵母基因组中每cM约为3kb, 在水稻基因组中约250kb,在玉米基因组中约1700kb。,三、基因组图谱的应用,(1)基因组序列测定。 (2)基因定位。精细定位 ,如抗病基因等 (3)基因组比较分析:了解物种种间的同源性 (4)分子标记辅助选择(Marker-assisted selection, MAS)。利用与基因紧密连锁的分子标记进行间接选择。 (5)基因的克隆与分离。染色体步行法(Chromosome walking)或称图位克隆法(map-based cloning) 。,1、基因组测序, 链终止法测序 ddNTP DNA自动测序 用不同颜色的荧光染料ddNTP 基因组全序列测定, 链终止法测序,基本原理:在DNA聚合酶的酶促反应中,复制被测序的DNA分子。在复制的过程中,双脱氧核苷酸随机掺入到新合成的DNA链中,并引起DNA合成的终止。 由于双脱氧核苷酸包含4种不同的碱基,结果在合成的DNA产物中,包括了一系列依次相差一个核苷酸的DNA分子。通过电泳,这些DNA分子可按大小分开,根据末端碱基可读出模板的DNA序列。,双脱氧核苷三磷酸(dideoxynucleotide,缩写成ddNTP)是DNA合成的阻断剂。双脱氧核苷三磷酸有4种,分别对应4种脱氧核苷三磷酸(dNTP), 前者与后者的区别在于核糖的3碳处缺乏一个羟基基团 。,“双脱氧末端终止”的含义,链终止法测序,测定一个DNA分子序列,需要4个独立的酶促反应:在每一反应试管中,除模板DNA、DNA聚合酶、引物外,还分别加入一种互不相同的ddNTP和全部4种dNTP(其中有一种带有32P同位素标记)。,在DNA合成的任意位置,聚合酶可掺入一个dNTP到正在延伸的DNA链中,此时DNA的合成继续进行;若聚合酶掺入的是ddNTP,则链的延伸将被阻断,DNA的合成在该位置终止。总的结果是,在4个反应中,每个都产生一系列不同长度的DNA分子,每个DNA分子都以ddNTP为终点。 反应混合物样品加在聚丙烯酰胺凝胶上电泳分离片段大小。谱带的判读是从胶的底部开始,所得的核苷酸碱基顺序,与模板链为互补链。,链终止法测序,(b)电泳及放射自显影,显示测序结果,GAGTGGTCATACTGTA,5,3,模板DNA(单链),反应1,加ddATP,反应3,加ddGTP,反应2,加ddTTP,反应4,加ddCTP,CTCACCAGTATGACAT CTCACCAGTATGACA CTCACCAGTATGAC CTCACCAGTATGA CTCACCAGTATG CTCACCAGTAT CTCACCAGTA CTCACCAGT CTCACCAG CTCACCA CTCACC CTCAC CTCA CTC CT C,A T G C,DNA序列,(a)PCR,利用ddNTP终止DNA链的合成,最大的困难:找到合适的引物,每种ddNTP携带不同的32P同位素标记, DNA自动测序,荧光化合物标记链终止法以荧光颜色为标记信号,每种ddNTP各有1种代表颜色;整个反应在一个试管中进行;当新合成的终止单链通过荧光监测仪时,可由光信号读出末端核苷酸并由电脑记录。,以荧光化合物标记双脱氧核苷酸的自动测序,(a)PCR,利用 ddNTP终止 反应,(b)信号检测,(c)显示结果,测序反应,产物分离,每种ddNTP携带不同的荧光标记,ddA,ddC,(红),(蓝),ddT,ddG,(绿),(黄),检测系统,ddA,ddT,ddG,ddC,ddA,ddA,ddA,ddA,ddG,ddG,ddG,ddG,ddC,ddC,ddC,ddC,ddT,ddT,ddT,AG C GT A C CGTT ACC GGTAA,显示系统,自动测序方法的优势: 免除了同位素标记必须同时进行4组反应的麻烦。 由1个泳道同时判读4种碱基,为自动化加样及计算机阅读提供了技术基础。 避免了肉眼分辨的误差,阅读信号与计算机相连后,可直接对数据进行电脑处理,加快了基因组测序的进程。, 基因组全序列测定,1995年,用鸟枪法(shotgun approach)完成了流感嗜血杆菌基因组的全序列测定,为基因组全序列测定提供了新的方法。,流感嗜血杆菌基因组鸟枪法测序流程(仿Brown T.A., 1999),鸟枪法的主要优点:速度快;无须提供相关遗传图和物理图的资料。 鸟枪法的局限性:如果基因组太大,结构过于复杂,序列组装的起始阶段工作量非常大,而且数据分析中出现错误的机率较大。对一些缺少重复顺序的小基因组而言,鸟枪法仍是最佳的选择。,高等生物的基因组测序: 物理作图与鸟枪法测序相结合 物理作图: 把基因组分解为众多的具有一定长度的DNA片段,并对DNA片段进行克隆,构建YAC或BAC等文库,并构建基因组的物理图。 亚克隆: 将大片段DNA分解为小片段DNA,然后再对小片段DNA进行克隆。直接用于DNA测序的DNA片段其长度通常为2-5 kb。 鸟枪法: 分别对各DNA片段进行测序。 序列组装: 鸟枪法测序后,再通过序列组装、间隙填充和校正,构建成全基因组序列。,大 规 模 测 序 平 台 的 构 成,自动测序仪,服务器,2、基因组的序列分析,完成基因组测序是基因组计划的第一步,下一步弄清基因组顺序中所包含的全部遗传信息。,(1) 搜寻基因 由于编码基因中的碱基序列不是随机排列的,存在着某些可以辨别的特征,因此可以利用这些特征来辨别DNA序列中的基因。,可读框(open reading frame, ORF) 所有编码蛋白质的基因都含有可读框,由一系列指令氨基酸的密码子(codon)组成。可读框有一个起点,又称起始密码子(initiation codon),一般为ATG,还有一个终点,又称终止密码子(termination codon),分别为TAA,TAG和TGA,三者含义相同。,一个ORF可能就是一个基因,核苷酸序列分析ORF,同源查询 利用数据库中的基因序列与待查的基因组序列进行比较,从中查找出可与之匹配的碱基序列及其比例以便界定基因的方法,称为同源查询(homology search)。 原理:如果来自于不同生物体的两个基因在功能上相似,那么在序列上也会相似(直系基因成员、平行基因或称基因家族成员)。,相似性有以下表现: (1)存在某些完全相同的序列; (2)ORF读框的排列类似,如等长的外显子; (3)ORF指令的氨基酸序列相同; (4)模拟的多肽高级结构相似。,同源查询已成为界定基因的主要工具之一。,(2)基因功能预测 任务: 在确认DNA序列中的基因序列后,对其功能进行探知。 手段: 计算机预测,其依据是同源性比较。当一个新基因序列被确定后,根据同源性可从数据库中查找已知序列的同源基因。根据进化的相关性,可从已知的同源基因推测新基因的功能。,同源基因类型: 直系基因(orthologous gene):又称种间同源基因,是指不同物种之间的同源基因,它们来自物种分隔之前的同一祖先。 平行基因(paralogous gene):又称种内同源基因,是指同一种生物的同源基因,它们常常是多基因家族的成员,其共同的祖先基因可能存在于物种形成之后,也可能出现于物种形成之前。,第9章 基因组学 9.1 基因组的结构特征 9.2 基因组图谱的构建及应用 9.3 后基因组学,在基因组学的发展过程中,通常是先研究基因组的结构,然后再研究基因组的功能。 功能基因组学是在结构基因组学丰富信息资源的基础上,应用先进的基因表达技术、生物功能检测技术和生物信息学技术分析研究基因的表达、调控和功能;探讨生物的生长、发育规律的新型交叉学科。,目前功能基因学的研究才刚开始,因此一般意义上的基因组学主要是指结构基因组学,而把功能基因组学的研究时期又称为后基因组学(post-genomics)时代。,后基因组学的研究方法: 生物信息学、DNA微列阵、蛋白质组学等,后基因组学研究领域: 基因表达谱的研究 蛋白质组的研究 基因组分析和基因功能研究 基因组进化与生物进化的研究,1、生物信息学(Bioinformatics),基本概念: 生物信息学(Bioinformatics)是多学科交叉的产物;是以计算机为工具对生物信息进行储存、检索和分析。具体说是从核酸和蛋白质序列出发,分析序列中与表达有关的结构和功能的生物信息。 它是伴随着DNA序列资料以惊人的速度增长而发展起来的,是21世纪自然科学的核心领域之一。,基因组信息学一方面为基因组全序列测定等研究计划提供信息处理技术,以加快全基因组测序的进程;另一方面建立和完善数据库,对不断增长的序列数据进行组织和管理,并为数据库的有效利用提供新的信息技术。,cDNA序列 基因组序列,蛋白质理化性质 二级结构预测 结构域分析 重要信号位点分析 三级结构预测,生物学信息学的内容(基本问题), 序列的比对(Alignment) DNA序列的对比 BLAST和ASTA 基因识别与DNA序列分析 编码区 GRAIL,GenParser和GeneID 蛋白质结构预测 二级、三级结构的预测(第2套生物学密码) 分子进化 DNA结构,蛋白质结构,生物信息学数据库 生物信息学数据库(data base或data bank)主要分为两大类: 基本数据库: 包括原始数据,如DNA序列、蛋白质序列和蛋白质结构等信息。 二级数据库: 对基本数据库进行分析、提炼加工后形成的,旨在使得基本数据库更便于生物学家使用。如蛋白质序列中的共同结构和功能基序数据库(PROSITE database)等。,一些重要生物信息学数据库,2、 后基因组信息学(post-genome informatics),基因组全序列测定的完成,标志着结构基因组学的任务已基本完成,基因组学的研究从结构基因组学进入到功能基因组学,即进入所谓的“后基因组时代”(postgenomic era)。同样,生物信息学也从基因组信息

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论