《基因组测序与分析》PPT课件.ppt_第1页
《基因组测序与分析》PPT课件.ppt_第2页
《基因组测序与分析》PPT课件.ppt_第3页
《基因组测序与分析》PPT课件.ppt_第4页
《基因组测序与分析》PPT课件.ppt_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第八章 基因组测序与分析,西北农林科技大学农学院遗传教研组,主讲人:胡银岗,第一节 基因组计划,1、人类基因组计划简介 人类基因组计划准备用15年时间,投入30亿美元,完成人类全部24条染色体的3109脱氧核苷酸对(bp)的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。作图和测序是基本的任务,在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息,基因组 一个物种中所有基因的整体组成,2. 人类基因组测序策略,采集5个自愿者的DNA样品,构建3种不同插入子大

2、小的基因组文库2Kb, 10Kb和50Kb,完成约2700万次插入子末端测序,总长14800Mb,GeneBank下载104018个BAC末端顺序,PFP发表的公开数据主要为BAC克隆的顺序,共4443.3Mb,随机测序与序列组装方法 指导测序与序列组装方法 相结合进行序列组装,A. Celera Genomics 人类基因组的测序策略,B 国际人类基因组测序策略 构建BAC克隆 限制性酶处理获得指纹 根据指纹重叠方法组建BAC克隆重叠群 根据STS标记,将BAC克隆重叠群标定在物理图上 每个BAC克隆内部采用鸟枪法测序,组装 将BAC插入顺序与BAC克隆指纹极重叠群对比,将已阅读的顺序锚定到

3、物理图上,两种策略的比较,鸟枪法策略 指导测序策略 不需背景信息 构建克隆群 (遗传、物理图谱) 时间短 需要几年的时间 需要大型计算机 得到的是草图(Draft) 得到精细图谱,3.人类基因组研究的惊人发现, 19号染色体是含基因最丰富的染色体,而13号染色体含基因量最少 目前已经发现和定位了26000多个功能基因,其中尚有42%的基因尚不知道功能 人类基因组中存在“热点”和大片“荒漠”。在染色体上有基因成簇密集分布的区域,也有大片的区域只有“无用DNA” 不包含或含有极少基因的成分。基因组上大约有14的区域没有基因的片段。 353的基因包含重复的序列。这说明那些原来被认为是“垃圾”的DNA

4、也起重要作用,应该被进一步研究。,4.单核苷酸多态性,人类999的基因密码是相同的,而差异不到01,不同人群仅有140万个核苷酸差异。这些差异是由“单一核苷酸多样性”(SNP)产生的,它构成了不同个体的遗传基础,个体的多样性被认为是产生遗传疾病的原因。在整个基因组序列中,人与人之间的变异仅为万分之一,从而说明人类不同“种属”之间并没有本质上的区别。,5.Shotgun测序及分析,DNA的提取和纯化 载体预备:和DNA片断结合,从而能够在细菌中扩增。 DNA片段的制备:将DNA用超声波切成能够测序的小片断 转化培养:小片断和载体结合,植入细菌中进行扩增。 提质粒:从细菌中提取出繁殖好的质粒 电泳

5、检测:检测质量的好坏 测序:上测序仪测序,DNA整体,切成小段,小段和载体结合,结合后进行测序,还没有完!拼接!,因为整个基因组太长(上M),而每次只能测得一个500的小片断(read) 问题:如何根据read恢复原始顺序? 类比:10本圣经,都从随机点起始剪成500个字母左右的小纸条,问:给你这么一堆小纸条,你能读出圣经来吗? 但是都会拼错!,Shotgun法序列拼接,Consensus,Mis-Assembly (Inverted),拼接错误:Repeat的存在,实例:流感嗜血杆菌基因组的测序及顺序组装,超声波打断纯化的基因组DNA 琼脂糖电泳收集1.62.0Kb的区段、纯化 构建到质粒载

6、体中 随机挑选19687个克隆,进行28643次测序,得到可读顺序为11 631 485 bp 组装成140个覆盖全基因组范围的独立的顺序重叠群, ,各重叠群间仍有间隙 顺序间隙 物理间隙 ,载体或宿主菌 选用不当而被丢失的序列,测序时遗漏的测序,解决办法:通过相邻已知顺序作为探针筛选已有的基因组文库,解决办法:利用其它宿主菌与载体重新构建文库,运用计算机软件进行序列拼接,Francis Collins VS. J.Craig Venter,6. 基因识别,基因识别(gene identification)是HGP的重要内容之一,其目的是识别全部人类的基因。 基因识别包括: 识别基因组编码区

7、识别基因结构 基因识别目前常采用的有二种方法: 从基因组序列中识别转录表达的DNA片段 从cDNA文库中挑取并克隆。,7. 模式生物的基因组测序,酵母,大肠杆菌,果蝇,线虫,老鼠,水稻基因组测序,水稻是全球半数以上人口的主食,对解决全球粮食问题具有重要意义。 2002年我国科学家完成了水稻基因组定序和初步分析。出人意料的是,水稻的基因竟比人类基因还要多得多。人类基因大约有3万多个,水稻有4万多个基因。 水稻基因组可说是继人类基因组之后,完成定序的最大基因组,也是至今已知最大的植物基因组。,8.人类基因组计划对医学事业的影响,促进对致病基因的克隆 疾病的预测与诊断 如果掌握了与某种疾病相关的基因

8、及突变,则可以对该疾病进行预测、诊断。 基因疗法的发展与应用 通过生物学、医学等技术对疾病相关基因进行抑制或调控,即可达到治疗某一疾病的效果。,基因变异与疾病,第二节 DNA片段组装,大规模基因组测序 得到待测序列的一系列序列片段 这些序列片段覆盖待测序列 序列片段之间也存在着相互覆盖或者重叠。,目标序列 序列碎片,(1)碱基标识错误,1. 片段组装的4个主要问题,(2)不知道片段的方向,(3)存在重复区域,(4)缺少覆盖(gap),2、序列片段组装过程,序列片段组装过程三个步骤: 首先进行序列片段的两两比较,确定可能的片段之间的覆盖(或者重叠); 确定所有片段统一的覆盖模式,即确定各个序列片

9、段的相对位置; 最后确定片段组装结果,即确定目标序列。,1、基因组DNA的奥秘 遗传信息存贮在4种字符组成的核酸序列中 “天书”用遗传语言书写的人类遗传蓝本 包含的信息量巨大 更重要的是目前人类对它了解甚少 天书中只有4个字符(碱基A、T、G、C) 既没有段落,也没有标点符号 是一个长度为3109的一维序列。,第三节 基因组DNA序列分析,科学家对这本天书了解最多的部分就是遗传密码 密码子的特点 (1)密码子的使用是非随机的 如果密码子的第一、第二位碱基是A、U,那么第三位将尽可能使用G、C;反之亦然。 如果三位都用G、C,则配对容易,分解难;三位都用A、U,则相反。 一般地说,高表达的基因,

10、要求翻译速度快,要求密码子和反密码子配对快、分手也快。,(2)密码子的使用有一定的统计规律 对同义密码子的使用存在着偏爱 不同种属偏爱的密码子不同 人类基因组: 密码子第三位取A、U的情况占90% 而第三位取G、C仅占10% 密码子的使用偏爱性与基因功能 蛋白质结构相关,(3)密码子中的密码 三个碱基的位置与所编码的氨基酸性质存在着联系 例如: 芳香族氨基酸 以U作为第一位碱基 中间位置碱基的性质与氨基酸是亲疏水性相关 疏水氨基酸的密码子,其第二位碱基是U 亲水氨基酸的密码子,其第二位碱基是A 第二位碱基是G、C的密码子所编码的氨基酸亲水性、疏水性居中。,基因组信息 人类基因组: 编码区域只占

11、1%-3% 对于非编码序列,尚不清楚其含义或功能 非编码区域对于生命活动具有重要的意义 包括内含子、简单重复序列、移动元件、伪基因 重复序列: 卫星(satellite)DNA 小卫星(mini-satellite)DNA 微卫星(micro-satellite) 顺式调控元件: 启动子、增强子、沉默子,2、探索遗传语言 用语言学的方法进行研究 自然语言 计算机程序设计语言 遗传语言 二进制序列0、1的长程关联性分析结果: 编码区域 自然语言 蛋白质编码区域所包含的信息相当于待加工的“数据”,数据经过加工处理以后产生对应的蛋白质; 非编码区域 程序设计语言 而非编码区域则相当于“程序”或“指令

12、”,确定如何在时间和空间方面控制基因的表达和蛋白质的合成,用密码学方法进行研究 是否存在其它密码? 调控信息密码? 蛋白质结构的密码? 编码在DNA上的一维程序如何在四维时空中控制生命体的生长发育?,3、关于生物复杂性 生物的复杂性不仅仅是基因的数目 人类基因约为30000个 线虫有20000个基因,230000/220000=210000103000,4、基因组计划带来的希望 实验数据的积累速度在迅速地增加 计算机科学和技术也在不断地发展,单个基因组分析 基因序列 基因功能 基因的表达调控 基因产物 基因多态性,比较基因组分析 物种关系 物种进化 物种起源,人、鼠基因组比较,人基因组 鼠基因

13、组 注:鼠染色体上的颜色和数字代表在人染色体上对应的片段。,老鼠约75%的基因与人类相同。,第四节 基因组序列诠释,问 题,基因组序列所包含的全部遗传信息是什么? 基因组作为一个整体如何行使其功能? 用什么方法寻找基因,研究基因地功能呢?,主要内容,寻找基因 获取基因的全长cDNA序列 确定DNA顺序中基因的位置 研究基因的功能 基因表达 蛋白质组学,1. 寻找基因,1.1 根据开放读码框预测基因 起始密码子 ATG 第一个ATG的确定则依据Kozak规则(基于已知数据的统计结果,即第一个ATG侧翼序列的碱基分布所满足的统计规律。) 若将第一个ATG中的碱基A,T,G分别标为1,2,3位,则K

14、ozak规则可描述如下: 第4位的偏好碱基为G; ATG的5端约15bp范围的侧翼序列内不含碱基T; 在-3,-6和-9位置,G是偏好碱基; 除-3,-6和-9位,在整个侧翼序列区,C是偏好碱基。,信号肽分析 信号肽分析软件(SignalP http:/www.cbs.dtu.dk/services/signalP ) 把预测过程中证实含完整mRNA 5端的Contig翻译为蛋白序列; 然后用SignalP软件对前50个氨基酸序列(从第一个ATG对应的甲硫氨酸Met开始)进行评估,如果SignalP分析给出正面结果,则测试序列有可能为信号肽; 假如在该测试序列的第一个Met 5端存在终止密码子

15、,该序列为信号肽的可能性更大。,终止密码子 终止密码子: TAA, TAG,TGA GC% = 50% 终止密码子每 64 bp出现一次; GC% 50% 终止密码子每100200 bp 出现一次; 由于多数基因 ORF 均多于50个密码子,因此最可能的选择应该是 ORF 不少于100 个密码子。 3端的确认 3端的确认主要根据Poly(A)尾序列,若测试Contig不含Poly(A)序列,则根据加尾信号序列“AATAAA”和BLAST同源性比较结果共同判断。,非编码序列、内含子 高等真核生物多数外显子长度不少于100 个密码子,有的不到50个密码子甚至更少; 密码子偏爱性 编码同一氨基酸的不

16、同密码子称为同义密码,其差别仅在密码子的第3位碱基不同。 不同种属间使用同义密码的频率有很大差异,如人类基因中,丙氨酸(Ale)密码子多为GCA,GCC或GCT,而GCG很少使用。,外显子内含子边界 外显子和内含子的边界有一些明显的特征,如: 内含子的5端或称供体位(donor site)常见的顺序为 5AGGTTAAGT-3; 3端又称受体位(acceptor site), 多为5PyPyPyPyPyPyCAG-3(“Py”嘧啶核苷酸,T或C); 上游控制顺序 几乎所有基因(或操纵子)上游都有调控序列,它们可与DNA结合蛋白作用,控制基因表达。 另外个别生物的基因组特有组成也可作为判别依据,

17、如脊椎动物基因组许多基因的上游都有CpG岛。,1.2 mRNA的5端即转录起始位点区 通过同源性比较来预测mRNA的5端,最常用的与转录起始位点相关的数据库是真核启动子数据库。 The TRADAT Project , Eukaryotic Promoter Database, EPD. ( http:/www.epd.unil.ch/ ),1.3 同源查询途径 通过已存入数据库中的基因顺序与待查的基因组序列进行比较,从中查找可与之匹配的碱基顺序及其比例,用于界定基因的方法称为同源查询。 同源有如下几种情况: DNA序列某些片段完全相同; 开放读码框(ORF)排列类似,如有长外显子; 开放读码

18、框翻译成氨基酸序列的相似性; 模拟多肽高级结构相似,1.4 试验分析 Northern 杂交确定DNA片段是表达序列: 注意事项: 当某一基因的转录产物进行可变剪接时,由于连接的外显子不同,会产生好几条长度不一的杂交带,如果该基因是某一基因家族的成员也会出现多个信息; 考虑组织专一性和发育阶段的问题; 基因表达产物丰度的问题 如果丰度较低,用拟Northern 杂交和动物杂交(Zoo-blotting)分析; 拟Northern 杂交 根据已知的DNA顺序设计引物,从mRNA群体中扩增基因产物,再以DNA为探针与之杂交。,2 获取基因全长cDNA序列,构建cDNA文库,用目的基因DNA片段筛选文库。 根据已知片段设计引物,RACE 技术得到基因的全长cDNA序列。,3.确定DNA顺序中基因的位置,通过对全长cDNA序列的测序、对比,以及与基因组DNA的比较,确定基因所在的区域; 通过物种已建立遗传图和物理图来确定基因的位置;,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论