基因组测序与序列组装.ppt_第1页
基因组测序与序列组装.ppt_第2页
基因组测序与序列组装.ppt_第3页
基因组测序与序列组装.ppt_第4页
基因组测序与序列组装.ppt_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一讲 基因组测序与序列组装 任科教师: 余爱丽 生命科学院 分子生物 学与生物信息学系 主要内容: n什么是基因组 n什么是基因 nDNA测序的方法 nDNA序列的组装 n人类基因组计划 n水稻基因组计划 n后基因组学 1. 什么是基因组 基因组就是一个物种 中所有基因的整体组 成。 基因组有两层意义: 遗传物质和遗传信息 。 要揭开生命的奥 秘,就需要从整体水 平研究基因的存在、 基因的结构与功能、 基因之间的相互关系 。 Zea mays 8,000 Homo sapiens 3,000 Oryza sativa 400 Drosophila melanogaster 165 Arabidopsis thaliana 100 Saccharomyces cerevisiae 12 E.coli 4.6 Genome Size (Mb) 什么是C 值? 通常是指一种生物通常是指一种生物单倍体基因组单倍体基因组DNADNA的的 总量总量. . 在真核生物中,在真核生物中,C C值一般随着生物的进化而值一般随着生物的进化而 增加,高等生物增加,高等生物C C值一般大于低等生物。值一般大于低等生物。 C值悖理: 生物的复杂性与基因组的大小并不完全成比 例增加 细菌 真菌 等 动物 阴影部分为一个门内C-值的范围 重复顺序 高度重复顺序: 长度:几个几千个bp 拷贝数:几百个上百万个 首尾相连,串联排列 集中分布于染色体的特定区段(如端粒,着丝粒等) 也称卫星DNA 中度重复顺序: 一般分散于整个基因组中; 长度和拷贝数差别很大 单一顺序: 基因主要位于单一顺序 动物中单一顺序约占50 植物中单一顺序约占20 DNA 的复性 遵循二级反应动力学,可表述为 : dCt / dt = -KC02 反应达 t 时,单链DNA浓度 = Ct C0 = 单链 DNA起始浓度 K 复性速度常数 顺序复杂性 Cot(1/2) = 1/K (mol. Sec / L) 常数 Ct/C0 0 1 0 1 C0t(1/2) C0t(1/2) C0t(1/2)值与基因组复杂性成正比。 是遗传信息的物理和功能单位,包含产生 一条多肽链或功能RNA所必需的全部核苷酸 序列。 基因分类: 编码RNA的基因,如rRNA基因,snRNA 基因等; 编码蛋白质的基因 2. 什么是基因? 基因的不连续性 Intron 和Exon: 大多数真核生物蛋 白质基因的编码顺 序(Exon)都被或长 或短的非编码顺序 (Intron)隔开 基因家族 一群具有一致的或相似顺序的基因,有的还担负 类似的生物学功能, 可以相互补偿, 比如:E2f transcription factor Mouse symbolHuman Ortholog E2f1E2F1 E2f2E2F2 E2f3E2F3 E2f4E2F4 E2f5E2F5 E2f6E2F6 假基因(Pseudogene) 来源于功能基因 但已失去活性 的DNA序列 产生假基因的原因有: 1. 由重复产生的假基因; 2. 加工的假基因, 由RNA反转录为cDNA 后再整合 到基因组中; 3. 残缺的基因(Truncated gene) 重叠基因重叠基因: : 同一段同一段DNA DNA 能携带两种不同蛋白的信息能携带两种不同蛋白的信息. . 重迭基因有以下几种情况: *一个基因完全在另一个基因内部 *部分重叠 * 两个基因共用少数碱基对 *一个基因完全在另一个 基因内部 如:B和A, E和D 其读码结构互不相同 -ATG-/-AATGCC -/-ATAACG-/-TAA- A* B ATGCCN-NNATAA *部分重叠 如: K和C *两个基因共用少数 碱基对 如: D和J -TAATG- D 终止密码子 J 起始密码子 3. DNA测序的方 法 n链终止法测序 n化学降解法测序 n自动化测序 n非常规DNA测序 3.1 链终止法测序(the chain termination method) 基本原理: 通过合成与单链DNA互补的多核苷酸链, 由于合成的互补链可在不同位置随机终止反 应,产生只差一个核苷酸的DNA分子,从而 来读取待测DNA分子的顺序。 技术路线与要求 制备单链模板 将单链 模板与一小段引物退火 加入DNA多聚酶 4种脱氧核苷酸 分别加入少量4种双脱氧核苷酸 将4种反应产 物分别在4条泳道电泳 根据4个碱基在4条泳道的终止位置读出基因序列 A 克隆于质粒中DNA用碱或热变性 B M13克隆单链DNA C 噬粒克隆DNA D PCR产生单链DNA A 高酶活性 B 无53外切酶活性 C 无35外切酶活性 ddATP/ddCTP/ddGTP/ ddTTP 的3碳原子连接 的是氢原子,不是羟基 3.2 化学降解法测序 n基本原理: 在选定的核苷酸碱基中引入化学集 团,再用化合物处理,使DNA分子在被修 饰的位置降解. 技术路线 将双链DNA样品变为单链 每个单链的同一方向末端都用放射性同位素 标记,以便显示DNA条带 分别用不同方法处理,获得只差一个核苷酸的 降解DNA群体 电泳,读取DNA的核苷酸顺序 Maxam-Gilbert 法所用的化学技术 碱基特异修饰方法 GPh8.0,用硫酸二甲酯对 N7进行甲基化,使 C8-C9键对碱基裂解有特殊敏感性 A+GpH2.0 哌啶甲酸可使嘌呤环的N原子化,从 而导致脱嘌呤,并因此消弱腺嘌呤和鸟嘌呤 的糖苷键 C+T肼可打开嘧啶环 ,后者重新环化成五元环 后易除去 C1.5mol/L NaCl存在时,可用肼除去胞嘧啶 化学法测序实例 哌啶 3.3 自动化测序 n基本原理 与链终止法测序原理相同,只是用不同 的荧光色彩标记ddNTP,如ddATP标记红 色荧光,ddCTP标记蓝色荧光, ddGTP标 记黄色荧光, ddTTP标记绿色荧光.由于 每种ddNTP带有各自特定的荧光颜色,而 简化为由1个泳道同时判读4种碱基. 3.4 非常规测序 n 毛细管电泳 用毛细管电泳取代聚丙烯凝胶平板电泳,节省时 间,加快测序进程,其他程序同链终止法或化学测序法. n 光点测序 脱氧三磷酸核苷酸连接到DNA 3-末端时会释放1 个焦磷酸(PPi) ,焦磷酸在磷酸化酶的作用下转化为化 学能,并发出光亮.由此,往反应液中每次只加入1种核 苷酸,当加入的核苷酸结合时,反应液发出亮点,并记录 核苷酸种类;当核苷酸未结合时,反应液中的核苷酸酶 迅速分解此核苷酸,由此来测定DNA序列. nDNA芯片测序 基本原理 将各种排列顺序的寡核苷酸点播在芯片上, 每个点 播的寡核苷酸在排列的方阵中都有指定的位置.待检测 的DNA分子与芯片温浴,凡是能杂交的寡核苷酸都会在 确定位置发出信号,然后根据获取的信息将寡核苷酸的 顺序进行对比组装,拼接成完全的DNA顺序. 利用基因芯片进行杂交测序的原理 4 序列的组装 4.1 随机测序与序列组装 随机测序也称”鸟枪法”. 序列组装原理:直接从已测序的小片段中寻找彼 此重叠的测序克隆,然后依次向两侧邻接的序列延伸. 优点:不需预先了解任何基因组的情况. ABC ABC ABC ABC 小片段测序 计算机拼装 ABC 小片段测序 计算机拼装 鸟枪法(Shotgun)测序的问题 CAATGCATTA GCAGCCAATGC GAP 错装 实例:流感嗜血杆菌基因组的测序及 顺序组装 超声波打断纯化的基因组DNA 琼脂糖电泳收集1.62.0Kb的区段、纯化 构建到质粒载体中 随机挑选19687个克隆,进行28643次测序,得到可读顺序 为11 631 485 bp 组装成140个覆盖全基因组范围的独立的顺序重叠群, 各重叠群间仍有间隙 顺序间隙 物理间隙 载体或宿主菌载体或宿主菌 选用不当而被丢失选用不当而被丢失 的顺序的顺序 测序时遗漏的测序测序时遗漏的测序 解决办法:通过相邻已知 顺序作为探针筛选已有 的基因组文库 解决办法:利用其它宿主菌与 载体重新构建文库 4.2 限制测序 n 限制测序:是指将一段染色体区段的DNA 顺 序进行组装. 一些已绘制了遗传图与物理图的微生物基 因组测序中也采用这一方法. 如高等植物拟南芥基因组的测序完全依据 克隆重叠群,先进行各个BAC克隆的随机测序, 再进行序列组装; 水稻基因组测序计划采取得策略与此相同 . 4.3 指导测序与序列组装 建立在基因组图谱基础上的”鸟枪法”,即所谓”指导 鸟枪法”或”指导测序”。 在人类基因组进入测序组装阶段就采用此方法, 其基本步骤如下: A 构建平均为2Kb的人类基因组质粒文库,进行双向 测序; B 构建平均10Kb的人类基因组质粒文库,进行双向测 序,读取2个端部顺序; C 参考人类基因组图,特别是大量的STS位标作为基点 ,进行序列组装,排成重叠克隆群. 先将染色体打成比较大的片段(几十-几百Kb), 利用 分子标记将这些大片段排成重叠的克隆群(Contig), 分别 测序后拼装. 这种策略叫基于克隆群(contig-based)的策 略. ABC ABC 大片段contig 小片段测序拼装 两种策略的比较 鸟枪法策略 指导测序策略 不需背景信息 构建克隆群 (遗传、物理图谱) 时间短 需要几年的时间 需要大型计算机 得到的是草图(Draft) 得到精细图谱 4.5 其他测序路线 n重要区域优先测序 人们对感兴趣的基因或与疾病相关 的基因优先测序. 如:人类主要组织相容性复合区位于第6 号染色体,与人类免疫系统有关,因而 优先测序. nEST (Expressed sequence tag) 测序 EST是一种重要的基因组图分子标记,以EST为探 针很容易从 cDNA文库中筛选全基因,又可从BAC克隆 中找到其基因组的基因序列. 优点: A mRNA 可直接反转录成cDNA,而且cDNA文库也比 较容易构建; B 对cDNA文库大量测序,即可获得大量EST的序列; C EST为基因的编码区,不包括内含子和基因间区域, 一次测序的结果足以鉴定所代表的基因; 5.人类基因组计划 人类基因组计划 (Human genome project)于1990年 启动,我国于1999 年加入该计划,承 担其中1%的任务, 即人类3号染色体短 臂上约30Mb的测序 任务。 5.1 人类基因组计划的目的 n阐明人类基因组30亿个碱 基对的序列,发现所有人 类基因,并搞清其在染色 体上的位置; n破译人类全部遗传信息, 使人类第一次在分子水平 上全面地认识自我; n解码生命、了解生命的起 源、了解生命体生长发育 的规律; n认识种属之间和个体之间 存在差异的起因、认识疾 病产生的机制以及长寿与 衰老等生命现象、为疾病 的诊治提供科学依据。 5.2 人类基因组草图的完成 2000年6月26日是人 类历史上值得纪念的 一天。人类基因组的 工作草图已经绘制完 毕并于这天向全世界 公布。最终完成图要 求测序所用的克隆能 忠实地代表常染色体 的基因组结构,序列 错误率低于万分之一 。 A. Celera Genomics 人类基因组的测序 策略 5.5.3 3 人类基因组测序策略人类基因组测序策略 采集采集5 5个自愿者的个自愿者的DNADNA样品样品 构建构建3 3种不同插入子大小的基种不同插入子大小的基 因组文库因组文库2Kb, 10Kb2Kb, 10Kb和和50Kb50Kb 完成约完成约27002700万次万次 插入子末端测序插入子末端测序, , 总长总长14800Mb14800Mb GeneBankGeneBank下下 载载104018104018个个 BACBAC末端顺序末端顺序 PFPPFP发表的公开发表的公开 数据主要为数据主要为BACBAC 克隆的顺序克隆的顺序, ,共共 4443.3Mb4443.3Mb 随机测序与序列组装方法和 指导测序与序列组装方法 相结合进行序列组装 B 国际人类基因组测序策略 构建BAC克隆 限制性酶处理获得指纹 根据指纹重叠方法组建BAC克隆重叠群 根据STS标记,将BAC克隆重叠群标定在物理图上 每个BAC克隆内部采用鸟枪法测序,组装 将BAC插入顺序与BAC克隆指纹极重叠群对比,将已阅读的 顺序锚定到物理图上 5.4 人类基因组测序结果 基因数是3万、4万还是10万 人类遗传基因数量比原先估 计的少很多。目前研究表明, 人类基因组中约有3万至4万个 蛋白编码基因,仅仅是果蝇基 因数目的两倍,人有而鼠没有 的基因只有300个。此结论是 由两大科研小组的数据是从 DNA水平上得出的;而“人类有 10万多个基因”则是从RNA水平 上得出的结论。所以,这些数 据不能推翻“人类有10万个基 因”的说法。 人类基因组研究的惊人发现 19号染色体是含基因最丰富的染色 体,而13号染色体含基因量最少 目前已经发现和定位了26000多个功 能基因,其中尚有42%的基因尚不知 道功能 人类基因组中存在“热点”和大片“荒 漠”。在染色体上有基因成簇密集分 布的区域,也有大片的区域只有“无 用DNA” 不包含或含有极少基因 的成分。基因组上大约有14的区域 没有基因的片段。 353的基因包含重复的序列。 这说明那些原来被认为是“垃圾”的 DNA也起重要作用,应该被进一步研 究。 什么是单核苷酸多态性 人类999的基因密码 是相同的,而差异不到0 1,不同人群仅有140 万个核苷酸差异。这些差 异是由“单一核苷酸多样性 ”(SNP)产生的,它构成 了不同个体的遗传基础, 个体的多样性被认为是产 生遗传疾病的原因。在整 个基因组序列中,人与人 之间的变异仅为万分之一 ,从而说明人类不同“种属 ”之间并没有本质上的区别 。 5.5 人类基因组计划的意义 随着人类基因组逐渐 被破译,一张生命之图将 被绘就,人们的生活也将 发生巨大变化。人类基因 研究的意义在于它可以支 持和推动生命科学中一系 列重要的基础性研究。如 基因组遗传语言的破译, 基因的结构与功能关系, 生命的起源和进化,细胞 发育、生产、分化的分子 机理,疾病发生的机理等 。 5.6 人类基因组计划的论理学 A A 个人个人DNADNA顺序的隐私权顺序的隐私权. . 如如:” :”次等次等” ”基因携带者可能受到岐基因携带者可能受到岐 视视, ,职业职业 限制限制, ,医疗保险等问题医疗保险等问题; ; B B 基因专利问题基因专利问题 6. 后人类基因组计划 伴随着人类基因组计划的 迅速进展,基因的全序列逐步 被完整的测出,会出现大量的 不知道任何功能信息的序列。 因此,在HGP完成之后,即全 部人类基因被定序之后,还需 要: n破解贮存于基因组之中的遗传 语言; n识别、分离、鉴定和克隆所有 基因; n搞清每个基因的功能及基因之 间的相互作用和相互关系。 7 水稻的基因组 2002年我国科学家 完成了水稻基因组定序 和初步分析。出人意表 的是,水稻的基因竟比 人类基因还要多得多。 人类基因大约有3-4万个 ,水稻有46022-55615 个基因。因此水稻基因 组可说是继人类基因组 之后,完成定序的最大 基因组,也是至今已知 最大的植物基因组。由 于水稻是全球半数以上 人口的主食,对解决全 球粮食问题具有重要意 义。 本章要点 n链终止法测序 n人类基因组计划 n了解其他基因测序方法和基因拼接方法 本章内容结束谢谢本章内容结束谢谢! ! 第二讲 基因组序列诠释 问题 n基因组序列所包含的全部遗传信息是什 么? n基因组作为一个整体如何行使其功能? n用什么方法寻找基因,研究基因地功能 呢? 主要内容: n寻找基因 n获取基因的全长cDNA序列 n确定DNA顺序中基因的位置 n研究基因的功能 n基因表达 n蛋白质组学 1. 寻找基因 1.1 根据开放读码框预测基因 A 起始密码子 ATG n第一个ATG的确定则依据Kozak规则; Kozak规则是基于已知数据的统计结果, 所谓Kozak规则,即第一个ATG侧翼序列的碱 基分布所满足的统计规律. 若将第一个ATG中的碱基A,T,G分别 标为1,2,3位,则Kozak规则可描述如下: (1)第4位的偏好碱基为G; (2)ATG的5端约15bp范围的侧翼序列内不含 碱基T; (3)在-3,-6和-9位置,G是偏好碱基; (4)除-3,-6和-9位,在整个侧翼序列区,C是偏 好碱基。 n信号肽分析 信号肽分析软件(SignalP http:/www.cbs.dtu.dk/services/signalP ) 把预测过程中证实含完整mRNA 5端的Contig翻 译为蛋白序列; 然后用SignalP软件对前50个氨基酸序列(从第一个 ATG对应的甲硫氨酸Met开始)进行评估,如果 SignalP分析给出正面结果,则测试序列有可能为信 号肽; 假如在该测试序列的第一个Met 5端存在终止密 码子,该序列为信号肽的可能性更大。 B 终止密码子 终止密码子: TAA, TAG,TGA GC% = 50% 终止密码子每 64 bp出现一次 ; GC% 50% 终止密码子每100200 bp 出现一次; 由于多数基因 ORF 均多于50个密码子,因 此最可能的选择应该是 ORF 不少于100 个密 码子。 C 3端的确认 3端的确认主要根据Poly(A)尾序 列,若测试Contig不含Poly(A)序列,则根 据加尾信号序列“AATAAA”和BLAST 同源性比较结果共同判断。 D 非编码序列、内含子 高等真核生物多数外显子长度不少 于100 个密码子,有的不到50个密码子 甚至更少; E 密码子偏爱性 编码同一氨基酸的不同密码子称为同义密 码,其差别仅在密码子的第3位碱基不同。 不同种属间使用同义密码的频率有很大差 异,如人类基因中,丙氨酸(Ale)密码子多 为GCA,GCC或GCT,而GCG很少使用。 F 外显子内含子边界 外显子和内含子的边界有一些明显的特征, 如: 内含子的5端或称供体位(donor site)常 见的顺序为 5AGGTTAAGT-3; 3端又称受体位(acceptor site), 多为 5PyPyPyPyPyPyCAG-3(“Py”嘧啶核苷酸,T 或C); G 上游控制顺序 几乎所有基因(或操纵子)上游都有调控 序列,它们可与DNA结合蛋白作用,控制基 因表达。 另外个别生物的基因组特有组成也可作 为判别依据,如脊椎动物基因组许多基因的 上游都有CpG岛。 H 软件预测 采用NCBI的ORF预测软件 ( ORF finder: /gorf/orfig.cgi )判断ORF的可能范围。 1.2 mRNA的5端即转录起始位点区 通过同

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论