基因组序列诠释辽宁师范大学PPT课件.ppt_第1页
基因组序列诠释辽宁师范大学PPT课件.ppt_第2页
基因组序列诠释辽宁师范大学PPT课件.ppt_第3页
基因组序列诠释辽宁师范大学PPT课件.ppt_第4页
基因组序列诠释辽宁师范大学PPT课件.ppt_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第5章基因组序列诠释 完成基因组测序仅仅是基因组计划的第一步 更大的挑战在于弄清 基因组顺序中所包含的全部遗传信息是什么 基因组作为一个整体如何行使其功能 这两项任务都必须依赖于对基因组顺序的正确注解或诠释 annotation 首先是从已知顺序中搜寻基因 1 5 1搜寻基因 一旦获取基因组的DNA顺序后 不管它是来自某一区段还是一整条染色体 第一个任务就是从中查找基因 这是解读整个基因组的基础 查找基因有两种常见的方法 根据已知的顺序人工判读或计算机分析寻找与基因有关的序列 进行实验研究 看其能否表达基因产物及其对表型的影响 2 5 1 1根据顺序分析搜寻基因 如果一段DNA顺序中含有编码基因 那么这段顺序的碱基序列就不会是随机排列的 一定存在某些可以辨别的特征 目前还没有一个能适用于所有情况的 基因序列 的标准 只能根据已知的某些规律来推测哪些顺序可能是基因 3 开放读框 基因都含有开放读框 openreadingframes ORFs 它们由一系列指令氨基酸的密码子 codons 组成 开放读框有一个起点 又称起译密码 initiationcodon ATG 还有一个终点 又称终止密码 terminationcodon TAA TAG和TGA 从DNA顺序中搜寻基因总是从第一个ATG开始 然后向下游寻找终止密码 在开始这项工作之前 我们并不知道DNA双链中哪一条单链是编码链 或称正 链 也不知道准确的转译起始点在何处 由于每条链都有三种可能的读框 两条链共计6种读框 计算机可以很快给出结果 ORF扫描的关键是终止密码在6种读框中出现的频率 如果DNA的碱基排列是随机的 并且GC含量为50 则三个终止密码子 TAA TAG和TGA出现的平均机率为每43 64bp一次 假如GC比大于50 因终止密码中AT比例高 则每隔100 200bp才会出现一个终止密码 随机碱基排列的ORF长度预计不超过50个密码子 即150bp 以ATG起始计算长度更短 大多数基因的ORF均多于50个密码子 因此最可能的选择应该是ORF不少于100个密码子的读框 4 细菌基因组中缺少内含子 非编码序列仅占11 对读框的排查干扰较少 假定基因之间不存在重叠顺序 也无基因内基因 gene within gene 那么ORF阅读出现差错的最大可能性只会发生在非编码区 细菌基因组的ORF阅读相对比较简单 错误的机率较少 高等真核生物DNA的ORF阅读比较复杂 其原因在于 基因间存在大量非编码序列 人类基因组中占70 绝大多数基因含有非编码的内含子 高等真核生物多数外显子的长度少于100个密码子 有些不到50个密码子甚至更少 因此当读码进入内含子时很快遇上终止密码 难以根据上述的ORF长度来判断哪种读框是正确的 5 内含子的出现给计算机判读基因带来不少问题 在编写ORF扫描程序时要作许多修改 必须加入一些相应的规则 密码子偏爱生物具有通用的64种密码子 其中三种为终止密码子 其余61种密码子编码20种氨基酸 除甲硫氨酸 Met 和色氨酸 Trp 各有1个密码子外 其他氨基酸都拥有多个密码子 编码同一氨基酸的不同密码子称为同义密码 synonym 其差别仅在密码子的第三位碱基不同 不同种属之间使用同义密码的频率有很大差异 如人类基因中 丙氨酸 Ale 密码子多为GCA GCC或GCT 而GCG很少使用 苏氨酸 Thr 常用的密码子为ACA ACC或ACT 很少用ACG 高等植物207个基因的编码顺序 其中单子叶植物基因53个 双子叶植物基因154个 分属6个单子叶和35个双子叶种群 单子叶与双子叶主群密码子 majoritycodon 中第三个摇摆碱基的成员比例明显不同 单子叶18种氨基酸中有16种氨基酸的密码子摇摆碱基为G C 而双子叶中仅有7种氨基酸的密码子摇摆碱基为G C 或者说双子叶密码子摇摆碱基大多为A T 这一现象称为密码子偏爱 codonbias 其产生的原因不明 特定种属有特征性的密码子偏爱 这些序列在编码区常常出现 非编码区只保持平均的碱基分布水平 根据已有生物密码子偏爱的资科在编写相应的计算机程序时可加入这些限制 6 外显子 内含子边界 exon intronboundaries 外显子与内含子的边界区有一些明显的特征 如内含子的5 端或称供体位 donorsite 常见的顺序为5 AG GTAAGT 3 3 端又称受体位 acceptorsite 多为5 PyPyPyPyPyPyCAG 3 Py 为嘧啶核苷酸 T或C 这是判断编码顺序的依据之一 由于外显子 内含子边界顺序常有例外 编写通用的判读程序时有不少困难 上述规律仅适用一定范围 上游控制顺序 upstreamcontrolsequence 几乎所有的基因 或操纵子 上游都有调控序列 它们可与DNA结合蛋白作用控制基因表达 调控顺序有明显特点 在查找基因时可作为参考 特别是原核生物 真核生物基因上游的控制顺序变化较大 以此作为标志判别基因时应当谨慎 上述这三种ORF扫描的方法适合所有高等真核生物基因组 可综合运用 还有一种针对个别生物的策略 主要依据这些生物基因组特有的组成 例如脊椎动物基因组许多基因的上游都有CpG岛 islands CpG岛的长度约1kb 其CG比例显著高于基因组平均水平 约56 的人类基因与上游的CpG岛相连 在基因组顺序扫描时 如发现CpG岛有可能在其下游找到基因 7 同源查询 利用已存入数据库中的基因顺序与待查的基因组序列进行比较 从中查找可与之匹配的碱基顺序及其比例用于界定基因的方法称为同源查询 homologysearch 它可弥补ORF扫描的不足 同源查询的依据是 现有生物的不同种属之间具有功能或结构相似的直系基因成员 它们在起源上一脉相承 其间存在保守的顺序组成 同一物种中因基因重复产生的基因家族也有保守的序列特征 当某一DNA顺序含有这类基因时 通过与已报道的其他基因序列对比 可发现其中的相似性 这些相似性有以下表现 存在某些完全相同的序列 ORF读框的排列类似 如等长的外显子 ORF指令的氨基酸顺序相同 模拟的多肽高级结构相似 以上这些结果均可作为基因界定的指标 它们可单独使用 亦可综合考察 同源查询还可提供基因功能的参考 目前这一技术已成为界定基因的主要工具之一 当某一顺序从数据库中无法找到同源序列 又无法排除其不是基因的可能性时 必须依靠实验来进一步确认 在基因分类时这些缺少同源顺序的ORF被称为孤独基因 orphangene 8 5 1 2实验分析确认基因 任何基因都可转录为RNA拷贝 这是实验确证基因的依据 真核生物中许多编码蛋白质的基因其转录的初级产物都有内含子 加工后成为mRNA 根据mRNA的顺序可以找到外显子的位置以及整个基因的组成 由于mRNA的5 端及3 端各有一段非翻译区 基因的转录起点与终点有时并不准确 但不妨碍整个基因的界定 9 分子杂交可确定DNA片段是否含表达顺序 进行分子杂交实验时 样品中纯化的RNA经电泳分离 然后转移到杂交膜上 这一过程称为northern印迹 northernblotting 将待测DNA样品标记后与RNA杂交 如果RNA中含有DNA的转录产物 会给出明显的信号 northern印迹分析要注意以下三方面 当某一基因的转录产物进行可变剪接时 由于连接的外显子不同 会产生好几条长度不一的杂交带 此外 如果该基因是某一多基因家族的成员 也会出现多个信号 这两种现象要设计其他实验进一步区分 基因的表达具有组织专一性及发育阶段的差别 选择的RNA样品有时不一定含有该基因的产物 因此要尽可能多地收集各种发育时期及不同组织器官RNA 以免因人为原因而遗漏 10 不同基因的表达产物丰度差异很大 对低拷贝的表达产物要适当提高RNA的上样量 有些基因表达产物丰度极低 或表达时期短暂不易提取 此时要考虑其他检测方法 例如可根据已知的DNA顺序设计引物从mRNA群体中扩增基因产物 再以DNA为探针与之杂交 这一方法称为拟northern分析 对northern杂交不易检测到的基因可考虑采用另一种途径验证 一些亲缘关系相近的物种 其基因的编码区相似性较高 而非编码区的同源性很低 如果某一物种的DNA顺序与来自另一亲缘种的DNA片段杂交产生阳性信号 该区段可能含有一个或多个基因 这种方法又称为动物园杂交 zoo blotting 11 DNA顺序中基因位置的确定 northern分析和动物园杂交可判断某一DNA区段是否含有基因 但不能给出基因在DNA顺序中的确切位置 cDNA的测序可以解决这一问题 将cDNA与基因组的DNA比较 即可确定基因所在的区域并找到外显子 内含子的边界 两种因素会干扰用cDNA筛选基因的工作 12 当目标cDNA克隆在cDNA文库中所占比例很低时 需要化费大量时间从很大的cDNA群体中筛选阳性克隆 有两种可提高工作效率的方法 其一 将cDNA文库先分成若干亚群 对这些经 稀释 过的亚群进行初筛 由于各亚群中稀有cDNA的比例有差别 可挑选杂交信号强的亚群进一步筛选 其二 cDNA均一化 cDNAnormalization 是缩小低拷贝cDNA与高拷贝cDNA在cDNA文库中比例差异的方法 通过抑制高拷贝cDNA数量 增加低拷贝cDNA达到均一化的目的 cDNA均一化的基本原理是DNA复性动力学 DNA复性的速率取决于以下因素 即碱基组成 DNA克分子浓度和反应温度 在合适的条件下 可使大多数高拷贝cDNA复性成为双链 但仍然有少量高拷贝单链cDNA保持游离状态 而大部分低拷贝与中拷贝单链cDNA均呈游离状态 将反应液通过羟基磷灰石层析柱 双链cDNA被羟基磷灰石吸附 收集过柱的单链cDNA用于构建cDNA文库 经均一化后 高拷贝cDNA的比例可降低一个数量级 而低拷贝cDNA可提高一个数量级 13 与mRNA反转录有关 mRNA分子的5 端或其他区域有时会产生二级结构 当反转录酶以RNA为模板合成单链DNA时 如遇上RNA二级结构便会终止反应 从而产生残缺的cDNA 高温下合成cDNA的反转录酶可降低mRNA二级结构的干扰 获得全长的cDNA 另一种确保合成5 完整cDNA的方法是 根据反转录单链cDNA3 末端有一个额外的C碱基 可设计一种5 端含几个连续G的引物 将其加入反应液中 反转录酶合成的单链cDNA3 末端可与该引物互补 使cDNA3 末端延伸 收集合成的全长单链cDNA 再用设计的引物扩增单链cDNA用于全长cDNA文库的构建 14 采用RACE方法可获得丢失的cDNA末端 由于一些未知的原因 cDNA文库中有些插入子会丢失其5 或3 端顺序 可采用cDNA末端快速扩增技术 rapidamplificationofcDNAend RACE 方法寻找这些丢失的末端顺序 根据残缺cDNA内部顺序先合成一对引物 将mRNA环化后使其与引物复性 再经PCR扩增 扩增产物再用第二对巢式引物PCR放大 可获得mRNA5 和3 端顺序 15 5 2基因功能预测 确认DNA顺序中的基因序列后 下一个问题是探知其功能 这是基因组研究中的一个难度很大的领域 一些已完成测序的基因组顺序分析表明 我们所了解的基因组内容比真实的情况少得多 如大肠杆菌与啤酒酵母 在未开始基因组测序前已经完成了大量常规的遗传学分析 当时遗传学家认为这两种生物的大多数基因已经通过突变鉴定 但实际上还有许多空白 大肠杆菌编码蛋白质的4288个基因中 以往知道的只有1853个 仅占43 至于啤酒酵母 所知更少 仅为30 16 5 2 1计算机预测基因功能 计算机预测基因功能的依据仍然是同源性比较 同源基因都拥有一个共同的祖先基因 它们之间有许多相似的顺序 同源基因可分为两类 种间同源基因或直系基因 orthologousgene 这是指不同物种之间的同源基因 它们来自物种分隔之前的同一祖先 种内同源基因或平行基因 paralogousgene 同一种生物内部的同源基因 它们常常是多基因家族的不同成员 其共同的祖先基因可能存在于物种形成之后 也可能出现于物种形成之前 17 同源基因一般不会有完全一致的核苷酸顺序 因为这两个基因在出现后独立地发生随机突变 但它们有相似的顺序组成 大部分未突变的核苷酸位置是相同的 当一个新的基因序列被确认后 根据同源性可从数据库中查找已知顺序的同源基因 根据进化的相关性可从已知的同源基因推测新基因的功能 根据同源性预测基因时必需注意以下几点 一般认为氨基酸的一致性或相似性在25 以上可视为同源基因 同源性 homology 与相似性 similiarity 的含义不同 如氨基酸顺序有80 的相似性不能称为同源性 同源性只有 是 或 非 的差别 一致性常指同一位置同一氨基酸在整个多肽序列中所占的比例 而相似性除一致性氨基酸外还包括可取代氨基酸的成员 因此相似性氨基酸的比例总是高于一致性氨基酸 18 同源性分析可以给出整个基因或其中某一区段功能的信息 同源查询除了直接比较DNA顺序外 还可将DNA顺序翻译为氨基酸顺序 由于组成蛋白质的氨基酸有20种 而DNA核苷酸只有4种 因此氨基酸顺序的差异要比核苷酸的差异大得多 图5 1 以氨基酸顺序进行同源性比较其结果更为准确 也更加可行 已有许多软件可用于这项分析 常用的是BLAST 研究者只需将资料以正确格式的电子邮件发送到DNA资料库BLAST服务站 BLASTserver 很快就会得到回音 19 20 有时在两个无明显亲缘关系的基因之间会出现局部相似的区段 这种情况表明 两个无亲缘关系的蛋白质可能具有相似的功能 相似的顺序是功能的核心区域 虽然基因本身无共同的祖先 但其功能域却有共同的起源 它们都是古老祖先的后裔 在进化中一方面发生独立突变 另一方面又因基因组重排成为新基因的组成部分 例如信号传导蛋白 这类蛋白质一般都有两个基本的功能域 即接受信号的功能域和传达信号的激酶域 如在植物抗病基因 R 中发现的LRR NBS Kinase 激酶 和TIR等功能域在许多真核生物参与信号传导的蛋白质中均存在 尽管在不同的蛋白质中特定的功能域担负的任务不同 但它们扮演的主要角色都与信号传导有关 图5 2 21 22 5 2 2实验确认基因功能 同源性分析并非万灵药方 对许多新基因的功能分析还必需依赖其他的实验手段进行补充 并将同源性研究的结果进一步外延 如何确定一个基因的功能是基因组计划中最困难的问题之一 大多数分子生物学家认为 现有的技术与策略对于从基因组测序所获得的大量未知基因的功能研究是远远不够的 基因的功能是一个过程 是从基因到表型的一系列反应 现在的基因功能研究与传统的遗传分析的路线正好相反 前者是从表型出发最终到达基因 后者是从基因出发 直接推导表型 因此必需寻找一系列的实验方法来鉴别与目标基因相关的表型 23 基因失活是功能分析的主要手段 传统的遗传分析主要借助突变型研究表型变异的遗传基础 利用紫外线诱导及化学试剂处理可使生物群体产生突变个体 也可从自然的群体中发现突变体 经遗传分析将突变基因定位 然后观察这一突变是否与改变的表型对应 在此基础上采用分子生物学方法进一步分离与克隆目标基因 所谓定位克隆 positionalcloning 就是根据与突变位点连锁的分子标记 然后通过物理图寻找靶基因 传统遗传学分析的原理同样可用来设计从基因到表型的研究 如果我们能找到某种方法 根据待测基因的顺序使生物体内该基因失活 亦可鉴别由此产生的表型变异 24 基因敲除 geneknock out 基因敲除 基因剔除 geneknockout 将细胞基因组中某基因去除或使基因失去活性的技术 去除原核生物细胞 真核生物的生殖细胞 体细胞或干细胞基因组中的基因等 广义的基因敲除包括 某个或某些基因的完全敲除 部分敲除 基因调控序列的敲除以及成段基因组序列的敲除 指外源DNA与受体细胞基因组中序列相同或相近的基因发生同源重组 从而代替受体细胞基因组中的相同 相似的基因序列 整合入受体细胞的基因组中 基因敲除是指将目标基因从基因组中删除 比如有一段 序列 1234567890 原基因 敲除后为 1237890 一般敲除载体还会在其中插入一段外源基因 如 ABC 则新的基因为 123ABC7890 或者不插入基因直接连接 则为 1237890 25 基因敲除基本步骤 1 胚胎干细胞 ETC 的获得基因敲除一般应用于鼠 最常用的鼠的种系是129及其杂合体 因为这类小鼠具有自发突变形成畸胎瘤和畸胎肉瘤的倾向 所以是基因敲除的理想实验动物 2 基因载体的构建把目的基因和与细胞内靶基因特异片段同源的DNA分子都重组到带有标记基因 如neo基因 TK基因等 的载体上 此重组载体即为打靶载体 因基因打靶的目的不同 此载体有不同的设计方法 可分为替换性载体和插入型载体 如为了把某一外源基因引入染色体DNA的某一位点上 这种情况下应设计的插入型载体要包括外源基因 即目的基因 同源基因片段及标记基因等部分 如为了使某一基因失去其生理功能 这时所要设计的替换型打靶载体 应包括含有此靶基因的启动子及第一外显子的DNA片段及标记基因等诸成分 26 3 目的基因导入将基因打靶载体通过一定的方式 常用电穿孔法 导入同源的胚胎干细胞 EScell 中 使外源DNA与胚胎干细胞基因组中相应部分发生同源重组 将打靶载体中的DNA序列整合到内源基因组中从而得以表达 一般地 显微注射命中率较高 但技术难度较大 电穿孔命中率比显微注射低 但便于使用 4 用选择性培养基筛选已击中的细胞筛选使用正 负选择法 比如用G418筛选所有能表达neo基因的细胞 然后用Ganciclovir淘汰所有HSV TK正常表达的细胞 剩下的细胞为命中的细胞 将筛选出来的靶细胞导入鼠的囊胚中 再将此囊胚植人假孕母鼠体内 使其发育成嵌合体小鼠 5 观察生物学性状的改变通过观察嵌和体小鼠的生物学形状的变化进而了解目的基因变化前后对小鼠的生物学性状的改变 达到研究目的基因的目的 图5 3 27 28 29 基因失活的表型效应有时不易分辨 得到携带失活基因的品系与个体后 就该检测突变体表型 以便指认未知基因的具体功能 生物表型范畴很广 即使单细胞酵母 要确定一个未知基因对表型的贡献 也可列出很长的一串名单 表5 1 至于高等生物 因其某些表型 如行为 具有难以捉摸的综合性 区分其准确的功能更加棘手 如酵母3号染色体上有一个最长的基因 2167个密码子 具有典型的酵母偏爱密码子特征 是一个标准的编码基因而非含混的ORF 但该基因的失活对表型无任何影响 当时推测这类基因可能是冗余基因 或者说其蛋白质产物涉及非必需的功能 最后证实 该基因的突变体生长在低pH值并含葡萄糖和乙酸的条件下是致死的 而正常基因可耐受这一环境 由此得知 这一基因编码一个将乙酸盐泵出细胞的蛋白质 确切地说这是一个酵母细胞必需的功能基因 它在细胞受到乙酸危害时可诱导表达 但这种必需的功能从一般的表型检测很难追踪与判断 30 31 酵母中有85 的基因突变不产生致死效应 这些基因大多与新陈代谢有关 有时不同的突变会影响同一条代谢路线 但对表型影响程度很有限 Ramsdonk等 2001 设计了一种称为酵母协同反应功能分析 functionalanalysisbycoresponsesinyeast FANCY 的方法 通过同时检测几种代谢中间产物浓度的改变来判断单个基因对代谢路线的影响 有些突变可同时影响一种或几种中间产物的浓度 但对其他中间产物浓度的影响不同 因而可对突变进行代谢效应分类 32 2019 12 28 33 转座子突变库构建 根据顺序同源性寻找基因组中的编码基因尽管可以获得一些重要信息 但是仍不能确切地知道基因的具体功能 特别是一些在数据库中无法查找到匹配顺序的ORF 必需采取复杂的方法才能鉴定它们的功能 此外 在基因的表达调控中起重要作用的非编码序列目前还未发现普遍适用的组成规律 这是基因组顺序解读这面临的更大难题 现在人们已尝试在植物中利用转座子标签法 通过构建插入突变库系统地分离与克隆功能基因和调控顺序 图5 4 34 35 这一策略主要依据以下技术 1 植物细胞具有全能性 可以从体细胞再生完整植株 2 已经建立了一套成熟的转基因系统 使外源基因在转基因植株中成功表达 3 植物中有许多转座子系统 它们的转座机制已经清楚 通过转座子的随机插入可获得大量的突变型 根据插入的转座子顺序合成探针 可分离被破坏的位点 并分析它们的组成 4 转座子可以发生回复突变 从插入的座位切离 使突变系重现野生型表型 这一策略有时又称为基因标签 genetagging 目前应用最为成功的为玉米Ac Ds转座因子系统 基因标签突变库的工作原理如下 36 将Ac因子转座酶的编码基因与组成型启动子如35S构兼成嵌合基因表达载体 由于除去了转座因子两侧的反向重复顺序 转座酶的编码基因不能自我转座 这一表达载体转化细胞获得的再生植株为A 外显子捕获载体构建在转座子的边界顺序与标记基因之间插入内含子剪接受体顺序 将它们转化细胞获得再生植株B 将植株A与植株B杂交在转座酶的作用下来自植株B的转座子可以切离与转座 当它们插入到某一外显子中时 基因转录加工后有可能获得含正确读框的mRNA 根据突变表型与标记基因的共分离筛选转化无性系 通过自交可得到纯合的不含转座酶基因的插入突变系 增强子捕获载体将核心启动子TATA盒框与标记基因编码顺序连接 然后在其两侧安装转座子边界 转化细胞获得再生植株C 将植株A与植株C杂交 在转座酶作用下来自植株C的转座子可以转移到增强子下游启动标记基因表达 采取类似 的方法分离纯合的插入突变系 进一步检测增强子组织特异性表达场所 37 上述方法用于拟南芥的基因打靶 genetargeting 取得了很好的效果 并已应用于水稻 玉米等作物的功能基因分离 但它们也有两点不利之处 插入突变往往是隐性的 必须建立自交的F2代群体才能找到突变株系 植物基因组有大量的冗余基因 它们可取代突变基因的功能 很多突变的效果不易鉴定 已有一种改进的方法 即采用功能增益突变路线 基因的过量表达对同一表型也会产生影响 而且常常表现为显性 将某个强启动子 或增强子 插入转座子边界内部 当它们转移到某一基因附近时 可促使基因异常表达 当代即可观测到突变 也没有冗余基因干扰问题 38 内含子归巢突变 原核生物与真核生物有两种分布非常广泛的内含子 即 群内含子 group intron 和 群内含子 group intron 它们能自我催化切除内部的内含子 群内含子有一个开放读框 编码一个多功能的蛋白质 intron encodedprotein IEP 兼有内切核酸酶 逆转录酶及成熟酶的活性 当内含子 与相连的外显子一道转录时 成熟酶可将其从前体mRNA中剪切下来 IEP可促使 群RNA形成能自我剪接的空间构型 而内切核酸酶和逆转录酶活性可将从前体mRNA切离的内含子RNA通过类似逆转录转座子整合的方式插入到基因组另一靶位 这一过程又称为内含子归巢 39 利用内含子归巢的特性 将它们插入到大肠杆菌质粒载体中 另外再将人类HIV病毒和CCR5基因靶位DNA构建到另一载体中 当这两类载体在大肠杆菌或人类体外培养细胞中相遇时 内含子RNA可以逆剪接方式插入到HIV和CCR5DNA靶位中 而且表现为某种随机性 当内含子反向插入基因内部时 由于不表达IEP 成为永久性整合 当内含子插入方向与IEP转录方向一致时 内含子可以继续转移破坏其他位点 这一系统可望用于缺少同源重组系统生物的功能基组研究 40 基因的超表达用于功能检测 基因功能的检测除了使其失活 lossoffunction 观察表型变异外 另一种方法则是让其过量表达 即功能增益 gainoffunction 因为正常情况下基因产物的数量是限定的 必须与其他产物达到平衡 基因产物的不足与过量都会破坏这种平衡 并表现生长与发育的异常 41 有两种技术可使细胞中某一基因过量表达 增加基因的拷贝数 multicopy 和采用强启动子促使基因超表达 Simonet等以老鼠为实验对象 挑选了一些有兴趣的EScell 并找到其全长cDNA 这些基因编码的蛋白质均分泌到血液中 图5 5 表达载体含有肝组织专一性强启动子及上述基因 获得转基因老鼠 transgenicmouse 后 根据所用的基因制备探针追踪表型 实验揭示 转基因老鼠的骨骼质地密度要比正常鼠高得多 研究结果提供了两点重要启示 一是待测基因的功能显然同骨骼合成有关 其次控制骨骼密度基因的发现可用来治疗人类骨骼疏松症 osteoporosis 这是一种脆性骨骼病 fragile bonedisease 42 43 反义RNA 这是与基因功能增益相反的一种策略 它可干扰正常基因的表达使表型产生变异 反义RNA antisenseRNA 最初是在原核生物中发现的 通过与复制起始点的互作控制细菌中非兼容性质粒的复制 现已证实真核生物细胞也有反义RNA的存在 反义RNA中基因的负链编码 可与正义RNA senseRNA 或DNA编码顺序结合 干扰mRNA的转录 加工和转运 调控基因的表达 有三种类型的反义RNA 其作用机制略有不同 44 型反义RNA主要干扰翻译的起始与延伸 可与翻译起始顺序及编码序列结合形成双链RNA 随之被细胞降解 型反义RNA与mRNA的引导顺序结合 阻止核糖体的附着使翻译无法启动 型反义RNA的作用类似衰减调控 当它与mRNA形成双链分子后使RNA多聚酶脱离模板终止转录 为了研究未知基因的功能 可将基因的编码顺序反向插入表达载体 然后转化目标生物 获得转基因个体或品系后 进一步分析表达的反义RNA在生理生化或形态发生中所起的作用 由此判别未知基因的功能 45 5 2 3其他的基因功能研究方法 基因失活与过量表达是研究基因功能的基本方法 但并非只有这两种技术才能提供基因功能的信息 还有其他一些方法可将基因失活及过量表达所获知的结果进一步延伸与深化 对蛋白质活性进行综合研究 有许多蛋白质必须与其他蛋白质互作才能表现其功能 如果已经鉴定了这类蛋白质的某些成员 则可采用特别的分子生物学方法来分离与其互作的其他蛋白质 假如某一未知蛋白与已知的膜信号传导蛋白互作 则未知蛋白的功能也必定涉及信号传导 有两种常用的方法适于这方面的研究 噬菌体外显 phagedisplay 酵母双杂交 yeasttwohybridsystem 46 噬菌体外显 该实验要求一种特别的载体 它们来自M13这样的杆状噬菌体 检测的基因与噬菌体外壳蛋白基因融合 表达后可产生融合外壳蛋白 当噬菌体遇到可与融合外壳蛋白互作的蛋白质时会发生聚合 获得 外显 displayed 噬菌体后 可纯化融合蛋白用于其他的组合测试 更有效的方法是构建一个 外显 噬菌体文库 这样可同时检测大量的基因表达产物 47 噬菌体外显操作程序 用于噬菌体外显 phagedisplay 的克隆载体是噬菌体基因组 在编码外壳蛋白基因的内部有一限制性酶切位点 可插入外源DNA 最初采用的是f1杆状噬菌体 现在已扩大到包括 噬菌体在内的不同噬菌体 将编码待测蛋白质的DNA顺序插入到外壳蛋白基因内部 保持原有读框顺序 由此可产生一个融合蛋白 被重组噬菌体感染的大肠杆菌在大量繁殖噬菌体颗粒后 在外壳蛋白中含有一段外源的多肽 将许多不同的DNA顺序插入到外壳蛋白基因内部的克隆位点可构建噬菌体外显库 转化受体细胞后 细菌可涂抹在固体培养基中 由此产生噬菌斑 噬菌斑可转移到硝酸纤维薄膜上 再与其他检测蛋白质温浴 如果检测蛋白质可与外显噬菌体互作 说明这两种蛋白质可以结合 48 酵母双杂交 工作原理涉及转录因子与启动子之间的互作 转录因子的蛋白必须同基因上游的区段结合 然后激活RNA多聚酶将基因拷贝成RNA 转录因子有两个重要的功能区域 一个与DNA结合 另一个同RNA多聚酶激活有关 在酵母双杂交系统中 编码这两个功能域的DNA片段是分开的 分别构建到两个独立的表达载体 在其中一个表达载体中 与DNA结合的功能域的基因片段常与待研究的已知的蛋白质连接成融合基因 另一个表达载体中 激活的功能域与许多未知的cDNA连接 也将表达为融合蛋白 这两个表达载体在同一个细胞中相遇时 如果与DNA结合区融合的蛋白质同激活区融合的蛋白质之间存在互作关系 便会形成聚合物 可启动报告基因的表达 图5 6 49 50 开放读框顺序标签 开放读框顺序标签 openreadingframesequencetags OST 已经完成基因组测序的多细胞生物在基因注解时遇到的最大困难是 如何鉴别外显子以及可变剪接的类型 线虫中预测的基因数18959个 检测到EST的基因为9356个 另外已知的完成测序的基因为784个 其中有637个与EST重叠 147个未发现EST 因此可由实验确定的基因数为9503个 尚有9888个预测的基因未经验证 Reboul等为了检测根据EST和外显子 内含子规律注解的基因是否真实 设计了一个称为开放读框顺序标签的程序 OST 检测基因产物 挑选1222个未经验证的和376个已知有EST的预测基因按照外显子设计双向引物 从线虫高质量cDNA文库中检测PCR产物 结果证实大多数的预测基因是正确的 也有未能检测到的基因 从这一实验的阳性与阴性结果推算线虫的总基因数应为17387个 比原预测数少8 将PCR产物进行测序 有12 的基因mRNA剪接方式与预期的不符 51 5 3从基因组到细胞 即使每个基因都已鉴别 每项功能亦已确定 还有许多问题仍需解答 其中最重要也是最困难的任务在于了解基因组作为一个整体如何工作 如何指令与协调细胞中各种不同的生化活性 描述与阐明基因组的生物学将要花费研究者未来数十年的时间 目前人们已试图着手探明基因在不同组织中表达的模式 哪些基因打开 哪些基因关闭 以及不同发育阶段基因表达的状态 特别是有关人类疾病基因的调控方式 52 5 3 1转录物组 基因表达的第一步 将DNA转录为RNA拷贝 因此鉴别某一细胞或组织中特定基因的转录物是最直接的确定基因是否表达的方法 通常采用的是分子杂交 将基因的DNA片段转移到杂交膜上 然后从需要研究的组织或器官中分离mRNA 反转录为cDNA后再进行标记与基因片段杂交 从杂交信号判断表达的基因成员及其转录物的丰度 53 DNA芯片分析 确定单个基因的表达与否是一项并不困难的实验 但要分析细胞中整个转录物的组成 transcriptome 转录物组 及其表达状况 情况就要复杂得多 目前采用较多的技术为DNA芯片 DNAchips 或微阵 microassay 检测 设计DNA芯片的目的是提高杂交分析的效率 使成千上万个样品可同时平行进行杂交实验 DNA芯片在筛选SNP和比较不同细胞RNA群体的研究中应用十分广泛 在DNA测序方面也有潜在的价值 54 一块DNA芯片可同时与大量DNA探针杂交 每个探针都有不同的顺序 位于芯片上的确定位置 用于杂交的探针可以是合成的寡聚核甘酸 也可以是cDNA 最早的技术比较粗糙 只是将寡聚核苷酸或cDNA点播在一块显微镜盖玻片或一小块尼龙杂交膜上形成一个排列微阵 用这一技术只能达到较低的样品密度 一个18mm 18mm面积微阵排列可包含6400个样品 在经过一番技术改良之后 使点播的样品数达到更高的密度 这一方法是在芯片表面原位直接合成寡聚核苷酸 合成的顺序由每次加入反应的dNTP底物决定 根据设置的程序在芯片的每个点上加入预先的经光激活的dNTP 依次完成特定的反应 由于每步反应中芯片样品的位置及加入的dNTP都是已知的 因而整个芯片所有寡聚核苷酸顺序都有可知的序列 55 上述方法制备的芯片其密度可达一百万个 cm2寡聚核苷酸 如用这种芯片筛选SNP 假定设计的寡聚核苷酸每个SNP都有两个等位形式 一次实验即可找到50万个多态性位点 DNA芯片的操作并不复杂 将DNA芯片与标记的靶DNA杂交 然后扫描芯片表面 凡是可与靶DNA杂交的位置都会出现杂交信号 找到杂交位置即可知道所含的顺序 同位素标记只可用于低密度微点阵杂交 可通过电子磷显像 phosphorimaging 进行检测 高密度芯片必须采用荧光标记 使用激光扫描或荧光共聚焦显微镜寻找杂交信号 56 采用微阵杂交技术分析老鼠DNA甲基化酶基因缺陷型成纤维细胞中13000个基因的差别表达时发现 其中有10 的基因出现上调 包括许多与细胞周期调控有关的基因 由于一次实验可同时检测成千上万个基因的表达谱 可提供大量有关基因相互作用的信息 利用DNA芯片杂交分析高等动物基因表达谱时有一点必须注意 由于大量基因都含有可变剪接的产物 不同的mRNA中可能含有共同的外显子 因此制备的DNA芯片样品最好采用单个的外显子而非全长的cDNA 这

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论