版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、当前生物信息学的重要研究任务陈润生(中国科学院生物物理所 近年来 , 随着人类基因组计划 (H GP 在世 界范围内的开展 , 破译人类及多种模式生物的 遗传密码已成为生物学领域的重要学科 。 同时 产生了巨量的基因组信息 。 分析这些信息是人 类基因组研究必不可少的重要内容 , 从而也促 成了生物信息学的产生与发展 。 生物信息学作 为一门新的学科领域 , 它是把基因组 DNA 序 列信息分析作为源头 , 在获得了蛋白质编码区 ,计 。 、 蛋在一起 , 它们是生物信息学的三个重要组成部 分 。 当前 , 生物信息学已在理论生物学领域占有 了核心的地位 , 并提出了大量的紧迫任务 。 1基因
2、组相关信息的收集 、 储存 、 管理与 提供到 1998年 12月 GenB ank 中收集的核酸 序列已达 3044000条 , 它们包含的碱基数目是 2162000000个 。 与此同时有二十个生物体的完 整基因组已被破译 , 约有至少 40个完整基因组 正在破译当中 。 大量基因数据的出现促进了数 据库 、 分析工具以及网络连接等的快速发展 。 111生物信息数据库建立数据库是存储基因组相关信息的重要 步骤 , 当前在互联网络上可找到与基因组信息 相关的大量重要数据库 、 服务器 。 其中 :Gen 2 B ank 、 E M BL 、 GDB 、 PDB 、 P I R 等数据库更是频
3、 繁地被用户检索 。 在基因组相关数据库的发展 中 , 以下几方面特别引起人们的重视 :a 、 建立基因组信息的评估与检测系统b 、 数据标准化c 、 进行基因组信息的可视化和专家系统 的研究d 、 发展次级与专业数据库原始数据是庞大的 。 在原始数据的基础上 , 根据不同的特征将其加工 , 而构建出若干高级 数据库 , , 更重要, , 克隆载体数据库等112以因特网 (In ternet 为基础的基因组 信息学传输网络用户与数据库间迅速 、 有效地传递信息是 基因组信息的收集 、 管理与使用的另一要素 。 目 前与基因组信息相关的数据库都有了自己的 In ternet 地址和主页 (Hom
4、 epage , 同时在网上 还出现了很多相关的在线 (on line 服务器 。 我国在基因组信息的收集与提供方面也有 了一定的工作 :北京大学物理化学研究所建立 的 PDB 数据库的中国节点 ; 北京大学生命科学 院建立的 E M BL 数据库的中国节点 。 中国科学 院生物物理所与日本 J IP I D 的合作 , 收集了我 国科学家测定的 DNA 和蛋白质序列并与国际 相应数据库进行交流 。 中国医学科学院肿瘤研 究所建立的 N EE 2HOW 服务器等 。 在数据库研 究中有两点特别重要 ,经过努力 , 相信这一领域在我国会迅速 发展 。 2新基因的发现与鉴定发现一个新的基因就能了解
5、与其相关的生 理功能或疾病的本质 , 从而为新药的开发 、 设计 11 奠定基础 。 使用基因组信息学的方法是发现新 基因的重要手段 , 比如在啤酒酵母完整基因组 (约 1200万 bp 所包含的 5932个基因中 , 大约 60%是通过信息分析得到的 。 使用 EST 序列信 息寻找新基因是当前国际上基因争夺战的热 点 。211利用 EST 数据库 (dbEST 发现新基因 EST 序列 (Exp ressed Sequence T ags 是 从基因表达的短 c 2DNA 序列 , 它们携带着完整 基因某些片段的信息 。 到 1998年 12月中在 GenB ank 的 EST 数据库中已
6、收集了 EST 序列 2, 020, 608条 , 其中人 EST 序列为 1, 201, 241条 , 它大约覆盖了人类基因的 80%。 由于 EST 序列中包括了大量未发现的人类基因的信息 , 因此如何利用这些信息发现新基因成了近几年 的重要研究课题 。212从基因组种方法 。 , 一类是基 于编码区所具有的独特信号 , 比如起始密码子 、 终止密码子等 , 另一类是基于编码区的碱基组 成不同于非编码区 。 这是由于蛋白质中 20种氨 基酸出现的概率不同 , 每种氨基酸的密码子兼 并度不同 , 同一种氨基酸的兼并密码子使用频 率不同等原因造成的 。 近年来一批新的确定编 码区的方法出现了
7、, 例如 , 考虑高维分布的统计 方法 、 神经网络方法 、 分形方法等 。 将密码学方 法用于识别编码区 , 也取得了较好的结果 。 3非编码区信息结构分析虽然对约占人类基因组 95%的非编码区 的作用人们还不清楚 , 但从生物进化的观点看 来 , 这部分序列必定具有重要的生物功能 。 普遍 的认识是 , 它们与基因在四维时空的表达调控 有关 。 因此寻找这些区域编码特征 , 信息调节与 表达规律是未来相当长时间内的热点课题 。 311非编码区中各种组分的分类与确定 非 编码区 (“ Junk ” DNA 占据了人类基因 组的大部分 , 研究表明 “ Junk ” 是许多对生命过 程富有活力
8、的不同类型的 DNA 的复合体 , 它 们至少包含如下类型的 DNA 成份或由其表达 的 RNA 成分 :内含子 (in tron 、 卫星 (Satellite DNA 、 小卫星 (m in isatellite DNA 、 微卫星 (M i 2 cro satellite DNA 、 非均一核 RNA (简称 hm R 2 NA 短散置元 (sho rt in terspersed elem en ts , 简 称 S I N E 、 长 散 置 元 (long in terspersed ele 2 m en ts , 简称 L I N E 、 伪基因 (p seudogenes 等
9、。 除此之外顺式调控元件 , 如启动子 、 增强子等也 属于非编码序列 。 一些科学家认为应当把染色 体称为信息细胞器 (info r m ati on o rganelle 。了 解 “ Junk ” DNA 是了解信息细胞器的关键步骤 。 312寻找新的非三联体的编码方式呢 ?20个字符组成的蛋白 (43=64 才是大于 20 (氨基酸的种类数 且最接近 20的碱基组合 。 所 以三联体是 DNA 与蛋白质间传递信息的最经 济编码 。 按照这样的推理人们可以认为由 DNA 到结构 RNA 间的信息传递是单联体码 , 因为 DNA 与 RNA 的结构单元是一一对应的 。如果 考虑到人类基因的
10、总数约为 5万到 10万 , 那么 要调节单独的一个基因的调节单元的数目也要 与此相应 , 达到若干万个 。 此时三联体编码方式 的区分度就远为不足 。 这就是生物信息学家寻 找其他非三联体编码方式的原因 。313编码区和非编码区中信息调节规律的研 究虽然 Jacob 和 M onod 的乳糖操纵子模型 给出了基因表达调控的最基本模式 , 但近年来 很多发现表明基因的调节是远为复杂与丰富 的 。 随着基因组研究进入后基因组时代 , 功能基 因的表达谱得以测定 , 这些深刻的问题会逐步 得到解决 。 4生物进化的研究自 1859年 D ar w in 的物种起源 (O rigin of Sp e
11、cies 发表以来 , 进化是对人类自然科学和 自然哲学发展的最重大贡献之一 。 自本世纪中21叶以来 , 随着分子生物学的不断发展 , 进化论的 研究也进入了分子水平 。 并建立了一套依赖于 核酸 、 蛋白质序列信息的理论方法 。 现在随着序 列信息的大量出现开展分子进化的研究具有了 极好时机 。 5完整基因组的比较研究在后基因组时代 , 生物信息学家面对的不 仅是序列和基因而是越来越多的完整基因组 。 科学家们对最早的七个完整基因组所做的分析 就得到了很多有意义的结论 。 这些生物体都是 能独立存活的 , 最大的是啤酒酵母 , 它有 5932个基因 , 最小的是生殖道枝原体 , 它只有 4
12、70个 基因 。 有了这些资料人们就能估计 , 最小独立生 活的生物至少需要多少基因 , 这些基因是如何 使它们活起来的 ? 基因组研究还发现 ,基因组大小相似 , , , 这 是为什么 ?因组的差别不大于 011%; 人猿间差别不大于 1%。 因此其表型差异不仅应从基因 、 DNA 序列 找原因 , 也应考虑染色体组织上的差异 。 总之 , 由完整基因组研究所导致的比较基因组学必将 为后基因组研究开辟新的领域 。 6基因组信息分析的方法研究611发展有效的能支持大尺度作图与测 序需要的软件和数据库以及若干数据库工具 , 包括互联网络上的远程通讯工具 , 使之能容易 地处理日益增长的物理图 、
13、 遗传图和序列信息 。 改进现有的理论分析方法 , 象统计方法 、 隐含马 尔科夫过程方法 、 分维方法 、 神经网络方法 、 复 杂性分析方法 、 密码学方法等 。 创建一切适用于 基因组信息分析的新方法 、 新技术 。612建立快速 、 严格的多序列比较方法 多序列比较是解决同源性分析等重要问题 的关键手段 , 但迄今为止只有近似方法 。 虽然两 个序列比较有动态规划算法这样的精确方法 , 但要把它推广到多序列的情况是不现实的 。 为 此发展精确的多序列比较方法是当务之急 。 7大规模基因功能表达谱的分析目 前 , 基 因 组 的 研 究 已 从 结 构 基 因 组 (structu ra
14、l genom e 逐渐过度到功能基因组 (functi onal genom e 。 因此获得基因的功能表 达谱 , 将存在于人类基因组上的静的基因图谱 , 向时间 、 空间维上展开是新一阶段基因组研究 的核心 。 为了得到基因表达的功能谱 , 国际上在 核酸和蛋白质两个层次上都发展了新技术 。 在 核酸层次上的新技术是 DNA 芯片 , 在蛋白质 层次上则是二维凝胶电泳和测序质谱技术 。 由 此导致了大规模基因功能表达谱的分析问题 。 它们从数学角度看不是简单的 N P 问题 、 动力。 8蛋白质分子空间结构的预测 、 模拟和分 子设计随着人类基因组计划的执行 , 找到人类 5万到 10万
15、个基因的碱基序列是指日可待的事 , 因而确定人的上千个原癌基因和几万个与疾病 相关基因表达产物的氨基酸顺序也会逐渐实 现 。 这无疑给人类疾患的治疗带来了极大的希 望 。 然而要了解他们的功能 、 要找到这些蛋白质 致病的分子基础 , 只有氨基酸顺序的知识是不 够的 , 必须知道它们的三维结构 。 与此同时 , 要 设计药物治疗这些疾患也需要了解蛋白质的三 维结构 。 这是摆在科学家面前的紧迫任务 。 当前不论是国际还是国内 , 蛋白质空间结 构预测和蛋白质分子的改性设计都在广泛而快 速地展开 。 近年来对蛋白质构象模式的研究取 得了很大进展 。 比较公认的看法是 :蛋白质的折 叠类型是有限的
16、 , 目前估计为几百至几千种 。 这 要远小于蛋白质所具有的自由度数目 。 同时蛋 白的折叠类型是与它们的组分和一级序列相关 的 , 这样就有可能从蛋白质的初级信息中确定 它们的最终折叠类型 。31 9药物设计传统的药物研制主要是从大量的天然产 物 , 如动物 、 植物 、 微生物和合成有机 、 无机化合 物中进行筛选 。 往往得到一个可供临床使用的 药物要筛选 1万种不同的化合物 , 要经过 10年 左右的时间和耗资 215 310亿美元 。 当前随着 组合化学和群集筛选的发展 , 这一状况有了一 定程度的改善 , 但耗资 、 耗时仍然是巨大的 。 近 年来由于结构生物学的发展 , 相当数量
17、的蛋白 质以及一些核酸 、 多糖的三维结构已被精确了 解 。 因此 , 基于生物大分子结构知识的药物设计 成为了当前的热点 。 生物信息学的研究不仅可 提供生物大分子空间结构的信息 , 还能提供电 子结构的信息 , 如能级 、 表面电荷分布 、 分子轨、等 。环境 (如水 、量子效应 。 上述的不少方面当前是难以直接用 分子生物学的实验手段加以研究的 。 这些模拟 的结果对于在分子 、 亚分子和电子结构层次上 了解生命现象的基本过程具有重要意义 。 并为 天然生物大分子的改性和基于受体结构的药物 分子设计提供了依据 。 10应用与发展研究基因组信息学的研究结果不仅具有重要的 理论价值 , 也可
18、直接应用到工农业生产和医疗 实践当中去 。1011与疾病相关的人类基因信息的汇集 以及病人样品序列信息检测技术的发展很多的人类基因是和疾病有关 , 有人估计 与癌症相关的原癌基因约有一千个 , 抑癌基因 约有一百个 。 约有六千种以上的人类疾患与各 种人类基因的变化相关联 。 随着人类基因组计 划的深入 , 当我们知道了全部八万到十万个人 类基因在染色体上的位置和它们的序列特征以 后 , 人们就可以有效地判定各种分子疾患 。 为了 实现这一目标有两项工作是重要的 , 一是构建 与疾病相关的人类基因信息数据库 , 二是发展 快速 、 有效的对患者血液 、 体液 、 组织等样品进 行测试和序列信息检测的技术 。 近几年国际上 已出现了若干与疾病相关的数据库 , 其他技术 也在发展中 。1012建立与动 、, 可以容易地找到各 种家畜 、 经济作物与其经济效益相关的基
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 顶管施工安全技术保证措施
- 排水沟施工安全技术交底
- 2025年中小学教师信息技术能力考试试题库及答案
- 桥梁支座更换安装施工方案
- 2025年安徽芜湖中小学教师招聘考试题库及答案
- 断桥铝门窗的安装施工方案
- 施工现场扬尘治理措施
- 2025中小学寒假常态化疫情防控工作方案合辑
- 现代农业设施物联网应用方案
- 岗位安全风险评估报告范例
- 水利系统各单位年后复工复产安全工作部署
- GB/T 47060-2026特种信封国际邮政公事信封
- 纪委监委安全办案课件
- 常减压生产工艺培训
- 广东省广州市增城中学2024-2025学年九年级上学期期末物理试卷(含答案)
- 2025年数字化货运管理平台项目可行性研究报告
- 印刷线路板 项目可行性分析报告范文(总投资5000万元)
- 2025年(完整版)资料员考试题库及答案
- DB1501-T 0003-2021 居家养老服务中心(站)等级评定规范
- TCNAS 51-2025成人患者医用粘胶相关性皮肤损伤的预防及护理
- 天然气管道施工工序安排方案
评论
0/150
提交评论