《毕业论文生物信息学的现状与展望》_第1页
《毕业论文生物信息学的现状与展望》_第2页
《毕业论文生物信息学的现状与展望》_第3页
《毕业论文生物信息学的现状与展望》_第4页
《毕业论文生物信息学的现状与展望》_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物信息学的现状与展望中国科学院院士 张春霆(天津大学生命科学与工程研究院 , 天津 300072摘 要 :本文阐述了生物信息学产生的背景 , 生物学数据库 , 生物信息学的主要研究内容 , 与生物信 息学关系密切的数学和计算机科学技术领域 , 生物信息学产业等内容 , 展望了其未来并提出了若干 在我国发展生物信息学的建议 。 着重指出 , 理解大量生物学数据所包括的生物学意义已成为后基 因组时代极其重要的课题 。 生物信息学的作用将日益重要 。 有理由认为 , 今日生物学数据的巨大 积累将导致重大生物学规律的发现 。 生物信息学的发展在国内 、 外基本上都处在起步阶段 。 因此 , 这是我国

2、生物学赶超世界先进水平的一个百年一遇的极好机会 。关键词 :人类基因组计划 生物信息学一 、 生物信息学产生的背景有人说 , 基 于 序列 的 生 物 学时 代 已 经 到来 , 尽管对 序列生物学 这一 提法可能有 所争议 , 但是今日像潮水般涌现的 序列信息却 是无可争辩的事实。自从 1990年美国启 动人类 基因组计划以来 , 人与模式生物 基因组的测 序工作进展极为迅速。迄今已完成 了约 40多 种生物的全基因组测序工作 , 人基因组约 3 109碱基对的测序工作也 接近完 成。至 2000年 6月26日 , 被誉为生命 阿波罗计划 的人类基因组计划 , 经过美、 英、 日、 法、 德

3、 和中国 科学 家的 艰苦 努力 , 终 于 完成了工作 草 图 , 这是 人 类科 学 史上 又一 个 里程 碑式 的 事 件。它预示着完成人 类基 因组 计划已 经指 日可待。 截止 日 前为止 , 仅登录在美国 GenBank 数据库中的 DNA 序列总量 已 超过 70亿碱基对。在人类基因组 计划进行 过程中 所积累 起 来的技术和经验 , 使得其它生物基因 组的测序工 作可以完 成 得更为 快捷。可 以预 计 , 今后 DNA 序列 数据 的增长 将更 为 惊人。生 物学数 据的 积累并 不仅 仅表 现在 DNA 序列 方面 , 与其同步的 还有蛋白 质的 一级结 构 , 即氨 基酸

4、序 列的 增长。 此外 , 迄今为止 , 已有一 万多 种蛋白 质的 空间 结构以 不同 的 分辨率被测定。基于 cDNA 序列测序所建 立起来的 ES T 数据库其记录已 达数 百万 条。在 这些 数据 的基 础 上派生、 整理出来的数 据库已 达 500余个 。这 一切构成了 一个 生物 学数 据的 海洋。 可以 打 一个比方来说明这些 数据的规模。 有人估计 , 人类 (包括已 经去世 的和 仍然在 世的 所说 过 的话的信息 总量约为 5唉 字节 (1唉字 节等 于 1018字节 。而如今 生物 学数 据信 息总 量已 经 接近甚至超 过此 数量 级。这 种科 学数 据的 急 速和海量

5、积 累 , 在人类的科学研 究历史中是 空 前的。数据并不等于信 息和知识 , 但却是信息 和 知识的源泉 , 关键在于如何从中 挖掘它们。与 正在以指数 方 式增 长的生物学数据相 比 , 人类 相关知 识的 增长 (粗 略地 用 每年所发表的 生物、 医 学论 文数 来代 表 却十 分缓 慢。一 方 面是巨量的数据 ; 另一方面是我们 在医学、 药物、 农业和环 保 等方面对新知识的渴求 , 这些新知识 将帮助人 们改善其生 存 环境 和提高其生 活质 量。这就 构成了 一个 极大的 矛盾。 这 个矛 盾就催生了一门 新兴 的交叉 学科 , 这 就是 生物信 息学。 美国人类基因组计划实施

6、五年后的总结 报告中 , 对生物信 息 学作了以下的 定义 :生物 信息 学是一 门交 叉学科 , 它 包含 了 生物信息 的获取、 处理、 储 存、 分 发、 分析和 解释等在 内的 所 有方面 , 它综合运用数学、 计算机科学和 生物学的 各种工具 , 院士论坛张春霆 (Z HANG Chunting, 1936. 9. 19 , 男 , 山东省烟台市人 , 中国科学院院士 , 生 物信息学家。 1961年毕业于 复旦大学物理 系 , 1965年在该校 研究生 毕 业。现任天津大学教授 , 博士生导师。张春霆院士是我国生物信息学的学术带头人之一 , 有较强的数学、 物理和计算 机基础 ,

7、以此为背景专 门从事生物 信 息学研究。开拓了 DNA 序列分析中的几何学研究途径 , 建立了 DNA 序列的 Z 曲线理论 , 在基因识别、 基因组注释等 DNA 序列分析中得到越来越广泛的 应 用。提出了一系列球蛋白质结构类预测的新 算法 , 对国际上的有关研究产生了推动作用。在国外发表影响因子大于 1的 SCI 的计算生物学 和生物信息 学 论文 60余篇 , 被他人引用二百余次。 1996年和 1997年分别获国家教委科技进步一等奖和国家自然科学二等奖各一项 , 均为唯一完成人。22卷 6期 17来阐明和理解大量 数据所 包含 的生物 学意 义。生物 信息 学 这一名词的出现仅仅是几年

8、前的事情 , 但是计算 生物学这 一 名词的出现则要早 得多。鉴 于这两 门学 科之 间并没 有或 难 以界定严格的分界线 , 在这里统称为生物信息 学。二 、 生物学数据库Nucliec Acid s Research 杂志 连续 七年 在 其每 年的 第 一 期中详细介绍最新版本 的各种 数据库。在 2000年 1月 1日 出版的 28卷第 1期中详 细地介绍 了 115种通用 和专用数 据 库 , 包括其详尽 描述和 访问 网址。迄 今为止 , 生 物学 数据 库 总数已达 500个以上。在 DNA 序列方面有 GenBank 、 E M B L 和 DDBJ 等。在蛋 白质 一 级 结

9、 构方 面 有 SWISS-PROT 、 PIR 和 MIPS 等。在 蛋 白 质和 其 他 生 物大 分 子 的 结 构方 面 有 PDB 等。在蛋白 质 结 构分 类 方 面有 SC OP 和 CATH 等。应 该 指 出 , 几乎所有这些数据库对学术研究 部门或人员 来说都是 免 费的 , 可以免费下载或提供免费服 务。但是鉴于 相当多的 数 据库的经营者们面临着财务紧缺的境地 , 这种免 费的局面 还 能维持多久就不得而 知了。有的 数据库 , 如 SWISS-PROT, 已开始向商业用户每年收取数千至数万 美元不等的 使用费。 其它数据库暂时还是免费的 , 但不 知是否永 远免费。如

10、果 一 些重要的数据库对学术研究部门开始收费 , 这对 于我国生 物 信息学的发展是非 常不利 的。中国 是一 个基 因信息 资源 大 国 , 我们应当抓紧建 设我 国自有 的数 据库 , 在 世界上 做出 我 们自己的贡献 , 在平等的基础上与国外共享生 物信息资源。三 、 生物信息学的主要研究内容生物信息学主要包括以下几个主要研 究领域 , 但是限 于 篇幅 , 这里仅列出其名称并只做简单介绍。1. 序列比对 (Ali gnment 。基本问题是比较两个或两个 以 上符号序列的相似 性或不 相似 性。序列 比对 是生物 信息 学 的基础 , 非常重要。两个序列的比对 有较成熟的 动态规划

11、算 法 , 以 及在 此 基础 上 编写 的比 对 软件 包 BLAS T 和 FAS TA, 可以免费下载使用。这些软件在数据库查询 和搜索中 有 重要的应用。有时两个序列总体并不很相 似 , 但 某些局部 片 段相似性较高。 S mith-Waterman 算法 是解 决局 部比 对的 好 算法 , 缺点是速度较慢。两个以上序 列的多重序 列比对目 前 还缺乏快速而又十分有效的算法。2. 结构比对 。基 本问题 是比 较两 个或 两个 以上 蛋白 质 分子空间结构的相似性或不相似性。已有一些算法。3. 蛋白质结构预 测 , 包括 2级 和 3级 结构 预测 , 是最 重 要的课题之一 。从

12、方法 学上 来看有 演绎 法和 归纳法 两种 途 径。前者主 要是从一些 基本 原理或 假设 出发 来预测 和研 究 蛋白质的结构和折 叠过程。 分子力 学和 分子 动力学 属于 这 一范畴。后 者主要是从 观察 和总结 已知 结构 的蛋白 质结 构 规律 出 发 来 预 测 未 知 蛋 白 质 的 结 构。 同 源 模 建 和 指 认 (Threading 方法属于这一范畴 。虽然经 过 30余年的 努力 , 蛋 白质结构预测研究现状远远不能满足实际需要。4. 计算机辅 助基因 识别 (仅 指蛋 白质 编码 基因 。基 本 问题是给定基因组序列后 , 正确识别 基因的范 围和在基因 组 序列

13、中的精确位置。这是最重要的课题 之一 , 而且越来越 重 要。经过 20余年的努力 , 提出了数十 种算法 , 有十 种左右 重 要的算法和相应软 件上网 提供 免费 服务。原 核生物 计算 机 辅助基因识别相对容易些 , 结果 好一些。从具 有较多内含 子 的真核生物基因组序列中正确识别出起 始密码子、 剪切位 点 和终 止密码子 , 是个 相当 困难 的问题 , 研 究现 状不能 令人 满 意 , 仍有大量的工作要做。5. 非编码区 分析 和 DNA 语言 研究 , 是 最 重要 的课 题 之 一 。在人类基因组中 , 编 码部分 仅占 总序列 的 35%, 其 它 通常称为 垃圾 DAN

14、, 其实 一点 也不 是 垃圾 , 只 是我 们暂 时 还不知道其重要的功能。分析非 编码区 DNA 序列 需要大 胆 的想象和崭新的研究 思路和 方法。 DNA 序列 作为一 种遗 传 语言 , 不仅体现在编 码序 列之 中 , 而且隐 含在 非编码 序列 之 中。6. 分子进化和比较基因组 学 , 是 最重要的 课题之一 。早 期的 工作主要是利用不 同物 种中 同一种 基因 序列的 异同 来 研究生 物的 进化 , 构建 进化 树。既可 以用 DNA 序列 也可 以 用其编码的氨基酸序列来做 , 甚至于 可通过相 关蛋白质的 结 构比对来研究分子进化。以上研究已经 积累了大 量的工作。

15、近年来由于较多模式生物基因组测序任 务的完成 , 为从整 个 基因组的角度来研究分子进化提供了 条件。可以设 想 , 比 较 两个或多个完整基因组这一工作需要新 的思路和方 法 , 当 然 也可望得到更丰硕的成果。这方面可做的工作是很多的。 7. 序列重叠群 (Contigs 装配 。一 般来 说 , 根据现 行的 测 序技术 , 每次反应 只能 测出 500或 更多 一些 碱基 对的 序列。 这就有一个把大量的较短的序列拼接成 一个较长的、 完整 序 列的 任务。显 然 , 为 了正 确拼接 , 短 的序 列之间 应有 一部 分 重叠 区。所有 相互部分重叠的序 列全体 构成了重 叠群 (C

16、on ti gs 。逐步把它们拼接 起来形 成序列 更长的 重叠群 , 直至 得 到完整序列的过程 称为重 叠群 装配。拼 接 EST 数据 以发 现 全长新基因也有类 似的 问题。已 经证 明 , 这 是一 个 NP-完 备性算法问题。8. 遗传密码 的起 源 。 遗传 密 码 为 什么 是 现 在 这样 的 ? 这一直是一个谜。一种最简单的理论认 为 , 密 码子与氨基 酸 之间的关系是生物进化历史上一次偶然 的事件而造 成的 , 并 被固定在现代生物最后的共同祖先里 , 一直 延续至今。不 同 于这 种 冻结 理论 , 有人 曾分 别提出 过选 择优化、 化 学和 历 史等三种学说来解

17、释遗传 密码。 随着各 种生 物基因 组测 序 任务的完成 , 为研究遗传密码的起源 和检验上 述理论的真 伪 提供了新的素材。9. 基于结构的 药物 设计 。人 类基 因组 计划 的目 的之 一 在于阐明人的 约 10万 种蛋 白质的 编码 序列 , 从 而了 解蛋 白 质的结构、 功能、 相互作用以及与各种人 类疾病之 间的关系 , 寻求各种治疗和预防方法 , 包括 药物治疗。基 于生物大分 子 结构的药物设 计是 生 物信 息 学中 的极 为 重要 的研 究 领域。院士论坛18 世界科技研究与发展为了抑制某些酶或蛋白质的活性 , 在已知其 3级 结构的基 础 上 , 可以利用分子对接算法

18、 , 在计算机上设 计抑制剂 分子 , 作 为候选药物。这种发现新药物的方法有强 大的生命 力 , 也 有 着巨大的经济效益。10. 其他 。如基因表达谱分析 , 代 谢网络 分析 , 基因芯 片 设计和蛋白质组学数据分析等 , 逐渐 成为生物信 息学中新 兴 的重要研究领域。这里不再赘述。四 、 与生物信息学关系密切的数学领域 限于篇幅 , 仅列 出它 们的名 称。统计 学 , 包 括多 元统 计 学 , 是生物信息学的数学基础之一 ; 概率 论与随机过 程理论 , 如近年来兴起的隐马尔科夫链模型 (HMM , 在生 物信息学 中 有重要应用 ; 运筹学 , 如动态规划法是序 列比对的基 本

19、工具 , 最优化理论与算法 , 在蛋白质空间结 构预测和分 子对接研 究 中有重要 应用 ; 拓 扑学 , 这里 指几 何拓扑 , 在 DNA 超 螺旋 研 究中是重要的工具 , 在多肽链折叠 研究中也有 应用 ; 函数论 , 如福里叶变换和小波变换等都是生物信 息学中的常 规工具 ; 信息论 , 在分子进化、 蛋白质结构预测、 序列比对 中有重要 应 用 , 而人工神经网络方法则用途极为 广泛 ; 计算数学 , 如常 微 分方程数值解法 是分 子动 力学的 基本 工具 ; 群论 , 在 研究 遗 传密码和 DNA 序列 的对称性方面 有重要 应用 ; 组合数 学 , 在 分子进化和基因组序列

20、研究中十分有 用。原则上讲 , 各种 数 学理论或多 或少或直接 或间 接都应 该在 生物 学研究 中有 各 种各样的应 用 , 其中 包括 生物信 息学 , 这 种情 况正像 过去 的 一、 两个世纪 , 数学应用 于物理学一样。而且 , 生物信息学 的 发展 , 又为数学的发 展提 供了一 个新 的机 遇 , 可能会 产生 一 些新的分支学科。五 、 与生物信息学密切相关的计算机科学技术首先是网络技术和 数据库 (特别是 关系 型数据 库 管 理 技术 , 包括极为重要的实验 室数据信息 管理系统 (LIMS 。 其 它诸如数据整合和可视化、 数据挖掘 (Data Mining 、 基于

21、Uni x 操作系统的各种软件包以及人工智能 , 和一些重 要算法的 复 杂性研究。六 、 生物信息学工业生物信息学不仅具有重大的科学意义 , 而且 具有巨大 的 经济效益。它既属于基础研究 , 以探 索生物学自 然规律为 己 任 ; 又属于应用研究 , 它 的许 多研究 成果 可以 较快或 立即 产 业化 , 成为价值很高的产品。生物信 息学的这一 特点在现 有 的许多学科中几乎是独一无二的。这里仅举一 个例 子来 说明生 物信 息学工 业的 潜力。 据 报导 , 只有 50名员工的德国 Lion 生物信 息学公司 , 将通过 扫 描公共数据库中的序列来发现 500个 可能的 药物作 用靶点

22、 , 以一亿美元的价格预 售给德 国 Bayer 公 司。又据 报导 , 生 物 信息学产业的市 场在 1998年已 经达到 10亿 美元 , 而 到 2002年估计可增长 到 2000亿美 元以 上。这是 一笔 巨大 的 财富 , 任何 政府的科技 决策 人都 不能 对此 视而 不见。 NIH 已向 美 国国会建议投资 160亿美元在 美国建立 520个将生物学 与 计算结合起来的中心。法国议会科技决 策评估办公 室 , 最 近 评估了基因工程、 生物信息学和组合 化学等学 科的应用前 景 及法国的对策。美国出现了大批的基于 生物信息 学的公司 , 实施了许多生 物信息 学研 究计划 , 主

23、 要与 药物设 计 , 基因 工 程药物 , 生物芯 片 , 代谢工 程与 化学工 程密 切有关。 生物 信 息学工业是知识经济的一个典型 , 潜力 巨大。七 、 展望与建议生物学是生物信息学的核心和灵魂 , 数学 与计算机技 术 则是 它的基本工 具。这一 点必 须着重 指出。预 测生 物信 息 学的 未来主要就是要预 测它 对生 物学的 发展 将带来 什么 样 的根 本性的 突破。 这种 预测 是 十分 困难 的 , 甚 至 几乎 不 可 能。但是人类科学研究史表明 , 科学 数据的大 量积累将导 致 重大的科学规律的发现。例如 :对数 百颗天体 运行数据的 分 析导致了开普勒三大定律和万

24、有引力定 律的发现 ; 数十种 元 素和上万种化合物数据的积累导致了元 素周期表的 发现 ; 氢 原子光谱学数据的积累促成了量子理论 的提出 , 为量子力 学 的建立奠定了基 础。历史 的经验 值得 注意 , 有理 由认 为 , 今 日生物学数据的巨大积累也将导致重大 生物学规 律的发现。 生物信息学的 发展在 国内、 外 基本上 都处 在起步 阶段 , 所 拥 有的条件也大 体相同 , 即 使我 国有关 条件 差一些 , 但 差别 也 不大。因此 , 这是我国生物学赶超国 际先进水 平的一个百 年 一遇的极好机会。机 不可 失 , 时 不再 来 , 鉴于生 物信 息学 在 我国生物学和经济发

25、展中的重要意义和 其发展的紧 迫性 , 因 此 , 由国家出面组织 全国的 力量 , 搞 个类似 两弹 一星 那 样 的 , 但是规模要小的 多的 , 花 钱也 少得多 的生 物信息 学发 展 计划 , 不是不可 以考虑 的。要充 分发 挥中 央与地 方 , 生物 学 科与非生物学科研 究人员 等方 方面 面的积 极性。生 物信 息 学研 究投资少 , 见效 快 , 可充 分发 挥我国 智力 资源丰 富的 长 处 , 是特别适合我国国情的一项 研究领域。要 在大学里建 立 生物信息学专业 , 设立 硕士 点和 博士点 , 培 养专门 人才。 可 以组织一大批数学、 物理、 化学和计算机 科技工

26、作者 , 在自 愿 的基 础上 , 学习有关 的生 物学 知识 , 开展 多方 面的生 物信 息 学研究。经过十几年或更长时间的努力 , 逐渐 使我国成为 生 物信息学研究强国 , 是完全有可能的。The Current Status and The Prospect of Bioinformatics院士论坛 22卷 6期 19Member of The CAS ZHANG Chunting(Institute of Life S cience and Biotechnology, Tianjin University, Tianjin 300072Abstract:In this pape

27、r I present the background, biological databases , main research areas , the relevant mathematics and computer science, the industry and the prospect o f Bioinformatics. Several ideas to develo p Bioin formatics in China have been proposed. I point out that it is extremely im portant to understand t

28、he biological signi f icance o f a variety o f se quence and structure data in the post -genome era. Bioin formatics will play more and more im p o rtant roles. It is believed that the accumulation o f a great amount o f data would lead to the discovery o f im portant biological laws. The develo pment o f Bioin f o rmatics is basically in its early stage both in China and abroad. There fore, it is an excellent o pp o rtunity occur ring only once in a century to attain and surpass advanced world levels for biology i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论