数据库技术发展的分水岭.doc_第1页
数据库技术发展的分水岭.doc_第2页
数据库技术发展的分水岭.doc_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据库技术发展的分水岭-采访清华大学计算机科学与技术系周立柱教授 2003年06月30日在IBM DB2诞生二十周年之际,作者于6月11日专门采访了清华大学计算机科学与技术系系主任周立柱教授。采访主要围绕两个话题进行,一是IBM DB2对于数据库领域技术发展的贡献,二是当前数据库领域发展的新方向。就这两个话题,周立柱教授谈了自己的看法,下面就是我们这次采访的谈话记录。一、关系型数据库的出现数据库领域的一次革命我们的话题首先从在IBM DB2对于数据库领域的贡献谈起。周教授说:“IBM公司曾经在数据库领域发明了不少新技术,比如IMS数据库、联邦数据库技术等等。但我认为其中IBM对数据库最大的贡献就是发明了现在市场上占据主流地位的关系型数据库技术。” “关系型数据库的数据模型及其理论是在上个世纪70年代由时任IBM研究员的E.F.Codd博士提出的。一开始并没有受到太多的重视,但是后来人们逐渐发现了它的生命力所在,最终成为数据库领域的一次革命。它从理论研究走向系统实现,再到商业应用,占据数据库市场的主流地位。”“DB2的前身,是E.F.Codd提出关系数据库理论之后,在IBM的实验室研究开发的一个关系数据库系统原型System R(系统R)。系统R对关系数据库模型的理论,SQL查询语言,数据库的体系结构,查询处理与优化,事务处理,分布式数据库理论等进行了大量的实验,发现并且解决了其中的许多关键问题。这个系统原型在推向市场的时候,就成为今天大家所熟知的DB2。所以谈起数据库,IBM的最大贡献,就是发明了关系数据库。在数据库领域,这个贡献比后来的任何贡献都大,因为与传统的层次、网状数据库相比,它开拓了一个全新的数据库领域,是一次革命。”“DB2在一些大型的商业应用当中,发挥了很大的作用。特别是IBM的主机系统上,二十世纪70年代后80年代初,在一些大型的应用中占主流地位。比如银行和金融业,它们对数据处理的要求非常迫切,在这种情况下,IBM DB2逐步介入。所以现在有不少大的应用,特别是在金融界和银行中,跟IBM主机配套的数据库基本上都是DB2。”“随着技术的进步,对数据处理的要求也越来越多、越来越高。它不再像过去那样只是对数据的直接的使用,像普通的查询、加减乘除和简单统计等等。现在很重要的应用,就是把数据里面蕴含着的很多有价值的东西拿出来,就是所谓的数据挖掘。跟数据挖掘相关的就是数据仓库,还有联机事务分析OLAP。IBM在这个方面也作了很好的工作,比如它开发了数据仓库的工具,联机事务处理的工具,数据挖掘方面,也开发了一些有影响的工具。这是适应新的应用需求提出来的。在这些方面,市场的竞争是很激烈的。除了IBM的DB2以外,主要的数据库厂商,在上述的几个方面都有自己的产品。”二、数据库技术的新发展与分水岭谈到数据库现在的发展方向,周立柱教授列举了若干方面。例如,新近出现的将原有的关系数据库与许多其它的功能,如电子邮件、个人通讯等等相结合的趋势。而在企业自动化、电子政务等应用领域,人们相互进行的协同工作,也在与数据库技术融合。比较热门的研究领域还有XML数据库技术,它主要处理关系数据库过去处理不了的半结构化数据,如文档数据,这跟传统的关系数据库是不一样的。周立柱教授说:“我相信现在数据库技术发展到了一个全新的阶段,或者说是一个分水岭的阶段。这个分水岭的标志就是数据库所管理的数据发生了根本的变化,它的基本标志就是从过去仅仅管理由键盘输入的数字、字符等简单数据,到今天必须管理由各种设备、装置、计算所产生的多种类型的复杂数据。例如,图形、图像、视频、音频、电子图书与档案、Web网页等等。这一变化给数据库技术带来了很多的挑战,需要我们研究许多新的问题。”“从这个意义上说,关系数据库是一种适合处理由键盘输入的数据的数据库技术,而这一特点是由产生它的历史条件所造成的。上个世纪五、六十年代计算机首先进入的是商务数据处理的应用领域,它所处理的都是以键盘形式输入的数据,当时的技术条件不可能提供其它的输入手段。七十年代产生的关系数据库也没有离开这一技术背景,而关系数据库的理论基础一阶谓词逻辑恰恰又适合这种数据,在处理它的过程中得到了近乎完美的发挥,以至于带来了数据库领域的一次革命。”“今天,信息领域飞速的技术进步使进入计算机的数据发生了巨大的变化,键盘输入的数据所处的统治地位正在让位于其他形式输入的数据。现在,各种媒体的数据都可以数字化,进入计算机。例如,扫描的图像,各种装置和设备直接采集的数字化的内容有照片、电视节目、电影、音乐、报纸、书、杂志等等,为了有所区别,我们不妨把它称之为“后键盘”时代。”周立柱教授认为,“后键盘”时代的上述变化对数据库领域所产生的影响是多方位的,也是根本性的,关系数据库已经无法胜任这种变化了的应用需求,可以说它使数据库技术的发展面临一个新的分水岭,我们必须寻求新的解决办法。“首先,数据库的一个基本问题就是要找到一个恰当的数据模型来表达它所管理的对象。关系数据库的模型可以简化为普通的表格,它对于表达键盘输入的数据十分到位。但是,如果我们用表格表达一本书,而书里面有文字、图形、图像、数学公式,还有很多特定领域特殊的内容,还要分成章节,这对关系数据库模型而言显然是件十分困难的事情,它处理不了这么复杂的数据内容与它们之间的结构。”“第二,数据模型的变化意味着查询语言的变化。比如,对书的查询可能涉及到全文检索、数学公式的匹配、图形图像的匹配,且不说这里有许多尚未解决的问题,单就表达而言,也远远超出了SQL的能力。而对于图形、图像的内容,显然在查询的时候就不可能只用键盘,而必须用多种手段,即多模式输入查询,这是跟键盘时代相比又是一个巨大的变化。”“第三,数据的的变化,意味着后端对查询数据的处理要发生变化。过去的对象很简单,都是一行一行的纪录。现在一个对象除了一部电影、一幅图像、一个电视节目这些对象本身以外,还有很多关于它们的描述性的东西,即对象的元数据(对这些内容特征的描述)。比如一张照片,它的颜色、纹理等等,这使得数据本身呈现一种多维的趋势,数据库系统必须考虑这样的要求。”“第四,在存储方面,过去数据存储不太考虑10年、20年这样长期的存储。一般的数据用了一年两年之后,我们就采取备份的手段,把它倒到磁带上,变成离线的,再放到架子上,编目进行管理。现在则不同,一本书,一部档案,可能10年、20年以后还要用,用户只要有需要,都希望能把它在线地调出来使用。从存储容量的要求来看,现在的要求跟过去键盘输入时代的要求有天壤之别。例如,一个小时的音视频素材大约需要几千兆字节的存储。因此,一个电视台的一年的节目就需要数万亿字节容量的存储系统。如何在计算机里长期保存这样超大规模的数据,并且实现随时可用的在线访问,这就需要一个合理的存储系统,这显然不是仅仅增加磁盘阵列就能解决的问题。”“第五,是对数据的使用。传统的关系数据库保存的都是键盘输入的数据,对它的使用也很简单,就是查一条或者一组记录,然后在终端显示出来。今天,当我们把一张照片调出来,看照片要用特定的浏览器。我们把一本书调出来,需要各种索引服务。存储的对象和服务都产生了很大的变化,它会反过头来对数据库的支撑技术提出了很多的新要求。比如视频音频的索引技术,都会与现在关系数据库所处理的常规数据索引有很大的不同。”“用一句话概括,过去数据库技术所处理的数据,基本上都是从键盘输入的数据。而“后键盘”时代的数据,非键盘输入的其它多种类型的数据占据着主导地位,成为数据处理的主流,我们在此只是给出了它的若干标志性变化。这无论是在研究,还是在数据库市场方面都给我们带来了挑战以及发展的机遇。”在谈到“后键盘”时代的数据库研发现状时,周教授说,现在,无论是在学术界还是在工业界有不少的工作都在开展。它们呈现出明显的多学科交叉的特征,涉及到数据库、多媒体、人机交互、全

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论