数据库技术发展的新方向-非结构化数据_第1页
数据库技术发展的新方向-非结构化数据_第2页
数据库技术发展的新方向-非结构化数据_第3页
数据库技术发展的新方向-非结构化数据_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据库技术发展的新方向非机构化数据 1 什么是非结构化数据库 在信息社会,所有信息大体上可以分为两类:一类信息能够用数据或统一 的结构加以表示,我们称之为结构化数据,如数字、符号;另一类信息根本无法 用数字或者统一的结构表示,如文本、图像、声音乃至网页等,我们称之为非 结构化数据。非结构化数据包括结构化数据,但又不止是结构化数据;结构化数 据属于非结向化数据,是非结构化数据的特例。 所谓非结构化数据库,是指数据库的变长记录由若干不可重复和可重复的 字段组成,而每个字段又可由若干不可重复和可重复的子字段组成。简单的说, 非结构化数据库就是字段数和字段长度可变的数据库。 2 为什么需要非结构化数据库 传统关系数据库,通过引入数学领域的关系模型及关系代数和关系演算, 经过几十年的应用和发展,奠定了自己的优势。但随着网络的发展,关系数据 库越来越显示出不足的一面。到了20世纪90年代,当关系数据库还满足于用户 连接到大型主机上的数据库进行联机检索时,因特网的出现已经可以把超文本 文件传送到用户的浏览器里了。起初,WWW只支持较简单的文挡,随着应用需求 的不断提高和技术的发展,它不仅可以支持文字、图形、图像、声音等多媒体 信息,还可以支持一些较为复杂的对象,比如电子表棉对象。但随着数据量的 增大,显然只靠静态页面就捉襟见肘了。让页面动起来的想法由此应运而生, 这时迫切需要数据库在动态页面中扮演主角。 而此前,关系数据库要么限于桌面,用文件方式的共享来实现局域网内的 使用;要么是使用各种关系数据库厂商开发的专用客户端软件和工具。尽管 ODBC,JDBC,OLE DB等解决了不同数据库之间的接口,但是我们可以说关系数 据库从设计之初并没有也不可能考虑到以HTTP为基础、HTML为文件格式的因特 网的需求.只是在因特网出现后才作出相应的调整,因此关系数据库在基于因特 网应用时由于结构模型等原因的限制,不能与因特网完全融合,需在因特网与 数据库之间加人大量的中间件,从而在无形中加大了数据库基于网络应用的难 度。同时,由于关系数据库从一开始就没有考虑网络时代的应用需求,因而对 于网络环境下WWW应用,如各种非结构化文挡信息、多媒体信息以及全文检索需 求显得有些力不从心。虽然后来关系数据库对于这些需求作出了一些适应性调 整,如增加数据库的面向对象成分以增加处理多种复杂数据类型的能力,增加 各种中间件以扩展基于WWW应用能力,但对于网络环境下WWW应用不可或缺的检索 效率、全文检索能力等却无法解决。关系数据库的基于中间件的解决方案又给 WWW应用带来了新的网络瓶颈,应用服务器端由于与数据库频繁交互,因其本身 的效率和数据库检索的效率造成WWW应用在服务器端的阻塞。 非结构化数据库就是针对关系数据库模型过于简单,不便表达复杂的嵌套 需要以及支持数据类型有限等局限,从数据模型入手而提出的全面基于因特网 应用的新型数据库理论。非结构化数据库主要是针对非结构化数据应运而生的, 与目前流行的关系数据库相比,其最大区别在于它突破了关系数据库结构定义 不易改变和数据定长的限制,支持重复字段、子字段以及变长字段并实现了对 变长数据和重复字段进行处理和数据项的变长存储管理,在处理连续信息(包括 全文信息)和非结构信息(重复数据和变长数据)中有着传统关系型数据库所无法 比拟的优势。 3 非结构化数据库的特点与优势 3.1 灵活的非结构化数据结构 非结构化数据库也是建立在三维表的基础之上的,因此非结构化数据库不 能称为非关系型数据库,但在数据结构上,它又与关系型数据库有着很大的不 同。 1)关系数据库建立在一个严格的二维表上,在列的维度上,对于每个属性 其长度和类型是事先定义并且很难扩展的;在行的维度上,每一条记录(行为 record)都不完全相同。非结构化数据库的二维表却不是严格的,在列的维度上, 对于每个属性是可以伸展的,其属性的长度是可变的。 2)关系数据库以二维表的方式管理数据,数据以一条条记录的方式存储, 每一记录内部包括许多字段,字段名不可重复,对每一记录的每一字段具有惟 一值,字段中不支持子字段。在非结构化数据库中,字段内容是可重复的,这 表现在两个方面:一是一个字段支持重复字段,即字段在列这个级别上是可重复 的;二是在同一个字段内部允许出现不同的子字段, 即字段在行级别上,内容 是分层次的。总之,对于一个字段,可以在行、列方向上有多个值,即非结构 化数据库具有支持重复字段(多值)、子字段(子项)的能力。这种能力,使得非 结构化数据库可以在记录中实现二维嵌套,避免由于关系(二维表)连接导致的 系统性能问题。 3)非结构化数据库可以在一张表中压缩关系数据库中一对多的关系,实质 上是一个非结构化数据库字段可以存放一个关系数据库的一张表。也就是说原 来关系数据库多张表完成的事情,非结构化数据库在一张表中就可以完成。关 系数据库在处理多对多关系时需要对数据库进行拆分,建立中间库,同样非结 构化数据库在处理类似的情况也需要拆分表。 由此可见,非结构化数据库的表已经突破了关系数据库的范式(xNF)限制, 因此需要一个新的命名来反映同关系数据库的区别。非结构化(No-Structure) 就因此得名。 3.2 丰富的数据类型,并支持外部文件 关系数据库在数据类型上主要管理各种字符型、数值型数据,虽然后来也 提供了对于一些超长文本、图像、声音等多媒体以及面向对象的扩充,但对这 些数据类型的扩充仅仅停留在简单的存储与输出上,对于数据的深层次的检索 或其他需求必须通过特别的开发和处理,必然对系统的效率产生负面影响。 非结构化数据库在数据类型上不仅可以支持字符型、数值型数据,而且由 于其强大的外部文件支持功能,更可以支持任何文件类型,如超长文本、图像、 声音等扩展型数据类型,同时,非结构化数据库对于文本、RTF、超文本文档、 DOC等具有检索意义的外部文件类型还能提供强大的索引和全文检索功能。 3.3 高度灵活的索引方式,支持全文检索 数据库最核心的技术之一就是数据的检索技术。对于任何一个数据库系统, 数据检索都是其核心内容和精髓所在,而进行数据检索之前必须建立索引。只 有建立了严密的索引,才能使数据库强大的检索功能得以发挥。数据库索引方 式的差异决定了数据库的检索方式及检索能力。 现有关系数据库支持的索引只限于单字段索引、复合索引(多字段索引)等 几种方式。对数据库的检索主要基于结构化查询语言(SQL),用户通过构造句 SQL查询表达式和设置各种查询条件,实现对关系数据库的检索,因为受到关系 数据库的索引限制,其数据查询能力也受到很大的限制。 由于有着灵活的数据结构.非结构化数据库中支持的索引方式比关系数据库 要丰富得多,可以满足极其复杂检索的需要。其中字段索引兼容关系数据库的 索引,子字段索引和全文索引(英文单词索引和中文单汉字索引)是非结构化数 据库的特色,非结构化数据库甚至可以支持人工标引索引,中、英文混合索引 等方式。配合非结构化数据库的格式化语言,可以对同一字段进行若干种不同 的索引,以满足特殊检索的需求。数据库系统能够提供的检索方式,是和其对 数据库内容建立的索引密切相关的。高度灵活的索引方式造就了高度灵活的检 索方式,非结构化数据库对中文的全文检索效率比关系型数据库要高得多。例 如,国信贝斯软件有限公司开发的iBASE非结构化数据库目前支持8种索引方式, 可以涵盖所有的关系数据库所提供的90%以上的检索方式,同时还提供了大量的 关系数据库不具备的检索方式,包括简单检索、组合检索、字段检索、右截断 检索、全文检索、扩展检索、相关检索(ANY词检索)、集合检索、二次顺序检索、 禁用词顺序检索等。iBASE非结构化数据库采用B*树的索引机制,定位一条记录 最多限于7次定位操作。 3.4 对海量数据库的支持 非结构化数据库处理的对象多为海量数据库,不仅检索功能强而且检索速 度快,在检索速度方面一般不受文献量的影响。以iBASE非结构化数据库为例, 每个数据库最大记录数可达1000万条,每条记录的最大长度可达32000个汉字, 每个数据库最多可800个字段.每个字 段的最大长度可达32000个汉字。 3.5 与因特网紧密结合 因特网的迅猛发展使数据库应用环境发生了巨大的变化。以因特网为平台 的Interne/Web应用向数据库领域提出了前所未有的挑战。电子商务、Web医院、 远程教育、数字图书馆、移动计算等都需要新的数据库技术支持。 由于关系数据库从一开始就没有考虑网络时代的应用需求,因而对于网络 环境下应用,如各种非结构化文档信息、多媒体信息以及全文检索需求显得力 不从心。虽然后来关系数据库对于这些需求作出了一些适应性调整,但对于网 络环境应用不可或缺的检索效率、全文检索能力等却无法解决。关系数据库从 设计之初并没有也不可能考虑到以HTTP为基础HTML为文件格式的因特网的需求, 只是在因特网出现后才作出相应的调整,因此关系数据库在基于因特网应用时, 由于结构模型等原因的限制,不能与因特网完全融合,需在Web服务器与数据库 之间加入大量的中间件,从而在无形中加大了数据库基于网络应用的难度,给 数据库的因特网应用带来了新的网络瓶颈,应用服务器端由于与数据库频繁交 互,因其本身的效率和数据库检索的效率造成因特网应用在应用服务器端的阻 塞。 利用非结构化数据库全部基于因特网的数据库结构模型,采用网络服务器 和数据库服务器紧密集成的方法,可以将目前传统数据库厂商由C/S结构扩展来 的浏览器/Web服务器+应用服务器/数据库服务的三层体系结构,集成为浏览器/ 网上资源发布系统式的因特网计算结构,使数据库系统成为因特网的一个重要 有机组成部分,实现在单一平台上融合所有数据库和应用服务器的功能。这不 仅大大减少了用户对额外硬件、中间件和其他昂贵的集成业务的需求,而且极 大地缩短了用户开发和采用基于因特网应用的时间。同时非结构化数据库还有 效解决了关系型数据库在因特网应用上出现的检索效率低、全文检索能力差等 弊端。从这个意义上来说,非结构化数据库是真正的网络数据库。 4 结束语 值得一体的是,非结构化数据库不是传统关系数据库的完全替代,而是它 的一个非常有益的补充。从20世纪70年代库恩提出关系数据库理论到现在,传 统关系数据库经过了20多年的发展,其间经历了客户机/服务器时代的数据库分 布应用,到因特网时代的向集中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论