非结构化web数据库与图书馆多媒体信息资源的组织利用_第1页
非结构化web数据库与图书馆多媒体信息资源的组织利用_第2页
非结构化web数据库与图书馆多媒体信息资源的组织利用_第3页
非结构化web数据库与图书馆多媒体信息资源的组织利用_第4页
非结构化web数据库与图书馆多媒体信息资源的组织利用_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 / 8 非结构化 WEB 数据库与图书馆多媒体信息资源的组织利用 【内容提要】针对传统关系数据库在处理非结构化多媒体WEB 信息中所存在的问题,结合图书馆多媒体数据库的特点及特定技术要求,介绍了非结构化 WEB 数据库的技术特点及其在组织与利用馆藏多媒体信息资源中的作用。 【摘 要 题】信息资源建设 . 【关 键 词】非结构化 WEB 数据库 /多媒体 /信息资源 /组织利用 /关系数据库 【 正 文】 1 非结构化 WEB 数据库简介 非结构化 WEB 数据库,是指其字段长度可变,并且每个字段的记录 又可以由可重复或不可重复的子字段构成的基于 INTERNET、 INTRANET 的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)并在互联网上发布。非结构化 WEB 数据库主要是针对非结构化数据而产生的,与以往流行的关系数据库相比,其最大区别在于它突破了关系数据库结构定义不易改变和数据定长的限制,支持重复字段、子字段以及变长字段并实现了对变长数2 / 8 据和重复字段进行处理和数据项的变长存储管理,在处理连续信息(包括全文信息)和非结构化信息(包括各 种多媒体信息)中有着传统关系型数据库所无法比拟的优势。 2 图书馆多媒体信息资源的特点及组织利用中的技术要求 图书馆多媒体信息的数据量非常大,象馆藏影视资料和各种多媒体教育资料,其动态图象信号,每秒可达数兆字节,一段几分钟的 MP3 音乐也有几兆字节,即使经过压缩、也十分巨大。如何对多媒体海量数据进行有效地组织、存储并构成 WEB 数据库提供给用户网上使用,技术要求很高。 馆藏多媒体信息的数据类型很多,包括各种图文数据、声音数据、影视数据、超媒体数据、多种格式的随书光盘等等,其数据长度 不固定,结构上的差异大,使得处理这些数据十分困难,要求数据库既能够处理可变长度字段又能够处理可重复的子字段。 多媒体信息处理在时间上要求很高,多媒体信息中的声音和动态图像对时间特别敏感,在使用这些信息时,必须保证其时间上的要求,否则将会使这些信息失真甚至变得毫无意义。 开发利用馆藏多媒体信息资源经常要多种信息集成描述,比如某种多媒体,既有图像,又有声音,还有文字说明,这样就会改变传统的数据库操作形式和数据库接口,3 / 8 尤其对图文并茂的数据库的建立和查询,需要统一语义描述。 基于多媒体信息资源 的上述特点,要想使馆藏丰富的多媒体信息资源得到充分利用,满足信息用户不断增长的信息需求,对多媒体信息处理提出了不同于普通信息处理技术的新要求: ( 1) 多媒体数据库元数据存储技术要求 我们知道音频、图象、视频等多媒体信息数据是非结构化的,它们不能用简单的数字解析式表示,多媒体数据库必须取得基于这些媒体对象内容及信息特征的解释,才能完成存储及应用,这些解释就称为元数据,通过对元数据的归类、整理、实现标准化的存储是多媒体信息资源组织利用的关键。多媒体数据库元数据存储技术要求包括:文本元数据的存取,语 音元数据的存取,图象元数据的存取,视频元数据的存取等方面的技术要求。 ( 2) 多媒体数据库结构字段设计与数据记录处理方面的要求 a.允许可变长字段、可重复字段、子字段和 MARC 字段。 b.数据库记录的数目与记录长度,字段数目与字段长度,字段可重复次数不应受到限制。 c.允许建立可以快速存取的倒排文件和多媒体、多语4 / 8 言记录表。 d.数据库可自动接受和产生 MARC 和 ISO2709 记录格式的文件,并且满足对 MEDADATA 数据模式的支持功能。 ( 3) 基于 WEB 的多媒体信息检索与 信息发布的技术要求 随着用户对于信息需求的大量增加,以及对于多媒体信息的实效性要求,基于 WEB 的数据库信息存储的检索越来越倾向于多媒体全文信息检索的查询语言,并且对于检索结果的需求也侧重于多媒体全文信息的获取。与此同时, WEB数据库的信息发布形式开始更多地过渡到通过网络浏览器以多媒体电子文档的方式( B/S)传输给网上用户。也要求利用多媒体 WEB 传输技术,向用户提供主动的特定多媒体信息的推送服务。 3 非结构化 WEB 数据库的特点及其在组织与利用多媒体信息资源中的作用 丰富的数据类型 与灵活的数据结构,满足多种类型馆藏多媒体数据结构组织 根据非结构化多媒体数据信息的特殊性,非结构化WEB 数据库在进行存储和管理多媒体信息时,整个数据库的管理机制摈弃了传统结构化关系数据库对于信息采取定长和结构化定义和管理的局限,它从多媒体数据模型入手,采用子字段、多值字段以及变长字段的机制,允许创建许多不5 / 8 同类型的非结构化或任意格式的字段,从而突破了关系数据库非常严格的表结构,解决了关系数据库模型过于简单,不便于表达复杂嵌套的问题。非结构化 WEB 数据库在数据类型上不仅支持字符型、数值型数据,而且由于具有很强的外部文件支持功能,使其可以支持如超长文本、图像、声音、动画等多种多媒体扩展数据类型。与传统关系数据库相同之处是非结构化 WEB 数据库的数据结构也是建立在二维表的基础之上的,但它与关系数据库不同的是:( 1)非结构化 WEB 数据库二维表的属性长度是不可变的,在列的维度上可以随意扩展,这就能较好地满足多媒体数据处理时,需要灵活的可变长字段的要求。( 2)非结构化 WEB 数据库由于支持重复字段、子字段,使其可以在数据库记录中实现二维嵌套,解决了非结构化多媒体数 据结构复杂、可能存在重复字段和多个嵌套子字段的问题。( 3)非结构化 WEB 数据库一个字段可以存放关系数据库的一张表,它可以在一张表中压缩关系数据库中一对多的关系,因此利用非结构化 WEB 数据库能很好地实现多种多媒体数据库的集中组织与管理。 基于广域网的图书馆海量多媒体数据库存储管理机制的实现 图书馆多媒体信息资源数据库是海量数据库,支持基于广域网的海量多媒体信息存储和管理是非结构化 WEB数据库管理系统的主要功能之一,不仅存储数据量大,而且存取6 / 8 速度快,同时检索功能强、检索速度快,在检索速度方面一般不 受信息量大的影响。以 IBASE 非结构化数据库为例,每个数据库最大的记录数可达到 1000 万条,每条记录的最大长度可达 64000 字节。每个数据库最多可有 800 个字段。 利用多种索引方式,实现多媒体全文检索、媒体特征检索等多种检索策略 馆藏多媒体信息资源组织利用的关键是要实现多种方式的多媒体全文检索,而要实现多种检索方式,建立索引是前提,传统关系数据库支持的索引只限于单字段索引、复合索引等几种方式,受其限制,关系数据库检索能力也受到很大限制。非结构化 WEB 数据库由于有着灵活的数据结构,在其底层存储机 制变革的基础上,采用先进的索引倒排挡技术,使它支持的索引方式比关系数据 库要丰富得多,可以满足极其复杂检索的需要,实现对于海量多媒体信息的快速全文检索功能,它支持字段索引、子字段索引和全文索引甚至可以支持人工标引索引,中英文混合索引等方式。配合非结构化数据库的格式化语言,可以对同一字段进行若干种不同的索引,以满足特殊检索的需求,实现多种检索策略。例如 IBASE 非结构化数据库管理系统目前支持 8 种不同的索引方式,可以涵盖所有关系数据库所提供的 90以上的检索方式,同时还提供了包括简7 / 8 单检索、 组合检索、字段检索、右截断检索、全文检索、扩展检索、相关检索、集合检索、媒体特征检索等等大量关系数据库所不具备的检索方式和检索策略。 集成 WEB 服务器和数据库服务器,实现多媒体网络信息发布与多种服务功能 关系数据库在基于因特网应用时,由于结构模型等原因的限制,不能与因特网完全地融合,需在 WEB 服务器与数据库之间加入大量的中间件,从而在无形中加大了数据库基于网络应用的难度,给数据库在因特网应用带来了新的网络瓶颈,应用服务器由于与数据库频繁交互,其本身的效率和数据库检索效率易造成因特网应用的阻塞。 非结构化数据库模型全部是基于因特网,采用 WEB 服务器和数据库服务器紧密集成的方法,可以将目前传统数据库厂商由 C/S 结构扩展来的浏览器 /WEB 服务器加应用服务器 /数据库服务的三层体系结构,集成浏览器 /WEB 数据库发布系统( B/S)的因特网计算结构,使多媒体数据库系统成为 WEB 的一个重要有机组成部分,实现在单一平台上融合所有多媒体数据库和应用服务器的功能,这不仅大大减少了用户对多媒体数据库额外硬件、中间件和其他昂贵的集成业务的需求,而且极大地缩短了用户开发和采用基于因特网应用的时间,有利于用户把更多时间用于多媒 体信息资源的开发和描述,非结构化数据库管理系统可以为系统建设

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论