




已阅读5页,还剩54页未读, 继续免费阅读
(计算机应用技术专业论文)多媒体数据库检索技术研究与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 计算机技术与通信技术的结合形成了计算机网络系统,网络远程教育是计算机网络 应用中的一种。本文主要研究在嵌入式网络教育平台中多媒体数据库的检索技术。 本系统中的多媒体数据库采用松耦合方式构建,即以文件形式存放多媒体文件,以 关系数据库存放其索引部分。本文提出一种基于拼音检索树的倒排索引检索算法 ( p r r b i r ) ,对多媒体数据库进行检索。利用汉语字典中的拼音查字法建立一棵检索 树,将多媒体课件中的知识点作为倒排索引的索引项,系统运行时将索引项作为叶子节 点挂载到这棵树中。对于树中叶子节点的重复冲突的解决采用链式存储方式进行解决, 允许索引项的重复。 在嵌入式网上教育平台的实际应用中,验证了该算法可行有效,检索的效率高且查 找到的信息更为详细,取得良好的运行效果。 本文共分为四个部分,其中第3 、4 章是本文研究工作的重点: 第一章是理论概述,研究了数据库技术、s q l 语言及其应用,多媒体数据库的相关 技术。 第二章研究了基于文件名、基于文本、基于内容的多媒体数据库检索技术,并对索 引技术进行讨论。 第三章首先简述基于拼音检索树的倒排索引检索算法的原理,然后对于拼音检索树 的建立以及相关操作算法进行详细论述,并从理论上分析其性能。 第四章对于本系统的运行平台即嵌入式网络教学平台进行介绍。将检索算法在嵌入 式智能网上教学平台中进行实际应用,实现多媒体数据库检索系统,与其它几种检索算 法进行实例比较,验证了此系统运行效果较好。 最后是论文的结论。 关键词:数据库;多媒体数据库;检索;倒排索引;网络教学平台 大连交通大学丁学硕士学侮论文 a b s t r a c t c o m p u t e rt e c h n o l o g ya n dc o m m u n i c a t i o n st e c h n o l o g ym a k ec o m p u t e rn e t w o r ks y s t e m l o n g - d i s t a n c ee - l e a r n i n gi so n em o s ti m p o r t a n ta p p l i c a t i o no fc o m p u t e rn e t w o r ks y s t e m t h i s p a p e rd i s c u s sm u l t i m e d i ad a t a b a s er e t r i e v a lt e c h n o l o g yo ne m b e d d e ds y s t e me - l e a r n i n g p l a t f o r m t h i ss y s t e ma d o p t sal a x c o u p l i n gs t r u c t u r et ob u i l du pm u l t i m e d i ad a t a b a s ea n di t s m a n a g e m e n t ,t h a t st os a y ,u s i n gr d b m st os t o r ea n dm a n a g em e t a d a t ao fm u l t i m e d i ad a t a a n du s i n gf i l es y s t e mt om a n a g em u l t i m e d i af i l e ,t h e nu n i t eb o t ht o g e t h e ro r g a n i c a l l y an e w p i n y i nr e t r i e v a lt r e eb a s e di n v e r t e d - i n d e xr e t r i e v a l ( p r t b i r ) m e t h o dw a si n t r o d u c e dt ob u i l d m u l t i m e d i ad a t a b a s er e t r i e v a ls y s t e m i tu s ep i n y i nl o o k u pm e t h o do fc h i n e s ed i c t i o n a r yt o b u i l dar e t r i e v a lt r e e ,m a k ek n o w l e d g en o d ea si n d e xe n t r yo fi n v e r t e d i n d e x w h e ns y s t e m r u n n i n g ,t h e s ei n d e xe n t r i e sw i l lb em o u t e dt ot h er e t r i e v a lt r e ea sl e a f s i tp e r m i tr e p e t i t i o no f i n d e xe n t r y ,u s ec h a i ns t r u c t u r et or e s o l v ec o n f l i c to ft h e s ei n d e xe n t r i e s t h i sn e wm e t h o di ss u c c e s s f u l l ya p p l i e dt ot h ee m b e d d e ds y s t e me - l e a r n i n gp l a t f o r ma n d i tw o r kw e l l ,s o m ep r a c t i c ep r o v ei ti sm o r ee f f i c i e n c ya n di tc a nr e t r i e v a lm o r ed e t a i l i n f o r m a t i o n t h i sp a p e ri sc o m p o s e do f4p a r t s ,o fw h i c hp a r t3a n d4a r ee m p h a s e sa n dd i f f i c u l t i e s : c h a p t e r1 :i n t r o d u c i n g d a t a b a s e t e c h n o l o g y ,s q la n d i t s a p p l i c a t i o n ,m u l t i m e d i a d a t a b a s ea n dc o r r e l a t i v ed o m a i n c h a p t e r2 :i n t r o d u c i n gn a m eb a s e dm u l t i m e d i ar e t r i e v a lt e c h n o l o g y ,t e x tb a s e dm u l t i m e d i a r e t r i e v a lt e c h n o l o g ya n dc o n t e n tb a s e dm u l t i m e d i ar e t r i e v a lt e c h n o l o g y d i s c u s s i n gf o r w a r d i n d e xa n di n v e r t e di n d e xt e c h n o l o g y c h a p t e r3 :i n t r o d u c i n g an e wp i n y i nr e t r i e v a lt r e eb a s e di n v e r t e d - i n d e xr e t r i e v a l m e t h o d d i s c u s s i n gb u i l do fp i n y i nr e t r i e v a lt r e ea n di t so p e r a t em e t h o di nd e t a i l s t u d yi t s p e r f o r m a n c ei nt h e o r y c h a p t e r4 :i n t r o d u c i n ge m b e d d e ds y s t e me - l e a r n i n gp l a t f o r m i m p l e m e n t i n gt h i sn e w m e t h o di ni ta n dr e a l i z eam u l t i m e d i ad a t a b a er e t r i e v a ls y s t e m c o m p a r e 、 ,i t l lo t h e rr e t r i e v a l m e t h o d s ,t h i sn e wr e t r i e v a ls y s t e ms h o we x c e l l e n tp e r f o r m a n c e f i n a l l y ,i tc o n c l u d e st h ep a p e r k e yw o r d s :d a t a b a s e ;m u l t i m e d i ad a t a b a s e ;r e t r i e v a l ;i n v e r t e d - i n d e x ;e - l e a r n i n g p l a t f o r m i l 大连交通大学学位论文版权使用授权书 本学位论文作者完全了解太董塞通太堂有关保护知识产权及保 留、使用学位论文的规定,即:研究生在校攻读学位期间论文工作的 知识产权单位属太蓬交通太堂,本人保证毕业离校后,发表或使用 论文工作成果时署名单位仍然为太整塞通太堂。学校有权保留并向 国家有关部门或机构送交论文的复印件及其电子文档,允许论文被查 阅和借阅。 本人授权太整銮通太堂可以将学位论文的全部或部分内容编入 中国科学技术信息研究所中国学位论文全文数据库等相关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论 、 又。 ( 保密的学位论文在解密后应遵守此规定) 学位论文作者签名:张 日期:如8 年占月丫日 学位论文作者毕业后去向: 工作单位: 通讯地址: 电子信箱: 导师张芝哪 日期如g 年占月尸日 电话: 邮编: 大连交通大学学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢及参考 文献的地方外,论文中不包含他人或集体已经发表或撰写过的研究成 果,也不包含为获得太整塞通太堂或其他教育机构的学位或证书而 使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在 论文中作了明确的说明并表示谢意。 本人完全意识到本声明的法律效力,申请学位论文与资料若有不 实之处,由本人承担一切相关责任。 学位论文作者张孤绫 日期:如眸 llf 6 月丫日 l 绪论 绪论 一课题概述 本课题来源于辽宁省信息产业厅项目“嵌入式网上智能教学系统”。课题主要目的 是研究并开发出嵌入式网上智能教学平台,在此平台上实现各种技术的综合应用。结合 实际的项目需求,本人完成的内容是综合整理自制的多媒体教学课件,建设网上智能教 学平台中的多媒体数据库,设计一种新的检索算法以提高多媒体数据库检索效率,实现 多媒体数据库检索系统。使用该系统,用户通过浏览器可以浏览的方式进行教学资源浏 览也可以使用检索系统输入关键字进行查询,系统给出的课件信息可以详细到章节。 二课题的研究现状 当今世界,文化与经济和政治相互交融、不可分割,文化作为一种软实力,在综合 竞争中的地位和作用越来越突出,对经济建设、政治建设和社会建设的影响越来越大, 文化实力和竞争力已成为国家实力和竞争力的有机组成部分。党的十六大以来,以胡锦 涛同志为总书记的党中央高度重视文化和文化建设,把努力建设先进文化、与努力发展 先进生产力一样,作为我国实现社会主义现代化的战略任务。 远程教育资源把专家、学者、优秀教师、特级教师的讲座、课件和做课件的方法直 接传播给教师和学生,大大提高了教学课件的使用率。教师可以通过观摩、研讨、交流、 刻录、传播、制作等手段,将其内容变成教师自身的教学辅助手段,来应用于教学,这 样使教师的教学观念和教学实践摆脱了传统课堂教学模式的束缚。在课堂教学中运用多 种教学手段,综合发挥整体优势,将生动的教学环境呈现给学生,充分激活师生教与学 的兴趣,以提高课堂教学效率。拓宽了学生的视野,提高了鉴赏能力,丰富了学生的生 活,激发学生主动获取知识的欲望,学习方式有了全新的转变,新的学习理念得到建立, 创新意识得到增强。现代远程教育以一种全新的教学手段和教育方法,拓展了教育的时 空界线,提高了教育资源的传播速度和教育的效能。 近年来,对多媒体数据库系统的研究不管是在理论方面还是技术实现方面都取得了 很大的进展【。多媒体数据库技术已被广泛应用于各种领域,如军事应用、医学病例管 理、航天测控、商标管理、地理信息系统、数字图书馆、c s c w ( c o m p u t e rs u p p o r t e d c o o p e r a t i v ew o r k ) 系统、期刊出版系统等。将多媒体数据库技术引入到网络教学平台 的多媒体资源管理系统中,是信息技术在教育教学领域发展的必然趋势。 l 国外多媒体教学资源应用现状i z 圳 大连交通大学工学硕士学位论文 多媒体资源网上应用中,欧美国家大多数资源站点( 如美国a d o b e 公司建立的 e d u c a t i o n a lr e s o u r c e ) 不提供在线下载,而是以资源目录的方式介绍给用户,并提供一些 资源属性的相关描述。如:作者、主题、学科和关键字等。当用户找到自己所需的资源, 在浏览器中填写表单,注明个人信息、通讯地址和支付方式后,可以有偿使用。 国外教育资源的内容包含各种专业资源,如航天、历史文化等。资源形式以文献居 多,还有大量的课程计划和方案,而视频、音频资源相对较少。大部分资源中心是和图 书馆合并在一起,提供大量的文献资料,称为数字图书馆。他们有特定的服务对象,只 有具有该网站访问权限的用户才能使用资源。例如波士顿学院图书馆为林奇教育学校提 供专门的资源服务,其中包含大量的基础教育资源。 2 国内多媒体教学资源应用现状【4 j 清华同方思科公司推出的t f e r m 教育资源管理系统( t i m e f o u n de d u c a t i o n a l r e s o u r c e sm a n a g e m e n t ) ,集丰富的资源内容及其管理功能为一体,突出资源管理功能 的强大和资源的高可用性。是基于国家标准中国现代远程教育技术标准规范和基 础教育教学资源元数据规范而开发的资源库。实时实现文献资料库、课件库、媒体素 材库、试题库、案例库、教学工具、索引目录库和访问记录等内容的管理。 苏亚星多媒体资源库管理系统是一套应用于各类校园网、城域教育网、企业网的资 源管理系统软件,它针对网络资源数据的检索、使用和分发,提供远程可定制的、完备 的资源管理功能,是完善的综合性多媒体资源库管理平台。 目前网络教育的网站有中国教育网( w w w e d u c n ) 、中国教育在线( w w w e 0 1 c n ) 等。各大院校组建的网络教育平台有北大教育在线、清华教育在线、东北财经大学网络 教育学院、东软教育在线等。各商家网络教育平台有华夏教育在线等。 以上介绍的资源库及其管理系统的共同特点是都涵盖大量丰富的教学资源,对于资 源的管理除了实现基本的管理功能外( 存储、查找等) ,各个系统均有自己的特色。 三课题研究内容与研究成果 基于我校嵌入式网上智能教学平台,对于教学资源这一多媒体对象,采用多媒体数 据库技术来对其进行存储和管理。设计和实现多媒体数据库是整个系统中最核心、最基 础的工作,其最终目的是使整个系统能够正确并且高效地运行起来,从而为系统用户提 供使用和管理多媒体资源的各种功能和手段。多媒体数据库检索系统的要解决的主要任 务是有效地组织和存储多媒体教学资源,使学习者能够快速、高效、准确地获取需要的 学习资源来辅助学习。 2 绪论 本文分析了网络教育现状,研究了多媒体数据库技术。针对网上教学平台中多媒体 数据库的应用,提出一种新的检索算法即p r t b i r ,并且设计了多媒体数据库检索系统。 在实际应用中表明能有效地提高系统的工作效率,行之有效。 本文的主要工作有: 1 系统地研究了多媒体数据库的理论和发展状况及其在网上的应用技术。 2 在嵌入式智能网上教育平台实际项目中,对多媒体课件建立松耦合多媒体数据 库,使用倒排索引进行检索。对于检索的索引项建立了一棵拼音检索树,以多媒体课件 中的知识点为叶子,给出了树的创建、遍历、查找等算法,并对其进行理论分析论证。 对于倒排索引中索引项的冲突也给出了解决方法。 3 建立一个新的检索系统,即基于拼音检索树的倒排索引多媒体检索系统,在嵌 入式网上智能教学平台中实现并进行应用。 大连交通大学1 = = 学硕七学位论文 第一章多媒体数据库技术研究 1 1 引言 数据库的诞生和发展给计算机信息管理带来了一场巨大的革命 5 , 6 1 ,在不到半个世纪 的时间里,形成了坚实的理论基础、成熟的商业产品和广泛的应用领域,吸引越来越多 的研究者加入。三十多年来,国内外已经开发建设了成千上万个数据库,它已成为企业、 部门乃至个人日常工作、生产和生活的基础设施。同时,随着应用的扩展于深入,数据 库的数量和规模越来越大,数据库的研究领域也已经大大地拓广和深化了。三十年间数 据库领域获得了三次计算机图灵奖( c w b a c h m a n ,e f c o d d ,j g r a y ) ,更加充分地 说明了数据库是一个充满活力和创新精神的领域。 1 数据库 数据库的历史可以追溯到五十多年前,那时的数据管理非常简单。通过大量的分类、 比较和表格绘制的机器运行数百万穿孔卡片来进行数据的处理,其运行结果在纸上打印 出来或者制成新的穿孔卡片。而数据管理就是对所有这些穿孔卡片进行物理的存储和处 理。然而,1 9 5 1 年雷明顿兰德公司( r e m i n g t o nr a n di n e ) 的一种叫做u n i v a ci 的计算 机推出了一种一秒钟可以输入数百条记录的磁带驱动器,从而引发了数据管理的革命。 1 9 5 6 年i b m 产生出第一个磁盘驱动器t h em o d e l3 0 5r a m a c 。此驱动器有5 0 个盘 片,每个盘片直径是2 英尺,可以存储5 m b 的数据。使用磁盘最大的好处是可以随机 地存取数据,而穿孔卡片和磁带只能顺序存取数据。1 9 5 1 年u n i v a c 系统使用磁带和穿 孔卡片作为数据存储。 数据库系统萌芽于6 0 年代。当时计算机开始广泛地应用于数据管理,对数据的共享 提出了越来越高的要求,传统的文件系统已经不能满足人们的需要。能够统一管理和共 享数据的数据管理系统( d b m s ) 应运而生。数据模型是数据库系统的核心和基础,各 种d b m s 软件都是基于某种数据模型的。所以通常也按照数据模型的特点将传统数据 库系统分成网状数据库、层次数据库和关系数据库三类。最早出现的是网状d b m s ,是 美国通用电气公司b a c h m a n 等人1 9 6 1 年开发成功的i d s ( i n t e g r a t e dd a t a s t o r e ) 奠定了 网状数据库的基础,并在当时得到了广泛的发行和应用。i d s 具有数据模式和日志的特 征,但它只能在g e 主机上运行,并且数据库只有一个文件,数据库所有的表必须通过 手工编码来生成。之后,通用电气公司的一个客户- b fg o o d r i c hc h e m i c a l 公司最终 不得不重写了整个系统。并将重写后的系统命名为集成数据管理系统( i d m s ) 。网状 数据模型对于层次和非层次结构的事务都能比较自然的模拟,在关系数据库出现之前网 状d b m s 要比层次d b m s 用得普遍。在数据库发展史上,网状数据库占有重要的地位。 4 第一章多媒体数据库技术研究 层次型d b m s 是紧随网络型数据库而出现的,最著名最典型的层次数据库系统是i b m 公司在1 9 6 8 年开发的i m s ( i n f o r m a t i o nm a n a g e m e n ts y s t e m ) ,一种适合其主机的层次 数据库。这是i b m 公司研制的最早的大型数据库系统程序产品。从6 0 年代末产生起, 如今已经发展到i m sv 6 ,提供集群、n 路数据共享、消息队列共享等先进特性的支持。 这个具有3 0 年历史的数据库产品在如今的w w w 应用连接、商务智能应用中扮演着新 的角色。1 9 7 3 年c u l l i n a n e 公司( 也就是后来的c u l l i n e t 软件公司) ,开始出售g o o d r i c h 公司的i d m s 改进版本,并逐渐成为当时世界上最大的软件公司。 2 关系数据库 网状数据库和层次数据库已经很好地解决了数据的集中和共享问题,但是在数据独 立性和抽象级别上仍有很大欠缺。用户在对这两种数据库进行存取时,仍然需要明确数 据的存储结构,指出存取路径。而后来出现的关系数据库较好地解决了这些问题。1 9 7 0 年,i b m 的研究员e f c o d d 博士在刊物c o m m t m i c a t i o no f t h ea c m 上发表了一篇名 为“ar e l a t i o n a lm o d e lo f d a t af o rl a r g es h a r e dd a t ab a n k s 的论文,提出了关系模型的 概念,奠定了关系模型的理论基础【7 1 。尽管之前在1 9 6 8 年c h i l d s 已经提出了面向集合 的模型,然而这篇论文被普遍认为是数据库系统历史上具有划时代意义的里程碑。c o d d 的心愿是为数据库建立一个优美的数据模型。后来c o d d 又陆续发表多篇文章,论述了 范式理论和衡量关系系统的1 2 条标准,用数学理论奠定了关系数据库的基础。关系模 型有严格的数学基础,抽象级别比较高,而且简单清晰,便于理解和使用。但是当时也 有人认为关系模型是理想化的数据模型,用来实现d b m s 是不现实的,尤其担心关系 数据库的性能难以接受,更有人视其为当时正在进行中的网状数据库规范化工作的严重 威胁。为了促进对问题的理解,1 9 7 4 年a c m 牵头组织了一次研讨会,会上展开一场分 别以c o d d 和b a c h m a n 为首的支持和反对关系数据库两派之间的辩论。这次著名的辩论 推动了关系数据库的发展,使其最终成为现代数据库产品的主流。1 9 7 0 年关系模型建立 之后,i b m 公司在s a nj o s e 实验室增加了更多的研究人员研究这个项目,这个项目就是 著名的s y s t e mr 。其目标是论证一个全功能关系d b m s 的可行性。该项目结束于1 9 7 9 年,完成了第一个实现s q l 的d b m s 。然而i b m 对i m s 的承诺阻止了s y s t e mr 的投 产,一直到1 9 8 0 年s y s t e mr 才作为一个产品正式推向市场。同时,1 9 7 3 年加州大学伯 克利分校的m i c h a e ls t o n e b r a k e r 和e u g e n ew o n g 利用s y s t e mr 已发布的信息开始开发 自己的关系数据库系统i n g r e s 。它们开发的i n g r e s 项目最后由o r a c l e 公司、i n g r e s 公司 以及硅谷的其他厂家所商品化。后来,s y s t e mr 和i n g r e s 系统双双获得a c m 的1 9 8 8 年的“软件系统奖 。1 9 7 6 年霍尼伟尔公司( h o n e y w e l l ) 开发了第一个商用关系数据 库系统m u l t i c sr e l a t i o n a ld a t as t o r e 。关系型数据库系统以关系代数为坚实的理论基 大连交通大学工学硕+ 学位论文 础,经过几十年的发展和实际应用,技术越来越成熟和完善。关系数据库系统代表产品 有o r a c l e 、i b m 公司的d b 2 、微软公司的m ss q ls e r v e r 以及i n f o r m i x 、a d a b a s d 等 等。 3结构化查询语言 1 9 7 4 年,i b m 公司的r a yb o y c e 和d o nc h a m b e r l i n 将c o d d 关系数据库的1 2 条准则 的数学定义以简单的关键字语法表现出来,里程碑式地提出了s q l ( s t r u c t u r e dq u e r y l a n g u a g e ) 语言【s , 9 1 。s q l 语言的功能包括查询、操纵、定义和控制,是一个综合的、 通用的关系数据库语言,同时又是一种高度非过程化的语言,只要求用户指出做什么而 不需要指出怎么做。s q l 集成实现了数据库生命周期中的全部操作。s q l 提供了与关系 数据库进行交互的方法,它可以与标准的编程语言一起工作。白产生之日起,s q l 语言 便成了检验关系数据库的试金石,而s q l 语言标准的每一次变更都指导着关系数据库 产品的发展方向。直到二十世纪七十年代中期,关系理论才通过s q l 在商业数据库 o r a c l e 和d b 2 使用。1 9 8 6 年a n s i 把s q l 作为关系数据库语言的美国标准,同年公布 了标准s q l 文本。目前s q l 标准有3 个版本。基本s q l 定义是a n s i x 3 1 3 5 8 9 ,“d a t a b a s e l a n g u a g e s q l w i t hi n t e g r i t ye n h a n c e m e n t a n s 8 9 ,一般叫做s q l 一8 9 。s q l 一8 9 定义了 模式定义、数据操作和事务处理。s q l 8 9 和随后的a n s i x 3 1 6 8 1 9 8 9 , “d a t a b a s e l a n g u a g e e m b e d d e ds q l ”构成了第一代s q l 标准。a n s i x 3 1 3 5 1 9 9 2 a n s 9 2 1 描述了一 种增强功能的s q l ,现在叫做s q l 9 2 标准。s q l 9 2 包括模式操作、动态创建和s q l 语句动态执行、网络环境支持等增强特性。在完成s q l 9 2 标准后,a n s i 和i s o 即开 始合作开发s q l 3 标准。s q l 3 标准的主要特点在于抽象数据类型的支持,为新一代对 象关系数据库提供了标准。 4 面向对象数据库 随着信息技术和市场的发展,关系数据库系统虽然技术很成熟,但其局限性也显而 易见的:它能很好地处理所谓的“表格型数据 ,却对技术界出现的越来越多的复杂类 型的数据无能为力。九十年代以后,技术界一直在研究和寻求新型数据库系统,在相当 一段时间内,人们把经历花在研究“面向对象的数据库系统( o b j e c to r i e n t e dd a t a b a s e ) 或简称“o o 数据库系统”b o 。值得一提的是,美国s t o n e b r a k e r 教授提出的面向对象的 关系型数据库理论曾一度受到产业界的青睐。而s t o n e b r a k e r 本人也在当时被i n f o r m i x 花大价钱聘为技术总负责人。然而,数年的发展表明,面向对象的关系型数据库系统产 品的市场发展的情况并不理想。理论上的完美性并没有带来市场的热烈反映。其不成功 的主要原因在于,这种数据库产品的主要设计思想是企图用新型数据库系统来取代现有 的数据库系统。这对许多已经运用数据库系统多年并积累了大量工作数据的客户,尤其 6 第一章多媒体数据库技术研究 是大客户来说,是无法承受新旧数据间的转换而带来的巨大工作量及巨额开支的。另外, 面向对象的关系型数据库系统使查询语言变得极其复杂,从而使得无论是数据库的开发 商还是应用客户都视其复杂的应用技术为畏途。 1 2 多媒体数据库 多媒体数据库( m d b ,m u l t i m e d i ad a t a b a s e ) 1 1 1 】是一个由若干多媒体对象所构成的 集合,这些数据对象按一定的方式被组织在一起,可为其他应用所共享。多媒体数据库 管理系统是一个以m d b 为基础的多媒体应用,该应用能够完成对m d b 的各种操作功 能,如定义、创建、查询、访问、删除等。 l 多媒体数据的性质 首先介绍多媒体数据的性质【1 2 , 1 3 】。根据结构,多媒体数据可分为格式化数据和非格 式化数据两大类。根据连续性,多媒体性质数据又可分为连续媒体和离散媒体两类。非 格式化数据由大量的、数量变化的数据项组成,这些数据项可以是字符、象素、线段或 指针等。 2数据模型 数据模型( d a t am o d e l ) 是数据库管理系统中用于提供信息数据表示和操作手段的 形式构架,数据模型通常由数据结构、数据操作和完整性约束三部分组成,也称数据模 型三要素【1 4 1 。 通用的多媒体数据模型如图1 1 所示。 图1 1 一个通用的多媒体数据模型 f i g 1 1a nu n i v e r s a lm u l t i m e d i ad a t am o d e l ( 1 ) 对象层。对象包括具有指定空间和时间关系的一个或多个媒体项目。它通常是 只与一个中心主题有关。包括大量图像和伴随音频的幻灯片是多媒体对象的一个例子。 ( 2 ) 媒体类型层。媒体类型包括文本、图形、图像、音频和视频等常见的媒体类型。 这些媒体类型是由常见的抽象媒体类引导而来的。 7 大连交通大学工学硕士学位论文 ( 3 ) 媒体格式层。媒体格式层特指存储数据的媒体格式。媒体类型通常含有多个可 能的格式。例如,一个图像可以是原始位图格式的或其它格式的。也存在许多不同的压 缩技术和标准,包含在该层中的信息也可用于正常译码、分析和显示。 3 多媒体数据模式 从目前多媒体数据库技术的发展来看,多媒体数据模式可分为三类:关系数据模式、 面向对象数据模式和超文本( 超媒体) 数据模式【”】。 ( 1 ) 关系数据模式 关系数据模式1 1 ”7 1 定义了关系的结构以及存取完整限制、引用完整性等静态特性, 同时定义了选择、投影、连接和关系的集合运算、关系运算以及更新、定义数据等操作, 它反映了现实世界和人类对现实对象的抽象,已广泛地应用于当今的数据处理中,易于 用户接受和使用。 基于关系数据模式扩充的多媒体d b m s ,比较实用的一类系统有o r a c l e 、d b 2 、 i n f o r m i x 等。它们都是在关系d b m s 的基础上增加一种大二进制对象b l o b ( b i n a r yl a r g e o b j e c t ) 字段来支持对多媒体数据对象的存取,对关系数据模式的基本结构未做出任何 改动。对用户来说,仅仅是增加了一种新的数据类型,如图像、声音类型等,但用户只 能对b l o b 字段的存在进行查询,其相关的播放、变换等操作由用户的应用程序实现, 更不能根据b l o b 字段的内容进行查询。 ( 2 ) 面向对象数据模式 面向对象数据模式1 8 , 1 9 , 2 0 1 语义丰富,描述能力强,不仅可描述数据的静态结构,而 且可描述数据的动态行为,而且具有良好的可扩充性,可以方便地让用户定义新的数据 类型及其操作。封装性和可扩充性是面向对象技术的精髓,而复杂性、多样性又是多媒 体数据及其处理的突出特征之一,这两个方面决定了面向对象数据库技术是构造多媒体 数据库的一种比较适宜的手段。 ( 3 ) 超文本数据模式 超文本是一种生成和表示离散数据分段( 称为节点n o d e s ) 之间的关系链( 1 i n k s ) 方 法,当超文本的节点可以是任何媒体形式的数据( 如文本、图形、图像、声音、视像等) 时,这种超文本又叫做超媒体( h y p e r m e d i a ) 。当前,大多数人把超媒体看成超文本的 扩充,从而将两者统称为超文本【2 1 ,2 2 】。 4 多媒体数据的元数据 元数据是数据的数据。多媒体信息如音频、图像、视频等需计算机处理的二进制数 据是非结构化的,不能简单地用数学解析式表示。多媒体数据库必须取得基于这些媒体 8 第一章多媒体数据库技术研究 对象内容即信息特征的解释,才能完成存储以及检索应用。这些解释就称为元数据 【2 3 刀2 5 】 o 多媒体元数据可以分为如下三类: ( 1 ) 内容相关的元数据( c o n t e n t d e p e n d e n t ) :这类元数据是依靠媒体对象的内容 而产生的。比如从一个人的照片图像中引出面部特性( 如鼻子或者耳朵的类型,头发的 颜色) 就属于这一类。 ( 2 ) 内容描述的元数据( c o n t e n t - d e s c r i p t i v e ) :这类元数据与媒体信息有关联,但 是不能从它们的内容单独或自动地生成,它是根据使用者的描述或者使用者用感官勾画 出媒体对象的特性。例如,面部表情的元数据( 比如愤怒或者快乐) 虽然也是依靠图像 的内容,但是这些元数据必须根据使用者的描述而产生。 ( 3 ) 内容无关的元数据( c o n t e n t i n d e p e n d e n t ) :这类元数据不依靠媒体信息的内 容,但是与媒体信息相关。例如,摄影图片的摄影师的名字,创建多媒体文档的作者, 这些元数据跟媒体信息本来并没有直接关系,但可以作为背景信息或有关信息的介绍。 在上述三类多媒体数据的元数据中,和内容相关的元数据由于是根据媒体对象本身 的内容自动产生的,需要人工智能、模式识别、图像处理等领域的技术,而目前这些领 域的研究虽然取得了很大的进展,但完全依靠计算机自动地识别出媒体对象所要表达的 内容、情感、语义等,在现阶段以及可以预见的将来还是相当困难的。因此,对多媒体 形式的资料及相关资源来说,主要是后两类元数据描述,及描述媒体内容的元数据和与 内容无关的多媒体数据的背景信息。这两类元数据是利用开放形式的人机对话方式,在 系统的用户界面由多媒体数据的提供者或使用者来添加的。由于元数据是描述数据的属 性值对,对于资源对象来说,应该提供哪些属性,进而由用户来提供其属性的值,是 首先应该确定的问题。 5 物理存储模型 根据媒体的性质,多媒体数据库的物理存储模型【2 6 ,2 7 n - 1 分为如下3 种: ( 1 ) 直接存储d s m ( d i r e c t s t o r a g em o d e l ) 模型 把整个对象作为一个整体来存储,允许通过对象标识快速检索对象,但不支持基于 某些关键字值的查询,并且不适于表示复杂对象。被动对象( 如声音、图像数据) 可以 用d s m 存储在连续的块中。 ( 2 ) 规范化存储n s m ( n o r m a l i z e ds t o r a g em o d e l ) 模型 通过使用规范化机制将复杂对象分解成如下形式的若干元组的集合: ( o b j e c t ) i d ,v a l u el ,v a l u e 2 ,v a l u e n 9 大连交通大学工学硕士学位论文 其中o b j e c t 是对象标识, 是对象的属性值,这样就把一个对象的i d v a l u e lv a l u e n 内容及其属性存储在数据库中,并可以根据对象标识访问该对象,取得各种属性的值。 ( 3 ) 全分解存储f d s m ( f u l ld i s s o l v e ds t o r a g em o d e l ) 模型 每个属性用对偶( o b j e c t _ i d ,v a l u e ) 来表达。每个对象会根据各自属性的多少而具有 不同的对偶,这种方法比规范化存储模型分解得更彻底,使用也比较灵活。 6多媒体数据库检索 在多媒体数据库中,查询处理的难点在于如何基于非格式化数据的内容进行查询, 即内容搜索问题【2 8 , 2 9 , 3 0 , 3 1 】。在多媒体数据库中,图像、声音、视像等数据以经过数字化 得到的位串的形式存储,对这些媒体数据的内容搜索方法可分为如下三类: ( 1 ) 模式识别法 用户在查询请求中给定图像、声音或视像数据,系统用模式识别技术,把该媒体对 象与多媒体数据库中存储的同类媒体对象进行逐个匹配。但是,在当前的技术条件下, 这种方法是不切实际的,这是因为一些十分昂贵的模式识别软件只对某些特定应用有 效;用户难于精确指定它所需要的图像、声音、视像等媒体数据;模式识别算法的执行 十分耗时,如果在查询执行器件进行模式匹配,那么查询等待时间将难以忍受。 ( 2 ) 特征描述法 这种方法的基本思想是给每个媒体对象附上一个特征描述数据,用这种特征描述来 表达媒体数据的内容。这种特征描述数据是冗余的,它是对多媒体数据中的信息的重复 描述,这样,对多媒体数据的内容搜索实际上转化为对特征描述数据的内容搜索。这种 方法的关键问题是如何获取这种特征描述数据。 ( 3 ) 特征向量法 a m o r s 系统用向量模型进行图像内容搜索,基本思想是用图像压缩技术对图像进 行分解并向量化。把图像分解成随便对象、几何对象等集合,存储在多媒体数据库中, 把这些碎片对象、集合对象作为索引矢量,建立索引,系统就可以进行图像内容搜索了。 分解处理需花费大量时问,但对每个图像只需执行一次,另一方面,图像重构过程很快, 因此这种方法是可行的。 1 3 信息检索系统 除了d b m s 外,还有另外一种类型的信息管理系统专门用于文本文件的检索,这种 类型的系统被称为信息检索( i r ) 系统【3 2 ,3 3 1 。i r 技术在多媒体信息管理系统中是非常重 要的,主要有两个原因:第一,在类似图书馆一样的许多组织存在大量的文本文档。文 本是一个组织的非常重要的资料来源。为了使用存储在这些文档中的信息,需要使用一 l o 第一章多媒体数据库技术研究 个充分而且有效的i r 系统。第二,文本可以用来注释别的媒体类型,如音频、图像和 视频。常规的i r 技术可用于多媒体信息检索。 1 4 多媒体数据库管理系统 根据多媒体数据管理系统( m d b m s ) 的特点,m d b m s 应包括如下基本功能: ( 1 ) m d b m s 必须能表示和处理各种媒体的数据,重点是不规则数据如图形、图像、 声音等。 ( 2 ) m d b m s 必须能反映和管理各种媒体数据的特性,各种媒体数据之间的空间或 时间的关联。 ( 3 ) m d b m s 除必须满足物理数据独立性和逻辑数据独立性外,还应满足媒体数据 独立性。同时要求它不受媒体变换的影响,实现复杂数据的统一管理。 ( 4 ) m d b m s 的数据操作功能。除了能完成与传统数据库系统相同的操作外,还提 供许多新功能,如提供比传统d b m s 更强的符合非规则数据查询搜索功能,提供浏览 功能,提供演绎和推理功能,对非规则数据、不同媒体提供不同操作,如图形数据编辑 操作和声音数据剪辑操作等。 ( 5 ) m d b m s 应具有网络功能。目前多媒体应用一般以网络为中心,应解决分布在 网络上的多媒体数据库中数据的定义、存储、操作问题,并对数据一致性、安全性、并 发性进行管理。 ( 6 ) m d b m s 应具有开放功能,提供m d b 的应用程序接口a p i ,并提供独立于外 设和格式的接口。 ( 7 ) m d b m s 还应提供事务和版本管理功能。 注意到多媒体数据库管理系统预期可支持不同类型的查询,因此它具有广泛的应用, 包括: ( 1 ) 医药:一个医生拍了一幅新的超声波图像,并想从超声波图像库中检索具有左 心室肥大对比度的图像。 ( 2 ) 安全:警察显示一个人脸照片的系统,并想从一个安全信息库中检索与这些照 片相象的所有其它图像和相关人员的记录。 ( 3 ) 教育:一个学生扫描一幅动物图片并想从教育数据库中检索与这类动物有关的 所有情况( 包括声音、图像和文本描述) 。 ( 4 ) 出版:一个记者要写一篇有关某个人的文章,他想检索这个人在报纸和电视中 已经出现的所有图片和相关信息。 大连交通大学工学硕士学何论文 ( 5 ) 娱乐:一个用户想从一个大型视频数据库中检索与他所观看的视频相类似的视 频剪辑。 ( 6 ) 商标注册:一个处理商标应用的官员想判定类似的商标是否在以前注册过,他 需要一个商标数据库把最相似的现有商标与新商标进行比较。 本章小结 本章从数据库的发展开始,探讨了数据库系统的相关技术及对其进行操作的s q l 语言,给出了多媒体数据库的定义,并探讨了多媒体数据库的数据模型、数据模式、物 理存储模型等相关技术,最后列举了一些多媒体数据库系统的应用。 1 2 第二章多媒体数据库检索技术 第二章多媒体数据库检索技术 2 1 基于文件名的多媒体数据库检索 基于文件名的多媒体数据库检索系统【3 4 1 ,它使用传统的字符、数值数据库管理系统 的方法管理多媒体数据库,实际上是把文件管理系统和传统字符、数值数据库管理系统 结合起来,对多媒体数据中常规数据由传统的数据库管理系统来进行管理,面对非常规 数据( 如视频、图像数据等) ,则按相应操作系统提供的文件管理系统要求来建立和管 理,并且把数据文件的完全文件名( 包括文件名和扩展名) 作为一字符串数据纳入传统 的数据库管理系统进行管理。它实际上并不把多媒体数据信息存放在数据库中,而是将 包含多媒体数据信息的文件名存
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高校语文教育对学生职业竞争力的提升作用
- 大学第七届“挑战杯”创业计划大赛竞赛实施方案
- 医学医疗护理品管圈模板566
- 2024年铜仁沿河土家族自治县事业单位引进真题
- 新生儿窒息复苏操作流程临床应用
- 高一下学期生物教学计划
- 面神经麻痹护理个案
- 孕妇便秘日常护理常规
- 心内科常见护理诊断及护理措施
- 鼻插管的术后护理
- 2025年全国保密教育线上培训考试试题库附答案(完整版)含答案详解
- 儿科三基护理试题及答案
- 2025至2030全球及中国IC托盘(电子芯片托盘)市场运行格局及前景战略研究报告
- 电车运营出租合同协议
- epc设计咨询合同协议
- 航材库存时控件管理程序
- 主动防护网施工方案
- 项目部后勤管理制度
- 针灸治疗脾胃病
- 兵团职工面试试题及答案
- 上海工会考试试题及答案
评论
0/150
提交评论