(计算机软件与理论专业论文)基于rdfxml的资源库系统的研究与实现.pdf_第1页
(计算机软件与理论专业论文)基于rdfxml的资源库系统的研究与实现.pdf_第2页
(计算机软件与理论专业论文)基于rdfxml的资源库系统的研究与实现.pdf_第3页
(计算机软件与理论专业论文)基于rdfxml的资源库系统的研究与实现.pdf_第4页
(计算机软件与理论专业论文)基于rdfxml的资源库系统的研究与实现.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着我国社会信息化程度的不断提高,人们面临的信息资源呈指数 级增长,如何有效地管理这些信息资源已经成了一个迫切需要解决的问 题。这时,资源库系统应运而生。 本文分析了现有资源库系统存在的缺陷,从解决元数据的互操作性 入手,围绕资源库系统的元数据建模、用户自定义资源模式和企业应用 集成展开研究,初步奠定了开放式的基于r d f x m l 的资源库系统的基 础。 本文结合国际和国内权威组织定义的与信息资源相关的标准元数 据,建立了资源库系统的元数据集,并采用具有语法互操作性和语义互 操作性的元数据描述模型r d f 对资源进行描述,定义了资源模式的 s c h e m a ,从而保证了资源描述的互操作性。 r d f x m l 是整个资源库系统的基石,用户自定义资源模式的松耦合 设计模式建立在这个基础之上。用户自定义资源模式是本文重点研究的 对象。它采用x m l 技术,改变了整个系统的架构,使得系统对消息的数 据结构的依赖降到了最低,数据层对应用层是透明的。在用户自定义资 源模式的设计中,提出了r d f x m l 映射到关系型数据库以及关系型数据 库映射到r d f x m l 的一种简单实用的算法。 本文在企业应用集成上解决了两个层次的问题:应用层集成和数据 层集成。由于c o r b a 的主要目标是解决面向对象的异构应用之间的互操 作问题,并提供分布式计算所需的一些其它服务。因此,利用c o r b a 技 术可以很好地解决异构的应用系统在应用层和资源库系统的集成。本文 提出了c o r b a 和e j b 之间进行互操作的解决方案,并给出了相应的a p i 接口。用户自定义资源模式的设计中提出的关系型数据库到资源模式映 射r d f ,x m l 的方案,很好地解决了资源库系统在数据层将遗留数据库系 统集成在一起。 本文所提出的资源库系统的解决方案可以用于各种信息资源的管理 和基于企业应用集成的项目中。 关键词r d f x m l ;资源库;用户自定义资源模式;企业应用集成:c o r b a a b s tr a o t w i t ht h ec o n t i n u o u si n c r e a s eo ft h e i n f o r m a t i o n a l i z a t i o nl e v e l ,t h e i n f o r m a t i o nr e s o u r c e p e o p l e c o n f r o n ti n c r e a s e s e x p o n e n t i a l l y h o w t o e f f i c i e n t l ym a n a g e t h ei n f o r m a t i o nr e s o u r c eh a sb e e n a p r o b l e m t h a t u r g e n t l yn e e d sr e s o l v i n g t h e r e f o r e ,ar e s o u r c ew a r e h o u s es y s t e mh a sb e e n p r o d u c e d t h i s p a p e ra n a l y s e s t h ef l a w so ft h e e x i s t i n g r e s o u r c ew a r e h o u s e s y s t e m s t h e n ,b e g i n n i n gw i t ht h em e t a d a t ai n t e r o p e r a b i i i t y ,i tw o r k s o nt h e m e t a d a t a m o d e l l i n g ,u s e r s e l f - d e f i n i t i o nr e s o u r c em o d e la n d e n t e r p r i s e a p p l i c a t i o ni n t e g r a t i o n i tb a s i c a l l y e s t a b l i s h e st h e o p e n r e s o u r c e w a r e h o u s es y s t e mb a s e do nr d f x m l w i t ht h er e s e a r c ho nt h es t a n d a r dm e t a d a t ar e l a t e dt ot h ei n f o r m a t i o n r e s o u r c ed e f i n e d b y t h ei n t e r n a t i o n a la n dd o m e s t i ca u t h o r i t a t i v e o r g a n i z a t i o n ,t h i sp a p e rb u i l d st h em e t a d a t as e tt h a tb e l o n g st ot h er e s o u r c e w a r e h o u s e s y s t e m t o d e s c r i b et h e r e s o u r c e ,i ta d o p t s t h em e t a d a t a d e s c r i p t i o nm o d e lr d ft h a t h a st h e s y n t a xi n t e r o p e r a b 订i t y a n ds e m a t i c i n t e r o p e r a b i “ty ,a n dd e f i n e st h er e s o u r c es c h e m a t h e r e f o r e ,i tg u a r a n t e e s t h er e s o u r c ed e s c r i p t i o ni n t e r o p e r a b i l i t y r d f x m li st h eb a s eo ft h ew h o l er e s o u r c ew a r e h o u s es y s t e m ,a n dt h e l o o s ec o u p l i n gd e s i g np a t t e r nf o rt h eu s e rs e l f - d e f i n i t i o nr e s o u r c es c h e m ai s b a s e do ni t t h eu s e rs e l f - d e f i n i t i o nr e s o u r c es c h e m ai st h ef o c u so ft h e r e s e a r c hi nt h i s p a p e r i ta d o p t s t h ex m lt e c h n o l o g y ,a n d c h a n g e st h e a r c h i t e c t u r eo ft h ew h o l es y s t e m a sar e s u l t ,i tm i n i m i z e st h ed e p e n d e n c e o nt h em e s s a g es t r u c t u r e ,a n dt h ed a t al a y e ri st r a n s p a r e n tt ot h ea p p l i c a t i o n l a y e r i nt h ed e s i g no f t h eu s e rs e i f _ d e f i n i t i o nr e s o u r c es c h e m a t h i sp a p e r p r o p o s e sas i m p l ep r a c t i c a la l g o r i t h mo fm a p p i n gr d f x m lt oar e l a t i o n a l d a t a b a s ea n dm a p p i n gar e l a t i o n a ld a t a b a s et or d f x m l t h i sp a p e rr e s o l v e st w op r o b l e m si ne n t e r p r i s ea p p l i c a t i o ni n t e g r a t i o n , t h a ti s , a p p l i c a t i o nl a y e ri n t e g r a t i o na n dd a t al a y e ri n t e g r a t i o n t h em a i n o b j e c t i v eo fc o r b a i st or e s o l v et h ep r o b l e mo fi n t e r o p e r a b i l i t yb e t w e e n t h e o b j e c t o r i e n t e dh e t e r o g e n o u sa p p l i c a t i o n s ,a n d t o p r o v i d e w i t ht h e s e r v i c e st h a td i s t r i b u t e d c o m p u t i n gn e e d s t h e r e f o r e ,u s i n gt h e c o r b a t e c h n o l o g y c a n g a i n a s a t i s f a c t o r y r e s u l to f i n t e g r a t i n g t h er e s o u r c e i l w a r e h o u s es y s t e mw i t ho t h e rh e t e r o g e n o u sa p p l i c a t i o n sa tt h ea p p l i c a t i o n l a y e r t h i sp a p e rp r o p o s e sas o l u t i o nt oi n t e r o p e r a t i o nb e t w e e nc o r b a a n d e j b ,a n dg i v e s o u tt h e c o r r e s p o n d i n g a p i t h es o l u t i o nt o m a p p i n g a r e l a t i o n a ld a t a b a s et ot h er e s o u r c es c h e m ar d f x m l ,w h i c hi sp r o p o s e di n t h e d e s i g n o fu s e rs e l f - d e f i n i t i o nr e s o u r c e s c h e m a ,i s b e n e f i c i a lt o i n t e g r a t i n gt h el e g a c yd a t a b a s ew i t ht h er e s o u r c ew a r e h o u s es y s t e ma tt h e d a t al a y e r t h es o l u t i o n p r o p o s e d i nt h i s p a p e r c a nb eu s e da v a r i e t y o f i n f o r m a t i o nr e s o u r c em a n a g e m e n ta n dt h ep r o j e c t sb a s e do nt h ee n t e r p r i s e a p p l i c a t i o ni n t e g r a t i o n k e y w o r d s :r d f x m l ;r e s o u r c ew a r e h o u s e ;u s e rs e l f - d e f i n i t i o nr e s o u r c e s c h e m a ;e n t e r p r i s ea p p l i c a t i o ni n t e g r a t i o n ;c o r b a i i l 第一章绪论 第一章绪论 1 1 研究背景 网络时代,随着科学技术和经济的迅猛发展,人们面临的信息越来 越多。来自i n t e r n e t 的外部信息和来自i n t r a n e t 的内部信息,足以让人目 不暇接。人们往往需要花费很大精力才能从信息的海洋中找到自己所需 要的一点东西。这些东西可能随着时间的推移,当日后再需要用到它们 时,可能一下子不知道它们存放在哪里了,因为需要存放的信息太多。 即使人们能够将所获得的信息进行分类存放,但是分类的粒度不可能做 到很小。这是因为信息的分类通常是以文件系统的目录形式进行的。文 件系统对文件的管理本身就具有一定的缺陷。首先,不能使用诸如关键 词之类的搜索信息进行快速检索。其次,以文件系统的形式存放在本地 磁盘的信息不便于在广域网内共享,不能实现远程访问。再者,即使能 在局域网内共享,也很容易遭到病毒的攻击。 另外,虽然我国信息“高速公路”的建设已经初具规模,但是有些 行业的信息资源建设没有跟上,造成了有“路”没有“车”的尴尬局面。 如何将某行业内的信息资源有效地组织管理起来,供更多需要的人能够 访问,这一现实问题更加迫切地需要解决。 针对资源的存储,目前出现了一些特定的资源库系统,如:面向教 育的教育资源库,主要用来存放课件、试题和作业等资源。但是,现有 的这些资源库系统大多存在缺乏标准元数据支持,不能支持多维度查找 资源,资源库系统之间缺乏互操作性等缺陷。 1 2 研究目标 本课题的研究目标是建立一个开放式的通用资源库系统。该系统既可 以当作一个独立的资源库系统运行,又可以作为一个中间件,充当其它 应用系统的后台资源库使用。 1 3 课题来源 本课题来自导师奚建清教授主持,由广东省科技厅资助的科研攻关项 目一一广东省办公资源库系统。本课题组和国内几家著名的软件公司一 珠海金山公司、广州新太科技公司、广州京华网络公司以及广州科友 公司,共同致力于推出新一代办公自动化软件标准。将办公资源库、w p s 华南理:】:大学工学硕士学位论文 o f f i c e 、工作流,以及安全平台集于一体,构建新一代办公自动化软件平 台。 1 4 主要工作及成果 本文的研究工作主要集中在资源描述模型( r e s o u r c ed e s c r i p t i o n m o d e l 。r d m ) 、用户自定义资源模式( u s e rs e l f - d e f i n i t i o n r e s o u r c e s c h e m a ,u s d r s ) ,以及企业应用集成( e n t e r p r i s ea p p l i c a t i o ni n t e g r a t i o n , e a l ) 等三个方面。 资源描述( r e s o u r c ed e s c r i p t i o n ) 是资源库系统中最基础的工作。 资源库系统的所有操作都是围绕该描述展开,把该描述作为操作对象。 鉴于未来应用服务( a p p l i c a t i o ns e r v i c e ) 的方式将是w e b 服务的模式。 在确定描述模型时,采用了w 3 c 组织提出的r d f 模型,为建立资源库 系统的w e b 语义网提供了拓展的条件。 用户自定义资源模式( u s d r s ) 是资源库系统为用户提供扩充资源 模式( r e s o u r c es c h e m a ,r s ) 的一个接口,是构成开放式资源库系统的 一个重要组成部分。用户自定义资源模式的引入不应引起资源库系统应 用层的改变,自定义的资源模式应该能够同系统内建的一些资源模式一 样,和资源库系统无缝地连接在一起。为了实现这一要求,提出了基于 x m l 技术的松耦合设计的方案。 企业应用集成( e a i ) 技术将资源库系统和已有的一些系统,如: w p so f f i c e 和工作流等,集成在一起。它能够将其他数据库或者资源库 中的数据源( 若干个表信息) 作为一种资源引入到资源库系统中,而不 需要对资源库系统的应用层做任何修改。同时,还能够为不同程序语言, 如:j a v a 、c + + 、v c v b 等编写的应用系统提供调用接口,使资源库系统 能够和其他的应用系统有机地集成在一起。 本文的主要成果体现在以下三个方面: 1 采用r d f 模型描述资源模式,提高了资源元数据的互操作性, 为构建一个基于w e b 的资源库系统的语义网奠定了基础。 2 用户自定义资源模式的松耦合设计以x m l 作为消息的载体,实 现了资源库系统在数据层的统一,从而使用户自定义的资源模式和系统 内建的资源模式对资源库系统的应用层是透明的。 3 利用c o r b a 技术和x m l 技术,实现了资源库系统同其它系统 在应用层和数据层的集成。 2 第二章资源模式描述模型 第二章资源模式描述模型 2 1x m l 技术 九十年代初w e b 的诞生推动了i n t e r n e t 及其应用的发展,同时,w e b 应用的开发者开始体验到现有h t m l 的局限性。因为h t m l 并不具备大 规模w e b 应用所需要的可扩展性、结构化和可校验性等特性。1 9 9 6 年, w 3 c 致力于推出一个超越h t m l 能力范围的标记语言,这个语言后来被 命名为x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 。1 9 9 8 年,w 3 c 发布了x m l 1 0 n i 作为其推荐标准,为w e b 应用乃至网络计算注入了新的活力。 2 1 1 x m l 简介 s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e ) ( i s o8 8 7 9 ) 是一种 用于与文本应用有关的数据表示方法。x m l 和h t m l 都是从s g m l 演变 而来的文件格式,它们有很多相似之处。但是,h t m l 是s g m l 的一种 应用,而x m l 是s g m l 的一个子集。这样,h t m l 不能再定义新的应用, 而x m l 则可以,比如:r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 就是x m l 的应用。 x m l 有三个主要特点: 1 可扩展性x m l 允许使用者创建和使用他们自己定义的标记。可 扩展性是至关重要的,企业可以用x m l 为电子商务和供应链集成等应用 定义自己的标记语言,甚至特定的行业可以定义该领域的标记语言,作 为该领域信息共享和数据交换的基础。 2 独立性x m l 强调的是描述数据内容的组织结构,通过这些组织 结构信息,可以引导不同的数据的使用者将自己关心的数据取出来。x m l 能够成功的一个关键就是其将数据内容和具体应用分开,从而提高使用 效率和可重用性。这一点在通过网络交换数据时表现得更为明显。 3 自描述性x m l 文档通常包含一个文档类型声明。它不但严格定 义了该项数据应该在哪出现,而且规定了各种数据项之间的关系,是对 一种数据文件组织格式进行的描述。由于具有自描述性,x m l 文档里的 数据可以由支持x m l 的应用来创建、查询和更新,跟处理传统的关系型 数据库里的数据类似。x m l 甚至还能用来表示那些以前不被看作文档但 是对传统的数据库来说又过于复杂而难以理解的数据。所以,x m l 文档 被看作是文档的数据库化和数据的文档化。 华南理工大学工学硕士学位论文 2 1 2x m l 相关技术规范 2 1 2 1x m ld t d d t d t l ( d o c u m e n tt y p ed e f i n i t i o n ) 用来定义文档中可 能出现的元素、属性、标记、实体及其相互关系。它用来描述在文档中 可以使用哪些元素标记,哪些元素是包含于其它元素中的,哪些元素可 以有属性等。d t d 可以包含在它所描述的文档中,或者通过u r l 与文档 相链接。每个x m l 文档都要与其d t d 相对照,这一过程成为合法性检 查。如果文档符合d t d 中的约束,该文档就被认为是合法的,否则就是 不合法。相同的d t d 可以被不同的x m l 文档和网站共享 2 1 。 2 1 2 2x m ls e h e m ax m l s c h e m a 用来描述x m l 文档合法结构、内容 和限制。x m ls c h e m a 由x m l1 0 自描述,并且使用了命名空间,有丰 富的内嵌数据类型和强大的数据结构定义功能,将逐步取代d t d ,成为 x m l 体系中正式地类型语言。x m ls c h e m a 有以下三个特点: 1 丰富的自描述数据类型x m ls c h e m a 规范提供了丰富的数据类 型。其中不仅包括一些内嵌的数据类型,例如:s t r i n g ,i n t e g e r ,b o o l e a n t i m e ,d a t e 等,规范还提供了定义新类型的能力,如:c o m p l e x t y p e 和 s i m p l e t y p e 。 2 继承和复用x m ls c h e m a 支持继承是它的另一特点。可以利用 从已经存在的s c h e m a 中获得某些类型而构造新的s c h e m a 。同时,x m l s c h e m a 能将一个s c h e m a 分成单独的组件,在写s c h e m a 时,可以正确地 引用已经定义的组件。 3 与命名空间紧密联系x m ls c h e m a 与x m l n a m e s p a c e 紧密联系, 使得在一个命名空间中创建元素和属性非常容易。 2 1 2 3x s l x m l 的一个重要的特性是把内容和显示格式分开。这样 做带来了很大的好处,可以让不同的用户按照各自希望的格式显示同一 x m l 文档的数据内容。这也就意味着x m l 文档本身并没有关于格式方 面的信息。为x m l 文档提供格式信息的是样式表,适用于x m l 文档的 样式表语言有x s l 和c s s 2 语言。c s s 2 语言既可以用于h t m l 文档,也 可以用于x m l 文档。而x s l 是专门为x m l 设计的样式表语言,并采用 x m l 语法。x s l 的优势在于它可以用于格式转换,x s l 可以把x m l 文 档转换为h t m l 格式。而且同一个样式表可以用于多个具有相似源树结 构的文档。显示的媒介不只限于w e b 浏览器,还可以是印在纸上的书和 报告等。 处理x s l 样式表的是x s l 样式表处理器。样式表处理器接收一个 4 第二章资源模式描述模型 x m l 文档或数据,以及x s l 样式表,输出特定样式的显示,其显示格式 根据x s l 样式确定f 4 j 。这个处理过程分两步进行。首先,根据x m l 文件 构造源树,然后根据给定的x s l 将这个源树转换为可以显示的结果树。 这个过程称作树转换。最后再按照f o 解释结果树,产生一个可以在屏幕 上、纸上、语音设备或其他媒体中输出的结果。这个过程叫格式化。 2 2r d f 模型 r d f t s 】r r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 通过基于x m l 语法的明确 定义的结构化约定来帮助建立语义协定与语法编码之间的桥梁,以此来 促进元数据的互操作能力。r d f 本身并不规范语义,当时它为每一个资 源描述体系提供定义反映某特定需求的语义结构的能力。从这个意义上 来说,r d f 是一个开放的元数据框架。 r d f 模型的基本对象类型有三种:资源( r e s o u r c e s ) 、陈述 ( s t a t e m e n t s ) 、属性( p r o p e r t i e s ) 。所有被r d f 描述和规范的信息和文档都 被称作为资源。每个资源都具有属性。资源通过唯一资源标识符u r i 来 标识,其属性由属性类型来标志。每个属性类型都有对应的属性值。属 性类型表示这些属性值与资源之间的关系。 有向标记图( d i r e c t e dl a b e lg r a p h l 是r d f 的基本数据模型,其最基 本的单元是陈述( s t a t e m e n t ) 。s t a t e m e n t 是一个三元组( p ( 谓词) ,s ( 主题) , o ( 对象) ) 。主题通过谓词与对象建立联系。资源、属性和属性值三者之 间的关系就是通过陈述来建立的。资源是主题,属性是谓词,属性值则 是对象。陈述说明了资源的某个属性具有的属性值。 在r d f 中,属性值要么是一些被认为具有原子性的事物( 如字符串 或数字) ,要么是其他的资源,而这些资源本身又拥有自身的属性。这种 嵌套容易表示资源的包容关系。 容器是r d f 的一个重要的概念。容器模型提供了三种重要的对象: 包对象( b a g ) 、序列对象( s e q u e n c e ) 和可选择对象( a l t e r n a t i v e ) ,这三种对 象非常适合于层次性和集合语义表现。b a g 对象用于描述资源的具有多个 属性值的属性,而且属性值的先后顺序无关紧要:s e q u e n c e 对象也用于 描述资源的具有多个属性值的属性,但是属性值的先后顺序具有重要意 义;a l t e r a t i v e 对象用于描述资源属性具有多个可选择属性值。 r d f 的开放性主要在于它的模式( s c h e m a ) 机制,用户可以根据应用 需要,遵循r d f 模式规范自行定义扩展模式。模式定义了r d f 中所使用 的术语和元素类型,它实质上是一种名字空间f n a m e s p a c e ) 概念【6 】。 r d f 采用了面向对象的概念( 类、子类、属性和予属性) ,使得资 华南理工大学工学硕士学位论文 源之间的层次和属性的继承关系得到了很好的体现,其关联机制提供了 描述和内容之间的关联描述,对于对象之间的关系描述十分有效,便于 机器的理解和人的易读。 2 3 元数据集 2 3 1 元数据定义 元数据是指“数据的数据( d a t a a b o u td a t a ) ”,是专门用来描述数据 的特征和属性的,能用来支持电子资源的定位、发现、评估和选择等。 它的出现有两个因素:一是电子资源成为资源的主流:二是网络上大量 的文件管理和检索需求。元数据对于搜索引擎的搜索效果将起到不可估 量的作用。元数据的选择和实现是资源管理与组织的核心问题。 元数据的特点i s : 1 元数据的引用性元数据是资源管理的一种引用结构。元数据有 直接引用和间接引用两种方式。前者是将元数据嵌入资源对象描述中。 后者则作为资源管理时的引用对象,独立进行管理。 2 元数据的共享性元数据一经建立,便可以在企业组织、网络化 组织范围哪共享。 3 元数据的可扩展性资源描述者、资源管理者和资源服务者等均 可以在元数据使用过程中添加元数据。 4 元数据的动态性元数据的动态性是指元数据的结构完整性依赖 于信息资源的价值和使用环境。w e b 搜索引擎提供的元数据通常是自动而 简略的。而专家或专业搜索服务提供的元数据则是精细而复杂的。 5 元数据的歧异性元数据是在对资源共性认识的基础上提出的一 种资源组织格式。其格式与当时的具体应用和认识深度有密切关系。因 此,不同的资源用户、不同的资源类型以及不同的信息服务者可能具有 不同的元数据格式,并由此带来元数据之间的互操作性问题。 在资源库的建设中,重要的是如何结合国际和国内的相关元数据标 准,形成一套符合标准的用于资源库的元数据集,使资源的描述标准化, 从而提高资源的互操作性。目前,有跨领域信息资源描述的元数据标准 集d u b l i nc o r e ,描述声音和视觉内容的标准m p e g 7 等。 2 3 2d u biinc or e d u b l i nc o r e r 9 1 ( d c ,都柏林核心元数据) 是基于网络信息资源的描述 问题而创立的元数据,它对目前搜索引擎对资源内容的抓取能起到准确 6 第二章资源模式描述模型 定位的作用。d c 目前已形成相对固定的标准,由1 5 个核心的元素构成, 分别从资源内容、知识产权和外部属性三个方面对信息资源进行描述。 1 资源内容描述类 t i t l e ( 标题) :资源的名称; s u b j e c t ( 主题) :资源的主题,通常是描述资源主题或内容的关键 词或词组短语; d e s c r i p t i o n ( 描述) :资源的内容的文本描述,包括文献类对象的 文摘或视觉作品的内容描述; s o u r c e ( 来源信息) :二次资源的出处信息: r e l a t i o n ( 关联) :二次资源及其与当前资源关系的标识,该元素允 许在相关资源和资源描述问建立关联; c o v e r a g e ( 覆盖范围) :资源应用的范围: l a n g u a g e ( 语言) :资源的语言类型; 2 知识产权描述类 c r e a t o r ( 作者或创建者) :对创造资源内容负主要责任的个人或机 构: c o n t r i b u t o r ( 贡献人) :指没有在c r e a t o r 元素中列出的对资源内 容具有重要贡献的个人或组织,其贡献次于创建者; p u b l i s h e r ( 出版者) :正式发布资源的实体; r i g h t s ( 权限) :使用资源的权限信息。 3 外部属性描述类 d a t e ( 日期) :指与创建或使资源成为可利用状态相关的日期: t y p e ( 类型) :资源所属的类别; f o r m a t ( 格式) :资源的数据格式,用于注明需要什么软件或硬件来 显示和执行这一资源; i d e n t i f i e r ( 标识符) :资源的唯一标识; 2 3 3m p e g 一7 m p e g 7 1 0 l 是多媒体内容描述接1 3 ( m u l t i m e d i ac o n t e n t d e s c r i p t i o n i n t e r f a c e ) ,其目标就是产生一种描述多媒体内容数据的标准,满足实时、 非实时以及推一拉应用的需求。m p e g 并不对应用标准化,但可利用应用 来理解需求并评价技术,它不针对特定的应用领域,而是支持尽可能广 泛的应用领域。 m p e g - 7 标准化一种语言来说明描述模式,即“描述定义语言 ( d d l ) ”。m p e g - 7 描述的主要对象是视觉数据和听觉数据。 华南理工大学工学硕士学位论文 1 视觉数据的描述m p e g 一7 具体对视觉方面的描述子和描述模式 有以下方面的要求: ( 1 ) 特征类型视觉描述允许以下特征( 与查询中使用的信息类型有 关) :颜色、视觉对象、纹理、轮廓( 草图) 、形状、静止和动态图像、 体积、空间关系( 相对于图像和图像序列中的对象空间和拓扑关系,这 个关系是空间合成关系) 、运动( 如视频镜头中的运动,用于利用时间合 成信息来检索等方面) 、变形( 如对象的弯曲) 、视觉对象的源和它的特 性( 如源对象、源事件、源属性、事件、事件属性等) 、模型( 如m p e g 4 s n h c ) 。 ( 2 ) 利用描述进行数据可视m p e g 7 数据描述应该容许被索引数据 或多或少地粗略可视化。可视数据支持以下格式:数字视频和电影( 例 如m p e g 1 2 4 ) 、模拟视频和电影、电子形式的静态图像( 如j p e g ) 或 纸上的图像、图形、3 d 模型以及与视频关联的编辑数据。 ( 3 ) 可视数据类型包括:自然视频、静态图像、图形、动画、三维 模型、编辑信息。 2 听觉数据的描述对音频数据的描述子和描述模式有以下要求: ( 1 ) 特征类型包括:频率轮廓线、音频对象、音色、和声、频率特 征、振幅包络、时间结构( 包括节奏) 、文本内容( 语音或歌词) 、声波 近似值( 通过哼唱一段旋律或发出一种声音效果来生成) 、原型声音( 典 型的用于示例查询) 、空间结构( 用于多通道声源,如立体声、5 1 通道 等,每个声道有特定的映像) 、声源和它的特性( 例如源对象、源时间、 源属性、事件、事件属性和典型的关联场景) 、模型( 如m p e g 4s a o l ) 。 ( 2 ) 描述数据的听觉化类似视觉数据的要求。 ( 3 ) 听觉数据格式包括:数字音频( 如m p e g 1 音频、c d ) 、模拟 音频( 如录音带介质) 、m i d i ( 包括一般的m i d i 和k a r a o k e 格式) 、基于 模型的音频、产品数据。 ( 4 ) 昕觉数据类包括:声音轨迹( 自然音频场景) 、音乐、原子声 音效果( 如掌声) 、语音、符号音频表示( m i d i 、s n h c 音频) 、混音信 息( 包括效果) 。 2 3 4 资源库系统元数据 建立资源库系统元数据的目的是合理地组织和利用数据,达到信息 和资源的高效应用和共享。为了使资源库系统的元数据集和其它系统的 元数据具有互操作性,在定义元数据集时充分兼顾标准元数据。 资源库系统的元数据包括通用元数据和特定元数据两大部分。通用 第二章资源模式描述模型 元数据用来描述基本资源模式,特定元数据用来描述具体资源模式。目 前,资源库系统内建了四种具体资源模式:电子公文、音频、视频和图 象。 2 3 4 1 通用元数据用于描述基本资源模式,包括d u b l i n c o r e 所定 义的全部1 5 个元素。 2 3 4 2 特定元数据用于描述具体资源模式。一般来说,不同的具体资 源模式具有不同的元数据。考虑到现阶段资源库的任务主要是作为办公 自动化软件平台的后台存储系统,因此,需要产生一套适合我国政府办 公的电子公文元数据。同时,还需要具备对一些较常用的电子资源类型, 如:音频,视频,图像等的描述功能。因此,目前资源库系统的特定元 数据包括电子公文元数据、音频元数据、视频元数据和图像元数据。 1 电子公文元数据随着我国电子政务建设的深入,标准化的重要 性愈来愈显现,迫切需要建立和完善与电子政务快速发展相适应的国家 电子政务标准体系,尽快制定一批支撑电子政务建设和发展的基础性关 键标准。为此,国家标准化管理委员会会同国务院信息化办公室成立了 “国家电子政务标准化总体组”,研究制定电子政务标准。根据国家标准 x m l 电子公文规范化,电子公文有如下元数据: ( 1 1 f i l e c o d e :发文字号 ( 3 ) d e p a r t m e n t :发文机关 ( 4 ) d r a f t s m a n :起草人,公文的拟稿者。 ( 5 ) t o p r i m a r y d e p a r t m e n t :主送机关,公文的主要受理机关。 ( 6 ) t o s e e o n d a r y d e p a r t m e n t :抄送机关,除主送机关外需要执行或知 晓公文的其他机关。 ( 7 ) v a l i d i t y d e a d l i n e :有效期,公文在接收单位的保存截止日期。 ( 8 ) c o m p l e t e d d a t e :成文日期,公文的完成时间,以负责人签发的 日期为准。 ( 9 ) s e n d o u t t i m e :送出时间,发送公文的单位向接收公文的单位发 送公文的时间。 ( 1 0 ) r e c e i v e t i m e :签收时间,公文的主送机关或抄送机关负责人签 收公文的时间。 ( 1 1 ) e m e r g e n e e d e g r e e :紧急程度,公文的紧急程度。 ( 1 2 ) s e e r e t r a n k :保密等级,公文的保密等级。 ( 13 ) s e q u e n c e :份数序号,保密公文签发若干份时每份公文的顺序 9 华南理工大学工学硕士学位论文 编号。 ( 1 4 ) s e c r e t d e a d l i n e :保密期限,公文的保密期限。 2 音频元数据根据m p e g 7 的数据听觉化的描述要求, 源库系统的基本需求,确定了如下元数据: ( 1 ) s a m p l i n g :采样频率。 ( 2 ) q u a n t i z a t i o n :量化位数,数字化过程中的量化精度。 f 3 ) c h a n n e l :声道数。 ( 4 ) d u r a t i o n :播放时间。 ( 5 ) f i l e s i z e :文件大小。 3 视频元数据根据m p e g 7 的数据视觉化的描述要求, 源库系统的基本需求,确定了如下元数据: ( 1 ) f r a m e s :帧的总数。 ( 2 ) k e y f r a m e :关键帧,具有代表性的帧。 ( 3 ) r e s o i u t i o n :分辨率,最大帧的长度与宽度,以像素计。 ( 4 ) s a m p l i n g :采样频率。 ( 5 ) d u r a t i o n :播放时问。 ( 6 ) c o l o r ;颜色。 并结合资 并结合资 ( 7 ) f i l e s i z e :文件大小。 4 图像元数据参照m p e g 7 的要求,图像元数据包括以下几个: ( 1 ) c o l o r :颜色。 ( 2 ) t e x t u r e :纹理。 ( 3 ) r e s o l u t i o n :分辨率,图象的长度与宽度。 ( 4 ) f i l e s i z e :文件大小。 2 4 资源描述模型 2 4 1 语义网概念 计算机领域在建立语义方面的两个主要方法是:声明化的语义和过 程化的语义。 在声明化的语义中,表达式e 的意思由另一个可理解形式的影射给 出,或者由e 后面的结果或属性给出。没有特定的计算过程仍可以获取e 的含义。这也就是“声明化”的涵义。使用过程化的语义,表达式e 的 含义由运行在e 上的一些真实的和虚拟的过程( 如程序、机器) 给出。 要获取e 的含义,就必须运行e 上面的这些过程。观察其结果。 声明化和过程化语义的不同体现在,w e b 页面的语义通过x m l 和 1 0 第二章资源模式描述模型 r d f 两种方式获取时不同。x m l 表达式没有语义的继承性,它的语义只 能通过一个或多个基于该x m l 的应用程序来表现。例如:嵌套的标记可 以理解为p a r t o f ,或者s u b t y p e o f ,或者其它。而r d f 具有特定声明的 语义,如s u b c l a s s o f 的含义,并且该语义与r d f 表达式的处理器无关, 或者说任何r d f 处理器都会支持预定义的语义。 在x m ls c h e m a 中的类型扩展机制并不等同于r d fs c h e m a 中的 s u b c l a s s o f 机制。在x m ls c h e m a 中,如果类型t 从类型t 衍生而来, 那么类型t 的并不一定是原t 类型的元素,而r d fs c h e m a 的 “s u b c l a s s o f ”关系中,类型t 的元素一定是类型t 的元素。因此, s u b c l a s s o f 可以实现本体对象中的子类的概念,而x m ls c h e m a 的类型 扩展无法实现】。 2 4 2 姿源模式模型 定义2 - 1 资源模式f r e s o u r c es c h e m a ) :资源的类型,包括若干个元 数据描述子。 定义2 2 资源描述( r e s o u r c ed e s c r i p t i o n ) :资源模式的实例,包括 若干个元数据描述值。 定义2 - 3 资源内容( r e s o u r c ec o n t e n t ) :资源的二进制内容。 华南理工大学工学硕士学位论文 图2 1 资源表示模型 f i g u r e2 1 r e s o u r c er e p r e s e n t a t i o nm o d e l 资源库中有一种抽象的资源模式称为基本资源模式( b a s e r e s o u r c e s c h e m a ,b r s ) ,它具有资源库中所有资源模式的共性,每一种具体的资 源模式都继承b r s 的元数据属性。具体的某一类资源模式,如:电子公 文e d o c ,是b r s 的子类,即r d f 中的s u b c l a s s o f 关系。并且,资源库 系统还提供用户自定义资源模式的手段,创建自己需要的具体资源模式 ( o t h e r s ) ,具体参见第三章“用户自定义资源模式”。 定义2 4 设:x m l n s :r d f s = ”h t t p

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论