(计算机软件与理论专业论文)一种扩展oai协议的元数据发掘方案及实现.pdf_第1页
(计算机软件与理论专业论文)一种扩展oai协议的元数据发掘方案及实现.pdf_第2页
(计算机软件与理论专业论文)一种扩展oai协议的元数据发掘方案及实现.pdf_第3页
(计算机软件与理论专业论文)一种扩展oai协议的元数据发掘方案及实现.pdf_第4页
(计算机软件与理论专业论文)一种扩展oai协议的元数据发掘方案及实现.pdf_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一种扩展o a i 协议的元数据发掘方案及实现 第1 页 摘要 为元数据发掘的o a i 协议是为了给大量在w e b 上发布信息的社会团体,组织,或 个人提供一个与实现无关的互操作方案,该框架主要分、为数据提供者和服务提供 者两个部分,其中数据提供者就是不同的数字图书馆实现者,但必须参照协议提 供必要的元数据信息。服务提供者综合,组织相应的信息,并提供一些增值服务 给终端用户o a i 协议具有与实现无关,支持多种元数据等多方面的优点,它的 出现必将改变我们访问数字信息的方式。 本文主要对0 i 协议的框架作了两个方面的扩展。第一,为了使o a i 协议能够支 持发布少量研究文献的个人数据提供者,采用注册一通知的客户服务器模型, 在数据提供者和服务提供者之间添加注册服务器,让服务提供者能够跟踪各个数 据提供者的在线不在线信息。解决了个人数据提供者不在线时出现的问题。第 二,通过o a i 协议中集的框架保存各数据资源站点的编目分类结构,服务提供者 可以给用户提供通用的查询服务,也可以针对不同的数据提供者提供详细的分类 查询服务。这样,用户得到的信息将更加多样和准确。 同时,给出了一个实现以上方案的数据提供者,注册服务器和服务提供者的原型 系统,它们能够被简单的安装,注册,并使用。 关键字:o m 协议数字图书馆元数据 一种扩展0 a i 协议的元数据发掘方案及实现第2 页 a b s t r a c t t h eg o a lo ft h eo p e na r c h i v e si n i t i a t i v ep r o t o c o lf o rm e t a d a t ah a r v e s t i n gi st o s u p p l ya n dp r o m o t ea na p p l i c a t i o n - i n d e p e n d e n ti n t e r o p e r a b i l i t yf r a m e w o r kt h a tc a n b eu s e db yav a r i e t yo fc o m m u n i t i e sw h oa r ee n g a g e di np u b l i s h i n gc o n t e n to nt h e w e b d a t ap m v i d e r sa d m i n i s t e rs y s t e m st h a ts u p p o r tt h eo a i p r o t o c o la sam e a n s o f e x p o s i n gm e t a d a t aa b o u tt h ec o n t e n ti nt h e i rs y s t e m s ;s e r v i c ep r o v i d e r si s s u eo a i p r o t o c o lr e q u e s t st ot h es y s t e m so f d a t ap r o v i d e r sa n du s et h er e t u r n e dm e t a d a t aa sa b a s i sf o rb u i l d i n gv a l u e a d d e ds e r v i c e s t h ee m e r g e n c eo fo a lw i l lc h a n g eo b rw a y o n a c c e s s i n gd i g i t a lr e s o u r c e s i nt h i sp a p e rw ee x t e n d e dt h ef r a m e w o r ko f o a i p r o t o c o li nt h ef o l l o w i n gt w oa s p e c t s f i r s t ,t os u p p o r ts m a l ld a t ap r o v i d e r sw e c a l l e d “p e r s o n a ld a t ap r o v i d e r s ”w eu s et h e r e g i s t e r n o t i f ym o d e lt om a k es e r v i c ep r o v i d e r st r a c kt h es t a t eo fd a t ap r o v i d e r s ,t h u s r e s o l v et h eu n s t a b l es e r v i c ep r o b l e m sr e l a t e dt op e r s o n a ld a t ap r o v i d e r s ,s e c o n d ,w e h o l d c a t a l o g i n g i n f o r m a t i o ni n t h e s e t f r a m e w o r ko fo a ip r o t o c 0 1 s e r v i c e p r o v i d e r sc a nn o to n l yo r g a n i z ec o m m o no a iq u e r yb u ta l s oo r g a n i z em o r ec o m p l e x q u e r yt ou s e r sa c c o r d i n gt oc a t a l o g i n gi n f o r m a t i o no fd a t ap r o v i d e r s s ou s e rc a ng e t m o r ea c c u r a t er e s u l t s w ea l s oi m p l e m e n t e da p r o t o t y p eo f d a t ap r o v i d e r , s e r v i c e p r o v i d e ra n dr e g i s t e rs e r v e r w h i c hc a n e a s yt ob ei n s t a l l e da n du s e d k e y w o r d s :o a ip r o t o c o l ,d i g i t a l l i b r a r y ,m e t a d a t a 一种扩展o a i 协议的元数据发掘方案及实现 第3 页 绪论 o a i 在1 9 9 9 年l o 月在一次学术出版联合组织的会议上提出,受到了网络信息联 盟( c n i 。t h ec o a l i t i o nf o r n e t w o r k e di n f o r m a t i o n ) 和数字图书馆联盟( d l f , d i g i t a l l i b r a r yf e d e r a t i o n ) 的支持,目前有两个版本:v e r s i o n 1 0o f 2 0 0 1 一0 1 2 1 ,v e r s i o n1 1 o f2 0 0 1 0 7 0 2 o a l 2 0 0 1 。 o a i 协议的目的是为了提供和促进互连网上发布内容的多个团体的与应用无关的 交互操作。它规定各个数据提供者提供一个统一的元数据接口,当用户送出某种 请求动作时,返回相应的满足一定格式的x m l 文档,全部的交互都通过w w w 方式 实现,通过x m l 文档的高度表达能力,可以表达很多信息,包括各种不同的元数 据格式如d c ,m a c 等。 各个数据提供者实际上就是一个独立的数字图书馆,o a i 协议规定了他们必须提 供的标准接口,使他们在某个层次上被组织起来,用户得以透明的获得他们的资 源,好像是在访问一个单独的数字图书馆一样。o a i 协议的元数据发掘方案综合 了集成式和联邦式两种常用元数据获得方案的优点,因此被广泛的认可,实现和 研究,是目前数字图书馆研究中的热门主题。 本文根据作者在数字图书馆项目中元数据组的工作经验,在两个方面对o a i 协议 进行了扩展,提出了e o a i m h ( e x t e n d so a i f o rm e t a d a t ah a r v e s t i n g ) 框架 1 目前实现o a i 协议的软件包大多数是用于满足较大规模数据提供者的,安装和 使用都比较复杂,为了满足很多个人科研者迅速发布研究成果的需要,我们提供 给他们一个简单的,平台无关的小型软件包,同时在o a i 的框架中加上注册服务 器,维护个人数据提供者的可用信息。服务提供者根据这些信息对各个数据提供 者的资源进行缓存。 2 对于较大规模的数据提供者,利用o a i 协议中集的框架嵌入相关的元数据分类 信息,并对o a i 协议中指定的d c 基本元数据集进行扩充 d c l 9 9 9 。服务提供名 可以根据这些信n , i k 用户组织更复杂的查询。提高了元数据发掘的能力。 同玎寸,本文还根据实际工作,对数据提供者,注册服务器,服务提供者实现的枷: 架和结构做了较详细的讨论。 本文的组织结构如下 第一章介绍了数字图书馆和元数据的一些基本概念,研究的现状,元数据在数字 图书馆中的作用以及本文中采用的元数据框架。第二章简单的介绍了o a i 协议的 具体内容和发展前景。第三章讨论了我们提出e o a i m l t ( e x t e n d e do a if or m e t a d a t ah a r v e s t i n g ) 的框架,对其体系结构,处理流程,组成部分做了详细 的说明。最后一章结合实际项目说明了原型系统的实现。 种j r 展o r i 协泌的j 数据发掘方案及实现 第4 贝 第一章数字图书馆和元数据 1 1 数字图书馆简介及其研究现状 数字图书馆是一种基于计算机网络,特别是基于i n t e r n i s t 的数字资源管理系 统。它维护分布式、大规模且有组织的数据库和知识库,保护信息资源的安全和知 识产权,支持本地和远程用户借助计算机网络对系统内的数据库和知识库进行一致 性的访问,传送和表现用户所需的信息,实现资源共享 s 硝2 0 0 0 。 计算机已在各行各业得到了广泛的应用。过去,计算机存储和管理的内容主要 表现为在字母、数字和正文形式。从有效组织和管理大量这类数据的需要出发,诞 生了数据库技术。数据库的理论和方法随着实践的深入得到了不断的巩固和完善。 进入二十世纪九十年代,大量的数字化媒体数据开始在计算机各项应用中出现,并 通过网络( 特别是i n t e r n e t ) 迅速蔓延到我们生活的各个角落。巨大的变革导致 了对数字化资源存储、管理和利用方法、技术和系统的普遍关注。问题的核心集中 在分布式网络环境下内容的有效收集、组织、管理、检索、发布等各项技术的研究 之上。数字图书馆( d i g i t a ll i b r a r y ) 建设正是这些努力的集中表现。 数字图书馆履行着图书馆的基本职能通过有效的文献传递实现人类社会 的知识交流。尽管数字图书馆与传统图书馆同样包含三个核心要素:社会目标 知识交流、行为手段文献传递、效果要求通过行为手段有效地实现社会目 标,但由于处理对象的数字化格式和网络与通信技术的应用导致了三个核心要素与 传统图书馆有着不同的内涵。 数字图书馆是以用户为中心的、由分布式数据和服务组成的信息空间。它必须 具备从异构的信息源中发现相关资源的资源发现能力、从确定的信息源中查询多媒 体信息的信息检索能力、为检索结果产生有益解释的信息选择能力、汇集和保存选 择的信息维护能力以及与他人共享信息的信息交流能力。其典型特征表现在: 数字化的信息资源数字化各种媒体承载的信息,通过多媒体技术将它们有 机结合在一起进行统一存储和管理 超链接的信息组织方式信息的组织形式为超链接的网状组织方式,便于构 造相互关联的知识体系 信息的网络化传输信息的网络传输使数字图书馆超越时空观念,跨越馆减 信息的地域界限,加快信息交流与反馈的速度。 以用户为中心的服务模式包括友好的人机界面与信息空间导航功能、内容 4 种扩展o a i 协议的元数据发掘方案发实现 第5 页 的快速传递功能、强有力的快速检索工具和先进的信息处理与分析工具、随时 可用的方法指导、非定点全天无间断的信息资源检索、处理和传递服务等。 正因如此,数字图书馆已成为二十一世纪全球文化与科技竞争的焦点之一, 是信息基础设施建设的热点领域 、 数字图书馆在世界范围内受到了高度的重视,被认为是下一代因特网网上信 息资源的管理模式,是信息基础设施的核心,是国家信息管理技术水平的重要体 现。1 9 9 5 年的美国政府蓝皮书就国家信息基础设施( n i l ) 列出了九项国家级挑战, 挑战技术之首即为数字图书馆。报告指出。数字图书馆是无墙知识中心的基础, 数字图书馆技术将被用于所有其它的国家级挑战应用。1 9 9 7 年的美国政府蓝皮 书中,数字图书馆被列为有效技术,1 9 9 8 年被列为首要研究发展重点。1 9 9 9 与 2 0 0 0 年,再次被纳入新的国家级项究项目,作为新世纪网络基础应用的具体目 标。 数字图书馆的研究和开发工作正在蓬勃开展,其典型代表是1 9 9 4 年美国国 家科学基金会( n s f ) 、国防部高级研究计划局( d a r p a ) 、国家航空和宇宙航行局 ( n a s a ) 联合资助的“数字图书馆先导研究计划( d l i ) ”。该计划第一阶段( d l i 1 ) 投入了2 4 0 0 万美元,资助六所大学从事数字图书馆信息处理关键技术的研究与 开发。主要研究项目包括声音、图象等多媒体对象的创建、存储与检索、信息搜 索引擎、数字图书馆的基本体系结构、互操作技术以及若干具体领域的数字图书 馆原型。这些研究与开发工作都极大的推进了数字化信息资源的收藏、存贮、组 织和应用。d l i 一1 至1 9 9 8 年已基本完成,之后在增加了更多资助机构的情况下 又启动了d l i 第二期工程,以5 0 0 0 万美元的投资额度资助了更多的研究项目, 体现了美国政府对数字图书馆的持续性重视。 与d l i 研究同步发展,包括美国国会图书馆在内的一些大型公共图书馆和大 学研究型图书馆也都进行了以资源数字化为特点的数字图书馆建设工作,这一领 域的大量实践为d l i 的研发工作提供了试验基地和应用机遇。 除美国之外,欧洲出版工程、法国和英国的国家图书馆以及同本、新加坡等 国政府、i b m 和h p 等跨国公司也都相继投入大量的人力、财力和物力着手数字 图书馆的研究和开发工作。 1 2 元数据及其在数字图书馆中的作用 元数据( m e t a d a t a ) 是“关于数据的数据”;元数据为各种形态的数字化信息单 元和资源集合提供规范、普遍的描述方法和检索工具: 元数据在数字图书馆中的主要应用目的如下 w 3 c 2 0 0 1 ( 1 ) 检索。辅助检索和确认所需要的资源,数据元素往往限于作者、标题、主 5 二登芏壁坠! 坠坚塑垂墼塑垄塑查塞墨壅墨笙! 墨一一 题、位置等简单信息,d u b l i nc o r e 是其典型代表。 ( 2 ) 著录描述( c a t a l o g i n g ) ,对数据单元进行详细、全面的著录描述,数据元 素包括内容、载体、位置与获取方式、制作与利用方法、甚至相关数据单元方面 等,数据元素数量往往较多,m a r c 、g i l s 和f g d c c s i ) 1 3 m 是这类m e t a d a t a 的典 型代表。 ( 3 ) 资源管理( r e s o u r c ea d m i n i s t r a t i o n ) 。支持资源的存储和使用管理,数 据元素除比较全面的著录描述信息外,还往往包括权利和隐私管理 ( r i g h t s p r i v a c ym a n a g e m e n t ) 、数字签名( d i g i t a ls i g n a t u r e ) 、认可和分级 ( s e a lo fa p p r o v a l r a t i n g ) 、访问管理( a c c e s sm a n a g e m e n t ) 、支付和审计 ( p a y m e n ta n da c c o u n t i n g ) 等方面的信息。 ( 4 ) 资源保护与长期保存( p r e s e r v a t i o na n da r c h i v i n g ) ,对资源进行长期保 存,数据元素除对资源进行描述和确认外,往往包括详细的格式信息、制作信息、 保护条件、迁移方式( m i g r a t i o nm e t h o d s ) 、保存责任等内容。 上述几种应用目的中,尤以第一和第二种作用最为重要,本文中提出的元数据方 案也主要完成第一和第二种功能,以后会继续的加入如资源管理等其他方面的功 能。 1 3 几种流行的元数据方案及元数据格式标准化问题 根据不同领域的数据特点和应用需要,9 0 年代以来,许多m e t a d a t a 格式在各个 不同领域出现,主要的有: 网络资源:d u b l i nc o r e 、i a f at e m p l a t e 、c d f 、w e bc o l l e c t i o n s 文献资料:m a r c ( w i t h8 5 6f i e l d ) ,d u b l i cc o r e 人文科学:t e lh e a d e r 社会科学数据集:i c p s rs g m lc o d e b o o k 1 尊物馆与艺术作品:c i m i 、c d w a 、r l gr e a c he l e m e n ts e t 、v r ac o r e 政府信息:g i l s 地理空间信息:f g d c c s d g m 数字图像:m o a 2m e t a d a t a 、c d lm e t a d a t a 、o p e na r c h i y e sf o r m a t 、v r ac o r e 、 n i s o c l i r r l gt e c h n i c a lm e t a d a t af o ri m a g e s 档案库与资源集合:e a d 技术报告:r f c1 8 0 7 连续图像:m p e g 一7 m e t a d a t a 丌发应用经验表明,很难有一个统一的m e t a d a t a 格式来满足所有领域 的数据描述需要:即使在同一个领域,也可能为了不同目的而需要不同的但可相 6 一种扩展o a i 协议的元数据发掘方案及实现 第7 页 互转换的m e t a d a t a 格式。同时,统一集中的m e t a d a t a 格式标准也不适合i n t e r n e t 环境。但没有一个统一的m e t a d a t a 格式就带来了不同格式之间的互操作问题。 下面就是几种目前国际上解决不同格式互操作问题的方法: 1 元数据格式映射 利用特定转换程序对不同元数据元格式进行转换,称为元数据映射( m e t a d a t a m a p p i n g c r o s s w a l k i n g ) 。目前已有大量的转换程序存在,供若干流行元数 据格式之间的转化,例如 d u b l i nc o r e 与u s ) n l r c :d u b l i nc o r e 与e a d d u b l i nc o r e 与g i l s :g i l s 与m a r ct e i h e a d e r 与m a r cf g d c 与m a r c 也可利用一种中介格式对同格式框架下的多种元数据格式进行转换,例如 u n i v e r s e 项目利用g r s 格式进行各种姒r c 格式和其它记录格式的转换。格式映 射转换的特点是准确、转换效率较高。 不过,这种方法在面对多种元数据格式并存的开放式环境中的应用效率明显受到 限制。 2 标准描述框架 解决元数据互操作性的另一种思路是建立一个标准的资源描述框架,用这个框架 来描述所有元数据格式,那么只要一个能够解析这个标准描述框架的系统,就能 解读各种m e t a d a t a 格式这些不同的元数据在网络环境下一致的集成的关键是 一个元数据体系结构,例如w a r w i c kf r a m e w o r k ,和r d f ( r e s o u r c ed e s c r i p t i o n f r a m e w o r k ) w a r w i c k 框架是一个包容器的体系结构,提供了一种逻辑,甚至物理地集成不同 的元数掘包的机制。具有以下特点: 1 允许各元数据集的设计者集中考虑特定的需求,而不必面面俱到。 2 允许各元数据集根据语义、事件和功能( 处理) 需要制定语法。 3 区别了元数据管理和维护。 4 允许工具和代理有选择地访问和操作某些( 元数据) 包而忽略其它包。 允许分别控制对同一对象的不同元数据集的访问。 5 易于容纳未来的元数据集而不需要对现有元数据或程序的修改。不同的元数据 包并不表示语义上的完全分离。事实上,这是w a r w i c k 框架的一个特点,允许一 个容器包含多个被分别管理和维护的在语义上相互覆盖的包 w a r w i c k 框架被用来集成多个元数据集合。它包含两个基本的元件。包容器和包, 包是各种类型的元数据集,包容器是集成包的单元。包容器可以是暂时的或持久 的。暂时的包容器被作为元数据库与客户以及代理( a g e n t ) 之间的传输对象。 7 一种扩展o i 协议的元数据发掘方案及实现 第8 页 持久的元数据则被存放在一个或多个服务器上,并能够通过一个全局标识( u r i ) 访问。一个包容器也可以被其它对象包含( 例如一个同时包含数据和元数据的对 象) ,这时这个对象会包含u r i 而不是元数据包容器本身。每一个包是一个有类 型的对象。有三种类型的包; 、 元数据集是真正包含元数据的包。例如由m a r c 记录或d u b l i nc o r e 记录或编码 的款项和条件构成的包。一个潜在的问题是客户或代理识别和处理这么多种元数 据集的语义的能力,而且还要适应新增的元数据集。w a r w i c k 框架的最初实现包 含了常用的元数据集,就像大多数w e b 测览器能够支持通用的 t i m e 类型的处理 一样。w a r w i c k 框架对可扩展元数据集的支持依赖于一个类型注册系统。 间接( 包) 是一个间接引用信息基础设施( 如w e b ) 中的对象的包。虽然这种引 用可以利用u r l ,一个可靠的u r n 系统的实现对于避免w e b 上的空引用这样的问 题是必需的。这种引用有三个明显而且重要的问题。首先引用的目标是一个资源 对象,因此可以有它自己的元数据,特别是它自己的款项和访问控制条件。第二, 间接包指向的目标可能也被其它包容器间接引用( 即共享元数据对象) 。最后, 间接包指向的目标可能与引用它的包容器在不同的仓储或服务器上。 包容器:本身就是一个包容器的包。对这种递归没有明确的限制。 下图( f i g u r e1 ) 是w a r w i c k 框架包容器的一个简单的例子。这个包容器包含三 个元数据的逻辑包。前两个是d u b l i n 和m a r c 记录,被包含在包容器中,第三个 元数据集定义了访问内容对象的款项和条件( 描述一个对象的使用条件的元数 据。例如a c l ,使用费用等等) ,被通过包容器中的一个u r i 间接引用。 f i g u r e1 as i m p l ee x a m p l eo fw a r w i c kf r a m e w o r k r d f ( r e s o u r c eo e s c r i p t i o nf r a m e w o r k ) 是另一种资源描述框架,被认为是元 数据处理的基础,可以用于不同的领域,提供更好的资源描述和发现能力,为特 定w e b 站点或数字图书馆提供描述内容及内容间关系的目录信息是它的重要特 征。其特点将在下一节中详细论述。 二壁芝壁! ! ! 垃堡箜歪墼塑垄塑查窭墨壅墨箜! 塑 1 4 扩展o a i 协议中元数据的框架 经过反复的研究考虑,e o a i m h 框架中决定采用标准的描述框架中的r d f 方法来 描述元数据的格式和分类结构,因为该方法具有更好的通用性和更强的描述能 力,并且能够避免大量异构元数据格式的映射问题 x z c c 2 0 0 2 。 r d f 的基本数据模型由三种对象类型构成,分别是资源、属性和陈述( s t a t e m e n t ) , 一个特定的资源和它的一个属性以及属性的取值就是一个陈述。 如下图( f i g u r e2 ) 所示 、 f i g u r e2 t h eb a s i cm o d e l o fr d ff r a m e w o r k r d f 的目标之一是为了能够基于x m l ,以标准化的,可互操作的方式,说明数据 的语义。当然,r d f 也可以使用其它的语法说明。 资源描述要求描述资源的特征,例如对一本书可能包括它的“作者”,“书名”, “主题”等信息。对这些属性及其对应语义的声明被以r d f 模式的形式定义在 r d f 中,一个模式不仅定义资源的属性( 如作者,主题,大小,颜色等) ,而且 可以定义所描述资源的种类( 书籍,w e b 页面,人,公司等等) 。为此,r d f 模式 提供了一个基本的类型系统用于r d f 模型。它定义如r d f s :c l a s s 和 r d f s :s u b c l a s s o f 这些用于说明特定于应用的资源和属性。r d f 定义的类型系统 是一个类似于面向对象类层次结构的分类系统,通常为某个特定领域制定的一组 类构成一个模式( s c h e m a ) 。类形成层次结构,通过子类细化提供可扩展性。模 式( s c h e m s ) 具有可共享性从而可以支持元数据定义的可重用性。r d f 定义的模 式是增量可扩充的,所以可以方便地进行扩展。r d f 的可共享和可扩展性也允许 元数据作者通过多继承来合并元数据定义,为数据提供多种视图,或利用现有其 它人的工作成果。 r d f 定义了核心类作为整个模型的基础这些核心类包括: 资源( r d f s :r e s o u r c e ) :所有由r d f 表达式描述的事物都被称为资源,是类 r d f s :r e s o u r c e 的实例。 属性( r d f :p r o p e r t y ) :是一类特殊的r d f 资源。r d f 的基础是一个表示命名属 性和属性值的模型。可以把r d f 属性( r i ) fp r o p e r t y ) 看作资源属性( r e s o u r c e o 种扩展o a i 协议的元数据发掘方案及实现 第1 0 页 a t t r i b u t e ) 。r d f 属性还表示资源之间的关系,所以可以用e r 图表示r d f 模式。 类( r d f s :c l a s s ) :与通常的类型或分类的概念对应,类似于面向对象编程语言 中的类,当一个模式定义了一个新类。代表这个类的资源必须有一个r d f :t y p e 属性,属性值是r d f s :c l a s s 。r d f 类可以被用来表示几乎所有事物。例如w e b 页, 人,文档类型,数据库或抽象概念。 每一个通过模式定义的r d f 模型也( 可能是隐含地) 包括以下的核心属性( c o r e p r o p e r t i e s ) 。它们是r d f :p r o p e r t y 类的实例,提供了表达类、实例、超类之间 关系的机制: 类型( r d f :t y p e ) :表示一个资源是一个类的成员,具有此类成员的所有特征。 当一个资源的r d f :t y p e 属性值是某个特定的类时,这个资源就是这个类的一个 实例。单独的类总有一个r d f :t y p e 属性,这个属性的值是r d f s :c l a s s ( 或 r d f s :c l a s s 的某个子类) 一个资源可以是多个类的实例。 子类( r d f s :s u b c l a s s o f ) :说明类之间的子集超集关系。r d f s :s u b e l a s s o f 属 性具有传递性。如果类a 是类b 的子类,并且b 是c 的子类,则隐含地a 也是c 的子类。这样,属于a 类的资源实例也是c 的资源实例,因为a 同时是b 和c 的 予集。一个类可以是多个类的子类。但子类关系不可以出现循环。 本文拟建立一个统一的,易于扩充的r d f 框架来描述绝大多数数字图书馆中需要 的元数据。并把该框架嵌入o a i 协议中的s e t 中。在宏观上对整个系统的元数据 进行有效的管理。其大致结构如下图( f i g u r e3 ) 的示例: 一种扩展o a i 协议的元数据发掘方案及实现 s :s u b c l a s s o f t :t y p e o f f i g u r e3 :本文中采用的元数据结构 其中以r d f 开头的椭圆框表示类型,其余的表示类型的实例,类型反映了该类型 信息元数据的基本属性和结构,用一个x m l 中的d t d 来描述。其实例必须和类型 一致。子类型必须包括父类型的所有属性和结构,并有所扩充。一个子类型可以 多重继承,从而整个结构是一个有向无环图。当有新的信息加入的时候,可以根 据情况将其归类为已有的类型或增添新的子类型。这种层次关系实际上是对以前 图书馆中图书分类法的一种扩充。 一种扩展o a i 协议的元数据发掘方案及实现第1 2 页 第二章o a i 协议简介 2 1o a i 协议的起源和目的 o a i 指的是o p e na r c h i v e si n i t i a t i v e ,它的目标是,发展和促进在互操作能 力方面的系列标准,以方便内容数据的高效分发。o a f 的起因是为了加强以学术 交流为目的的对电子印刷文档的访问,以及要保证科学数据在将来也可以访问的 需求。因为o a i 的出现,我们访问使用学术信息的方式将有一个根本性的改变。 “a r c h i v e ”在电子印刷的团体里与“ar e p o s i t o r yo fs c h o l a r l yp a p e r s ”同 义,继续沿用这个词反映了0 a i 的起源。o p e na r c h i v e si n i t i a t i v e 由t h e d i g i t a ll i b r a r yf e d e r a t i o n ,和t h ec o a l i t i o nf o rn e t w o r k e di n f o r m a t i o n 提供支持,此外对于o p e na r c h i v e si n i t i a t i v e sp r o t o c o l s 的研究工作还得到 了n a t i o n a ls c i e n c ef o u n d a t i o ng r a n tn o i i s 一9 8 1 7 4 1 6 和d e f e n s ea d v a n c e d p r o j e c t sa g e n c yg r a n tn o n 6 6 0 0 1 9 8 一卜8 9 0 8 的资助。 2 2o a i 协议的基本内容和结构 2 2 1 o a f 协议的几个基本概念及其相互关系 文档( a r c h i v e ) :r e p o s i t o r i e so fs c h o l a r l yp a p e r 的同义词。该名字反映了 o a i 协议的起源,但现在o a i 协议的适用范围并不仅仅指科学方面的论文,可以 用于多种数字形式存储的信息。 数据提供者( d a t ap r o v i d e r s ) :维护一些r e p o s i t o r i e s ( 仓储) ,并且支持o a i 协议来揭示其仓储的元数据内容。 服务提供者( s e r v i c ep r o v i d e r ) :向d a t ap r o v i d e r s 发出o a ip r o t o c o lr e q u e s t s 并且利用得到的元数据构建具有附加值的服务。服务提供者和数据提供者是o a i 协议的两个基本组成部分。 记录( r e c o r d ) :当接受到一个特定的o a i 请求时,数据提供者返回的一个或多 个元数掘项( i t e m ) ,返回的形式用指定格式的x m l 字节流。 集合( s e t ) :一种反映元数据组织的框架。 2 2 2 o a i 协议的具体内容 首先需要说明的是o a i 协议的总体结构,如下图( f i g u r e4 ) 示: 一种扩展o a i 协议的元数据发掘方案及实现 第1 3 页 o a i p r o t o c f i g u r e4 o a i 协议的总体结构 服务提供者是通过发送o a i 协议的标准请求从各个数据提供者那里获得必要的 信息的,获得该信息的格式是满足o a i 协议的x m l 文件。服务提供者组织这些数 据,提供高效的查询系统和其他增值功能为客户服务。o a i 协议的技术体系中, 指定了d c 作为d a t ap r o v i d e r s 方必须支持提供的元数据格式。同时支持对多种 元数据格式的查询,通过用元数据前缀来说明。 o a i 记录有三个部分: h e a d e r 记录头部 u n i q u ei d e n t i f i e r 唯一标识符 d a t e s t a m p 仓储中某一个条目的创建、删除或最后修改时间。 m e t a d a t a 元数据,规定都必须支持d c ,是否支持其他元数据格式由仓 储自行决定,可以通过m e t a d a t ap r e f i x 进行标识。 a b o u t 可选部分,内容一般是关于元数据部分的数据,例如使用权限等, 这部分的结构协议中不做规定。 o a f 协议的请求使用h t t p 中的g e t 或p o s t 方法。请求传递至少一个的参数,形 式如:k e y = v a l u e ,多个参数时使用隔丌。每个o a i 请求都必须包括一个名 字为v e r b = o a i 方法名的参数。 g e t 方法传送的请求用? 连接在u r l 的后面,例如: h l t p :a n o a o r g o a i s c r i d t ? v e r b = g e t r c c o r d i d e n t i f i e r :o m :a r x iv :h e p t h 9 9 0 1 0 0 l & m e t a d a t a p r e f i x = o a i d c 这是一个未经过编码的请求,表示使用的o a i 方法是g e t r e c o r d ,要请求得到 i d e n t i f i e r 是o a i :a r x i v :h e p t h 9 9 0 1 0 0 1 的记录,记录的元数据格式是o a i d c ( 遵循o a i 定义的s c h e m a 的d u b l i nc o r e ) 。 一种扩展o a i 协议的元数据发掘方案及实现 第1 4 页 p o s t 传送请求时,o a i 请求串放在h t t pp o s t 的b o d y 部分,例如: p o s t h t t p :a n o a o r g o a 一s c r i p t h t t p 1 0c o n t e n t l e n g t h : 7 8 c o n t e n t t y p e :a p p l i c a t i o n x w w w f o r m u r l e n c o d e d 指定必须使用 v e r b = g e t r e c o r d i d e n t i f i e r = o a i 3 a a r x i v 3 a h e p - t h 2 f 9 9 0 1 0 0 1 m e t a d a t a p r e f i x = o a i d c 这是经过了编码的请求。 对o a i 请求的响应也使用h t t p 的响应格式,加上适当的头部。每一个o a i 请求 的响应的c o n t e n t t y p e 都是t e x t x m l ,使用u t f 一8 编码。 所有响应的x m l 数据都具有如下标记: 1 ) x m l 版本声明,编码声明,例如: 2 ) 根元素与要响应的o a i 请求中的方法同名,根元素有三个属性,x m l n s 、 x m l n s :x s i 、x s i :s c h e m a l o c a t i o n ,分别指定了根元素的名字空间、对x m ls c h e m a 的声明、指定要使用的x m ls c h e m a 文件的u r l 。 3 ) 对于所有的响应,根元素的第一个子元素是r e s p o n s e d a t e ,( 格式规范的仓 储本地时间) ,说明了响应发送的时间。 4 ) 对于所有的响应,根元素的第二个子元素是r e q u e s t u r l ,内容是请求中的已 经编码过的u r l ( u r l 中的要替代成& a m p :,以便符合x m l 的语法规范) 状态码: o a i 协议使用h t t p 的状态码来指示请求是否成功,以及错误原因。例如,一个 成功的o a i 请求,用2 0 0 ,而发生错误的请求则用h t t p 中相应的4 料。但是, 4 0 0 对o a i 具有特殊的含义,返回4 0 0 代表请求的语法错,例如:非法的参数或 方法。仓储应该使用h t t pr e a s o n p h r a s e 提供关于错误的信息,这样对于读者 也是很有益处的。 o a i 仓储也会可能支持其他h t t p 状态码,例如用于分流负载的状态码, 3 0 2 :允许仓储临时重定向一个o a i 请求到其他仓储,临时仓储的u r i 在响应q , 给出。 5 0 3 :不能提供服务,指示一个时间段,在此之后才可以重试。在此其闽发来的 请求不予响应。 闩期和时间 o a l 请求:在l i s t r e c o r d s 和l i s t i d e n t i f i e r s 请求中,可选参数f r o m 和u n l i l 类型和记录头中的d a t e s t a m p s 一样,使用i s 0 8 6 0 i 的“完整日期”格式, y y y y m m d n o a i 响应:每个响应中都有的r e s p o n s e d a t e 元素,必须是仓储本地的同期加上 时间,格式是i s 0 8 6 0 1 中规定的“完整日期加小时,分,秒”, 种扩展o a i 协议的元数据发掘方案及实现 第1 5 页 y y y y m m d d t h h :i l m l :s s t z d 。例女, 1 9 5 7 0 3 2 0 t 2 0 :3 0 :0 0 + 0 0 :0 0 ( u t c8 :3 0p m 0 1 3m a r c h2 0 t h1 9 5 7 ) 。 元数据前缀和元数据s c h e m a 在向仓储发送请求时,使用元数据前缀来标识每一种元数据格式,元数据前缀的 命名由无空格的字母数字或下划线组成。元数据s c h e m a 是一个x m ls c h e m a 文 件。可以用来对记录中的元数据的合法性进行检测。 l i s t m e t a d a t a f o r m a t s 请求可以列出一个仓储支持的所有元数据格式。对 l i s t m e t a d a t a f o r m a t s 请求的响应中包括每种格式的元数据前缀和元数据 s c h e m a 的u r l 。而这种x m ln a m e s p a c e 的u r i 是可选部分。 在l i s t r e c o r d s 和g e t r e c o r d 请求中,元数据前缀也可以作为参数,指定返回记 录中包含元数据的格式。返回记录中的元数据遵循x m ln a m e s p a c e 的规范,因 此元数据部分必须包含一个属性x m l n s ,取值是这种元数据格式的n a m e s p a c e 的u r l 。 对l i s t m e t a d a t a f o r m a t s 请求的返回结果中包括了元数据s c h e m a 的u r l 到元数 据前缀的对应。 为了保证互操作性,o a i 协议要求所有的仓储都支持不使用限定词,因此协议保 留了元数据前缀o a i d c ,d c 元数据格式的s c h e m a 见 b 主主乜;! 笪! :q 卫旦凸垦! 堡垒i ! 旦兰:q ! g q ! 垒曼:墨苎g 流控制 一些o a i 请求的返回结果是列表,这样就可能很大,需要分割成一系列的协议请 求和响应。分割要遵守以下规则: 当需要分割结果列表时,返回的是一个不完整的列表和一个r e s u m p t i o n t o k e n 。 请求方为了得到完整的列表,需要继续发送一个或多个带有r e s u m p t i o n t o k e n 的 请求,这样从这系列的响应就得到一个完整的列表。 细节如下: 1 ) 对于r e s u m p t i o n t o k e n 的已经定义的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论