(计算机应用技术专业论文)oaipmh中元数据同步模型的研究.pdf_第1页
(计算机应用技术专业论文)oaipmh中元数据同步模型的研究.pdf_第2页
(计算机应用技术专业论文)oaipmh中元数据同步模型的研究.pdf_第3页
(计算机应用技术专业论文)oaipmh中元数据同步模型的研究.pdf_第4页
(计算机应用技术专业论文)oaipmh中元数据同步模型的研究.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

o a i p m h 中元数据同步模型的研究 中文摘要 随着科学技术的飞速发展,人类在认识世界、改造世界的科技活动中不断积累 着丰富的科学数据。科学数据的急剧膨胀,信息量的极大丰富,导致用户无法从海 量数据中准确及时地获取所需信息,从而影响到科学数据的传播速度和利用效率。 因此确保科学数据能够最及时地为用户提供快速有效的服务,以便于用户准确地定 位自己所关心的最新学科动态和科研成果,一直是科学数据共享工程的一个关键问 题。 在众多建设科学数据共享工程的方法中,o a i p m h 是简单有效的一种。它能够 自动收集分布在各地的科学元数据,依此建立元数据库并对外提供增值服务,真正 实现分散的、不同系统平台之间的元数据交换和共享,提高了系统的互操作能力。 为了保证共享平台能够提供给用户各个领域的最新科学数据,需要解决数据提供者 和服务提供者间元数据的同步问题。本文通过分析原有同步方法的弊端,采用仓储 更新周期与用户访问量相结合的方法来实现对数据提供方收割时间的动态调整,从 而保证在充分利用系统资源的前提下准确及时地把仓储更新信息收割回来,达到有 效维护数据提供方和服务提供方元数据同步的目的。同时,为更好地发挥科学数据 的使用价值并提升信息利用率,服务提供方需要把更新的数据及时准确地传送给用 户,因此本文提出把r s s 技术应用到o a i 框架中,转换o a i 中d c 格式元数据成 r s s 格式( r s s l 0 和r s s 2 0 ) ,利用r s s 技术及时性、标准统一、易于整合的特点, 把来自不同数据提供方的r s s 文件按类别重新整合成r s sf e e d ,提供一个统一的界 面供用户浏览或订阅,使得用户能够持续跟踪仓储变化信息,极大的满足了用户个 性化信息需求,扩大了内容的影响力。 关键词: o a i p m h ;同步模型;更新周期;元数据转换;x s l t ;r s s r e s e a r c ho nm e t a d a t as y n c h r o n i z a t i o nm o d e li nt h eo a i p m h g r a d u a t en a m e :x iu h u iw a n g m a jo r :c o m p u t e ra p p l i e dt e c h n o l o g y d i r e c t e db y :l i c h a oc h e n a b s t r a c t w i t ht h ed e v e l o p m e n to ft e c h n o l o g y ,t h eh u m a na r ea c c u m u l a t i n gr i c h s c i e n c ed a t ai nt h es c i - t e c ha c t i v i t i e so fu n d e r s t a n d i n ga n dr e f o r m i n gt h e w o r l d t h er a p i de x p a n s i o no fs c i e n c ed a t al e a d st ot h ep r o b l e mt h a tp e o p l e c a n tt i m e l yg e tt h en e e d e di n f o r m a t i o n ,t h u sa f f e c t i n gt h ed i s s e m i n a t i o n s p e e da n du t i l i t ye f f i c i e n c yo fs c i e n c ed a t a i no r d e rt om a k eu s e r sf i n dt h e i n f o r m a t i o nt h e yc a r ea b o u ta c c u r a t e l y ,w em u s te n s u r et h a ts c i e n t i f i cd a t a c a nb et i m e l ya n dq u i c k l yt r a n s f e r r e dt ou s e r ,a n dt h a ti sa l s oa k e yp r o b l e m i nt h es c i e n t i f i cd a t as h a r i n gp r o g r a m a m o n g t h em a n ym e t h o d sw h i c ha r eu s e dt oc o n s t r u c ts c i e n t i f i cd a t a s h a r i n gp r o g r a m ,o a i - p m h i sas i m p l ea n de f f e c t i v eo n e i tc a n a u t o m a t i c a l l y c o l l e c ts c i e n t i f i cm e t a d a t ai nv a r i o u s p a r t s ,p r o v i d e v a l u e - a d d e ds e r v i c e sf o ru s e r s b ys e t t i n gu pm e t a d a t a b a s e ,a c t u a l l y i m p l e m e n tm e t a d a t ae x c h a n g ea n ds h a r i n gb e t w e e nd i f f e r e n tp l a t f o r m s ,a n d m a r k e d l yi m p r o v et h ei n t e r o p e r a b i l i t y i no r d e rt oe n s u r et h a tu s e r sc a ng e t t h el a t e s ts c i e n t i f i cd a t af r o mt h es h a r i n gp l a t f o r m ,w em u s tk e e pm e t a d a t a s y n c h r o n i z a t i o nb e t w e e nd a t ap r o v i d e ra n ds e r v i c ep r o v i d e r i nt h i sp a p e r , w ea n a l y z et h ed r a w b a c k so ft h e o r i g i n a ls y n c h r o n i z a t i o nm e t h o da n d p r o p o s ean e ww a yt os o l v et h ep r o b l e mb ya d ju s t i n gt h eh a r v e s ti n t e r v a l d y n a m i c l yb a s e d o nr e p o s i t o r y u p d a t e i n t e r v a la n d r e p o s i t o r yr e q u e s t v a r i a t i o n f u r t h e r m o r e ,i no r d e rt oa s s u r eu s e r sg e t t i n gt h eu p d a t et i m e l y ,w e p r o p o s e da nx s l t b a s e dt r a n s f o r m a t i o nm e c h a n i s mt ot r a n s f o r mt h eo a i r e c o r d so faw e bp a g et or s sd o c u m e n tf o r m a t s ( s u c ha sr s s1 0a n d r s s 2 o ) u s i n gt h ec h a r a c t e r i s t i c so fr e a lt i m e ,s t a n d a r df o r m a ta n de a s i l y i n t e g r a t i o ni nt h er s st e c h n o l o g y ,w er e i n t e g r a t et h er s sd o c u m e n t sb y i i i s u b j e c t 仔。md i f f e r e n td a t a p r o v i d e ri n t or s sf e e d t h e np r o v i d e a r s s f e e d 孟c r i p t i o np a g ef o ru s e r s b yt h es u b s c r i p t i o np a g e ,u s e r sc 锄幽s c r i b e 恤 i i l 如h n a t i o nt h e y a r ei n t e r e s t e di n u s i n g r ssr e a d e r u s e r s c a n g e t r 印o s i t o 巧,su p d a t ei n f o r m a t i o n i nr e a lt i m e ,t h u sg r e a t l ym e e t i n gu s e r s 。 k e y w 。r d s :o a i p m h ;s y n c h r o n i z a t i o nm 。d e l ;u p d a t e 砒e r v a l ;m e t a d 姗 t r a n s f o r m a t i o n ;x s l t ;r s s i v 声明户明 本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文 不包含其他个人或集体已经发表或撰写过的科研成果。对本文的研究 做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的 法律责任由本人承担。 作者签名:圣歪整 日期: 锄。l 、箩1 s 关于学位论文使用权的说明 本人完全了解太原科技大学有关保管、使用学位论文的规定,其 中包括:学校有权保管、并向有关部门送交学位论文的原件、复印 件与电子版:学校可以采用影印、缩印或其它复制手段复制并保存 学位论文;学校可允许学位论文被查阅或借阅;学校可以学术交 流为目的,复制赠送和交换学位论文;学校可以公布学位论文的全 部或部分内容( 保密学位论文在解密后遵守此规定) 。 作者签名:墨盈整 日期:丝2 2 = ( 蜓 导师签名:日期: 第一章绪论 第一章绪论 帚一早珀下匕 1 1 研究背景 人类在认识世界、改造世界的科技活动中不断积累着丰富的科学数据。科学数 据是科技活动的结晶,是科技发展与创新的基石,是国家安全和社会经济发展的重 要保障。它具有科学价值、经济价值以及社会价值,这些价值只有当数据在传输、 流动及共享过程中才能实现。因此,实现科学数据在全社会范围内的资源共享,将 拥有的数据资源向他人、向科技界、向社会开放,提供数据服务,是值得全社会广泛 关注的一个问题。针对该问题,国家近年来投入了大量资金建设科学数据共享工程。 科学数据共享工程是一项跨学科、跨部门、跨地区、跨行业的大型科学数据基础设 施建设工程,它涉及到各个专业部门、地区和行业通过多年的科学调查、观测、探 测和生产活动所积累的海量科学数据,涉及到众多学科领域的科学工程、科研项目 的数据成果。因此,充分开发和利用科学数据资源,加大科学数据共享工程建设的 力度,是提高国家科技创新能力和国际竞争力的重要手段和战略措施【l 之】。 经过2 0 多年共享活动的开展,我国整个科学数据共享工作取得了一系列的成果: 科学数据共享理念逐渐普及,人们已经意识到科学数据共享的深远意义及其重要性; 整合集成了一批分散的数据资源,特别是抢救了一批珍贵的数据资源,为国家重大 战略需求、科研计划、高等教育和生产应用提供了很好的数据支撑等【3 】。目前,国家 在气象科学、地球系统科学、地震科学、医药卫生科学等领域已经建设完成了功能 比较完善的科学元数据采集系统,实现了自动收集分布在各地的科学数据,依此建 立元数据库,存储在科学数据中心并对外提供增值服务,真正实现了分散的、不同 系统平台之间的元数据交换和共享,同时基于元数据开发了科学数据共享平台。借 助科学数据共享平台,用户可以方便快捷的查询到自己所需要的科学数据,从而为 国家科研发展及项目创新等数据来源提供了有效的途径。 然而,随着科学技术的飞速发展,分布在各地、各个数据生产单位的科学数据 在急剧的膨胀,新的数据不断涌现,数据更新速度不断增加,导致共享平台无法及 时获取分散在各地的科学数据,从而影响了科学数据的传播速度和分发效率。因此, 维护共享平台和各个科学数据中心元数据的同步更新,确保用户在数据海洋中及时 准确地得到最新的学科动态和科研成果是科学数据共享工程的一个关键问题。为了 解决这一问题,本文把o a i 元数据互操作协议应用到科学数据共享工程的建设中, 针对基于o a i 开发的“太原地区科学数据库及其子系统开发 ,通过实现o a i 协议 o a i p m h 中元数据同步模型的研究 中元数据的同步来解决科学数据共享工程中的同步问题,达到及时采集更新信息的 目的,从而为用户提供更加全面、更加高效的数据服务。 1 2 研究现状 o a i 发展至今已有1 0 多年的历史,旨在以相对简单的、独立于应用程序外的元 数据收割协议,来实现异构分布元数据资源之间便捷的互操作。由于o a i p m h 协议 定位在轻量级别的互操作,因而受到广泛的重视,已被应用到资源整合、跨库检索、 文献传递、学科信息门户建立、个性化服务等各大领域,但把o a i 协议应用到科学 数据共享工程的建设中,还尚属首例。o a i 协议的一大优点是可以轻易支持遵从多 种不同标准元数据形式的发布,具有良好的开放性和扩展性,对其进行适应性扩展, 可容易的嵌入到科学数据共享工程的开发中,为实现科学数据的传播、共享、分发 与互操作提供了新的解决办法。为了保证共享平台提供给用户的信息是各个领域的 最新科学数据,需要数据提供者和服务提供者元数据的同步问题。 在o a i 协议中,传统的实现元数据同步的方法是,系统管理员对服务提供者中存 放的数据提供者设置更新周期,收割器定时扫描数据提供者的信息,当某个数据提 供者的元数据更新周期到了,收割器将启动元数据收获更新线程对这个数据提供者 进行元数据收割。逻辑上收割器可被看作中间层,主要负责以o a i 协议向数据提供者 发送请求命令,集中处理响应结果并将结果返给服务提供者,它是维护数据提供者 和服务提供者之间数据同步的关键模块。但是由于收割时间往往由系统管理员主观 设置,缺乏一套合理的制定方案,因此采用定时收割的方法并不能有效保证服务提 供方元数据的新颖。 为了更好的实现同步更新,x i a o m i n gl i u l 4 等在2 0 0 3 年提出扩展o a i 协议的命令 动词,为其增加一个”p u s h m e t a d a t a 动词,以便于仓储把变化信息直接推送给服务提 供方。然而这种方法要求数据提供方决定信息推送的内容和时间,服务提供方需要 实时监听仓储变化命令,因此增加了数据提供方和服务提供方实现的复杂度,与o a i 协议所提倡的简单、易于实现的元数据互操作特点相背离。 为了使服务提供者快速地收割到数据提供者更新信息,牛振东、丘俗标等在2 0 0 4 年提出在o a i 协议中采用推拉模型【5 1 。如图1 1 所示,当数据提供者更新了它的元数 后,立刻以程序自动或者系统管理员手动的方式通知到注册服务器。注册服务器在 得知一些数据提供者的元数据有所更新后,采用推模型把相关信息推送给对这些数 据提供者的元数据感兴趣的服务提供者,且通过注册过程中提供的服务主题和感兴 2 第一章绪论 趣的元数据主题得到需要通知哪些服务提供者。服务提供者在得知自己感兴趣的数 据提供者的元数据有所更新后,采用拉模型迅速启动更新线程去收割更新的元数据。 通过使用该模型,使得服务提供者能够快速的获取数据提供者的更新信息,从而尽 可能地保证用户在任何时候检索到的信息都是最新的。该方法实现同步的关键是采 用注册服务器作为信息反馈的中介,由于借助第三方辅助,无形增加了实现的难度 和代价,且不能保证注册服务器及时反馈变化信息,因此该方法实现的可行性不大。 数据提供者 拉模型 增量更新 鱼么 注册服务器 服务提供者 推模型 ( 通知) 图1 1 快速更新机制中的推拉模型 f i g 1 1 p u s h p u l lm o d e lf o ri m m e d i a t em e t a d a t a u p d a t e 针对目前同步方法存在的弊端,本文提出新的、行之有效的解决方法,通过不 断动态调整收割时间把更新的元数据及时准确的收割回来,并将元数据转换成r s s 格式,在服务提供方为用户提供基于r s s 的信息订阅功能,以确保更新信息快速的推 送给用户。 1 3 研究内容 结合课题背景和研究现状,本文对o a i 协议的工作原理和特性进行了深入的研 究,从中分析出元数据交互的特性,提出了相应的同步问题解决方案,通过实现o a i 协议中的元数据同步来为用户提供更加高效、便捷的信息服务。具体来说主要包括 以下几个方面的内容: 1 元数据同步模型 o a i 协议在实现元数据互操作过程中,由于数据提供方仓储元数据的更新不能 及时被服务提供方收割,导致了同步问题的产生。本文通过研究数据提供方元数据 的历史更新情况,推算出仓储的平均更新周期,依据更新周期设置服务提供方元数 据的收割时间,理论上能够有效的维持元数据的同步更新。考虑到同步的实现是为 了更好的服务用户,因此本文把用户对仓储的访问量作为一个影响因素,以仓储更 o a i p m h 中元数据同步模型的研究 新周期为主,以用户对仓储元数据访问量的变化为辅,建立了动态调整收割时间的 元数据同步模型。服务提供方采用该模型不断调整元数据的收割时间,给用户访问 量较多的仓储分配较密集的收割次数,用户访问量较少的仓储分配较稀疏的收割次 数,这样不仅有效的实现了数据提供方和服务提供方元数据的同步更新,合理的分 配了系统资源,而且确保用户从服务提供方搜索到各个仓储的最新信息,极大的满 足了用户的需求。 2 o a i 协议与r s s 技术的结合 r s s 技术为用户提供了一种“推”的信息服务方式,它能够把用户感兴趣的信 息主动推送到用户面前,实时性很强。把r s s 应用到o a i 协议中,可以大大提升仓 储元数据的分发速度和传播效率。o a i 协议在实现元数据的收割过程中,传输的是 基于d c 元数据标准的x m l 字符流,而r s s 遵循特定的标准,通常为r s s l 0 和 r s s 2 0 ,为把r s s 结合到o a i 协议中,本文采用x s l t 技术来实现两种不同格式元 数据的转换。并利用r s s 标准统一、易于整合的特点,把来自不同数据提供方的r s s 文件按照类别重新整合成r s sf e e d ,提供一个统一的界面供用户浏览和订阅,使得 用户能够实时跟踪到需要的信息,获取信息更加准确、更加及时,由此确保仓储元 数据传播速度更加高效、更加及时。 1 4 论文组织结构 本论文共分为五个章节,组织结构如下: 第一章是全文绪论,描述了本课题的研究背景及研究现状,通过阅读、整理、 分析和深入研究国内外关于科学数据共享和o a i p m h 的相关技术,确定了本论文的 研究内容和组织结构。 第二章详细描述了o a i p m h 的工作原理及基本概念,其中着重介绍了d c 格 式元数据的核心元素集,为后继工作提供依据。同时阐述了r s s 技术的标准规范和 工作原理等,为r s s 在o a i 中的应用做铺垫。 第三章针对当前o a i p m h 中存在的元数据同步问题,以仓储更新周期为主, 以用户对仓储访问量为辅,通过动态调整收割时间来实现数据提供方和服务提供方 元数据的同步更新。同时把o a i 中的元数据转换成r s sf e e d 并加以整合,利用r s s 技术及时性、信息发布实效性强等特点实现仓储元数据的及时发布和广泛传播。 第四章对第三章提出的方法进行验证,给出实验结果并分析,从实践上证明了 本文思想的可行性。 4 第一章绪论 第五章对本文所作的工作进行了总结,提出了论文的不足与今后研究的方向。 第二章相关技术介绍 第二章相关技术介绍 2 10 a i p m h 协议 o a i 是一个开发和促进互操作,提高内容分发效率的合作组织,目标是通过元数 据收集这种模式实现网络上发布信息的不同组织之间的信息的互操作,为他们提供 一个基于元数据收集的、与应用无关的互操作框架。1 9 9 9 年1 0 月在新墨西哥9 、h s a n t a f e 的u n i v e r s a lp r e p r i n ts e r v i c e 会议中提出了o a i 的构想,2 0 0 1 年1 月发布了名为o p e n a r c h i v e si n i t i a t i v ep r o t o c o lf o rm e t , a d a mh a r v e s t i n g ( o a i - p m h ,简称o 趟) 协议的1 0 版 本,同年7 月发布了该协议的1 1 版本。o a i p m h 元数据获取协议处在不断的更新当 中,目前最新版本是2 0 0 2 年6 月发布的2 0 版本【6 1 。 o a i p m h 协议提供了一个基于元数据获取的独立于具体应用的互操作框架。在 o a i p m h 框架中有两个级别的参与者:数据提供者( d a mp r o v i d e r ,简称d p ) 和服务提 供者( s e r v i c ep r o v i d e r ,简称s p ) ,如图2 1 所示。数据提供者维护着一个或多个仓储, 响应来自服务提供者的请求( r e q u e s t ) ,以o a i 所要求的x m l 格式向服务提供者提供 元数据。服务提供者利用收割器( h a r v e s t e r ) 向数据提供者构建的系统“收割 元数 据,经过整合映射之后存储在当地数据库中,并基于元数据为用户提供增值服务, 比如说为用户提供搜索等功能。收割器是一个客户端应用程序,逻辑上可被看作中 间层,负责数据提供者发送o a i p m h 请求,集中处理响应结果并将结果返给服务提 供者,它是维护数据提供者和服务提供者之间数据同步的关键模块【7 1 。 图2 1o a i p m h 的工作流程 f i g 2 1t h ew o r k f l o wo fo a i - p m h 7 o a i p m h 中元数据同步模型的研究 2 1 1o 灿协议角色划分 o a i 协议包含数据提供者和服务提供者两种角色,分别担负着不同责任。 ( 1 ) 数据提供者 在o a i p m h 的应用当中,数据提供者是大家比较关注的部分,因为目前有众多 的资源拥有者或者是元数据拥有者,他们有资源,但却没有一个合适的途径来让这 些资源得到充分的利用,而从另一种角度来说,资源的开放程度越大,所能得到的 收益率也越高。在此情况下,o a i p m h 技术正好为这些数据提供者提供了一条简单 有效的途径来发布他们的数据资源。 数据提供者要想通过o a i p m h 发布元数据,首先要把各种数字资源处理成数字 对象存储在仓储中,且用唯一的标识符标识每一个数字对象,如图2 2 所示。元数据 创建模块主要负责为数字对象创建不同格式的元数据。数据提供者提供的元数据质 发布的数据 l i 元数据创建 数据提供者 l ( 数字仓储( 元数据) ) 元数据创建元数据创建 l 实体分类信息) 剪a o a i 的元数据) 注册模块用于元数据收割的o a i 接口 l 注册界面元数据收割器 注册服务器 服务提供者 图2 2 数据提供者 f i g 2 2d a t ap r o v i d e r 量在基于o a i 的元数据互操作框架中非常关键,尤其当针对的用户是非专业人员时, 第二章相关技术介绍 提供高质量、高性能的元数据对帮助用户快速定位所需信息有极大的帮助,因此数 据提供者需合理有效的组织元数据【引。 通过实体分类信息来管理和组织元数据,能够反映元数据概念之间的关系。实 体分类信息中主要依据元数据的主题进行分类。管理和组织元数据的关键方法就是 主题分类。由于不同的数据提供者拥有不同的元数据标准,因此需要借助元数据映 射模块把仓储中的元数据转换成o a i 协议所要求的元数据格式。o a i 协议规定数据提 供者必须能够提供d c 格式的元数据,因此需把数据资源映射成d c 格式的元数据。数 据提供者通过注册模块在注册服务器中注册,服务提供者在注册服务器中获取感兴 趣的数据提供者,通过元数据收割接口收割需要的元数据。 用户 用户界面 l 统一查询 服务提供者 增觚务( 如统一主题分类) h 要嚣器) 。、y 注册模块元数据收割接口元数据收割器 注册界面 元数据收割器 元数据收割接口 注册服务器 服务提供者 数据提供者 图2 3 服务提供者 f i g 2 3s e r v i c ep r o v i d e r ( 2 ) 服务提供者 在o a i - p m h 中,除了数据提供者外,还有一个十分重要的角色是服务提供者, 它决定了系统的服务功能及增值服务功能,只有通过服务提供者获取数据提供者的 元数据,才能体现互操作的价值。而服务提供者要获取元数据,首要的是在本地建 立起获取器程序,执行定期定量的元数据获取任务。如图2 3 所示,服务提供者通过 注册模块在注册服务器中注册自己的服务,通过元数据收割器从数据提供者和其他 服务提供者那里收集元数据,收割器把收割回的元数据经过加工处理,存储在当前 9 o a f p m h 中元数据同步模型的研究 数据库中,并为用户提供增值服务【8 】。 2 1 2o a i 协议的基本概念 o a i 协议规定了数据提供者与服务提供者之间的通信规则。该协议定义了七个重 要的概念: ( 1 ) 仓储( r e p o s i t o r i e s ) 仓储由d p 管理和维护,负责将元数据发布给s p 。它是一种可被访问的网络数据 库,借助d p 处理o a i p m h 协议的六个命令动词。 为了允许仓储的多样性配置,o a i p m h 对与元数据相关的三个不同实体加以区 分。 r e s o u r c e ( 资源) - 资源是对象( o b j e c t ) 或者是有元数据说明的资料( s t u f f ) 。至于资源 的本质,不管它是物理的还是数字的,也不管它是存储于仓储中的还是存在于其它 的数据库中的,都超出了o a i p m h 的范围。 i t e m ( 条目) 一条目是仓储的基本组织单元,资源的元数据可以通过仓储进行发 布。与资源关联的元数据可以随时发布,可以通过主格式进行转换,可以存储到仓 储中,等等。 r e c o r d ( 记录) 一记录是具有特定元数据格式的元数据。在对一个o a i p m h 请求的 响应中,记录以x m l 编码的字节流的形式被返回,它是从基本组织单元中返回的特 定元数据。 ( 2 ) 条目( i t e m ) 仓储由一个个条目构成,具体来说条目是一个容器,以多种格式存储并产生元 数据,且每个条目都有唯一的标识符。 ( 3 ) 唯一标识符( u n i q u ei d e n t i f i e r ) 唯一标识符明确标识仓储内的一个条目,用于从条目中提取一条特定的元数据 记录。条目可以包含多种元数据格式,条目与唯一标识符相对应,从单一条目中得 到的所有的元数据记录有一个共同的唯一标识符。 ( 4 ) 记录( r e c o r d ) 记录是以一种单一格式表示的元数据,以x m l 流编码的形式返回到前端,记录 包括三个部分。 h e a d 部分包含了条目的唯一标识、集合和时间戳等属性。 m e t a d a t a 部分记录实际的资源的元数据内容,一半以d c 格式表示元数据, 仓储也可以有选择地支持其他元数据格式,如m a r c 。 1 n 第二章相关技术介绍 a b o u t 部分是一个非必备部分,提供有关资料的相关说明,如版权声明等,必 须遵循x m l 模式。 ( 5 ) 收割器( h a r v e s t e r ) 收割器是一个客户端的应用程序,由s p 实现操作,s p 借助收割器向d p 发送 o a i p 收割命令。 ( 6 ) 集合( s e t ) 集合是o a i 协议的一个非必备功能,为了方便取得所需资料,仓储内可将不同类 别的资料区分为不同的群组,且可以以层次式架构表示。仓储可以将条目组织成集 合。集合在组织形式上可以是平伸的,如一个简单的列表或一个层次结构。当仓储 定义了一个集合,必须在条目的头部包括集合成员信息。 ( 7 ) 选择性收割( s e l e c th a r v e s t i n g ) 选择性收割提供以日期为基础或特定集合为基础的元数据获取方式,允许收集 器限制收集请求,使用者通过比较精确的描述来获得满足条件的部分的元数据。o a i 协议支持两种标准的选择性收割,分别为基于特定集合的收割方式和基于时间戳的 收割方式1 9 q l 】。 2 1 3o a i 协议命令动词 o a i 协议定义了六个命令动词及相关参数来完成数据提供者与服务提供者之间 元数据的交互,本文对其进行了总结,如表2 1 所示。 利用六个命令动词,o a i 协议实现d p 和s p 之间信息的交互。其中g e t r e c o r d 和l i s t r e c o r d s 用于收割仓储中的元数据记录,d p 将仓储的元数据编码成符合 o a i p m h 规定的x m l 格式( 一般采用d c 格式) 反馈给s p 。该x m l 文件也是本 论文要研究的主要内容。返回结果m e t a d a t a 包含三部分【1 2 】: ( 1 ) 头部分( h e a d e r ) ,这一部分包括元数据的标识符以及一些用于选择性收割的 描述信息: u n i q u ei d e n t i f i e r :仓储内条目唯一性的标识符。 d a t e s t a m p :仓储记录增加、修改、删除的时间标识。 s e t s p e c :表示该条元数据记录所属的子集,该元素可以有一个或多个。 ( 2 ) 元数据部分( m e t a d a t a ) ,这一部分指定该条元数据所采用的式以及详细的元 数据描述。比如o a id c :d c 表明所采用的为d c 格式的元数据。 ( 3 ) 关于( a b o m ) 部分,这一部分是可选项,用于复验记录的元数据部分。内容包 括对x m ls c h e m a 的验证,协议的版本以及元数据的收割状态信息。 o a f p m h 中元数据同步模犁的研究 表2 - io a i 协议命令动词 t a b l e2 - 1o a iv e r b s 命令动词 功能参数说明 必选的;指明了仓储中条目的唯一标 从仓储中收割一条 i d e n t i f i e r 识符。 g e t r e c o r d 单独的元数据。 必选的;指明返回记录中元数据的格 m e t a d a t a p r e f i x 式。 返回结果必须包含下列元素中的一 个元素: 获取仓储的基本信 仓储名称( r e p o s i t o r y - n a m e ) 、仓储基 息,返回的信息可以 地址( b a s e u r l ) 、协议版本 i d e n t i f y 是o a i 协议的一部 无 ( p r o t o c o l v e r s i o n ) 、最早时间戳 分,也可以是仓储额 ( e a r l i e s t d a t e s t a - m p ) 、删除记录 外的描述信息。 ( d e l e t e d r e c o r d ) 和认j i l :( g r a n u l a - i t y ) ,同时还必须包括一个或多个管 理者的e m a i l 。 可选的;确定了基于时间戳的选择收 f r o m 割的下限。 可选的;确定了基于时间戳的选择收 u n t i l 割的上限。 是动词l i s t r e c o r d s 的必选的;指定返回的元记录头部的元 缩写形式,只返回记 m e t a d a t a p r e f i x数据格式,仓储所支持的元数据格式 l i s t i d e n t i f i e r s 录的头部而不是整条用l i s t m e t a d a t a f o r m a t s 请求来获取。 记录。 可选的;确定了选择收集的集合标 s e t 准。 r e s u m p t i o n - 排他的;其值是由前一个 l i s t l d e n t i f i e r s 请求返回的流控制标 t o k e n 志的值,用于处理一个不完整列表。 用检索仓储中包含的确定条目的唯一标识符,返同所请求 l i s t m e t a d a t a = 元数据格式,对一个的元数据格式。如果省略此参数,则 f o r m a t s 特定条目的格式请求 i d e n t i f i e r 返回仓储所支持的所有元数据的格 限制。 式。 f r o m 这五个参数的类型与含义分别与 收割仓储中满足条件 u n t i ll i s t l d e n t i f i e r 命令的参数相同,其中 的所有元数据,允许 s e t r e s u m p t i o n t o k e n 的值是由前一个 l i s t r e c o r d s l i s t r e c o r d s 请求返回的流控制标志基于集合或时间戳的 r e s u m p t i o n - 选择性收集。t o k e n的值,用于处理一个不完整列表。 m e t a d a t a p r e f i x 用于收集仓储的集合 排他的;其值是由前一个l i s t s e t s 请 l i s t s e t s 结构,有助于选择性 r e s u m p t i o n 求返回的流控制标志的值,用于处理 t o k e n 收集。 一个不完整列表。 1 2 第二二章相关技术介绍 2 1 4d c 元数据元素集 o a i p m h 把d u b l i nc o r e ( d c ) 作为互操作的标准元数据,因此本文以d u b l i nc o r e 为例,将o a i 中的元数据记录转换成各种r s s 格式。d c 是元数据中的一个标准集 都柏林核心元素集( d u b l i nc o r ee l e m e n ts e t ) 的简称,为网络信息的检索和标识提 供了的一种通用的著录格式。d c 从1 9 9 5 年产生后,由于它的简单易用、可扩展功 能和其它数据形式桥接等特点,已经发展为世界公认的元数据标准,也是o a i p m h 实现互操作的标准元数据格式之一。表2 2 所示为都柏林核心元素集的1 5 个元素及 其定义和说明i l 引。 表2 - 2 都柏林核心元素集 t l b i e 2 2d u b l i nc o r ee l e m e n ts e t 元素定义说明 题名( t i t l e ) 分配给资源的名称为使资源对外公开而为其指定的一个正式的名称。 用于描述资源的主要内容,通常采用关键词、关键短 主题( s u b j e c t ) 描述资源内容的主题 语或者类别号码来表示。 说明关于资源内容的简单说资源内容的文字说明,该说明可以包括但不限于摘要、 ( d e s c r i p t i o n ) 明目录、内容图示、或者一个关于资源内容的文本描述。 推荐采用r f c3 0 6 6 r f c 3 0 6 6 q b 定义的语言代码,该 语种指定资源内容所使用的 标准与i s o6 3 9 i s 0 6 3 9 - - 起定义了由两个或三个英 文字母组成的主标签和可选的子标签来标识语种。例 ( l a n g u a g e ) 语言 如用“e n ”或“e n g 来表示e n g l i s h , “f r ”来表示法语, “e n g b ”表示英国英语。 描述目前资源的参考来 目前的资源可能从其它资源的部分或整体获得,建议 来源( s o u r c e ) 对这一资源的标识采用正规的识别资源表示,如 源 u r l 、u r n 、u r i 、d o i 、i s s n 等。 描述其它资源和该资源的关系,推荐使用符合规范标 关联 描述相关的资源识体系的字符串或数字来标识所关联的资源,如 ( r e l a t i o n ) u r l 、u r n 、u r i 、d o i 、i s s n 等。 描述资源的覆盖范围,如空间定位( 如地名或地理坐 标) 、时代( 时代、日期或日期范围) 或者权限范围( 比 覆盖范围描述资源内容时间与空如指定的一个行政实体) 。覆盖范围建议从特定的一个 ( c o v e r a g e ) 间特性 受控词表( 例如地理名称叙词表 t g n 】) 获取,并尽 量使用由数字表示的地理坐标或日期范围来描述地名 与时间段。 创建者制作资源内容的主要责创建者的实体一般由个人、组织或某项服务组成。通 ( c r e a t o o任实体常采用创建者的名字来描述这一资源内容。 出版者使资源能被广泛传播的出版者实体一般包括个人、组织或机构的出版者。用 ( p u b l i s h )责任实体于标识出版者实体的具有代表性的名称。 其他责任者对资源内容的形成做出有别于创建者的其它责任实体,可包括个人、组织或 ( c o n t r i b u t o r ) 贡献的其他责任实体机构。一般而言,用于标识贡献者有代表性的名称。 o a i p m h 中元数据同步模型的研究 表2 = 2 都柏林核心元素集( 续) t a b l e 2 2d u b l i nc o r ee l e m e n ts e t ( c o n t i n u e d ) 元素 定义说明 描述资源本身权限的相 权限元素应包括一个对资源的版权管理描述信息,或 权限( r i g h t s )者是对提供这一信息的服务的参照。通常包括知识产 关信息 权( t p r ) 、版权或其它各种各样的权限。 与资源生命周期中的一 一般而言,日期应与资源的创建或可获得的日期相关。 日期( d a t e )建议采用的日期格式应符合i s o8 6 0 1 w 3 c d t f 规范, 个事件相关的时间 并使用y y y y - m m d d 的格式。 类型一般包括种类、功能、体裁、作品集成级别或聚 类层次等描述性术语。建议采用来自于受控词表中的 类型( t y p e )资源内容的性质或类型 值( 例如d c m i 类型词汇表 d c m i t y p e ) 。对于资源 的物理或数字化描述形式,则采用f o r m a t 来表示。 标识符 明确指定资源的唯一标使用特有的正规字符标识资源。如u r l 、u r n 、u r i 、 ( i d e n t i f i e r ) 识d o i 、i s s n 等。 格式通常包括资源的媒体类型或资源容量,用于指定 格式资源内容物理或数字化 表示或操作资源的软硬件环境或其他相应设备。例如 资源的大小包括资源所占的存储空间或持续时间。建 ( f o r m a t ) 的特有表示 议采用i n t e m e t 媒体类型 m i m e 定义的计算机媒体格 式。 2 2r s s 技术 r s s 是网络新兴的一种信息聚合的技术,是站点之间共享内容的一种简易信息 发布和传递的方式。借助r s s 技术,一个网站可以轻易地调用其它提供了r s s 订阅 功能的网站的内容,从而使得网站内容在更大的范围内传播。在以“高速、高质、 高效成为主流呼声的互联网时代,r s s 技术为信息的迅速传播搭建了一个技术平 台,为内容提供者提供了一个高效、及时、安全、低成本的信息发布方式,为内容 接收者提供了一种新颖的网络信息获取渠道,极大地增加了用户获取信息的数量、 质量和速度。从r s s 订阅者的角度来看,r s s 提供的特有的信息获取模式使得用户 可以不必登录到各个信息网站,而直接通过客户端浏览器或者在线r s s 阅读器聚合 这些不同网站的内容。毋庸置疑,r s s 技术极大地提高了网上资源的广泛传播,为 用户提供了另一种信息阅读的方式。同时借助r s s 搜索引擎,用户能够更精确的搜 索网络资源,更加及时的获得实时信息,很好的满足用户对个性化信息的需求【1 4 】。 2 2 1r s s 标准规范 r s s 在发展过程中分化为r s s 0 9 x 2 0 、r s s l 0 和a t o m l 0 三大技术标准阵营【1 7 1 。 r s s 有三种不同的解释,分别是r i c hs i t es u m m a r y ( 丰富站点摘要,版本为r s s 0 9 x ) 、 1 4 第二章相关技术介绍 r d fs i t es u m m a r y ( r d f 站点摘要,版本为r s s 0 9 0 和r s s l 0 ) 和r e a l l ys i m

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论