已阅读5页,还剩86页未读, 继续免费阅读
(计算机应用技术专业论文)基于多协议的中心数据仓储收割与集成服务.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
_ f 荆幽螋 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 妻贯蓁墨文与鬻之处, 本人签名: 兰堑竺 本人承担一切相关责任。 同期翌呈:兰 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保盔范围,适用本授权书。 本人签名: 圭丝刍 日期: 查垒:兰:丝 导师签名:垒丝日期:蠢班,2 碰 北京邮电大学硕士研究生学位论文 基于多协议的中心数据仓储收割与集成服务 摘要 随着互联网技术的发展,电子图书、电子期刊、多媒体数据等各 种类型数字资源信息量的不断增长,建立支持多种数据资源格式的数 据仓储,实现信息资源的共享和利用,成为数字图书馆关注的一大热 点。 当前,大多数机构的数据仓储仅提供学位论文、电子期刊等有限 资源格式元数据,对于对象数据的提供与服务相对缺乏。作者基于对 o a d 协议、m e t s 标准的研究,提出了基于多协议的中心数据仓储收 割与集成服务系统。中心数据仓储系统不仅提供基于o a j 元数据收 割与服务,而且提供基于m e t s 对象数据的收割;不仅收割其他机 构仓储的数据,而且整合本地数据资源为其他机构仓储收割。此外, 中心数据仓储系统通过与数字图书馆其他子系统集成,为用户提供集 成服务。 本文首先对o a j 协议、m e t s 标准做了深入研究,对系统相关 关键技术与开源软件进行了详细分析,接着详细论述了基于多协议的 中心数据仓储收割与集成服务系统的体系架构和具体设计方案。 借助开源软件,实现了中心数据仓储的基于0 m 元数据收割、 基于m e t s 对象数据收割的功能,完善了系统管理、日志管理功能, 此外,通过与资源加工系统和统一检索系统间的接口调用,为用户提 供集成服务。 文章最后,对中心数据仓储系统进行了总结,并对下一步研究提 出了建议。 关键词:o a im e t s 中心数据仓储收割集成服务 北京邮电大学硕士研究生学位论文 t h eha r v e s ta n di n t e g r a t i o ns e r v i c e s o f c e n t e rd a t ar e p o s i t o r yb a s e do n m u l n p r o t o c a l a b s t r a ( 了r w i t ht h ed e v e l o p m e n to fi n t e m e ta n dt h eg r o w i n go fa m o u n to f v a r i o u st y p e so fd i g i t a lr e s o u r c e s ,s u c ha se b o o k s ,e l e c t r o n i cj o u r n a l s , m u l t i m e d i ad a t a ,t h ed a t ar e s p o s i t o r yw h i c hc a ns u p p o r t e dv a r i o u st y p e s o fd i g i t a lr e s o u r c e sa n ds h a r i n gi n f o r m a t i o nw i t ho t h e rd a t ar e s p o s i t o r y , h a da t t r a c t e dd i g i t a ll i b r a r i e s a t t e n t i o n c u r r e n t l y , m o s to ft h ei n s t i t u t i o n a lr e s p o s i t o r y sp r o v i d e dl i m i t e d r e s o u r c e so ft h em e t a d a t a ,s u c ha sd i s s e r t a t i o n sa n de l e c t r o n i cj o u m a l s , s e r v i c e so ft h eo b j e c td a t ai sn o te n o u g h b a s e do nt h er e s e a c ho fo a i p r o t o c o l a n dm e t ss t a n d a r d ,t h ea u t h o r d e s i g n e dt h ec e n t e r d a t a r e s p o s i t o r ys y s t e m b a s e do nm u l t i p r o t o c a l t h ec e n t e rd a t ar e s p o s i t o r y s y s t e mn o to n l yc a np r o v i d et h eh a r v e s ts e r v i c e so fm e t a d a t ab a s e do n o a ip r o t o c o l ,b u ta l s oc a np r o v i d et h eh a r v e s ts e r v i c e so fo b j e c td a t a b a s e do nm e t ss t a n d a r d t h ec e n t e rd a t ar e s p o s i t o r ys y s t e mn o to n l y c a nh a r v e s td a t af r o mo t h e ri n s t i t u t i o n a lr e s p o s i t o r y s ,b u ta l s oc a nb e h a r v e s t e db yo t h e ri n s t i t u t i o n a lr e s p o s i t o r y s t h r o u g hi n t e g r a t e dl o c a l d i g i t a lr e s o u r c e s b e s i d e s ,t h ec e n t e rd a t ar e s p o s i t o r ys y s t e mi n t e g r a t i o n s e r v i c e sw i t ho t h e rd i g i t a ll i b r a r ys y s t e m f i r s t l y , t h i sp a p e rm a d ea ni n - d e p t hr e s e a r c ho ft h eo a ip r o t o c o l , m e t ss t a n d a r da n dt h eo s s su s e di nt h i ss y s t e m ,a n dt h e nm a d ead e t a i l i n t r o d u c t i o no fd e s i g no ft h ec e n t e rd a t ar e p o s i t o r ys y s t e m b yu s eo fo s s s ,f i n i s h e dt h ec e n t e rd a t ar e p o s i t o r ys y s t e m ,w h i c h i m p l e m e n t e dm e t a d a t aa n do b j e c t d a t ah a r v e s tb a s e do no a ip r o t o c o la n d m e t ss t a n d a r d ,s y s t e mm a n a g e m e n ta n dl o gm a n a g e m e n t b e s i d e s ,t h e s y s t e mp r o v i d e di n t e g r a t i o ns e r v i c e sf o rt h em e t a d a t ap r o c e s s i n gs y s t e m a n dt h eu n i f i e ds e a r c hs y s t e mb yi n t e r f a c ec a l l f i n a l l y , t h ep a p e rm a d eas u m m a r yf o rt h ec e n t e rd a t ar e s p o s i t o r y 北京邮电大学硕士研究生学位论文 s y s t e m ,a n dp r o p o s e ds o m es u g g e s t i o n sf o rl a t e rr e s e a r c h k e yw o r d s :o a im e t sc e n t e rd a t ar e p o s i t o r yh a r v e s t i n t e g r a t i o ns e r v i c e s 北京邮电人学硕士研究生学位论文 目录 第一章绪论1 1 1 课题研究背景l 1 2 课题研究意义2 1 3 课题研究内容3 1 4 论文组织结构4 第二章中心数据仓储元数据对象数据相关标准协议研究5 2 1o a i 协议与元数据标准5 2 1 1d c 5 2 1 2m o d s 6 2 1 3m o d s 与d c 转化7 2 2m i e t s 标准8 2 2 1m e t s 文档结构8 2 2 2 数字对象交换的网络接口规范1 1 2 2 3 胍t s 规范功能1 3 2 2 4 脏t s 标准应用1 4 2 3 本章小结1 4 第三章中心数据仓储关键技术与开源软件研究1 5 3 1 关键技术研究1 5 3 1 - 1j 2 e e 平台规范1 5 3 1 2j m s 技术1 6 3 1 3h t t p 技术1 6 3 1 4r m i 技术1 8 3 1 5x m l 技术1 8 3 1 6r s s 技术1 9 3 2 开源软件研究2 0 3 2 1 开源软件a r c 2 0 3 2 2 开源软件o a i c a t 2 1 3 2 3m e t sa p i 2 2 3 2 4 开源项目r e s c a r t a 2 2 3 3 本章小结2 2 第四章中心数据仓储系统研究与设计2 3 4 1 系统概要设计和体系架构2 3 4 1 1 系统概要设计2 3 4 1 2 系统体系架构2 4 4 2 系统详细设计2 6 4 2 1o a i 元数据收割2 6 4 2 2 娅t s 对象数据收割2 9 4 2 3 系统管理模块3 7 4 2 4 日志管理模块4 0 i v 北京邮电大学硕士研究生学位论文 4 2 5 服务模块4 1 4 2 6 存储设计4 5 4 3 本章小结4 7 第五章中心数据仓储系统实现4 8 5 1 实现环境4 8 5 2 系统实现4 8 5 2 1o a i 元数据收割的实现4 8 5 2 2m e t s 对象数据收割的实现5 0 5 2 3 系统管理模块实现5 4 5 2 4 日:基模块实现6 0 5 2 5 服务模块实现6 2 5 3 本章小结6 9 第六章结束语7 0 6 1 论文工作总结7 0 6 2 下一步研究建议7 0 参考文献7 l 附录1 m o d s 元素列表7 3 附录2 r e s c a r t aw e b 配置文件7 5 致谢7 7 攻读硕士学位期间发表的学术论文7 8 v 北京邮电大学硕士研究生学位论文 图目录 图3 - 1j 2 e e 应用编程模型1 5 图3 - 2a r c 结构图2 0 图3 - 3o a i c a t 架构示意图2 l 图4 - 1 中心数数据仓储系统在本地的部署2 3 图4 2 中心数据仓储系统与本地数据资源交互2 4 图4 - 3 系统整体设计结构图2 4 图4 - 4o a i 元数据收割模块2 6 图4 5o a i 数据提供方接口响应o a i 请求流程2 7 图4 - 6o a i 服务提供方的收割算法2 8 图4 7m e t s 对象数据收割流程图2 9 图4 8m e t s - h p 端生成髓t s 请求流程3 0 图4 9m e ,i s 消息发送模块3 l 图4 1 0 l p 端m e t s 包解析过程3 2 图4 1 1m e t d p 端娅t s 消息解析过程3 3 图4 1 2m e t s 包生成流程3 4 图4 1 3m e t s 对象封装过程3 5 图4 1 4m 睨 s 包发送处理3 6 图4 1 5o a i 管理模块结构图3 7 图4 - 1 6m e t s 管理模块模块图3 9 图4 一1 7 检索服务实现流程4 2 图4 1 8r s s 订阅服务实现流程4 3 图4 1 9 中心数据仓储系统提供x m l 格式检索结果4 3 图4 2 0 系统与资源加工系统的数据流程图4 4 图4 2 1r e s c a r t a 数据库功能示意图4 4 图4 - 2 2 数据库表关系4 6 图5 - 1o a i 数据提供方的运行界面4 8 图5 - 2o a i 数据提供方对l i s t r e c o r d s 的响应示例4 9 图5 - 3 收割到的元数据结果存储在本地5 0 图5 - 4 经过解析的元数据存储在d c 表中5 0 图5 5 通过m e t s h p 收割调度生成一条m e t s 请求5 l 图5 - 6m e t s d p 端o p e n j m s 服务器收到一条m e t s 请求5 1 图5 7m e t s - d p 端收到的m e t s 请求内容5 2 图5 - 8m e t s d p 端生成的m e l s 请求列表5 2 图5 - 9 生成 i e t s 包5 3 图5 一l o 对象数据的二进制内容5 3 图5 1 1m e t s h p 端o p e n , i s 服务器收到一个狐t s 包5 4 图5 - 1 2m e t s 对象数据收割列表5 4 图5 - 1 3o a i 注册仓储列表5 5 图5 - 1 4 任务配置5 5 图5 1 5 收割机配置5 6 图5 1 6 缓存配置5 6 v l 北京邮电大学硕士研究生学位论文 图5 - 1 7 查看缓存的全文信息5 7 图5 一1 8 已更新记录5 7 图5 - 1 9m e t s - d p 注册5 8 图5 - 2 0m e t s - h p 管理5 8 图5 2 1m e t s d p 歹0 表5 8 图5 - 2 2m e t s 收割调度5 9 图5 - 2 3m e t s 包路径配置5 9 图5 - 2 4 数据管理界面6 0 图5 - 2 5o a i 收割日志6 0 图5 - 2 6m e t s h p 端收割日志6 1 图5 2 7 数据管理日志6 1 图5 2 8 检索日志6 2 图5 2 9 简单检索实现界面6 2 图5 - 3 0 简单检索结果6 3 图5 - 3 1 高级检索实现界面6 3 图5 - 3 2 高级检索结果6 4 图5 - 3 3 按仓储浏览6 4 图5 - 3 4 查看记录详细信息6 5 图5 - 3 5r s s 订阅实现界面6 5 图5 - 3 6r s s 订阅结果界面6 5 图5 - 3 7 中心数据仓储系统与统一检索系统的集成6 6 图5 - 3 8r e s c a r t aw e b 浏览界面6 7 图5 - 3 9r e s c a r t aw e b 简单检索及返回结果6 7 图5 - 4 0r e s c a r t aw e b 全文检索界面6 8 图5 - 4 1r e s c a r t aw e b 图像检索结果6 8 图5 - 4 2 远端o a i 服务提供方通过标识符访问对象文件6 9 v h 北京邮电大学硕士研究生学位论文 表目录 表2 - 1d c 核心元素5 表2 - 2m o d s 主元素6 表2 3m o d s 与d c 映射7 v m 北京邮电大学硕士研究生学位论文 1 1 课题研究背景 第一章绪论 随着互联网技术的发展,数字图书馆建设也取得了长足发展,由于电子图 书、电子期刊、多媒体数据等数字资源信息量的不断增长,建立支持多种数据 资源格式的数据仓储,实现信息资源的共享和利用,也成了当今数字图书馆的 一大热点。 数据仓储是收集、组织、存储、管理馆内的科学数据、研究成果和其他数 字资料,实现对图书馆内数字内容及资产的保存和管理,并提供开放访问,促 进平等使用和共享的一系列机制和服务。数据仓储应具有以下三个主要特点: ( 1 ) 收集、组织、存储、管理馆内的资源。( 2 ) 实现馆内数字内容及资产的保存和 管理。( 3 ) 实现资源的共享和开放获取i 。 数字仓储出现并作为数字图书馆的后台系统,标志着数字图书馆的发展进 入了一个新的阶段。它超越了数据库的简单数据管理的层次,提供了对数字对 象的表示、操作和管理,将元数据的管理和原始资源集成在一起,实现了数据 存储和资源共享,走出了数字图书馆发展前期“全球数字图书馆 的理想阶段, 强调以机构或者学科领域作为仓储的基本实施单位,通过仓储间的开放接口实 现跨仓储的服列2 。 目前,数据仓储技术快速发展,应用在数字图书馆领域。美国、加拿大、 荷兰、德国等国家己产生了一系列的开放源代码的数据仓储软件,并得到了不 同程度的应用,如m i t 和h p 所开发的d s p a c 宅,它的设计目标是创建一个数字 化的仓储,以获取、存储、索引、保存和重新分发各类研究组织的数字化知识 产出。由u n i v e r s i t yo fv i r g i n i a 和c o m e l lu n i v e r s i t y 联合开发的f e d o r a 是数字对 象仓储管理系统,基于“灵活的可扩展的数字对象及仓储框架 ,在它的基础之 上,还可以创建其它基于w e b 的数字图书馆。此外,还有e p r i n t 、i - t o r 、m y c o r e 、 o p u s 等,这些数据仓储软件的共同特点是以开放源代码的方式发布,能够免 费获取,并且可以自行对系统进行修改、升级和发布;它们都满足o a i 元数据 收割协议,满足o a i 协议使得它们都在一个全球协作的环境之中得以实现,便 于实现系统的互操作【3 j 。 与国外相比,国内的数据仓储发展,无论是仓储的数量,还是仓储收藏的 内容、品种都偏少,大部分国内的元数据也未能被国外的数据服务者收割,限 制了中国学术成果的传播与共享。 同时,图书馆机构在建立各自的数据仓储中,采用了不同的系统结构,使 北京邮电大学硕士研究生学位论文 用了不同的信息技术,这些不同造成了数据结构的差异,如何进行资源收割与 格式转换,如何在收割到元数据的基础上收割对象文件并提供服务,实现信息 资源的共享和互操作已经成为数据仓储建设中的一大课题。 1 2 课题研究意义 基于对国内外数字仓储的发展现状调研,通过对数字仓储相关标准和技术 规范的研究与学习,在前人研究的基础上,作者提出了基于多协议的中心数据 仓储收割与集成服务系统的研究课题。 本系统研究的重要意义在于: 1 建立一个基于多协议收割的数据仓储。一般的数据仓储仅提供元数据的 收割,不提供对象数据的收割。因此,建立一个基于元数据并提供对象数据收 割的数据仓储就具有科研价值。而由于元数据描述方式的差异与对象数据资源 格式的多样性,不可能单纯使用一种协议或者标准,而需要多种协议、标准配 合完成收割。在此,通过o a i 协议发送收割请求、接收响应,m e t s 标准封装 对象数据,h t r p 协议、r m i 协议传输,并通过其他标准s c h e m a 进行元数据描 述格式的转换,完成整个收割过程。 2 通过中心数据仓储统一管理本地数据资源。所谓“中心刀数据仓储,与 一般数据仓储仅收割其他机构仓储不同,不仅要收割其他机构仓储的数据,而 且要整合本地数据资源为其他机构所收割。由于本系统作为整个数字图书馆集 成系统的一个子系统,需要对学位论文提交系统、网络采集系统、资源加工系 统所提供的本地数据资源进行统一加工、管理,发布至数据提供方供中心及其 他机构数据仓储收割。 3 通过接口与统一检索系统集成,为用户提供服务。基于面向服务s o a 的 思想,对于收割到的数据资源和本地资源通过w e bs e r v i c e 接口调用的方法,实 现为统一检索系统提供数据源,使得中心数据仓储不仅仅完成一个收割数据资 源的过程,而且是一个数据本地化为我所用的过程。 4 基于开源软件的二次开发。系统实现采用开源软件二次开发与本地自主 开发相结合的方式。以开源软件为中心来构建数据仓储,按照自身的需求规划 系统,降低开发成本、缩短开发周期,具有现实意义。 课题研究基于多协议的中心数据仓储收割与集成服务,对元数据与对象数 据进行收割,实现了数据存储和资源共享,通过开放接口提供集成服务,这种 做法正是对个性化数字图书馆具体实现途径和技术的一次积极探索。 2 北京邮电大学硕士研究生学位论文 1 3 课题研究内容 课题先从元数据收割的基础o a f 协议入手,针对对象数据资源格式的多样 性与元数据描述方式的差异的特点,利用m e t s 标准作为对象数据的封装手段, 选择d c 、e t d m s 、m o d s 标准s c h e m a 实现元数据描述方式转换,参考c a l l s 收割数字对象的m e t s 接口规范要求,提出了基于多协议的中心数据仓储收割 和集成服务系统的设计和实现方案。 本系统研究的主要内容包括: 1 研究o a i 协议与元数据标准。按照o a i p m h 思想设计实现o a i 元数据 收割,并通过d c 、m o d s 、e t d m s 等标准s c h e m a 实现元数据描述格式间的 转换。 2 研究m e t s 标准。对m e t s 标准规范文档结构、交换接口、功能及应用 做了深入研究,参照c a l l s 收割数字对象的m e t s 接口规范要求,设计实现对 m e t s 对象数据的收割系统。 3 统一管理本地数据资源。对学位论文提交系统、网络采集系统、资源加 工系统提供的本地原始数据进行处理,资源所对应的元数据和全文对象数据进 行统一管理,通过建立本地数据提供方实现本地数据为中心及其他机构数据仓 储收割的功能。 4 实现基于o a i 元数据的服务。对收割的元数据进行标准化、格式化,通 过过滤不需要的信息,建立索引等处理,为用户提供浏览、检索等服务,并在 对元数据进行处理的基础上提供对用户和其他子系统的增值服务包括r s s 订 阅、通过检索接口为统一检索系统提供检索数据,实现在整个数字图书馆集成 系统中集成应用。 5 实现基于m e t s 对象数据的服务。通过资源加工系统建立的m e t s 对象 数据仓储,为用户提供浏览、检索对象数据全文的服务,并通过m o d s 、d c 、 e t d m s 标准s c h e m a 进行元数据描述格式转换,使得m e t s 对象数据中元数据 可为中心及其他机构数据仓储收割。 作者在系统设计和构建过程中,运用现阶段软件设计中流行的j a v a 、j m s 、 x m l 等技术,借助开源软件节省了系统开发周期和开发成本,目前系统已基本 完成,并在数字图书馆系统中得到了集成应用。 3 北京邮电大学硕士研究生学位论文 1 4 论文组织结构 本文是作者在研究生期间的理论学习和研发工作以及经验的总结,主要分 为六章: 第一章绪论。介绍了课题的研究背景,课题的研究意义,课题主要研究 内容,以及论文的组织结构等。 第二章中心数据仓储系统元数据对象数据相关标准协议研究。对o a i 协议中元数据标准d c 、m o d s 进行分析实现元数据格式转换,并对 m e t s 标准规范、功能、应用现状等做了全面的分析和研究。 令第三章中心数据仓储关键技术与开源软件研究。本章主要介绍了系统研 究和开发过程中使用的主要技术以及开源软件。 第四章中心数据仓储系统研究与设计。详细阐述了系统的设计思想和体 系架构,并详细设计了系统的主要模块,包括o a i 元数据收割、m e t s 对象数据收割、系统管理模块、日志管理模块、服务模块和存储模块。 第五章中心数据仓储系统实现。本章从介绍系统的开发环境开始,重点 分析了系统的模块实现,以及与数字图书馆集成系统中其他子系统的集 成提供集成服务的情况。 第六章结束语。是论文的总结和展望部分。对论文的主要工作做了总结, 并对下一步工作做了展望和建议。 由于作者理论水平和实践经验的有限,论文中的不当之处在所难免,恳请 各位老师和专家批评指正,不吝赐教。 4 北京邮电大学硕士研究生学位论文 第二章中心数据仓储元数据对象数据相关标准协议研究 2 10 a i 协议与元数据标准 o a i 是o p e na r c h i v ei n i t i a t i v e 的缩写,意为开放文档先引4 1 。o a i 协议的 目标定位为支持对具有学术研究价值的多种数字资源的元数据搜寻。协议发布 的目的是通过元数据搜寻这种方式实现发布信息的不同机构之间互操作,为他 们提供一个与应用无关的互操作框架【5 1 。 o a i 协议的互操作框架定义了两个角色:数据提供方d p ( d a t ap r o v i d e r ) 和 服务提供方s p ( s e r v i c ep r o v i d e r ) 。数据提供方和服务提供方通过o a i 请求和 o a i 响应来实现消息的传递1 6 1 。数据提供方和服务提供方通过o a ir e q u e s t 和 o a ir e s p o n s e 来实现消息的传递 7 1 。服务提供方通过o a ir e q u e s t 从数据提供方 中获取元数据,数据提供方对来自服务提供方的o a ir e q u e s t 做出响应,并以 o , m r e s p o n s e 格式向服务提供方提供元数据。 由于o a i 响应采用x m l 编码,所返回的元数据可以是多种格式( 如d c 、 m o d s 、e t d m s 等) ,因此对于o a i 协议收割到的元数据,需要根据元数据标 准进行数据格式转化。本节针对d c 、m o d s 两种o a i 元数据标准及其转换进 行深入分析。 2 1 11 ) c 1 8 1 d c ( d u b l i nc o r em e t a d a t a ,都柏林核心元数据) 于1 9 9 5 年3 月由o c l c 与国家超级计算应用中心( n c s a ) 联合发起,5 2 位来自图书馆界、电脑网络 界专家共同研究产生。目的是希望建立一套描述网络电子文献的方法,以便网 上信息检索后来形成d c 元数据标准,其基本方案是包括1 5 个核心元素的集 合,由d c m i 负责维护。d c l 5 个核心元素如表2 1 所示。 表2 - 1d c 核心元素 t i t l e ( 题名)p u b l i s h e r ( 出版者) s u b j e c t ( 主题或关键字)c o n t r i b u t o r ( 贡献者) d e s c r i p t i o n ( 简述)r i g h t s ( 权限管理) l a n g u a g e ( 语言)d a t e ( 日期) s o u r c e ( 来源)t y p e ( 资源类型) r e l a t i o n ( 关联)f o r m a t ( 格式) c o v e r a g e ( 覆盖范围)i d e n t i f i e r ( 识别码) 5 北京邮电大学硕士研究生学位论文 ic r e a t o r ( 创作者)ii 由于d c 的简单性和通用性,可以作为实现各种元数据格式间互操作的媒 介和基石,因此在设计o a i 元数据收割系统时,就采用了d c 作为各种元数据 格式互相映射的媒介来实现互操作。 2 - 1 2m o d s 9 1 m o d s ( m e t a d a t ao b j e c td e s c r i p t i o ns c h e m a ,元数据对象描述模式) 是美国 国会图书馆下属的网络发展与m a r c 标准机构研制的一种针对书目记录元素 集的x m l 模式( e x t e n s i b l em a r k u pl a n g u a g es c h e m a ) z 0 1 m o d s 采用x m l 作为编码语言,使用语言标签而不是数字标签,适用于 网络环境下多种信息资源的描述,但它的设计主要是针对图书馆资源的,与 m a r c 有本质上的联系。m o d s 的元素源自于m a r c 2 1 ,既可以兼容m a r c 记录,又可以创建新的原始资料描述记录。 m o d s 语义定义包括元素、子元素、属性三大块,3 3 版本中共设计有2 0 个主元素两个根元素,主元素见表2 2 ,根元素是m o d s 和m o d sc o l l e c t i o n , 每一主元素由若干子元素组成,元素具有属性,个别元素没有子元素和属性。 m o d s 的2 0 个元素及其各自的子元素和属性简单列表请见附录l 。 表2 - 2m o d s 主元素 t i t l e i n f o ( 题名)n o t e ( 附注) n a m e ( 名称)s u b j e c t ( 主题) t y p e o f r e s o u r c e ( 资料类型) c l a s s i f i c a t i o n ( f f 类号) g e n r e ( 体载形式)r e l a t e d i t e m ( 相关款目) o r i g i n i n f o ( 来源信息)i d e n t i f i e r ( 标识符) l a n g u a g e ( 语言)l o c a t i o n ( 位置) p h y s i c a l d e s c r i p t i o n ( 描述)a c c e s s c o n d i t i o n ( 取得条件) a b s t r a c t ( 摘要) p a r t ( 组成) t a b l e o f c o n t e n t s ( 目录)e x t e n s i o n ( 扩展资讯) t a r g e t a u d i e n c e ( 读者对象)r e c o r d i n f o ( 记录信息) m o d s 的主要用途主要有以下几种:可用作网址检索( s r u ,s e a r c h r e t r i e v e v i au r l ) 的指定格式;可用作m e t s ( m e t a d a t ae n c o d i n ga n dt r a n s m i s s i o n s t a n d a r d ,元数据编码及传输标准) 的扩展模式;可用作o a l 应用中收割的元 数据;可以用x m l 语法来描述原始资料;可以用x m l 语言描述简单的m a r c 记录等【l l 】。 在本系统中,m o d s 作为r e s c a r t am e t s 对象的d m d s c c 部分,对对象数 6 北京邮电大学硕士研究生学位论文 据的元数据信息进行描述。 2 1 3m o d s 与d c 转化 m o d s 与国际通用的d c 相比,元素集更为丰富,著录方式更具有系统性 和层次性。由于m o d s 的元素是以m a r c 格式为基础,又使用了x m l 的句法 规则,因此,m o d s 与d c 元数据之间转换就很容易实现【1 2 1 。表2 2 为m o d s 元素与d c 元素的映射关系。 表2 - 3m o d s 与d c 映射 ” m o d s 元素 d u b l i nc o r e 元素 ( 题名信息)t i t l e ( 题名) ( 名称)c r e a t o r ( 创作者) c o n t r i b u t o r ( 贡献者) ( 主题)s u b j e c t ( 主题或关键字) ( 分类) ( 文摘) d e s c r i p t i o n ( 简述) ( 附注) ( 目次) ( 出版者) p u b l i s h e r ( 出版者) ( 出版发d a t e ( 日期) 行日期) ( 制作日 期) ( 获取 日期) ( 其他日 期) ( 资源类型)t y p e ( 资源类型) ( 体裁形式) ( 载体形态描 f o r m a t ( 格式) 述) ( 互联网媒体 类型) ( 篇幅) ( 形式) ( 标识符) i d e n t i f i e r ( 标识符) ( 馆藏位置) ( 语种)l a n g u a g e ( 语言) ( 相关文献) r e l a t i o n ( 关联) 7 北京邮电大学硕士研究生学位论文 ( 主题)c o v e r a g e ( 覆盖范围) ( 检索环境)r i g h t s ( 权限管理) ( 记录信息) 利用m o d s 与d c 之间的映射关系,可以使两种格式相互转换,达到格式 化的目的。 2 2m e t s 标准 m e t s ( m e t a d a t a e n c o d i n g a n dt r a n s m i s s i o ns t a n d a r d ) 是用来将一个数 字图书馆中的数字对象相关的描述性元数据、管理性元数据和结构性元数据进行 编码的一个标准,采用w 3 c 的x m ls c h e m a 语言表达。该标准由美国数字图书馆 联盟d l f ( d i g i t a l l i b r a r yf e d e r a t i o n ) 开发,由美国国会图书馆的网络发展和 m a r c 标准办公室负责维护【1 3 1 。 m e t s 技术提供一套将元数据和数字对象捆绑、打包、传输的协议标准,能 够识别对象内容并且表达其结构,链接描述性元数据和数字对象的内容,链接管 理性元数据和数字对象的内容,调整数字内容的行为分配,包装数字对象的二进 制内容。 2 2 1m e t s 文档结构n 町 m e t s 文件包有7 个部分:头标区、描述性元数据、管理性元数据、文件区、 除了头标区和结构图外,其余都是可选择的。头标区和结构图对于数字化资 源检索是必须的。描述、管理和行为区可以包含在m e t s 文件内或文件外。如果 它们包含在文件内部,首选x m l 模式。元数据可能是各种类型和格式,甚至可 以是目录中的一款条目。 8 北京邮电大学硕士研究生学位论文 如创 1 m e t s h d r ( 头标区) :m e t s 头包含了描述m e t s 文档自身的元数据,比 上例中的 元素包含两个属性:c r e a t e d a t e 和 r e c o r d s t a t u s ,说明了该m e t s 文档的创建日期时间以及记录处理的状态。 2 d m d s e c ( 描述型元数据) :这一部分记录了关于数字对象的全部条件的 元数据( 包括数据文件的结构图和描述性元数据) 。这些描述元数据即可以嵌入 m e t s 文档中( m d w r 印) 又可以通过标识位置来引用( m d r e f ) 。下例示范了 m d w r a p 元素的用法: 在上例中一个d c 元数据以m d w r a p 的形式内嵌于m e t s 文档。 3 a m d s e c ( 管理元数据) :这部分提供的是文件如何创建和存储、知识产 权、图书馆数字化对象原始来源的数据、图书馆数字化对象文件出处的信息( 如 主要派生文件关系,迁移转换信息) 。分为四个子部分:技术元数据( ) 、 知识产权元数据( ) 、来源元数据( ) 、起源元数据 ( ) 。例如,关于文件预备的技术性元
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安徽省长丰县高中政治 第四课 第二框 文化在继承中发展教学设计 新人教版必修3
- 第二节 探索微观世界的历程教学设计初中物理九年级全册(2024)北师大版(2024·郭玉英)
- 错那市新城游客服务中心建设项目水土保持方案报告表
- Unit 6 Im watching TV Section A Grammar Focus-3c 教学设计 2023-2024学年人教版七年级英语下册
- 第一单元整体教学设计 统编版语文七年级下册
- 第十一课 让机器人动起来教学设计小学信息技术(信息科技)六年级下册川教版
- 跨境电商纠纷在线解决机制构建
- 2025年安徽省生物天然气开发股份有限公司所属子公司面向集团公司系统内招聘4名笔试历年参考题库附带答案详解
- 2025工银安盛人寿保险有限公司天津分公司招聘7人笔试历年参考题库附带答案详解
- 2025安徽新华图书音像连锁有限公司书店管理分公司外包服务人员(第二批)招聘笔工作笔试历年参考题库附带答案详解
- 2026年深圳高三数学高考三模冲刺卷:三角向量与空间几何(教师命题组版第1套)含参考答案、逐题解析与评分细则
- 湖南省郴州市2026年中考语文第一次模拟监测试卷附答案
- 2026年5月浙江省Z20高三语文联考9篇考场高分范文:当一个人向你树立边界时
- 德州市2026届高三(三模)语文试题(含答案)
- 2026春青岛版三年级科学下册(全册)各单元知识点复习要点梳理
- 2026年广东广州市高三二模高考英语模拟试卷(含答案解析)
- 生物新教师培训
- 全国职工数字化应用技术技能大赛无人机装调检修工竞赛题库(附答案)
- 2026年药品gmp知识考核题库检测试卷(考点提分)附答案详解
- 2026年西部计划楚雄考试试题及答案
- 外贸英语函电 课件 第十八章 跨境电商英文写作Cross-border E-commerce English Writing
评论
0/150
提交评论