已阅读5页,还剩57页未读, 继续免费阅读
(计算机应用技术专业论文)基于dspace的机构知识库系统的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
内蒙古大学硕士学位论文 基于d s p a e e 的机构知识库系统的研究与实现 摘要 随着科学技术的不断的发展,图书情报界为适应新技术的发展而产生 了一系列令人振奋的新进展,基于开放获取( o p e na c c e s s ) 理念的机构知 识库就是其中之一。机构知识库是一种全新的、无障碍的学术交流体制, 一方面缓解了学术期刊及数据库价格的逐年上涨和出版时滞给学术交流带 来的不便,另一方面也促进了学术信息的广泛交流与资源共享。基于开放 获取理念的机构知识库是保存自我机构内的学术产出成果,为专属机构提 供文献获取与检索服务,是对传统的以正式出版物为主的学术交流体系的 补充。本论文的主要任务是:构建基于d s p a c e 的机构知识库系统,希望由 此系统,各高校图书馆可以各自集中保存研究者的科研成果,并以公开且 免费的方式提供使用,而且可通过0 a i - p m h 协议,达到跨系统资源整合共 享的目的。 本论文在系统介绍了机构知识库的发展概况,包括机构知识库的定义、 特点、功能及构建工具的基础上,详细分析了麻省理工学院和惠普公司共 同开发的d s p a c e 系统,以d s p a c e 为基础,并以国内使用者的使用需要为 出发点,对其进行扩充,构建了适合国内使用的机构知识库系统。 关键词:机构知识库,元数据,o a i - p m h 协议,d s p a c e 基于d s p a c c 的机构知识库系统的研究与实现 r e s e a r c ha n da c h i e v et h ei n s t i t u t i o n a l r e p o s i t o r yb a s e do nt h ed s p a c e a b s t r a c t a l o n gw i t hd e v e l o p m e n to ft h es c i e n c ea n dt e c h n o l o g y , t h el i b r a r ya n d i n f o r m a t i o ns c i e n c eh a sb e e nt a k e nas e r i e so f e x c i t i n gp r o g r e s st oa d a p t i n gt h e n e wt e c h n i c a ld e v e l o p m e n t ,t h ei n s t i t u t i o n a lr e p o s i t o r yt h a tb a s e do nt h eo p e n a c c e s si d e ai so n eo f t h e m a sab r a n d - n e wa n dn ob a r r i e ra c a d e m i ce x c h a n g e s y s t e m ,i n s t i t u t i o n a lr e p o s i t o r yn o tt h a nc a na l l e v i a t et h ei n c o n v e n i e n to f a c a d e m i ce x c h a n g et h a tt h eh i g hp r i c eo ft h ea c a d e m i cp e r i o d i c a la n dt h e d a t a b a s ey e a rb yy e a ra n dt h ep u b l i c a t i o nt i m el a gw h i c hb r i n gf o r , b u ta l s oc a n p r o m o t et h ea c a d e m i ci n f o r m a t i o nw i d e r a n g i n ge x c h a n g ea n dr e s o u r c e ss h a r i n g t h ei n s t i t u t i o n a l r e p o s i t o r y t h a tb a s e do n o p e na c c e s sp r e s e r v e s o n e i n s t i t u t i o n sa c a d e m i co u t p u ta n dp r o v i d e st h el i t e r a t u r e sa c c e s sa n dr e t r i e v a l s e r v i c e ,a n di tw i l lb et h es u p p l e m e n to ft h et r a d i t i o n a l l ya c a d e m i ce x c h a n g e s y s t e m t h i sp a p e rp r i m a r ym i s s i o ni s :f o u n dt h ei n s t i t u t i o n a lr e p o s i t o r yt h a t b a s e do nt h ed s p a c es y s t e m t h ec o n c e p to fi n s t i t u t i o n a lr e p o s i t o r ys y s t e mi s t op r e s e r v es c h o l a r l yp u b l i s h i n ga n dt oe n h a n c et h ea c c e s st oa c a d e m i c r e s o u r c e si nc o s t e f f e c t i v ew a y s t h r o u g hi n s t i t u t i o n a lr e p o s i t o r i e s ,u n i v e r s i t i e s a r ea b l et os h a r et h e i rc o l l e c t i o n sw i t hl i t t l ee f f o r t sb yo p e na r c h i v e si n i t i a t i v e p r o t o c o lf o rm e t a d a t a h a r v e s t i n g h 内蒙古大学硕士学位论文 t h p e rs y s t e m a t i ci n t r o d u c e st h e o ft h ei n s t i t u t i o n a lrepository,1 h ep a p e rs y s t e m a t i ci n t r o d u c e st h es t a t u so ft h ei n s t i t u t i o n a l p o s i t o r y , w h i c hi n c l u d e st h ed e f i n i t i o n s ,c h a r a c t e r i s t i c s ,f u n c t i o n sa n ds o m ep r i m a r y s o f t w a r et o o l so fi n s t i t u t i o n a lr e p o s i t o r y i ta n a l y z e sd s p a c ed e v e l o p e db y m a s s a c h u s e t t si n s t i t u t eo ft e c h n o l o g ya n dh e w l e t t - p a c k a r di nd e t a i l t h eg o a l o ft h i st h e s i si st od e v e l o pa ni n s t i t u t i o n a lr e p o s i t o r ys y s t e mb a s e do nd s p a c e , i n t e n dt op r o v i d ee c o n o m i ca n de d u c a t i o n a la d v a n t a g e sf o ro u rr e s e a r c h i n s t i t u t i o n sa th o m e k e y w o r d s :i n s t i t u t i o n a lr e p o s i t o r y ,m e t a d a t a ,o a i p m hp r o t o c o l ,d s p a c e i i i 原创性声明 本人声明:所呈交的学位论文是本人在导师的指导下进行的研究工作及取得的研究成 果。除本文已经注明引用的内容外,论文中不包含其他人已经发表或撰写过的研究成果,也 不包含为获得凼墓直太堂及其他教育机构的学位或证书而使用过的材料。与我一同工作的同 志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:丕出垒蜂 e t 期:2 笾篮z ,垃 在学期间研究成果使用承诺书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:内蒙古大学有权将 学位论文的全部内容或部分保留并向国家有关机构、部门送交学位论文的复印件和磁盘,允 许编入有关数据库进行检索,也可以采用影印、缩印或其他复制手段保存、汇编学位论文。 为保护学院和导师的知识产权,作者在学期间取得的研究成果属于内蒙古大学。作者今后 使用涉及在学期间主要研究内容或研究成果,须征得内蒙古大学就读期间导师的同意;若用 于发表论文,版权单位必须署名为内蒙古大学方可投稿或公开发表。 学位论文作者签名:越釜逝 e t 期:2 盘生幺笸。f2 内蒙古大学硕士学位论文 1 1 研究背景及研究意义 第一章引言 从内蒙古大学图书馆o p a c 查询系统可得,1 9 7 3 年出版的三国演义定价2 7 5 元( 上下册) ,1 9 8 5 年出版的定价9 5 0 元( 上下册) ,2 0 0 6 年出版的定价3 8 0 0 元( 上 下册) 【1 1 。根据美国研究图书馆协会( a s s o c i a t i o no fr e s e a r c hl i b r a r i e s ,a r l ) 对其会 员所进行的统计数据显示,2 0 0 6 年美国大学图书馆用于购买期刊的费用与1 9 8 6 年相比, 涨幅高达3 2 0 ,平均每份期刊涨幅为1 6 7 ,但所订阅的期刊种数却仅仅只增加了 5 1 2 1 。 从上面的数据,我们不难看出,目前纸本与电子学术期刊费用不断高涨的经济因素 下,以及书刊市场的垄断,加剧了图书馆资源贫乏的状态,而图书馆却只能提高预算或 删订部分使用率较低的书刊来应对。具有讽刺意味的是,这些书刊论文的最大来源,正 是各大学的教授和学生。与此同时,越来越多的原生数字资料( b o md i g i t a l ) 出现在教 育研究领域,学术机构逐渐意识到收集和保存这些资料的重要性,于是如何创建一个稳 定的环境来长期保存和获得这些资料成为一个重要问题。因而国外学术机构开始倡导研 究机构知识库系统( i n s t i t u t i o n a lr e p o s i t o r y ) ,由各机构各自收集、保存重要的研究资料, 并以公开、免费的方式,提供其他机构使用。 本论文设计的是内蒙古大学图书馆机构知识库系统,本着开放获取的理念,期望内 蒙古大学产生的各类学术资料能够全面且长期地得到集中管理,避免学术资料散乱存 在,并保障知识的有效利用。同时,科研人员的研究成果作为内蒙古大学的学术成果集 中管理和利用,可以提升内蒙古大学的学术地位和价值。在全球开放获取运动中,随着 内蒙古大学机构知识库的构建,期望所产生的个人学术文档等能够改善学术信息的流通 渠道和环境;机构间也可通过合作的方式,交流彼此的典藏资源形成一种崭新的学术 传播方式。 1 2 研究目标 基于d s p a c e 的机构知识库系统的研究与实现 独立研发一套机构知识库系统需要耗费极大的财力和人力,近年来国外在支持机构 一 知识库系统开发建设方面也出现了一些在功能和技术上都相对稳定和成熟的齐源应用 软件。其中,由美国的麻省理工学院图书馆和惠普实验室合作开发的d s p a c e 应用软件, 在功能性、标准性、集成性、互操作性以及开放跨平台等方面都有着良好表现和支持能 一- 力,是目前机构知识库系统建设过程中得到广泛应用的一款开源软件,在后续开发支持 方面也有着良好的前景。因此,在对几种主流的国外知识库系统建设的开源软件进行比 较后,为了快速构建内蒙古大学图书馆机构知识库系统,最终选择7 d s p a c e ( 版本为 1 4 2 ) 系统。其主要工作有以下三方面: 第一,对机构知识库概述性分析,着重论述了机构知识库的产生背景、定义、特点、 功能和作用,总结了国际上比较有代表性的几个机构知识库,并对d s p a c e 体系结构和功 能进行了详细介绍。 第二,d s p a c e 系统中文环境的实现。d s p a c e 是纯英文软件,不支持中文。在本系统 中,就中文资料的采集、检索、存储、显示四大方面,进行全盘性的中文化,确保系统 处理中文资料时,不会发生任何问题。 第三,系统功能扩充。根据实际需求设计系统的体系结构、元数据模板、元数据获 取等功能。 1 3 论文结构 本论文的结构如下: 第一章引言。概要介绍了本论文的研究背景和研究意义,在此研究背景下提出了 本论文的研究目标和方向。 第二章概述。简单介绍了机构知识库的产生背景以及专家学者对它的各种定义, 给出了本文机构知识库的定义,同时总结归纳了机构知识库的特点、功能和作用,列举 了目前国际上知名的机构知识库系统。 第三章d s p a c e 研究。本章对美国麻省理工学院图书馆与惠普公司联合开发的 d s p a c e 作了详细分析与研究,得出以d s p a c e 为基础,构建基于d s p a c e 的机构知识库 系统是切实可行的。 第四章系统的总体设计与实现。以d s p a c e 系统为基础构建机构知识库系统,逐步 2 内蒙古大学硕士学位论文 解决了其对中文资料的处理问题,并扩充了一些基本功能。 第五章元数据获取。集成o c l c 的o a i h a r v e s t e r 到系统,实现了多个机构知识库 系统之间的数据共享。 第六章展望与结论。对全文的内容作了简要总结,针对存在的不足提出了今后进 一步研究的方向和目标 基于d s p a c e 的机构知识库系统的研究与实现 第二章机构知识库概述 2 1 机构知识库的产生背景 二十世纪9 0 年代末,在国际学术界、出版界和图书情报界的推动下,开放存取( o p e n a c c e s s ) 运动开始兴起。开放存取运动所倡导的学术信息自由共享、开放获取理念得到 众多学者的支持。互联网的普及和电子出版技术的完善更是加速了开放存取运动的发 展。在开放存取运动十余年的发展过程中,主要形成三个分支,即开放存取期刊( o p e n a c c e s sj o u r n a l ) 、学科知识库( d i s c i p l i n a r yr e p o s i t o r y ) 和机构知识库( i n s t i t u t i o n a l r e p o s i t o r y ) e l 。 作为开放存取运动的主要分支之一,机构知识库的产生有着与开放存取运动相似的 大背景,但也有着它自己独特的因素。一方面,随着计算机技术和网络技术的应用与普 及,在大学和研究机构中产生了大量的原生数字资料( b o r nd i g i t a l ) 。这些原生数字资 料包括论文、工作报告、通讯、文件、教学课件、动画、图片等,以及一些实验结果和 数据或科研人员的各种观点、看法及经验的总结。这些原生数字资料中的绝大部分是不 能够按传统出版方式出版的,因此也难以有效融入学术交流活动中,不能发挥其应有的 功效。同时,这些原生数字资料通常分散保存于个人或机构的计算机上,这种保存方式 不仅不利于资源的共享利用,也极易资料的丢失。因此如何长期保存、有效管理和充分 利用这些学术资源,给研究机构或大学图书馆提出了新的挑战。 另一方面,传统的印刷型书刊大幅度涨价,使得大学图书馆和研究机构采购印刷型 书刊的成本逐年上升。尤其近几年来,国内外书刊特别是学术期刊的涨价情况特别严重, 使大学图书馆和研究机构文献经费预算逐年增加。但预算增加的速度永远也赶不上书刊 费用的上涨,以致必须删订部分书刊,形成了文献订阅经费逐年增加,但书刊订阅数量 相对减少的局面。具有讽刺意味的是,这些学术信息主要是由大学和研究机构产生的, 而大学和研究机构却需要向出版商支付过分高昂的费用来采购这些信息,这显然是不合 理的。 随着全球信息网络的发展,i n t e m e t 在世界上已不仅仅是一种技术,更重要的是它已 成为一种新的信息服务模式。同时,科研人员的学术交流活动日益频繁而且多样化,为 资源的共享创造了前所未有的契机,而传统的基于学术出版模式的学术交流体系已经完 4 内蒙古大学硕士学位论文 全不能适应科研活动的要求,在一定的程度上阻碍了知识的交流与共享,于是一种基于 开放理念的机构知识库应运而生。近年来,机构知识库蓬勃发展,它正以不可思议的速 度在全球范围内扩展,并朝着全球知识共享的目标迈进,它可以提供跨库式的无缝检索, 在一定程度上实现资源共享,成为数字学术环境下一种新的资源整合和服务方式。学术 传播方式上的变革,将是大学和研究机构应对上述挑战的必然要求。 2 2 机构知识库的定义 机构知识库( i n s t i t u t i o n a lr e p o s i t o r y ,简称i r ) ,又称机构典藏库、机构资料库等, 是学术机构为捕获并保存机构的智力成果而建立的数字资源库,也是国际图书情报界近 几年出现的一个新概念、新的研究领域和热点。 目前,关于机构知识库的定义还没有统一的认识。有的侧重于对机构知识库是一种 服务体系的论述,如美国网络信息联盟( c o a l i t i o nf o r n e t w o r k e di n f o r m a t i o n ) 的常务董 事c l i f f o r da l y n c h ,他认为“机构知识库是由大学向其社区成员提供的一整套服务,并 对其机构内和社区内所产生的数字资源进行管理与分发。【4 】 也有的,强调机构知识库的机构性、学术性、累积和持久性、开放和互操作性。如 s p a r c ( s c h o l a rp u b l i s h i n ga n da c a d e m i cr e s o u r c ec o a l i t i o n ) 组织的高级顾问r a y m c r o w ,他指出“机构知识库的定义应满足以下目的:是对重新改造的学术交流体系的补 充;是对机构品质的一个明确体现。并认为,按照上述目的,机构知识库是对一个机构 内院系成员与学生所产生的智力成果进行收集保存的数字知识库,可被机构内外的终端 用户所获的,不存在获取障碍。同时指出,一个机构知识库应包含以下特性:能够显示 机构特色的、学术的、累积和持久的、开放和互操作的。【5 p 加拿大研究图书馆协会( c a n a d i a na s s o c i a t i o no f r e s e a r c hl i b r a r i e s ,c 触也) 提出, 所谓i r ,就是指搜集、存储学术机构成员的研究资源,并提供检索的数字知识库,同时 认为可以作为一个全球知识库的子库,为世界范围的网络用户服务。这是以学术机构为 切入点,针对目前学术传播方式采取的措施,希望研究者能将重要的研究资源存放在机 构的知识库中。研究资源可以包罗万象,除了论文之外,研究报告、图表、投影片、课 件、研究相关的影音资料等等。 国内的不少学者也对机构知识库的定义提出了自己的观点。 基于d s p e 的机构知识库系统的研究与实现 上海图书馆吴建中馆长认为,机构库是指收集并保存单个或数个大学共同体知识资 源的知识库,在学术交流体系改革的诸要素中扮演着关键的角色,即扩大对研究资源的 存取能力,重申学术机构对学术的控制力,增强竞争力,减少杂志的垄断性,提高经济 自救力和与各类机构及图书馆之间的关联性等。同时,在为提高大学质量的具体指标方 面,在提高研究活动的科学、社会以及经济的关注度方面,以及在增强研究机构的知名 度、地位及公共价值等方面创造了必要的条件【6 】。 国家图书馆的魏宇清给机构知识库的定义是:瓜是一个基于网络的学术机构智力成 果数字库,集中了学术机构的所有研究成果,内容可以免费获取。它增加了机构研究成 果的可见度,提高了机构的地位和声望,使机构更容易实现其科学、社会和经济价值。 因此,i r 库是衡量机构学术质量的一个有意义的标准1 7 j 。 由上述各家学者给予的定义可知,要对i r 提供具体且明确定义有所困难,而且从以 上众多学者所给出的有关i r 的定义可知,i r 在国内尚未形成共识。但有一点可以肯定, i r 是数字时代的产物。因此,在本文中,机构知识库是由一个或多个特定机构建立的, 透过机构成员间共同合作或与其他机构合作,通过单一系统或平台,以集中方式管理、 组织、提供长期保存机构内所产生的数字学术资源和某些相关的外部资源,以供机构内 外用户免费使用。同时,通过国际间互通标准,如:o a i p m h ,达到跨库检索之功能。 而且,本文的机构知识库基于开放理念而建立、以学术机构为轴心,对保存学术机构知 识资源、提高学术机构知名度和影响力、拓宽图书馆的发展空间、革新传统学术交流体 系等都有重要意义。 2 3 机构知识库的特点 作为一种新兴事物,机构知识库具有其自身独有的,区别于其他数据库等的特点。 不过,学术界对此尚无统一的观点,由于出发点或侧重点不尽相同,各个专家学者对机 构知识库的特点都有自己的观点和看法。以下是国内几种主要的观点。 中国科学院文献情报中心的常唯认为i r 具有如下特点:一、机构库的构建主体是机 构。其建立和运行均以机构为轴心,机构可以是实体的,如一个实体的大学、研究所、 大学联合体;也可以是虚拟的,如数字科研环境下可能出现的虚拟联合实验室等。二、 其构建和实现的基础平台是网络。它通过网络实现资源的提交、传播与利用,实现自身 6 内蒙古大学硕士学位论文 的管理和运行。三、互操作和开放性。机构知识库的优越性只有在一个机构知识库能够 有效存取其它机构库中的内容时才能够充分体现出来。四、以学术资源为重点。数字 学术环境中,机构知识库存储的核心内容是围绕科学研究与教学活动产生的各种学术资 源【8 】。 北京师范大学管理学院李广建教授从数字资源的提交、收集与描述、管理、互操 作性、索引与检索、存储与保存等方面阐释ti r 的特点【9 1 。浙江大学图书馆赵继海馆长 从学术传播、电子出版、长期保存、知识管理、促进教育、科研评价、共享利用以及提 高声望8 个方面详细论述- i r 的主要特点【l o l 。 虽然上述三者对i r 的特点表述不尽相同,但是,对于i r 特点的理解主要是从保存 与共享、知识与评价这两大角度出发,一方面,i r 为机构成员保存了智力知识成果,实 现了共享功能,推动了知识创造;另一方面,i r 利用知识传递实现了评价个人与机构科 研能力的重要工具。结合上述i r 的特点,总结i r 的特点如下: ( 1 ) 特定性。大部分工r 是由特定机构建立,并以建立的机构命名。存储的内容主 要是该机构的数字资源,但也有联合多个机构合作或由国家牵头来共同构建的。 ( 2 ) 长期性与累积性。被i r 收录的数字资源是长期保存并不断累积的,无论i r 收 录范围与标准如何制定,原则上数据提交后,一般将不允许撤消;另夕i - i r 的累积性也表 现在软件系统结构的扩充性。 ( 3 ) 开放性与互操作性。i r 能够保证机构知识库的数字资源被机构内外的任何用 户,通过互联网不受限制地合理利用其中的知识资源。同时,对提交者而言,在一定的 权限范围内可以随时提交自己的学术资源,让自己的最新研究成果体现在机构知识库 中,并对已提交的研究成果可以随时进行修改。 ( 4 ) 学术性。i r 负责收集、存储、发布与长期保存机构的学术资源,所收集的学 术成果可反映一个或多个机构的学术质量与学术水平,保存的某些成果内容具有很高学 术价值。 ( 5 ) 资源类型多样性。r 不仅包括常见的研究性学术资源,如期刊论文、电子预 印文本、技术报告、会议论文及数字图书馆资源,还包括部分学术数据库不收录但又具 有较高学术价值的资源,如工作文件、图像、音频和视频文件、学习资料、海报、教学 资料或课件、软件程序等。 ( 6 ) 资源内容数字化。瓜中的资源以数字化的形式存储在计算机数据库中,并把 7 基于d s p a c e 的机构知识库系统的研究与实现 某些非数字格式的资料转换成数字格式( 如图片扫描等) ,使其永久保存。 ( 7 ) 操作简单易学。i r 系统采用提供者或其代理人提交内容的方式,授权用户只 须经过简单培训甚至未经培训便可使用。 2 4 机构知识库的功能和作用。: 目前即使在发达国家,i r 系统仍是学术传播的非主流模式。互联网的发展,数字化 技术的集聚是不可阻挡的进程,i r 作为数字资源长期保存的工具和开放利用的枢纽地位 是可以预期的,它作为学术传播的重要模式也终将会为人们所接受。i r 作为一个大学或 研究机构内部的知识和信息存储与利用的枢纽,其主要功能和作用有: ( 1 ) 学术传播。学术传播是建立i r 的初衷之一。根据l y n c h 的观点,学术传播 ( s c h o l a r l yc o m m u n i c a t i o n ) 的概念要比学术出版( s c h o l a r l yp u b l i s h i n g ) 宽泛得多,后者是 前者的组成部分之一【l l 】。因此,i r 不能简单地理解为取代学术出版,它将原来不作为正 式出版的各种知识、信息通过网络发布。而且具有知识、信息集成的功能。 ( 2 ) 电子出版。i r 将各种不同类型的知识和信息内容撷取,按照统一的格式( 如p d f ) 发布。因而具有电子出版( e p u b l i s h i n g ) 的功能。通过i r ,可以将原先无法进人正式出版 途径的大量知识信息得以发布交流。 ( 3 ) 长期保存。i r 为大学或研究机构的知识、信息提供一个长期保存的安全场所, 从而克服各部门以及个人分散保存信息的弊端和风险。通过长期的积累,i r 将成为一个 大学或研究机构的知识宝库。 ( 4 ) 知识管理。通过i r 的集中式数字对象管理和相互链接,存储其中的信息和知识 可方便、快捷、高效地为用户所利用。 ( 5 ) 促进教育。大学的师生可以利用i r 丰富的教学信息资源,提高教学效果。学生 可通过i r 的各类课件进行自主学习、作业和考试,教师可通过i r 交流、完善教学课件和 教学方法,科研人员可通过i r 进行继续教育和进修提高。 ( 6 ) 科研评价。i r 可作为对教师和研究人员科研活动的评价工具,可以使大学或研 究机构方便地了解他们的研究成果。 ( 7 ) 开放获取。i r 是学术资源开放利用的重要工具。不同的大学和研究机构。通过 建立共享利用机制,在权利义务平衡的前提下。相互开放学术资源,对于加强校际之间 内蒙古大学硕士学位论文 的学术交流、降低学术信息利用成本具有非常重要的作用。 ( 8 ) 提高声望。i r 是对外进行学术交流的重要窗i i l ,可以展示一个大学或研究机构 的学术成果,提高论著的被引用率,扩大在学术界的影响力。通过构建工r ,图书馆可进 一步发挥在学术传播、信息存储和知识服务中的作用,提升图书馆在大学和研究机构中 的学术地位。 ( 9 ) 展示平台。i r 要传播知识,便要有展现机构知识资源的平台。该平台展示的东 西,除了论文等理论成果,还应该有实际的研究产品,例如自行研制的软件或其他的实 物产品等等。 2 5 机构知识库的相关研究 近年来机构知识库系统的研究和建设一直是数字信息管理的热点领域,在支持机构 知识库系统开发建设方面也出现了一些在功能和技术上都相对稳定和成熟的应用系统, 以下列举一些国际上比较知名的机构知识库,并对其进行概略性介绍,从而可以为我们 在建设机构知识库的时候提供参考借鉴。 2 。5 1d s p a c e 1 2 1 2 0 0 0 年3 月,美国麻省理工学院图书馆与惠普实验室达成共识,决定共同开发数字 机构存储;并命名为d s p a c e 。随后双方经过两年半的努力,于2 0 0 2 年1 1 月4 日,根据b s d 开放源代码许可协议,麻省理工学院图书馆与惠普公司实验室向全球发布了第一个版本 的d s p a c e 开放源代码系统。目前有许多知名大学皆采用此系统,如哥伦比亚大学 ( c o l u m b i au n i v e r s i t y ) 、康乃尔大学( c o m e l lu n i v e r s i t y ) 、剑桥大学( u n i v e r s i t yo f c a m b r i d g e ) 等等。到目前为止,d s p a c e 系统是机构知识库中应用范围最广的一种,并 且与o c l c 的o a i c a t 结合,完全支持o a i p m h 2 o 协议,同时采用c n r i 的h a n d l e 建立唯 一标识框架,为实现不同数据库间的元数据交换,进而实现不同机构知识库资源的完整 意义上的互通存取提供了可能性。本系统至今已发展到1 5 版。 2 5 2e p r i n t s 【1 3 1 e p r i n t s 是由南安普敦大学( u n i v e r s i t yo f s o u t h a m p t o n ) 所开发,目的是希望能建立 9 基于d s p a c e 的机构知识库系统的研究与实现 一套免费且易于架设及使用的机构知识库系统,以作为研究者自行典藏之用。e p r i n t s 希望学术论文的作者,除了将论文投稿至期刊出版社之外,也能将论文存放至个人或机 构的知识库当中,使之能让一般使用者自由的取用。e p r i n t s 是g n u ( 一个类似于u n i x 的 操作系统) 的一部分,采用p e r l 语言开发,早期只能运行在g n u l i n u x 或u n i x 系统上, 现在w i n d o w s 系统上也可以运行,其缺省配置是构建机构知识库,具有高度的可定制性。 目前已知世界各地共有2 0 0 多个机构使用e p r i n t s 系统,本系统至今已发展到3 0 3 版。 2 5 3f e d o r a 1 4 f e d o r a ( f l e x i b l ee x t e n s i b l ed i g i t a lo b j e c ta n dr e p o s i t o r ya r c h i t e c t u r e ) 系统是弗吉尼 亚大学( u n i v e r s i t yo f v i r g i n i a ) 和康乃尔大学( c o m e l lu n i v e r s i t y ) 在梅隆基金会( a n d r e w w m e l l o nf o u n d a t i o n ) 资助下,联合开发的开源系统,实现了数字对象框架。f e d o r a 是一个通用的数字对象机构知识库系统,可用在很多地方,包括:数字图书馆、内容管 理、数字资产管理、资源保存等。从2 0 0 1 年发布1 o 版以来,目前已经发布了2 2 1 版。 目前全世界范围内有很多图书馆和各种研究组织都在使用该系统。 2 5 4e t d d b 1 5 1 e t d d b ( e l e c t r o n i ct h e s i sa n dd i s s e r t a t i o n sd a t a b a s e ) 是由弗吉尼亚科技大学 ( v i r g i n i at e c hu n i v e r s i t y ) 所开发,其目的就是建立一个专为收集博硕士论文的机构知 识库系统。该项目从1 9 9 1 年开始,目前有1 0 0 多个成员,分别来自美洲、欧洲、亚洲、 非洲等。在国内,上海交通大学从1 9 9 9 年开始与e t d 项目组开展关于研究和实现学文论 文电子化的交流,为国内的学位论文电子化建设提供了许多有益的帮助。 2 5 5c d s w a r e t l 6 1 c d s w a r e ( c e r nd o c u m e n ts e r v e rs o f t w a r e ) 由欧洲粒子物理研究所( e u r o p e a n o r g a n i z a t i o n f o r n u c l e a r r e s e a r c h c e r n ) 开发并使用的系统。该系统由c e r n 进行管理, 提供开放使用;支持电子版的预印本服务器、图书馆网上编目以及其他以网络为基础的 文件存储系统。c d s w a r e 的建立有利于对存储不同类型资料的众多机构库进行操作,这 些资料可以来自c e r n 内部,也可以来自外部。目前的版本为0 9 2 1 版。 内蒙古大学硕士学位论文 2 5 6g r e e n s t o n e 【1 7 1 g r e e n s t o n e 是由新西兰w a i k a t o 大学的新西兰数字图书馆工程( n e w z e a l a n dd i g i t a l l i b r a r yp r o j e c t ) 开发,并与联合国教科文组织( u n e s c o ) 以及人类资讯非政府组织 ( h u m a ni n f on g o ) 一起合作开发。g r e e n s t o n e 遵循g n ug e n e r a lp u b l i cl i c e n s e 协议许 可【l 引,是一个面向全球,基于u n i c o d e 编码支持多语言的开源软件。g r e e n s t o n e 系统是 一套用于创建、管理及发布数字图书馆馆藏的软件包,提供了一种组织信息并在因特网 或c d r o m 上发布它的新方法,目前的版本是3 0 2 版。 基于d s p a c e 的机构知识库系统的研究与实现 第三章d s p a c e 系统的分析 d s p a c , e 系统是由美国麻省理工学院( m a s s a c h u s e t t si n s t i t u t eo f t e c h n o l o g y ,m i t ) 图书馆和美国惠普实验室( h e w l e t t p a c k a r dl a b s ) 合作开发的以内容管理发布为设计 目标的数字资源存储系统,可以收集、存储、索引、保存和发布任何格式的数字资源。 在2 0 0 2 年1 1 月4 日,根据b s d 开放源代码许可协议,麻省理工学院图书馆与惠普实 验室向全球发布了第一个版本的d s p a c e 开放源代码系统。目前,d s p a c e 系统已发布了 1 5 版【1 2 1 。在d s p a c e 官方网站上有登记的并在使用d s p a c e 系统的教育科研机构已经有 2 9 3 家,分布在世界范围4 8 个国家,共有1 ,5 2 6 ,9 3 4 篇文档。在短时间内,d s p a c e 系统得到了广泛的应用和普及,其强大的功能和使用的简单性得到了普遍认可。 d s p a c e 系统主要代码采用j a v a 语言编写,可以运行w i n d o w s 或者u n i x 环境下, 采用t o m c a t 作为w e bs e r v e r 和j a v as e r v l e tc o n t a i n e r ;数据库和索引都是开源代码, 分别是p o s t g r e s q l 和l u c e n e ,如图3 1 所示:【2 川 u s e r w e b 臼s e n o r - t o m c a t 3 。1d s p a c e 体系结构 图3 - 1d s p a c e 系统 f i g u r e3 - 1d s p a c es y s t e m s e a r c he n g i n e pj a k a r t al u c e n e d s p a c e 是一个三层结构的系统,每一层分别由不同的组件组成,各司其职;层与层 9 一固 内蒙古大学硕士学位论文 之间,通过接口相连,如此层层相通连,交互运作。在实际应用中,应用层程序调用业 务逻辑层和存储层程序来实现用户所需要的各种功能,其体系机构如图3 2 所示: 图3 - 2d s p a c e 系统的体系结构 f i g u r e3 - 2d s p a c es y s t e ma r c h i t e c t u r e 3 1 1 应用层( a p p l i c a t i o nl a y e r ) 应用层负责系统与外界交流的管理,如w e b 用户接口、批量数据导人工具、0 a i 元数 据供应、提供对c n r i 句柄的支持等。该层的各个组件的功能是通过j a v a 编写的s e r v l e t 和j s p 来调用实现的。应用层主要由软件包:o r g d s p a c e a p p 目录下的所有软件包构成。 3 1 2 业务逻辑层( b u s i n e s sl o g i cl a y e r ) 业务逻辑层负责用户权限管理、认证、工作流管理、数字条目管理、标志符( h a d l e ) 基于d s p a c c 的机构知识库系统的研究与实现 管理、浏览、检索等。该层通过一系列的类文件对d s p a c e 中的各类对象进行抽象,然后 实现相应的功能模块。在业务逻辑层,还提供了历史系统,它可以抓取d s p a c e q b 基于事件 的纪录的重要变化,比如创建审核跟踪或者文档变化跟踪记录等。除了应用层和存储层 使用的软件包,其他的软件包构成业务逻辑层。 3 1 3 存储层( s t o r a g el a y e r ) 存储层负责元数据和数字条目的物理存储管理,一方面负责对后台数据库的操作, 完成内容组织、内容元数据、电子用户、授权、工作流和检索索引的保存;另一方面负 责数字流的保存,这是通过文件系统和存储资源代理服务来实现的。该层各个组件的功 能是通过j a v a 编写的存储p a i 来调用实现的。对于内容的存储,d s p a c e 提供了两种方式, 一种是存储于服务器端的文件系统中,还有一种是利用s r b ( s t o r a g er e s o u r c eb r o k e r ) 。 其存储方式和位置可以通过配置参数进行配置。存储层主要由软件包: o r g d s p a c e s t o r a g e r d b m s 木和o r g d s p a c e s t o r a g e b i t s t o r e 木构成。 3 2 数据模型 d s p a c e 系统中使用分层结构的对象来组织数据,这种组织方式能很好地反映一个 组织的结构,便于构建分级式的应用系统。这些对象自顶向下分别为:数字空间群 ( c o m m u n i t y ) 、数字馆藏( c o l l e c t i o n ) 、数字条目( i t e m ) 、数字流包( b u n d l e ) 、数字 流( b i t s t r e a m ) 、数字流格式( b i t s t e a m f o r m a t ) ,它们的关系如图3 3 所示:【2 1 】 3 2 1 数字空间群( c o m m u n i t y ) d s p a c e 系统可根据使用需要建立多个数字空间群,每个数字空间群可以用来表示 院系、研究中心和图书馆等。数字空间群可以进一步划分成多个子数字空间群 ( s u b c o m m u n i t y ) 。数字空间群有如下主要属性: 1 )c o m m u n i t yi d :数字空间群的i d 号,唯一标志一个数字空间群。 2 )n a m e :数字空间群的名称。 3 )s h o r td e s c r i p t i o n :对数字空间群的简短描述。 4 )i n t r o d u c t o r yt e x t :数字空间群的文本介绍。 内蒙古大学硕士学位论文 ”l o g o _ b i t s t r e a m i d :数字空间群的图标。 6 )c o p y r i g h 唧x t :数字空间群的版权声明。 7 ) s i d e _ b a rt e x t :数字空间群的侧边条文本。 图3 - 3d s p a c e 数据模型图 f i g u r e3 - 3d s p a c es y s t e md a t am o d e ld i a g r a m 3 2 2 数字馆藏( c o l l e c t i o n ) 数字馆藏是数字空间群的下一级对象,一个数字空间群可以包含多个数字馆藏,一 个数字馆藏也可以在多个数字空间群中出现,用户一般以数字馆藏为单位来订阅相关的 信息。数字馆藏可以表示研究领域、研究项目或技术报告集等的专题内容集合。数字馆 藏有如下主要属性: 1 5 基于d s p a e e 的机构知识库系统的研究与实现 1 ) c o l l e c t i o n _ i d 数字馆藏的i d 号,唯一标志一个数字馆藏。 2 ) n a m e :数字馆藏的名称。 3 ) s h o r td e s c r i p t i o n - 对数字馆藏的简短描述。 4 ) i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 水利基础分析计算 10
- 2026年全国“安全生产月”知识考试试题与参考答案完整版
- 2026年湖北省黄冈市区民营企业申报中初级职称测试(农学)综合练习题及答案
- 门静脉高压诊疗指南(2025版)
- 2026爱岗敬业自查报告(3篇)
- 护士核心制度考核试卷(附答案)
- 2026年资源路旅游路产业路(G335线至哈日达嘎查马奶厂基地)公路工程水土保持报告表
- 某食品厂生产操作细则
- 某纺织厂节能减排制度
- 纺织厂节能降耗制度
- 2026内蒙古乌海市国创数字产业发展有限责任公司招聘15人考试备考题库及答案解析
- GB/T 7582-2025声学听阈与年龄和性别关系的统计分布
- 避雷器检修(接触网技能培训课件)
- 国际航运管理习题及答案
- 铁塔外市电引入施工组织方案(业务能力及服务水平)
- 呼吸机相关性肺炎诊断、预防和治疗指南(2013年)
- GB/T 1112-2012键槽铣刀
- GA 1334-2016管制刀具分类与安全要求
- 低温固定储罐培训课件
- 三防漆外观检验标准
- 警察岗位调动申请书模板
评论
0/150
提交评论