(教育技术学专业论文)基于srw的电子资源整合技术研究.pdf_第1页
(教育技术学专业论文)基于srw的电子资源整合技术研究.pdf_第2页
(教育技术学专业论文)基于srw的电子资源整合技术研究.pdf_第3页
(教育技术学专业论文)基于srw的电子资源整合技术研究.pdf_第4页
(教育技术学专业论文)基于srw的电子资源整合技术研究.pdf_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 电子资源的建设与利用是世界各国信息化进程的重要标志随着大量不同来源,不同形 式的电子资源的出现,电子资源整合已经成为目前教育技术中心和图书馆界电子资源建设的 一个重要发展方向。 服务于图书馆信息共享的重量级标准协议z 3 9 5 0 ,它在数据库字段级之间建立通讯,是 对资源的一种深层次整合。随着w e b 技术的飞速发展和广泛应用,在z 3 9 5 0 协议的基础上 开发了基于b s 架构的新一代网络信息检索协议z i n g 。s r u w 是z i n g 中的核心部分,被 称为z 3 9 5 0 的w e b 版协议本文旨在研究s r w 协议在电子资源整合中的具体应用,解决 s r w 协议在应用中存在的问题,提出更加有效的资源整合方案具体来说,主要包括以下三 个方面: l 、首先,提出一个s r w 服务系统的设计思想及具体实现。对涉及到的关键技术,如:s r w 的三个主要操作的执行、s o a p 消息的内容及封装、c q l 语法的解析、m a r c 数据与d u b l i n c o r e 元数据的转换等进行了详细的描述,为该协议的推广和应用提供可供参考的实例。 2 、其次,建立一个能够灵活扩展异构数据源的s r w 互操作平台。本文研究了基于本体的电 子资源异构数据源集成技术。首先,分析异构电子资源的特点,将电子资源元数据本体 与存储电子资源的数据库模式本体相结合,解决异构数据源在内容表示及存储方式两个 主要层次中存在的异构问题,建立电子资源异构数据库问的统一操作模型。 3 、最后,提出s r w 电子资源整合系统获取电子资源实体的解决方案。该方案综合运用m a r c 元数据中的8 5 6 字段信息和开放链接技术两种方法,提出了有效的实现策略。 文章的最后还给出了一个s r w 资源整合原型系统的架构设计和具体实现。 本文提出的基于s r w 的电子资源整合方案,将为各级各类教育技术中心及图书馆的电子 资源整合服务提供切实可行的解决方案 关键词:电子资源整合s r w 协议异构数据库集成本体( o n t o l o g y ) o p e n u r l a b s t r a c t t h ec o n s t r u c t i o na n du s eo fe l e c t r o n i cr e s o u r c e si so n eo ft h em o s ti m p o r t a n ts i g n so ft h e i n f o r m a t i o n a lp r o c e s sf o rc o u n t r i e sa l lo v e rt h ew o r l d w i t ht h ea p p e a r a n c eo fe l e c t r o n i cr e s o u r c e s w i t hm a s sd i f f e r e n ts o u r c e sa n dd i f f e r e n tf o r m s ,t h ei n t e g r a t i n go fe l e c t r o n i cr e s o u r c e sh a sb e e na k e yd e v e l o p i n gd i r e c t i o n f o re d u c a t i o nt e c h n o l o g yc e n t e rn o w a d a y sa n dl i b r a r ye l e c t r o n i c r e s o u r c e sc o n s t r u c t i o n h e a v yw e i g h ts t a n d a r dp r o t o c o lz 3 9 5 0s e r v e df o rl i b r a r yi n f o r m a t i o nc o m m u n i o n ,w h i c h e s t a b l i s hc o m m u n i c a t i o na m o n gf i e l d si nd a t a b a s e ,i sak i n do fd e e pr e s o u r c e si n t e g r a t i n g w i t h t h er a p i dd e v e l o p m e n to fw e b t e c h n o l o g ya n dw i d e l ya p p l i c a t i o n ,an e wg e n e r a t i o no fi n f o r m a t i o n r e s e a r c hp r o t o c o lz i n gw a sd e v e l o p e db a s e do nb sc o n s t r u c t i o n s r u wi st h ec o r ep a r to f z i n g ,a n dw a sc a l l e dw e be d i t i o np r o t o c o lo fz 3 9 5 0 t h ea r t i c l ea i m st or e s e a r c ht h ea p p l i c a t i o n o fs r wp r o t o c o li nt h ei n t e g r a t i n go fe l e c t r o n i cr e s o u r c e s ,b o t ht os o l v et h ee x i s t i n gp r o b l e m si n t h ea p p l i c a t i o no fs r wa n dp u tf o r w a r dam o r ee f f e c t i v er e s o u r c e si n t e g r a t i n gs c h e m e i tc a nb e c o n c l u d e da sf o l l o w i n gt h r e ep o i n t sc o n c r e t e l y : f i r s t ,i tb r i n g sf o r w a r dad e s i g ni d e aa n dc o n c r e t er e a l i z a t i o no fs r ws e r v i c es y s t e m w i t h r e f e rt ok e yt e c h n o l o g i e s ,s u c ha st h ee x e c u t i o no ft h r e em a i no p e r a t i o no fs r w 、t h ec o n t e n ta n d e n c a p s u l a t i o no fs o a pi n f o r m a t i o n 、t h ep a r s eo fc q lg r a m m a r 、t h et r a n s f o r m a t i o nf r o mm a r c d a t at od u b l i nc o r em e t a d a t ai tg i v e sd e t a i l e dd e s c r i p t i o n ,w h i c hp r o v i d ear e f e r r e de x a m p l e sf o r t h ep o p u l a r i z a t i o na n da p p l i c a t i o no ft h ep r o t o c 0 1 s e c o n d ,e s t a b l i s has r wm u t u a lh a n d l ep l a t f o r mw h i c hc a ne x t e n df l e x i b l yh e t e r o g e n e o u s d a t as o u r c e t h ea r t i c l er e s e a r c h e st h eh e t e r o g e n e o u sd a t as o u r c ei n t e g r a t i o nt e c h n o l o g yb a s e d o no n t o l o g y f i r s t ,a n a l y s i st h ef e a t u r eo fh e t e r o g e n e o u sd a t as o u r c e ,c o m b i n ee l e c t r o n i cs o u r c e m e t a d a t ao n t o l o g yw i t hd a t a b a s em o d eo n t o l o g y , t os o l v et h eh e t e r o g e n e o u sc o n s t r u c t i o n p r o b l e m se x i s t i n gi nt h em a i nl a y e r so fc o n t e n te x p r e s so fh e t e r o g e n e o u sd a t as o u r c ea n ds t o r a g e m o d e ,a n dt oe s t a b l i s ht h eu n i f o r mh a n d l em o d e la m o n gh e t e r o g e n e o u sd a t as o u r c e s a tl a s t ,i tb r i n g sf o r w a r dt h es c h e m eo fs r we l e c t r o n i cr e s o u r c e si n t e g r a t i n gs y s t e mt og e t e l e c t r o n i cr e s o u r c e se n t i t y t h es c h e m ea d v a n c e de f f e c t i v er e a l i z a t i o ns t r a t e g yb yi n t e g r a t e d h a n d l et h e8 5 6f i e l di n f o r m a t i o ni nm a r cm e t a d a t aa n do p e nl i n k st e c h n o l o g y a tt h ee n do ft h ea r t i c l e ,i tg i v e sac o n s t r u c t i o nd e s i g na n dc o n c r e t er e a l i z a t i o no fs r w r e s o u r c e si n t e g r a t i n gs y s t e m t h er e s o u r c e si n t e g r a t i n gs c h e m eb a s e do ns r wb yt h i sa r t i c l ew i l lp r o v i d es o l i df e a s i b l e s o l v i n gs c h e m ef o ri n t e g r a t i n go f e l e c t r o n i cr e s o u r c e so fe d u c a t i o nt e c h n o l o g yc e n t e ra n dl i b r a r y i nd i f f e r e n tl e v e l s k e yw o r d s :i n t e g r a t i n go fe l e c t r o n i cr e s o u r c e s , s r wp r o t o c o l , h e t e r o g e n e o u s d a t a b a s ei n t e g r a t i o n ,o n t o l o g y ,o p e n u r l 通用学位论文独创性声明 本人郑重声明: l 、坚持以搿求实、创新一的科学精神从事研究工作 2 、本论文是我个人在导师指导下进行的研究工作和取得的研究 成果。 3 、本论文中除引文外,所有实验、数据和有关材料均是真实的。 4 、本论文中除引文和致谢的内容外,不包含其他人或其它机构 已经发表或撰写过的研究成果。 5 、其他同志对本研究所做的贡献均已在论文中作了声明并表示 了谢意。 作者签名: 日期: 学位论文使用授权声明 本人完全了解南京师范大学有关保留、使用学位论文的规定, 学校有权保留学位论文并向国家主管部门或其指定机构送交论文的 电子版和纸质版:有权将学位论文用于非赢利目的的少量复制并允 许论文进入学校图书馆被查阅;有权将学位论文的内容编入有关数 据库进行检索;有权将学位论文的标题和摘要汇编出版保密的学 位论文在解密后适用本规定 作者签名: 日期: 1 1 研究背景 第一章绪论 1 1 1 电子资源及其建设 电子资源又称电子出版物,是指“所有以电子数据的形式把文字、图像、声音、动画等 多种形式的信息存贮在光盘、磁盘、软盘等非纸介质的载体中,并通过计算机等阅读器阅读” 的出版物随着网络信息化的迅猛发展,各种电子资源以其特有的优势逐渐成为人门获取 信息的主要途径之一,在社会信息交流系统中占据着不可替代的地位电子资源数据库通过 互联网为世界各地授权终端用户提供服务,为人们检索、利用信息提供了极大的便利。电子 资源的建设与利用已成为当今世界各国视为国家信息基础设施建设、知识创新体系和创新能 力的重要组成部分,并逐渐成为各国竟相投入的一个热点 首先,高校的教育技术中心是电子资源建设的重要机构。随着教育技术的不断发展,教 学方式方法多样化,如:远程教育、传统课堂教育、独立自学等。在新的教学形式下,学生 之间及教师与学生之间的交流大量增加不论是教师还是学生,都要求在任何时间和任何地 点可以检索和使用教学资源,网络以其时空不限的优势逐渐成为人们获取各类信息的主要途 径。为此,各高校教育技术中心正在投入大量人力、物力进行教育资源的数字化建设。目前。 教育技术和方法的发展对教育资源数字化建设提出了新的要求,如:在同领域、同学科内分 享教育资源;再利用已经建成的教育资源;不仅为高等教育服务,也为全民的继续( 终身) 教育服务等。由此可见,电子资源建设已经成为高校信息化建设的重要部分。 同时,图书馆作为高校教育的三大支柱之一,是学校的文献情报中心,是为教学和科学 研究服务的学术性机构,要履行其教育职能和情报职能【2 1 因此,图书馆有责任和义务参与 教育资源数字化建设。目前,大学图书馆参与数字化教育资源建设的具体做法:在图书馆自动化系统中的应用:典型的有i n n o p a c 、h o r i z o n 、e n d e a v o r 、a l e p h5 0 0 、 s i r s i 等 在公共检索中的应用:典型的应用有美国国会图书馆与o c l cf i r s t s e a r c h 等。美国国会 图书馆的z 3 9 5 0 网关不但可以检索本馆的书目记录同时还可通过z 3 9 5 0 协议检索到 超过4 5 0 多家单位的书目记录。但其所支持的z 3 9 5 0 服务相对简单,只有三种:初始化、 查询以及提取。 在合作编目中的应用: o c l c 对图书馆提供联合编目服务,图书馆馆员利用z 3 9 5 0 客 户端可以访问o c l c 联机书目数据库w o r l d c a t ,检索o c l c 的m a r c 记录,下载到本 地进行加工编辑,并上载馆藏信息。v c u c 研究计划是在加拿大国家图书馆的倡导下成立 的,其目的是通过z 3 9 5 0 协议建立全国性的虚拟联合目录,最终为读者提供资源共享条 件下的高水平服务。 在馆际互借中的应用:1 9 9 5 年由e u 提供支持,欧洲8 国的1 5 个组织成员参与的 o n e ( o p a cn e t w o r ki ne u r o p e ) 研究项目正式启动。该项目以s r z 3 9 5 0 为基础,将其改 进后向图书馆界及终端用户提供参与者及其国家图书馆的o p a c ,以促进欧洲图书馆界 的合作与发展。1 9 9 9 年o n e 2 启动,它是一个z 3 9 5 0 和馆际互借的项目,其目的在于 给出和实现扩展的o n e 2z 3 9 5 0p r o f i l e ,以便覆盖更多的图书馆应用领域( 如:馆藏、 馆际互借、电子文献传递、联合目录更新等) 。 2 、z 3 9 5 0 在国内图书馆的应用 与国外图书馆界z 3 9 5 0 的广泛应用相比,我国图书馆界广泛引入并推广z 3 9 5 0 及相关 协议的应用始于1 9 9 7 年,当时w w w 已经进入迅速普及时期,教育网也开始筹建教育科研 网( c e l 悄e t ) 此时,图书馆借助计算机网络实现文献资源的共享就成为图书馆及社会各界 关注的问题。一些知名的国内图书馆专家通过考察,开始向图书馆界推荐z 3 9 5 0 标准,而部 分高校图书馆通过引进国外图书馆自动化系统,也开始全面接触z 3 9 5 0 技术国内z 3 9 5 0 主要应用在图书馆合作编目中: 1 9 9 8 年,中国高等教育文献保障系统( 简称c a l i s ) 项目正式启动,按照z 3 9 5 0 建立 了c a l i s 联机合作编目系统主要服务于高校图书馆,目前已经发展了3 0 0 多家成员馆 各成员馆可以通过z 3 9 5 0 协议和中心馆之间查询、实时上载和下载书目记录从而实现 中文书目的联合编目c a l l s 的z 3 9 5 0 w w w 网关同时也提供与馆际互借系统的挂接, 使得检索出的书目数据可以直接进入馆际互借服务 2 0 0 0 年l o 月。中国国家图书馆建立全国图书馆联合编目中心主要服务于公共图书馆 通过采购国内系统提供商用的z 3 9 5 0 服务器,率先在图书馆界开通了z 3 9 5 0 书目数据 查询和下载服务不久国内众多规模较大的公共图书馆,也陆续开通了z 3 9 5 0 服务器, 开始提供全面的数据下载服务。 目前,我国在z 3 9 5 0 的应用与研究方面都较国外滞后,目前应用大部分限于书目数据的 查询、检索及联合编目 1 2 2 1 3z 3 9 5 0 的优点和局限性 从上述的介绍中,可以看出,z 3 9 5 0 是一系列抽象的定义,这些定义使各种操作与具体 实现环境无关,在这些定义中都采用了国际标准,使得z 3 9 5 0 协议非常适合分布式的应用。 在z 3 9 5 0 协议中,使用b i b 1 属性集,它包括1 0 0 多个检索属性,可以检索丰富的内容。z 3 9 5 0 采用面向会话的通信方式,是有态的连接,当客户端发送连接请求后,就会建立一个固定的 会话,连接在会话完成前不会关闭,前面会话时所交换的信息可以被后面的会话所使用,检 索效率极高利。 z 3 9 5 0 是一个较为成熟的网络检索标准,但是在国内推广实践中存在一些问题,其中最 突出的问题就是z 3 9 5 0 协议是一个复杂的重量级协议,服务器和客户端软件的开发与配置都 比较复杂,用户需要安装专用的客户端程序,给非专业用户的使用带来了困难,不利于推广 目前虽然越来越多的高校和社会大型图书馆开始支持此协议,但是由于普通读者没有安装专 门的客户端程序,要充分利用该协议进行检索服务还很困难。 z 3 9 5 0 w w w 网关可以解决使用z 3 9 5 0 客户端的障碍d s ,透过c l i e n t 端的c g i 使用介 面,使普通用户可以通过浏览器访问z 3 9 5 0 服务器,这里利用c g ig a t e w a y 作为客户端与服 务器之间信息交换的中介。具体过程如下: 客户端首先将请求发送到w 曲s e r v e r ,将h t m l 格式的查询通过c g ig a t e w a y 传 给z 3 9 5 0c l i e n t z 3 9 5 0c l i e n t 将查询请求转换成z 3 9 5 0 格式,传送到z 3 9 5 0s e r v e r z 3 9 5 0s e r v e r 将查询结果,以z 3 9 5 0 格式回传给z 3 9 5 0c l i e n t z 3 9 5 0c l i e n t 将查询结果通过c g ig a t e w a y 转换为h t m l 格式,回传给w e bs e r v e r , 以h t m l 格式显示给用户 显然,在这种模式下,客户端与服务器之间的通信被分成了两个阶段,用于进行的格式 转换,这将会大大影响z 3 9 5 0 的检索效率 综上所述,z 3 9 5 0 协议是在数据库字段之间建立通讯,在查询语法和命中结果方面都相 当准确,且检索效率高且稳定性好,是一种深层次的整合操作但遗憾的是在技术上实现 z 3 9 5 0 接口比较复杂,并且访问服务需要专门的客户端程序,这些都给使用该协议带来了难 度因此,相当数量的资源提供商不遵循z 3 9 5 0 协议,目前也没有看到未来会有普遍遵循的 趋势 2 2s r w 协议 为了使z 3 9 5 0 能够在新一代网络环境中继续发展,在2 0 0 0 年1 2 月举行的z i g ( z 3 9 5 0 i n p l e m e n t e r sg r o u p ) 会议中,一些z 3 9 5 0 的发明者开始讨论对于z 3 9 5 0 标准的改造计划 到2 0 0 1 年的z i g 会议中,许多成员提出了一些以x m l ,s o a p ,u r i 等h t t p w e b 技术的规 范,这些规范被称为z i n g 1 ( z 3 9 5 0i n t e r n a t i o n a l :n e x tg e r n e r a t i o n ) ,即下一代的z 3 9 5 0 z i n g 并非是一个新的标准,它是一系列规范的统称这些计划都是在探讨z 3 9 5 0 未来发展 1 3 的可能性。根据z i n g 本身的说明,这些计划的目的是为了“降低未来2 0 年内继续应用z 3 9 5 0 的门槛” z i n g 是一系列标准的综合体,其中s r w ( s e a r c h r e t r i e v e w e bs e r v i c e ) ,即查询检索网 络服务标准,它是根据已经运作了2 0 年的z 3 9 5 0 标准来设计的,它是一种以x m l 为基础 的协议,目的是提高在网络中的检索系统的互操作性u 。s r w 是z 3 9 5 0 在t c p i p 与x m l 技术上的一种改造,它大副简化了z 3 9 5 0 中复杂的功能与指令,避免了z 3 9 5 0 始终只能被 图书馆界应用,而在图书馆之外却不为人知的尴尬局面因此s r w 并不只是技术规格上的 改进,也是标准使用性上的改进。s r w 继承了部分z 3 9 5 0 有用的概念,提炼出z 3 9 5 0 标准 中重要的操作,例如:解释操作( e x p l a i n ) 、扫描操作( s c a n ) 、查询操作( s e a r c h r e t r i e v e ) 等 2 2 1s r w 相关概念 2 2 1 1s r w 的操作 为了简化z 3 9 5 0 协议,s r w 总结出z 3 9 5 0 中最重要的三个操作引: ( 1 ) 解释操作:解释操作是用户了解服务器和数据库功能的操作。当发送解释请求时, 服务端返回服务器和数据库功能的相关信息。 ( 2 ) 扫描操作:扫描操作可以帮助用户明确自己的检索主题,从而调整检索词以达到最 好的检索效果当发送扫描请求时,服务端将返回检索结果的主题列表 ( 3 ) 查询操作:查询操作是s r w 最主要的功能,它可以使用户检索远程数据库中的数 据。当发送查询请求后,服务端将返回完整的书目数据 客户端通过向服务端发送解释请求了解服务器的各项信息,然后向服务器发送扫描操作 或查询操作,完成检索过程。 2 2 1 2 检索语法c q l s r w 统一使用c q l 4 ( c o m m o nq u e r yl a n g u a g e ) 作为检索语法c q l 是一种正式的检 索语言,其设计目的是把检索表达的这种简单性和直观性与z 3 9 5 0 的t y p e - l 检索有机地结 合在一起并且更加易读、易写。它符合b n f ( b a c k u s - n a u rf o r m ) 范式的标准,由一个包 括布尔运算符、左操作数、右操作数的三元组组成操作数也可以是一个三元组或检索子句 检索子句可以包括索引项、关系和检索词 c q l 中定义了四个布尔操作符a n d 、o r 、n o t 、p r o x 其中p r o x 是查询相邻近的记录, 可由布尔修饰符( b o o l e a nm o d i f i e r s ) 进一步限定。例如:d c t i t l e =。计算机” p r o x d i s t a n c e 、 - 、技术先进:s r w 协议中运用了很多先进的规范和技术,例如:s r w 的记录语法格式 采用x m l 代替z 3 9 5 0 的a s n 1 检索方法采用c q l ( c o m m o nq u e r yl a n g u a g e ) 代替z 3 9 5 0 的r p n ,信息传递方式采用s o a p 消息 开发简易:与z 3 9 5 0 的繁杂相比,s r w 协议属于轻量级的协议,并且s r w 本身采 用的都是已经被广泛采用的规范和技术,开发人员对这些技术也比较熟悉,开发难 度大大降低。 。h t t p :w w w w 3 o r s 1 5 使用方便:s r w 服务可以使用户方便的通过w e b 浏览器进行检索操作,与z 3 9 5 0 的客户端相比,降低了用户使用该服务的门槛。 2 2 3s r w 的应用和发展 关于s r w 标准,已经出现了许多具体的实例,不仅可以验证s r w 标准的实用性,还可 以进一步改进标准。目前,国外很多大型图书馆都已经支持s r w 服务,例如:美国国会图 书馆在v o y a g e r z 3 9 5 0 在线目录服务器上借助i n d e x d a t a 公司的y a z p r o x y 服务器实现了一个 s r w z 3 9 5 0 网关,提供s r w 标准的解释与查询服务功能;大英图书馆开发了s r w 的测试服 务,为欧洲图书馆计划和馆内一些工作提供服务;o c l cr e s e a r c h 开发了s r w 服务器对外提 供书目检索服务引。在国内,也已经有数据商对国外提供s r w 服务的接口,如:万方数据, 但对国内还没有提供该服务的接口因此,还要进一步引进该协议为国内信息事业服务。 综上所述,s r w 协议在应用上更加符合人们的需要,它的出现将会使图书馆界的各种服 务向大众化发展,对促进我国的信息化进程的向前迈进有着重大的意义。 1 6 第三章基于s r w 的电子资源整合服务 s r w 服务为用户通过w e b 提供信息检索服务,提供了类似于z 3 9 5 0 的检索能力,从而 提供了基于w e b 的电子资源整合方法。实现一个s r w 服务虽然比实现一个z 3 9 5 0 服务要相 对简单,但其中会涉及到一些新的概念、标准和技术问题,例如:s o a p 通讯架构,c q l 检 索语法,d u b l i nc o r e 元数据标准等本章从电子资源的准备入手,描述了一个s r w 服务系 统的设计思想及具体实现。对s r w 服务中涉及到的关键技术,如:s r w 的三个主要操作的 执行、s o a p 消息的内容及封装、c q l 语法的解析、m a r c 数据与d u b l i nc o r e 元数据的转 换等进行了详细的介绍。 3 1 资源的准备 目前,各图书馆在积极引进各种外部数据库的同时,自身也拥有大量的数字资源,例如: 书目数据库、电子书刊、随书资源、多媒体资源等。要将这些分散的资源加以整合,需要对 资源进行编目和著录,编目后的数据以c n m a r c 的形式存储在数据库中,为用户提供检索 服务。下面介绍电子资源的著录、存储及索引 3 1 1 资源的著录及存储 2 0 0 5 年,我国出版了中国文献编目规则( 第二版) ) 【2 0 2 1 1 ,改名为“电子资源”,在第 1 3 章中对。电子资源”适用范围、著录项目、著录信息源、著录用标识符、著录用文字、著 录格式、著录详简级次等都做出了详细规定。电子资源的描述与印刷型出版物的描述有许多 不同之处。按照国家规定,图书馆中文电子信息资源的著录应该按照中国文献编目规则( 第 二版) ) 第1 3 章进行著录。在图书馆的实际编目工作中,往往不需要对所有字段进行著录, 而只需要对一些常用字段进行著录。下面对几个主要著录项进行简要的说明。 0 1 0 、0 1 6 字段:0 1 0 字段是记录国际标准书号以及出版物的获得方式的内容包括 i s b n 号、获得方式、限定词语和价格等。0 1 6 字段是记录国际标准声像制品代码一 一i s l ,当对电子资源著录时这两种号码都要著录 1 3 5 字段:1 3 5 字段共有1 3 个字符位置分别表示不同的信息,有:电子资源类型、 特定资料标识、色别、尺寸、声音、图像深度、文件格式数量、质量保证指标、来 源、压缩级别、重定格式质量。其中$ a 子字段的电子资源类型( 字符位置0 ) 表示 数据文件的类型:a - 数字,b = 计算机程序,c = 图像,d = 文本,u - 不详,v = 混合, z _ - 其它。$ a 子字段特殊资料标识( 字符位置1 ) ,表示数据载体的类型:a - 盒式磁带 b = 盒式计算机芯片,c = 计算机盒式光盘,年计算机盒式磁带,h - 主机磁带,j = 计算 机软盘,m - - 计算机磁光盘,o = 计算机光盘,r = 联机系统,u = 不详,z m 其它 1 7 2 0 0 字段:与书目著录相同,2 0 0 字段记录的是电子资源的题名、其它题名信息和有 关责任说明,是必备字段不可重复 2 1 5 字段:2 1 5 字段记录电子资源的物理形态、数量及其单位标识、尺寸、附件等信 息。 3 0 7 字段:记录电子资源载体形态方面的补充说明或特殊物理特征的说明 3 3 7 字段:是对电子资源技术信息的描述。如:记录软件的编程语言、对计算机操作 系统或内存的要求、对外围设备或主持软件及相关设备的要求。 6 0 6 字段:记录作为主体因素的文献学科内容的主题概念。该字段可以更好的揭示电 子资源的内容,主题著录时编目工作的重点。 8 5 6 字段:电子资源地址和电子访问。该字段含有查找电子文件资源所需的信息。该 字段包含的信息充分地为电子资源的查找、电子期刊的订阅或电子资源的网上登录 创造了必备条件。该字段选择使用,当需要获取资源实体时,可以通过该字段信息 链接到著录的u r l 地址。 电子资源的各著录信息项,以及由它们生成的c n m a r c 元数据都将保存在本地数据库 中,c n m a r c 将作为检索时的结果记录返回给用户生成的m a r c 数据表结构如下图所示: 表3 1 电子资源元数据信息表结构示例 fm a r c _ i d ,。 t i t l ec r e a t o rd a t eu r lm a r c 1 l i i 3 1 2 元数据的索引 建立索引文件是提高信息检索系统检索速度的最好方法。索引文件结构简单,实现比较 容易可以在对电子资源进行著录的同时,建立相应字段的索引:也可以在著录完成之后 对m a r c 数据表中的信息批量地建立相应的索引文件具体方法是按各子字段的关键词与 对应的关键词的类型建立关键词对应m a r c 元数据的索引,进行检索时根据关键词及其类 型就可以快速地检索到对应的m a r c 数据。 索引系统由索引文件( p o s t i n gf i l e ) 、m a r c 数据文件( d o c u m e n tf i l e ) 和关键词类型 对照表( t y p ef i l e ) 构成索引文件则由一系列记录组成,每一个记录联系一个索引项( 关 键词及关键词类型) 和一个包含此索引项的相应m a r c 数据的i d 号m a r c 数据文件即上 节中生成的m a r c 数据表,通过在索引文件中检索关键词及关键词的类型找到相应的 m a r c 数据i d ,然后到m a r c 数据表中找到相应的m a r c 元数据,返回给用户系统完 整的索引库结构如下表所示: 表3 2 电子资源索引表结构 矿1 翌“ i 。i 。“乒 m a r c i d k e y w o r d w o r d t y p e 醚| ,|, 苷,缸一 关键词类型对照表将关键词表示为1 5 种类别,分别以1 1 5 表示相应的关键词类型,如: 题名、作者等关键词类型代号将与s r w 的检索属性进行映射,用户检索时将通过映射配 1 8 置文件找到检索属性对应的关键词类型,匹配检索词和关键词,就可以检索到相应m a r c 数据的i d 号。 3 2s r w 服务架构设计 3 2 1 系统结构 系统整体采用b s 架构,分为用户层,w e b 应用层,w e b 服务层和数据层系统结构示 意图如图1 所示: 图3 1s r w 系统总体结构图 上图中,用户通过浏览器发送请求,w e b 应用层( 即s r ws e r v l e t ) 接收请求并将请求封 装成s o a p 消息,发送给远程的w e b 服务( 即s r ws e r v i c e ) ,w e b 服务解析s o a p 消息,执 行相应的操作,将结果封装成s o a p 消息,返回给w e b 应用层,通过浏览器显示。 3 2 2 服务处理流程 系统的核心在于s r ws e r v i c e 模块所提供的服务,包括:解释,扫描及查询服务这些 服务的总体处理流程如下: 用户通过浏览器发送p o s t 请求,请求中包括相关的参数,主要包括:要进行操作的 数据库名称,操作的类型及执行操作的相关参数: s r ws e r v l e t 接收请求,并得到用户请求的相关参数; s r ws e r v l e t 从s r w 配置文件中读取各数据库配置文件的文件名和存放路径; 将中得到的信息封装成s o a p 数据包发送到远程的s r ws e r v i c e ,即w e b 服务 模块; s r ws e r v i c e 执行用户请求的操作,然后将结果封装成s o a p 数据包返回给用户; 客户端得到s o a p 数据包,将数据包加上x m l 文件头,并采用x s l t 将x m l 转换 1 9 为h t m l 格式,由浏览器显示 配置文件是s r w 服务系统中非常重要的组成部分,它架起了服务系统与w e b 应用程序之 间互相沟通的桥梁主要包括s r w 服务相关参数的配置和电子资源数据库的配置。s r w 服务 参数配置文件中定义s r w 服务系统的具体参数,主要是对服务版本、s r w 各功能支持情况、 及各电子资源数据库配置文件路径及文件名的定义电子资源数据库配置文件中主要包括数 据库系统支持的语法,例如:x m l s c h e m a s = d c 检索属性与本地检索属性映射关系及数据库 其他属性等。 3 3 主要操作设计 s r w 标准中规定了三个主要操作:解释操作、扫描操作、查询操作,下文对这三个主要 操作的执行过程进行详细的设计与描述。 3 3 1 解释操作 当用户发送的请求中没有检索词时,将该操作视作解释操作。当服务端接收到解释 请求时,将从指定的数据库配置文件中获得该数据库的相关信息。需返回的信息包括: 服务器支持协议的版本信息返回记录的编码方式服务器的地址数据库的简 要说明返回记录的语法格式等。这些信息都可以从s r w 服务配置文件和数据库的配 置文件中获得。 3 3 2 查询操作 s r w 最主要的功能就是检索远程数据库中的数据 ( 1 ) 发送查询请求: 当进行检索服务时,用户端发送一个查询检索请求,请求中包含数个检索参数 如:查询语句( q u e r y ) 、一次返回的记录数( m a x i m u m r e c o r d s ) 、起始记录( s t a r t r e c o r d ) 、 结果集保存时间( r e s u l t s e t t t l ) 、记录的语法格式( r e c o r d p a c k i n g ) 等其中,查询语 句q u e r y 是查询请求中最重要的参数,它包含了一个代表查询的c q l 字符串w e b 应用层接收请求并将其包装成s o a p 消息发送到w e b 服务层 ( 2 ) 处理查询请求: w e b 服务层从请求信息上下文中获得各数据库操作类的类名、数据库配置文 件的文件名和存放路径: 从各数据库配置文件中读取数据库属性信息( 包括检索词本地属性与d u b l i n c o r e 检索点的映射关系等) : 从请求的s o a p 消息中获得查询操作的各参数: 将q u e r y 参数其提交给c q l 解析器进行分析,如果q u e r y 以。d c ”开头,则 查询数据库,产生新的结果集,返回结果集名称,当请求的数据库为多个时,需要 对结果进行合并,然后从结果集中提取记录;如果q u e r y 以。c q l r e s u l t s e t l d ”开头, 则从数据库中提取指定结果集中的数据;当提取数据时,如果结果集已被删除,则 返回错误诊断信息d i a g n o s t i c s : 将记录中的m a r c 流数据提交给m a r c 转换器,将其转换成d u b l i nc o r e 格 式: 将结果以s o a p 消息返回,返回s o a p 消息中的主要参数有返回结果集的记 录总数( n u m b e r o f r e c o r d s ) 、结果集名称( r e s u l t s e t i d ) 、返回查询结果( r e c o r d s ) 、 下一条记录位置( n e x t r e c o r d p o s i t i o n ) 等。 ( 3 ) 发送提取结果请求: 当用户需要从已有的结果集中提取结果( 例如:已经执行查询请求,单击。下一 页”时,返回已有结果集中的记录) ,该请求与查询请求最主要的区别在于q u e r y 参 数,此时该参数将包括对应的结果集名称例如: c q l r e s u l t s e t l d = * * * ,其中。奉宰奉”为第一次查询时返回的结果集的名称 3 3 3 扫描操作 扫描操作与查询操作有很多相似之处,它们的区别在于:扫描操作只返回记录的主 题信息,而查询操作返回记录全部信息。 3 4 关键技术设计 s r w 标准涉及到一些新的概念、标准和技术问题,例如:s o a p 通讯架构,c q l 检索语 法,d u b l i nc o r e 元数据标准等。下文将详细介绍这些关键技术的解决方案 3 4 1s o a p 消息的内容及其封装 s o a p ( 简单对象访问协议) 消息是s r w 的信息传递方式,用户向w e b 应用层发送的查 询参数将通过s o a p 封装器封装成s o a p 消息s o a p 消息由e n v e l o p e ( 信封) 和b o d y ( 消 息主体) 组成。 一个查询请求s o a p 消息主体的例子如下: d c t i t l e = 计算机o rd c t i t l e = 电脑 10 1 3 0 0 x m l 2 l 其返回s o a p 消息主体的片断如下: 3 0 7 * * * x m l * * * * * * 1 ll 3 4 2c q l 语法的解析 用户查询是一个c q l 语句,为了能够检索s q l 数据库,系统通过一个c q l 解析器将 c q l 检索语句映射到s q l 检索系统。c q l 查询语句的分析及对应的s q l 语句的构造是影响 查询准确性和效率的关键因素由b n f 范式可知,c q l 可能是包含递归式的复合查询因 此,本文采用两种处理策略。如果查询语句只包含一个查询项,则直接将其转化为对应的s q l 语句。否则,就将复合查询语句构建成为颗查询树,该查询树的结构是:查询树的非叶 节点由左子树,布尔运算符和右子树组成;左子树可以是叶子节点也可以是一个复合查询 结构,右子树为叶子节点;叶子节点是包含索引集、关系和检索词的三元组根据查询树 的结构,本文采用中序遍历查询树递归地取出查询树中的每一个单查询节点,将单查询节 点转换成s q l 语句然后由布尔操作符连接生成s q l 查询语句 在递归取出每一个单查询节点的同时,将该节点转化为相应的s q l 语句每一个单查询 节点包括索引集及检索属性、关系和检索词,其中,索引集的检索属性需要映射

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论