异构数据库检索.docx_第1页
异构数据库检索.docx_第2页
异构数据库检索.docx_第3页
异构数据库检索.docx_第4页
异构数据库检索.docx_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

异构系统统一检索平台实现技术研究课题组时间:2015-03-17 16:43 摘要 根据图书馆文献资源的复杂性和各图书馆运行不同类型应用系统的现状,本文简述了建立资源统一检索平台的重要性。同时,结合数字图书馆实际应用详细叙述了dILAS统一检索平台的实现机制、关键技术和实现过程。 关键词 资源整合 统一检索 Z39.50协议 HTTP协议 OpenURL异构系统统一检索平台实现技术研究与应用异构系统统一检索平台实现技术研究课题组深圳图书馆 广东 深圳 518026摘要 根据图书馆文献资源的复杂性和各图书馆运行不同类型应用系统的现状,本文简述了建立资源统一检索平台的重要性。同时,结合数字图书馆实际应用详细叙述了dILAS统一检索平台的实现机制、关键技术和实现过程。关键词 资源整合 统一检索 Z39.50协议 HTTP协议 OpenURLResearch on the Unified Search Platform for Different Systems and its ApplicationProject Group of “Implementation of the Unified Search Platform for Different System”Shenzhen library,Shenzhen,Guangdong 518026Abstract According to the complexity of literature resources and the actuality of different application systems in libraries, the paper introduces the importance of building the unified search platform for different systems. In the meanwhile, combining with the application in digital library, it dilates upon the architecture, key technologies and the implementation of dILAS.Keywords Resources integrating;Unified search;Z39.50 protocol;HTTP protocol;OpenURL1引言随着信息技术的发展,数字资源的建设与服务在图书馆起着举足轻重的作用。基于多种平台、结构各异的各种类型的数字资源成为了图书馆的重要收藏源。图书馆书目、题录、文摘、全文数据库、电子期刊数据库、电子图书数据库、网络数据库、自建的特色数据库等数字资源与传统的纸质馆藏文献共存,形成了丰富多样的数字图书馆馆藏体系。在多种异构资源并存的情况下,如何为读者提供便捷、有效的文献信息服务,是每个图书馆必须解决的问题。本课题旨在探索实用化的图书馆资源整合解决方案,包括图书馆的馆藏资源、联合目录资源、自建专题资源以及从数据库商购买的各种数字资源;建立异构系统统一检索平台,在多种不同的图书馆应用系统的基础上形成统一的服务体系。本课题需采用统一的检索界面和检索语言,除提供馆藏目录、目次、文摘、全文、图片等信息的检索外,还应与图书馆的各类应用系统相结合,如OPAC系统、馆际互借系统、原文传递服务系统、参考咨询系统、统一认证系统,为读者提供更便捷、更贴切、更人性化的服务。课题组首先对常见统一检索技术进行认真的分析研究,选择了两种统一检索技术构建dILAS统一检索平台,形成了实用化的统一检索体系。并将dILAS统一检索检索技术运用到了粤港澳图书目录检索、深圳市公共图书馆通借通还和深圳图书馆电子资源检索中,实现了图书馆常见资源的整合,达到了课题总体目标的要求。本课题得到了2006年度深圳市图书情报科研基金支持,组成了异构系统统一检索平台实现技术研究课题组,由秦格辉担任组长,组员包括王林、彭静、黄进、蔡晖、甘琳、梁奋东。2 统一检索技术目前,在解决异构数据库统一检索方面,通常采用以下几种方法:(1)通过数据库接口软件与不同的数据库直接连接,如ODBC和JDBC等。在同时检索的数据库数量较少时,使用此技术可在一定程度上解决异构检索问题,但数据库达到一定数量时,处理速度很难保证。(2)通过对元数据的收集整理,安装在本地系统中,形成本地的大型元数据仓储。这种方式的优点是,经过收集转换后的元数据不仅格式统一,而且结构清晰,可以按照需求建立各种分类体系,或者按照更高级的知识本体对数据进行再组织和管理。但缺点是对于类型不同、分布广泛、更新频繁的数字资源,很难做到即时、准确地将数据收集齐全。(3)运用元搜索引擎的基本原理,利用数据库的Web客户端进行统一检索。这种方法的缺点在于需要对各个数据库的Web处理接口进行详尽分析,若其中某个数据库的Web处理接口发生改变则需重新设计,接口的稳定性较差。(4)利用专业的检索协议,如 Z39.50协议,对异构数据库进行统一检索,这种技术的优点是能提供读者完整的目录资料,检索接口稳定,能快速实现资料传输,但缺点是要求掌握复杂的专业检索协议,而且要求所检索的资源必须提供对应的标准检索协议服务。现有的大部分跨库检索系统都是以这四种方法为基础设计的,每种技术都有自己的优势和局限性。根据图书馆资源的内容特性和发布特性,单纯选用其中一种跨库检索技术是不能完全满足资源的整合服务需求的,必须结合多种检索技术。对于具有 Z39.50服务的数字资源,如图书馆馆藏资源、自建数字资源、联合目录资源等,都提供了标准的 Z39.50服务,因此优先采用Z39.50网关整合检索技术;而对于那些仅提供 Web检索服务的网络数据库,则采用基于 HTTP协议的Web浏览器技术。通过这两种技术的紧密结合,基本上可以解决图书馆数字资源的整合检索问题。3 dILAS统一检索平台的技术实现课题组在统一检技术实现中,选择了两种统一检索技术,构建了基于Z39.50协议的统一检索平台和基于HTTP协议的统一检索平台。3.1基于Z39.50协议的统一检索平台(Z-USP)Z-USP检索平台基于Unix/Linux/AIX/Solaris操作系统,通过简单的资源配置,实现多个远程Z39.50服务器的广播检索。Z-USP不仅能支持多种格式的元数据(CNMARC、USMARC、DC等)的检索,而且支持多种字符集的互转(UNICODE、GBK、BIG5、CCCII)。(1)资源配置Zgate.ini 为Z-USP资源配置文件,配置参数包括基本控制参数及资源服务器参数:控制参数为平台的核心参数,其中指定了平台的连接上限、超时处理机制及一系列模版页面,如平台入口页面、检索页面、结果发布页面等,通过修改这些参数,可动态改变平台风格。资源服务器参数包括服务器名称、URL、IP、端口Port、检索数据库名称、数据库所用字符集、登录服务器ID、密码、进入图书馆OPAC的入口、详细数据模版页面等。通过修改这类参数可灵活增减检索服务器,而不需对检索程序作任何修改。(2)平台构成a. ZstartZstart为Z-USP的启动程序。Zstart通过读取资源配置文件Zgate.ini,形成动态的广播查询网页。b. ZgateZgate为Z-USP的客户接口部分,与客户间通过HTTP交换信息。Zgate每接到一个用户请求,根据其请求类型(ZAction)及SessionID确定连接的服务端Zcon。如果是新的连接,则将请求发给主Zcon服务,否则发给上次为其服务的 Zcon服务进程,然后等待Zcon的处理结果。当Zgate接收到Zcon的回应消息后,则将其结果(已格式化的HTML文件)回传给浏览器。一次请求操作完成后,Zgate自动退出。c.ZconZcon为Z-USP的服务端, 也是远程Z39.50服务的客户端。Zcon通过Zgate的“初始化消息Z_initAction”激活启动。每次均启动一个新的Zcon进程,并与远程的某个Z39.50服务器上的Zserver建立连接,该连接一直保持激活状态,直到Zgate发来中断请求为止。Zcon启动后,将等待从Zgate发来的后续操作请求,并将其转化为Z39.50协议要求的数据形式,传给远程的Z39.50服务器上的Zserver;当接收Zserver的回应消息后,则根据平台要求,形成需要的结果文件,回传给对应的客户端Zgate。(3)工作原理通过统一的检索界面接收用户检索请求(Zstart),分发给Z39.50的前端接口(Zgate),将其转化为Z39.50的标准请求(Zcon),传递给多个远程Z39.50服务器上的Zserver,然后等待返回结果。当接收到检索结果时,将结果变为统一格式发布。图1显示了对多个远程Z39.50服务器进行检索时的工作原理及实现过程。(4)平台特点a. 基于类UNIX操作系统Z-USP基于类 UNIX操作系统,各个模块之间的信息交互及一致性控制采用了IPC通讯方式,即通过共享内存(ShareMemory)、消息队列(MessageQueue)、信号灯(Semaphore)联合控制方法。共享内存记录当前活动的所有Z39.50连接信息(如任务ID、启动时间、最近活动时间、所使用的资源情况)及资源使用情况(如资源活动状态忙/闲、资源ID、被使用的检索服务PID等),用以保证HTTP请求的连续性。消息队列用来实现平台的客户端Zgate与服务端Zcon之间的请求回答交互。信号灯用来控制多进程间的互斥操作。b.实时馆藏链接服务通过资源配置参数中的OPAC入口、详细数据模版页面及针对各馆配置的JavaScript脚本,动态生成书目的馆藏链接点,实时揭示文献的在馆情况。c.文献利用服务将实体馆藏信息展示给读者的同时,结合馆际互借(ILL)协议,提供文献借阅请求登记服务。对于电子文献,则通过文件传输协议FTP、E-Mail等,直接将电子原文传递到读者手中,实现原文传递服务。d.简繁数据一体化检索通过对远程数据库字符集及客户端语言环境(HTTP_ACCEPT_LANGUAGE)的分析,对检索条件进行预处理,以实现不同字符集之间的互检功能,目前支持互检的字符集有UNICODE、GBK/GB2312、BIG5、CCCII。3.2基于HTTP协议的统一检索平台 (W-USP)W-USP检索平台基于Unix/Linux/AIX/Solaris操作系统,通过一系列资源配置参数,采用URL和Web页面分析技术,对各种电子数据库及专业网络数据库进行统一检索。W-USP支持多种用户验证方式(用户登陆、IP控制)及Cookie机制,支持多种字符集的互转(UNICODE、GBK、BIG5、CCCII)技术。(1)资源配置USP.ini为W-USP主配置文件,包括平台控制参数和网络数据库连接参数。控制参数中定义平台的连接上限、超时处理机制(SessionTimeOut、ServerTimeOut)、模版页面文件、数据库类型、检索浏览器、语种分类参数、学科分类参数、数据库类型参数;网络数据库参数,包括资源ID、资源名称、检索浏览器名称、资源来源、语种、URL、字符集、数据库标识、资源类型、学科分类、检索入口IP、资源检索脚本文件。通过修改这类参数可灵活增减检索数据库,对于增加同类型数据库,只需修改配置文件,而不需增加检索浏览器,更不需要对程序作任何修改。Script4*.ini 为特定网络数据库的检索脚本,对于不同类型的数据库,都有其特有的检索脚本配置文件(如Script4CNKI.ini、Script4VIP等),内容包括该数据库的授权级别、授权访问方式、检索方式(即索引转换表)、登录脚本、检索脚本、详细数据提取脚本、原文下载脚本。如果某类数据库的检索方式发生变化,一般情况下,只需修改该文件中的脚本,勿需修改程序源码。(2)平台构成a.USPstartUSPstart为W-USP的启动程序,通过读取平台配置参数文件USP.ini,形成动态的电子资源统一检索网页。它与 USP.ini结合起来,形成图书馆电子资源的门户。b.USPgateUSPgate为W-USP的客户接口部分,与客户间通过HTTP交换数据。每当USPgate启动后,先向服务分发器USPServer发送登陆请求,登陆成功后, 服务器返回为之服务的浏览服务器进程,随后USPgate直接将检索或数据提取请求发给对应的浏览服务器,等待浏览服务器的处理结果;当接收到浏览服务器的回应消息后,将其结果(已格式化的HTML文件)回传给客户。c.USPServerUSPServer为 W-USP的服务分发器,接收所有来自客户端的登陆请求,根据检索数据库及请求中的会话ID,分配相应的浏览服务器。对于是已登陆过的会话,则直接分配前次为之服务的浏览服务器。而对于新的会话,则要对所管理的空闲浏览服务器的负载情况进行综合考虑,决定启动一个新的浏览服务器或沿用一个被闲置的空闲浏览服务器。任务分发完成后将对应的服务器PID传给客户端USPgate。d.USPBrowser4*USPBrowser4*为W-USP的服务端, 也是远程网络数据库的检索客户端。该应用基于HTTP 协议,采用URL和Web页面分析技术,模拟人工检索方式,监听通讯端口,截取数据通讯包,获得检索过程数据和结果数据,根据检索脚本中的设定,对网页进行过滤网页,提取有用的数据信息,形成属于自己风格的新页面,提交给平台客户端USPgate。(3)工作原理通过统一的检索界面接收用户检索请求(USPGate),根据数据库类型(USPServer),将请求分发到为数据定制的统一检索浏览器(USPBrowser4*),各种浏览器根据自己所负责数据库的检索特点,转换检索请求,提交给各数据库的检索引擎,然后等待数据库的返回结果。当接收到检索结果时,对结果进行解析,提取其中的数据信息,重新组装变为统一格式发布。在统一检索界面下对清华学术期刊数据库、维普数据库、PorQuest等进行统一检索的工作原理及实现过程如图2所示。(4)平台特点a.资源配置简单的电子资源管理(ERM),通过在资源配置参数USP.ini中的设置各种分类栏目(电子资源的多角度标引),可动态形成数据库的多种分类浏览页面,如按语种、学科、数据库类型等对检索数据库进行浏览检索,对于大部分图书馆来说,在电子数据库种类不是特别多的情况下,采用这种配制文件方式管理数据库是最简单、高效、经济、实用的,而不需要建立庞大的的电子资源管理系统(ERM)来管理。b.多种用户验证方式及Cookie机制W-USP支持多种用户验证方式(用户登陆、IP控制)及Cookie机制。访问授权和版权控制,考虑到读者访问的方便和版权控制问题,实现了访问读者统一认证、单点登录方式。针对各电子资源的授权情况,进行分级服务,设置三级访问限定:元数据目录级、摘要级、全文级。访问授权方式分四种:0 完全限制;1 不限制;2 IP限制;3 用户限制;4 IP或用户限制。这样在方便读者服务的同时,也充分保护了电子资源供应商的版权。c.支持多种字符集的互转技术针对网上资源与的情况,W-USP采用了多种字符集的互转技术,包括UNICODE、GBK、BIG5、CCCII等。d.资源链接服务统一检索平台利用各种资源定位协议(如HTTP、OpenURL、DOI等),在授权允许的情况下,对于提供开放式链接的电子资源,在展示元数据的同时,提供原文链接点,通过OpenURL技术直接链接到具体的全文数据或其他原始对象,方便读者联机获取。4 dILAS统一检索技术的应用4.1图书馆统一检索体系我们综合以上两种统一检索技术,结合图书馆运行的各类应用系统,搭建了图书馆统一检索体系,并总结出了在图书馆针对各种不同类型资源进行统一服务的过程,如图3所示。图书馆统一检索体系首先在深圳图书馆新馆赋诸实施。深圳图书馆的资源结构复杂多样,既有自建的馆藏文献数据库、专题文献数据库,还有合作建设的数据库(如地方版联合编目数据库),购买的商用电子数据库,共享工程下的图书馆联盟数据库等。针对这些资源的特性和需提供服务的具体要求,课题组搭建了三个统一检索平台,包括粤港澳书目检索平台、深圳市公共图书馆“通借通还”平台、深圳图书馆电子资源检索平台。4.2粤港澳书目检索目前,深圳图书馆、香港公共图书馆、澳门中央图书馆、省立中山图书馆和澳门大学图书馆的书目检索系统采用不同的自动化系统、不同的书目数据格式和字符集,不同系统之间的馆藏信息是独立和分散的,如图4。为了实现这些图书馆之间馆藏资源的统一检索,方便读者进行馆藏信息查询,课题组基于 Z39.50检索协议构建了统一检索平台,利用URL连接分析技术与各馆的OPAC系统结合起来,实现了粤港澳实时馆藏链接服务,为将来粤港澳图书馆进一步的资源共享、馆际互借打下了基础。图书馆采用的自动化系统书目数据格式字符集深圳图书馆dILAS系统CNMARC、USMARCUnicode香港公共图书馆美国dynix 系统USMARCBIG5澳门中央图书馆台湾totals 系统CMARCBIG5省立中山图书馆北京丹诚软件系统CNMARCGBK澳门大学图书馆美国Innopac系统USMARCCCCII图4 粤港澳检索平台各图书馆自动化系统现状

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论