版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、整合检索系统发展概述TheDevelopmentofUnifiedRetrievalSystemsXiaCuijun(GuangdongUniversityofForeignStudiesLibrary,Guangzhou,Guangdong,510420):Thispapermainlyintroducesthedevelopmentofunifiedretrievalsystem.Then,theauthoranalysestwokindsofunifiedretrievalsystem:searchinjust-in-casemetadatacentralindexes,andjust-
2、in-timesearchincross-databaseresourcesthatarenotindexed.Finallytheauthorintroducesdiscoverysystemandunifiedresourcemanagement.CLCnumber:G254.92Documentcode:AArticleID:1003-6938(2011)05-0025-04整合检索由最初的“Google-like”一站式检索图书馆电子资源发展到强力存取图书馆各种资源(物理馆藏和虚拟馆藏)的探索发现系统,更进一步提出以统一资源管理平台管理图书馆的各种资源。系统开发商积极开发新功能组件的系
3、统,图书馆面临更多的选择,也有了更多思考。本文试图通过梳理整合检索系统的发展脉络,引发图书馆思考如何让读者利用整合检索成更加方便、快捷的获取所需信息资源,并以整合检索系统为新的信息服务起点做好信息服务工作。1整合检索系统的兴起面对复杂多元的网络信息环境,图书馆与数据库商、系统服务商等都在努力开发可以像Google一样一站式检索图书馆各种信息资源的工具一一整合检索系统。整合检索并不是近几年出现的新概念,上世纪70年代开始发展的Z39.50及90年代与网络资源搜寻有关的Metacrawler都体现了整合检索的诉求,它们均是架构于透过一个共通的搜寻接口检索异质信息来源概念所形成的信息检索通讯协议或程
4、序工具。也有的通过API程序对检索接口的分析、指令的包装与数据的重整达到整合检索。这类型的通讯协议与程序工具的设计目的都是希望能够透过一个共通的检索接口,降低信息使用者检索多个信息来源、重复输入多次相同检索策略的繁琐。1但由于技术限制,不论是Z39.50、API程序或者Metacrawler,检索范围多限于单一形态资源,整合程度有限。近年来随着OpenURL以及相关程序工具的发展,整合检索在图书馆运用的成效也日见显著,metasearch,parallelsearch,federatedsearch,broadcastsearchcross-databasesearch,searchporta
5、l这些词汇从不同角度反映了对检索图书馆电子期刊、电子图书、自建资源等多种异构数据库信息资源的探索。在整合检索系统的功能要求上,2005年美国国家信息标准组织(NationalInformationStandardsOrganization、简称NISO)在“整合检索先导计划(NISOMetasearchInitiative)”的网站上对整合检索系统提出了三点要求,即:整合检索系统服务商能提供更有效的服务;内容供应商提供更多的内容并能保障他们的知识产权;图书馆能提供异于Google和其它免费网络资源的服务。2这三点要求是开发整合检索系统的基本要求,整合检索系统的发展也经历了一个由初步发展到相对成
6、熟的过程。2整合检索的技术方案目前进入商业化开发的整合检索的技术方案有两种。一是基于备用性(just-in-case)处理的元数据集中索引式整合检索,预先将各个数据库资源的元数据集中到一台或几台中间服务器上,用户通过向这几台中间服务器发送检索请求的方式来完成整合检索。3二是基于即时性(just-in-time)处理的跨库检索系统,用户即时将查询提交给整合系统,通过整合服务器向源数据库发送请求,获取实时检索结果的整合方式。4这两种方案各有优缺点,也都各自的适用范围。2. 1基于元数据集中索引的整合检索系统基于元数据索引的整合检索系统就是通过抽取、映射和导入等手段对分布异构资源的元数据(也可能包括
7、对象数据)进行收集和聚合,安装在本地系统或者中心系统平台提供统一的检索和服务。5这是一种备用性的整合检索,需要预先集中外部数据库源的元数据,检索是针对本地系统或中心系统平台的元数据库进行的,不需要跨多个外部数据库源,也不受源数据库访问方式的限制,检索速度快。从读者使用体验看,检索速度快是这种方式的最大优点。元数据整合是目录信息的整合,基于元数据的整合检索系统会充分发现各个源数据库的共性,它会按照异构数据的共性,组新的学科体系,做到分类体系统一,实现对所有异构资源的学科聚合,实现学科导航检索功能。6基于元数据索引的整合检索系统需要建立一个庞大的集中式索引,强调元数据的提交与处理,注重元数据的更新
8、与维护,存在着较大的管理难题。最初由于这种方式由于涉及数据库厂商的商业利益,不要说将所有资源的元数据集中到一起,就是集中不断更新,已经集中索引的元数据也面临数据更新和维护问题。图书馆订购的那些资源的元数据也很难操作。而且由于源数据库随着开放获取运动的发展,这一困境正在得到缓解。传统数据库商担心免费资源会影响到他们的用户,开始与Google合作,些学术性商业数据库和出版商已将其全文或文摘让GoogleScholar编入索引。有些学术性商业数据库和出版商与图书馆系统服务商签约,同意系统服务商从他们数据库中直接收割元数据甚至是全文文本,并可存取这些元数据和生成索引。元数据集中索引的整合检索在电子期刊
9、整合中用的比较多。SwetsWise的元数据库SwetsWiseMetaData收录了22000种刊名目录、3.5亿条篇名目次信息。7360Core的KnowledgeWorks是电子期刊、电子图书及其它资源的权威知识库,SerialsSolution公司与全球各地的资源提供商合作,从中收集元数据,并集成到KnowledgeWorks中,通过KnowledgeWorks合作伙伴认证计划,确保数据库商按要求正确收集和呈现元数据。目前KnowledgeWorks包括来自2700多个全文和4720多个非全文的出版社权威数据库的18.5万多种电子期刊、50余万种电子图书的元数据,并以每月新增150个数
10、据库资源的速度增加。8元数据集中索引的整合检索也应用在资源探索发现系统。ExLibris公司的PrimOCentral就是这样一个元数据集中式索引,它由ExLibris统一维护、更新,将来自不同数据库商的数据进行集中索引,力求整合、揭示全世界的各主要电子期刊、电子数据库。ExLibris公司与各个数据库商协商并签订合同,定时从供应商处直接收割元数据甚至是全文文本。从不同供应商收割回来的数据全部进入Primo系统中,进行统一的数据加工、规范化,最终建立一个单一的集中式索引。目前,PrimOCentral中已经整合了世界上大部分的外文电子期刊文章和部分报纸、子书元数据,目前已收录记录超过2.5亿条
11、。9SerialsSolution公司的SummonUnifiedSearchIndex也是这样一个元数据集中式索引。经加工处理的元数据(部分包括全文)被预先收割到SummonUnifiedSearchIndex,并可深度索引,内容涵盖了数字资源库、报告、引文、灰色文献、会议录、学术仓储、电子期刊、报纸、电子图书、学位论文、图书馆书目记录等。口0:与SummO签约的出版商和内容供应商持续增长,目前,已有超过6800家出版商、约10万种期刊向Summo提供超过5亿条的记录。112.2基于即时性处理的跨库检索系统基于即时性处理的跨库检索系统指用户即时将查询提交给系统,系统将用户的检索要求转化为不同
12、数据源的检索表达式,并发地检索本地的和广域网上的多个分布式异构数据源,并对检索结果加以整合,在经过去重和排序等操作后,以统一的格式将结果呈现给用户。12对异构分布资源的整合,最佳的方式是采用标准的数据格式XML和标准的通用检索协议,如Z39.50、OpenURLZing、ODLOAI以及WebService等,但实际上大多数电子资源并不支持或者并不开放这些接口,在实际情况中,也经常遇到资源提供商不公开他们所遵循的协议情况。针对未知协议,通常采用“页面分析技术”实现跨库检索,即通过分析各数据库的URL和HTML页面,通过抽取、尝试和分析去判定检索请求和页面内容。口3通过标准的通讯协议和标准的数据
13、格式来进行的整合检索能够提供准确、全面、及时的检索结果,而通过Http页面分析和模拟进行的整合检索由于受到源数据库访问方式的限制,整合的效果和准确性会受到不同程度的影响。基于即时性处理的跨库检索系统,使用完全实时的目标资源数据,可即时检索到源数据库的最新数据,也避免了数据的更新与维护问题。但当源数据库检索接口、数据字段、数据结构发生变化时,跨库检索系统必须重新配库。基于即时性处理的跨库检索系统的具体产品,国内目前使用比较多的有Metalib元搜索,已有许多详细介绍,此处不赘述。DeepWebTechnology在检索获取集成分析深层网页数据库资源方面有独到之处,它开发的Explorit能同时并
14、发检索数百个资源库,在几秒钟内返回高度相关性的检索结果,并将检索结果以智能聚类方式呈现给用户。14360Secarch将全球领先的两大联邦检索引擎360Secarch和WebFeat整合在一起,形成了一个功能强大、齐全的服务,可对检索结果进行整理和综合,并的Encore通过ResearchPro来检索资源,ResearchPro异构资源整合检?系统采用的是Muse异构资源整合检索引擎。Swets公司的SwetsWiseSearcher采用的也是Muse的技术,2010年2以聚类方式显示在一个简单易用的界面中。15Innovative月,Swets宣布与DeepWebTechnology合作来改
15、进SwetsWiseSearcher的功能。163整合检索的发展整合检索的两种技术方案各有优缺点,也都有各自的适用范围。如何让这两种方案扬长避短优势互补呢?资源探索与发现系统正在做这方面的尝试,而整合检索也从最初尝试按Google族的使用习惯为读者提供一个简易的检索入口来查找图书馆丰富的电子馆藏,发展到强力存取、管理图书馆各种资源(物理馆藏和虚拟馆藏)的统一资源管理平台。3. 1从整合检索到探索发现系统两种方案各有优缺点,也都有各自的适用范围。元数据集中索引的整合检索需要学术性商业数据库、出版商等数据提供商的配合,经许可才可采集、索引元数据。基于即时性处理的跨库检索实现了对异构资源库的并发检索
16、,但若要访问多个外部源数据库,则检索进程缓慢,且受外部源数据库访问方式的限制容易出现检索中断。如果将两种技术集成,既可解决元数据集中索引中未提供元数据的数据库的整合检索问题,又可减少跨库检索中要访问的外部数据库数量,换而言之,既扩大了检索范围又提高了检索效率。随着数字环境的形成,两种技术也整合在一起,并作为关键技术应用到图书馆的资源门户中,单一技术的整合系统发展到两种技术并用的资源发现与获取平台。SerialsSolution公司的探索发现解决方案集成了Summon互联网级探索发现和360Search联邦检索服务。Innovative的EncoreDiscovery通过ResearchPro联
17、邦检索工具和EncoreHarvestingServices收割0AI元数据生成的索引集来发现资源,2010年1月宣称所整合的内容供应商的文章层级的内容,都是基串流XML模式而成,而不仅仅提前作内容的收割与索引。17:ExLibris将MetaLib整合检索集成到Primo中,成为Primo的组件PrimoMetasearch。Primo设计为通过PrimoCentral提供的元数据集中式检索方式和MetaLib元搜索提供的整合检索方式进行检索和发现资源,采取了以下几种检索:本地Primo检索。通过检索Primo本地索引、Primo其它用户的远程索引、PrimoCentral索引来进行。本地索
18、引来自当前图书馆资源的元数据,其它用户的远程索引指Primo其它用户图书馆的索引。Primo深度检索。没有被预先抽取元数据索引的资源,而且这些资源符合Primo的深度检索的要求。Primo元搜索。适用于没有被预先抽取元数据索引的资源Metalib 元搜索。18”检索界面改进到发现一方面提升读者的使用且不符合Primo深度检索。其核心组件是3.2从整合检索到统一资源管理整合检索则由最初的“Google-like界面,以此为基础建立服务导向的架构,体验,另一方面与开放链接、聚类导航、个性化空间与信息定制、用户认证和权限控制等功能一起构成一个实用的数字资源整合系统。国外图书馆和软件商相继开发出十几种
19、数字资源整合系统,在资源整合的基础上进行更深入的资源管理研究,提出了一些新的概念,如ExLibris提出的统一资源管理(UnifiedResourceManagement,简称URM,OCLC隹出的Web-scaleManagementServices(简称WM)S;国内ALIS提出了三期建设和服务计划。ExLibris的统一资源管理平台将可处理各类资源(包括印刷资源、电子资源和数字资源),统一整合图书馆自动化系统、电子资源管理系统、机构仓储管理系统及其它系统,2011 年 1月公布了Alma解决方案。Alma采用统一资源管理框架,支持图书馆所有资源的全部业务,不管这些资源是什么载体或格式、是在本地还是远程,全部业务涵盖了采分编、元数据管理、数字化以及日常业务。口9如:Alma提供高质量、可共享的元数据,统一管理图书馆的各类资源,简化图书馆的工作流程,智能的馆藏管理让图书馆在有限的经费范围内实现最优的馆藏发展计划等。OCLC指出WM可让地方图书馆拥有完整自动化解决方案,而不需本地图书馆自动化系统,希望通过扩展WorldCatLocal的功能来取代本地图书馆自动
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电子商务支付系统在跨境贸易中的应用方案
- 简易喷淋系统技术要求(编制说明)
- 冠状动脉硬化性心脏病辩证
- 软件专业基础试题题库及答案
- 冠心病康复护理试题库及答案
- 学校社团活动规范化管理与质量提升方案
- 药房危化品管理试题及答案
- 2025年临床执业医师《药理学》真题
- 药品法律法规培训试题及答案
- 医疗保障基金使用监管专项工作制度
- 百灵达调音台PMP6000用户手册
- 2025年4月自考03346项目管理试题
- 重症肝炎护理病例讨论
- 有色金属冶炼技术专业教学标准(中等职业教育)2025修订
- 碳一新能源集团有限责任公司年产20万吨锂电池材料项目环境影响报告书
- 中小学人工智能通识教育指南(2025年版)
- 2025年高考政治:选必3 《逻辑与思维》思维特征和逻辑规则分类归纳
- 人教版(部编版)六年级语文下册全册教案集体备课表格式
- 小学劳技室课外实践活动计划
- 7.2做人文精神的弘扬者 课件 -2024-2025学年统编版道德与法治七年级下册
- 2025新课标《义务教育数学课程标准(2022年版)》测试题(附含答案)
评论
0/150
提交评论