图书馆跨平台信息检索系统初探_第1页
图书馆跨平台信息检索系统初探_第2页
图书馆跨平台信息检索系统初探_第3页
图书馆跨平台信息检索系统初探_第4页
图书馆跨平台信息检索系统初探_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

图书馆跨平台信息检索系统初探徐汝兴上海交通大学图书馆上海,200030摘要随着计算机和因特网的飞速发展,数字图书馆的电子资源日益丰富。图书馆数字资源和发布方式的多样性使用户在使用过程中越来越感到不便。跨平台信息检索系统成为目前数字图书馆建设中一个重要的课题。本文试图通过对现行各类整合系统的分析,提出一个跨平台检索系统的模式,并通过实践经验对这个系统进行进一步展望。关键词跨平台检索系统;异构数据;数字图书馆;分布式系统;数据整合INITIALRESEARCHOFCROSSPLATFORMRETRIEVALSYSTEMSINDIGITALLIBRARYXURUXINGSHANGHAIJIAOTONGUNIVERSITYLIBRARYSHANGHAI,200030ABSTRACTALONGWITHTHERAPIDDEVELOPMENTOFCOMPUTERANDINTERNETTECHNOLOGIES,ELECTRONICRESOURCESINDIGITALLIBRARYAREINCREASINGLYVARIEDANDPLENTIFULENDUSERSAREEASILYGETTINGCONFUSEDINDIFFERENTINTERFACESANDSEARCHINGMETHODSWHENMAKINGAQUERYTHECROSSPLATFORMRETRIEVALSYSTEMBECOMESONEOFTHEKEYTOPICSINCONSTRUCTIONOFDIGITALLIBRARYTHEARTICLEISTRYINGTOPRESENTAMODELOFTHISKINDOFSYSTEMBASEDONANALYSISOFSEVERALINTEGRATEDRETRIEVALSYSTEMSNOWINUSEANDPROSPECTSVIAFURTHERAPPLICATIONSOFITKEYWORDSCROSSPLATFORMRETRIEVALSYSTEM,HETEROGENEOUSRESOURCES,DIGITALLIBRARY,DISTRIBUTEDSYSTEM,DATAINTEGRATATION数字图书馆建设方兴未艾,各种数字资源层出不穷,同时由于数字资源建设的不同步以及采用技术的不同,各种数字资源都有自己的数据结构、组织方式、查询方式以及显示界面。对于用户来说,为了查准查全所需要的资料,不得不分别进入不同的查询系统,熟悉每个数据源的检索方式和显示格式。跨平台检索系统正式针对了这个问题而出现。它可以在一个统一的界面和查询环境下对不同数据源的信息统一进行查询,并以统一的界面显示不同数据源的信息。跨平台检索系统可以节省用户获取资料的时间;提高查准率和查全率;将不同媒体不同类型的数据源以整合的方式显示。现今跨平台检索系统有几种类型,都有各自的特点和适用范围,但是在结构和应用上尚不能达到真正的统一资源整合发布要求。交大图书馆近两年在这方面作了些研究和探索,并建立了一个试验系统,希望能够建立一个跨平台跨媒体的统一检索系统。通过实践也发现了一些问题,希望在此和同行进行交流切磋。1图书馆分布式数据源分析11电子数据源的多样性按数据实体区分有全文(原文),文摘,索引等;存储方式有数据库,文件系统等;数据分布上有本地和网上;文件格式有文本,多媒体,超媒体;数据归属上有自建,购买和免费等;数据的内容形式上又有图书、期刊、事实数据等。对用户而言,要查到所需学科的各种资料,在分散的资源中,他就必须知道哪些资源涵盖了自己的学科,熟悉使用各种客户端软件、查询界面和检索策略。即使这样,他也很可能遗漏了某些数据源。费时费力但是查全率较低。12数据发布形式的多样性电子资源目前主要有专用服务器/客户端和WEB发布两种方式。专用服务器/客户端模式主要应用在目前的OPAC,Z3950,某些光盘数据库系统等方面。因特网的发展使WEB发布方式成为信息发布的主流方式,也成为跨平台检索系统主要面对的处理对象。虽然同为WEB发布方式,但是每种电子数据源的用户界面,检索点,检索策略和显示方式都因为数据源的特点和系统设计等不同而千变万化。同是电子图书,“超星”、“书生”和“APABI”都有各自的检索特点“超星”的检索点是书名、作者、出版社和出版日期;“书生”多了ISBN、丛书名和摘要;“APABI”又多了关键词、全面检索和全文检索等检索点。电子图书如此,那么电子期刊之间、期刊与图书及其它资源间的差异就更显而易见了。2跨平台检索系统模式分析21元数据整合模式元数据整合模式是目前应用较多的跨平台系统。系统结构如图1图1元数据整合模式本模式通过对多个全文(原始)数据源按一定标准(如DC)进行标引后,组成一个元数据集,通常用数据库方式储存。通过一个发布系统(WEB服务器)与客户端进行交互。用户看到的是一个集成后的多数据源查询系统,得到的是对原始数据的描述信息。通过一个特定连接,用户可以直接从原始数据源中得到原文数据。本模式的特点是检索速度和方式不受不同数据源的约束,元数据查询和原文获取通过不同的服务,但是标引和组织元数据需要耗费一定的资源,元数据与原文数据源之间的同步性差。对于元数据一致性协同性要求较高,或变动不太频繁的数据源采用这种方式较为合适。例如电子期刊刊名整合、自建的数据库系统、电子图书整合等22中间件模式这种模式多用于数据源有数据访问接口,系统结构见图2本模式采用中间件技术,对来自用户的查询请求,分解成对不同原始数据源的独立访问请求,通过标准(ODBC/JDBC)或非标准的数据访问接口(API)对原始数据源进行实时访问并将结果整合后通过发布系统(或直接)返回给用户。这种模式的特点是实时性好,任何原始数据的更改都可以在用户查询时及时得到反映;原文获取可以直接通过中间件获得从而省去原文数据源的原文发布服务;但应用局限于原原始数据源元数据集元数据发布系统客户端原文传递原文发布系统始数据源必须提供访问接口,而且由于各数据源的速度问题而影响到用户得到结果的时间。另外中间件的开发和获取各数据源后的数据整合策略和技术需要合理规划。图2中间件模式本模式适合用于有标准接口的数据源跨平台检索中,例如将图书馆书目查询与电子图书(电子期刊)(必须是标准的数据库而且开放的结构)整合查询;多个图书馆书目查询系统通过各自的Z3950服务器在客户端的中间件中整合显示(省去了数据发布系统);OAI数据服务者通过OAI协议从不同数据提供者那里获取数据并整合后提供服务。23网页搜索代理模式这种模式的应用前提是原始数据源都提供了WEB发布并有查询功能,系统结构见图3这种模式对于目前图书馆大量购买的数据源和网上免费数据源整合发布比较适合。这些数据源通常只提供有限的元数据,也极少会提供标准接口。分布式网页搜索代理可以通过模拟用户请求到数据源的网站上获取信息,整合以后返回给用户。原始数据源数据采集中间件数据发布系统(可以含全文)原文发布系统客户端ODBC/JDBC或其它API接口原始数据源原文发布系统客户端查询分析/中间件分拆,数据整合(可以含全文)数据发布系统(WEB服务器)查询分析/搜索代理分拆,数据整合(可以含全文)原文传递图3网页搜索代理模式本模式对于大多数网上资源可以进行实时,高细粒度的检索(取决于对方网站提供的检索深度,例如一般国外电子期刊可以提供到篇名级的检索),用户的查准率可以得到最大程度的满足。同时,对信息挖掘分析、软件开发和网络环境等的要求也相当高。为了获得足够的元数据信息,设计时必须对数据源的WEB结构层次和文献组织有详细的分析,对不同的查询请求需要进行转换以达到数据源接受的要求;同样,对元数据的统一标准、数据整合策略和发布结果策略的制订等都有要求。国内外都有类似的软件,但是因为没有将其它类型数据源(特别是现有的自建数据库等)进行整合的妥善解决办法,真正成功的案例不多。24依附模式将一些其它数据源的部分元数据(含超链接)加入到一个数据源中一起发布。最常见的形式有将订购(或自制)的全文电子图书(期刊刊名)的URL地址加入到书目查询系统中(或反向)。这种模式短期可以部分解决资源最大利用的问题,但是缺点是数据更新工作量很大而且多为人工处理;适用的范围较小。3跨平台检索系统的应用和扩展31试验系统的分析我们从2001年起开始进行跨平台检索系统的研究,考虑到上述四种模式的特点,设计了一种集成模式。系统结构如图4数据采集方式一我们对不是经常更新的数据或者没有合适查询服务的数据源用32元数据整合模式建立了元数据数据库,试验系统尝试了书生电子图书,本馆书目查询系统(考虑图书管理系统的运行性能),自建VOD数据库(缺少查询界面)数据采集方式二对于数据更新频繁但是查询条件简单但是有数据库接口的数据源原文传递原始数据源查询分析器搜索代理元数据数据库数据采集中间件元数据采集数据发布系统(WEB服务器)数据分析整合器原文传递原文传递图4集成模式的跨平台检索系统结构采用22中间件模式建立数据采集中间件,实例选用本校硕博士论文库。该数据源基于TRS数据库,TRS提供了自定义接口。数据采集方式三对于订购的网上电子期刊等更新速度快又有较好的检索体系的数据源采用23网页搜索代理的方式进行元数据采集。选定的试验数据源是中国期刊网和ELSEVIER期刊库。由于不同数据源的数据性质差异,我们对所有选定的数据源按照DC的15个标准字段制订了转换标准;对网页搜索方式的数据源,事先分析了网页中与DC对应的数据位置。查询界面分简单(自由词)查询和高级查询。由于考虑网络和数据源速度,高级查询中列出各个数据库估计的查询时间。检索点在简单查询中对各个数据源的所有可检索点进行查询,而在高级检索中仅显示最小检索点数据源的检索条件。用户还可以选择数据源和检索词(点)的组合查询。显示分概览和细览两种,概览以列表方式显示命中记录的主要字段,细览则列出所有的15个字段,其中的统一资源标识符(DC_IDENTIFIERURI)以URL方式直接让用户连接到全文。为了使系统具有可扩展性和可移植性,我们采用了JSP技术来进行开发。32实现过程中的问题由于我们水平有限,本系统涉及的标准和技术较多,还受到数据源变化等影响,系统实现过程中遇到了一些问题元数据标准选定考虑到各个数据源的不同特点和组织方式,我们选用了DC作为一个统一的数据标引标准。但是具体落实到不同数据源时,DC有一定的局限性,如果进行不同类型的扩展,那么数据整合又会非常复杂。检索策略不同数据源(特别是网页类的数据源)检索点不同,这点在中文网站上尤其突出,给统一完善的检索机制带来很大挑战。我们采用的最小检索点策略将使查全率不能得到保障。期望国内数据提供商能够向国际通用标准靠拢。检索速度受网络和原始数据源系统处理速度的影响,获得数据时间差异很大,对用户的耐心以较大考验。时间和查全率难以找到合适的平衡点。目前大多数系统采用先到先显示的方法。这样结果显示的多样化(比如排序等)无法实现。数据重复较多的重复数据取舍标准比较难定。可以用相似度去重,但是相当数量的文献由于出处不同,所具有的特性也不同。比如文摘类和全文类文献完全视用户的实际情况而会有取舍,难以在简单查询后过滤掉内容相同的记录。另外,检索速度的差异让去重成为不可能完成的任务。原始数据的结构更新特别是通过代理搜索模式的数据源,结构改动将会使程序改动的工作量加大。例如,中国期刊网和ELSEVIER都先后对网站结构进行过调整,原来设定的元数据抽取规则都必须进行相应修改。33系统扩展本系统可在如下方面进行适当扩展,提升其使用效率添加合适的统计分析模块,可以进行电子资源质量和服务评估,指导馆藏电子资源的收藏政策。客户端个性化定制,如定制数据源、查询条件、结果显示方式、专业、历史查询记录等。根据电子资源多累积少删改的特点,采用合适的数据缓存技术,可以大大加快用户查询速度。结束语我们的系统目前还不完善,许多的难题但靠我们的力量暂时还无法解决。目前图书馆界跨平台检索系统已经有多种模式,在建立系统的同时能够比较全面地考虑各个层面的因素,即使现在只是部分实现跨平台检索功能,但是为今后全面实现数据统一检索做好准备。希望我们的实验对大家决策时有所帮助。参考文献1张晓林分布式数字图书馆机制情报学报,20022632齐勇等基于WEB的中间件系统集成框架应用服务器的研究计算机研究与发展,200144303盛小平数字图书馆体系结构的比较研究图书馆杂志,200212364ROSZKOWSK

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论