下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
精选优质文档-----倾情为你奉上精选优质文档-----倾情为你奉上专心---专注---专业专心---专注---专业精选优质文档-----倾情为你奉上专心---专注---专业由搜索引擎谈数字图书馆的信息服务孔足深圳图书馆广东深圳[摘要]本文简单介绍了互联网上的搜索引擎技术,并通过深圳图书馆开发的数字图书馆系统(dILAS)的信息服务系统来说明如何利用搜索引擎技术,构建数字图书馆的信息服务系统。[关键词]数字图书馆搜索引擎信息服务FromSearchEngineertotheInformationServiceinDigitalLibraryKongZuShenzhenLibrary,Shenzhen,Guangdong[Abstract]Thepaperfirstgivesabriefintroductiontothetechnologiesofsearchengineerontheinternet,thenprovidesanexampleofinformationservicesystemindigitallibrarybasedonsearchengineerwhichisdevelopedbyShenzhenLibrary.[Keywords]Digitallibrary;Searchengineer;Informationservice随着互联网爆炸性的发展,网络上的信息呈现几何级数增长的趋势,使其信息极为丰富。同时也因信息资源分散、缺乏有效的信息组织、信息检索缓慢,人们不知如何快速、准确地从Internet资源中获取自己最需要的信息。为了解决这些问题,搜索引擎便应运而生。随着信息数字化的发展,数字图书馆成为知识传播、普及教育重要和有利的工具。为了帮助使用者能够快速、有效地利用网络上的巨量信息资源,我们同样要在信息服务上做很多的工作。本文拟对互联网上的搜索引擎技术进行简单的介绍,并通过深圳图书馆开发的数字图书馆系统(dILAS)的信息服务系统,来说明如何利用搜索引擎的技术来构建数字图书馆的信息服务系统。1搜索引擎的原理及分类自1994年第一个搜索引擎出现以来,当今数百个搜索引擎已构成Internet的主要查询工具。它从最早的第一代网站搜索引擎发展到第二代关键词搜索引擎,现在已发展到应用数据挖掘、人工智能等技术的第三代智能搜索引擎。搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。它先由搜索器以一定的策略在互联网中搜集和发现信息,然后通过索引器对信息进行理解、提取、组织和处理并存储到数据库中。最后在用户接口及检索器的共同作用下为用户提供检索服务,从而起到信息导航的作用。搜索引擎按其工作方式主要可分为三种,分别是目录式搜索引擎、机器人搜索引擎和元搜索引擎。目录式搜索引擎是最早出现的基于WWW的搜索引擎,主要以yahoo为代表。它以人工方式或半自动方式搜集信息,大多面向网站,提供目录浏览服务和直接检索服务。其特点是搜索的信息准确、导航质量高,但信息量少,信息更新不及时且维护量大。机器人搜索引擎是很常用的一种搜索引擎,主要以google为代表。搜索机器人(robot)主动地从互联网上检索信息并自建网页数据库,搜索结果直接从自身的数据库中调用。其特点是数据量、数据的涵盖范围大,更新速度有保障,但返回信息过多,有很多无关信息,用户必须从结果中进行筛选。元搜索引擎是一种调用其它独立搜索引擎的引擎,主要以InfoSpace为代表。它在接受用户查询请求时,同时在其他多个引擎上进行搜索,对搜索结果进行汇集、筛选、删除、合并等优化处理后将结果返回给用户。其主要的特点是集成多个搜索引擎,覆盖面大,搜索效果更好且具有可扩展性等优点。它的缺点是有一定的局限性,不能够充分使用所使用搜索引擎的功能。2dILAS的信息服务系统虽然Internet上信息资源极为丰富,但在很大程度上处于混乱的无政府主义状态。而目前的搜索引擎主要由计算机和网络工作者设计开发,导致分类体系不统一、不规范、查全查准率低、缺乏知识处理能力和理解能力等问题,不能满足读者的需求。读者想查的信息明明网上有,但用搜索引擎就是查不到;也可能会找到成百上千条结果,但都不是读者想要的。这给提供信息服务的图书馆带来了一个发展机遇,那就是如何利用现有的网络信息资源和现有的网络技术环境,如何借鉴网上已建立的搜索引擎和传统分类法、主题法理论的技术和成果,借助自身在信息处理方面的优势来构建信息服务系统,以提高网络信息的有序化程度,拓展图书馆馆藏资源,并大批量地扩展因特网读者用户,使任何一个读者都能像上图书馆查书那样,方便地利用网络信息资源。dILAS是一个面向图书情报机构的大型分布式数字图书馆应用系统,提供了跨系统、多层次的信息检索与服务平台。下面将介绍dILAS系统信息检索与服务相关的几个重点模块:2.1全文检索系统:为了满足不同用户对全文检索不同程度的需求,dILAS系统开发了基于多种索引机制全文检索系统,即能够支持基于字的二元索引(普通索引)和基于汉语分词的词索引(概念索引)。用户可以根据不同的需求来建立自己的全文检索系统。它支持复杂检索条件的检索,并能支持段落中的关系限定。概念索引是利用专业词表来进行全文分隔,并将分隔好的结果呈现在用户的面前进行审核调整。它适合于专业全文数据库的建立,能满足专业人士对检索的准确度的要求。而普通索引则适合对准确度要求不太高的人士。2.2dILAS-Z39.50检索为解决书目信息的通用检索问题,dILAS系统提供了dILAS-Z39.50检索,它可以说是一种特殊的元搜索引擎。dILAS-Z39.50检索是基于Z39.50协议的对外检索服务专用系统。它利用Z39.50标准开放协议实现了dILAS数据库的全开放,使dILAS系统与其它开放式系统之间实现了无缝连接。它利用Z39.50的基本服务操作实现了联合编目中的数据查询及下载;利用Z39.50的扩展服务完成了书目及馆藏信息的上载;利用Z39.50网关采用统一的检索界面,实现对多个图书馆的馆藏文献信息的查询和资源的定位。通过Z39.50的开发与应用,建立灵活的检索接口与界面,使dILAS不仅在系统内部的OPAC、联合编目、馆际互借等部分实现了数据资源的充分利用与共享,而且为网络间的异构平台和异构系统之间的信息检索和传输提供了条件,实现了与其他具有标准接口的系统之间的数据访问,为数据资源共享提供了新途径。2.3dILAS-USP随着信息化的不断发展,数字资源的日益膨胀,各种数据库资源及相应的检索系统也日益增加,这虽然是一件好事,但是也给资源的使用者带来了很大的困扰:他们为了检索信息,需要在各种数据库间不断地进行切换、不断地输入同样的检索条件,分析各种形式的检索结果。dILAS系统提供一种元搜索引擎-dILAS-USP来解决这一问题。dILAS-USP是针对异构系统数据库的统一检索平台。它通过配置一系列数据库检索引擎,使用户能够面对诸多的数据库,通过一个页面统一提交检索请求,由平台分发并进行同步检索,其结果以统一的格式返回。目前已集成常用商业数据库近50种。2.4网上采集系统网上资源的不断丰富使图书馆的读者服务和资源建设越来越依赖网上资源,而网上资源的不确定性使图书馆建立专题资源数据库时不得不采取下载的方式以保存完整的信息。dILAS系统提供网上资源采集子系统来进行专业性的定时、定点的下载,它属于专业机器人搜索引擎。dILAS网上资源采集系统是一个独立的网上资源搜索、自动爬行、资源下载与保存、资源加工专门系统,是图书馆进行资源整合和参考咨询服务的重要工具。它由任务定制、采集服务、本地加工等模块组成。用户能根据自定义的采集条件、过滤规则,从网上固定网站采集到满足条件的资源,并能在采集的过程中根据自定义的规则来自动提取元数据。被采集资源在本地进行筛选、加工,统一上载到服务器上。3数字图书馆信息服务系统的发展趋势随着第三代搜索引擎向智能化、个性化、社区化方向深入发展,数字图书馆的信息服务系统也将呈现其新的特点。3.1提高信息检索的智能化目前智能化搜索引擎采用自然语言理解技术,能实现分词、同义词、概念搜索,短语识别及机器翻译等。我们可以借鉴其技术,利用分词词典、同义词典、同音词典并通过歧义知识描述库、全文索引、用户检索上下文分析以及用户相关性反馈等技术结合处理,高效、准确地反馈给用户最需要的信息。进一步还可在知识层面上辅助查询,通过主题词典、上下位词典、相关同级词典,形成一个知识体系,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。3.2检索系统交互功能的增强目前智慧型互动搜索引擎--新浪"爱问",提供一个独有的互动问答平台,调动网民参与提问与回答,让用户彼此分享知识与经验。多数用户的检索请求在起初是模糊的,借助于知识工具,我们可以在用户检索的过程当中,不断地与用户交互,不断地提示和引导用户更加明确其检索的目的,从而使检索的结果更加有效,符合用户的需要。定义性的知识获取,可以对于文献中的一些基础性的、定义性的文字信息进行索引(也就是所谓的小粒度知识),从而在检索的时候不是返回整个的文献,而是只返回相关的知识点,甚至可以返回多个文献中对于同一个只是点的描述进行对比。3.3向知识管理的方向靠拢检索引擎一般朝着两个方向发展,一个向广度方向发展,另一个会朝着深度方向发展。提高检全率,增加数据库中的容量,是朝着广度的方向发展。但文献的命中率并不是代表检索引擎唯一标准。网上的信息浩如烟海,网络资源以惊人的速度增长,一个搜索引擎很难收集全所有主题的网络信息,即使信息主题收集得比较全面,由于主题范围太宽,很难将各主题都做得精确而又专业,使得检索结果垃圾太多。这样以来,垂直主题的搜索引擎以其高度的目标化和专业化在各类搜索引擎中占据了一席之地。目前,一些主要的搜索引擎,都提供了新闻、Mp3、图片、Flash等的搜索,加强了检索的针对性。由此可见面向情报领域的垂直方向深度检索引擎是个必然的趋势。对于我们来说,有针对性地作面向学科分类的知识管理方向的检索是可以做到的,效果也应该是显著的。3.4加强个性化服务加强以用户为中心的信息挖掘与智能代理技术,建立更加友好的用户检索界面,在功能上突出个性化,例如可添加用户兴趣库、个性化需求分析、查询过滤器等。加强个性化定制技术、提高信息主动推送服务,读者可以针对图书馆定制的个性化网页,可选择常用的数据库、电子期刊、相关网站链接、搜索引擎、专业词表等信息源作为自己定制的主页内容,并能根据自己对信息所属类型的理解不同来加以管理。[参考文献][1]符敏慧.智能Agent技术与个性化信息服务的实现.情报杂志,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025~2026学年浙江温州市龙湾区实验中学九年级下学期英语阶段学情自测
- 临床血小板输注无效(PTR)诊断与处理
- 2026护土应聘考试题及答案
- 2026护士考试题及答案类型
- 2026陕西西安市长安区魏寨街道卫生院招聘备考题库及答案详解(新)
- 2026舟山市交通运输行政执法队编外招聘2人备考题库及答案详解(各地真题)
- 2026湖南烟草考试题目及答案
- 幼儿园运动会主题方案
- 2026广东佛山市中心血站南海血站招聘公益一类事业编制工作人员备考题库及答案详解(必刷)
- 2026福建厦门市集美区蔡林学校产假顶岗教师招聘4人备考题库有完整答案详解
- 出国留学-话题education英语演讲PPT
- 【10套试卷】厦门市外国语学校小升初模拟考试数学试题含答案
- 最后一战-励志高考冲刺30天主题班会 高考倒计时主题班会课件
- 杭州师范大学堪培拉教育领导与管理硕士项目
- 成都建筑装饰装修工程设计收费标准
- GB/T 28686-2012燃气轮机热力性能试验
- GB/T 16301-2008船舶机舱辅机振动烈度的测量和评价
- GB/T 1185-2006光学零件表面疵病
- GA/T 1532-2018赤足足迹检验技术规范
- 商务星球版七年级下册地理知识点归纳
- 公司治理课件讲义
评论
0/150
提交评论