ch6_信息检索2_第1页
ch6_信息检索2_第2页
ch6_信息检索2_第3页
ch6_信息检索2_第4页
ch6_信息检索2_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

6 信息检索,信息组织是指按照一定的规则来描述信息资源 或信息对象,以便于能被需要它们的人高效地利用。 信息检索则是指为了个人或他人的需要,去发现适当的信息资源或信息对象。 信息组织和信息检索是一对互逆过程。,6.1 信息检索的沿革与发展,6.1.1信息检索的涵义 满足信息用户的信息需求而建立的、存贮经过加工了的信息集合,拥有特定的存贮、检索与传送的技术装备,提供一定存贮与检索方法及检索服务功能的一种相对独立的服务实体(包括人和检索工作单位),统称为信息检索系统(Information Retrieval System,简称IRS)。 信息检索系统的三个基本要素:人、检索工具(包括设备)和信息资料,6 信息检索,图6.1 信息检索系统的体系结构,6 信息检索,信息组织和检索系统,比较/匹配,检索流程,组织流程,存贮1:概述/搜索请求,存贮2:信息的表示,6.1.2 信息检索的类型与特性,按存贮和检索的内容划分 文献检索 数据检索 事实检索 按检索系统中信息的组织方式划分 全文检索 多媒体检索 超媒体检索,6 信息检索,信息检索特性,信息检索的相关性 相关性表明用户是否认为一文献与一提问吻合。 信息检索的不确定性 标引的不确定性是指不同标引员在给同一篇信息对象进行标引时会选用不同的标引词,即标引词选用的不一致性。 信息检索的逻辑性,6 信息检索,6.1.3 信息检索的发展历程,三个阶段 手工信息检索阶段 机械信息检索阶段 计算机信息检索阶段,6 信息检索,手工信息检索阶段,正规的参考咨询工作是由美国的公共图书馆和大专院校图书馆于19世纪下半叶首先发展起来的。“参考咨询工作”产生的标志是1876年召开的美国图书馆协会第一届大会。1883年,波士顿公共图书馆首次设置了专职参考馆员和参考阅览室; 20世纪初,多数图书馆成立了参考咨询部门,主要利用图书馆的书目工具来帮助读者查找图书、期刊或现成答案。逐渐发展到从多种文献源中查找、分析、评价和重新组织信息;“索引”突破了以前的狭隘范畴,成为独立的检索工具; 40年代进一步包括回答事实性咨询,编制书目、文摘,进行专题文献检索,提供文献代译等。“信息检索”从此成为一项独立的用户服务工作,并逐渐从单纯的经验工作向专业化方向发展。,6 信息检索,机械信息检索两种基本类型 机电信息检索系统 光电信息检索系统 机械信息检索并没有发展信息检索语言,只是采用单一的方法对固定的存贮形式进行检索,而且过分依赖于设备,检索复杂,成本较高,检索效率和质量都不理想。,6 信息检索,机械信息检索阶段,计算机信息检索系统三个阶段:,1971年以前建立的信息检索系统,是传统的批处理检索方式。 1971年以后,产生并发展的联机信息检索系统,如OCLC、Dialog在线数据库联机检索系统。 20世纪90年代以来,产生并发展的网络信息检索阶段。,6 信息检索,信息检索技术两个发展方向: 传统信息检索向全文文本、多媒体、多载体、多原理等新型信息检索的发展,在深度上提高管理和组织信息的能力; 信息资源的网络化和分布化,面向互联网中海量的信息资源,在广度上提高管理和组织的能力。,6 信息检索,6.1.4信息检索的模型,布尔逻辑检索模型 (BooleanRetrieval Model,简称BRM) 概率检索模型 (Probability Retrieval Model,简称PRM) 向量空间检索模型 (Vector Retrieval Model,简称VRM) 模糊检索模型 (Fuzzy Retrieval Model,简称FRM),6 信息检索,6.2 信息检索的职能与程序,6.2.1 信息检索语言的职能 信息检索语言是根据信息检索需要创制的一种人工语言,又称检索语言、信息存贮与检索语言、文献工作语言、索引语言、标引语言、信息检索标识、标识系统等等。 信息检索语言:词汇和语法,6 信息检索,信息检索语言的职能:,可以表示文献内容、数据或其他信息形式 有专用概念表示用户的信息提问 能够指示计算机执行查询与检索,6 信息检索,6.2.2 信息检索策略,信息检索策略是针对检索提问、运用检索方法和技术而设计的信息检索方案,其目的是要达到一定的检准率和检全率。 常用信息检索策略包括:分块概念组配检索策略、逐步组配检索策略、对偶组配检索策略、增长组配检索策略等。,6 信息检索,目前在以下三方面取得进展: (1)以检全为目标的检索策略的调节与控制; (2)以检准为目标的检索策略的调节与控制; (3)以最小投入为目标的检索策略的调节与控制。 对特定系统、特定数据以及某一类型课题的检索策略的研究具体表现在以下两方面: (1)是某一系统、某一数据库检索策略; (2)是某一类型课题检索策略。,6 信息检索,信息检索策略的研究重点是: (1)检索策略失误分析; (2)降低检索费用的研究; (3)用户检索行为及用户培训; (4)现代信息技术在检索策略制定中的应用。 在检索表达式重构专家系统中,把知识库分为领域知识库和规则库。,6 信息检索,6.2.3 信息检索效率的评价,检索效率是指全、准、快、便、省(检全率、检准率、检索速度、检索方便性、检索成本与效益),最主要的是全和准。 在评价信息检索效率过程中,主要通过检全率、检准率、漏检率和误检率四个评价指标进行评价,其中重点是检全率和检准率。,6 信息检索,图6.2 检全率与检准率的互逆相互曲线,6 信息检索,6.2.4 信息检索的程序,(1)分析研究信息检索课题 明确信息检索课题所涉及的领域和范围; 明确所需信息的内容及其内容特征; 明确所需信息的类型,包括文献媒体、出版类型、所需文献量、年代范围、涉及的语种、有关著者及机构等; 明确信息检索课题对查新、查准和查全的指标要求。,6 信息检索,(2)选择信息检索工具 信息检索工具是人们为了充分、准确、有效地利用已有的信息资源而加工编制的用来报道、揭示、存贮和查找信息资源的卡片、表册、计算机信息系统和特定出版物。,6 信息检索,(3)确定信息检索方法,常用的信息检索方法 顺查法 倒查法 抽查法 追溯法 循环法,6 信息检索,每一种信息检索方法都有自己的特点,在实践中可以根据信息检索要求选择使用或配合使用,以快速、准确地完成信息检索任务,实现预期的目标。,(4)掌握获取原始信息的线索 在获取信息线索时要仔细阅读,判断所检出的信息是否符合检索的要求,不仅看篇名,还要阅读整个著录格式,进行综合分析。,6 信息检索,(5)获取原始信息 判断文献的出版类型。根据文献出处中已有的信息,判断其出版类型。 整理文献出处。将文献出处中有缩写语、有音译刊名的还原成全称或原刊名。 根据出版类型在图书馆或信息机构查找馆藏目录或联合目录确定馆藏,原则上说应该按“由近及远”的顺序逐步扩大查找馆藏的范围。 尽可能多渠道、多方式地获取原始信息。,6 信息检索,6.3 信息检索的技术与方法,从检索手段看,信息检索分为: 手工信息检索 机械信息检索 计算机信息检索,6 信息检索,6.3.1 手工信息检索的技术与方法,(1)手工信息检索工具 目录:图书或其他单独出版物规律化、系统化的记载 索引:把一种或多种书刊里的具体内容按一定的方式分别摘录,并注明出处,以便检索的一种工具 文摘:把文献资料的主要内容,由有一定水平和经验的编者将其准确、简要地摘录出来,并注明出处后,经分类排序而编制成的检索工具 年鉴:以描述和统计的方式逐年提供某年度某一领域信息的工具书 手册:汇集某一学科领域或业务部门专门知识的工具书 百科全书:荟萃一切门类或某一门类知识、以概要方式介绍为主的多功能工具书,6 信息检索,(2)手工信息检索工具的排检技术 字顺排检技术:将检索工具的内容按字、词的一定顺序或规律,有系统地组织排列起来的技术。 分类排检技术:将信息素材按学科或事物性质系统地加以排列。 主题排检技术:以规范化的自然语言为标识符号来标引信息内容的排检技术。 时序排检技术:按时间的顺序组合信息素材的技术,多用于编制年表、年谱等检索工具。 地序排检技术:按一定时期的行政区域来排列信息素材的技术。 ,6 信息检索,(3)手工信息检索方法 顺查法:一种以信息检索课题起始年代为起点,按时间顺序由远而近地查找信息的方法。 倒查法:一种逆时间顺序由近而远地查找信息的方法。 抽查法:一种针对研究课题发展的特点,抓住学科发展迅速、发表文献较多的年代进行查找的方法。 追溯法:又叫回溯法,是以某一篇文献末尾所附的参考文献为依据,由近及远进行逐一追踪的查找方法。 循环法:先利用检索工具查出一批有用文献,然后再利用这些文献末尾所附参考文献的线索进行追溯查找。,6 信息检索,6.3.2 机械信息检索的技术与方法,机电信息检索系统 继手检穿孔卡片之后,出现了机检穿孔卡片和选卡机。这就形成了机电信息检索系统。 光电信息检索系统 主要是以缩微胶卷(片)检索方式出现的。缩微胶卷(片)的检索方式大致可以分为两种类型: 寻址检索方式 编码检索方式,6 信息检索,6.3.3 计算机信息检索的技术与方法,(1)联机信息检索 信息用户利用终端设备,通过通讯网络与世界各地的信息检索系统联机,进行人机对话,从检索系统的数据库中查找出用户所需信息的全过程。 优点:检索速度快;检索范围广而全面;检索途径多、质量高;检索内容新、实时性强;检索辅助功能完善、使用方便,检索结果输出方式灵活、实用。 缺陷:主机负担重,一旦出现故障,则整个网络都将瘫痪;信息组织方式以线性为主,不够灵活;联机检索不像Internet是面向最终用户的,操作也没有后者方便。,6 信息检索,联机信息检索系统的结构 由检索服务机构、国际通讯网络及终端三部分构成。 联机信息检索的技术原理 一个典型的计算机信息系统,能完成数据收集、分析、加工处理、存储、传递通信和检索信息的全过程。 联机信息检索的服务方式 a定题信息提供 b专题回溯检索 c联机订购原文 d电子邮件,6 信息检索,(2)光盘信息检索 特点: 使用光盘检索系统,可免除联机检索系统所必须使用的电讯设备,节省了电讯费和联机系统使用费,还可免除由通信线路传输过程中所造成的失误 光盘系统向用户随盘提供相当于联机信息检索系统功能的软件,并提供菜单驱动与命令驱动两种方式 光盘存贮容量大、耐用、复制费用低 可以把文本、图形、图像、声音及动态形象结合在一起 如果光盘数据库量不够多,则信息资源就显得有限,购买大量光盘数据库,又要受到经费限制 在信息需求的适时性上,光盘检索不如联机检索系统,因为光盘只能定期提供 数据库费用大,6 信息检索,光盘信息检索技术 光盘信息检索系统由微机、驱动器及连接设备、CDROM数据库(光盘)及其检索软件构成。 选择驱动器时主要考虑以下性能: a 速度:一般在185ms500ms之间 b 查找速度:一般在250ms400ms之间 c 数据缓冲区越大,可直接从存储器存取的数据就越多,节省查询时间 d 数据传送速度:有单速、双速乃至40倍速以上的驱动器,6 信息检索,光盘信息检索方法 光盘检索系统的功能和指令与联机检索没有很大区别,但更方便。 功能键:Help(帮助)、Index(索引)、History(查阅历史)、Display(显示)、Print(打印)、Select Database(选择数据库)、Format Window(格式窗)、Quit(退出)等 检索信息时可用单元词、多元词(短语)、数字及布尔运算符和位置运算符把几个检索术语组配成一个提问逻辑式。 用户可以在任何时刻回顾其查找的历史,重新使用或修改以前的任何提问。 屏幕帮助是光盘数据库最常用也是重要的功能之一。,6 信息检索,(3)网络信息检索 特点: 信息量更大 需要处理各种不同的语言(大多是自然语言) 信息检索的范围更宽(多学科、多领域) 信息查询的时效性要求更高 检全率较高,而检准率较低,6 信息检索,网络信息检索模式 广义:(从根本上解决有效利用网络信息资源问题的关键) 如何对网络上的海量多态信息进行组织,如何对这些信息建立索引,如何对索引及时更新; 如何设计检索算法以使检索提问在检全、检准、响应时间、检索结果控制与显示方面表现良好; 如何为用户设计一个简单易用的友好界面 狭义:(在现实世界中有效利用网络资源的核心 ) 只是以网络(如互联网)为媒介,利用网上已提供的一些信息检索工具,探索如何使用这些工具及如何综合各工具,使它们扬长避短,最后能实现对信息提问的检索查询的一种方法与技术。,6 信息检索,网络信息检索工具 Archie(文档查询服务) Gopher(菜单式检索服务) WAIS(广域信息服务) WWW(万维网交互式信息查询服务),6 信息检索,搜索引擎(Search Engine) 搜索引擎是提供给用户进行关键词、词组或自然语言检索的工具,简言之,就是一种在互联网上查找信息的工具。 工作的基本原理是:用户提出检索要求,搜索引擎代替用户在数据库中进行检索,并将检索结果反馈给用户。 检索的结果:WWW上的主页、新闻组中的文章、软件的存放地址及其作者、企业网站、个人主页等。,6 信息检索,从不同的角度,搜索引擎可分为不同的类型: 按信息内容的组织方式:目录式搜索引擎和机器人搜索引擎 按专业范畴:综合性搜索引擎和专业性搜索引擎 按检索功能:独立搜索引擎和多元搜索引擎(也称元搜索引擎),6 信息检索,每一种搜索引擎均有自己的特色,一般都提供了普通搜索和高级搜索两种途径。 著名搜索引擎:,Yahoo Alta Vista Excite 搜狐(Sohu),6 信息检索,英文搜索引擎: Yahoo!() Infoseek() Alta Vista

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论