版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
6
信息检索
信息组织与信息检索是信息处理领域的重要概念,二者关系紧密且互逆。信息组织依照特定规则描述信息资源或对象,目的是让有需求的人能高效利用。这就如同图书馆对书籍进行分类、编目,使读者能快速找到所需书籍。通过合理组织,信息变得有序,其价值得以更好地发挥。
信息检索则是为满足个人或他人需求,去寻找合适的信息资源或对象。当我们在搜索引擎中输入关键词查找资料,或者在数据库中搜索特定文献时,就是在进行信息检索。它是获取知识和解决问题的重要手段。
信息组织和信息检索的互逆关系体现在,信息组织是将分散的信息有序化,而信息检索是从有序的信息集合中找出符合需求的信息。二者相辅相成,共同构成了信息处理的完整流程。理解它们的概念和关系,有助于我们更高效地获取和利用信息。
信息检索系统旨在满足信息用户的需求,是一个存贮加工信息集合的相对独立服务实体。它拥有特定技术装备,能提供存贮、检索方法及服务功能。
人是信息检索系统的核心要素,人不仅要操作检索工具,还要对检索结果进行分析和判断。检索工具(包括设备)则是实现信息检索的手段,它能帮助人们快速、准确地找到所需信息。信息资料是信息检索的对象,是系统存贮和检索的内容。
这三个要素相互依存、相互作用。没有人的参与,检索工具和信息资料就无法发挥作用;没有检索工具,人就难以高效地获取信息;没有信息资料,检索就失去了意义。只有三者协同配合,信息检索系统才能正常运行,满足用户的信息需求。
信息检索系统体系结构包含了多个关键环节。潜在的相关信息是整个系统的基础,它需要经过信息组织和检索系统的处理。规范化的疑问式则是用户表达信息需求的方式,是触发检索流程的起点。
信息的组织和概述的存贮是系统的重要组成部分。信息组织按照一定规则进行,以便高效利用;概述存贮则为后续的检索提供基础。比较/匹配是检索的核心步骤,通过将用户需求与存贮的信息进行对比,找出符合要求的信息。
索引是描述性且受限制的,它遵循特定的游戏规则,即主题索引规则与辞典(包括词汇表和索引语言)的结合。这些规则确保了检索的准确性和有效性。
整个系统存在检索流程和组织流程。检索流程从需求概述或疑问式出发,到获取信息或数据;组织流程则侧重于信息的存贮,包括存贮1的概述/搜索请求和存贮2的信息表示。这两个流程相互配合,构成了完整的信息检索系统体系结构。
信息检索的类型可从两个维度进行划分,首先是按存贮和检索的内容划分。文献检索,其核心在于对各类文献资料的查找,而文本检索则专注于文本内容的搜索,二者虽有侧重,但都围绕文字信息展开。数据检索主要针对数据进行查找,数值检索则着重于对具体数值的搜索,它们在处理量化信息方面发挥着重要作用。事实检索致力于查找事实信息,音频与视频检索则聚焦于音频和视频资源的搜索,这两类检索能满足人们对非文字信息的需求。
其次是按检索系统中信息的组织方式划分。全文检索可对文献的全文内容进行搜索,能提供全面的信息检索服务。多媒体检索涵盖了多种媒体形式的信息检索,能满足人们对多样化媒体资源的需求。超媒体检索则在多媒体检索的基础上,进一步拓展了信息之间的关联,提供更为丰富和灵活的检索体验。不同的检索类型和特性,为用户在不同场景下获取信息提供了多样化的选择。
信息检索具有相关性、不确定性和逻辑性三大特性。相关性体现为检索时规定的正文与信息提问正文的符合程度,反映了用户对文献与提问吻合度的主观判断。这意味着在检索过程中,用户的需求和认知起着关键作用,只有与用户提问高度匹配的文献,才能真正满足其信息需求。
信息检索的不确定性主要源于标引的不确定性,不同标引员对同一信息对象标引时会选用不同标引词。这会导致在检索过程中,由于标引词的差异,可能会遗漏一些相关信息,或者检索出大量无关信息,影响检索的准确性和效率。
信息检索的逻辑性则体现在检索语言和检索策略上。合理运用检索语言和科学制定检索策略,能够更精准地定位所需信息,提高检索的质量。因此,在进行信息检索时,需要充分考虑这三个特性,以提升检索效果。
信息检索的基本原理包含三个关键要素。其一为信息资源集合,它好比一个巨大的知识宝库,汇聚了各种各样的信息,是信息检索的基础。无论是书籍、文献、数据,还是网络上的各类资讯,都构成了这个庞大的信息资源集合。
其二是信息需求集合,这代表着用户内心的疑问和渴望获取的知识。不同的用户在不同的场景下,会产生各式各样的信息需求。这些需求就像导航仪,指引着我们在信息的海洋中寻找目标。
最后是匹配与选择,这是信息检索的核心环节。它就像是一个精准的筛选器,将信息资源集合与信息需求集合进行比对。通过一定的算法和规则,找出与用户需求最匹配的信息,并从中进行筛选和选择,最终为用户提供最有价值、最相关的信息。只有这三个要素协同作用,信息检索才能高效、准确地完成,满足用户对知识的追求。
信息检索模型是信息检索领域的重要组成部分,主要包括布尔逻辑检索模型、向量空间检索模型、概率检索模型和模糊检索模型。
布尔逻辑检索模型是一种成熟且流行的检索技术,它以逻辑运算为基础,通过布尔逻辑运算符,如与、或、非,来精确筛选信息。这种模型就像一个严格的筛选器,能帮助我们快速定位到同时满足多个条件,或只满足部分条件,或排除某些条件的信息,在信息检索中具有广泛的应用。
向量空间检索模型则是将文献和查询用向量表示,把文献与查询的匹配问题转化为向量空间的计算问题。通过计算相似系数,筛选出相似度较高的文献。它就如同在一个多维空间中寻找相似的点,为我们提供了一种新的检索思路。
概率检索模型建立在相关性理论基础上,依据文件相关概率递减原则排列,以获得最大检索性能。该模型的核心在于相关性原理及排序原理,但概率计算及其数据来源是技术难点。它就像是在不确定的信息海洋中,根据概率来寻找相关信息的宝藏。
模糊检索模型建立在模糊集合论、模糊逻辑及可能性理论基础上,用于处理各种不确定性。它用0到1之间的数值来表示文献与标引词的相关程度,数值越大,相关性越高。这种模型就像一个灵活的探测器,能在模糊的信息中捕捉到相关的线索。
这四种信息检索模型各有特点和适用场景,在实际应用中,我们可以根据具体需求选择合适的模型,以提高信息检索的效率和准确性。
布尔逻辑检索模型是一种较为成熟且流行的检索技术,其基础是逻辑运算,主要通过布尔逻辑运算符来实现检索。
布尔逻辑运算符有与、或、非三种。“与”运算用“and”或“*”表示,意味着只有同时含有A、B这两个检索词的内容才能被命中。这就好比我们在寻找一份资料,要求它必须同时包含“人工智能”和“医疗应用”这两个关键信息,只有满足这个条件的资料才会被检索出来。“或”运算用“or”或“+”表示,只要含有其中一个检索词,或者同时含有两个检索词的内容都将被命中。例如,我们在查找关于“大数据”或者“云计算”的资料时,只要资料中包含其中一个关键词,或者两个都包含,都会被检索到,这样可以扩大检索的范围。“非”运算用“not”或“-”表示,即含有检索词A但不含有检索词B的内容才能被命中。比如我们要查找关于“智能手机”但不包含“苹果手机”的资料,就可以使用“智能手机not苹果手机”这样的检索式。
布尔逻辑检索模型通过这些逻辑运算符,能够让我们更加精准地筛选出符合自己需求的信息,提高检索的效率和准确性。
向量空间检索模型是信息检索模型中的重要一种。其基本前提是具有创新性的,它把文献和查询用向量来表示。这一做法意义重大,成功地将文献与查询的匹配问题转化为关于向量空间的计算问题。
在传统的检索方式中,文献与查询的匹配往往较为复杂和模糊,而向量空间检索模型通过这种转化,让匹配过程变得更加清晰和可计算。计算的结果是相似系数,这是衡量文献与查询相关程度的关键指标。
我们依据相似系数来筛选文献,将相似系数超过一定值的文献作为检索结果输出。这就好比在茫茫书海中,通过一个精准的筛选器,快速地找出与我们需求最为契合的书籍。这种检索方式不仅提高了检索的效率,还提升了检索的准确性,能够让用户更快速、更精准地获取到所需的信息,在信息爆炸的时代,具有非常重要的应用价值。第11页
概率检索模型是信息检索模型中的重要一种,它建立在相关性理论基础之上。该模型认为,当文件按照相关概率递减的原则进行排列时,能够获得最大的检索性能。这就好比在一个大仓库里找东西,我们按照物品与需求的相关可能性从高到低去寻找,效率会更高。
基于对相关性的不同理解,可以建立不同的概率检索模型,进而导出不同的排序输出原则。这意味着在实际应用中,依据不同的场景和需求,我们可以灵活地选择合适的模型和排序方式,以达到最佳的检索效果。
相关性原理和排序原理构成了概率检索模型的理论核心。然而,在实际操作中,有关概率的计算及其数据来源却是该模型的技术难点。概率计算需要精准的数据和科学的方法,而数据来源的可靠性和全面性也直接影响着检索结果的准确性。就像建造一座高楼,核心理论是框架,但技术难点就是那些需要精心处理的细节,只有攻克这些难点,概率检索模型才能更好地发挥作用。第12页
在信息检索模型中,模糊检索模型是一种重要且独特的存在。它建立在模糊集合论、模糊逻辑及可能性理论的基础之上,其核心目的是处理信息检索过程中存在的各种不确定性。
我们知道,在实际的信息检索场景里,信息之间的关联并非总是清晰明确的,存在着大量模糊和不确定的情况。而模糊检索模型就像是一把精准的钥匙,能打开这扇充满不确定性的大门。它通过用0和1之间的数值t来表示文献论述标引词所达到的程度,巧妙地量化了这种不确定性。当t为0时,意味着文献与标引词完全不相关;当t为1时,则表示完全相关。并且t值越大,文献与标引词的相关性就越高,也就越容易被检索出来。
这种量化的方式,使得模糊检索模型在处理复杂、模糊的信息时具有显著优势。它能够更精准地捕捉信息之间的微妙联系,从而为用户提供更符合需求的检索结果,大大提高了信息检索的效率和准确性,在信息检索领域有着不可替代的重要作用。第13页
信息检索的发展历程中,手动信息检索阶段具有重要的开端意义。正规的参考咨询工作起源于19世纪下半叶美国的公共图书馆和大专院校图书馆。1876年美国图书馆协会第一届大会的召开,成为了“参考咨询工作”产生的标志性事件,这如同在信息检索的历史长河中点亮了一盏明灯,为后续的发展指引了方向。
到了1883年,波士顿公共图书馆又迈出了关键的一步,首次设置了专职参考馆员和参考阅览室。这一举措使得参考咨询工作有了专门的人员和场所,更加规范化和专业化,就像为信息检索的大厦奠定了坚实的基石。
手动信息检索阶段的发展,是信息检索从无到有、从模糊到清晰的重要过程。它为后续信息检索的进一步发展积累了宝贵的经验,也为机械信息检索、计算机信息检索等阶段的到来埋下了伏笔。这一阶段的发展,见证了人们对信息获取需求的不断增长,以及为满足这种需求而做出的不懈努力。第14页20世纪初,图书馆发展迎来重要阶段,多数图书馆成立参考咨询部门,借助书目工具,为读者查找图书、期刊或现成答案,这是信息检索服务的初步形态。到了40年代,服务范围进一步拓展,涵盖回答事实性咨询、编制书目文摘、开展专题文献检索和提供文献代译等工作,信息检索由此成为独立的用户服务工作,并逐渐从经验型向专业化转变。
这一转变带来了显著成果。大批高质量的文摘性检索工具被编制并投入使用,这些工具就像知识宝库的钥匙,帮助读者更高效地获取所需信息,提升了信息检索的效率和质量。同时,检索语言的创建和试验活动十分活跃,检索语言如同信息世界的通用密码,规范了信息的表达和检索方式,使得信息检索更加准确、便捷。
手工信息检索阶段的发展为后续信息检索技术的进步奠定了坚实基础,它让信息检索从简单的查找服务,逐步演变为一门专业的学问,为知识的传播和利用发挥了重要作用。第15页
信息检索的发展历程中,机械信息检索阶段有着独特的地位。该阶段存在两种基本类型的检索系统,一是机电信息检索系统,像打孔机、分类机这类;二是光电信息检索系统,主要运用缩微技术。
不过,机械信息检索也存在着明显的局限性。从信息检索语言方面来看,它没有推动信息检索语言的发展,这使得其在信息处理和匹配的精准度上大打折扣。它采用单一的方法对固定的存贮形式进行检索,就好比用一把钥匙去开所有的锁,缺乏灵活性和多样性。而且,它过分依赖于设备,一旦设备出现故障或者维护不当,检索工作就会受到严重影响。再者,机械信息检索的操作过程复杂,需要专业人员花费大量的时间和精力去完成,这不仅导致成本较高,还使得检索效率和质量都不理想。可以说,机械信息检索虽然在信息检索发展历程中迈出了重要一步,但也为后续计算机信息检索等更先进阶段的发展提供了改进的方向。第16页
计算机信息检索阶段包含脱机批处理检索、联机实时检索和联机网络化信息检索三个重要阶段。脱机批处理检索时期为1954-1964年,此阶段存在显著局限性,即无法对检索策略进行及时调整。这意味着在检索过程中,一旦初始策略出现偏差,很难根据实际情况做出快速修正,可能导致检索效率低下,甚至无法获取到所需的准确信息。
到了1965-1975年的联机实时检索时期,高密度海量随机存储器——磁盘及磁盘机问世并投入使用,这一重大技术突破使得信息检索进入了人机对话式的联机实时检索时期。用户能够与检索系统实时交互,根据检索结果及时调整策略,极大地提高了检索的灵活性和效率。1975-1990年是联机网络化信息检索阶段,出现了DIALOG、ORBIT、OCLC等系统。这些系统利用网络技术,实现了信息资源的共享和整合,用户可以在更广泛的范围内获取信息,进一步推动了信息检索的发展。这三个阶段的演进,反映了计算机技术和网络技术的不断进步,也体现了信息检索从简单到复杂、从低效到高效的发展历程。第17页
网络信息检索阶段带来了信息处理、结构和系统功能的显著变革。信息处理从传统模式向新型模式转变,这意味着我们获取和利用信息的方式发生了质的飞跃。以往的信息处理模式可能较为局限,而新型模式则更加高效、灵活。
信息结构从结构化发展到非结构化,这是一个重要的趋势。结构化信息通常具有明确的格式和规则,而非结构化信息则更加多样化,如文本、图像、音频等。这种转变使得信息的来源更加广泛,也为我们挖掘信息价值提供了更多的可能性。
系统功能从单纯信息检索发展到综合信息管理和服务。这表明我们不再仅仅满足于找到所需的信息,还希望能够对信息进行有效的管理和利用。例如,我们可以通过信息管理系统对信息进行分类、整理和分析,从而更好地支持决策。
在这个阶段,新兴的基于Web的搜索引擎系统得到了广泛应用,它为我们提供了便捷的信息检索方式。同时,传统的联机检索系统、各类数据库检索系统及其信息服务业务也逐渐向具有分布式网络结构特性的Web平台转移。这种转移使得信息资源更加集中和共享,提高了信息检索的效率和质量。总之,网络信息检索阶段为我们带来了更加丰富和便捷的信息体验。第18页
手工信息检索具有多种实用工具,每种工具都有独特的作用和价值。目录是对图书或其他单独出版物进行规律化、系统化的记载,能让使用者快速了解出版物的整体情况,如同为我们打开了一扇通往知识宝库的大门,帮助我们在众多书籍中迅速定位所需。
索引则是把书刊里的具体内容按特定方式摘录并注明出处,方便我们精准查找特定信息,就像在复杂的迷宫中设置了清晰的路标,大大提高了检索效率。
文摘是由专业编者准确简要地摘录文献资料主要内容并分类排序而成,它能让我们在短时间内了解文献的核心要点,如同给我们提供了知识的精华版,节省了大量阅读时间。
年鉴以描述和统计的方式逐年提供某领域信息,能让我们清晰把握该领域的发展动态和趋势,是了解行业年度变化的重要窗口。
手册汇集某学科或业务部门的专门知识,就像一个知识百宝箱,在我们需要专业知识时能随时从中获取。
百科全书荟萃一切门类或某一门类知识,以概要方式介绍,是多功能的知识工具,能满足我们对广泛知识的初步了解需求,如同一位无所不知的智者,为我们提供全面的知识指引。第19页
手工信息检索工具的排检技术丰富多样,每种技术都有独特作用。字顺排检技术依据字、词顺序或规律系统排列检索工具内容,像字典按字母或笔画顺序编排,能让使用者快速定位所需信息,提高检索效率。
分类排检技术按学科或事物性质排列信息素材,如同将图书馆藏书按不同学科分类摆放,能让使用者从学科体系角度查找信息,把握信息的系统性和关联性。
主题排检技术采用规范化自然语言标识符号标引信息内容,以主题为线索检索信息,不受学科分类限制,能灵活检索跨学科主题相关信息。
时序排检技术按时间顺序组合信息素材,常用于编制年表、年谱等检索工具,能让使用者清晰了解事物发展脉络和历史演变过程。
地序排检技术按一定时期行政区域排列信息素材,方便使用者查找特定地区相关信息,适用于研究地域特色或区域发展的情况。这些排检技术各有优势,相互补充,能满足不同的检索需求。第20页
手工信息检索存在多种方法,每种方法都有其独特的优势和适用场景。顺查法以信息检索课题起始年代为起点,沿着时间顺序由远而近查找信息。这种方法能全面、系统地获取相关资料,适合对课题历史演变进行深入研究的情况,有助于把握课题发展的全貌。
倒查法与顺查法相反,它逆时间顺序由近而远查找信息。该方法能快速获取最新的研究成果和信息,适用于需要了解课题最新动态、追踪前沿研究的场景。
抽查法针对研究课题发展特点,抓住学科发展迅速、发表文献较多的年代进行查找。此方法能高效地获取关键时期的重要文献,节省查找时间,适用于对研究课题已有一定了解,希望聚焦关键阶段的情况。
追溯法,也叫回溯法,以某一篇文献末尾所附的参考文献为依据,由近及远逐一追踪查找。通过这种方法可以深入挖掘课题的研究脉络,找到一些被广泛引用的经典文献,对于了解课题的起源和发展具有重要意义。
循环法先利用检索工具查出一批有用文献,再利用这些文献末尾所附参考文献的线索进行追溯查找。它结合了检索工具和参考文献的优势,能更全面、深入地获取相关信息,适用于对课题进行全面、深入研究的情况。第21页
机械信息检索技术与方法中,包含机电信息检索系统和光电信息检索系统。机电信息检索系统是在发展历程中,继手检穿孔卡片之后出现的。机检穿孔卡片和选卡机的诞生,标志着机电信息检索系统的形成。这一系统的出现,是信息检索技术发展的一个重要阶段,它让信息检索朝着机械化的方向迈进了一步,相比手检穿孔卡片,在效率和准确性上都有了显著提升。
光电信息检索系统主要以缩微胶卷(片)检索方式呈现。缩微胶卷(片)有着独特的优势,它能在有限的空间存储大量信息。其检索方式大致分为寻址检索方式和编码检索方式。寻址检索方式就像是精准定位,能快速找到所需信息的位置;而编码检索方式则是通过特定的编码规则来查找信息,具有系统性和规范性。这两种检索方式为信息的查找提供了更多的途径和方法,丰富了光电信息检索系统的功能,也满足了不同用户对于信息检索的多样化需求。第22页
联机信息检索是信息用户借助终端设备,通过通讯网络与全球各地的信息检索系统联机,开展人机对话,进而从数据库中查找所需信息的过程。它具有显著的优势。检索速度快,能让用户在短时间内获取信息,大大提高了工作和学习效率。检索范围广且全面,几乎涵盖了各个领域的信息,满足不同用户的多样化需求。检索途径多、质量高,用户可以从多个角度查找信息,获取的信息也更具权威性和可靠性。检索内容新、实时性强,能及时反映最新的研究成果和社会动态。其检索辅助功能完善,使用方便,输出方式也灵活实用,为用户提供了良好的使用体验。
然而,联机信息检索也存在一些缺陷。主机负担重,一旦出现故障,整个网络就会瘫痪,导致用户无法正常检索信息。信息组织方式以线性为主,不够灵活,限制了用户对信息的获取和利用。此外,它不像Internet那样面向最终用户,操作也没有后者方便,这在一定程度上影响了用户的使用意愿。第23页
联机信息检索系统由检索服务机构、国际通讯网络及终端三部分构成。检索服务机构是信息的提供者和管理者,负责收集、整理和存储大量的信息资源;国际通讯网络则是连接用户与检索服务机构的桥梁,确保信息能够在全球范围内快速、准确地传输;终端是用户与系统交互的界面,用户通过终端向系统发出检索请求,并获取检索结果。
从技术原理上看,一个典型的计算机信息系统能完成数据收集、分析、加工处理、存储、传递通信和检索信息的全过程。这意味着系统能够对海量的数据进行高效的管理和利用,为用户提供准确、及时的信息服务。
联机信息检索的服务方式丰富多样。定题信息提供能根据用户预先设定的主题,定期为用户提供相关的最新信息;专题回溯检索可让用户对特定专题的历史信息进行全面的查找;联机订购原文使用户能够直接获取所需文献的原文;电子邮件则方便了用户与检索服务机构之间的沟通和信息传递。这些服务方式能够满足不同用户在不同场景下的信息需求,提高信息检索的效率和质量。第24页
光盘信息检索具有诸多显著特点。一方面,使用光盘检索系统能够免除联机检索系统所必需的电讯设备,这不仅节省了电讯费和联机系统使用费,还避免了通信线路传输过程中可能出现的失误,为用户带来了更稳定、更经济的检索体验。而且,光盘系统会随盘向用户提供具备联机信息检索系统功能的软件,还提供菜单驱动与命令驱动两种方式,方便不同使用习惯的用户操作。
另一方面,光盘本身存贮容量大、耐用且复制费用低,还能将文本、图形、图像、声音及动态形象结合在一起,极大地丰富了信息呈现形式。
然而,光盘信息检索也存在一定的局限性。如果光盘数据库量不够多,信息资源就会显得有限,但购买大量光盘数据库又会受到经费的限制。并且,在信息需求的适时性上,光盘检索不如联机检索系统,因为光盘只能定期提供,这在一定程度上影响了信息获取的及时性。此外,数据库费用大也是一个不可忽视的问题。总体而言,光盘信息检索有其优势,但也需要我们在使用时综合考虑其局限性。第25页
光盘信息检索系统由微机、驱动器及连接设备、CD-ROM数据库(光盘)及其检索软件构成。其中,驱动器的性能对检索效果有重要影响,在选择时需着重考量以下几个方面。
驱动器的速度一般在185ms~500ms之间,此速度影响光盘信息检索系统的整体运行效率,速度越快,系统响应越及时。查找速度通常在250ms~400ms之间,它关乎从光盘海量数据中定位所需信息的快慢,查找速度快,能让用户更迅速获取信息。
数据缓冲区大小也至关重要,其越大,可直接从存储器存取的数据就越多,进而节省查询时间,提升检索效率。此外,数据传送速度也是关键因素,驱动器有单速、双速乃至40倍速以上等不同规格,更高的倍速意味着能在更短时间内完成数据传输,为用户带来更流畅的检索体验。
综合考虑以上驱动器性能因素,才能选择出最适合的驱动器,充分发挥光盘信息检索系统的优势。信息组织是指按照一定的规则来描述信息资源或信息对象,以便于能被需要它们的人高效地利用。信息检索则是指为了个人或他人的需要,去发现适当的信息资源或信息对象。信息组织和信息检索是一对互逆过程。
6信息检索
6.1.1信息检索的涵义满足信息用户的信息需求而建立的、存贮经过加工了的信息集合,拥有特定的存贮、检索与传送的技术装备,提供一定存贮与检索方法及检索服务功能的一种相对独立的服务实体(包括人和检索工作单位),统称为信息检索系统(InformationRetrievalSystem,简称IRS)。信息检索系统的三个基本要素:
人、检索工具(包括设备)和信息资料6.1信息检索的基本概念与原理潜在的相关信息信息组织和检索系统规范化的疑问式信息的组织概述的存贮比较/匹配索引(描述性的、受限制的)游戏规则=主题索引规则+辞典(包括词汇表和索引语言)需求概述或疑问式信息或数据检索流程组织流程存贮1:概述/搜索请求存贮2:信息的表示6.1信息检索的基本概念与原理图6-1信息检索系统体系结构按存贮和检索的内容划分
①文献检索①文本检索。
②数据检索②数值检索。
③事实检索③音频与视频检索。
按检索系统中信息的组织方式划分
①全文检索②多媒体检索③超媒体检索6.1.2信息检索的类型与特性信息检索的特性信息检索的相关性
信息检索时规定的一篇正文与表示信息提问的另一篇正文的符合程度。相关性表明用户是否认为一文献与一提问吻合。信息检索的不确定性
标引的不确定性是指不同标引员在给同一篇信息对象进行标引时会选用不同的标引词,即标引词选用的不一致性。信息检索的逻辑性检索语言、检索策略6.1.2信息检索的类型与特性6.1.3信息检索的基本原理(1)信息资源集合(2)信息需求集合(3)匹配与选择布尔逻辑检索模型
(BooleanRetrievalModel,简称BRM)向量空间检索模型
(VectorRetrievalModel,简称VRM)概率检索模型
(ProbabilityRetrievalModel,简称PRM)模糊检索模型
(FuzzyRetrievalModel,简称FRM)6.1.4信息检索的模型(1)布尔逻辑检索模型是一种比较成熟、较为流行的检索技术。逻辑检索的基础是逻辑运算
布尔逻辑运算符:
与(and/*)、或(or/+)、非(not/-)AandB(A*B):同时含有A、B这两个检索词才能被命中AorB(A+B):只要含有其中一个检索词或同时含有两个检索词都将被命中AnotB(A-B):含有检索词A但不含有检索词B才能被命中6.1.4信息检索的模型(2)向量空间检索模型基本前提是将文献和查询用向量表示,这样将文献与查询的匹配问题转化为一个关于向量空间的计算问题计算的结果是相似系数,将相似系数超过一定值的文献作为检索结构输出6.1.4信息检索的模型(3)概率检索模型建立在相关性理论基础上,当文件按相关概率递减原则排列时可以获得最大的检索性能。基于对相关性的不同理解客建立不同的模型,由此可导出不同的排序输出原则相关性原理及排序原理是该模型的理论核心,有关概率的计算及其数据来源是PRM的技术难点6.1.4信息检索的模型(4)模糊检索模型建立在模糊集合论、模糊逻辑及可能性理论基础上来处理各种不确定性的模型将文献论述标引词所达到的程度用0和1之间的数值t来表示,0为不相关,1为完全相关,t越大,则相关性越高,被检索出来的可能性就越大6.1.4信息检索的模型6.2.1手动信息检索阶段正规的参考咨询工作是由美国的公共图书馆和大专院校图书馆于19世纪下半叶首先发展起来的。“参考咨询工作”产生的标志是1876年召开的美国图书馆协会第一届大会。1883年,波士顿公共图书馆首次设置了专职参考馆员和参考阅览室;6.2信息检索的发展历程20世纪初,多数图书馆成立了参考咨询部门,主要利用图书馆的书目工具来帮助读者查找图书、期刊或现成答案。
40年代进一步包括回答事实性咨询,编制书目、文摘,进行专题文献检索,提供文献代译等。“信息检索”从此成为一项独立的用户服务工作,并逐渐从单纯的经验工作向专业化方向发展。成果:第一,大批高质量的文摘性检索工具陆续被编制并投入使用。第二,检索语言的创建和试验活动十分活跃6.2.1手工信息检索阶段6.2.2机械信息检索阶段机械信息检索两种基本类型机电信息检索系统(打孔机、分类机)光电信息检索系统(缩微技术)机械信息检索并没有发展信息检索语言,只是采用单一的方法对固定的存贮形式进行检索,而且过分依赖于设备,检索复杂,成本较高,检索效率和质量都不理想。脱机批处理检索(Off-lineBatchProcessing,1954-1964年)不能对检索策略进行及时调整联机实时检索(On-lineRealTime,1965-1975年)高密度海量随即存储器——磁盘及磁盘机的问世和投入使用,信息检索进入了人机对话式的联机实时检索时期联机网络化信息检索(1975-1990年)DIALOG、ORBIT、OCLC等6.2.3计算机信息检索阶段信息处理从传统模式向新型模式的转变,信息结构从结构化发展到非结构化,系统功能从单纯信息检索发展到综合信息管理和服务一方面,新兴的机遇Web的搜索引擎系统得到日益广泛的应用,另一方面,传统的联机检索系统、各类数据库检索系统及其信息服务业务,也逐渐扩展、转移到具有分布式网络结构特性的Web平台上6.2.4网络信息检索阶段6.3.1手工信息检索的技术与方法
(1)手工信息检索工具
目录:图书或其他单独出版物规律化、系统化的记载索引:把一种或多种书刊里的具体内容按一定的方式分别摘录,并注明出处,以便检索的一种工具文摘:把文献资料的主要内容,由有一定水平和经验的编者将其准确简要地摘录出来,并注明出处后,经分类排序而编制成的检索工具年鉴:以描述和统计的方式逐年提供某年度某一领域信息的工具书手册:汇集某一学科领域或业务部门专门知识的工具书百科全书:荟萃一切门类或某一门类知识、以概要方式介绍为主的多功能工具书6.3信息检索的技术与方法(2)手工信息检索工具的排检技术字顺排检技术:将检索工具的内容按字、词的一定顺序或规律,有系统地组织排列起来的技术。分类排检技术:将信息素材按学科或事物性质系统地加以排列。主题排检技术:以规范化的自然语言为标识符号来标引信息内容的排检技术。时序排检技术:按时间的顺序组合信息素材的技术,多用于编制年表、年谱等检索工具。地序排检技术:按一定时期的行政区域来排列信息素材的技术。
6.3.1手工信息检索的技术与方法(3)手工信息检索方法
顺查法:一种以信息检索课题起始年代为起点,按时间顺序由远而近地查找信息的方法。倒查法:一种逆时间顺序由近而远地查找信息的方法。抽查法:一种针对研究课题发展的特点,抓住学科发展迅速、发表文献较多的年代进行查找的方法。追溯法:又叫回溯法,是以某一篇文献末尾所附的参考文献为依据,由近及远进行逐一追踪的查找方法。循环法:先利用检索工具查出一批有用文献,然后再利用这些文献末尾所附参考文献的线索进行追溯查找。6.3.1手工信息检索的技术与方法机电信息检索系统继手检穿孔卡片之后,出现了机检穿孔卡片和选卡机。这就形成了机电信息检索系统。光电信息检索系统主要是以缩微胶卷(片)检索方式出现的。缩微胶卷(片)的检索方式大致可以分为两种类型:①寻址检索方式②编码检索方式6.3.2机械信息检索的技术与方法(1)联机信息检索
信息用户利用终端设备,通过通讯网络与世界各地的信息检索系统联机,进行人机对话,从检索系统的数据库中查找出用户所需信息的全过程。优点:①检索速度快;②检索范围广而全面;③检索途径多、质量高;④检索内容新、实时性强;⑤检索辅助功能完善、使用方便,检索结果输出方式灵活、实用。缺陷:①主机负担重,一旦出现故障,则整个网络都将瘫痪;②信息组织方式以线性为主,不够灵活;③联机检索不像Internet是面向最终用户的,操作也没有后者方便。6.3.3计算机信息检索的技术和方法联机信息检索系统的结构:由检索服务机构、国际通讯网络及终端三部分构成。联机信息检索的技术原理:一个典型的计算机信息系统,能完成数据收集、分析、加工处理、存储、传递通信和检索信息的全过程。联机信息检索的服务方式:a定题信息提供b专题回溯检索c联机订购原文d电子邮件6.3.3计算机信息检索的技术和方法(2)光盘信息检索
特点:
使用光盘检索系统,可免除联机检索系统所必须使用的电讯设备,节省了电讯费和联机系统使用费,还可免除由通信线路传输过程中所造成的失误光盘系统向用户随盘提供相当于联机信息检索系统功能的软件,并提供菜单驱动与命令驱动两种方式光盘存贮容量大、耐用、复制费用低可以把文本、图形、图像、声音及动态形象结合在一起如果光盘数据库量不够多,则信息资源就显得有限,购买大量光盘数据库,又要受到经费限制在信息需求的适时性上,光盘检索不如联机检索系统,因为光盘只能定期提供数据库费用大6.3.3计算机信息检索的技术和方法(2)光盘信息检索光盘信息检索系统由微机、驱动器及连接设备、CDROM数据库(光盘)及其检索软件构成。选择驱动器时主要考虑以下性能:a速度:一般在185ms~500ms之间b查找速度:一般在250ms~400ms之间c数据缓冲区越大,可直接从存储器存取的数据就越多,节省查询时间d数据传送速度:有单速、双速乃至40倍速以上的驱动器6.3.3计算机信息检索的技术和方法特点:信息量更大需要处理各种不同的语言(大多是自然语言)信息检索的范围更宽(多学科、多领域)信息查询的时效性要求更高检全率较高,而检准率较低网络信息检索模式有两层含义:广义理解狭义理解6.3.4网络信息检索的技术与方法6.4.1信息检索的步骤(1)分析研究信息检索课题
明确信息检索课题所涉及的领域和范围;明确所需信息的内容及其内容特征;明确所需信息的类型,包括文献媒体、出版类型、所需文献量、年代范围、涉及的语种、有关著者及机构明确信息检索课题对查新、查准和查全的指标要求6.4信息检索的步骤与策略(2)选择信息检索工具信息检索工具是人们为了充分、准确、有效地利用已有的信息资源而加工编制的用来报道、揭示、存贮和查找信息资源的卡片、表册、计算机信息系统和特定出版物。指示线索型检索工具(二次文献)提供具体信息的工具书(三次文献)6.4.1信息检索的步骤(3)确定信息检索方法
每一种信息检索方法都有自己的特点,在实践中可以根据信息检索要求选择使用或配合使用,以快速、准确地完成信息检索任务,实现预期的目标。常用的信息检索方法:顺查法倒查法抽查法追溯法循环法6.4.1信息检索的步骤(4)掌握获取原始信息的线索
在获取信息线索时要仔细阅读,判断所检出的信息是否符合检索的要求,不仅看篇名,还要阅读整个著录格式,进行综合分析。6.4.1信息检索的步骤(5)获取原始信息
判断文献的出版类型。根据文献出处中已有的信息,判断其出版类型。整理文献出处。将文献出处中有缩写语、有音译刊名的还原成全称或原刊名。根据出版类型在图书馆或信息机构查找馆藏目录或联合目录确定馆藏,原则上说应该按“由近及远”的顺序逐步扩大查找馆藏的范围。尽可能多渠道、多方式地获取原始信息。6.4.1信息检索的步骤信息检索策略是针对检索提问、运用检索方法和技术而设计的信息检索方案,其目的是要达到一定的查全率和查准率。信息检索策略制定是要确定每一个步骤中的具体问题,并选择优化的方案,取得优良的检索效果对特定系统、特定数据以及某一类型课题的检索策略的研究具体表现在以下两方面:(1)是某一系统、某一数据库检索策略;
(2)是某一类型课题检索策略。在检索表达式重构专家系统中,把知识库分为领域知识库和规则库。6.4.2信息检索策略信息检索语言是根据信息检索需要创制的一种人工语言,是信息检索系统存储和检索信息时共同使用的一种约定性语言,以达到信息存储和检索的一致性,提高检索效率。检索语言突出的特点是:具有必要的语义和语法规则;具有表达概念的唯一性;具有检索标识和提问特征进行比较和识别的方便性;既适用于手工检索系统,也适用于计算机检索系统。6.4.3信息检索语言6.4.3信息检索语言文献信息主题用户信息主题信息检索语言标引标识检索标识检索系统检索结果主题分析主题分析信息存储信息检索图6-3信息检索语言的作用6.4.3信息检索语言图6-4信息检索语言类型检索效率是指全、准、快、便、省(检全率、检准率、检索速度、检索方便性、检索成本与效益),最主要的是全
和准。在评价信息检索效率过程中,主要通过检全率、检准率、漏检率和误检率四个评价指标进行评价,其中重点是检全率和检准率。6.4.4信息检索效率的评价查全率是指系统在进行某一检索时,检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实有的相关文献量在多大程度上被检索出来
查全率=(检出的相关文献量/文献库内相关文献总量)×100%6.4.4信息检索效率的评价影响查全率的因素信息收集和加工的角度来看,包括:文献库收录文献不全;索引词汇缺乏控制和专指性;词表结构不完整;词间关系模糊或不正确;标引不详;标引前后不一致;标引人员遗漏了原文的重要概念或用词不当从检索方面来看,包括:检索策略过于简单;选词和进行逻辑组配不当;检索途径和方法太少;检索系统不具备截词功能和反馈功能,检索时不能全面描述检索要求等6.4.4信息检索效率的评价查准率是指系统在进行某一检索时,检出的相关文献量与检出的文献总量的比率,它反映该系统文献库中实际检出的全部文献中有多少是相关的
查准率=(检出的相关文献量/检出文献总量)×100%6.4.4信息检索效率的评价影响查准率的因素信息收集和加工的角度来看,包括:索引词不能准确描述文献主题和检索要求;组配规则不严密;选词及词间关系不正确;标引过于详尽;组配错误从检索方面来看,包括:检索词专指度不够,检索面宽于检索要求;检索系统不具备逻辑“非”功能和反馈功能;检索式中允许容纳的词数量有限;截词部位不当,检索式中使用逻辑“或”不当等6.4.4信息检索效率的评价图6-5检全率与检准率的互逆相互曲线1008040601008040202060检
全
率
%
R检准率%P6.4.4信息检索效率的评价③
作为查全率的补数,漏查率O(OmissionRatio)的计算方法为:Omission=未检出的相关文献量/检索系统中的相关文献总量
④
作为查准率的补数,误查率E(ErrorRatio)的计算方法为:Error=检出的非相关文献量/检出的文献总量
显然,查全率、查准率与漏检率、误检率之间存在以下关系:Recall+Omission=1Precision+Error=16.4.4信息检索效率的评价6.5.1网络信息检索的特点(1)信息丰富,检索空间拓宽(2)信息资源的异构式分布(3)检索趋于简单方便,适合非专业用户6.5网络应用:网络信息检索(1)非web资源检索工具①FTP类的检索工具。②Telnet类的检索工具。③
基于菜单式的检索工具。(2)Web资源检索工具①
关键词检索工具。即搜索引擎②
目录型检索工具。③
混合型检索工具。6.5.2网络信息检索工具FTP类检索工具——Archie基于菜单式的检索工具——Gopher关键词搜索工具——AltaVista目录型搜索工具——雅虎
搜索引擎(SearchEngine)是一种在互联网上提供给用户进行关键词、词组或自然语言检索信息的工具。最早的信息检索工具:FTP类检索工具随着万维网(WorldWideWeb)的进一步发展,“机器人(Robot)”一词变得流行起来1994年前后,网络上出现了最早一批搜索引擎系统。采取关键词
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山西省临汾市侯马市2025-2026学年八年级上学期期末语文试题(含答案)
- 2026年企业文化建设与员工培训的模拟题
- 2026年女性健康知识普及及两癌防治知识进社区活动专项测试题
- 2026年社会服务改进与创新方法论题库
- 2026年工程管理正高级职称考试建设工程成本动态控制
- 2026年成都市金牛区小升初考试题库
- 2026年广电网络面试OFFER收割者备考策略
- 2026年商业策略与投资职业面试解析
- 2026年文明城市创建交通路口文明引导志愿服务题库
- 2026年国家自然科学基金申报与评审要点题库
- 2026年上海市闵行区初三下学期二模数学试卷和答案
- 防范银狐木马病毒与补贴诈骗信息课件
- (二模)南昌市2026届高三年级四月检测英语试卷(含答案)
- 2026福州鼓楼攀登信息科技有限公司招聘1人笔试历年参考题库附带答案详解
- 河南省活性炭码上换监管预警系统-20260415
- 2026年山东春考《艺术设计类专业知识》模拟试题及答案解析
- 2026年事业单位公开招聘考试(综合类)试题与答案
- 工地二十四小时工作制度
- 2026年统编版二年级道德与法治下册每课教学设计
- 六化建设培训
- 2025年西藏拉萨市检察院书记员考试题(附答案)
评论
0/150
提交评论