版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Information Retrieval 2022-5-242第一章第一章 信息检索基础信息检索基础一信息检索概述一信息检索概述 1 信息检索原理信息检索原理 广义 狭义2022-5-243 所谓信息检索,广义地说,是指将信息按照一定的方式组织和存储起来,并能根据信息用户的需要指出其中相关信息的过程,因此它的全称又叫“信息存储与检索”。2022-5-244 狭义地说,大多数人讲到信息检索时,一般只涉及取,即主要关注如何从存储的信息集合中快速获取各种需要的信息。 ()信息替代 对信息进行替代的过程,实际上是对信息的外部特征(包括题名、著者、出处等)和内容特征进行描述的过程,这项工作被称为著录。
2、 ()信息整序 就是把众多的替代信息按照代表信息特征的标记进行排列的过程。具体地说就是对信息进行标引,给出信息标识,并编制各种类型的索引的过程。 信息整序可分为形式整序和内容整序两类。它们是根据代表信息外在属性的标识(如著者姓名、题名、序号等)和内在属性的标识(如分类号、主题词等)排列信息的。如以信息的著者姓名为标识,可以把所有信息按照著者姓名的字顺排列起来。用户只要知道著者姓名,就可以按著者姓名字顺的信息序列中(著者索引)查到所需信息。 ()信息特征标识与检索提问标识的匹配 实际上就是将标识员对信息内容的表达(信息特征标识)与检索者对信息需要的表达(检索提问标识)进行相符性比较的过程。信息检
3、索就是通过信息特征标识与检索提问标识的匹配来实现的 为了实现这一匹配,标引员的标引用语和检索者的检索用语必须采用一种共同的语言,这就是检索语言。 检索语言沟通了信息的存储和检索两个过程,是标引员和检索者双方思想的桥梁,是检索工具或检索系统的重要组成部分。 2 信息检索类型信息检索类型 检索对象的形式检索对象的形式 文献检索、数据检索、事实检索、多媒体检索 文献检索是以文献(包括文摘、题录或全文)为检索对象的信息检索。文献检索是信息检索的主要形式,文献检索是一种相关性检索,即不直接解答用户所提出的技术问题本身。 2022-5-2418数据检索以具有数量性质,并以数值形式表示的数据为检索目的和对象
4、,检索的结果是经过测试、评价过的各种数据。数据文件组织方式不同,数据检索的技术方法亦不同。对于顺序结构文件,常见方法有顺序检索、分块查找法、两分检索等。对于随机结构文件,常采用直接地址法、杂凑(hash)法等。地理信息系统中空间数据检索常涉及目标空间分布范围(行政区域、地理范围或空间关系等)及目标属性类型(地形高度、坡度、土地利用现状等)两个方面的综合条件。因此,数据信息检索是一种确定性检索(系统要直接回答用户提出的技术问题,即直接提供用户所需要的确切的数据或事实)。例如,查找各种物质的物理化学常数、各种统计数据和工程数据等属于数据检索的范畴。事实检索以事项为检索的目的和对象,检索的结果是有关
5、某一事物的具体答案,因此,事实信息检索是一种确定性检索。但事实信息检索过程中所得到的事实、概念、思想、知识等非数值性信息和一些数值性信息须进行分析、推理,才能得到最终的答案,因此要求检索系统必须有一定的逻辑推理能力和自然语言理解功能。例如,要想得到中国发明专利历年的申请案中,国外来华申请历年所占的百分比是多少这一事实信息,就需要对历年的数据进行统计,然后进行比较分析,才能得出具体答案。多媒体信息检索是指根据用户的要求,对文本、图形、图像、音频、视频等多媒体信息进行识别和获取所需信息的过程。但多媒体信息检索系统并不是简单地对多种媒体进行检索,它必须既能对以文本信息为代表的连续媒体的内容进行检索,
6、也能对以图像、声音为代表的连续媒体的内容进行检索。目前,从涉及的信息角度看,可分为基于文本和基于内容的两种多媒体信息检索方式。 检索手段检索手段 手工信息检索、计算机信息检索 手工信息检索即通过手工进行的信息检索,它主要利用各种印刷型检索工具,如书本式目录、索引、文摘及参考工具书等等来进行信息检索与查询。2022-5-2430检寻图书资料的一种工具。将书刊中的内容或项目分类摘录,标明页数,按一定次序排列,附在一书之后,或单独编印成册,以便读者查阅。旧称通检或备检。也称引得。如:十三经索引;二十四史纪传人名索引;古今人物别名索引。 这种方式不需要更多的设备,不受时间、地点限制,检索者只要有手工检
7、索工具即可。计算机检索是通过计算机来模拟人的手工检索过程,由计算机来处理检索者的检索提问,将检索者输入检索系统的检索提问(即检索标识)按检索者预先制定的检索策略与系统文档(机读数据库)中的存贮标识进行类比、匹配运算,通过“人机对话”检索出所需要的信息。一般说来,一个计算机信息检索系统应由三部分构成:计算机硬件、计算机软件、数据库。目前计算机信息检索主要有联机信息检索、光盘信息检索、网络信息检索等。 3 信息检索发展历史信息检索发展历史 手工信息检索阶段手工信息检索阶段 机械信息检索阶段机械信息检索阶段 计算机信息检索系统阶段计算机信息检索系统阶段 2022-5-2437手工信息检索手工信息检索
8、 信息检索直接发源于文摘索引工作文摘索引工作和参考咨询工作参考咨询工作。文摘工作的历史可以追溯到远古时代。2022-5-2438 文摘和索引工作,(都是二次文献)从编辑、出版和基本目的几个方面来看有许多共性。两者之间主要差别在于包含的情报内容。 索引刊物只提供文献资料出处,文摘刊物除此之外,还提供专业内容。文摘是重要的,但从利用方面来说,不见得它就一定比索引好 在大多数情况下,没有文摘的索引刊物往往具有很好的及时性。这与文摘所能提供的对文献内容的揭示具有几乎同等的重要意义。这就是为什么在同一专业领域内,文摘和索引工作往往是长期共存的原因所在。 根据研究文摘历史的专家弗西斯威蒂(Francis
9、J. Witty)介绍,一种用途类似于文摘的工具首先出现在公元前两千年美索不达米亚人用楔形文字写成的文献的陶制封套上。我国最早带有内容摘要的图书目录是西汉刘向、刘歆父子整理编撰的别录和七略。古代使用文摘的人有学者、政治家,还有教皇和僧侣。 机械信息检索阶段分为机械信息检索阶段分为 机电信息检索系统:使用诸如打孔机、验孔机、分类机等机电设备记录二次文献,用电刷作为检索元件的信息检索系统。 电刷在电机旋转部分与静止部分之间传导电流的主要部件之一。具有良好的滑动接触特性(如摩擦系数、耐磨性等),对电阻率和接触电阻等也有特殊要求,通常以石墨为主要原材料。 光电信息检索系统:使用缩微照相记录二次文献,以
10、胶卷或胶片边缘部分若干黑白小方块的不同组合做检索标志,利用光电检索元件查找文献的检索系统。计算机信息检索计算机信息检索 起源于20世纪50年代初,1954年美国海军兵器中心图书馆利用IBM701机开发计算机检索系统,它标志着计算机信息检索阶段的开始,计算机信息检索可以分成四个发展阶段。第一阶段:脱机检索阶段。 20世纪50-60年代是脱机检索的试验和实用化阶段。批式检索是这个阶段信息检索的主要方式, 著名的脱机检索系统有美国国家医学图书馆的MEDLARS,美国化学文摘社发行的化学题录机读磁带版等。这一阶段的数据存取与数据通信能力都比较差。 第二阶段:联机检索阶段。 20世纪60-80年代是联机
11、检索试验和实用化阶段。1960年美国麻省理工学院(MIT)开始实施有关联机检索系统设计的“技术情报计划”(TIP),系统发展公司(SDC)也在它开发的全文检索系统protosynthex上进行了首次联机检索演示, 该公司后来研制成功的联机信息检索软件OBIT是联机检索阶段的正式开始。著名的联机检索系统还有DIALOG系统(属于美国洛克希德公司,1988年被Knight-Ridder公司购并)等。 这个阶段的特点是联机数据库集中管理,具有完备的数据库联机检索功能,但其数据通信能力较差。 第三阶段:光盘检索阶段。 光盘检索阶段始于20世纪80年代中期。1985年世界上第一个CD-ROM数据库BIB
12、LIFILE的问世,是光盘检索系统实用化的标志。 这个阶段比较特殊。在发达国家,光盘检索是联机检索的支持和补充,但在通信技术不太发达的国家,由于它本身的优点,确实是用户获取信息的一个十分重要的手段。 第四阶段:网络检索阶段。 网络信息检索开始于20世纪90年代初。1991年思维机等公司、明尼苏达大学、欧洲高能粒子协会分别推出了因特网上的检索工具WAIS、Gropher和WWW。 目前,WWW因其集文本、图像、声音等多媒体信息于一体的巨大优点,已占信息服务的主导地位。 在该阶段,系统大多采用分布式的网络化管理,其信息资源的主要特点是:数字形式表达、多媒体和多载体、内容覆盖广、分布无序、难以规范化
13、和结构化、内容特征抽取复杂、用户界面要求高等。 这些特点导致了信息处理从传统模式向新型模式的转变,如体系结构从终端主机方式到客户、服务器结构方式,网络环境从局域网到Internet等开放网络, 应用接口从封闭界面到WWW等,信息结构从结构化到非结构化,系统功能从单纯信息检索到综合信息管理和服务等。 这些变化必将促使信息检索技术的不断发展,以满足人们对提高信息利用能力的需要。信息检索发展到今天,已经呈现联机检索、光盘检索和网络检索三者并存的局面。 4 信息检索发展趋势信息检索发展趋势信息检索智能化信息检索智能化智能化是信息检索未来的主要发展方向。智能检索是基于自然语言的检索形式,机器根据用户所提
14、供的以自然语言表述的检索要求进行分析,而后形成检索策略进行搜索。 2022-5-2466近年来,Internet上不断涌现的人工智能产品,如智能搜索引擎、智能浏览器、智能代理、知识共享智能体等,它们将提高网络信息检索的智能化程度,促进智能信息检索的发展信息检索可视化信息检索可视化信息检索中的可视化,是将数据库中不可见的语义关系用图像形式可视化显示,并表达用户检索过程。可视化信息检索包含两个方面:一个是检索过程的可视化,另一个是检索结果的可视化。检索过程的可视化是指用户在检索过程中各检索对象之间的关系以可视化的形式展现在用户面前,用户顺着可视化的检索画面一步一步地发现检索结果。信息检索专业化信息
15、检索专业化信息检索是指面向某一特定专业或学科领域,提供高质量的专业信息的检索。专业化信息检索需求的出现主要是因为网络信息资源越来越丰富,而综合性检索系统比如搜索引擎查找专业信息越来越困难,效率比较低,往往不能检索到高质量的专业信息。发展专业化检索将是未来的一个研究热点。专业化的信息检索将只涉及某一学科、某一领域的信息,信息相对集中,且其编制通常有本专业的人员参与,因此它不仅可以提高检索速度,还可以提高专指度,加大检索深度和检索力度,从而提高检全率和检准率。信息检索个性化信息检索个性化个性化是指各网站注重内容的特色化和注重个性化的服务内容。个性化服务的实质在于提供真正适应用户需要的产品。事实上,
16、网上已经开始出现专门收录某一领域信息的网站,尤其是在一些热门领域,如StockSite(http:/)提供股市分析文章、股票分析工具、公司研究文章及与商业和金融相关的新闻。 信息检索多语种化信息检索多语种化多语种信息检索将依然是未来网络信息检索的研究热点,现在对多语种信息检索的支持主要体现在预先设定检索语言,其检索结果也限制在预先设定的语言中。而使用某一种语言直接进行多语种检索,提供多语种的匹配结果将是多语种信息检索的下一个方向。这种单一检索界面的检索将在后台有一个多语种词库,对用户提交某一语种的检索词自动在词库中查找对应其他语种的检索词,再提交给搜索引擎,以多语种检索结果输出给用户。这种多语
17、种、多信息检索需要机器翻译技术的支持,并且需要对多语种检索得出的输出结果相关度或重要性排序进行研究。 5 信息检索的意义信息检索的意义二二 信息检索语言信息检索语言 2022-5-24801 检索语言概述检索语言概述1 .1检索语言的概念检索语言的概念2022-5-2481 检索语言是根据信息检索的需要而创制的人工语言,是应文献信息的加工、存储和检索的共同需要而编制的专门语言,2022-5-2482 是表达一系列概括文献信息内容和检索课题内容的概念及其相互关系的一种概念标识系统。 简言之,检索语言是用来描述信息源特征和进行检索的人工语言,可分为规范化语言和非规范化语言(自然语言)两类。1.2检
18、索语言的作用检索语言的作用 (1)标引文献信息内容及其外表特征,保证不同标引人员表征文献的一致性;2022-5-2486 (2)对内容相同及相关的文献信息加以集中或揭示其相关性; (3)使文献信息的存储集中化、系统化、组织化,便于检索者按照一定的排列次序进行有序化检索; (4)便于将标引用语和检索用语进行相符性比较,保证不同检索人员表述相同文献内容的一致性,以及检索人员与标引人员对相同文献内容表述的一致性; (5)保证检索者按不同需要检索文献时,都能获得最高查全率和查准率。n1.3检索语言的类型检索语言的类型 目前,世界上的信息检索语言有几千种,依其划分方法的不同,类型也不一样。 (1)按照标
19、识的性质与原理划分)按照标识的性质与原理划分 分类语言是指以数字、字母或字母与数字结合作为基本字符,采用字符直接连接并以圆点(或其他符号)作为分隔符的书写法,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念的一类检索语言。 主题语言是指以自然语言的字符为字符,以名词术语为基本词汇,用一组名词术语作为检索标识的一类检索语言。以主题语言来描述和表达信息内容的信息处理方法称为主题法。主题语言又可分为标题词、元词、叙词、关键词。 代码语言是指对事物的某方面特征,用某种代码系统来表示和排列事物概念,从而提供检索的检索语言。 例如,根据化合物的分子式这种代码语言,可以构成分子式索引系统,允许用户从分
20、子式出发,检索相应的化合物及其相关的文献信息。 (2)按照表达文献的特征划分)按照表达文献的特征划分 表达文献外部特征的检索语言主要是指文献的篇名(题目)、作者姓名、出版者、报告号、专利号等。 将不同的文献按照篇名、作者名称的字序进行排列,或者按照报告号、专利 号的数序进行排列,所形成的以篇名、作者及号码的检索途径来满足用户需求的检索语言。 描述文献外表特征的检索语言可简要概述为(图) 表达文献内容特征的检索语言主要是指所论述的主题、观点、见解和结论等 描述文献内容特征的检索语言(图) (3)按照组配方式划分)按照组配方式划分 先组式语言。指在文献信息检索之前,表达文献信息内容的标识已经事先组
21、配好了的信息检索语言。 后组式语言。指表达文献主题概念的标识,在编制检索语言词表和标引文献时,都不曾预先规定组配关系, 而是在进行检索时,用户根据检索需要,按照组配规则临时组配起来的信息检索语言。 (4)按照规范化程度分)按照规范化程度分 规范化语言又叫受控语言,是指人为地对标引词和检索词的词义进行控制和管理的语言。简单地说,规范化 语言是一种有主题词表或者分类表控制的检索语言,包括主题语言中的叙词、标题词和分类语言。 自然语言是直接从原始信息中抽取出来的未经规范化处理,用以揭示信息主题概念的自由词, 如关键词语言。它除一般的事物名称、科学术语外,还包括俗名、商品型号和缩写等, 具有不用编制词
22、表,及时跟上事物发展,准确表达事物新概念,选词灵活方便,专指性强,标引和检索速度快等优点,便于计算机检索。 2 分类检索语言分类检索语言 分类语言是一种按学科范畴和体系来划分事物的语言,它是以数字、字母符号对类目进行标识的一种语言体系,也称分类法。主要包括体系分类语言和组配分类语言两种。 1 体系分类语言体系分类语言 体系分类语言是以学科的分类为基体系分类语言是以学科的分类为基础,依据概念的划分和概括原理,把概础,依据概念的划分和概括原理,把概括文献内容与事物的各种类目组成一个括文献内容与事物的各种类目组成一个层层隶属、层层隶属、 详细列举的等级结构体系的一种文详细列举的等级结构体系的一种文献
23、分类法。体系分类语言又称等级列举献分类法。体系分类语言又称等级列举式分类法、枚举式分类法、等级分类法式分类法、枚举式分类法、等级分类法、展开式分类法等。、展开式分类法等。 其主要特点是按学科、专业集中文其主要特点是按学科、专业集中文献,并从知识分类角度揭示各类文献在献,并从知识分类角度揭示各类文献在内容上的区别和联系,提供从学科分类内容上的区别和联系,提供从学科分类角度检索文献的途径。角度检索文献的途径。 例例中国图书馆分类法中国图书馆分类法 2 组配分类语言组配分类语言 组配分类语言是依据概念的分析与综合原理,将概括文献内容与事物的主题概念组成“分面亚面类目”的结构体系,通过分面内类目之间的
24、组配来表达文献主题的一种文献分类法。 分面分类法又称组配式分类法、组面分类法、分析综合式分类法。分面分类法的代表冒号分类法、布利斯书目分类法(第二版)。 组配法具有极大的灵活性,优点很多,可归纳为下列3种主要作用:(1)增强信息检索语言的表达能力。5个简单概念的任意组合,包括简单概念本身在内,实际上可以表达31个主题概念。可见,组配法对信息检索语言的表达能力和及时反映新概念能力的增强,其作用是很大的; (2)增强信息检索语言的聚类能力。聚类能力即显示概念关系的能力。组配型标识,在先组散组式使用并进行轮排的情况下,可在一定程度上增强文献主题多向聚类能力;在后组式使用的情况下,则可充分使文献主题多
25、向聚类,在检索中可按任意专指度进行检索和方便地改变检索范围; (3)增强信息检索语言的匹配能力。组配型标识,后组式使用的情况下,可以充分发挥部分相符性比较的检索功能。一方面,可以使多个文献主题与一个检索课题相匹配,提高检全率;另一方面,可以使一个文献主题响应多个检索课题,提高文献利用率。 组配法的缺点有:(1)组配法的后组式使用不适合浏览性检索,“鸟瞰全貌,触类旁通”的功能在有些场合不如体系分类法和标题法; (2)组配标引句的含义不如先组定组式标识一目了然; (3)组配标引有一个分析与综合过程,有时较难,易出错; (4)读者不习惯组配检索等。所以,它也有个扬长避短,取长补短,继续改进的问题 3
26、 主题检索语言主题检索语言 主题检索语言又称主题法,就是将文主题检索语言又称主题法,就是将文献中的正题词作为标引对象,按主题词献中的正题词作为标引对象,按主题词的字顺序列组织文献,并用参照系统显的字顺序列组织文献,并用参照系统显示概念之间相互关系的信息处理方法和示概念之间相互关系的信息处理方法和信息检索方法信息检索方法 主题法是一种以字顺序列组织与揭示主题法是一种以字顺序列组织与揭示信息的方法,其真正发展历史已有信息的方法,其真正发展历史已有100多年。多年。 主题法的特点可以概括为:(1)按文献主题集中文献;(2)以规范化的词语作为文献主题概念的标识;(3)主要用参照系统显示主题概念之间关系
27、;(4)按主题词的字顺序列排列。主题法的显著特点在于直接性、专指性和集中性 标题词语言 单元词语言 叙词语言 关键词语言 4 自然语言自然语言 在手工检索条件下,信息检索中应用在手工检索条件下,信息检索中应用自然语言是很困难的,信息检索语言正自然语言是很困难的,信息检索语言正是为了克服这个困难而创制的。可是现是为了克服这个困难而创制的。可是现在在信息检索中应用自然语言却成为一在在信息检索中应用自然语言却成为一个重要的研究方向和发展趋势,个重要的研究方向和发展趋势, 这是由于信息检索计算机化的发展这是由于信息检索计算机化的发展使自然语言的应用成为可能。在信息检使自然语言的应用成为可能。在信息检索
28、中应用自然语言,其实质就是使用文索中应用自然语言,其实质就是使用文献作者原来所用的语词,或文摘编写者献作者原来所用的语词,或文摘编写者原来所用的语词,或标引人员自拟的而原来所用的语词,或标引人员自拟的而不是取自词表的语词来作为文献检索标不是取自词表的语词来作为文献检索标识。识。 信息检索中应用自然语言的优点在于信息检索中应用自然语言的优点在于可以取消费时、费力的标引工作,可以可以取消费时、费力的标引工作,可以降低标引工作的难度和成本,可以避免降低标引工作的难度和成本,可以避免由于文献分析标引的误差和信息检索语由于文献分析标引的误差和信息检索语言的粗化造成的标识表达文献主题的失言的粗化造成的标识
29、表达文献主题的失真。真。5 检索语言的发展趋势检索语言的发展趋势 1 分类法主题法一体化分类法主题法一体化 从情报语言学的角度看,分类法和主题法的基本原理是一致的,只是由于它们在表达各种概念及其相互关系时,在解决对它们提出的那些共同要求时所采用的方法不同,因而形成了在结构和性能上的差别。 它们性能上的差别正好形成了一种互补关系,故两者应当并存,而不能互相取代。因此,信息检索语言的研究者一直在探讨两者结合即一体化的最佳方案。国外已经出现的一些一体化类型,证明都优于各自的原型。 分类法主题法一体化的优越性在于:(1)文献标引工作可以一次完成,节省人力,且降低标引难度;(2)用户可以在一个检索系统中
30、同时进行分类检索和主题检索,获得更好的检索效果;(3)分类表和词表的编制工作及管理工作可由同一编制者进行;(4)这类标引工具的兼容性都比较好。 就我国而言,中国分类主题词表这项一体化的大工程已经完成,还有几种一体化的词表,有的已出版,有的已编制完成。看来,将来这类一体化的词表必定会越来越多。 2 分面组配化分面组配化 阮冈纳赞的分面组配理论已获得世界各国情报检索语言研究者的公认,认为它应成为一切检索方法的基础。无论是分类法还是主题法,在引进分面组配原理以后,就会具有许多优异的性能。 我国也已出现多种完全分面组配化的词表,如教育分面叙词表、社会科学检索词表、服装叙词表等。现有的词表作分面化改造也
31、是不难的。目前已出现的一些实例可能促进词表分面化改造的过程,所以,信息检索语言向分面组配化发展将成为一种趋势。 3 自然语言化自然语言化 这可能是信息检索语言领域最重要的两种发展趋势之一。这并不意味着自然语言将取代信息检索语言而是指自然语言检索研究的发展和自然语言在信息检索中应用的发展。 正象情报检索语言在信息检索中有自然语言无法取代的优越性一样,自然语言在计算机检索系统中也有信息检索语言所不及的重要优点(如成本低、处理时差短、检准率一般较高等)。 所以,加强自然语言检索的研究,已成为一种热潮。如果说目前已进入自然语言时代的说法并不确切,但如果说先进国家已进入自然语言的研究时代,是可以这么说的
32、。 我国对自然语言检索的研究也必然会加速发展。但自然语言研究者最好与人工语言研究者结合起来,自然语言最好与信息检索语言结合使用,即信息检索语言中增加自然语言成分,或自然语言中增加信息检索语言成分。 计算机化计算机化 标准化标准化 兼容化兼容化 系列化系列化 三三 现代信息检索技术现代信息检索技术 1 布尔逻辑检索布尔逻辑检索 布尔逻辑检索是依据布尔逻辑算符来完成的,规定检索词之间的逻辑关系的算符, 称为布尔逻辑算符。布尔逻辑算符包括逻辑“或(OR)”、“与(AND)”和“非(NOT)”。 2022-5-24154 大多数检索工具具有布尔逻辑检索功能,有的允许进行“逻辑和”、“逻辑或”、“逻辑非
33、”三种逻辑运算,有的只能进行两种或一种逻辑运算。 1.1 逻辑与逻辑与(AND)运算符运算符 也可用“*”代替,用来组配不同检索概念。其含义是检出的记录必须同时含有所有的检索词。 AND算符的基本作用是缩小检索范围,减少命中文献量,提高检索结果的查准率。在实际检索中, 不同概念组面之间以及同一组面内的不同含义的词之间通常使用AND算符。 例如:“A AND B”或“A * B”,其含义是检出的记录中必须同时含有“A”和“B”两个检索项(如图中阴影部分所示) 1.2 逻辑或逻辑或(OR)运算符运算符 也可用“+”代替,是用来组配具有同义或同族概念的词,如同义词、相关词等。其含义是,检出的记录中,
34、至少含有两个检索词中的一个。 OR算符的基本作用是扩大检索范围,增加命中文献量,提高检索结果的查全率,OR运算符还有一个去重的功能。 在实际检索中,同一组面中含义相同的词,相互之间都使用OR运算符。另外,在使用截词方法检索具有相同词干的检索词时,这些词之间也自动地隐含了逻辑“或”的关系。 如:检索提问式“A OR B”或“A + B”,其含义是数据库记录中任何一条记录,只要含有“A”或“B”中任何一个检索词即为命中的文献(如图中阴影部分) 1.3 逻辑非逻辑非(NOT)运算符运算符 也可用“-”代替,但在检索时建议使用NOT,以避免与词间的分隔符“-”混淆。NOT算符是排除含有某些词的记录的,
35、即检出的记录中只能含有NOT算符前的检索词,但不能同时含有其后的词。 NOT算符的基本作用是缩小检索范围,提高检索结果的查准率,但并不一定能提高文献命中的准确性,一般只起到减少文献输出量的作用。 “NOT”算符是排除含有某些词的记录,其逻辑提问表达式为“A NOT B”或“A - B”,即检出的记录中只能含有“NOT”算符前的检索词A,但不能同时含有“NOT”后的检索词B(如图中阴影部分) 对于一个复杂的逻辑检索式,检索系统的处理是从左向右进行的,在有括号的情况下,先执行括号内的运算; 有多层括号时,先执行最内层括号中的运算,逐层向外进行。在没有括号的情况下,And、Or、Not的运算次序,在
36、不同的系统中有不同的规定。 2 截词检索截词检索 截词检索主要是利用检索词的词干或者不完整的词形进行检索,就是把检索词截断,取其中的一部分片段检索,用截词符“?”或“*”代替。 计算机按照这个片段与数据库里的索引词对比匹配,凡包含有这些词的片段的文献均被检出。它可以起到扩大检索范围,提高查全率,减少检索词(关键词、主题词)的输入量,节省检索时间。2022-5-24173 尤其在英文检索系统中检索时,若遇到名词的单复数形式,词的不同拼写法,词的后缀变化时,均可采用此方法 截词的方式有多种,按照不同的标准有不同的划分。 2.1 按照截词数量按照截词数量 截词检索可分为有限截词和无限截词。 (1)有
37、限截词:有限后截词主要用于词的单、复数,动词的词尾变化等。将n个截词符放在检索词(关键词、主题词)的词干或词尾可能变化的位置上 检索词的词干后加一个或一个以上(最多4个)的“?”,空格后再加一个“?”,则空格前的” ?”个数表示词干后允许有的最多字符数。如“apple? ?”只能代替apple,apples,applet,而不能代替applejack (2)无限截词:检索词的词干后(前)加一个“?”(有的系统为加*),表示词干后(前)可以有任意个字符。当通配符在词干后方时, 称为前方一致或右截断,如“apple?”可代替(apple + apples + apple-pie + applesa
38、uce);通配符在词干前方时,称为后方一致或左截断。 如?economics可代替(economics + micro economics + macro economics)。同时采用以上两种方式为复合截断,如”?count?”来代替(count + account +counter + accounting) 。 也可截去中间部分,使词的两边一致,称为两边一致。如wom?n代替(woman + women)。 2.2 按照截词位置的不同按照截词位置的不同 截词检索可分为后截词、前截词检索、中截词检索、前后截词四种类型。 (1)后截词,又称右截词、前方一致。允许检索词尾部有若干变化形式。例如
39、检索“Comput?”将检出包含Computer、Computing、Computerization等词汇的结果。 (2)前截词,又称左截词、后方一致。允许检索词的前端有若干变化形式,例如检索 “*physics”就可检得包含physics、astrophysics、biophysics等词的结果。 (3)中间截词,又称前后一致。允许检索词中间有若干变化形式,一般来说,中间截词仅允许有限截词,主要用于英、美拼写不同的词和单复数拼写不同的词。例如“wom * n”就可同时检索到含有woman和women的结果。 (4)前后截词,又称中间一致。允许检索词的前后有若干变化形式,例如“?Nation?
40、”可以检出internationa1、national、antinational、national-ize等。 截词检索应该注意所选词干不能太短,否则将造成大量误检,截词检索的作用在于避免漏检,提高检全率。 任何一种截词检索,都隐含着布尔逻辑检索的“或”运算。采用截词检索时,既要灵活、又要谨慎,截词的部位要适当,如果截得太短(输入的字符不得少于3个),将影响查准率。 另外,不同的检索系统使用的截词符不同、各数据库所支持的截断类型也不同。 3 位置检索位置检索 位置检索是用一些特定的算符(位置算符)来表达检索词与检索词之间的关系,并且可以不依赖叙词表而直接使用自由词的检索方法。 位置算符又称邻接
41、算符,适用于两个检索词以指定间隔距离或者指定的顺序出现的场合,比如,以词组形式表达的概念,彼此相邻的两个或两个以上的词,2022-5-24191 被禁用词或特殊符号分隔的词等。位置算符是调整检索策略的一种重要手段,按照两个检索词出现的顺序和距离,可以有多种位置算符,而且对同一种位置算符,检索系统不同,规定的位置算符也不同。位置算符主要有: (1)(W)With (W)表示在此算符两侧的检索词必须按此前后的顺序排列,顺序不许颠倒,而且两个检索词之间不许有其他的词或字母, 但允许有空格和标点符号。 例如information(W)retrieval可检索出information retrieval
42、, information-retrieval. (2)(nW)nWord (nW)表示在此算符两侧的检索词之间允许插入n个(最大数量)实词或虚词(非用词), 两个检索词的词序不能颠倒。 例如electronic(1W)resources,可检索出electronic resources,electronic information resources。 (3)(N)_Near 由(N)连接的检索项在记录中出现的顺序可以调换,即查找两个连在一起的单词。 例如junior(N)high可检索出junior high,high junior。 (4)(nN)_nNear (nN)表示两个词位置可以
43、颠倒,两个词间插入词的最多数目是n个。 例如information(3N)retrieval,可检索出information retrieval,retrieval information,retrieval of information,retrieval of law information,retrieval of Chinese law information等,information和retrieval两个词之间最多可插入3个词 (5)(F)_Field (F)表示在此运算符两侧的检索词必须同时出现在文献记录的同一字段内,如出现在篇名字段,文摘字段,叙词字段,自由词字段,但两个词的前
44、后顺序不限,夹在两个词之间的个数也不限。 (6)(S)_Sentence (S)表示在此运算符两侧的检索词只要出现在文献记录的同一个子字段内(例如在文摘中的一个句子就是一个子字段),此文献即被命中,两个词词序不限,且两个词中间可间隔若干个词。 4 限制检索限制检索 又称字段检索,组成数据库的最小单位是记录,一条完整记录中的每一个著录事项为字段。文献书目型数据库的记录基本包括下列字段:存取号字段(access number,AN)、篇(题)名字段(Title,TI)、文摘字段(abstract,AB)、叙词字段(descriptor,DE)、自由词字段(identified,ID)、著者字段(a
45、uthor,AU)、 著者机构字段(corporate source,CS)、刊名字段(journal,JN)、出版年字段(Publication year,PY)、文献类型字段(document type,DT)、语种字段(language,LA)、分类号字段(classification,CC)等。 基本索引字段有篇名字段、文摘字段、叙词字段、自由词字段; 辅助索引字段有著者字段、著者机构字段、文献类型字段、语种字段。 在许多联机检索系统中,为了提高查全率或查准率,需要将检索过程限制在特定的字段中,即字段限制检索。DIALOG系统基本索引字段的限定由“/”与一个基本索引字段符组成,又称为后
46、缀限定,辅助索引字段由字段符“=”组成。 大多数网络检索工具都具有类似于字段限制检索的功能,依据此功能,可将查找范围限制在特定的范围中,如标题(title)、图像(image)、文本(text)、主机名(host)、域名(domain)、链接(link)、统一资源地址(URL)、新闻组(newsgroup)、电子邮件(E-mail)等。 在进行字段检索时,需注意: (1)检索词若为单词,且未指定检索字段时,系统将在基本索引的一切字段中进行检索; (2)检索词若为词组且未限定字段时,计算机系统将自动在叙词和自由标引词字段中查找,因为基本索引只有这两个字段保留了词组; (3)字段检索对检出文献信息的数量和相关程度有极大影响。其它信息检索技术其它信息检索技术(1)超文本检索技术,是以超文本网络为基础的信息检索技术,在超文本检索系统中正文信息是以节点而不是以字符串为信息单元,节点间的各种链接关系可以动态的选择激发,通过链从一个节点跳到另一个节点,实
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《建设工程监理实务》全套教学课件
- 2026年重要矿产资源三率指标要求及领跑者引领题库
- 2026年防暑降温与高温作业安全测试题
- 2026年三力测试标准题库及评分标准
- 2026年竞彩总进球数预测题库
- 2026年矿产资源领域标准体系建设知识测试题
- 2026年药学专业基础知识重点梳理
- 2026年旅游产业发展趋势与市场分析单选题库
- 2026年农村承包地三权分置与城乡融合题库
- 2026年产品的生命周期管理与迭代策略题
- 某自来水厂施工组织设计完整方案
- 十年(14-23)高考物理真题分项汇编专题58 气体的等圧変化(含解析)
- 高中英语必修二unit 4 教学设计与反思评价
- 蛋白质结构分析
- 110kv变电站设计外文翻译
- 2023年中考数学压轴题专题22 二次函数与新定义综合问题【含答案】
- 毛主席诗词(132首)
- SB-2100流量积算仪说明书
- 【毕业论文撰写】开题报告、文献综述、文献检索
- GB/T 7702.13-1997煤质颗粒活性炭试验方法四氯化碳吸附率的测定
- GB/T 41-20161型六角螺母C级
评论
0/150
提交评论