计算机信息检索技术_第1页
计算机信息检索技术_第2页
计算机信息检索技术_第3页
计算机信息检索技术_第4页
计算机信息检索技术_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机信息检索技术1信息检索的基本概念1.1信息检索的涵义从广义上讲,信息检索包括两个过程,一是信息存储(informationstorage),即信息的标引、加工和存储过程:二是信息检索(informationretrieval),即信息用户的查找过程。从狭义上讲,信息检索仅指后一部分。信息检索的本质是一个匹配的过程即用户的信息需求和信息存储的信息集合进行比较和选择的过程第2页,共63页,2024年2月25日,星期天信息存储和检索过程的基本原理

输出一次信息信息特征检索语言信息特征标识检索结果信息需求检索提问检索提问标识分析标引标引输入检索信息检索系统(工具)存储过程检索过程分析第3页,共63页,2024年2月25日,星期天

计算机信息检索是对信息进行收集、分类、标引、著录,并加以有序化组织,将信息储存到计算机存储信息系统中,编制出一个信息检索系统或信息检索工具的过程。1.2计算机信息检索第4页,共63页,2024年2月25日,星期天用户输入检索需求分析转换处理需求数据库检索=概念词的相关匹配运算概念词典控制词表信息源筛选录入分类、词索引文档预处理

计算机信息检索的基本原理第5页,共63页,2024年2月25日,星期天1.3信息检索的类型按信息检索的内容划分文献检索数据检索事实检索概念检索按信息检索的组织方式划分全文本检索多媒体检索超文本检索超文本检索是对每个节点中储存的信息以及信息链构成的网络信息进行的检索。与传统文本的线性顺序不同,超文本检索强调中心节点之间的语义联结结构,靠系统提供的工具进行图示穿行和节点展示,提供浏览式查询,可进行跨库检索。

WWW第6页,共63页,2024年2月25日,星期天2检索系统

检索系统(retrievalsystem)是指根据特定的信息需求而建立起来的一种有关信息搜集、加工、存储和检索的程序化系统,其主要目的是为人们提供信息服务。第7页,共63页,2024年2月25日,星期天2.1检索系统的功能模块信息源选择与采集子系统——对通常的计算机检索系统来说,信息选择与采集主要由人工完成,但对于网络信息检索系统来说,则主要通过网络搜索机器人Robot自动进行,并且可以定期更新。标引子系统——标引处理的类型:人工赋词标引、机器标引、无标引(或全标引);标引要求:不漏标(全面)、不错标(准确)、不滥标(简练)。建库子系统——工作流程主要包括数据录入、错误检查与处理、数据格式转换、生成并定期更新各种文档。第8页,共63页,2024年2月25日,星期天2.1检索系统的功能模块词表管理子系统——主要功能:管理维护系统中已有词表的结构、词汇,使它与标引、建库、检索等多个子系统相连接;支持用户的各种词汇查询操作;输出各种形式的词汇数据或词表产品等。用户接口子系统——一般有5种界面风格:命令/指令语言(commandlanguage)、菜单选择(menuselection)、表格填充(formfill-in)、直接操纵(directmanipulation)、自然语言(naturallanguage)。提问处理子系统——检索系统(数据库)的核心,负责处理用户输入的检索词或提问式,并将它们与数据库中存储的数据进行匹配运算,然后把运算结果返回给用户。第9页,共63页,2024年2月25日,星期天2.2文档——记录——字段

检索系统的基本组织形式由三个层次构成。文档(file):检索系统至少包括一个顺排文档(sequentialfiles)。有的还包括一个倒排文档(invertedfiles)。记录(record):文档的基本单元,由若干字段组成的信息单元,是对某一信息实体的全部属性进行描述的结果。字段(field):是记录的基本单元,它是对信息实体的具体属性进行描述的结果。

第10页,共63页,2024年2月25日,星期天2.2文档——记录——字段

检索系统的基本组织结构关系:数据库database

文档file,archive

顺排文档

记录Record

字段Field

倒排文档(索引index)

第11页,共63页,2024年2月25日,星期天3检索语言

检索语言(retrievallanguage)是文献信息标引和检索提问而约定的人工语言。

检索语言是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道。

——在存储的过程中用于标引信息称为标引语言;

——用于编制索引就称为索引语言;

——用于信息检索则称为检索语言。第12页,共63页,2024年2月25日,星期天3.1检索语言的种类

分类语言(classificationlanguage)是用分类号表达各种概念的检索标识,将各种概念按学科性质进行系统排列,反映科学知识分类体系的检索语言。主题语言(subjectlanguage)是直接以表达文献主题的语词作为检索标识,按字顺编排并通过参照系统等方法提示词间关系的检索语言。代码语言(codelanguage)是对事物的某一方面特征用某种代码系统来加以标引和排列的检索语言。例如,根据化合物的分子式这种代码语言,可以构成分子式索引系统,允许用户从分子式出发,检索相应的化合物及其相关的文献信息。自然语言是直接从原始信息中抽取出来的未经规范化处理,用以揭示信息主题概念的检索语言。第13页,共63页,2024年2月25日,星期天检索语言的类型描述内容特征语言描述外表特征语言主题语言分类语言代码语言责任者题名其他自然语言受控语言关键词语言——(keyword)标题词语言——(heading)单元词语言——(uniterm)叙词语言——(descriptor)第14页,共63页,2024年2月25日,星期天分类语言分类语言中最常见的是体系分类语言,它按照学科体系由上至下,从总体到局部,由一般到具体,从低级到高级,从简单到复杂的逻辑次序逐级展开。专利分类表中国科学院图书分类法中国图书馆图书分类法杜威十进分类法(国外)第15页,共63页,2024年2月25日,星期天中国图书馆图书分类法基本部类:1、马克思主义、列宁主义、毛泽东思想、邓小平理论2、哲学3、社会科学4、自然科学5、综合性图书基本大类:(22个)

A马列主义毛泽东思想邓小平理论N自然科学总论

B哲学O数理化科学

C社会科学总论P天文学、地理

D政治、法律Q生物科学

E军事R医学、卫生

F经济S农业科学

G文化、科学、教育、体育T工业技术

H语言、文字U交通运输

I文学V航空、航天

J艺术X环境科学

K历史、地理Z综合性图书

第16页,共63页,2024年2月25日,星期天中国图书馆图书分类法F经济

F1世界各国经济概况、经济史、经济地理

F11世界经济、国际经济关系

F12中国经济

F13/17各国经济

F2经济计划与管理

F20国民经济管理

F21经济计划

F22经济计算、经济数学方法

F23会计

F239审计

F24劳动经济

F25物资经济

第17页,共63页,2024年2月25日,星期天F27企业经济

F29城市与市政经济

F3农业经济

F4工业经济

F7贸易经济

F72中国国内贸易经济

F73世界各国国内贸易经济

F74国际贸易

F75各国对外贸易

F8财政、金融

F81财政、国家财政

F82货币

F83金融、银行

F84保险

第18页,共63页,2024年2月25日,星期天中国图书馆图书分类法

T工业技术

TB一般工业技术TL原子能技术

TD矿业工程TM电工技术

TE石油、天然气工业TN无线电电子学、电讯技术

TF冶金工业TP自动化技术、计算机

TG金属学、金属工艺TQ化学工业

TH机械、仪表TS轻工业、手工业

TJ武器工业TU建筑科学

TK动力工程TV水利工程

第19页,共63页,2024年2月25日,星期天图书馆的藏书都是按分类号排架的。分类号的排列采用由左至右逐位对比的方法进行排列,先比较字母部分,再比较数字部分。

——字母部分按英文字母固有的次序排列。例:

B2中国哲学

B3世界哲学

E27各种武装力量

E512苏联军事

TM92电气化、电能应用

TU201建筑设计原理

——分类号中的阿拉伯数字依小数制排列。例:

B021辩证唯物主义的物质论

B022辩证唯物主义的意识论

B022.2客观规律性与主观能动性

D035.37交通公安管理

D035.4监察、监督分类号的排列次序

第20页,共63页,2024年2月25日,星期天分类号的排列次序

(续)

——数字之后如还有字母,则在前部类号相同的基础上,再按字母顺序排列。例:

TP312ALALGOL程序语言

TP312BABASIC程序语言

TP312COCOBOL程序语言

——总论复分号“-”要排在数字“0”的前面。例:

H-61,H0,…,H31-61,H310,…——总论复分号“-”要排在组配符号“:”的前面。例:

H31,H31-62,H31:F,H31:I,…,H319,H319.4,H319.4-44,H319.4:B,H319.4:C,…第21页,共63页,2024年2月25日,星期天读者实际利用图书馆时,往往需要知道书刊的分类号和索书号(又称索取号)。索书号是图书馆赋予每一种馆藏图书的号码,是读者查找图书非常必要的代码信息。它的第一部分是分类号,第二部分是书次号。索书号的两部分之间有一个空格或一条斜线“/”。书次号或者是按照图书作者姓名所编排的著者号码,或者是按照图书进入馆藏时间的先后所取用的顺序号码。

——不同的索书号确定排列先后顺序的步骤是,先比较分类号码;如分类号码相同再比较著者号码或顺序号码。分类号比较:先英文字母排,后阿拉伯数字按小数制排。分类号中“-”排在0之前,例如:先排F-43再排F0。分类号的数字排列比较采用对位比较法,字符序列以ASCII字符集为依据。比如:B11、B111、B112、B12,书次号的数字排列比较采用自然顺序排列方法,即1,2,3,...,9,10,11,...,99,100,101,…。分类号和索书号第22页,共63页,2024年2月25日,星期天重新排列以下分类号的顺序TP145.421/Y25TP145.42/Y74-2TP145.42/S16/(2)TP145-42/L34TP145.42/W05表示该著作第二版表示我馆收藏的该作者的第二部著作第23页,共63页,2024年2月25日,星期天主题语言

①关键词语言是直接选用文献中的自然语言作基本词汇,并将那些能够揭示文献题名或主要意旨的关键性自然语词作为关键词进行标引的一种检索语言。例如:“国际联机检索概论”中的“国际联机检索”、“国际联机”、“联机”、“检索”都是能描述这篇文献主题的关键词,都可以作为检索词。②标题词语言是最早使用的一种主题语言,它以规范化的自然语义作为标识,来表达信息涉及的主题概念,并将全部标识按字母顺序排列。例如:一篇文章用“微型计算机”这个术语来叙述它的研究对象,另一篇文章用“微型电脑”来叙述,第三篇文章用“微机”来叙述,虽然都表示同一概念,这时就不能直接用“微型电脑”或“微机”来作标题词,这三篇文章都必须用“微型计算机”作标题词(实际上是“主标题词”,根据主题词表决定)。第24页,共63页,2024年2月25日,星期天主题语言

③单元词语言是在标题词语言基础上发展起来的一种规范化检索语言。单元词(uniterm)是一种最基本的、不能再分的词汇单位,亦称元词。它也是从文献内容中抽出,并经过规范化处理,代表一个独立的概念。例如:“计算机”、“软件”、“固相”、“相”。④叙词语言是以自然语言为基础,以概念组配为基本原理,并经过规范化处理,表达主题的最小概念单元,作为信息存储和检索依据的一种检索语言。只有经过规范化处理,满足一词一义一型要求的词才能称为叙词(descriptor)。例如:在叙词语言的检索系统中用“计算机”这个词进行检索,即使题名字段没有“计算机”这个词(如有同义词“电脑”)的文章,也可以被检索出来,不必进行同义词替换即可查全。第25页,共63页,2024年2月25日,星期天主题语言主题语言(标题词、单元词、叙词)的规范化处理:①词义规范:对同义词(如计算机与电脑)、近义词(如实验与试验)、学名和俗名(如发动机与马达)、不同译名(激光与莱塞)、简称与全称(如中国与中华人民共和国)、不同写法(如X射线与爱克斯射线)等进行选择;对多义词、同形异义词进行限定说明,如杜鹃既表示一种鸟,也表示一种花,就须限定说明为,杜鹃(动物)、杜鹃(植物)。②词类规范:即确定词类的范围。能用作叙词的词类一般要求控制在具有实质意义的名词或动名词的范围之内。③词形规范:即对词的繁简体、词序、字母符号等的规定。第26页,共63页,2024年2月25日,星期天代码语言代码语言是指对事物的某方面特征,用某种代码系统来表示和排列事物概念,从而提供检索的检索语言。例如:根据化合物的分子式这种代码语言,可以构成分子式索引系统,允许用用户从分子式出发,检索相应的化合物及其相关的信息。第27页,共63页,2024年2月25日,星期天自然语言自然语言是直接从原始信息中抽取出来的未经规范化处理,用以揭示信息主题概念的检索语言。抽取出来的词包括自由词、关键词、事物名称、科学术语、俗名、商品型号和缩写等,具有不用编制词表,及时跟上事物发展,准确表达事物新概念,选词灵活方便,专指性强,标引和检索速度快等优点。例如:如有人输入:howtocontroldriversofharddisk,检索系统会自动提取检索词,然后进行过滤和检索。注意:Google和专业数据库的检索语言区别。第28页,共63页,2024年2月25日,星期天3.2信息检索的途径

第29页,共63页,2024年2月25日,星期天

3.2信息检索的途径

责任者途径:①姓前名后,名缩写;②姓名中的“De”、“Von”、“Della”等前缀,与姓一起按字顺排,如DeLeferore,AlfredVonKampf;③团体机构名称名按名称字顺排。号码途径:号码包括编号(number)、代码(code)等,特定的号码如:技术标准的标准号,专利说明书的专利号,科技报告的报告号,学会的会议论文连续号,或合同号、任务号、国际标准书号(ISBN)、国际标准刊号(ISSN),以及文献收藏单位编的馆藏号、索取号、排架号等,都可以此作为检索点。第30页,共63页,2024年2月25日,星期天4计算机检索技术

计算机检索技术是指应用于信息检索过程的原理、技术、方法、策略的总称,是检索系统为了提高检索效率,从概念相关性、位置相关性等方面对检索提问进行组配、加权、扩展、截词、邻近、限定的比较和运算处理技术。第31页,共63页,2024年2月25日,星期天常用的计算机检索技术布尔检索技术1邻近检索技术3字段限定检索技术4截词检索技术2第32页,共63页,2024年2月25日,星期天布尔检索布尔检索(booleanretrieval)是用布尔逻辑算符将检索词、短语或代码进行逻辑组配的一种技术,也是目前最常用的一种检索技术。第33页,共63页,2024年2月25日,星期天逻辑“与”具有概念交叉或概念限定关系的组配,用“*”或“AND”算符表示。

检索词A和检索词B用“与”组配,检索式为:

AANDB,或者A*B它表示检出同时含有A、B两个检索词的记录。第34页,共63页,2024年2月25日,星期天逻辑“或”逻辑“或”是一种具有概念并列关系的组配,用“+”或“OR”算符表示。检索词A和检索词B用“或”组配,检索式为:

AORB,或者A+B它表示检出所有含有A词或者B词的记录。第35页,共63页,2024年2月25日,星期天逻辑“非”

逻辑“非”是一种具有概念排除关系的组配,用“–”或“NOT”算符表示。检索词A和检索词B用“非”组配,检索式为:

ANotB,或者A-B它表示检出含有A词,但同时不含B词的记录。第36页,共63页,2024年2月25日,星期天

截词检索

截词检索(truncationretrieval)是指在检索词的适当位置截断,用截断的词的一个局部进行的检索。由于检索词与数据库所存储信息字符是部分一致性匹配,所以又称部分一致检索。由于西文的构词特性:单复数形式不一致、英美拼写不一致、词干+前缀、词干+后缀。检索时,计算机会将所有含有相同部分标识的记录全部检索出来。在西文检索系统中,使用截词符处理自由词,对提高查全率的效果非常显著。按截断的位置来分;按截断的字符数量来分。截词符多采用通配符“?”、“$”、“*”等,因此,截词检索有时也称为通配符(wildcard)检索。第37页,共63页,2024年2月25日,星期天后截断中截断前截断无限截断如:economic???有限截断截词检索与截词检索算符economiceconomicseconomicsteconomicalismeconomiceconomicseconomicst如:economic*如:wom?nwomanwomen一般仅允许有限截断如:?lish

sul*ursulfursulphur无限截断有限截断前后截断如:?computer?可检出:computer、computers、computerize、computerized、minicomputer、minicomputers、microcomputer、microcomputers

第38页,共63页,2024年2月25日,星期天邻近检索(proximityretrieval),又称为“位置检索”、“词位检索”、“全文检索”是一种可以不依赖叙词表而直接使用自由词进行检索的一种技术,它以数据库原始记录中词语的相对次序或者位置关系为对象进行组配运算。邻近检索

第39页,共63页,2024年2月25日,星期天(W)与(nW)算符

(W)算符是“With”的缩写,表示此算符两侧的检索词必须按此前后邻接的顺序排列,顺序不可颠倒,而且检索词之间不允许有其他的词或字母,但允许有空格或连字符号。例如:输入gas(W)condensate可检索出包含gascondensate和gas-condensate的记录。(nW)算符是“nWords”的缩写,表示此算符两侧的检索词之间允许插入n个实词或虚词,但两个检索词的次序还是不能颠倒。例如:laser(1W)printer可检索出包含“laserprinter”、“lasercolorprinter”和“laserandprinter”的记录。第40页,共63页,2024年2月25日,星期天(N)与(nN)算符

(N)算符是“Near”的缩写,表示此算符两侧的检索词彼此必须相邻接,但两个检索词的前后关系可以颠倒,即查找两个连在一起的单词,但两词之间不能插入任何词。例如:money(N)supply可检索出包含moneysupply和supplymoney两个词组的记录。(nN)

算符是“nNear”的缩写,表示此算符两边的检索词之间插入词的最多数目是

n

个,且两个检索词的次序可以任意颠倒。例如:economic(2N)recovery可以检出包含economicrecovery、recoveryoftheeconomy、recoveryfromeconomictroubles的记录。第41页,共63页,2024年2月25日,星期天(S)算符

(S)算符是“Sub-field/Sentence”的缩写,表示在此运算符两侧的检索词只要出现在记录的同一个子字段内(例如在文摘中的一个句子就是一个子字段),此信息即被命中。要求被连接的检索词必须同时出现在记录的同一句子(同一子字段)中,不限制它们在此子字段中的相对次序,中间插入词的数量也不限。例如,“high(W)strength(S)steel”表示只要在同一句子中检索出含有“highstrength和steel”形式的均为命中记录。第42页,共63页,2024年2月25日,星期天(F)算符

(F)

算符是“Field”的缩写,表示在此运算符两侧的检索词必须同时出现在文献记录的统一字段内,如出现在篇名字段、文摘字段、叙词字段、自由词字段,但两个词的前后顺序不限,夹在两个词之间的词的个数也不限。要求被连接的检索词出现在统一的字段中,字段类型和词序均不限。例如:environmental(F)impact/DE,TI表示这两个词必须同时出现在叙词字段和篇名字段中。第43页,共63页,2024年2月25日,星期天字段限定检索

使用邻近检索,只能限制检索词之间的相对位置,不能完全确定检索词在数据库记录中出现的字段位置,特别在使用自由词进行全文检索时,需要用字段限制查找的范围。使用截词检索,简化了布尔检索中的逻辑“或”功能,但并没有改善布尔检索的性质。字段限定检索(fieldlimitingretrieval)是用于限定提问关键词在数据库记录中出现的区域,控制检索结果的相关性,是提高检索效果的一种有效检索方法。第44页,共63页,2024年2月25日,星期天

例如:(minicomputer/DE,TIORpersonalcomputer/ID,TI)ANDPY=2008ANDLA=English这个检索式所表达的检索要求是:查找2008年出版的关于微电脑或者个人电脑的英文文献,并要求“微电脑”一词在命中文献的叙词字段、标题字段出现,“个人电脑”一词在命中文献的自由词字段出现。在互联网搜索引擎中,限定字段也是常用的语法。例如,“filetype:”表示在某种文件类型(如doc、pdf)中查找资料。详细的介绍请参见搜索引擎部分。第45页,共63页,2024年2月25日,星期天5信息检索的基本步骤

分析检索课题1.主题概念2.信息类型3.时间范围4.检索目的构造检索式(试验性检索)1.简单提问式2.上下文提问式3.复合提问式4.结构性提问式调整检索策略(正式检索)1,信息量过多时2.信息量太少时输出检索结果1.文摘2.全文选择检索系统1.学科范围2.系统类型3.系统功能

确定检索词

1.切分2.删除3.替补4.组合5.增加用户评价

第46页,共63页,2024年2月25日,星期天1分析检索课题

例如:查找有关消防的文献。所有的“消防”文献?还是只需有关“消防事业”、“消防队伍”、“消防设施”、“消防材料”、“消防器材”、“消防方案”等中某一方面的文献?(主题分析和检索目的)需要一般的文献资料?还是比较专深的文献?需要科技论文?还是专利、标准、数据等?(信息类型)需要新颖的信息?或者是与别人的研究进行先进性比较?还是系统的学科知识?(时间范围)——需要系统地掌握某学科的知识,可以选择图书;——需要撰写研究项目的开题报告、论文,开展技术攻关,可以选择研究报告、科技论文、学位论文、会议文献等;——需要进行发明创造、工艺改革、新产品设计、引进设备、签订合同,可以选择专利说明书、标准文献、产品资料等。第47页,共63页,2024年2月25日,星期天2选择检索系统

学科范围。对于交叉学科、新兴学科、应用研究、综合研究,不应局限于某一学科范围,可根据情况适当扩大检索系统的学科范围。例如,石油和矿业工程的力学计算方面的课题,也可以考虑数学、物理学、计算机信息科学、机械工程方面的数据库。扩大检索系统的学科范围有时会带来意外的收获。系统类型。首先,在不同的文献类型系统中选择。其次,要在文摘、索引系统和全文数据库系统之间选择。第三,在专业性数据库中去查找。系统功能。一般说来,使用分类语言、主题语言的检索系统,要优于使用自然语言的检索系统,专业检索系统要优于搜索引擎。检索途径、检索方式(如分类浏览、简单检索、高级检索、专家检索、自然语言检索)多,收录时间跨度长,来源语种、国别多,文本(数据)质量高,附加个性化服务,检索系统就更值得选择。第48页,共63页,2024年2月25日,星期天3确定检索词

1.切分切分是对课题的语句以自由词为单位进行拆分,转换为检索的最小单元。自由词切分仅适用于自然语言检索。例1:检索“妇女吸烟与肺癌的关系研究”相关文献。直接切分:妇女|吸烟|与|肺癌|的|关系|研究)注意,当词切分后将失去原来的意思时,不应再切分,即必须注意保持意义的完整。如“中国科学院”、“电子邮件”不可再切分。第49页,共63页,2024年2月25日,星期天确定检索词2.删除删除是对自然语言中不具有实质性检索意义的虚词(如介词、连词、副词等),或者使用频率较低的词,或者专指性太高、过分宽泛的词,或者过分具体的限定词、禁用词,或者不能表达课题实质的高频词,或者存在蕴含关系可以合并的词,一律予以删除,使自然语言转换成为关键词和主题词的集合。如上例中的“与”、“的”、“关系”、“研究”。例2:检索“中国非常规天然气工业的发展前景研究”方面的相关文献。进行拆分以后,工业、发展、前景、研究这四个自由词具有一定的检索意义,但是由于或者是意义过于宽泛、或者是不能表达课题实质、或者是存在蕴含关系的原因,没有必要全部作为检索词,根据需要可以保留1-2个作为检索词。第50页,共63页,2024年2月25日,星期天确定检索词3.替补替补就是在进行切分、删除后,对检索词进行替换和补充。“公交”应替换为:公共交通;“绿色包装”中的“绿色”,应替换为:环保、无污染、可降解;“煤气中毒”应替换为:一氧化碳中毒;“非典”应考虑补充:SARS、非典型肺炎、传染性非典型肺炎、严重急性呼吸综合征(severeacuterespiratorysyndrome);“非常规天然气”(nonconventionalnaturalgas)应考虑补充:煤层气、(天然气)水合物、页岩气、深层气、致密岩气、水溶气、沼气,同时考虑将“气”应替换为:天然气(naturalgas)、甲烷(methane)、CH4

、CH4;含硫气田的“硫”应考虑补充:sulfur、sulf*、sulfur*、sulphur、sulphur*、H2S、H2S,同时考虑将“硫”替换为:硫化氢(sulfuredhydrogen)、含硫化合物(sulfurcompound)。第51页,共63页,2024年2月25日,星期天确定检索词4.组合

①概念相交组合。这个新概念是原来用以组合的两个概念的下位概念,如曲柄连杆机构*发动机=汽车发动机。②概念限定组合。这个新概念可用来表示这一事物的某一属性或某一个方面。如电视机*数字化=数字电视机。以上两种组配方式,所得到的新概念,都是原组和概念的下位概念,缩小了检索范围,提高了概念的专指度,达到提高检准率的目的。③概念并列组合。具有概念并列关系的自由词间的组配,其结果使概念检索的范围扩大,如环境污染+环境保护=环境污染和环境保护。④概念删除组合。是指两个具有上下位关系的自由词间的组合,其结果使概念检索的范围缩小,如信息处理-模拟信息处理=数字信息处理。第52页,共63页,2024年2月25日,星期天确定检索词5.增加增加“限义词”。有两种方法:直接增加限义词、挖掘隐含词、提取潜在的检索词;把限义词以逻辑的方式加入,可采用逻辑“与”或逻辑“非”的方法增加限义词。分析隐含概念。挖掘潜在的主题词还可以通过对上位词、下位词、同类词关系的分析得到其它相关主题词。如例1:“妇女吸烟与肺癌的关系研究”,切分、删除后得:吸烟、肺癌两个检索词,分析、补充上位词可增加检索词:烟、癌症、恶性肿瘤。例3:检索“一种新的天线阵方向图综合方法”课题。切分:一种|新|的|天线阵|方向图|综合|方法;删除后得:天线阵、方向图;根据主题词表分析,增加上位词可得主题词:互耦、偶极子、输入阻抗等。第53页,共63页,2024年2月25日,星期天确定检索词从上述四个实例可以看出,提取检索词首先是切分、删除,其次是进行替补、组合和增加。在提取检索词时,若所选的数据库具有规范化词表时,应优先选用该数据库词表中与检索课题相关的规范化主题词(检索词)。第54页,共63页,2024年2月25日,星期天4构造检索式(试验性检索)

所谓的检索提问式(query,searchformulation),是信息检索中用来表达用户检索提问的逻辑表达式,主要是使用各种布尔逻辑算符、位置算符、截词符、限制算符以及系统规定的其他组配连接符号将检索词进行组配,确定检索词之间的概念关系或位置关系。第55页,共63页,2024年2月25日,星期天构造检索式(试验性检索)简单提问式——含一个检索词的提问式;上下文提问式——精确短语或近似精确短语的提问式,也可称为短语提问式;复合提问式——含有布尔算符和至少2个检索词的提问式;结构性提问式——含有2个以上布尔算符和至少4个检索词的多层结构组合的提问式。例4:地震序列分析的工具和方法研究要完成本项检索课题,必须使用结构性提问式:((((sequenceanalysis)WNTI)AND((method*ORtool*ORinstrument*)WNAllfields))AND((seismic)WNAllfields))

。检索式“WNTI”意为限在TI(标题)字段中检索,可提高检索的准确性和相关度。第56页,共63页,2024年2月25日,星期天5调整检索策略(正式检索)

所谓检索策略(searchstrategy)就是为完成检索课题,实现检索目的,对检索的全过程进行谋划之后所制定的全盘检索方案。检索策略的制定过程就是检索提问式的不断完善的过程,使用最初的检索提问式是试验性检索,使用调整后的完善检索策略提问式是正式检索。第57页,共63页,2024年2月25日,星期天调整检索策略(正式检索)1.当检索结果信息量过多时原因:选用了多义性的检索词;截词截得过短;输入的检索词太少;应该使用“与(AND)”的使用了“或(OR)”;优先运算符“()”使用错误。考虑缩小检索范围,方法如下:(1)采用专指性强的主题词(主题词表),减少同义词、同族相关词等相关性不强的检索词;(2)增加限制概念,采用“AND”算符连接检索词或进行二次检索;(3)使用字段限定,把检索词限定在题目、主题词等主要字段;(4)缩短检索年限,限制检索结果的文献类型、语种及出版国;(5)使用“NOT”算符,排除无关概念;(6)调整位置算符,由松变严;(7)改模糊检索为精确检索。第58页,共63页,2024年2月25

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论