第三章-信息检索基本方法_第1页
第三章-信息检索基本方法_第2页
第三章-信息检索基本方法_第3页
第三章-信息检索基本方法_第4页
第三章-信息检索基本方法_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2021/6/71 第三章第三章 信息检索基本方法信息检索基本方法 3.1 信息检索语言与检索途径信息检索语言与检索途径 3.1.1信息检索语言的类型及特点信息检索语言的类型及特点 信息检索语言是用来描述文献特征,表达 主题提问的一种专门的人工语言一种专门的人工语言,是由给 定领域中一切可用来描述信息内容和信息 需求的词汇或符号,及其使用规则词汇或符号,及其使用规则构成的 供标引和检索的工具。 如各种分类法、主题词表、叙词表各种分类法、主题词表、叙词表都属于 信息检索语言。 2021/6/72 1.根据结构原理划分根据结构原理划分 分类语言分类语言 指用分类号和类名来表达信息的内 容主题概念,

2、并按知识门类的逻辑次 序将信息资源系统地加以划分和组织 的语言。 分类语言主要分为分类语言主要分为等级体系型和分等级体系型和分 面组配型面组配型。 例如下面的中图分类法就是等级体例如下面的中图分类法就是等级体 系型分类语言。系型分类语言。 2021/6/73 中图分类法中图分类法 2021/6/74 2021/6/75 主题语言主题语言: 以主题词来表达信息主题概念的语言以主题词来表达信息主题概念的语言。 是计算机信息检索语言的主流。通常又分 为以下几种: (1)标题语言)标题语言 (2)叙词语言)叙词语言 (3)关键词语言)关键词语言 (4)元词语言)元词语言 2021/6/76 (1)主题

3、语言之一:主题语言之一:标题语言标题语言 概念:概念: 采用经过词汇控制的自然语言,以经过规采用经过词汇控制的自然语言,以经过规 范化的名次术语为标识,直接表达文献和范化的名次术语为标识,直接表达文献和 提问的主题。提问的主题。 标题语言是标题语言是最早出现的并得到广泛使用的 一种语言。标题语言的规范工具为标题表。 如美国国会标题表就是国内外广泛使 用的标题表。标题有单级标题和多级标题单级标题和多级标题 两种。两种。 2021/6/77 A、单级标题、单级标题。如计算机 computer 英国的科学文摘(SA)的主题索引采用 的是单级标题形式。 B、多级标题、多级标题。主标题和副标题组成。 如

4、,machine tools 木工机床 control 设计 美国的EI、CA的主题索引均使用 了多级标题形式。 主标题的构成有主标题的构成有3种种: A、正叙式标题、正叙式标题 如空气污染 (Air Pollution) 2021/6/78 B、倒叙式标题、倒叙式标题 例如,Bridge, Wood (木桥)。 C、并列式标题、并列式标题 例如,Roads and Streets 2021/6/79 (2)主题语言之二:主题语言之二:叙词语言叙词语言 概念:概念: 以表达文献主题内容的概念单元为基以表达文献主题内容的概念单元为基 础,经过规范化处理,可以进行逻辑础,经过规范化处理,可以进行逻

5、辑 组配的一种主题语言组配的一种主题语言。专门有叙词表。 (有(有3种)种) A、交叉组配、交叉组配 例如,“人工林”和“防护林”表达 为人工防护林。人工防护林。 2021/6/710 B、限定组配、限定组配 例如,“电子计算机电子计算机”和和“存储速度存储速度”的 组配表达了“电子计算机的存储速度电子计算机的存储速度”这 一主题。 C、组合组配,、组合组配,又叫并列组配。 例如,”计算机“,”应用“和”图书馆 “表达了”计算机在图书馆中的应用“这 一主题。 叙词表通常由字顺表、范畴表、词族表或叙词表通常由字顺表、范畴表、词族表或 其它附表构成。其它附表构成。我国图书情报机构广泛使 用的汉语主

6、题词表是世界上最大型的 综合性叙词表之一。 2021/6/711 叙词语言的特点叙词语言的特点 1、规范性强:叙词语言事先经过规范化处理,列于 叙词表中,标引和检索都从叙词表中选词,保证 了标引和检索的一致性。 2、利用叙词的组配,可用有限的叙词表达各种复杂 的主题。 3、叙叙词语言从单元概念出发提示文献内容,可准确、 全面揭示文献的主题,提高标引深度和专指度。 4、检索检索入口多,大大提高检全率。 5、同时使用计算机系统和手工检索工具。 2021/6/712 (3) 主题语言之三:主题语言之三:关键词语言关键词语言 概念:概念: 关键词语言与其它主题语言的区别在于它关键词语言与其它主题语言的

7、区别在于它 没有经过规范化处理,没有经过规范化处理,属于非受控语言属于非受控语言。 而主题词语言属于受控语言而主题词语言属于受控语言。 关键词语言的基本原理是直接以自然语言 的词语作为表达文献和提问的标识。故不 必编制专门的词表。 又分为单纯关键词索引(单纯关键词索引(EI常用)、题内常用)、题内 关键词索引(美国的关键词索引(美国的化学题录化学题录采用)、采用)、 题外关键词索引、词对式关键词索引(题外关键词索引、词对式关键词索引(SCI 中的轮排主题索引属于此类)中的轮排主题索引属于此类)等。 2021/6/713 (4)主题语言之四:主题语言之四:元词语言元词语言 为了克服标题语言的不足

8、而发展起来的一 种主题法类型。 元词:元词: 从文献中抽选出来的,从字面上不可再分 割的表达最基本的概念单元的词汇。 元词语言元词语言 元词语言是以元词作为主题标识,通过字元词语言是以元词作为主题标识,通过字 面组配来表达主题概念的语言面组配来表达主题概念的语言。 2021/6/714 例如,“物理物理”和和“贸易贸易”就属于元词, 而“知识经济知识经济”和和“主题标引主题标引”不属于元 词。 例如,“经济文献检索”这一主题,就必 须通过“经济”、“文献”和“检索”3个 单元词进行标引和组配检索。 美国化学专利单元词表索引美国化学专利单元词表索引采用的就是采用的就是 单元词索引形式单元词索引形

9、式。 早期的元词系统属于自然语言系统,一般 不建立词表,后期的元词系统有相应的词 表。 2021/6/715 分类主题一体化语言分类主题一体化语言 是指在一个检索系统中,对它的分 类表部分和叙词表部分,就术语、参 照、标识、索引等实行统一的控制, 即一个分类系统与一个主题系统互相 兼容。 简单而言,分类主题一体化语言是简单而言,分类主题一体化语言是 分类语言与主题语言的有机结合。分类语言与主题语言的有机结合。 2021/6/716 分类主题一体化语言分类主题一体化语言 例如中国分类主题词表就是在 中图法类目与汉表主题词对 应的基础上,将分类法与主题法、先 组与后组融为一体的文献标引和检索 工具

10、。其中的其中的分类号分类号主题词对主题词对 应表应表和和主题词主题词分类号对应表分类号对应表 是分别从分类角度和主题角度进行分是分别从分类角度和主题角度进行分 类主题一体化标引的工具。类主题一体化标引的工具。 2021/6/717 代码语言代码语言 常用的有分子式索引、专利号、 标准号、报告号、化合物登记号等。 2021/6/718 引文语言引文语言 引文语言就是利用文献之间引用与被引引文语言就是利用文献之间引用与被引 用的关系作为文献内容主题标识,并以此用的关系作为文献内容主题标识,并以此 标引和检索文献的语言。标引和检索文献的语言。 例如文献作者在文献最后列出参考文献, 这就是引文引文。该

11、作者所创作的文献完成后 也将汇入知识集合中,再后来的人又可将 其作为引文加以利用和记录。文献间的这 种引证关系,不仅反映了科学技术的交流 和反馈,也启发人们通过追溯这种引证关 系,找到一系列内容相关的文献。 2021/6/719 假设有文献假设有文献A和和B,B文献在完成过程文献在完成过程 中引用了中引用了A文献,并把它列在参考文献文献,并把它列在参考文献 中,此时就称中,此时就称A是是B的的“引文引文” (Citation),而而B因为提供了包括文献因为提供了包括文献A在在 内的若干个引文,故又称为内的若干个引文,故又称为“来源文来源文 献献”(Source Item 或或 Source D

12、ocument)。 如果把文献如果把文献A作为检索入口,就可以作为检索入口,就可以 检索到在它之后发表的引用了它的所检索到在它之后发表的引用了它的所 有来源文献。由于来源文献和引文之有来源文献。由于来源文献和引文之 间在内容上是相关的,所以引文就完间在内容上是相关的,所以引文就完 成了文献集中的功能。成了文献集中的功能。 2021/6/720 引文检索语言就是根据上述原理, 以引文为标识标引或检索文献,而 引文标识的全体就构成了引文检索 语言。 例如著名的科学引文索引科学引文索引 (SCI)、社会科学引文索引社会科学引文索引 (SSCI)、艺术与人文科学引文索艺术与人文科学引文索 引引(A b

13、uilding- construction 2、 building and construction; building under construction 3、 construction building; Construction- building 2021/6/731 3.2.3 截词检索截词检索 通常用通常用“ *”表示无限阶段,用“?”表示有限 阶段。 无限截词符无限截词符“*”,代表零至无数多个字母;,代表零至无数多个字母; computer* computer;computered ;computering; 有限截词符有限截词符“?”,只能代表一个字母;,只能代表一个字母;

14、 teen? teens 例如:例如: *chemi* chemical、chemist、chemistry、 electrochemistry、electrochemical、 physicochemical、thermochemistry 2021/6/732 如:smok? 它将对若干词进行检索,包括:smoke, smoky, smoked, smoker, smokes, smokers, smoking, smokeless等等。 练习:练习: 1、ne?t 2、查找检索结果为、查找检索结果为”Zhejiang Univ Technol”的的 文献文献 Keys: 1、neat;n

15、est;next 2、Zhejiang and Univ* and Tech* 2021/6/733 后截断后截断 将截词符号放置在一个字符串右方,以表 示其右边的有限或无限个字符不影响该字 符串的检索。 前截断前截断 将截词符号放置在一个字符串左方,以表 示其左边的有限或无限个字符不影响该字 符串的检索。 2021/6/734 中间截词中间截词 中间截词(embedded truncation), 是在 一词中间出现若干个?号,表示可插入若 干个字符。 如:ioni?ation 它将对ionisation和ionization进行检索。 如:cent?line 它将对centerline和c

16、entreline进行检索。 2021/6/735 3.2.4限制检索限制检索 字段检索字段检索 是限定检索词在数据库记录中出现的字段 范围内的一种检索方法。例如在Dialog联机 检索系统中,数据库通常提供的可供检索的 字段有: 基本索引字段:基本索引字段: TI(篇名、题目) AB(摘要) DE(主题词、叙词) ID(自由标词) 附加索引字段附加索引字段:AU(作者) CS(作者单位) JN(刊名) PY(出版年份)LA(语言) 2021/6/736 在检索提问式中,可利用后缀符“/”对基本索引字 段进行限制,利用前缀符“”对辅助索引字段 加以限制。当前流行的联机情报检索系统,均支 持字段

17、检索。 /AB ABSTRACT 文摘文摘 /DE DESCRIPTOR 叙词叙词 /ID IDENTIFIER 自由标引词自由标引词 /TI TITLE 篇名篇名 举例如下:举例如下: (information retrieval/TI OR search engine /DE) AND PY=2002 表达的检索要求为:查找表达的检索要求为:查找2002年出版的关于信息年出版的关于信息 检索或搜索引擎的文献,并要求检索或搜索引擎的文献,并要求“信息检索信息检索”一一 词在命中文献的篇名字段出现,词在命中文献的篇名字段出现,“搜索引擎搜索引擎”一一 词在命中文献的叙词字段出现。词在命中文献的

18、叙词字段出现。 2021/6/737 辅助索引字段:描述文献外部特征的字段,检索时辅助索引字段:描述文献外部特征的字段,检索时 辅助索引字段代码置于检索词之前,一般不单独辅助索引字段代码置于检索词之前,一般不单独 使用,常与基本索引字段配合使用。使用,常与基本索引字段配合使用。 AA= AUTHOR AFFILIATION 著者单位著者单位 AD= APPLICATION DATE 专利申请日专利申请日 AN= ABSTRACT NUMBER, 文摘号文摘号 APPLICATION NUMBER 专利申请号专利申请号 AU= AUTHOR OR INVENTOR 著者或发明者著者或发明者 PY

19、= PUBLICATION YEAR 出版年出版年 CY= CONFERENCE YEAR 会议年份会议年份 2021/6/738 例如查找微型机和个人计算机方面的例如查找微型机和个人计算机方面的 文章。要求文章。要求“微型机微型机”一词出现在叙一词出现在叙 词字段、标题字段或文摘字段中,词字段、标题字段或文摘字段中, “个人计算机个人计算机”一词出现在标题字段一词出现在标题字段 或文摘字段中或文摘字段中 。要查找要查找1999年出版的年出版的 英文或法文的微型机或个人计算机方英文或法文的微型机或个人计算机方 面的期刊面的期刊 (microcomputer)/de,ti,ab OR (pers

20、onal computer)/ ti,ab) AND PY1999 AND(LAEN OR FR)AND DTSerials 2021/6/739 限制符检索限制符检索 限制符的用法与后缀符相同,而它的 作用与前缀符相同。 例如:wheelchair/PAT ,表示的结果 只要wheelchair这一主题的专利文献。 限制检索在网络搜索引擎中使用时 很简单,只需在检索的页面上的下拉 菜单中选择即可。 2021/6/740 检索实例检索实例 1、“心脏病心脏病与与吸烟吸烟之间的联系之间的联系” 2、门式起重机的研究、门式起重机的研究 3、西红柿的病虫害预防与养殖、西红柿的病虫害预防与养殖 、搜索

21、计算机行业的营销状况,但不需要查询、搜索计算机行业的营销状况,但不需要查询 方正计算机的营销状况方正计算机的营销状况 、查找年的文献、查找年的文献 、查找杜彦良发表的有关掘进机或、查找杜彦良发表的有关掘进机或的文章的文章 、查找除了石家庄铁道学院发表的有关掘进机和、查找除了石家庄铁道学院发表的有关掘进机和 的文章的文章 2021/6/741 1、(、(HEART(5N)DISEASE +HEART(5N) ATTACK)*(SMOK*+TOBACCO) 2、门式起重机门式、门式起重机门式*起重机起重机 3、(番茄、(番茄+西红柿)西红柿)*(病虫害(病虫害*预防预防+养殖)养殖) 、(计算机营

22、销)方正、(计算机营销)方正 、:;、:; 、作者杜彦良、作者杜彦良 (题名掘进机(题名掘进机题名)题名) 、(题名掘进机、(题名掘进机题名)题名) 机构机构石家庄铁道学院石家庄铁道学院 2021/6/742 3.2.4 原文检索(自学)原文检索(自学) 3.2.5 加权检索加权检索 3.2.6 聚类检索聚类检索 3.2.7 检索技术的发展检索技术的发展 (自学,自学,P82-90) 2021/6/743 3.3 信息检索过程和策略信息检索过程和策略 3.3.1信息检索一般步骤信息检索一般步骤 1. 分析检索课题和明确检索要求分析检索课题和明确检索要求 找出课题设计的主要内容和相关内容, 从而形成主要概念和次要概念; 尽可能列出自然语言词语的同义词和 近义词; 多了解背景知识,如该主题在学科中 的发展状况等; 2021/6/744 明确课题需要的文献类型、语种出版年代 等方面的要求; 了解课题对查全、查准、查新方面的要求。 2.选择检索工具或检索系统选择检索

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论