第二章信息检索原理.ppt_第1页
第二章信息检索原理.ppt_第2页
第二章信息检索原理.ppt_第3页
第二章信息检索原理.ppt_第4页
第二章信息检索原理.ppt_第5页
已阅读5页,还剩94页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章 信息检索原理,教材四版p.21-46,本章要点1,? 信息检索的基本原理 ? 检索语言的类型 ? 信息检索的类型 ?信息检索系统的类型 ?数据库的构成,?信息检索的基本概念,1信息检索的基本概念,信息检索的定义:从任何信息集合中查找所 需信息的活动、过程与方 法。 Whats searching like? “Finding a needle in a haystack ”,1.1信息检索的原理,广义上,信息检索包括信息存储与检索两个过程,著录,有序化,有序化的依据,四版p.21,情报人员,检索人员,1.1信息检索的原理,编辑/存储 检索,1.2 检索语言,文献标识(有序化)的依据:检

2、索语言 检索语言:用来描述文献的内容特征、外表特征和表达情报提问的一种人工语言。是信息处理人员和检索人员共同遵循的“纲领”,保证检索系统的质量。 检索语言的种类:分类、主题 四版p.28-33,1.2检索语言-中国图书馆分类法(中图法),22个大类: 用1个汉语拼音表示,一级,1.2检索语言-中国图书馆分类法(中图法),分类号,类目名称,一级,二级(2位),. . .,二级,1.2检索语言-中国图书馆分类法(中图法),三级(3位),三级,二级,一级,1.2检索语言-中国图书馆分类法(中图法),三级,三级,三级,三级,四级,五级,课堂同步练习1,1.中图法分类表的作用? 2.分类号的构成特点是什

3、么? 3. H164是几级分类号,类目名称是 什么? 4. H146.3的类目名称含义是什么 ?,课堂同步练习1答案,1.中图法分类表的作用 国内图书馆组织藏书、国内检索系统组织文献信 息的依据。也是查找文献的主要途径。 (见四版p.29小贴士) 2.分类号的构成特点是什么? 1-2位汉语拼音字母+数字构成 3. H164是四级分类号 类目名称是汉语词典 4. H146.3类目名称是汉语语法句法,1.2 检索语言-主题语言,主题检索语言:关键词和叙词 关键词:一种自然语言性质的主题语言,它是从文献的题目、正文或摘要中抽出的能表达文献主题内容的具有实质意义的语词。对词语不加控制(没有预先编制的词

4、表) 叙词:从自然语言中优选出来并经过规范化处理的名词术语。(有预先编制的词表) 例:,三版p.33-34;四版p.30-32,1.2 检索语言,汉语主题词表,中国图书馆分类法,课堂同步练习2,1.主题语言的作用?,课堂同步练习2答案,1.主题语言是检索系统组织文献信息的依据,常见于印刷型检索系统。,1.3 信息检索的类型,计算机检索,手工检索,以获取 手段区分,四版p.22,1.3 信息检索的类型,信息集合,文字,数值 图表,事实,文献检索,数据检索,事实检索,以检索内容 区分,四版p.22,1.3 信息检索的类型,文字: 文献检索,1.3 信息检索的类型,数值、图表: 数据检索,图表,数值

5、,(huang ye),1.3 信息检索的类型,事实: 事实检索,何时何地发生事件,概念定义,1.3 信息检索的类型,文献检索的结果相关性检索 对同一个课题,同一个检索系统,不同的检 索者查到的结果是不同的。 甲 课题A 输出 10篇 查全率高 乙 课题A 输出 5篇 查准率高,信息检索系统,1.3 信息检索的类型,文献检索相关性检索 为什么结果有差别? 甲 检索词A B C 10篇 乙 检索词 A C D 5篇,信息检索系统,1.3 信息检索的类型,数值检索、事实检索的结果 确定性检索 检索结果是有和无的差别,文献:世界上关于铁路大桥有哪些? 事实:世界上最长的 铁路大桥是哪一个? 数据:世

6、界上最长的 铁路大桥有多长?,1.4 信息检索系统类型,以报道文献的内容区分: 目录 题录 文摘 全文 四版p.23-24,1.4 信息检索系统类型,目录:一批相关文献信息的著录集合,它 以报道文献出版或收藏信息为主要 功能的系统。 例如:全国总书目 图书馆联机公共检索目录(OPAC) 四版p.23,演示:我校图书馆及我院图书馆主页,1.4 信息检索系统类型,1.4 信息检索系统类型,1.4 信息检索系统类型,目录:“本”为报道的基本单元,图书信息,索书号等,1.4 信息检索系统类型,题录:将图书、报刊等文献中论文的篇目 按照一定的排检方法编排而成的, 供人们查找篇目出处的工具。 例如:全国报

7、刊索引 四版p.23,1.4 信息检索系统类型,题录:文献的篇为报道的基本单元,1.4 信息检索系统类型,文摘:以精练的语言把文献信息的重要内 容、学术观点、数据及结构准确地摘 录下来,并按一定的著录规则与排列 方式编排起来,供读者查阅使用的一 种检索工具。 四版p.24,1.4 信息检索系统类型,文摘: 以文献的篇为报道的基本单元,1.4 信息检索系统类型,全文:通常先提供题录和文摘信息,同 时给出全文链接,供检索者选择。 四版p.24,1.4信息检索系统类型,全文链接,1.4 信息检索系统类型,全文,1.4 信息检索系统类型,1.4 信息检索系统类型,我院图书馆中外文数据库,1.5 数据库

8、(计算机检索系统)的构成,一条记录:书目,1.5 数据库(计算机检索系统)的构成,一条记录:题录,1.5 数据库(计算机检索系统)的构成,一条记录:文摘,1.5 数据库(计算机检索系统)的构成,一条记录:全文,1.5 数据库(计算机检索系统)的构成,数据库构成:文档-记录-字段三个层次 文档:文献或数据记录的集合。 顺排文档:记录(记录号大小排列)的集合。也称 为主文档。内容无序性,无法直接检索。 倒排文档:将记录中的全部文献各字段数据内容,按一定 的顺序(字母或数字顺序)排列而成的特征标示 文档。提供检索入口,提高检索效率。 四版p.25,1.5 数据库(计算机检索系统)的构成,记录号,字段

9、名,记录3:题录形式 全记录包括:篇名、作者、机构、中文刊名、年/期,顺排文档,1.5 数据库(计算机检索系统)的构成,顺排文档: 记录1,2,3 的集合,作者倒排文档: 作者姓名 记录号 陈春秀 1 陈东方 3 程文娟 3 黄茂 5 秦大河 6 秦翔 6 吴元康 2 肖中新 4,原始信息,其他倒排文档,存储,排序,.,数据库,记录号,形成,检索,检索,输出,1.5 数据库(计算机检索系统)的构成,倒排文档入口,1.5 数据库(计算机检索系统)的构成,记录:有关文献或数据的整体描述,是构成 数据库或文档的基本单元。 全文数据库中:一条记录相当于一篇文章 书目数据库中:一条记录相当于一条文摘或题

10、录 字段:记录的基本单元。对实体具体属性进行描述的结果。 根据与文献内容相关与否,分为基本字段和辅助字段。 基本字段:题目、文摘、关键词等 辅助字段:作者、作者单位、期刊名称、语种等,课堂同步练习3,以下是某一数据库中的一条记录,问( )字段属于基本字段,( )字段属于辅助字段,课堂同步练习3答案,基本字段:Title 辅助字段:Accession number、 Authors、Author affiliation等,本章要点2,?概念的拆分提取及扩展 ?检索算符与检索策略的构成,?文献检索的一般步骤,a分析研究课题,明确检索要求,b选择信息检索系统,c确定检索词构成检索策略,d实施查找并记

11、录和阅读文献,e索取原文,2 文献检索的一般步骤,四版p.26-27,2 文献检索的一般步骤,a 分析研究课题,明确检索要求 研究的学科 专业领域 文献类型 语种 年代,2 文献检索的一般步骤,已知书目信息时 取得原文,印刷型馆藏书目数据库,电子全文数据库,已知课题主题, 查找其相关 文献(针对该种情况),检索目的,b. 选择信息检索系统,2 文献检索的一般步骤确定检索词,c 确定检索词 概念拆分 概念提取 概念扩展 英文:informatin retrieval via internet 空格 空格 中文:因特网信息检索 词间没空格 “数字技术在影视艺术中的展现” 词间没空格被检索系统处理成

12、术语或词组,因而检索结果可能很少,甚至为零。 四版p.34,2 文献检索的一般步骤确定检索词,概念不拆分的检索结果,2 文献检索的一般步骤确定检索词,c 确定检索词: 概念拆分的方法:按照概念单元分成不 能再拆分的词语。 如:数字技术在影视艺术中的展现 泛指的词:技术,展现 虚词:在,中, 的 主要概念:数字, 影视,艺术,2 文献检索的一般步骤确定检索词,概念拆分后的检索结果,2 文献检索的一般步骤确定检索词,c 确定检索词: 概念拆分 概念提取 概念扩展 提取主要概念:课题研究的对象、方法有关的 特指性事物名词等。 辅助概念:泛指性的词 如:研究,探讨等 禁用词:介词、连词、冠词、动词等虚

13、词 提取主要概念,视实际情况选取辅助概念,去掉禁用词。 如:主要检索词: 数字, 影视,艺术,课堂同步练习4,分析课题“论我国知识产权保护的现状”,拆分概念并区分出主要概念、辅助概念和禁用词。,课堂同步练习5答案,拆分概念:论我国知识产权保护的现状 主要概念:知识产权、保护 辅助概念:我国 现状 禁用词:论 的 主要检索词:知识产权 保护,2 文献检索的一般步骤确定检索词,c 确定检索词 概念拆分 概念提取 概念扩展 为了取得较好的检索效果,防止漏检文献,必须在概念分析的基础上列出与主要概念有关的同族词。,2 文献检索的一般步骤确定检索词,主要概念扩展的三种方法: 基于同一概念的扩展法 基于内

14、容分析的扩展法 基于检索结果的扩展法,2 文献检索的一般步骤确定检索词,方法一:同一概念的检索词的扩展法 (1) 同一事物的学名、俗名 学名 俗名 企业 公司 自由港 自由口岸 汉语 中文 四版p.35,2 文献检索的一般步骤确定检索词,方法一:基于同一概念的扩展法 (2) 同一事物的简称、全称、音译和意译 简称 全称 沪 上海 音译 意译 CAD computer aided design internet 因特网 互联网,2 文献检索的一般步骤确定检索词,方法一:基于同一概念的扩展法 (3) 如果是英语,寻找同一名词的单复数、不同词性、英美语的不同形式等。 art arts colour

15、color stock share,2 文献检索的一般步骤确定检索词,方法二: 基于内容分析的扩展法 1)上位概念扩展法:分析检索对象的学科归属,2 文献检索的一般步骤确定检索词,2)下位概念扩展法:概念分析的树形展开法,2 文献检索的一般步骤确定检索词,方法三:基于检索结果的概念扩展法 对初步检索结果进行分析,能够得到与课题相关的新的检索概念。 如:检索“我国知识产权保护现状” 经检索阅读文献,发现“知识产权”的下位概念有:著作权、版权、专利权等,故可考虑这些概念进行扩展检索。,课 堂 同 步 练 习5,分析课题“论我国知识产权保护的现状” a. 拆分概念并区分出主要概念、泛指概 念和禁用词

16、。 b. 扩展主要概念,课 堂 练 习 2 答 案,主要概念:知识产权 保护 扩展主要概念1: 知识产权,专利权,商标权,著作权 扩展主要概念2: 保护,维护,2 文献检索的一般步骤检索算符与检索策略,检索策略的定义: 对多个检索词之间的相互关系和检索顺序作出的某种安排 。 构成检索策略: 运用计算机情报检索系统可以接受的方法,包括布尔逻辑算符等方法,表达课题检索要求的过程。 (可以接受的含义:不同的系统算符表示方法、允许应用的种类不同) p.36,2 文献检索的一般步骤检索算符与检索策略,算符: 布尔逻辑算符 定义: 规定检索词之间的逻辑关系的算符。 种类: 逻辑“与”、“或”、“非” 大多

17、数的数据库中,用AND OR NOT表示 p.36-37,2 文献检索的一般步骤检索算符与检索策略,逻辑“与” 表示方法A AND B 阴影部份为检中文献 p.37,知识产权,保护,知识产权 AND保护,检索策略: 知识产权 AND 保护 含义:输出的记录中同时 含有“知识产权”和“保护”,8960,65734,3244,2 文献检索的一般步骤检索算符与检索策略,2 文献检索的一般步骤检索算符与检索策略,逻辑“或” 表示方法A OR B 阴影部份为检中文献 p.36,专利权,知识产权,检索策略: 知识产权 OR 专利权 8960+394=93549350 去重 含义:输出的记录中至少 含有其中

18、的一个概念,8960,394,9350,知识产权 OR 专利权,2 文献检索的一般步骤检索算符与检索策略,2 文献检索的一般步骤检索算符与检索策略,逻辑“非” 表示方法A NOT B阴影部分为检中文献 p.37,专利,德国,检索策略: 专利 NOT 德国=12097 含义:输出的记录中只含有 NOT前面的检索词, 而不含有NOT后的检索词,12089,13550,12097,8,2 文献检索的一般步骤检索算符与检索策略,算符2:优先算符“()” 布尔逻辑算符运算次序:NOT AND OR 当逻辑“或”算符与其他算符混合运算时,要使用优先算符“()”来改变运算顺序。 p.37,例:查找“论我国知

19、识产权保护的现状” 的相 关文献 c. 构建检索策略,课堂同步练习6,课堂同步练习6答案,主要概念1:知识产权,专利权,商标权,著作权 主要概念2: 保护,维护 逻辑“或” 关系:知识产权,专利权,商标权 和著作权;保护,维护 逻辑“与”关系:主要概念1与主要概念2,课堂同步练习6答案,检索策略 : 分步: S1 知识产权 OR 专利权 OR 商标权 OR 著作权 S2 保护 OR 维护 S3 S1 AND S2 综合: (知识产权 OR 专利权 OR 商标权 OR 著作权) AND (保护 OR 维护),2 文献检索的一般步骤检索算符与检索策略,知识产权,保护,知识产权 AND 保护,896

20、0,65734,3244,知识产权 or专利权 or商标权 or著作权,保护 or 维护,12270,82892,4153,(知识产权 or专利权 or 商标权 or著作权) AND (保护 or 维护),概念扩展后检索结果增加了,提高了查全率,2 文献检索的一般步骤检索算符与检索策略,算符3: 截词算符 在EBSCO数据库中, 后截断截词符用*表示。 在某些英语检索词中,词干相同,词义相近,但词尾有变化时,可采用后截断截词符。 表示方法:词干* 如:要检索出computer、computers、computing、computerize、computerise等以同一词干开头的词,除了用OR

21、连接外, 用computer*检索结果中可能含computer、computers、computerize、computerise的记录。用comput*检索结果中可能含computer、 computers、computing、 computerize、computerise的记录 p.38,2 文献检索的一般步骤检索算符与检索策略,使用后截断算符需注意的三个问题: 1.截词符要紧接在词干后面,截词符和词干间不能 有空格;如: computer * 2.避免将检索词的词干截得过短,一般应在三个字 母以上;如: com* 3.从希望出现的单词中取尽可能多的公共字母作为 词干,以提高查准率. p

22、.38,2 文献检索的一般步骤检索算符与检索策略,算符4:位置算符 逻辑“与”的缺陷:不规定检索词前后位置和间隔距离,只能同时含有,查准率较低。 为了提高检索结果查准率,改进逻辑“与”算符 的缺陷,采用位置算符 位置算符:适合于两个检索词以指定间隔距离和指 定的顺序出现的场合。 Wn Nn p.39,课 后 练 习,课题概念分析和检索策略的构成 流程: 课题名称提取(参照教材45页,习题一中选择,也可自拟题目) 仿照示例完成练习 作业提交,1.经济学数学模型 2.转型期人口政策的国际比较研究 3.中外新闻传播事业史 4.中国当代文学思潮研究 5.汉语语音研究 6.碳14断代研究,课 后 练 习

23、 要 求 示 例“关于银行不良资产处理的研究”,1. 分析课题,提取出主要概念、辅助概念和禁用词。 主要概念:银行、不良资产、处理 辅助概念: 禁用词:关于,的,课 后 练 习 要 求 示 例“关于银行不良资产处理的研究”,2.利用百度百科,查找课题主题有关的背景材料,课 后 练 习 要 求 示 例“关于银行不良资产处理的研究”,3. 扩展主要概念并翻译成英文 (后输入翻译助手, 或金山词霸 主要概念:银行,不良资产 概念组面1: 银行,信用社,bank 概念组面2:不良资产, 不良贷款,呆坏账,呆账, 坏账等 概念组面3:处理 process、processing bad assets, b

24、ad loan, bad debt non-performing assets, non-performing loans, 等,课 后 练 习 要 求 示 例“关于银行不良资产处理的研究”,4.构建检索策略: 中文检索策略: (银行 or 信用社) and (不良资产 or 不良贷款 or 呆坏账 or 呆账 or 坏账) and 处理,课 后 练 习 要 求 示 例“关于银行不良资产处理的研究”,英文检索策略: bank* and (bad and assets or bad and loan or bad and debt and non-performing and assets or non-performing and loans) and process* 或ba

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论