ch6_信息检索1_第1页
ch6_信息检索1_第2页
ch6_信息检索1_第3页
ch6_信息检索1_第4页
ch6_信息检索1_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2019/10/11,1,第6章 信息检索,第一节 信息存储的基本程序与方法 第二节 信息检索的类型程序与方法 第三节 信息检索效果的评价,回,2019/10/11,2,第一节 信息存储的基本程序与方法,一、信息检索的概念 二、信息的组织 三、信息的筛选 四、信息的描述 五、信息的存储,2019/10/11,3,第一节 信息存储的基本程序与方法,一、信息检索的概念,广义的信息检索就是信息的存储与检索全过程 狭义的信息检索就是信息的检索过程 信息检索=信息存取=信息存储与检索,2019/10/11,4,一、信息检索的概念,广义的信息检索包括: 各类信息检索系统的建设(信息存储) 特定信息的检索(信息检索),,,第一节 信息存储的基本程序与方法,2019/10/11,5,信息存储就是利用检索语言对文献信息进行标引,形成文献标识并输入检索系统,为检索者提供有规律的检索途径。,原始文献-(文献标识、存储)-检索系统,第一节 信息存储的基本程序与方法,一、信息检索的概念,2019/10/11,6,信息检索就是利用检索语言对检索提问进行标引,形成检索标识,将检索标识与文献标识进行匹配,两标识相符或基本相符的则为命中的检索结果。,检索系统-(检索、检索标识)-命中信息,第一节 信息存储的基本程序与方法,一、信息检索的概念,2019/10/11,7,第一节 信息存储的基本程序与方法,一、信息检索的概念,2019/10/11,8,一般情况下,信息检索的结果可以是与检索课题有关的信息源本身,也可以是某信息源的出处或者线索。 信息素养 = 信息意识 + 信息检索能力,第一节 信息存储的基本程序与方法,一、信息检索的概念,2019/10/11,9,二、信息组织,概念:对大量的信息进行收集,并对其进行组织和控制,使之有序化。 实质:无序信息流有序信息流 内容:信息筛选、信息描述、信息存储,第一节 信息存储的基本程序与方法,2019/10/11,10,三、信息的筛选,对原始信息有无作用进行挑选和鉴别 方法:直观判断、分析、讨论、 专家裁决、数学核算、现场,第一节 信息存储的基本程序与方法,2019/10/11,11,四、信息的描述(著录与标引),信息描述是根据一定的规则和标准对信息的外表特征和内容特征进行全面描述并给予记录的过程。 信息描述 = 信息著录与标引,第一节 信息存储的基本程序与方法,2019/10/11,12,四、信息的描述(著录与标引),信息外表特征是指信息的名称、来源、加工者、类型及表现形式等内容 期刊论文:题名、作者、出处 图书:书名、作者、出版项,第一节 信息存储的基本程序与方法,2019/10/11,13,四、信息的描述(著录与标引),信息内容特征的描述是在对信息内容进行分析的基础上,根据一定的规则对信息的内容属性予以标志的过程。,第一节 信息存储的基本程序与方法,2019/10/11,14,四、信息的描述(著录与标引),信息内容特征描述用的是信息组织语言 信息组织语言:人工语言和自然语言 人工语言:分类语言和主题语言(结构原理),第一节 信息存储的基本程序与方法,2019/10/11,15,四、信息的描述(著录与标引),信息内容描述方法: 1.地区标引 2.时间标引 3.分类标引 4.主题标引 一般以内容分类标引和主题标引为主,第一节 信息存储的基本程序与方法,2019/10/11,16,四、信息的描述(著录与标引),分类标引: 以学科分类代码为依据按知识门类的逻辑次序来组织信息资源 用分类号和类名来揭示信息的主题概念 中图法(5个基本部类22个基本大类),第一节 信息存储的基本程序与方法,2019/10/11,17,四、信息的描述(著录与标引),主题标引: 以能表达信息主题的语言作为主题标识来组织信息资源,按组配方式分:先组式主题法和后组式主题法 按是否受控分:受控主题法和非受控主题法 按选词方式分:标题词法、元词法、叙词法、关键词法,标题词:表述信息主题内容的规范化词(先组式主题法) 元词:标引信息主题的词语是字面上不能再分的基本词语(后组式主题法) 叙词:表述信息主题内容的规范化词(后组式主题法) 关键词:表述信息主题内容的非规范化词(后组式主题法),第一节 信息存储的基本程序与方法,2019/10/11,18,四、信息的描述(著录与标引),信息著录与标引的标准格式: 1、传统著录 2、机读目录(MACR) 3、元数据著录(Metadata),第一节 信息存储的基本程序与方法,2019/10/11,19,五、信息的存储,信息存储:将经过加工处理的信息资源按照一定的方式记录在相应的信息载体上,组织成系统化的检索系统。,存储:原始文献 - 文献标识.存储 - 检索工具,第一节 信息存储的基本程序与方法,2019/10/11,20,五、信息的存储,广义的信息检索系统就是信息的存贮和检索的系统 狭义的信息检索系统就是信息检索工具,第一节 信息存储的基本程序与方法,2019/10/11,21,五、信息的存储,分类: 手工信息检索系统和计算机信息检索系统 发展: 手工信息检索系统 计算机信息检索系统,第一节 信息存储的基本程序与方法,2019/10/11,22,五、信息的存储,手工信息检索系统: 1.书本式检索工具: 期刊式检索工具、单卷式检索工具、附录式检索工具 2.卡片式检索工具:,第一节 信息存储的基本程序与方法,2019/10/11,23,五、信息的存储,书本式手工信息检索工具的结构 文前部分:目次表 正文部分:目录、题录、文摘 索引部分:分类、主题、著者索引 附录部分:一览表,第一节 信息存储的基本程序与方法,2019/10/11,24,五、信息的存储,手工信息检索工具的著录对象 目录:单位出版物 题录:单位出版物中的单篇文献 文摘:单位出版物中的单篇文献 索引:单位出版物或单篇文献中的知识单元,单位出版物: 以文献独自名称作为一个完整出版单位的出版物 一本书现代信息检索 一种刊四川农业大学学报,第一节 信息存储的基本程序与方法,2019/10/11,25,五、信息的存储,手工信息检索工具的著录项目 目录: 出版物名称-编著者-出版项附注项 题录: 题目/著者/出处 文摘: 题目/著者/出处、文摘 索引: 知识单元-顺序号(或页码) 期刊论文的文献出处:刊名、年、卷、期、页码,第一节 信息存储的基本程序与方法,2019/10/11,26,五、信息的存储,计算机信息检索系统的类型 单机信息检索系统(50年代初60年代中期) 联机信息检索系统(60年代中70年代中期) 光盘信息检索系统(70年代中80年代中期) 网络信息检索系统(80年代中 ),第一节 信息存储的基本程序与方法,2019/10/11,27,五、信息的存储,计算机信息检索系统的构成 硬件设备 :主机、检索终端、通信设备、 输入输出设备 软件设备 :系统软件、应用软件、数据库,第一节 信息存储的基本程序与方法,2019/10/11,28,五、信息的存储,数据库:至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。 字段 记录 数据库,第一节 信息存储的基本程序与方法,2019/10/11,29,五、信息的存储,每条记录由3种字段构成: 检索系统存取号:计算机识别码(AN) 基本索引字段:表达文献内容特征的字段 辅助索引字段:表达文献外表特征的字段,第一节 信息存储的基本程序与方法,2019/10/11,30,五、信息的存储,检索系统的存取号(AN) 检索系统规定的能计算机被识别的记录号码 同一数据库中每篇文献记录只有一个存取号 存取号一般由69位数字组成,第一节 信息存储的基本程序与方法,2019/10/11,31,五、信息的存储,基本索引字段 表达文献记录的内容特征的字段 篇名字段(Title Field,TI) 文摘字段(Abstract Field,AB) 叙词字段(Descriptor Field,DE) 自由标引词字段(Identifier Field,ID),第一节 信息存储的基本程序与方法,2019/10/11,32,五、信息的存储,辅助索引字段 表达文献外表特征的字段 作者(AU)、 出版年份(PY)、语种(LA) 期刊名称(JN)、存取号(AN) 更新周期(UD)、文献类型(DT),第一节 信息存储的基本程序与方法,2019/10/11,33,五、信息的存储,一个数据库应至少包括一个顺排文档和一个倒排文档 顺排文档:数据库的全记录按存取号大小排列而成的文档,相当于印刷型检索工具的正文部分。 倒排文档:以信息外表特征或内容特征标识而建立的有序文档,相当于印刷型检索工具的索引部分。 信息检索系统中凡可供检索的字段都有倒排文档,第一节 信息存储的基本程序与方法,2019/10/11,34,第二节 信息检索的类型程序与方法,一、信息检索的类型 二、信息检索的程序 三、信息检索的方法,2019/10/11,35,第二节 信息检索的类型程序与方法,一、信息检索的类型,1、按检索对象划分6类 文献检索(Document Retrieval) 数据检索(Data Retrieval) 事实检索(Fact Retrieval) 全文检索(Full Text Retrieval) 图像检索(Image Retrieval) 超文本检索(Hyper Text Retrieval),2019/10/11,36,第二节 信息检索的类型程序与方法,一、信息检索的类型,2、按信息检索手段划分2类 手工信息检索 计算机信息检索,2019/10/11,37,第二节 信息检索的类型程序与方法,3、按检索系统的工作方式划分4类 脱机检索(Off-line Retrieval) 联机检索(On-line Retrieval) 光盘检索(CD-ROM Retrieval) 因特网检索(Internet Retrieval),一、信息检索的类型,2019/10/11,38,第二节 信息检索的类型程序与方法,4、按检索工具类型划分6类 目录检索(Catalog Searching) 题录检索(Title Searching) 文摘检索(Abstract Searching) 索引检索(Index Searching) 全文检索(Full Text Searching) 参考工具检索(Fact and Data Searching),一、信息检索的类型,2019/10/11,39,第二节 信息检索的类型程序与方法,二、信息检索的基本程序,信息检索的程序: 根据课题要求,选择相应的信息检索工具及系统,采用适当的途径及技术,查找所需文献信息的过程.,2019/10/11,40,第二节 信息检索的类型程序与方法,2.1 分析检索课题明确检索需求 不同的检索课题,同一课题的不同研究阶段的信息需求不一样。 检索目的、学科范围、主题概念、语种范围、时间范围、文献类型、文献数量,二、信息检索的基本程序,2019/10/11,41,第二节 信息检索的类型程序与方法,二、信息检索的基本程序,2.2 选择信息检索系统 2.21 依据 课题内容范围、检索工具的特点,2019/10/11,42,第二节 信息检索的类型程序与方法,二、信息检索的基本程序,2.2 选择信息检索系统 2.22 方法 1、检索工具指南 2、浏览检索工具 3、熟悉的检索工具 4、向工作人员请教 5、网络在线选择,2019/10/11,43,第二节 信息检索的类型程序与方法,二、信息检索的基本程序,2.2 选择信息检索系统 2.23 原则 1、收录的文献信息需含盖检索课题的主题内容 2、就近原则 3、质量高、信息量大、报道及时、索引齐全、使用方便 4、记录来源、文献类型、文种尽量满足课题要求 5、数据库是否有对应的印刷型版本 6、经济条件,2019/10/11,44,第二节 信息检索的类型程序与方法,二、信息检索的基本程序,3.2 确定检索途径 检索课题的已知条件 检索系统提供的检索途径,2019/10/11,45,第二节 信息检索的类型程序与方法,二、信息检索的基本程序,3.2 确定检索途径 3.21 以文献外部特征为检索途径 题名途径:书名/刊名/篇名 责任者途径:作者/编者/译者/专利权人/出版机构 号码途径:标准号/专利号/报告号/索取号 优点:以字顺或数字排列和检索,不易漏检,2019/10/11,46,第二节 信息检索的类型程序与方法,二、信息检索的基本程序,3.2 确定检索途径 3.22 以文献内容特征为检索途径 分类途径:分类目录/分类索引/族性检索 主题途径:主题索引/主题目录/主题词表/特征检索,2019/10/11,47,第二节 信息检索的类型程序与方法,二、信息检索的基本程序,3.2 确定检索途径 3.22 以文献内容特征为检索途径 确定检索词的方法: 规范化词;国际上通用的词;隐性概念;核心概念;联机选词; 注意检索词的缩写词、词形变化、英美不同拼法,2019/10/11,48,第二节 信息检索的类型程序与方法,二、信息检索的基本程序,4.2 编制检索(提问)式 检索式是既能反映检索课题需求又能为计算机识别的表达式 最简单的检索式由一个检索词构成 检索式 = 检索词 + 关系算符 如:rice (rice in ti) and py=2007,2019/10/11,49,第二节 信息检索的类型程序与方法,二、信息检索的基本程序,4.2 编制检索(提问)式,4.21 布尔逻辑算符 逻辑与 (与、and、AND、 * ) A and B AB 逻辑或(或、or、OR、+) A or B A;B;AB; 逻辑非(非、not、NOT、-) A not B AAB 执行优先顺序not、and、or,2019/10/11,50,第二节 信息检索的类型程序与方法,二、信息检索的基本程序,4.2 编制检索(提问)式,4.22 位置逻辑算符 (W)词序不变、两词间只能有空格或连字符 (nW)词序不变、两词之可插n个词 (S)词序可变、两词同时出现在同一句子中 (F)词序不变、两词同时出现在同一字段中 (C)词序可变、两词同时出现在同一记录中,2019/10/11,51,第二节 信息检索的类型程序与方法,二、信息检索的基本程序,4.2 编制检索(提问)式,4.23 截词检索算符 1)后截断前方一致检索 disease?disease、 diseases 2)前截断后方一致检索 ?tioninformation、dictation、 3)中截断前后方一致检索 wom?nwoman、women 4)前后截断中间一致检索 ?wave?waves、icrowave、,2019/10/11,52,第二节 信息检索的类型程序与方法,二、信息检索的基本程序,4.2 编制检索(提问)式,4.24 字段限定检索 rice.ti T=小麦 (gene in ti) and la=chinese,2019/10/11,53,第二节 信息检索的类型程序与方法,二、信息检索的基本程序,5.2 查阅检索工具调整检索策略 检索式 检索 实际检索时很难一次成功 调整检索策略 满意,2019/10/11,54,第二节 信息检索的类型程序与方法,二、信息检索的基本程序,6.2 检索结果的处理 筛选符合课题要求的信息 选择检索结果的著录格式 阅读、打印、套录、摘录检索结果 索取原始文献,2019/10/11,55,三、信息检索的方法,第二节 信息检索的类型程序与方法,信息检索 方 法,工具法,引文法,循环法,2019/10/11,56,3.1 工具法 概念:利用各类检索工具直接查找信息的方法 类型:顺查法、倒查法、抽查法,三、信息检索的方法,第二节 信息检索的类型程序与方法,2019/10/11,57,3.2 引文法 概念:利用文献后面的参考文献查找信息的方法 特点:所检文献专指度较高、信息越来越旧、容易误导;在检索工具短缺时采用此法,三、信息检索的方法,第二节 信息检索的类型程序与方法,2019/10/11,58,3.3 循环法 概念:工具法和引文法交替使用的检索方法 特点:优势互补 了解课题发展动态,三、信息检索的方法,第二节 信息检索的类型程序与方法,2019/10/11,59,选择信息检索方法的原则 : 1、有检索工具时用工具法或循环法 2、无检索工具时用引文法 3、新兴学科或知识更新快的学科课题用倒查法 4、查全率要求高用顺查法 5、已经掌握课题发展的规律特点用抽查法,三、信息检索的方法,第二节 信息检索的类型程序与方法,2019/10/11,60,第三节 信息检索效果的评价,信息检索效果:用户利用信息检索系统 进行检索时所产生的有效结果,2019/10/11,61,第三节 信息检索效果的评价,检索效果的评价指标: 查全率(Recall Factor) 查准率(Precision Factor) 漏检率(Omission Facto

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论