信息检索技术PPT课件.pptx_第1页
信息检索技术PPT课件.pptx_第2页
信息检索技术PPT课件.pptx_第3页
信息检索技术PPT课件.pptx_第4页
信息检索技术PPT课件.pptx_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二讲信息检索技术 2020 3 22 1 课程主讲内容 检索语言 检索技术 图书馆OPAC 中图法介绍 2020 3 22 2 信息检索基本原理 2020 3 22 3 2 1检索语言 检索语言 是描述文献特征 用于标引和检索的人工语言 创建检索语言的目的 是建立沟通标引与检索的桥梁 也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道 在存储的过程中用于标引信息称为标引语言 用于编制索引就称为索引语言 用于信息检索则称为检索语言 2020 3 22 4 检索语言种类 分类语言 classificationlanguage 是用分类号表达各种概念的检索标识 将各种概念按学科性质进行系统排列 反映科学知识分类体系的检索语言 主题语言 subjectlanguage 是直接以表达文献主题的语词作为检索标识 按字顺编排并通过参照系统等方法提示词间关系的检索语言 代码语言 codelanguage 是对事物的某一方面特征用某种代码系统来加以标引和排列的检索语言 例如 根据化合物的分子式这种代码语言 可以构成分子式索引系统 允许用户从分子式出发 检索相应的化合物及其相关的文献信息 自然语言是直接从原始信息中抽取出来的未经规范化处理 用以揭示信息主题概念的检索语言 2020 3 22 5 检索语言种类 2020 3 22 6 2 1 1分类语言 一种用分类号表达文献中的各种概念 并以学科性质为主对各种概念加以分类和系统排列的文献信息检索语言 通常以数字 字母或字母与数字相结合作为基本字符 采用字符直接连接并以圆点 或其他符号 作为分隔符的书写法 以基本类目作为基本词汇 以类目的从属关系来表达复杂概念 优点 清楚反映类目之间的内在联系 包括从属 并列 交替 相关等 2020 3 22 7 2 1 1分类语言 2020 3 22 8 2020 3 22 9 中图法 等级分明的科学系统O 一级类目数 理 化O1O3O4O6O7 二级类目数学力学物理化学晶体O11O12O13 三级类目古典数学初等数学高等数学O121O122O123O124 四级类目算术初等代数初等几何三角 2 1 1分类语言 2020 3 22 10 国内外常用的分类法有 国内 1 中国图书馆分类法 2 人民大学图书馆图书分类法 人大法 该分类法从1953起陆续在全国各图书馆试用 后经过多次修订再版 目前仍有许多图书馆采用该分类法 3 中国科学院图书馆图书分类法 科图法 该分类法主要用于中国科学院图书馆及其所属各科研单位的图书馆 室 国外 1 杜威十进制分类法 DecimalClassification 简称为杜威法 DDC或DC目前世界上使用最广泛 影响最大的图书分类法 已用于130多个国家的图书馆 许多分类法均是借鉴于杜威分类法产生的 2 美国国会图书馆图书分类法 LibraryofCongressclassification 简称为 3 国际十进分类法 UniversalDecimalClassification 简称 4 国际专利分类法 InternationalPatentClassification 简称IPC 2020 3 22 11 2 1 2主题语言 主题 一组具有共性事物的总称 用以表达文献所论述和研究的具体对象和问题 即文献的中心内容 主题词 表达主题概念的词汇主题语言 以主题词作为文献内容标识和检索依据的语言 以自然语言的字符为字符 用一组名词术语作为检索标识 2020 3 22 12 2 1 2主题语言 正式主题词非正式主题词 按照选词方式的不同划分 按照选词方式的不同划分 标题词 单元词 叙词 关键词 2020 3 22 13 2 1 2主题语言 2020 3 22 14 2 1 3代码语言 自然语言 2020 3 22 15 信息检索语言的未来 2020 3 22 16 2 2常用检索途径 检索途径 approach 又称为检索点 accesspoint 是检索的入口点和出发点利用信息的外部特征 题名 责任者 著者和出版者等 和内容特征 分类号 主题词和关键词等 来查询相关的信息从文献的特征出发 将其特征值与检索系统中标目数据进行计算比较 通过匹配达到检索目的 反映文献信息内容特征 分类检索和主题检索 反映文献外部特征 作者 名称和号码检索等 2020 3 22 17 检索语言与检索途径的关系 2020 3 22 18 2 3常用检索技术 2020 3 22 19 2 3 1布尔逻辑检索 用布尔逻辑算符 BooleanLogicoperator 将检索词 短语或代码进行逻辑组配来指定文献的命中条件和组配次序 用以检索出符合逻辑组配所规定条件的记录 也是目前最常用的一种检索技术 逻辑与AND 与并且并含空格逻辑非NOT 非不含排除无关结果提高查准率 逻辑或OR 或者扩大搜索范围 提高查全率 2020 3 22 20 2 3 1布尔逻辑检索 逻辑 与 具有概念交叉或概念限定关系的组配 用 或 AND 算符表示 搜索引擎常用 空格 表示 检索词A和检索词B用 与 组配 检索式为 AANDB 或者A B它表示检出同时含有A B两个检索词的记录 例 图书馆教育libraryANDeducation 2020 3 22 21 2 3 1布尔逻辑检索 逻辑 或 一种具有概念并列关系的组配 用 OR 或 或 算符表示检索词A和检索词B用 或 组配 检索式为 AORB 或者A B它表示检出所有含有A词或者B词的记录 例 会计准则OR会计核算 2020 3 22 22 2 3 1布尔逻辑检索 逻辑 非 逻辑 非 是一种具有概念排除关系的组配 用 NOT 或 算符表示 检索词A和检索词B用 非 组配 检索式为 ANotB 或者A B它表示检出含有A词 但同时不能含有B词的记录 例 能源 太阳能 2020 3 22 23 2 3 2截词检索 2020 3 22 24 2 3 2截词检索 2020 3 22 25 2020 3 22 26 2020 3 22 27 2 3 3字段检索 将检索词限定 Within 在某个或某些字段中 用以检索某个或某些字段含有该检索词的记录 方式1 通过下拉菜单选择检索字段 此时 字段名一般用全称表示 2020 3 22 28 2 3 3字段检索 方式2 输入检索字段符限定检索字段 注意 相同的字段在不同的数据库 代码可能不同 检索时需要参阅数据库代码表 2020 3 22 29 2 3 4词位置检索 又称为 临近检索 在检索词之间使用位置算符来规定算符两边的检索词出现在记录中的位置 用以检索出含有检索词且检索词之间的位置也符合特定要求的记录 2020 3 22 30 2 3 4词位置检索 W算符 With 的缩写 表示此算符两侧的检索词必须按此前后邻接的顺序排列 顺序不可颠倒 而且检索词之间不允许有其他的词或字母 但允许有空格 标点或连字符号 例 economic W recovery可检出含economicrecovery和economic recovery的记录 Wuhan W university WuhanUniversity Wuhan University 或Wuhan University nW 此算符两侧的检索词之间允许插入n个实词或虚词 但两个检索词的次序还是不能颠倒 例 economic nW recovery通过Google检出结果网页 hk gws rd ssl q economic neW recovery newwindow 1 safe strict start 10 2020 3 22 31 2 3 4词位置检索 N算符 例 Wuhan N universityWuhanUniversity Wuhan University 或Wuhan UniversityUniversity Wuhan University Wuhan UniversityWuhan nN 此算符两边的检索词之间插入词的最多数目是n个 且两个检索词的次序可以任意颠倒 例 economic nN recovery通过Google检出结果网页 hk gws rd ssl q economic nN recovery newwindow 1 safe strict nfpr 1 start 20 Near 的缩写 表示此算符两侧的检索词彼此必须相邻接 但两个检索词的前后关系可以颠倒 即查找两个连在一起的单词 但两词之间不能插入任何词 可以有空格 标点或连字符号 2020 3 22 32 2 3 4词位置检索 2020 3 22 33 2 3 5特殊检索技术 短语检索 大小写检索 在某些检索系统中 还使用双引号 标示不可分割的词组或短语 例 taxaccounting 在检索结果中taxaccounting必须是连在一起的词组 才能专指税务会计 针对大小写具有不同含义的单词或词组 在检索时需要注意其大小写格式 才能保证检索结果的准确性 例 CHINA中国china瓷器 APPLE苹果手机apple苹果WindowsANDdesign视窗设计windowsANDdesign窗户设计 2020 3 22 34 2 3 6检索式 将各检索单元 其中最多的是表达主题内容的检索词 之间的逻辑关系 位置关系等 用检索系统规定的各种算符连接起来 成为计算机可识别和执行的命令形式 例如 minicomputer DE TIORpersonalcomputer ID TI ANDPY 2008ANDLA EnglishAND AF WuhanUniv 这个检索式所表达的检索要求是 查找著者单位为武汉大学 2008年出版的关于微电脑或者个人电脑的英文文献 并要求 微电脑 一词在命中文献的叙词字段 标题字段出现 个人电脑 一词在命中文献的自由词字段出现 在互联网搜索引擎中 限定字段也是常用的语法 例如 filetype 表示在某种文件类型 如doc pdf 中查找资料 税务会计ANDfiletype PPT查找PPT格式的税务会计方面的记录 2020 3 22 35 2 3 6检索式 运算原则 和 优先运算 其次按照布尔逻辑运算原则进行 禁用词在数据库中 下列九个词不能作为检索词使用 这些词称为禁用词 AN AND BY FOR FROM OF TO THE WITH 思考 在食品数据库中检索同时含有草莓 香草和巧克力三种口味的冰淇淋 英

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论