




已阅读5页,还剩10页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章信息检索基础知识 主要内容 一 检索语言二 检索的途径 方法和步骤三 检索功能和技术 第一节检索语言一 定义 标引人员表达检索标识和检索人员表达情报提问所共同采用共同理解的语言 称为检索语言 检索语言是一种专门的人工语言 是文献的特征和信息提问相互沟通的依据 二 检索语言所揭示的概念之间的逻辑关系 教材P10 11 1 等同关系 1 同义关系 2 准同义关系2 从属关系3 相关关系 1 交叉关系 2 矛盾关系 3 对立关系 4 并列关系 三 类型 一 按描述文献的特征分为 1 外表特征的语言 是文献上表明的 显而易见的特征 如 题名 著者 文献序号等 2 内部特征语言 描述文献内容方面的语言 如 分类 主题词 关键词标题词 单元词 叙词等 二 按组配方式分 1 先组式语言 是在检索前检索标识已经预先组配好的一种检索语言 如 标题词语言 体系分类语言等 2 后组式语言 将所有的检索词编成表 不预先组配 检索时要按照组配规则临时进行组配 如 叙词语言 三 按结构划分1 分类语言 是以号码为基本字符 用分类号表达文献主题概念的检索语言 体系分类语言 按学科体系的层次 从上到下 从总到分 逐级展开 各级类目都一一列举 事先予以固定组配 具有层垒制结构 组配分类语言 用科技术语进行组配的方式来描述文献内容 混合分类语言 是组配分类和体系分类的结合 2 主题语言 是一种描述语言 即用自然语言中的名词 名词性词组和句子描述文献所论述或研究的主题 按主题词性质不同可分为 标题词语言 叙词语言 关键词语言 单元词语言等四种 见教材P13 18 1 标题词语言 是以标题词作为文献内容标识和检索依据的一种主题语言 所谓标题词 是从文献的题目 正文或摘要中抽选出来 经过规范化处理 用以描述文献内容特征的词和词组 2 叙词语言 是以叙词作为文献内容标识和检索依据的一种主题语言 叙词是表达文献基本内容的概念单元 3 关键词语言 它是以关键词作为文献内容标识和检索依据的一种主题语言 所谓关键词 是指从文献的题目 正文或摘要中直接抽取出来 未经规范化处理的自由词汇 关键词不受词表控制 标引文献时根据内容选择恰当的词汇进行组配 以表达文献的内容特征 4 单元词语言 以单元词作为文献内容标识和检索依据的一种主题语言 所谓单元词 是指从文献的题目 正文或摘要中抽取出来的 最基本的 其概念不可再分的词 它一般未经规范化 也无词表 3 代码语言 使用代码系统进行检索的一种语言 4 引文语言 以文献著者姓名作为检索标识的一种语言 四 检索语言的作用 P11 1 对信息内容进行主题分析 概括出代表信息主要内容的若干主题概念 用检索语言对这些概念进行标引 再存入信息系统 保证不同标引人员表征信息主题概念的一致性 2 便于将标引 检索用的标识符进行相符性比较 保证检索和标引的一致性 3 保证检索结果和检索要求的一致性 4 保证信息存储集中化和系统化 使同一主题概念的信息或与主题相关的信息集中或得到揭示 表述其同一性和相关性 第二节信息检索的途径 方法 一 文献检索的途径分类途径 按照学科分类体系来检索文献的一种途径 主题途径 这是通过文献资料的内容主题进行检索的途径 著者途径 根据已知文献著者的姓名来查找文献的途径 著者包括个人著者和团体著者 名称途径 根据文献的名称来查找文献的途径 5 序号途径 以文献的编号为特征 并以编号作为检索文献的途径 如 报告号索引 专利号索引 合同号索引等 6 其它途径 有些检索工具还附有一些特殊索引 可用以通过特殊途径找到所需文献的线索 例如 科学文摘 有 图书索引 会议索引 等 可以用它们按文献类型途径 专门查找图书 会议文献等 二 信息检索的步骤 方法 参见教材P29 32 1 课题分析 分析课题的主要内容 所涉及到的学科 国内外研究的现状等 2 选择相关信息资源 数字资源 印刷文献 3 构造检索式 选择检索入口 检索式由检索词和各种组配算符构成 组配算符 operator 通常由布尔逻辑算符 AND OR not 截词符 通配符 位置算符 嵌套算符 优先算符 几种 常用的检索入口如题名 著者 主题词 关键词 引文 文摘 全文 出版年 ISSN号与ISBN号 分类号以及一些其他专业用检索点 检索点正确与否 决定着检索结果的数量与质量 4 对检索策略进行调整 对检索数量比较少时 可以进行扩检 提高查全率 比如 增加一些检索词 或补充检索词的上位类词 近义词 调整组配算符 如改 AND 为 OR 使用截词检索或放宽取消或放宽一些检索限定等 如果检索数量过多则考虑进行缩减 提高查准率 5 检索结果的评价 对检索效率 查全率 查准率 检索时间 检索成本 的评价 三 信息检索的功能和技术1 检索功能 指检索系统在检索界面上提供给用户的基本功能 与系统的检索技术是紧密结合的 比较通用的检索功能有 浏览 索引 简单检索 复杂检索 自然语言检索等 浏览 提供树状结构的知识体系 索引 按字母顺序线性排列的表单 有人名索引 出版物索引 地名索引 主题索引 机构索引等 简单检索与复杂检索 页面上通常只有一个检索框 不提供或提供很少的检索入口 不使用或很少使用组配算符 不能构造比较复杂 精细的检索式 自然语言检索 用户能在检索界面上输入一个句子或一段话 其他检索功能 1 命令检索 CommandSearch 2 二次检索 RefinedSearch 2 信息检索技术 P20 1 布尔逻辑检索 即运用布尔逻辑算符 BooleanOperators 对检索词进行逻辑组配来表达两个概念之间的逻辑关系的检索方式 逻辑或 OR 也可以写作 检索词A和B若用 OR 组配 则提问式可写为 AORB 或者 A B 检索时 数据库中的文献凡含有检索词A或者检索词B或者同时含有检索词A和B的 均为命中文献 逻辑与 AND 也可以写作 检索词A与B若用 AND 组配 则提问式为 AANDB或者A B 检索时 数据库中同时含有检索词A和检索词B的文献 是命中文献 逻辑非 NOT 也可写作 检索词A和B若用 NOT 进行逻辑组配 则可写为 ANOTB或者A B 数据库中凡含有检索词A而不含检索词B的文献为命中文献 与或逻辑算符XOR 是ExclusiveOR的缩写 检索词A和B若用与或XOR组配 可写为 AXORB或者A B 该检索式的检索结果为 含有检索词A的文献命中 含有检索词B的文献命中 但同时含有A和B的文献不命中 布尔逻辑算符的运算次序及使用注意事项 1 运算次序 检索系统的处理是从左向右进行的 但不同的系统有不同的规定 另外 在有括号的情况下 括号内的逻辑运算先执行 括号有多层时最内层括号中的运算先执行 而在无括号的情况下 则有下述几种处理顺序 NOT最先执行 AND其次 OR最后执行 DIALOG的RECON软件采用的是这种顺序 AND与NOT依其自然顺序同级最先执行 OR与XOR依其自然顺序同级其次执行 STAIRS软件 ORBIT软件采用这种顺序 AND最先执行 NOT其次执行 OR最后执行 美国UNIDAS软件采用这种顺序 UNIDAS是美国UNIVAC计算机上运行的文献检索系统 OR最先执行 AND其次执行 NOT最后执行 自然顺序 AND OR NOT谁在先就先执行谁 2 注意事项 OR逻辑 NOT逻辑 见教材P22 信息检索技术 2 截词检索 所谓截词 truncation 是指检索者将检索词在他认为合适的地方截断 而截词检索 则是用截断的词的一个局部进行的检索 凡是满足这个词局部中的所有字符 串 的文献 都为命中的文献 截词的方式由多种 按截词的位置来分 后截断 中截断和前截断三种 按截断的字符的数量来分 可分有有限截断和无限截断两种 如 后截断 physic 前截断 magnetic 中截断又称为 通用字符法 或 内嵌字符截断 常用于检索英式或美式英语单词 3 字段检索 字段检索 FieldSearch 是限定检索词在数据库记录中出现的字段范围的一种检索方法 数据库设置 提供的可供检索的字段通常分为表示文献内容特征的主题字段和表示文献外部特征的非主题字段两大类 主题字段又称基本检索字段 如有题名 叙词 标识词和文摘等 非主题字段也叫辅助检索字段 如作者 文献类型 语种 出版年份等字段 每个字段都有一个用两个字母表示的字段代码 比如 AB 表示Abstracts Author用代码AU表示等 参见教材 值得注意的是 各个检索系统所设立的字段是互不相同的 即使同一字段 也可能采用不同的字段代码 所以应事先参见系统的使用说明 信息检索技术 4 位置算符检索 即运用位置算符 PositionOperators 表示两个检索词间的物理位置关系的检索 又叫邻接检索 Proximity 这种检索技术通常只出现在西文数据库中 比如算符W W N WITH WITHIN 表达式education W school或educationWITHschool 表示 两次相邻 按输入时顺序排列 也有数据库允许顺序颠倒 nW表示两词中间允许插入n个词 参见教材 5 全文检索 指直接对原文进行检索 6 其它检索技术 嵌套检索 优先算符 Nesting 即用括号将优先检索的检索式括起来 系统会首先检索括号中的概念 限制检索 LimitingSearch 在输入检索式时 使用一些限定来缩小或约束检索结果的方法 也称检索限定 大小写敏感 CaseSensitive 指西文检索系统中对用户检索式包含的大小写的处理方法 不同的系统处理方式不同 禁用词表 StopWords 在西文数据库检索中 不能做标引词或检索词的词语 包括介词 冠词 代词 连接词 某些形容词或副词等 这部分词语由于使用频率过高 不能反映信息的实际内容 不能作为检索词使用 附录 中国图书馆图书分类法 由五大部类 22大类 6个总论复分表 30多个专类复分表组成 部类的设置采取五分的方法 即马列主义 毛泽东思想作为一个基本的部类 A 列于首位 以体现整部分类法的指导思想 对于一些内容涉及广泛 类无专属的文献统归于 综合性图书 Z 作为一个基本部类列于最后 哲学 社会科学和自然科学按其逻辑的关系列为3大部类予以排列 标记制度 采用字母与阿拉伯数字相结合的混合小数层累制 以字母顺序反映大类序列 如 英语备考精要 索书号是H310 5 S22 H代表语言 文字 3表示
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论