第2章信息检索的基本知识new_第1页
第2章信息检索的基本知识new_第2页
第2章信息检索的基本知识new_第3页
第2章信息检索的基本知识new_第4页
第2章信息检索的基本知识new_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章信息检索的基本知识 第一节信息检索的意义第二节基本概念第三节检索系统第四节信息检索语言第五节信息检索工具第六节文献检索的途径和方法及步骤 文献 信息 检索的作用 有利于减少课题的重复研究 提高科研成功率有助于节约时间 提高科研效率切忌用来拼凑论文 第二节文献检索的基本概念 广义概念 将信息按一定的方式组织和存储起来 并根据信息用户的需要找出有关的信息过程 故全称 信息的存储与检索 信息检索的定义 文献检索 文献信息的存储 文献检索两个过程 情报检索模型即是 匹配 模型 目的 为了解决特定的文献需求和满足用户的需要 狭义概念 仅指上述过程的后半部分 即从信息集合中找出所需要的信息的过程 相当于人们通常所说的信息查寻 InformationSearch 信息检索的定义 根据信息检索或查找的内容可划分为文献检索 事实检索和数据检索 根据信息检索手段可划分为手工检索和计算机检索 信息检索的类型 文献检索 DocumentRetrieval 是以文献为检索对象 从已存贮的文献库中查找出特定文献的过程 例如 关于自动控制系统有些什么参考文献 这就需要我们根据课题要求 按照一定的检索标识 如主题词 分类号等 从所收藏的文献中查出所需要的文献 数据检索 DataRetrieval 是以数据为检索对象 从已收藏数据资料中查找出特定数据的过程 例如 查喜马拉雅山有多高 杭州六和塔建于何年等 事实检索 FactRetrieval 即通过对存贮的文献中已有的基本事实 或对数据进行处理 逻辑推理 后得出新的 即未直接存入或所藏文献中没有的 事实过程 例如 本学年成绩优秀的学生有多少 某同类产品中 那种牌号的销量最大 数据和事实检索是要检索出包含在文献中的具体情报 文献检索则是要检索出包含所需要情报的文献 文献检索是最典型和最重要也是最常用的情报检索 手工检索即用人工来处理和查找所需信息的检索方式 计算机检索利用计算机和一定的通信设备所查找所需信息的检索方式 第三节检索系统检索系统是根据特定需要利用一定的检索设备 从整理加工并存贮在某种载体上的文献集合中检索出所需情报的系统 它根据检索设备和载体的不同 可以分为手工检索系统和计算机检索系统 手工检索系统由手工检索设备 如书本式目录 文摘 索引 卡片柜等 检索语言 文献库等构成 特点 它使用方便 成本低廉 但检索效率和响应时间均较差 计算机检索系统主要由计算机检索设备 联机检索设备 光盘检索设备 微机检索设备 缩微品机检设备等 检索语言 文献库等构成 特点 检索效率高 响应速度快等特点 但是成本和检索费用较高 在我国 这两种检索系统将在很长一段时期内并存使用 相互补充 第四节检索语言一 检索语言的概念检索语言是信息检索系统存储与检索所使用的共同语言 检索语言是一种人工语言 用于各种检索工具的编制和使用 并为检索系统提供统一的 作为基准的 用于信息交流的符号化或语词化的的和语言 二 检索语言的分类检索语言可分为描述外表特征和描述内容特征的检索语言 描述外表特征的检索语言有书名 著者 机构 号码 描述内容特征的检索语言有分类语言和主题语言 分类语言用分类号表达各种概念 将各种概念按学科性质进行分类和系统排列 世界上比较著名的分类法有 国际专利分类表 IPC 杜威十进分类法 DDC 美国国会图书馆图书分类法 LC 我国在图书情报系统广泛采用的有 中国图书馆图书分类法 简称中图法 和 中国科学院图书馆图书分类法 简称科图法 中图法 以拉丁字母与阿拉伯数字相结合的混合制号码作为类目的分类号 将人类的文献分为五个基本部类 22个基本大类 五大部类是 1 马列主义 毛泽东思想2 哲学3 社会科学4 自然科学5 综合性图书 示例 中图法 社会科学 自然科学 中图法体系结构示意图 分类号越长 表示的学科范围越窄 为了醒目和方便读写 分类号中的阿拉伯数字部分由左至右每隔3位加一个圆点 如G252 7 TP317 1 TN919 8 C53 126 2 4C53代表分类号126代表种次号2代表第二版4代表第四辑丛书 排架就是将已经加工整理的文献按照一定的依据和次序存放在书架上的过程 一 索取号索取号是图书馆对书 刊进行排架和索取的依据 因此通常也称为排架号 对于图书又可称为索书号 对于期刊则又可称为索刊号 索取号的构成一般至少分为两段号码 第一段号码是书 刊排架的主要依据 第二段号码是第一段号码相同时进一步区分和排架的次要依据 因此 索取号的编码方法与各图书馆的排架方法是一致的 总之 索取号的任何编码方法 其目的就是为了科学地组织书刊的排架 尽量使每一本书或刊在书架上都有其唯一的位置和次序 方便馆员管理和读者索取 图书馆书刊排架的基本原理 二 图书的排架方法图书排架的方法有多种 比较科学 并被多数图书馆采用的是分类排架法 而分类排架的直接依据是索取号 这时索取号的构成 分类号 书次号 分类排架时 首先按分类号顺序排 如果分类号完全相同时 再按书次号顺序排 图书分类号 使同一学科主题的图书相对集中地排列在书架上 起到方便管理和读者查找的作用 多以 中图法 为分类依据 书次号 使同类号的图书再按其它的方法区分并排列 各图书馆的编号方法有所不同 有编年法 图书入馆流水号 著者号等等 如我馆采用入馆流水号 索书号位于图书书脊标签上 如 我馆收藏的 移动通讯基础 一书 书脊标签上有 TN929 5 17 索书号 其中 TN929 5 为分类号 17 为书次号 到书库索取图书时 读者可根据图书的索取号到书库中相应的排架位置快速查找 图书馆书刊排架的基本原理 四 主题检索语言标题词 经规范化处理的词或词组 先组式语言 see seealso叙词 单元词 经规范化处理的词或词组 后组式语言 可自由灵活组配关键词 未经规范化处理 直接从文献题名 原文或文摘中选取的能反映原文主题内容的自由词汇 第四节信息检索工具检索工具的定义检索工具是人们用来存储 报道和查找文献的工具 它具有存储和检索的功能 4个基本条件 1 能够详细著录文献的外部特征和内容特征 2 具有即定的检索标识 3 全部文献必须根据标识 系统科学地排列成为一个有机地整体 4 能够提供多种检索途经 检索工具的作用 1 文献高度集中 2 提高检索速度 3 提供有规律的检索 4 消除语言障碍 检索工具的分类 一 按收录范围分 有综合性 专题性 陶瓷文摘 和专业性 数学文摘 二 按著录方式分 有目录型 题录型 索引型 文摘型和全文型 三 按出版方式分 有印刷型 卡片型 书刊型 缩微型和电子型 联机数据库型 软盘型 光盘型 一 按著录方式划分 1 目录型2 题录型3 文摘型4 全文型 1 目录型 目录型检索工具是以整本图书或期刊的外部特征为报道对象 报道内容 图书 书名 著者 出版地 出版者 出版时间期刊 刊名 编著出版地 出版者 创刊年 2 题录型 题录型检索工具是以书刊中的某篇文献 或章节 的外部特征为报道对象报道内容 文献篇名 著者 刊名出版年 月 卷 期 页码 3 文摘型 报道对象与题录相同 但对文献内容揭示的程度较题录更深入更具体 增加了文献的摘要文摘按其内容特征可分 指示性文摘 报道性文摘 指示 报道性文摘 4 全文型 报道对象与题录相同 但增加了文献的全文按载体不同 全文数据库 中文 外文 期刊等印刷型 二 按出版方式划分 印刷型 书本式 卡片式 缩微型电子型 联机型 磁性载体 计算机及通信网络 光盘型 光盘 计算机及光驱 网络型 Internet 网络数据库 文献检索方法 1 工具法2 追溯法3 交替法 1 工具法 1 顺查法 以课题研究的起始年代为起点 由远而近按时间顺序逐年查找的方法 2 倒查法 由近而远按时间顺序逐年查找的方法 3 抽查法 针对学科发展的高峰期 选取一定时间段进行查找的方法 2 追溯法 是指利用已知文献后所附的参考文献入手 逐一追查原文 再从此原文后所附的参考文献逐一查找下去 直到获得满意的结果 3 交替法 又称循环法 分段法 综合法 即利用检索工具法和追溯法交替使用的一种方法 第五节文献检索的途径和方法及步骤 文献检索途径 1 分类途径2 主题途径3 著者途径4 其它途径 1 分类途径 是从学科分类角度来查找文献的一种途径 利用目次表或目录来查找 检索文献的关键 分析课题 确定课题所属的类目与检索工具目次表中的类目相匹配 才能查准 特点 族性检索 适合从学科体系出发泛指性比较强的课题的检索 但不适合专指度高的课题以及新兴学科 交叉学科 边缘学科的课题的检索 2 主题途径 从文献主题内容角度来检索文献的一种途径 利用检索工具后所附的主题索引 以主题词作为检索入口 检索文献的关键 分析课题 选准主题词 并了解主题索引的结构和编排 特点 特性检索 适合比较具体专深的课题以及新兴学科 交叉学科 边缘学科的课题的检索 3 著者途径 在已知著者姓名的情况下 利用著者索引作为工具检索文献的途径 一般著者索引 个人或团体 均按著者姓的字母顺序编排 姓在前 名在后 姓用全称 名用缩写 4 名称途径根据文献的名称查找文献的途径 一般多用于查找图书 期刊 会议名称 常用于目录性检索工具 系统 如 书名目录 期刊目录 期刊联合目录 等 5 序号途径以文献的编号为特征 检索文献的途径 根据一些文献类型的特有标识 如科技报告的报告号 专利文献的专利号 入藏号 合同号 技术标准的标准号 ISSN ISBN等作为检索点 6 其他途径如分子式 元素符号 数字等 文献检索的步骤文献检索一般分为5大步骤 1 分析研究课题 明确检索要求 时间 范围2 查找文献线索3 确定检索策略4 索取原始文献信息5 检索结果评价 1 分析研究课题 明确检索要求 时间 范围1 分析课题的实质内容以及所涉及的学科范围及相互关系 抽出主题概念 确定逻辑组配2 明确需要的文献种类 语种 年代以及文献量 3 明确检索的侧重点 对查新 查准 查全的指标要求 2 查找文献线索1 做好检索记录2 文献类型的识别 3 确定检索策略1 选择检索工具 内容 专业性 技术手段 更新 性价比等2 确定检索途经3 优选检索方法4 制定 调整检索策略 4 索取原始文献信息1 掌握两种还原法 缩写与全称转换 非拉丁语系出版物名称还原2 向著者索取原始文献3 利用馆藏目录 公共查询系统 联合目录获取原始文献4 利用网上全文数据库获取原始文献5 利用网上全文传递服务检索原始文献6 利用网上出版社 杂志7 利用文摘数据库的原文服务 5 检索结果评价提高查全率和查准率降低漏检率和误检率 1 检全率检全率 简称R 是指系统在进行某一检索时 检出的相关文献量与系统文献库中相关文献总量的比率 可用下式表示 检全率是衡量从信息检索系统中检出相关文献能力的尺度 2 检准率检准率 简称P 是指系统在进行某一检索时 检出的相关文献量与检出文献总量的比率 可用下式表示 检准率是反映每次从该系统文献库中实际检出的全部文献中有多少是相关的 是衡量信息检索系统精确度的尺度 3 漏检率漏检率是指漏检相关文献量与在检索系统中相关文献总量的比率 是衡量信息检索系统漏检文献的尺度 可用下式表示 4 误检率误检率是指误检 检出不相关 文献总量的比率 是衡量利用信息检索系统误检文献的尺度 可用下式表示 查全率与查准率是呈反比关系的 要想做到查全 势必要对检索范围和限制逐步放宽 则结果是会把很多不相关的文献也带进来 影响了查准率 企图使查全率和查准率都同时提高 不是很容易的 强调一方面 忽视另一方面 也是不妥当的 应当根据具体课题的要求 合理调节查全率和查准率 保证检索效果 如何提高查准率 提高专指度 用下位词或换专指性强的自由词 用逻辑乘 and 或not相关检索项 如查找克林顿 但不要关于莱温斯基的信息 检索式 克林顿not莱温斯基用文献外部特征限制输出结果 在中文图书中查找 用 二次检索 条件检索 排除误检 限制检索字段 指定邻接和优先关系 检索时常见问题分析 造成误检或漏检的原因 1 课题分析不透 学科归属 不清2 语言 不通3 主题概念不是大了 就是小了4 同义词库 不全5 核心词太多6 选择的检索工具专业性不够 1 课题分析不透 学科归属 不清 对课题的真正含义和学科归属不清楚 会造成最大的失误 如查找有关 玻璃钢 制造工艺方面的资料 如果从字面含义着手 以为它属玻璃工业或金属材料的范畴 而事实上 玻璃钢既不属硅酸盐工业里的玻璃类 也不属金属材料里的钢铁制品 而是合成树脂与塑料工业里的增强 填充塑料制品 如果没有认真分析课题的真正含义和学科归属 就匆匆着手检索 往往会欲速不达 或多走弯路 甚至导致失败 2 语言 不通 基于计算机的文献检索的特点与其说是人机对话 不如说是标引人员与检索人员的对话 只有标引人员与检索人员所表达的 语言 一致 才能顺利实现文献检索 往往检索工具使用的是标引语言 而检索者使用的多数是自由词 未经规范化 这样在表达方式上有差异 造成了检索障碍 如 自由词 维生素C vitaminC 标引词 抗坏血酸 ACID ASCORBIC 自由词 艾滋病 AIDS 标引词 ACQUIREDIMMUNODEFICIENCYSYNDROME 后天免疫缺陷综合症 又如 沙示 SARs 禽流感 Birdflu 3 主题概念不是大了 就是小了 检索者不知道如何正确定位课题的主题概念 往往会不是大了 就是小了 初学者更容易把概念偏大 主题概念的范畴太大造成大量没用的文献被误检 太小造成重要的的文献被漏检 如 石油工业的废水处理 若用 废水处理 作为主题概念 就会太大 在 中国期刊网 中有1400多篇 如果我们知道石油工业主要排放的是毒性较大的含酚废水 那么主题概念定位在 含酚废水处理 就比较恰当了 此时查出的文献大概有20 30篇 4 同义词库 不全 往往同一件事情或事物 不同作者喜欢用不同的词来表达 这就造成了庞大的同义词库 如果偏偏你头脑中的 同义词库 不是那么全 造成漏见就不足为怪了 例 艾滋病 艾滋病 爱滋病碳纤维 碳纤维 炭纤维聚四氟乙烯 PTFE polytetrafluoroethylene Teflon设备 apparatus equipment device 汽车 car automobile vehicle 5 核心词太多 对于由A B C D E多个主题组合的多主题概念课题 如果将所有主题混在一起同时组配 会造成 零结果 现象 因为 只要A B C D E其中之一的检索结果为零 则经过布尔逻辑 和 的运算 检索结果 A B C D E 0 6 选择的检索工具专业性不够 E journals 中文 中国期刊网 万方数据库系统 维普 英文 Elsevier Searchengine 北大天网 百度 GooGle Yahoo Openfind 解决上述问题的方法 1 掌握文献和文献检索的基本知识2 熟悉各种文献信息的分布3 掌握文献检索的基本技巧 检索算符 检索语法 常用搜索引擎和数据库的特殊技巧4 不断实践 不断归纳总结 如 关键词的选择技巧 我们了解常规搜索方式 但每个人都会搜索出不同结果 为什么 核心问题在于关键词选择不同 在当今互联网上 你永远不会愁你找不到东西 而是东西太多 你无法找到你需要的东西 因此搜索效率便成为最重要的一环 搜索效率直接关系到搜索的关键词的选择 关键的分析必须保证两点 一是专业性 即这个词是很精的 可能简化你的搜索结果 因而词甚至可以怪一点 尽量避免大众化的词 如net site等 即使需要大众化词 如password username 但若加入一两个特征词 则结果将大大简化 二是具有代表性 也即这个词具有代表意义 也即它在包含你所需网页内 它在出现的可能 以免一些有用信息被遗漏 有机检索理念 强调的是有计划 有组织 协调检索过程 使检索变得简单化 高效化 为工作和学习带来更多的便捷 首先应该了解为什么要检索 什么东西需要我检索 在什么地方检索 如何高效率地检索到自己的所需 如何应对检索不到的文献和资料 检索后应该怎么做 有机检索的精髓 在知识层面上要了解全球数据库的概况 使检索具有方向性和合理性 需要大家熟悉全球大的数据库 不包括个人主页等检索方式了 数据库不仅是文献数据库 如OVID sciencedirect humanpress blackwell BP ACS CA BA 还包括专业数据库 当然 检索内容还包括用google对图像 PPT PDF 等检索 下一代检索也许会用微软的longhorn的新的检索工具了 因此要求大家对检索知识必须有个初步的掌握 检索不要贪多 一定要精 使检索达到最简化和最优化 尤其是检索文献 有人喜欢

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论