第二讲_计算机检索基本原理.ppt_第1页
第二讲_计算机检索基本原理.ppt_第2页
第二讲_计算机检索基本原理.ppt_第3页
第二讲_计算机检索基本原理.ppt_第4页
第二讲_计算机检索基本原理.ppt_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络资源与信息检索 电气2008级2011 4 课程安排 上机实习 考试 2 1计算机检索基本原理概述2 1 1计算机检索概念2 1 2计算机检索发展2 2计算机检索基本原理2 2 1信息存储2 2 2信息检索2 3文献信息数据库2 3 1数据库的定义和类型2 3 2数据库的构成2 4计算机检索策略2 4 1检索策略构建2 4 2检索策略调整 第二讲计算机检索基本原理 2 1计算机检索基本原理概述 2 1 1计算机检索概念通过计算机进行的文献信息检索称为计算机检索 计算机检索的成功应用 为我们更为及时 准确 全面地继承 利用和发展人类的科研成果提供了先进的手段 计算机检索的优缺点 优点 1 检索的速度快 效率高 2 检索的范围广泛 全面 3 检索途径多 方便 灵活 4 检索的内容多 实时性强 5 检索辅助功能完善 缺点 1 检索费用高2 缺乏思维能力和灵活性3 文献回溯检索不强4 网上检索线路紧张时速度慢 2 1 2计算机检索发展第一个阶段 脱机检索阶段 50年代至60年代 缺点 1 地理上的障碍 远 不便于检索结果的获取 2 时间上的迟滞 定期检索 不能及时获取 3 封闭式的检索 指检索策略一经输入系统就不能更改 更不能依据机检应答来修改检索式 第二个阶段 联机检索阶段三个时期 60年代开发试验 70年代末应用阶段 80年代以后进入信息 计算机 卫星通信三维一体的新阶段 即以信息文献不受地区 国家限制而真正实现全世界资源共享为目的的国际联机信息检索阶段 联机检索阶段优点 1 速度快效率高2 检索范围广泛全面3 检索途径多 方便灵活4 检索内容新 实时性强5 检索辅助功能完善缺点 1 检索的费用高2 检索系统及其文档如数据库收录 标引 特点较难了解熟悉3 检索技术和技巧不宜掌握 著名的国际联机检索系统有美国的DIALOG系统 ORBIT系统 BRS系统以及MEDLARS系统 还有欧洲的ESA IRS系统 英国的BLAESE系统等 这些系统很快发展成为国际性情报检索系统 数据库种类及其检索存储记录都在迅速增加 如 美国的Dialog系统 如今此联机检索系统仍然是世界上最有影响的联机检索系统 第三阶段 光盘检索阶段1983年 出现了一种新的存储器 CD ROM光盘 光盘检索具有储量极大而体积微小 要求设备简单 可随地安装 使用方便 易于操作 检索费用低 不需要昂贵的联机检索通讯费用 因可随时修改检索策略而具有很高的查全率和查准率等优点 ChemicalAbstractsIndex光盘 1987 1991 由美国化学文摘社与美国剑桥光盘公司联合研制 收录1987 1991年 化学文摘 的全部内容 第四阶段 网络化检索阶段进入90年代 随着卫星通讯 公共数据通讯 光缆通讯技术以及信息高速公路事业在全世界的迅猛发展 计算机情报检索走向了全球大联网 网上资源具有具有信息的时效性 内容的广泛性 访问的快速性 搜索的网络性和资源的动态性五大特点 那么要及时 准确 有效地获取与自身需求相关的实用信息 对所有网络用户都非常具有挑战性 2 2计算机检索基本原理 一般地说 计算机检索包括信息的存储和检索两个部分 即对应数据库的建立和查找两个部分 2 2 1信息存储文献标引人员对文献内容进行主题分析 即把文献包含的信息内容分析成若干能代表文献主题的概念 并用词表 分类表等规范化标识的情报检索语言对文献主题进行标引 按所选数据库结构的索引结构输入到计算机进行存储 同时把入选文献中的其他特征标识 标题 著者 文摘 原文出处等 也一起输入计算机 编制成一系列索引数据库 这便是信息的存储 信息存储的内容 信息采集 对广泛且分散的信息资源进行有针对性的采集 信息著录 对所收集的原始信息的外表特征如题名 著者 文献出处和内容特征如分类号 主题词 摘要进行描述 形成一条条款目或记录过程 信息标引 就是根据一定的规则和程序 对文献内容进行分析 然后赋予每篇文献以一定数量的内容标识如分类号 主题词 关键词作为存贮和检索的依据 它的作用是为信息存贮与检索这两环节之间提供某种连接物 为提供快速 准确的检索途径 信息整序 就是将采集到的无序信息进行有序化组织的过程 2 2 2信息检索1 检索者对检索课题进行主题分析 明确检索范围 形成能代表情报需求的若干主题概念 2 把这些主题概念转换成计算机信息检索语言 即用数据库检索工具书对各概念选词和进行逻辑组配 编制成检索提问式 3 用计算机检索系统功能在文献资料数据库中将信息需求主题概念和数据库内文献主题概念标识进行匹配 找到命中文献 计算机检索原理的示意图 2 3文献信息数据库的基本概念 2 3 1数据库定义 至少由一种文档组成 并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合 通俗地说 数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合 数据库是计算机技术与情报检索技术相结合的产物 是现代重要的信息资源管理工具 是情报检索系统的核心部分之一 数据库的质量直接影响情报检索系统的功能和效率 类型 1 参考数据库 指引用户到另一信息源以获得原文或其他细节的一类数据库 1 书目数据库 2 指南数据库 亦称指示性数据库 例如 各种机构名录数据库 人物传记数据库 产品数据库 软件数据库 研究开发项目数据库 基金数据库等 均属此类 2 源数据库 1 数值数据库 如各种统计数据库 财务数据库 科学技术数据库等 2 文本 数值数据库 如某些公司信息库 产品市场报告数据库 读物数据库和物性数据库等 3 全文数据库 指存储文献全文或其中主要部分的一种源数据库 简称全文库 4 术语数据库 指专门存储名词术语信息一种源数据库 各种电子化辞典也包括在内 5 图像数据库 主要应用于建筑 设计 广告 产品目录 图片或照片等资料类型的计算机存储与检索 2 3 2数据库的构成从使用观点来看 数据库主要由文档 记录 字段三个层次构成 1 文档若干个逻辑记录构成的信息集合称为文档 用户选择所需的联机系统数据库时 多数数据库以单一的文档编号出现 此时文档的概念和数据库相当 但有些数据库因规模庞大 被分成若干个文档 例如 在DAILOG系统中 CASearch数据库被分成308号 1967 1971 309号 1977 1981 311号 1982 1986 和312号 1986 等文档 2 记录记录是由若干字段组成的文献单元 是计算机检索系统存储文献款目和标引的信息载体 在全文数据库中 一个记录相当于一篇完整的文献 在书目数据库中 一个记录相当于一条文摘或题录 比较典型的COMPENDEX INSPEC 美国专利数据库的记录 3 字段文献著录的基本单元 它是对实体的具体属性进行描述的结果 在书目数据库中 记录中含有题名 著者 出版年 主题词 文摘等字段 文献数据库字段分为基本字段和辅助字段两类 2 4检索策略的构建与调整 检索策略 是为实现检索目标而制定的全盘计划和方案 是对整个检索过程的谋划和指导 也可以说 所谓检索策略 就是在分析课题内容实质的基础上 确定检索系统 检索途径和检索词 并科学安排各词之间的位置关系 逻辑关系和查找步骤等 2 4 1检索策略的构建 1 布尔逻辑2 优先处理算符3 位置算符4 字段限制5 截词算符6 范围限制 1 布尔逻辑规定检索词之间的逻辑关系的算符 称为布尔逻辑算符 布尔逻辑算符包括逻辑 或 OR 逻辑 与 AND 和逻辑 非 NOT 1 或OR 用来组配具有同义或同族概念的词 如同义词 相关词等 其含义是 检出的记录中 至少含有两个检索词中的一个 OR算符的基本作用是扩大检索范围 增加命中文献量 防止漏检 提高检索结果的查全率 OR运算符还有一个去重的功能 例 中国OR美国中国 美国 2 与AND 用来组配不同检索概念 其含义是检出的记录必须同时含有所有的检索词 AND算符的基本作用是对检索词加以限定 逐步缩小检索范围 减少命中文献量 提高检索结果的查准率 在实际检索中 不同概念组面之间以及同一组面内的不同含义的词之间通常使用AND算符 例 中国AND美国中国 美国 3 非NOT 但在检索时建议使用NOT 以避免与词间的分隔符 混淆NOT算符是排除含有某些词的记录的 即检出的记录中只能含有NOT算符前的检索词 但不能同时含有其后的词 例 中国NOT美国中国 美国 2 优先处理算符 例 中国 美国 日本 法国 中国 美国 日本 法国 3 位置算符 又称邻接算符适用于两个检索词以指定间隔距离或者指定顺序出现的场合 在AND运算符查得的记录中 尽管同时含有所希望的检索词 但AND算符并不限制两个检索词的位置和出现顺序 以 communicationANDsatellite 为例 命中的文献中可能既含有 communicationsatellite 又含有 satellitecommunication 也可能既含有 communicationdevicesforsatellite 又含有 communicationlinkswithoutsatellites 等等 显然其中的有些记录与课题要求毫无关系 以DIALOG联机检索系统为例 1 W W 算符中的W含为 With 这个算符表示其两侧的检索词必须紧密相连 除开空格和标点符号外 不得插入其他词或字母 两词的词序不可颠倒 W 算符还可以使用其简略形式 例如 检索策略为 COMMUNICATION W SATELLITE 或者 communication satellite 时 系统将只检索含有communicationsatellite词组的记录 以DIALOG联机检索系统为例 2 nW nW 中的 W 的含义为 Word 它允许两词间插入最多为n个其他词 例如 检索策略为 COMMUNICATION 2W SATELLITE 时 系统将只检索含有communicationsatellite communicationthoughsatellite communicationonthesatellite词组的记录 以DIALOG联机检索系统为例 3 N N 算符的N含义为 Near 表示其两侧的检索词必须紧密相连 除空格和标点符号外 不得插入其他词或字母 两词的词序可以颠倒 以DIALOG联机检索系统为例 4 nN nN 是 N 算符的变形 不同之处为允许两词间插入最多为n个其他词 例如 检索策略为 COTTON 2N PROCESSING 时 凡含有cottonprocessing processingofcotton和processingofEgyptiancotton的文献记录都算命中 以DIALOG联机检索系统为例 5 F F 算符中F的含义为 Field 这个算符表示其两侧的检索词必须在同一字段 例如同在题目字段或文摘字段 中出现 词序不限 中间可插任意检索词 例如 pollution F control可查出controlandmanagementofindustrialpollution 检索词在同一题目字段中 由于 F 邻近算符限制性差 所以在文中检索多个叙词字段时不宜使用 F 邻近算符与AND布尔逻辑组配主要区别在于 F 邻近算符使两个检索项在同一字段 AND布尔逻辑组配中两个检索词会发生在不同字段中 以DIALOG联机检索系统为例 6 S S 算符中的S含义为 Sentence 这个算符表示其两侧的检索词必须在同一句子 子字段 中出现 两词的词序可以颠倒 例如 COMMUNICATION S SATELLITE 时 系统将检索句子 同一子字段 中含有communicationsatellite和satellitecommunication词组的记录 以上介绍的各种位置算符 按照限制程度的大小 W nW 最强 N nN 次之 S 再次之 F 的最弱 当 nN 的n 10时 其作用已经相当于 S 4 字段限制字段限制也是调整检索策略的一种重要的手段 多数检索系统对不指定字段的检索词 通常在所有基本字段中进行搜索 如果想指定在文献的题目等字段中查找所希望的检索词 就需要使用字段限制 字段限制适用于在已有一定数量输出记录的基础上 通过指定字段的方法 减少输出篇数 提高查准率 1 基本字段限制基本字段主要是指题目 叙词 识别词和文摘四个字段 基本字段限制的用法是在需要指定的字段的检索词后加上后缀运算符 和段码 例如 检索策略 COMMUNICATION TIANDSATELLITE TI 的含义是指定在题目字段中查找含有 COMMUNICATION 和 SATELLITE 两词的所有记录 字段段码可以多个连用 段码之间加 即可 例如 COMMUNICATION TI DE 的含义是指定在题目和叙词字段是查找以 COMMUNICATION 为词的所有记录 2 辅助字段限制除基本字段以外的可检索字段都可称为辅助字段 辅助字段运算符的用法是在需要指定字段的检索词 有时检索词须放在双引号内 之前加上段码和前缀运算符 例如 AU Robert S 的含义是在作者字段中查找含人名为 Robert S 的所有记录 指定刊物名称JN APPLIEDPHYSICS指定语言字段LA ENGLISH指定年份字段PY 1999 5 截词算符截词算符就是使计算机保留检索词中的相同词干部分 允许检索词可有一定范围的变化 这种功能可减少输入步骤 简化检索程序 扩大检索范围 提高查全率 不同的数据库有不同的截字符 DIALOG系统用 ORBIT系统用 功能基本相同 截词有前方一致 后方一致 中间一致和中间屏蔽四种形式 前方一致 允许词尾有所变化 后方一致 允许词头有所变化 中间一致 词头 词尾都可变化 中间屏蔽 允许词中间的某些字母有变化 例如 当使用前方一致算符时 Textile 可同时查找含有Textile和Textiles的文献 当使用后方一致算符时 Polymer可同时查找含有Homopolymer Copolymer等的文献 当使用中间一致算符 Wave 可同时查找含有Waves Microwave等的文献 当使用中间屏蔽算符时 Fib s相当于查找含有Fibers和Fibres的文献 截词是计算机检索中常用的方法 尤其是英语的单词词尾变化较多 为避免漏检 经常要使用前方一致的截词检索 6 范围限制查找范围算符的作用主要是用户利用辅助索引时 对查找文献的年限范围进行限制 等于 如在日期检索项输入 1990 则表示1990年发表的文献大于 输入 1990 大于等于 1990 不等于 1990 范围 如在日期检索项输入 1991 1994 则表示查找1991 1994年的文献其它 短语检索 自然语言检索 小结 检索策略的构建1 布尔逻辑2 优先处理算符3 位置算符4 字段限制5 截词算符6 范围限制 2 4 2检索步骤和策略调整 1 分析课题2 选择数据库3 制定检索策略4 检索策略的调整 1 分析课题 对于一般的课题来说 我们通常把该课题涉及的若干方面内容列出来 区分出课题的主体面 从属面和通用面等 所谓主体面是指课题特有的子系统 分技术性质或测试方法等 通用面是指课题那类事物甚至更大范围所共有的加工方法 分析方法 应用领域或是某种文献类型 标准 等 课题的主体面 从属面和通用面的分析最终应各以一 二个概念予以表达 CMOS器件的CAD设计分析 CMOS器件属集成电路 因此主体面拟为集成电路 CAD设计是通用技术 拟定为通用面 美国非线性电网的输电线路理论研究分析 非线性电网是课题的主体面 输电线路理论是从属面 美国是通用地理概念 属通用面 彩色电视机接收器的遥控装置的设计 彩色电视机接收器遥控装置的设计包括该类装置的原理 电路安排 器件选择以及外形方面的选择等问题 其核心问题即主体面是彩色电视机 接收器和遥控装置属从属面 设计这个概念可以考虑成通用面 注意1 隐含概念的分析课题所隐含的概念从专业角度作深入分析 才能提炼出能够确切反映课题内容的检索概念 例如 垃圾的处理 中的 处理 一词隐含着 回收 再生 等具体的处理方法再如 课题 大型机械电子渗漏仪 其中 电子 electronic 一词 在该专业中往往是用 传感器 来表示 即用 sensor transducer 或 load cell 等来表示 类似的 诸如 工艺 分析 应用 以及诸如 有机物 无机物 重金属 轻金属 高分子材料 等外延十分宽的概念 一般都应转换成具体的方法或材料 化合物来表示 注意2 核心概念的选限有些检索词中已经含有的某些概念 在概念予以排除 例如 课题 玻璃纤维增强石膏制品 从字面上看 这个课题可划为三个概念 即 玻璃纤维 增强 石膏制品 但石膏制品中加入玻璃纤维 其目的就是为了增强石膏制品 因此可将 增强 这一概念排除之外 如果有些检索概念已经体现在数据库中 这些概念也应该予以排除 如陶瓷文摘数据库 陶瓷 这一概念一般可以排除 而COMPUTER一词在计算机数据库中一般也应予以排除 另外有一些比较泛指 检索意义不大的概念 例如 发展 趋势 现状 等在不是专门查找综述类文献时也应予以排除 2 选择数据库不同的数据库 学科范围不同 检索指令不同 收费标准也不同 所以 应在检索之前阅读有关数据库的使用介绍 以便选择数据库时做到心中有数 在做联机检索时 还可以通过总索引文档了解与检索课题有关的每一个文档中的文献篇数 以选取文献量最大的一个或数个文档作为检索文档 选择数据库 我们一般遵循以下几条原则 1 按照课题的检索要求和目的 选择收录文献种类 专业覆盖面 年代跨度对口的数据库 2 当需要查找最新文献信息时 选择数据更新周期短的数据库 3 当还需要获取原文时 选择原文获取较容易的数据库 4 要选好数据库 就要弄清所选数据库的标引特征 不同检索特点等 3 制定检索策略 1 选择一个或多个与需求相适应的数据库 2 指出几个主要概念组面和检索词 并标明它们的逻辑关系 3 对每一个单独检索组面考虑同义词 近义词 用OR组配成一个概念面的单独集 4 对上述形成的概念或由OR组配成的概念面进行AND和NOT组配 并编成一个检索表达式 5 进入机检系统 输入检索表达式 6 评论中间结果 如不满意可考虑用备用策略来处理 7 反复进行检索 直到得到满意的结果 输出 打印或拷盘 4 检索策略的调整 检索策略输入检索系统后 系统响应的检索结果有时不一定能满足课题的要求 例如 输出的篇数过多 或者输出的文献数量极少 有时甚至为零 这时就需要调整检索策略 1 输出篇数过多 此时多数是由误检造成 原因可能有以下两点 1 主题词本身的多义性导致误检 例如 使用仅 DNP 邻苯二甲酸二壬酯 作为检索词查找 结果找出的文献含有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论