计算机检索技术概述.ppt_第1页
计算机检索技术概述.ppt_第2页
计算机检索技术概述.ppt_第3页
计算机检索技术概述.ppt_第4页
计算机检索技术概述.ppt_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四讲 计算机检索技术概述 3 1计算机检索简况3 2计算机检索的相关概念3 3检索式的拟订3 4检索步骤 3 1计算机检索简况 计算机检索指利用计算机及相关设备进行的文献信息检索 信息检索技术正向两个方向迅速发展 一是在深度上提高管理和组织信息的能力传统信息检索向全文文本 多媒体 多载体 多原理等新型信息检索的发展 二是在广度上提高管理和组织信息的能力文献资源的网络化和分布化 面向Internet中浩瀚无垠的资源 1 检索系统信息检索系统包括两个子系统 存储子系统和检索子系统 2 联机检索利用与检索系统或信息中心的主机连接 在中央处理机控制下查询系统内的数据库 并能够与系统实时对话 随时调整检索策略 3 数据库是在计算机存储设备上按一定方式存储的相互关联的数据集合 3 2计算机检索的相关概念 字段 field 如在数据库中题名 作者 作者单位 期刊名 摘要 全文等等均是字段 一条记录由多个字段值组成 对计算机检索来说字段相当于检索入口 字段 Field 记录 Record 文档 File 数据库 常用字段缩写 TI Title文章题目AB Abstract文章摘要KW KeyWord关键词AU Author作者AF Affiliation作者单位SO Source文章来源 刊名信息等 ISSN ISBN InternationalstandardSerial book NumberPY Publicationyear出版年LA Language语种 记录 Record 由若干字段组成的文献单元 在全文数据库中 一条记录相当于一篇完整的文献 在书目数据库中 一条记录相当于一条文摘或题录 文档 File 由若干个逻辑记录构成的信息集合 是数据库的基本内容 分为顺排文档和倒排文档 顺排文挡是数据库的主体内容 倒排文档是将记录中的一切可检字段或属性值提取出来 按某种顺序重新加以组织所得到的文档 顺排文档 记录 倒排文档 索引 数据库 database 由计算机进行处理的一定数量同类信息的有序集合 是用来存储和查找文献信息的电子化检索工具 数据库的类型 3 3检索式的拟订 3 3 1布尔逻辑检索算符3 3 2位置检索算符3 3 3截词检索算符3 3 4字段揭示及限制算符3 3 5其它符号3 3 6注意事项 精确与模糊检索 基本技术 词间位置检索 加权检索 布尔逻辑检索 限定字段检索 限定范围检索 截词检索 1 2 3 4 5 6 7 1 逻辑 与 AND 表示为AandB或A B2 逻辑 或 OR 表示为AorB或A B3 逻辑 非 NOT 表示为AnotB或A B 3 3 1布尔逻辑检索算符 逻辑 与 用 and 或者空格表示 在网络搜索引擎中习惯用空格代替 and 表示检出的记录必须同时包含所有的检索词 可以缩小检索范围 减少命中文献量 提高查准率 A B AandB 例 检索 太阳能 文献 太阳 能源 实例 检索 中国人民政府 这个网站 可以输入 中国 政府 中国and政府 中国政府 等 实例 检索课题 中国外汇储备规模的研究 不是一篇文章 需要检索有关的期刊文章 其检索式宜表达为 中国and外汇and储备and规模 逻辑 或 用 or 或逗号表示 在网络搜索引擎中习惯用逗号代替 OR 表示检出的记录中至少含有多个检索词中的任何一个 可以扩大检索范围 增加命中文献量 防止漏检 常用于连接同义词 相关词等 A B AorB 例 检索 光盘和磁盘 文献 光盘 磁盘 实例 在搜索引擎中输入 计算机OR多媒体ORWindows98 则查询至少包含 计算机 多媒体 Windows98 三者之一的信息 逻辑 非 NOT 表示检索结果中排除含有某些词的记录 可以缩小检索范围 减少文献输出量 但并不一定能提高查准率 A B AnotB 例 检索 除核能以外有关能源 文献 能源 核能 实例 输入 automobilenotcar 就要求查询的结果中包含automobile 汽车 但同时不能包含car 小汽车 实例 在搜索引擎中输入 电视台 中央电视台 查询结果不包含 中央电视台 相同的检索词在不同的字段中检索到的结果不同 实例 用 中文科技期刊数据库 检索机械产品采用计算机辅助设计的论文 用不同字段作为途径 如下所示 选择 u 任意字段 输入 计算机辅助 产品 查出2902篇 选择 m 题名或关键词 输入 计算机辅助 产品 查出626篇 选择 t 题名 输入 计算机辅助 产品 查出139篇 选择 k 关键词 输入 计算机辅助 产品 查出545篇 检索入口选择 c 分类号 输入 机械产品 的分类号 TH122 年限设定 查到11206条 也叫 邻接检索 表示两个或多个检索词之间的关系检索方式 常用的位置算符有 1 w with 表示两个检索词前后次序固定 二者之间只能间隔连字符 空格或者是逗号 实例 在OCLC中输入communicationwsatellite 2 wN withN 表示两个检索词前后次序固定 二者之间最多间隔N个字符 实例 在EBSCO中输入communicationw3satellite 3 3 2位置检索算符 3 n Near 表示两个检索词可以互换顺 二者之间只能间隔连字符 空格或者是逗号 实例 在OCLC中输入communicationnsatellite 4 nN NearN 表示两个检索词可以互换顺 二者之间最多间隔N个字符 实例 在EBSCO中输入communicationn3satellite 比较 在EBSCO中输入sourceandlaw sourcew2law 3 3 3截词检索算符 检索color检索computer microcomputer minicomputer截词符 通配符 提高查全率 防止漏检的有力手段 也可以简化输入 包括有限截词和无限截词 常用的截词符有 有限截词 一个符号表示一个字符 一般使用 英文半角问号 代表0 1个字符 比如 chip 可检索出 chips 右截断 无限截词 一个符号表示任意多个字符 标准符号是 代表0 n个字符 也称为通配符 比如 comput 可检出 compute Computer computers computing Computerize等 注 不同的数据库所用的截词符不一样 使用应先查一下各数据库的帮助加以确认 3 3 3截词检索算符 后截断 无限截断 如 physic 截词检索与截词检索算符 Physic physics physicst physicalism Physic physics physicst 如 physic 有限截断 中文数据库里面习惯称为 前方一致 中截断 前截断 如 m n man men 如 computer minicomputer computer microcomputer 中文数据库里面习惯称为 后方一致 Title ti computerPy 2008La english限定网站 site link whitehouse gov限定网页 inurl midi沧海一声笑限定文件类型 filetype 3 3 4字段限制检索 3 3 5其它符号 1 括号括在其中的操作符先起作用 三聚氰胺 农产品 鸡蛋 牛奶 大米 2 引号引号内的检索项以整体形式出现 如 informationretrieval表示informationANDretrieval而 informationretrieval 则表示一个词组3 个别数据库使用的特殊符号某些搜索引擎使用加号 表示该单词必须出现 在某些搜索引擎中输入 电脑 电话 传真 就表示要查找的内容必须要同时包含 电脑 电话 传真 这三个关键词 个别数据库例如 国研网 山东标准网使用 代替 and 欧洲专利局光盘数据库的 without 美国专利商标局数据库的 andnot 就是通用的 not 4 英语或汉语中都有许多虚词 不能作为检索词 如 汉语中 的 地 得 了 等助词 英语中的aaboutalsoandanyasatbebetweenbybothforsomesonotthiswith等介词或冠词等 检索策略是对检索的全面策划 在操作上主要指检索式的编制和数据库的选择 检索策略在计算机检索中直接决定检索结果的准与全 3 3 6检索策略 确定检索词切分 是对课题的语句以词为单位进行切分 转换为检索的最小单元 例 检索 吸烟与肺癌的关系研究 相关文献 例 检索 肺气肿病人的血氧测定法 方面的相关文献 注意 应保持词意义的完整 删除 对不具有检索意思的虚词或过分宽泛的限定词应予以删除 替换 是对表达不清晰或容易造成检索误差的词用更明确 更具体的词予以替换 如公交 公共交通 绿色包装 环保包装等增加 针对一词多义或者在检索结果中有很多干扰信息时 可采用增加检索词达到 限义 的手段 例 神经网络在旋转机械故障诊断中的应用研究1 本课题包含 神经网络 旋转机械 故障诊断 三个概念 应用 和 研究 属于意义过于宽泛的词 不应该作为检索词 2 扩展神经网络 相关的上位词有人工智能旋转机械故障诊断 相关词有故障定位 故障检测 上位词有容错技术3 检索式 神经网络OR人工智能 AND 旋转机械 AND 故障诊断OR故障定位OR故障检测OR容错技术 检索式示例 1 检索关于研究鲁迅的论文 应选择什么检索字段 题解 必须选择标题或者关键词 不能选择为作者途径 2 知识产权 一词还可析出哪些隐含概念 题解 专利权 版权 著作权 等概念 3 用 中文科技期刊数据库 检索著名经济学家胡鞍钢在 公共管理学报 上面发表的论文 题解 A 胡鞍钢 J 公共管理学报 4 写出 研究法律与经济和政治的关系 的课题的检索式 题解 法律 经济 政治 5 检索有关 中国国内商业银行的信贷管理或信贷风险的研究 方面的相关文献 题解 商业银行 外资银行 信贷管理 信贷风险 3 4检索步骤 1 检索准备2 选择合适的检索工具3 选择检索途径4 拟订检索式5 实施检索6 筛选文献7 索取原文 1 弄清课题学科属性 专业范围及其相关内容首先明白是单一学科还是涉及多学科或跨学科 当课题涉及多学科时 以主要学科为检索重点 次要学科为补充 例 超声波技术在兽医上的应用 3 4 1检索准备 2 弄清检索课题的信息类型和时间要求时间要求上 研究层次低 学科发展快的 则检索的时段可以适当缩短 例如 查 超声波技术在医学上的应用 和查国内外研究社会保障制度的文章 3 考虑课题的特殊要求4 明确用户自身的信息需求 要从概念入手 而不是从字面意思入手 概念扩展时要考虑同义词 相关词 上位词 下位词等 既词表中提到的用 代 分 属 参 族 还要注意中英文混用的现象 3 当课题比较生疏时 应当首先利用百科全书 图书等弄清楚概念 了解课题的有关专业知识 弄清楚课题的内容和要解决的问题以及解决该问题的初步设想等 进而确定检索的主题范围 4 人文社会科学的检索 如果是回溯检索 应该熟悉不同年代所使用的概念和术语5 忽略那些意义过于宽泛 通用的词 比如 研究 应用 探讨 等 分析课题时须注意的问题 明确检索要求 选择数据库 选择数据库要考虑以下因素 1 检索目的 检索的时间范围 文献类型 检索深度为题录 文摘还是全文等等2 检索结果 对于研究生做学位论文来说 做课题前应充分了解一下本课题国内外的研究现状 即论文的综述部分 这时应对该课题进行较全面的检索 包括综述性的文章 要求全面 对于该课题的核心部分 即该课题所要解决的具体问题 创新的地方 则需要准 技术细节越细越好 3 检索内容所属学科 对与自己相关的数据库要有一个全面的了解 3 4 6筛选文献 应当根据课题的科学技术要点 将检索结果分为密切相关文献和一般相关文献 对相关文献情况及对相关文献的主要论点进行对比分析 1 网上下载原文2 就近借阅3 文献传递 收获 3 4 7获取原文 例题 华中科技大学学生已知一些理工科类大学学位论文题目 如何获得原文 题解 方法1 使用华中科技大学图书馆的馆藏目录查询到图书形式的学位论文 直接借阅 方法2 使用图书馆购买的学位论文数据库检索 可以直接查看近年来的原文 方法3 本地没有的则通过网上检索得到题目后 再从高校图书馆 国家科技图书文献中心 NSTL 通过馆际互借寻找全文 收费较低 时差也短 方法4 外文图书可以通过OCLC获取 检索效率查全率和查准率是判定检索效果的主要指标 查全率 RecallRatio 指系统在进行某一检索时 检索出的相关文献量与系统文献库中相关文献总量的比率 用公式表示为 检出的相关文献量系统数据库中的相关文献总量 R X100 扩大检索范围 提高查全率的方法1 跨库检索2 选择较大检索范围的字段如摘要3 外文单词使用截词符4 使用上位词 如飞行器 航天飞机 载人航天飞机 5 考虑同义词或近义词 使用布尔逻辑符or连接 6 逐步扩大算符的检索范围 逐步提高查全率的算符依次是 位置算符w wn near 逻辑算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论