文献检索课件第一章_第1页
文献检索课件第一章_第2页
文献检索课件第一章_第3页
文献检索课件第一章_第4页
文献检索课件第一章_第5页
已阅读5页,还剩107页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机信息检索基础知识 哈工大图书馆信息咨询部caojun 学习文献检索课的目的 信息检索既是一门科学 又是一门技巧 在某种程度上也是一门艺术 1 拓宽获取与利用信息的途径 2 可以获取学术动态 寻找未知问题的答案 3 写论文 做课题能积极主动有意识地利用信息 4 培养从主要记忆信息到主要应用信息和创新信息的能力 以最少的时间 精力获取自己需要的信息 学习文献检索课的目的 Whereisit 获取信息的总路线 如何判断自己已具备了信息素质 美国大学与研究图书馆协会 ACRL 制定的高等教育信息素质教育标准能够独立决定所需要信息的种类和程度能够高效的获取需要的信息能够根据现有的知识背景和评价标准对信息及其来源评价及遴选能够有效的利用信息达到某一特定的目的能够在信息利用过程中遵守相关的法律法规 计算机信息检索技术计算机信息检索的常用方法与步骤网络信息资源计算机检索方法例举我馆引进资源总体介绍 计算机信息检索基础知识 知识的定义知识是人类在认识和改造世界的社会实践中获得的对事物本质认识的成果和结晶 即人类通过有目的 有区别 有选择地利用信息 对自然界 人类社会及思维方式与运动规律的认识 分析与掌握 并通过人的大脑进行思维整合使信息系统化而构成知识 因此 知识仅存在于人类社会 计算机信息检索技术 文献的定义记录有知识的一切载体如 甲骨文 碑刻 图书 连续出版物 录音磁带 电影片 光盘等 计算机信息检索技术 文献的类型按文献的加工程度划分零次文献 RawLiterature 未以公开形式出版或未经正式渠道流通的文献 如文章草稿 私人笔记 实验记录 会议记录等 一次文献 PrimaryLiterature 是作者以生产或研究成果为依据而创作的原始文献 如 期刊论文 学位论文 专利文献 会议文献 研究报告 专著 译文等 计算机信息检索技术 文献的类型按文献的加工程度划分二次文献 SecondaryLiterature 将无序的一次文献进行收集 整理 著录其特征并以规定的格式编制成为便于管理和查找文献的工具 即检索工具 如目录 题录或索引 文摘等 三次文献 TertiaryLiterature 是指在利用二次文献的基础上 对一次文献的内容经阅读研究 浓缩提炼而编写成的文献 如科技动态 专题综述 决策参考指南 进展等 计算机信息检索技术 文献的类型根据相对利用率的多少分成核心文献 相关文献和边缘文献核心文献通常是指与本学科发展水平 发展动向密切相关的一些文献 相关文献和边缘文献是指所含内容与学科的关系相对疏远一些的文献 从学科发展背景来说 相关文献和边缘文献是本学科与其他学科技术相互渗透 相互结合的结果 现在任何学科的文献 在本专业书刊资料上只可见到三分之一 其余三分之二散杂在相关或边缘文献之中 计算机信息检索技术 计算机信息检索技术 事物运动 信息 知识 新的信息 文献 产生 人脑有序化 用于实践 记录在载体上 传递运用后 信息 知识 文献的关系 信息检索的基本概念广义的信息检索是指将信息按一定的方式组织和存储起来 并根据用户的需要找出有关信息的过程和技术 又称信息存储与检索 狭义的信息检索则是指从已存储的信息集合中查找出所需要信息的过程 计算机信息检索技术 计算机信息检索技术 信息检索的基本原理存储过程 对文献进行标引 使之有序化 系统化 成为有功能的检索工具或检索系统 检索过程 根据需求 确定提问式 查找到所需要信息检索是信息组织的反变换过程 信息组织的目的是将零散的信息组成一个有序的体系 检索的目的则是迅速从这个体系中搜寻所需的信息 信息检索原理可从信息检索过程得到很好的诠释 如下图 计算机信息检索技术 检索提问 匹配计算 数据库 检索工具 计算机信息检索技术 信息检索语言 是信息组织与信息检索时所用的语言 也称文献检索语言 情报语言等 计算机信息检索技术 一 分类检索语言用分类法来表达各种信息资源的概念 将各种概念按照学科 专业性质进行分类和系统排列 集中体现学科的系统性 反映事物的从属 派生关系 由上至下 从总到分层层展开 是一种等级体系 计算机信息检索技术 一 分类检索语言广泛用于图书资料的是图书分类法中国图书分类法中国科学院图书分类法杜威十进制分类法国际十进制分类法 计算机信息检索技术 中国图书馆分类法类目简表 计算机信息检索技术 一 分类检索语言 二 主题法检索语言是利用词语来表达信息资源中论述的主题概念 用来表达信息内容的词语称为主题词 用主题词汇表达各种概念 按字母顺序排列 包括控制词语言 叙词语言等 计算机信息检索技术 二 主题法检索语言三个基本特征着眼于从事物的特性方面去提示文献主题采用文字符号按字顺排列 计算机信息检索技术 关键词 叙词的比较 计算机信息检索技术 信息检索技术信息检索技术是指利用现代信息检索系统 如联机数据库 光盘数据库和网络数据库检索有关信息而采用的相关技术 主要信息检索技术有布尔逻辑检索 截词检索 位置检索 字段限定检索 计算机信息检索技术 1 布尔逻辑检索布尔逻辑检索是利用布尔逻辑算符对多个检索词进行逻辑组配 以利于对复杂课题进行充分而高效检索的方法 Google Yahoo 百度等搜索引擎都使用了这种检索技术 布尔逻辑检索算符有以下三种 1 逻辑与AND 2 逻辑或OR 3 逻辑非NOT 计算机信息检索技术 计算机信息检索技术 1 逻辑与AND 逻辑与AND 这是一种用于交叉概念或限定关系的组配 可以缩小检索范围 提高查准率 例 查找 高强度低合金钢 方面的文献 可以将概念分解为 highstrength lowalloy 和 steel 三个基本概念 如用A B C三个圆分别代表 steel highstrength 和 lowalloy 则三圆交叉的斜线部分才是三个检索词同时存在的文献记录 计算机信息检索技术 2 逻辑或OR 逻辑或OR 这是一种用于并列概念的组配 可以扩大检索范围 避免漏检 提高了查全率 例 查找有关 太阳能 方面的文献 不能确定主题词用 sun 或 solar 则采用 或 组配 如用A B两圆分别代表 sun 或 solar 则斜线部分为其中任何一个词或两个词同时存在的文献记录 计算机信息检索技术 3 逻辑非NOT 逻辑非NOT 用于从原来的检索范围中排除不需要的概念或影响检索结果的概念 用逻辑非 能够缩小命中文献范围 提高查准率 例 查找 不包括核能的能源 的文献 用A B两圆分别代表 energy nuclear 斜线部分从energy中排除了nuclear的文献 计算机信息检索技术 2 截词检索截词检索是针对出于近义词 同一词根 单复数等原因 造成对检索词列举不全形成漏检现象而提出来的特殊检索技术 截词符用 或 表示 前者常表示有限截断 后者表示无限截断 按照截断的位置来分 截词有以下四种 后截断 前截断 中间截断 前后截断 计算机信息检索技术 2 截词检索1 后截断它是最常用的截词检索技术 它将截词符号置于一个字符串右方 表示其右面的有限或无限个字符不影响该字符串的检索 也称为右截断 计算机信息检索技术 1 后截断例如 输入computer 则前8个字符为computer的所有词均满足条件 因而能检出含有computers computered等相关词 输入computer 可检出含有computer computers computered的文献 注意 使用后截断有可能检索出无关词汇 尤其是在使用无限后截断时 所选词干不能太短 否则将造成大量误检 或发生溢出 导致检索失败 计算机信息检索技术 2 前截断它将截词符号置于一个字符串左方 表示其左面的有限或无限个字符不影响该字符串的检索 也称为左截断 从检索性质上讲 前截断是后方一致检索 例如 输入 computer可以检索出microcomputer minicomputer computer等词汇 计算机信息检索技术 3 中间截断它将截词符号置于一个检索词的中间 它对于解决英 美不同拼法 不规则的单 复数变化等很有用 例如 analy e表示analyze和analyse wom n表示woman和women等 4 前后截断它是将前截断和后截断结合使用 例如 Computer 表示minicomputers 计算机信息检索技术 3 位置检索位置检索又称邻近检索 用位置算符表示检索词之间的位置邻近关系 常用的位置算符有以下几种 W 算符 nW 算符 N 算符 nN 算符 S 算符 F 算符 计算机信息检索技术 1 W 算符W是With的缩写 W 表示其两侧的检索词必须按前后顺序出现在记录中 在两词之间不能插入其他词 只可能有空格或一个标点符号 W 算符严密性较强 它基本等价于词组检索 可以简写为 例如 online information retrieval 计算机信息检索技术 2 nW 算符W是Words的缩写 n为自然数 nW 表示其两侧的检索词之间允许最多插入n个词 但它们之间的位置不能颠倒 如laser 1W priter可检出 laserpriter lasercolourpriter 和 laserandpriter 计算机信息检索技术 3 N 算符N是near的缩写 N 表示其两侧的检索词必须彼此相邻 并且这两个检索词的次序任意 如factory N automation可检出factoryautomation和automationfactory的信息 4 nN 算符表示在其两侧的检索词之间允许最多插入n个单词 且两词词序可以改变 例如 information 1N retrieval可检出informationretrieval或retrievalofinformation的信息 计算机信息检索技术 5 S 算符S是subfield的缩写 S 表示其两侧的检索词必须出现在同一子字段 即一个句子或短语中 词序不限 并且夹在其间的词量不限 例如 computer S application只要computer和application在一个句子或短语中即为命中文献 计算机信息检索技术 6 F 算符F是field的缩写 F 表示其两侧的检索词必须出现在同一个字段中 如篇名字段 叙词字段 文摘字段等 词序不限 并且夹在其间的词量不限 例如 Pollution F control表示一篇标题为ControlandManagementofIndustrialPollution的文献记录为命中文献 计算机信息检索技术 4 字段限定检索字段限定检索是利用检索字段符来限定检索字段 即指定检索词在记录中出现的字段 检索时 计算机只对限定字段进行运算 这是提高检索效率的措施之一检索字段符分为两类 即后缀方式和前缀方式 前者对应于基本索引 反映文献的主题内容 后者对应于辅助索引 反映文献的外部特征 计算机信息检索技术 4 字段限定检索1 后缀方式后缀方式在检索词后加上指定检索字段的后缀字段代码 反映文献的主题内容 常用的代码有 TI 篇名 AB 文摘 DE 叙词 例如 information retrieval TI表示仅在TI字段中检索information retrieval 计算机信息检索技术 4 字段限定检索2 前缀方式前缀方式是在检索词之前加上指定检索字段的前缀字段代码 反映文献的外部特征 常用的代码有AU 作者 ISBN ISBN号 CC 分类号或类目名称 CD 会议日期 CS 机构名称 DT 文献类型 JN 刊名 PY 出版年 等 计算机信息检索技术 4 字段限定检索2 前缀方式例如 AU Yu XiaoyangANDCS GuiLINCollegeofAerospaceTechnology 表示查找桂林航天工业高等专科学校的Yu Xiaoyang的文献 计算机信息检索的常用方法与步骤 1 信息检索方法基于数据库的常用检索方法 计算机检索方法没有固定模式 主要归纳为以下几种 1 基本检索 是一种最简单的检索方法 多数数据库只提供一个检索框且只能输一词或一个词组检索 但也有的数据库可对两词或多词进行逻辑组配检索 计算机信息检索的常用方法与步骤 基于数据库的常用检索方法 2 高级检索 用户可通过点选检索系统给定的检索算符对多词进行逻辑组配 高级检索提供的检索框也较多 一般一个检索框只能输一词或一个词组 检索框经常控制在2 5个 计算机信息检索的常用方法与步骤 基于数据库的常用检索方法 3 专业检索 一般只有一个大检索框 要求用户自己输词 字段 检索算符进行组配检索 要求用户有熟练的检索技术 4 分类检索 一般按分类表进行限定检索 或按学科进行一级一级浏览 5 二次检索 是在以上单项检索的基础上 进一步选用新词进行缩小范围的检索 计算机信息检索的常用方法与步骤 2 信息检索步骤科研人员的检索课题和需要虽各不相同 但为了达到检索目的 都要利用一定的检索工具和数据库 按照一定的途径与方法才能检索出需要的文献 一般要经过以下步骤 计算机信息检索的常用方法与步骤 2 信息检索步骤 用户 研究课题 主题分析 选择检索系统或数据库 选择检索途径 主题词 作者 机构等 制定检索策略和检索方式 检索操作 初始检索结果输出 用户结果评价 满意 检索结果 索取原文 不满意 返回主题分析重新检索 计算机信息检索的常用方法与步骤 2 信息检索步骤 计算机信息检索的常用方法与步骤 信息检索效果评价对计算机网络信息检索的效果评价 应该从质量 费用和时间这三个方面进行 质量标准主要通过查全率与查准率进行评价 费用标准即检索费用 是指用户为检索课题所投入的费用 时间标准是指花费时间 包括检索准备时间 检索过程时间 获取文献时间等 查全率和查准率是判定检索效果的主要标准 计算机信息检索的常用方法与步骤 查全率是指系统在进行某一检索时 检出的相关文献量与系统文献库中相关文献总量的比率 它反映该系统文献库中实有的相关文献量在多大程度上被检索出来 查全率 检出相关文献量 文献库内相关文献总量 100 例如 要利用某个检索系统查某课题 假设在该系统文献库中共有40篇相关文献 而只检索出30篇 那么查全率就等于75 计算机信息检索的常用方法与步骤 查准率是指系统在进行某一检索时 检出的相关文献量与检出文献总量的比率 它反映每次从该系统文献库中实际检出的全部文献中有多少是相关的 查准率 检出相关文献量 检出文献总量 100 计算机信息检索的常用方法与步骤 例如 检出的文献总篇数为50篇 经审查确定其中与项目相关的只有40篇 另外10篇与该课题无关 这次检索的查准率就等于80 显然 查准率是用来描述系统拒绝不相关文献的能力 有人也称查准率为 相关率 查准率和查全率结合起来 描述了系统的检索成功率 计算机信息检索的常用方法与步骤 实际上 影响检索效果的因素是非常复杂的 根据国外有关专家所做的实验表明 查全率与查准率是呈互逆关系的 要想做到查全 势必会对检索范围和限制逐步放宽 则结果是把很多不相关的文献也带进来 影响了查准率 网络信息资源 1 网络信息资源的特点1 数据量大 传播广泛网络信息资源极为丰富 报告 数字宇宙膨胀 到2010年全球信息增长预测 指出2010年 全球数字信息量为9880亿GB 网络信息资源 1 网络信息资源的特点2 检索方便 成本低廉网络信息资源可以使用自然语言检索 便于信息资源的获取和信息利用 很多信息对于公众来说都是免费的 因此 相对于其他形式的信息资源 网络信息资源无疑是低成本 高回报的资源 网络信息资源 1 网络信息资源的特点3 分散无序 缺乏管理网上信息资源具有分布式特点 处于一种无中心控制 混乱无序的分布状态 网站软硬件变动和更新频繁 更新周期不一 4 分布不均 质量不一网络信息资源在不同学科专业领域 不同行业 不同地理位置上的分布差异很大 数量和质量的差别也很大 网络信息资源 1 网络信息资源的特点5 内容丰富 形式多样互联网信息资源在形式上没有一个统一的体系和结构 处于非结构化状况 其内容包罗万象 覆盖了不同学科 不同领域的信息资源 网络信息资源 2 搜索引擎检索和利用1 搜索引擎概念搜索引擎是一种能够通过Internet接收用户的查询指令 并向用户提供符合其查询要求的信息资源网址的系统 它是一些在Web中主动搜索信息 网页上的单词和特定的描述内容 并将其自动索引的Web网站 其索引内容存储在可供检索的大型数据库中 建立索引和目录服务 网络信息资源 2 搜索引擎检索和利用2 搜索引擎的基本原理搜索引擎的原理可以看成三步 从互联网上抓取网页 建立索引数据库 在索引数据库中搜索排序 网络信息资源 2 搜索引擎检索和利用3 搜索引擎的检索技巧a 使用关键词的技巧关键词 Keywords 是文献作者在标题 摘要 正文中所用的原词 是对表征文献主题内容具有实质意义的词语 或对揭示和描述文献主题内容来说是重要的词语 选取准确的关键词 对提高检索命中率的影响较大 网络信息资源 3 搜索引擎的检索技巧a 使用关键词的技巧使用关键词检索时 首先应从复杂的搜索目标中提炼出最具代表性的关键词 其次 搜索条件越具体 搜索引擎返回的结果就越精确 有时多输入一两个关键词 效果就完全不同 因此在搜索中应学会使用两个以上的关键词搜索的方法 3 搜索引擎的检索技巧a 使用关键词的技巧每个关键词之间用逗号连接 会搜索到与其中任何一个关键词相关的网站和网页 这样可以使搜索范围扩大 有效避免漏检 另外 要尽量选用专指词 特定概念或专业术语作为关键词 避免使用普通词和太泛的词 如计算机 网络等词 太多太泛被称为检索 禁用词 网络信息资源 网络信息资源 3 搜索引擎的检索技巧b 减号 的运用 的作用是为了去除包含特定的关键词但与检索目标无关的搜索结果 提高搜索结果相关性 若在搜索结果中有很多不相关的结果 则可用 减掉不相关结果的关键词 网络信息资源 3 搜索引擎的检索技巧b 减号 的运用例 检索小说 水浒传 输入 水浒传 电视剧 来进行搜索 查询的结果里就不会有水浒传电视剧的信息 需要注意的是 前一个关键词和减号之间必须有空格 否则 减号会被当成连字符处理 而失去减号语法功能 减号和后一个关键词之间 有无空格均可 网络信息资源 3 搜索引擎的检索技巧c 利用双引号 进行精确匹配搜索使用双引号进行精确匹配检索 能缩小检索结果范围 提高查准率 得到的信息结果最少最精确 如 输入 黑龙江大学 可以得到与输入词完全匹配的结果否则 搜索引擎就会将 黑龙江 或 大学 等词分别检索出来 网络信息资源 3 搜索引擎的检索技巧d 停用词的应用停用词 StopWords 主要常见于英文搜索引擎中 指的是使用过于频繁的单词 如who I what it and how 的 地等 搜索引擎不支持停用词的检索 如果在搜索的检索词中必须使用停用词 可以用加号 来解决 如搜索影片名称 WhoamI 时 其中 Who 和 I 是停用词 用 号强制对其进行搜索 此时的搜索条件即 Who am I或将全部检索词用 引起来 进行精确匹配搜索 网络信息资源 4 常用的搜索引擎常用的中文搜索引擎a 百度 百度是全球最大的中文搜索引擎 2000年1月1日 百度公司创始人李彦宏 徐勇以120万美元投资创建了百度公司 同年10月 百度搜索引擎正式发布 百度采用基于内容和基于超链接分析相结合的方法进行相关度评价 能够客观分析网页所包含的信息 从而最大限度地保证了检索结果相关性 网络信息资源 百度的网页搜索特色功能包括以下方面 1 百度快照 每个未被禁止搜索的网页 在百度上都会自动生成临时缓存页面 称为 百度快照 当网站服务器暂时出现故障或网络传输堵塞时 可以通过 百度快照 快速浏览页面文本内容 因为百度快照只临时缓存网页的文本内容 所以那些图片 音乐等非文本信息 仍是存储于原网页 网络信息资源 网络信息资源 百度的网页搜索特色功能包括以下方面 2 专业文档搜索 很多有价值的资料 在互联网上并非是普通的网页 而是以Word PowerPoint PDF等格式存在 百度支持对Office文档 包括Word Excel PowerPoint AdobePDF文档进行的全文搜索 要搜索这类文档 在普通的检索词后 加一个 filetype 文档类型限定 filetype 后可以跟以下文件格式 DOC XLS PPT PDF RTF ALL 网络信息资源 6 专业文档搜索例如 查找厉以宁关于经济改革方面的经济学论文 输入 经济改革厉以宁filetype doc 单击检索结果的标题 就可以直接下载该Word文档 也可通过百度文档搜索界面 网络信息资源 网络信息资源 b 搜狗 搜狗是搜狐公司于2004年8月3日推出的全球首个第三代互动式中文搜索引擎 2007年1月1日正式推出的全面升级的搜狗网页搜索3 0版本凭借自主研发的服务器集群并行抓取技术 成为全球首个中文网页收录量达到100亿的搜索引擎 以每天5亿网页的速度更新 网络信息资源 网络信息资源 c 新浪爱问搜索 网络信息资源 网络信息资源 网络信息资源 网络信息资源 d 天网搜索 网络信息资源 网络信息资源 常用的英文搜索引擎a Google hk 1998年9月 Google创始人 美国斯坦福大学博士生LarryPage和SergeyBrin在斯坦福大学学生宿舍内共同开发了全新的在线搜索引擎 Google 并于1999年创立Google公司 英语中没有Google这个词 它是数学名词googol的谐音 表示一个1后面跟着100个零 LarryPage和SergeyBrin选择了这个词 使它成为世界上最大 最快的搜索引擎 网络信息资源 网络信息资源 Google特色功能如下 1 新词和生僻词定义服务功能 Google表示 一些时髦的新词几乎总是先在网络上出现 因此推出了这一相应的俚语和新词搜索定义功能 在进行新词定义搜索时 输入单词 define 定义 后按空格键 之后是想要搜索定义的词语 英文单词 define 也可用 whatis 或 definition 代替 网络信息资源 网络信息资源 2 单词纠错 Google对英文单词拼写错误有纠错功能 例在写上文的时候 要用到英文单词 tutorial 记得好像是 tutorial 但不肯定 用Google一查 它马上提醒 您要找的会不会是 tutorial 正是这个单词 网络信息资源 3 在线的英文活字典 Google可以帮助查找英语单词的解释或用法 在检索栏中只要输入查找的单词并单击 Google搜索 按钮或按回车键 浏览器就会显示有关该单词的链接 单击这些链接 就会出现有关的信息内容 是一种真正方便 快捷的在线英文活字典 网络信息资源 常用的英文搜索引擎b Scirus Scirus是专门用于科技信息检索的目前互联网上最全面 综合性最强的搜索引

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论