计算机信息检索概述ppt课件.ppt_第1页
计算机信息检索概述ppt课件.ppt_第2页
计算机信息检索概述ppt课件.ppt_第3页
计算机信息检索概述ppt课件.ppt_第4页
计算机信息检索概述ppt课件.ppt_第5页
已阅读5页,还剩96页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机信息检索概述 1计算机信息检索理论基础2计算机信息检索的发展历史3计算机检索技术与实现4计算机检索策略与实施技巧 1计算机信息检索理论基础 使用计算机检索信息 是专业人员在开展科学研究中不可或缺的一项基本技能 一个具有这方面能力并善于从电子信息源中获取所需信息者 将在今后的信息社会中获取更多的成功机会 1计算机信息检索理论基础 计算机信息检索的定义计算机检索系统的构成数据库的概念 计算机信息检索的定义 所谓计算机信息检索 就是在计算机和人的共同作用下 按照一定的方法组织和存储信息 并通过人机对话从计算机存储的大量数据中自动输出用户所需的那部分信息的过程 计算机检索系统的构成 硬件软件数据库 硬件 系统中采用的各种硬件设备的总称 包括具有一定性能的计算机主机 外围设备以及怀数据处理或数据传输有关的其他设备 主机 是计算机检索系统的中枢 外围设备包括外部存储器 输入输出设备如键盘 光笔 鼠标 光学字符识别装置 显示终端 打印机等 软件 系统中有关的程序和各种文件资料的总称 包括系统软件 如操作系统 输入输出控制程序 和应用软件 数据库 一组文件的集合 就是以一定的组织方式存贮在一起的相关数据的集合 数据库的概念 数据库的定义数据库的类型 数据库的定义 数据库是至少由一种文档组成 并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合 通俗地说 数据库是在计算机存储设备上按一定方式存储 并提供给确定范围内的各类用户共享的相互关联的数据集合 数据库是计算机技术与信息检索技术相结合的产物 它既是现代人们从事信息资源管理的工具 同时也是计算机信息检索的基础 数据库的类型 参考数据库源数据库混合数据库 参考数据库 指用户从中获取信息线索后 还需进一步查找原文或其他资料的一类数据库 它包括书目数据库和指南数据库 1 书目数据库 它是存储某个学科领域的二次文献的数据库 有时又称作为二次文献库 它依照二次文献的不同类型又可分为题录文摘数据库 索引数据库和图书馆书目数据库 2 指南数据库 它是存储有关某些机构 人物 出版物 项目 程序 活动等简要描述性信息的一类数据库 亦称指示性数据库 例如 机构名称数据库 人物传记数据库 产品数据库等都属于这一类数据库 源数据库 又称为数据银行 它是能够直接为用户提供原始资料或具体数据的一类数据库 源数据库又分为 数值型数据库文本 数值型数据库术语数据库图像数据库全文数据库超文本数据库 数值型数据库 是指专门提供以数值方式表示的调查数据和统计数据的一类数据库 文本 数值型数据库 是指能够同时提供文本信息和数值数据的一类数据库 术语数据库 是指专门存储和检索名词术语 词语信息等的一种源数据库 图像数据库 是指用来存储和检索各种图像或图形信息及有关文字说明资料的一种源数据库 全文数据库 是指存储和检索文献全文或其中主要部分的一种源数据库 超文本数据库 这种数据库存储时将存储内容分割为若干独立利用的结点 使用链路连接结点等方式进行存取 从而构成一个不拘泥于形式逻辑推理 不遵循某种正规模式的一种网络框架结构 因而具备了类似于数据库又优于一般数据库的特点 混合数据库 这类数据库兼有源数据库和参考数据库的特点 按载体形式它又可分为以下四种类型 磁媒体数据库光盘数据库多媒体数据库 是一种能够对文字 数值 声音和图像等不同性质的媒体进行一体化处理和管理的新型数据库超媒体数据库 通过外部树形的链接将多种类型的媒体连成一个集合 该集合称为超媒体数据库 2计算机信息检索的发展历史 脱机批处理检索联机情报检索国际联机检索光盘检索网络信息检索 脱机批处理检索 1954一64 定期由专职检索人员把许多用户课题汇总 批量处理提问要求 并把结果提供给用户 直接在计算机旁检索 不需要远程终端设备及通信网络 用户在计算机处理成批检索课题之后才知道检索结果 不能直接 及时修改检索策略 查全率和查准率受到一定限制 联机情报检索 20世纪70年代投入商业运营 用户在计算机检索系统的终端上 通过通信网络 使用特定的指令和算符 以人机对话方式 查询远程计算机检索系统核心的数据库 从中获取所需信息的计算机检索系统 联机系统的诞生 使许多相互独立的终端实现了 对话 方式的信息检索 所谓对话方式 就是用户利用系统提供的 为数不多且简单易记的检索命令 每次输入一条命令或由命令组成的表达式查看结果 系统方面则每次显示出可能的信息 帮助用户选择下次该用的命令或表达式 用户通过与系统双向对话 可不断改变或完善检索策略 直至获得满意的检索结果为止 联机检索系统由三个部分组成 主机系统通讯系统终端设备 主机系统是联机检索系统的核心 它具备处理速度快 多道程序和分时功能 内存容量大 多样化的输入输出设备 主机系统 通讯系统 通讯系统是指终端设备与主机系统进行通信的设备 通信线路分为两种 专用的直达线路 通过拨号选择对方的交换线路 前者是特定通信线路 后者使用电话网和用户电报网 联机系统使用的通信线路就属于后一种 终端系统 终端系统是人与系统的接口设备 它能将字符 声音以及人类的信息表现形式转换成系统的机器代码 反之 将系统的结果还原成字符 声音等形式 传送给终端用户 国际联机检索 70年代中后期 联机检索基础上的扩充到国际 优点 这种方式可以边检索边修改检索策略 而且检索速度快 多用户可同时检索 检索不受地理位置限制 检索功能多样化 打印输出灵活 检索结果可进行多种分析处理 大大方便检索用户和提高检索质量 缺点 注重系统自身工作效率的提高 如改进算法 改进存储结构与存取技术等 让用户去适应 配合系统 很少分析 考虑用户对使用系统的要求 面向检索专家或中介机构 要求检索者熟悉系统的一整套检索指令和检索技术 用户的提问必须采用规范化的检索语言 从而依赖于专业检索人员 用户自己完成检索必须受过系统培训 人机交互界面不友好 且费用较高 光盘检索 80年代初期 其全称为高密度光盘 CompactDisk 主要是利用激光 计算机及光电集成等技术实现信息存储的数字化 以光盘为介质的光盘数据库检索系统由于信息存储量大 简单易用而取胜 优点 一次购买 无限制使用 不必考虑检索时间 远程通信费用等因素 存贮容量大 检索途径多 适用于通信不发达 联网较困难的地区 是联机检索 网络检索的有效补充 局限 数据更新有一定的周期 时效性 灵活性比不上联机检索 目前光盘数据库容量有限 一般是按专业和领域建库 收录范围不够广泛 适用对象的局限性 因为一次性购买费用高 对使用频率不高的单位或个人来说成本较高 设备和软件的兼容性较差 各种光盘数据库检索系统目前还难以实现标准化和统一化 光盘检索系统的构成 计算机 CD ROM驱动器 检索软件 CD ROM数据盘 网络信息检索 是通过标准通信方式将世界各地的计算机网络连接起来 形成一个基于客户机 服务器模式的网络分布数据库结构 它在全球范围内把科技信息 商贸信息 经济信息 时事新闻以及日常生活信息通过互联网络合在一起 向亿万联网用户提供广泛的信息检索与服务 它是信息化社会应用最广泛 最活跃的领域 网络信息检索服务的特点 信息检索服务的开放性超文本的多链接性用户界面友好且操作方便具备良好的导航和编辑功能 信息检索服务的开放性 网络信息系统中包含信息资源 信息设备 信息通道 信息检索软件及信息终端等子系统 各个子系统都是开放的 其信息资源面向所有用户 超文本的多链接性 以超文本技术为基础链结构将不同地方的相关信息有机联系起来 使用户可通过点击文本或图表中的超文本链接点访问另一个相关的文档 用户界面友好且操作方便 采用客户机 服务器结构 通过交互式的图形界面 为用户提供友好的信息查询要求 检索途径多 可保留检索历史 正是这一特点 使Internet能广泛深入学校 家庭 办公室乃至每一个人 具备良好的导航和编辑功能 网络信息检索一般都可以引导读者在复杂的网络信息资源中漫游而不致迷失方向 用户可以利用导航机制 了解其所在网络图中的位置 网络信息检索具有良好的编辑功能 包括修改 增加 删除节点和链的能力 此外对节点内的信息也具有良好的编辑能力 可进行多窗口编辑 3计算机检索技术与实现 布尔逻辑检索位置算符截词检索词组检索括号检索字段限制检索 布尔逻辑检索 即运用布尔逻辑算符 Booleanoperators 对检索词尽心逻辑组配 表达两个概念之间的逻辑关系 布尔逻辑算符主要有 ANDORNOT在中文数据库里 布尔逻辑运算符又是用AND OR NOT表示 有时用 及 逻辑与 逻辑乘 用运算符号 AND或 连接检索词例查 有关计算机在图书馆中的应用 的文献 检索式 计算机 图书馆 逻辑或 用运算符号 OR 或 连接两检索词例1查 苹果或梨 方面的文献检索式 苹果 梨它在同义词检索中使用 能提高查全率 例2查 计算机或机器人 方面的文献检索式 计算机 机器人 逻辑非 用运算符号 NOT 或 连接两检索词ANOTB例1查 玉米但不是甜玉米 方面的文献 检索式 玉米 甜玉米例2查 不是铬合金 方面的文献 检索式 合金 铬 位置算符检索 文献记录中词语的相对次序不同 所表达的意思就可能不同 同样在检索式中 检索词的相对次序不同 表达的检索意图也不一样 布尔逻辑运算符有时难以表达某些检索课题的确切提问要求 用词间位置算符来限定和组配检索词 可弥补布尔逻辑算符只是定性规定检索词的范围 而没有限定检索词位置关系 易造成误检的不足 位置算符检索就是利用一些特定的位置算符来表达检索词之间的位置关系 并且可以不用叙词表而直接使用自由词进行检索的方法 有的书上还把这种检索称为原文检索 这种检索在利用TI和AB途径检索时 对检索质量影响很大 常用的位置算符有 W W N WITH WITHIN nW PRE N NEAR ADJ nN F SAME W W N WITH WITHIN 功能 两词相邻 按输入时顺序排列 也有数据库允许顺序颠倒 表达式 Education W school或EducationWITHschool检索结果 Educationschool educationschools nW 功能 两词相邻 按输入时顺序排列 也有数据库允许顺序颠倒 两词之间允许插入0 n个词 表达式 Education 1W school检索结果 Educationschool educationschools Educationandmusicschool PRE 功能 两词相邻 按输入顺序排列表达式 EducationPREschool检索结果 EducationschoolEducationschools N NEAR ADJ 功能 两词相邻 顺序可以颠倒表达式 Education N schoolEducationNEARschool检索结果 EducationschoolEducationschoolsSchoolofEducation nN 功能 两词相邻 顺序可以颠倒 两词中间可以插入0 n个词表达式 Education 1N school检索结果 EducationschoolschoolofeducationEducationandsicschoolschoolofmusicandeducation F 功能 两词必须出现在同一字段中 词序与词量不限表达式 Education F school DE检索结果 Education和school必须同时出现在叙词字段内即可 SAME 功能 两词出现在同一自然句中 其词序与词量不受限制表达式 EducationSAMEschool检索结果 Education和school两词出现在同一句子中即可 截词检索 截词运算符号有两个 其在不同系统中表示的含义不同 原因 在英语词汇中 一个词可能有多种形态 如词的单 复数形式的不同 英美拼写方法不同 词性不同等 有限截词 即在检索词后后截几个有限的字母 如名词的单复数 动词的词尾变化等 如输入computer 表示有0 2个字母变化 可检出computer和computers 输入stud 表示截断处有0 3个字母变化 可检出study studies studied studing 无限截断 在检索词后加一个 表示该词后可加任意个字符 使用无限截词 所截词根不能太短 否则会输出许多无关文献 造成误检 如 computer 可检出computers computering computered computerization 中间截断 在检索词中间加一个或几个 号 主要解决一些英美拼写不同 单复数形式的不同的词的输入 可简化输入 如 输入wom n可检出woman women 截词检索在中文数据库中截的是词意 例 西北 分别检出了 西北农林科技大学学报 西北园艺 西北纺织学院学报等 在外文数据库中截的是词的后缀 截断派生出的词汇和原来的词义基本一致 例 金属 metal metal metals metaled metalist等 利用截词检索时 注意截词的部位 一定不能截的太深 否则误检率会很大 词组检索 将一个词组或短语用双引号 括起作为一个独立运算单元 进行严格匹配 以提高检索准确度 如 GlobalPositioningSystem 只检索出规定字段中包含完整词组的记录 括号检索 用于改变运算的先后次序 括号内的做优先运算 用 可以表示优先级 如比较 GPSORGIS ANDChinaGPSORGISANDChina 字段限制检索 将检索词限定在某一字段中 检索时 计算机只对限定字段进行运算 以提高检索效果 常用的检索符号有 in 例 Englishinla 总结 在一个复杂的检索式中 不仅可以有多个运算符 也可以使用括号来指定运算的优先顺序 以及体现概念的完整性 4计算机检索策略与事实技巧 分析检索课题 明确检索目的和要求选择数据库编制检索提问式 选择检索入口上机检索及反馈调节 分析检索课题 明确检索目的和要求 明确检索的要求和目的 是制定检索策略的前提 由于各类用户的检索要求和目的受其社会因素和个人因素的制约 是各不相同的 因此 在着手信息检索之前 必须全面地了解清楚用户的信息需求和检索目的 检索的学科内容 主题范畴 根据社科信息用户的文献需求特点 其需求不外乎以下四种类型 了解学科发展动态的要求了解某一研究主题的片断性信息了解某一研究主题的全面性信息检索特定的文献信息 了解学科发展动态的要求 这类信息需求的特点是一个 新 字 即用户要求及时获得学科前沿研究的最新动态 最新进展和研究成果 针对用户的这类检索要求 在选择数据库时 除了必须考虑选择在学科内容方面与检索要求相吻合的基本要求外 还应注意考虑到信息内容更新周期短的因素 了解某一研究主题的片断性信息 这类信息旨在借鉴他人研究成果 用以解决研究中碰到的具体问题 这类信息需求的量最大 其特点是一个 准 字 即检出的信息应有针对性 能帮助解决具体问题 因此 在数据库选择方面 除了注意内容主题的匹配外 还应注意原始文献的易获取性 最好选择全文数据库 了解某一研究主题的全面性信息 出于基础理论研究 编写教材及申请课题的需要 用户往往需要全面系统地收集某一个主题范围内的文献资料 这类检索具有横向普查 纵向追溯的特点 并对查全率有较高的要求 因此 针对这类检索类型在选择数据库时 要注意选择存储容量大 覆盖年限长 具有较强随机存取能力的数据库 检索特定的文献信息 用户已经知道文献的题名 作者 而只是要求获取原文 对这类用户需求只需要选择与学科主题相吻合的数据库 除了需要了解清楚用户信息检索的要求和目的外 了解清楚待查找文献的年限 文献类型 语种和检索费用的支付能力等情况 对制定正确的检索策略也很重要 不同类型的信息需求 对查全率和查准率的要求不尽相同 对选择数据库的要求也存有差异 因此 在后续制定检索策略时 也应区别对待 选择数据库 数据库检索的正确与否将直接影响到检索结果的好坏 数据库选择不当 就会得出完全不符合要求的结果 选库时要遵循以下原则 要根据用户信息检索的学科内容和目的选择数据库 如果检索课题涉及的内容全面而广泛 为了避免漏检 应同时选择几个不同的库 如需检索的课题内容专业性很强 则可以选择专业文档进行检索 在同时有几个数据库可供检索的情况下 应首先选择比较熟悉的数据库 这样能既快速又准确地查找到真正需要的文献信息 当几个数据库的内容交叉重复率比较高时 应选择检索费用比较低廉的数据库 当用户要求检索的文献量比较大时 可首先用浏览的方式 按主题或学科专业的方式查找 编制检索式 选择检索入口 利用各种算符构造检索式 然后选择检索入口即字段 如 题名 著者 主题词 文摘 全文等 用主题词在主题范围 或字段 文摘范围 题名范围 全文范围检索称主题途径用著者姓名在著者范围检索称著者途径用分类号进行分类检索称分类途径用专利号 分子式检索称其它途径 分类途径 是按照学科分类体系查找文献的途径 采用的是 分类目录 和 分类索引 按分类进行查找 用分类途径能够把同一学科的文献信息集中在一起检索出来 其缺点是分类表是事先编制好的 一些新学术论文增补不及时 依此途径检索 所得文献容易落后于学科发展 又由于每篇文献是按学科规类的 查出的结果涉及面宽 针对性不强 因而还需要进一步筛选 分类途径要确定的检索点是分类号 根据分类号编制检索式 主题途径 根据文献的主题特征 利用各类主题目录和索引进行检索的途径 即利用从文献中抽象出来的或经过人工规范化的 能够代表文献内容的词来检索 主题目录和主题索引就是将文献按表征其内容特征的主题词组织起来的索引系统 利用主题途径检索时 只要根据所选用主题词的字顺 字母顺序 音序 笔画顺序等 找到所查主题词 就可查得相关文献 主题途径具有直观 专指 方便等特点 打破了按学科分类的方法 时分散在各个学科领域里的有关课题的文献集中于同一主题 主题途径要确定的检索点是检索词 根据检索词确定检索式 检索词的确定要进一步分析课题得出 分析检索课题 确定检索词 检索词是表达用户信息需求和检索课题内容的基本元素 也是计算机检索系统进行匹配的基本单元 正确的主题分析是制定检索策略的保证 它决定了检索策略的质量和检索效果的好坏 因此 务必要在分析课题的主题概念中掌握课题的内容实质 概括出能最恰当地代表主题概念的检索词 使用标准化的术语分析出课题内容实质从相应的规范词表中选定所需的检索词注意同义词 近义词其它 使用标准化的术语 尽管在不少数据库中都允许使用关键词检索 但是 在选用关键词的过程中切忌使用国际上不通行的术语 避免使用冷僻词和自选词 如 第三世界 下岗 这样的词不能达到预期的效果 分析出课题内容实质 寻找出隐性的主题概念 使用最吻合于检索要求的检索词 分析课题的内容实质不仅要从课题名称中找出能满足检索课题要求的检索词 而且要从学科专业和检索目的的角度 根据出能够反映课题实质内容的主题词 例如 社会保险包含 养老保险 失业保险 医疗保险 和 社会救济 等下位概念 要根据需要选取主题词 从相应的规范词表中选定检索词 由于主题词是文献标引和检索中必须共同遵循使用的语言 而且很多数据库都有自己的主题词表 所以在有数据库专用词表的情况下 应优先选用词表中的规范词 以便能使检索获得最佳的效果 注意同义词 近义词 在确定检索词时 除了要考虑反映主题概念的同义词 近义词等相关词以外 还要注意到被选用词的缩写词及不同拼法的词 以便在编制检索式时考虑到这些因素 避免漏检有关的文献 从词表规定的专业范围出发 选用各学科内具有检索意义的基本名词术语避免使用频率低的词多选用基本词汇进行组配一般不选动词和形容词等 检索词的分析方法 内取法 从课题字面上分解出检索词外概法 从题意中概括出检索词 著者途径 利用著者 个人或单位著者 目录和著者索引进行检索的途径 国外对著者途径非常重视 许多检索工具都把著者索引作为最基本的辅助索引 著者途径的特点是 科研人员一般是各有所长 尤其是有些领域的知名学者 专家 他们的文章一般都代表了一定的水平和动向 通过著者线索 可以系统地发现和掌握他们研究的进展和他们的最新论著 一定程度上可以引导查找到同类或相关文献 这种途径的检索既快速又方便 但查得的文献缺乏系统性和完整性 其它途径 根据文献的序号特征 利用其序号索引进行检索的途径 许多文献具有唯一的序号 如ISBN ISSN 专利号等 根据这些序号可真诚不同的序号索引 在已知序号的前提下 利用序号途径能方便地查找所需文献 常用检索途径的检索效率 分类途径 利用分类名和分类号进行检索 其结果是该类目所有的文献 检索结果较全 题名 篇名 途径 利用篇名中的字词或篇名的一部分进行检索 其结果是所有在篇名中出现该字 该词或该部分的文章 检索结果较准 主题词 关键词途径 利用文章篇首标明的与该篇文献主题相关的词进行检索 其结果是包含该主题词或关键词的所有文献 结果较准 著者途径 利用文献作者名字进行检索 可查到该作者的所有文献 但不系统出处途径 利用原文献刊载处进行检索 可查到某刊载处刊登的所有文献全文关键词途径 用于全文数据库检索 利用从文献题名和正文中抽出的 表达文献主题内容的 有实际意义的词进行检索 结果全 但有误检 全文自由词 任意词 用于全文数据库检索 利用文献中的任意字或词进行检索 结果全 但误检率高 年份途径 利用年份进行检索 可查到某年份出版的所有文献 一般与其他途径合并使用 上机检索及反馈调节 在得到检索结果后 可能会出现一下三种让人不太满

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论