西华师范大学信息检索课件1.胡晓.ppt_第1页
西华师范大学信息检索课件1.胡晓.ppt_第2页
西华师范大学信息检索课件1.胡晓.ppt_第3页
西华师范大学信息检索课件1.胡晓.ppt_第4页
西华师范大学信息检索课件1.胡晓.ppt_第5页
已阅读5页,还剩91页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

超星数字图书馆 P99 全球最大的中文数字图书网 40多万种电子书在线阅读 下载 http 210 41 192 21 libweb index asp 书生之家由北京书生科技有限公司创办 主要提供1999年以来中国大陆地区出版的新书的全文电子版 第一章信息检索概述第一节基本概念第二节信息源第三节信息系统 第一节基本概念 信息检索 InformationRetrieval 1 信息检索的含义广义的信息检索是指信息存储与检索 InformationStorageandRetrieval 狭义的信息检索则仅指该过程的后半部分 即相当于人们所说的信息查寻 informationsearch 本课程主要涉及后者 2 相关概念 P1 信息 Information 是客观事物的运动状态和特征的反映 是人们认识事物发展的基础 由于信息涉及的领域广 内容丰富 人们的研究点不同 对信息的界定也不同 我们可以从三个层面把握信息概念 1 本体论层面 事物运动的状态和方式 2 各学科领域层面 进入认识领域和传播领域 是可以被理解或被接受的各种消息 情报 知识 事实 数据等 3 大众交流信息 相互之间交流的所有内容 各学科领域层面信息按其内容性质分为理性信息和记述信息 理性信息 即学术信息 是各学科领域信息的核心 学术信息的重要特征是 要进入相关学科问题研究 在学科不同层次的研究中产生的信息 记述信息 描述性信息 对具体现象 事实 包括数据 进行记述或描述而产生的一种最基本 客观的信息 没有离开记述信息的所谓科学研究 知识 Knowledge 是人类对自然界 人类社会中各种现象 规律的信息反映进行思维分析 加工提炼 经过系统化 理论化的过程 系统化 理论化的信息就称为知识 情报 Information 是人们在一定的时间内为一定的目的 传递的有使用价值的知识或信息 三者的相互关系 信息是知识的源泉 知识是系统化 理论化的信息 情报是活化的知识和信息 能为人们所利用 信息包含知识和情报 系列化的信息成为知识 知识中的特定需要部分就是情报 但也有的情报只是消息 并非知识 文献 记录有知识的一切载体 包括图书报刊 声像资料 电子出版物 资料 含有自己所需情报内容的那部分文献 数据 原始符号 数字 文字 文献 资料 数据都是信息的物质载体 3 信息检索的分类 1 按检索手段信息检索可分为手工检索和计算机检索 包括光盘和联机检索和网络检索 计算机检索是信息检索的发展方向 但是手工检索也有其独特的优势 在信息检索过程中应该多种形式并重 用手工方式来处理和查找信息 是一种传统而又基础的检索手段 优点 不需要特殊设备 查找方法简单 灵活 不需要检索经费或费用较低 缺点 效率低 检索速度慢 大的课题相当费时 在进行复杂问题的多途径检索时 需要反复查找若干检索工具 查全率一般较低 手工检索 计算机检索 检索过程是在人与机器的合作 协同下完成的 它们经常用实时的 realtime 交互的 interactive 的方式从计算机存贮的大量数据中自动分拣出用户所需要的信息 计算 比较 选择的匹配任务是由机器来执行的 而人则是整个检索方案的设计者和操纵者 计算机检索是手工检索功能在数字化 网络化环境下的深化发展 计算机检索的优势 计算机检索明显优于手工检索 主要表现 检索的信息量大 数据更新快 检索功能强 检索结果输出的多样性 光盘检索除可提供追溯检索 定题服务外 还用于自建库 检索费用较低 优点使用光盘检索不须通讯联系 不受时间限制 光盘可以替代或补充图书收藏 其多媒体的书籍 游戏和参考资料是用户最欢迎的类型之一 光盘存储容量大 稳定性与数据保存性好 比较坚固耐用 而且结构小巧 性能价格比高 缺点信息获得比国际联机慢 回溯检索须多次换盘 信息更新不及时 联机检索是指商业性的计算机数据库检索服务机构 亦称卖主 通过国际 卫星 通讯网络 为世界各地的用户终端提供人机对话式的检索的服务方式 检索费用高 对检索系统及其文档 数据库 的收录 标引 特点等问题较难了解 熟悉 检索指令复杂 技术和技巧不易掌握 多为专业人员才能熟练使用 2 按检索对象形式文献型信息检索 DocumentRetrieval 数值型信息检索 DataRetrieval 事实型信息检索 FactRetrieval 多媒体信息检索 MultimediaRetrieval 文献型信息检索是以文献为检索对象的检索 凡查找某一主题 时代 地区 文种的有关文献 以及回答这些文献的出处和收藏处所等 具体分为 信息的线索检索查找信息的出处 检索结果是信息线索 包括书名或论文题名 著者 出版者 出版地 出版时间等文献外部特征 用于检索文献线索的的检索工具有书目 索引 文摘等 以及书目型数据库 索引题录型数据库 例 有关 太平天国的资料有哪些 这类资料载体形式有哪些 手检和机检各用哪些资源比较恰当 思路1 从手工检索入手 以图书馆为依托 从图书馆的目录中查找 寻找有关洪秀全 曾国藩 李鸿章 左宗棠等人的资料 查找有 粤匪 粤寇 等字眼的书目 缺陷1 许多书的书名看似与太平天国无关系 却载有太平天国的重要内容 缺陷2 各地图书馆各有特点 如上海图书馆有关小刀会和洋务运动的资料多一些 北京图书馆 北大图书馆有关清政府的资料多一些 湖南图书馆有关湘军和曾国藩的资料多一些 广西图书馆有关太平天国首义的资料多一些 南京等地图书馆有关太平天国建都以后的资料多一些 思路1 利用图书馆资源检索 太平天国 思路2 利用各类搜索引擎 思路3 利用数据库 全国报刊索引 数据库P110 重庆维普 P117 中文科技期刊数据库 是我国最大的数字期刊数据库 是我国数字图书馆建设的核心资源之一 高校图书馆文献保障系统的重要组成部分 也是科研工作者进行科技查证和科技查新的必备数据库 布尔逻辑 布尔逻辑检索 BooleanLogic 逻辑检索是一种比较成熟 较为流行的技术 现代的情报检索系统多采用这种技术 布尔逻辑运算符逻辑与AND 逻辑或OR l 逻辑非NOT ANDNOT 信息全文检索 以查找到信息的全文为目的 图书 例 查找易中天发表的文章 报刊论文的搜索 方法1用数据库查询 国家知识基础设施 NationalKnowledgeInfrastructure CNKI 的概念 由世界银行提出于1998年 CNKI工程是以实现全社会知识资源传播共享与增值利用为目标的信息化建设项目 由清华大学 清华同方发起 始建于1999年6月 P115 方法2用互联网查询 易中天filetype pdf PDF是PortableDocumentFormat的缩写 译为便携式文档格式 PDF阅读器AdobeReader专门用于打开后缀为 PDF格式的文档 PDF阅读器 AdobeReader 是Adobe公司开发的一种电子文档阅读软件 Google已经可以支持13种非HTML文件的搜索 除了PDF文档 Google现在还可以搜索MicrosoftOffice doc ppt xls rtf ShockwaveFlash swf PostScript ps 和其它类型文档 新的文档类型只要与用户的搜索相关 就会自动显示在搜索结果中 四川省图书馆的入口 数值型信息检索是以数值或数据为对象的一种检索 包括文献中的某一数据 公式 图表 以及某一物质的化学分子式等 例 长江有多长 洪水期最高水位有多高 使用年鉴 手册或专题数据库能获取这类信息 百度统计数据搜索是对各种统计年鉴 报表等统计数据进行汇总 并提供给用户搜索和应用的平台 目前有由搜数公司为百度提供的自建国以来至近些年的所有公开的政府统计年鉴和报表数据数十万条 但还有一些具体到各个行业内更深层次的数据 还没有涵盖 事实型信息检索利用检索工具或检索系统查找某一特定事物的过程 检索结果是有关某一事物的具体答案 如 名词术语 概念 定义 某一事件 事实或某一机构 人物的状况等 用于检索事实信息的检索工具有字词典 百科全书 年鉴 手册 以及术语型数据库和指南型数据库 例 什么是二元论 它是如何产生的 它的背景 发展沿革及其影响如何 使用百科全书或搜索引擎就能获取这类信息 P85 百科全书定义 汇集一定学科领域所有知识 可分为综合性和专科性等 二元论 EncyclopediaBritannicaOnline 简称EBOnline 作为第一部Internet网上的百科全书 1994年正式发布 可检索词条达到98 000个 EBOnline界面友好 简单易用 大英百科全书 简明百科全书 不列颠百科全书出版公司与台湾远流集团旗下部门智能藏 Wordpedia 公司共同的出版物 用了八年时间才制作完成 中文版百科全书除了一部分是基于从英语版EncyclopaediaBritannica翻译过来的资料以外 还包含由台湾和其他地区以及中国历史和文化资料 该版本有70 000个条目 4500万个汉字 包含10 000多幅图片和许多视频与音频片断 内容极为全面 奇摩本来是台湾最大 人气最旺的门户网站 后来被雅虎收购了 但鉴于奇摩的品牌很有影响力 就保留了 所以雅虎台湾网站就叫做雅虎奇摩 自然雅虎旗下的知识栏目就叫做雅虎奇摩知识 信息的线索检索是一种相关性的检索 检索的结果是信息线索 只能作为初步的检索 还必须进一步查找 直到找到有关的一次信息 数据与事实检索是一种确定性检索 检索的结果是可供科研人员直接利用的信息 4 检索语言 检索语言是用来描述检索提问主题 学科分类等内容的语言 目前使用的检索语言包括自然语言和人工语言 自然语言为不懂人工语言的网络用户提供极大的便利 人工语言主要有主题语言和分类语言 1 自然语言naturallanguage 非规范语言 文献作者原来使用的语言 包括文献题名 摘要 正文及参考文献中的具有一定意义的语词 自然语言是取其自然形态 不受控 使用非规范词 uncontrolledterm 或称自由词 freeterm 自然语言极其丰富 复杂和多样 存在着一词多义 多词一义及词义交叉的现象 常见的有同义词 近义词 同型异义词等 自然语言 人工语言artificiallanguage 规范语言 受信息检索的控制 使用控制 规范词 controlledterm 人工语言的规范处理重在两个方面 一是一个概念只用一个词汇来表达 这样就避免了多词一义的情况 二是一个标引词只能表达一个概念 这样就排除了一词多义现象 例 飞机 用英语检索时 可用plane airplane aeroplane aircraft等同义词 规范就是选定其中最适合的一个词汇来标引这一概念 如果选定aircraft一词 则其余词均为非规范词 在使用aircraft规范词来检索时 其结果将包含所有有关飞机这一概念的文献 而不管这些文献中是否确切出现过aircraft这个词 分类语言和主题语言 主题语言包括 关键词语言 单元词语言 标题词语言 叙词语言等 它们有不同的主题词表 主题词表达概念本身 在主题词表中通过参照系统来指示词汇之间的关系 p14 分类语言也属于主题语言 分类语言是按学科范畴划分而构成的一种语言体系 它集中反映学科的系统性 反映它们的相关 从属 派生等关系 从总体到局部分层 分面展开 形成分类体系 由类目号码及名称作为检索语言 构成分类类目表 主题 通常指文献论述的对象 经过筛选后用以表述文献主题的语词 称为主题词 主题语言 是规范化的检索语言 其检索词从相关主题词表中得出 一般指以表达文献主题内容的词语作为标引对象 按主题词的字顺组织文献 并用参照系统显示概念之间相互关系的文献信息组织与揭示的方法 主题语言的依据是主题词表 又称叙词表 检索词表或词库 它是一些规范化的主题词及使用规则的集合体 是进行主题标引和主题检索的工具 1 主题语言 图 EBSCO的主题词表 P14 主题词语言种类很多 如 关键词语言 叙词语言 标题词语言 单元词语言等 它们有不同的主题词表 主题词表达概念本身 在主题词表中通过参照系统来指示词汇之间的关系 关键词语言 keyword 关键词 对表达文献主题内容具有实质意义的语词 可直接取自文献的题名 文摘等 或者取自全文 关键词语言 将描述主题内容的关键词抽出 按字顺排列提供检索 一般不加或加以少量规范处理 所以是一种准主题语言 常规的做法是编制 非关键词表 禁用词表 stop term 分别列出冠词 介词 连词 代词等无检索意义的词 在标引或检索时 只要是不在禁用词表中的词 都可作为关键词的备选词 优点 1 简捷 降低对检索人员的要求 2 易用 易于计算机编制和检索 3 及时 能及时更新词汇 缺点 不规范 有大量的同义词 近义词 影响查全率和查准率 如 高速公路 有 autobahn autoroute freeway speedway thruway 等 图形图像 和 图形图象 同义 检索时如果不能全部记住 会出现漏检 而 cell 既指细胞又指电池 检索时会出现误检 不显示概念之间的关系 难以进行族性检索 由于关键词是未经人工干预的自然语言 符合大众的检索习惯 大多数检索系统都有关键词检索 例 利用英文搜索引擎查找网络信息检索方面的资料 网络webinternetwww逻辑关系 信息检索search retrieval 逻辑关系 检索式可表示为 webORinternetORwww AND search ORretrieval 网络与信息的逻辑关系 标题词语言 subjectheading 标题词语言是最早出现的一种按主题来标引和检索文献的传统检索语言 采用的标题词是经过规范化的标引文献主题概念的词 特点是有较好的通用性 直接性和专指性 但灵活性较差 适宜于从事物的主题概念出发而进行的检索 常用的标题词表有 EI所用的 工程标题词表 SubjectHeadingsforEngineering SHE 美国国会标题词表 LibraryofCongressSubject 医学主题词表 MedicalSubjectHeadings 单元词语言 uniterm 单元词是指从文献中抽取出来的 能表达文献主题的最基本 不能再分的单元词语 又称元词 它从文献内容中抽出 经过规范 能表达一个独立的概念 具有灵活的组配功能 具有灵活的组配性 但却只是字面的组配不是概念的组配 实际上 表达事物概念 除了单一概念外 还有许多的复合概念 由于科技不断发展 单元词语言已不能适应信息检索的要求 因此 它已被更先进的叙词语言取而代之 例如 公路桥梁 单元词语言 公路 桥梁 两个单元词组配标题词语言 公路桥梁 一个词组 叙词语言 descriptor 为了适应计算机检索的需要 叙词语言于20世纪60年代产生 它是在标题词语言 单元词语言和分类语言的基础上发展起来的一种新型的检索语言 叙词语言既适用于手工检索 又特别适用于计算机检索 叙词是指从文献内容中抽出来 能概括表达文献内容基本概念的并经过规范化的名词或术语 叙词语言是一种规范化的检索语言 在检索时可由多个叙词组成任意合乎逻辑的组配 形成多种检索方式 特点 语词组配准确 参照系统完善 具有较强的概念表达能力 检索效果好 是性能较好 使用最为广泛的检索语言 我国目前使用的主题语言基本为叙词语言 常用的叙词表有 INSPEC的词表 INSPECThesaurus Ei的 EIThesaurus 及我国编辑出版的 汉语主题词表 等 标题语言和单元词语言大部分已经被叙词语言代替 汉语主题词表 是显示主题词与词间语义关系的规范化动态性的检索语言词表 它是沟通信息工作者与用户之间的思维桥梁 是自然语言与信息系统语言之间的媒介 同时又是人与计算机之间在进行信息存储与检索方面的联系工具 适于计算机检索的窗体 适于人工检索的窗体 汉语主题词表收录的主题词包括下列类型 表示具体事物名称的名词术语 如汽车 变压器 反应堆 水稻 坐标仪等 表示事物的状态或现象的名词术语 如强度 失真 日冕 船舶过载等 表示科学分类的名词术语 如数学 物理学 中医学 电子学 建筑工程 水利工程等 表示研究方法 技术方法的名词术语 如分析 化学 针刺手法 有限元法 结构功能法 力学性能试验等 表示工艺方法 加工技术的名词术语 如铸造 锻造 热处理 焊接 酿造 激光切割等 表示化学元素 化合物 金属材料与合金的名词术语 如钠 氧原子 族元素 钠化合物 硅化物 硫酸 以及如金属板耐蚀钢 耐蚀合金等 表示国家名称 地名 组织机构名称及人名的专有名词以及文献类型 文献载体的名词术语 次部分主题词 包括在原 汉语主题词表 第三卷附表内以及第一卷社会科学部分内 本增订本内未专门收录 网络主题语言 目前主题语言已广泛应用于一些重要数据库资源的标引 也越来越多地被用来组织网络信息 主题语言对网络信息的组织主要表现为两种形式直接用现有的词表组织处理网络信息 应用少 采用关键词语言 广泛应用 milkingredient 2 分类语言 p9分类法 分类语言 一般称为分类法 是一种按学科范畴和体系来划分事物的检索语言 以分类表的形式体现 它展示了学科的系统性 反映了事物的从属 派生关系 从上至下 从总体到局部层层划分展开 是一种等级体系 由类目和相对应的类号来表达各种概念 构成一个完整的分类类目表 我国目前的分类法是建立在学科分类体系上的 属于体系分类法 如 中国图书馆图书分类法 分类语言的特征 按学科知识领域集中文献 依据分类标记符号编排 分类标记符号一般称为分类号 是表达各级类目的相对位置及相互关系的代号 按等级结构 逻辑关系显示类目之间的关系 分类法中的众多类目是根据类目之间的内在联系组织起来的 类目之间的关系主要有从属关系 并列关系 交替关系 相关关系 I文学I2中国文学I24小说I247当代作品 1949 I247 5新体长篇 中篇小说 58武侠小说例 查找 天龙八部 分类号为 I247 58 分类语言的优点 最突出的优点在于知识的系统性 能够满足用户族性检索的需要 按学科体系排列类目 直接体现了知识分类的要求 既能揭示出某一学科门类所包含的文献 同时又能显示出各个学科门类之间的逻辑关系 反映出一系列的相关文献 提供了从学科专业检索文献的途径 中国图书馆分类法 简称 中图法 我国具有代表性的图书分类法 被推荐为我国标准图书分类法 广泛使用于图书馆和情报部门的文献信息组织活动 在后面会做详细的讲解 分类语言的局限性 分类语言是一种人工语言 多数检索系统都是用分类号检索的 普通用户难以掌握 一些数据库分类过粗 一个类目下面汇集大量文献 而且分类法一般数年才修订一次 不能反映最新的知识门类 5 数据库 数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合 根据数据库的内容与功能划分 参考数据库 ReferenceDatabases 主要指二次信息数据库 它指引用户到另一信息源获得原文或其它更详细的信息 书目数据库 bibliographicdatabase 以二次信息如 文摘 题录 目录等书目数据为存贮对象 有时又称为二次信息数据库 主要著录文献的标题 著者 出处 摘要 主题词等 指引用户查找原始文献 P 110 CALIS联合书目数据库是全国 211工程 100所高校图书馆馆藏联合目录数据库 主题科学社会主义 指南数据库 directorydatabase 是存储有关某些客体 如机构 人物等 的一般指示性描述的一类参考数据库 其主要用途是供用户查询有关某一客体的基本信息或简要情况 亦称指示性数据库 包括各种机构名录数据库 人物传记数据库 软件数据库 产品数据库等 想查找电话 人名 电子邮件 地址等资料 综合型的搜索引擎功能并不强 必须要使用特种搜索引擎 特种搜索引擎专门收集某一类的信息资源 内容丰富 数据量大 能帮助你迅速找到一些专门的信息 Email WhitePageSearchEngine 白页搜索引擎 个人信息搜索引擎是查询个人信息的搜索工具 包括WhitePageSearchEngine 白页搜索引擎 个人电话号码簿通常为白页 故名 和EmailSearchEngine 电子函件搜索引擎 等 广义的WhitePageSearchEngine即指包括EmailSearchEngine在内的个人信息搜索引擎 狭义的WhitePageSearchEngine仅指查询个人电话号码和地址的搜索引擎 Four11 最著名和最优秀的个人信息搜索引擎 因美国电话查号台号码为411而得名 它具有超级的搜索能力 优秀的综合能力以及对用户友好的界面 源数据库 SourceDatabases 是指能直接提供原始资料或

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论