第1章信息检索概述_第1页
第1章信息检索概述_第2页
第1章信息检索概述_第3页
第1章信息检索概述_第4页
第1章信息检索概述_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1.11.1 信息概述信息概述1.1.1 信息信息1.1.信息的概念信息的概念信息信息是事物存在的方式和运动状态及其规律的表征,是事物存在的方式和运动状态及其规律的表征,是事物的一种普遍属性是事物的一种普遍属性2.2.信息的特征信息的特征客观性客观性时效性时效性传递传递性性共享共享性性3.3.信息的常见类型信息的常见类型口语口语信息资源信息资源肢体语信息资源肢体语信息资源实物信息资源实物信息资源文献信息资源文献信息资源4.4.信息加工与数据挖掘信息加工与数据挖掘信息加工信息加工:是对收集的是对收集的信息进行去伪存真、去粗取精信息进行去伪存真、去粗取精、的的加工过程,是在原始信息的基础上,生产出

2、价值含加工过程,是在原始信息的基础上,生产出价值含量高、方便用户利用的二次信息的活动量高、方便用户利用的二次信息的活动过程过程。数据数据挖掘挖掘:为为从海量的数据中提取有用的知识从海量的数据中提取有用的知识而而生发生发展起来的数据处理技术。其主要任务是关联分析、分展起来的数据处理技术。其主要任务是关联分析、分类、预测时序模式和偏差分析等类、预测时序模式和偏差分析等。1.1.2 文献文献1.1.文献的构成要素文献的构成要素 知识、知识、信息内容信息内容 信息信息符号符号 载体载体材料材料 记录方式记录方式文献文献是记录信息和知识基本载体。是记录信息和知识基本载体。狭义文献狭义文献指指具有历史具有

3、历史意义的书面材料,意义的书面材料,广义文献广义文献是指记录知识的一切载体是指记录知识的一切载体。2.2.文献的主要类型文献的主要类型图书图书期刊期刊报纸报纸会议文会议文献献政府出版物政府出版物学位论文学位论文档案档案3.3.文献加工文献加工著录著录标引标引编目编目题题录简介文摘录简介文摘的编制的编制4.4.一次文献、二次文献和三次文献一次文献、二次文献和三次文献一一次次文献文献:人们人们对自然和社会信息进行首次加工而成对自然和社会信息进行首次加工而成的文字记载。的文字记载。 二次二次文献文献:为了为了控制文献,便于人们查找,对一次控制文献,便于人们查找,对一次文献进行再加工,通过整理、提炼和

4、压缩,并按其外文献进行再加工,通过整理、提炼和压缩,并按其外部特征(题名、作者、文献物理特征)和内容特征序部特征(题名、作者、文献物理特征)和内容特征序化,形成另一类新的文献化,形成另一类新的文献形式形式。三次三次文献文献:利用二次文献,选择有关的一次文献再加利用二次文献,选择有关的一次文献再加以分析、综合而编写出来的第三个层次的文献以分析、综合而编写出来的第三个层次的文献形式形式。1.21.2 信息检索信息检索1.2.1信息检索的概念信息检索的概念广义广义的信息检索的信息检索是指将信息按一定的方式组织和存储是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关的信息过程。起来,并

5、根据信息用户的需要找出有关的信息过程。狭义的信息检索狭义的信息检索仅指从信息集合中找出所需要的信息仅指从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查寻的过程,相当于人们通常所说的信息查寻。信息检索信息检索应两应两个主要方面个主要方面:信息信息标引和存储过程,信息的需求分析和检索过程。标引和存储过程,信息的需求分析和检索过程。1.2.2 信息检索系统信息检索系统1.1.书目检索系统书目检索系统信息检索信息检索系统系统是指根据特定的信息需求而建立起来的是指根据特定的信息需求而建立起来的一种有关信息搜集、加工、存储和检索的多功能开放一种有关信息搜集、加工、存储和检索的多功能开放系统,

6、其主要目的是为人们提供信息服务系统,其主要目的是为人们提供信息服务。任何任何具有信息存储与检索功能的系统,均可以称为信具有信息存储与检索功能的系统,均可以称为信息检索系统息检索系统。2.2.事实检索系统事实检索系统检索系统类型检索系统类型查找的问题查找的问题词典、百科全书、手册或相应的数据库词典、百科全书、手册或相应的数据库字字/词的形、音、义及用法;专业术语的解释词的形、音、义及用法;专业术语的解释百科全书、年鉴、专业手册或相应的数据库百科全书、年鉴、专业手册或相应的数据库概念的定义、背景资料;事物的起源与发展概念的定义、背景资料;事物的起源与发展百科全书、年鉴、统计汇编或相应的数据库百科全

7、书、年鉴、统计汇编或相应的数据库各种统计资料各种统计资料/统计数字等统计数字等百科全书、年鉴、年表或相应的数据库百科全书、年鉴、年表或相应的数据库重大事件的情况重大事件的情况百科全书、综合性手册或相应的数据库百科全书、综合性手册或相应的数据库奇特事物奇特事物专业性手册或相应的数据库专业性手册或相应的数据库数据、公式数据、公式传记工具、综合性词典、百科全书、年鉴、机构传记工具、综合性词典、百科全书、年鉴、机构名录或相应的数据库名录或相应的数据库人物传记资料人物传记资料地名工具、综合性词典、百科全书、年鉴或相应地名工具、综合性词典、百科全书、年鉴或相应的数据库的数据库地名地名/地理资料地理资料机构

8、名录、百科全书、年鉴或相应的数据库机构名录、百科全书、年鉴或相应的数据库组织机构资料组织机构资料百科全书、法律法规汇编或相应的数据库百科全书、法律法规汇编或相应的数据库政策法规、法律条文政策法规、法律条文专题目录、题录、文摘或书目数据库专题目录、题录、文摘或书目数据库某一课题的相关资料某一课题的相关资料馆藏目录、联合目录或联机公共目录(馆藏目录、联合目录或联机公共目录(OPAC)书、刊等出版物的收藏地点书、刊等出版物的收藏地点年表、历表年表、历表不同历法间的日期转换不同历法间的日期转换1.2.3 计算机检索系统计算机检索系统计算机计算机检索系统由计算机硬检索系统由计算机硬件、软件、数据库和通信

9、网件、软件、数据库和通信网络构成络构成。计算机计算机信息检索是在计算机和人的共同作用下,按照信息检索是在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话,从计一定的方法组织和存储信息,并通过人机对话,从计算机存储的大量数据中自动输出用户所算机存储的大量数据中自动输出用户所需信息需信息的过程。的过程。1.1.计算机检索的基本方法计算机检索的基本方法(1 1)布尔检索)布尔检索布尔逻辑布尔逻辑检索检索:采用采用布尔逻辑表达式来表达用户的检布尔逻辑表达式来表达用户的检索要求,并通过一定的算法和手段进行检索的过程。索要求,并通过一定的算法和手段进行检索的过程。 ANDAND。AND

10、AND也可用也可用“* *”表示表示。“计算机计算机* *图书馆图书馆”,表示查找出既含有检索词,表示查找出既含有检索词“计计算机算机”又含有检索词又含有检索词“图书馆图书馆”的文献。的文献。 OROR。OROR也可用也可用“+ +”表示表示。“计算机计算机+ +文献检索文献检索”表示查找文献内容中含有表示查找文献内容中含有“计计算机算机”或含有或含有“文献检索文献检索”以及两词都包含的文献。以及两词都包含的文献。 NOTNOT。NOTNOT也可用也可用“- -”表示表示。“计算机计算机 NOT NOT 文献检索文献检索”表示表示查找含有查找含有“计算机计算机”而不含有而不含有“文献检索文献检

11、索”的那部分文献的那部分文献。(2 2)截词检索)截词检索截词检索是预防漏检,提高查全率的一种常用检索技截词检索是预防漏检,提高查全率的一种常用检索技术常用的截词符有术常用的截词符有“? ?”、“$ $”、“* *”等。等。截词按截断位置不同可分为后截词、前截词、中截词截词按截断位置不同可分为后截词、前截词、中截词。 后截词:前方一致,后方变化。如后截词:前方一致,后方变化。如“computcomput? ?”表表示示computercomputer、computerscomputers、computingcomputing等。等。 前截词:前方变化,后方一致。如前截词:前方变化,后方一致。如

12、“?computer?computer”表示表示minicomputerminicomputer、microcomputersmicrocomputers等。等。 中截词:也称为屏蔽词。一般来说,中截词仅允中截词:也称为屏蔽词。一般来说,中截词仅允许有限截词,主要用于英、美拼写不同的词和单复数许有限截词,主要用于英、美拼写不同的词和单复数拼写不同的词。如拼写不同的词。如“organi?ationorgani?ation”可检索出含有可检索出含有organisationorganisation和和organizationorganization的记录的记录。(3 3)原文检索)原文检索原文原文检

13、索不依赖叙词表而直接使用自由词检索,其运检索不依赖叙词表而直接使用自由词检索,其运算符通称为位置运算符,主要有算符通称为位置运算符,主要有4 4个级别。个级别。 记录级检索记录级检索:检索:检索词出现在同一记录中。词出现在同一记录中。 字段级检索字段级检索:检索:检索词出现在同一字段中。词出现在同一字段中。 子字段或自然句级检索子字段或自然句级检索:检索:检索词出现在同一子字词出现在同一子字段或同一自然句中。段或同一自然句中。 词位置检索词位置检索:检索:检索词之间词之间的位置的位置满足某些条件满足某些条件。(4 4)加权检索和聚类)加权检索和聚类检索检索(5 5)扩检与缩)扩检与缩检检1.2

14、.4 检索效果的评价检索效果的评价设设n n为检索系统中文献总量,为检索系统中文献总量,m m为检索输出的文献量,为检索输出的文献量,a a为为n n中与检索课题有关的文献量,中与检索课题有关的文献量,b b为为m m中与检索课题中与检索课题有关的文献量(检准文献量)。有关的文献量(检准文献量)。 查全率查全率R R:R=b/aR=b/a* *100% 100% 查全率查全率=(=(检出相关文献量检出相关文献量/ /文献库内相关文献总量文献库内相关文献总量) )100%100%) 查准率查准率P P:P=b/mP=b/m* *100% 100% (查准率(查准率=(=(检出相关文献量检出相关文献量/ /检出文献总量检出文献总量) )100%100%) 漏检率漏检率M M:M=(1M=(1b/a)b/a)* *100%=100%-R100%=1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论