中科大文献检索课件第3章 信息检索基本技术_第1页
中科大文献检索课件第3章 信息检索基本技术_第2页
中科大文献检索课件第3章 信息检索基本技术_第3页
中科大文献检索课件第3章 信息检索基本技术_第4页
中科大文献检索课件第3章 信息检索基本技术_第5页
已阅读5页,还剩42页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章信息检索基本技术

一、概述

从检索手段看,信息检索可分为手工检索和计算机检索。手工检索使用的检索工具主要是印刷型(书本式)的检索工具;计算机检索则运用现代通信技术、网络技术,利用光盘检索、联机检索、网络数据库、Internet网络检索等多种形式来获取信息。

检索手段信息载体存储方式检索途径检索策略实现检索效率手检纸张印刷型较少人脑低机检磁盘光盘等电子型较多计算机高

二、计算机检索

一)原理计算机将输入机检系统的检索提问特征标识(检索词)或用布尔逻辑运算符(and、or、not)联结起来的检索提问式与已存储在系统中的文献特征标识(如:主题词、分类号、作者姓名等)进行机械性匹配比较,凡符合给定的比较原则和逻辑运算条件者即为命中文献。二)计算机检索特点

1.内容广泛信息量大;2.速度快,效率高;3.检索途径多;4.用户界面友好,使用方便;5.资源更新快;6.直接输出检索结果。三)计算机信息检索系统分类

按信息访问模式划分:

联机检索系统

光盘检索系统

网络数据库Internet网络检索

联机检索

联机检索(onlineretrieval)是指用户利用计算机终端设备,通过通讯线路,从信息中心的计算机(主机)数据库中检索出所需要的信息的过程。它允许用户以人机对话、联机会话这样交互的方式(interactive)直接访问系统及数据库,检索是实时(realtime)、在线(online)进行的。用户的提问一旦传到主机被接收后,机器便立刻执行检索运算,很快将检索结果传送到用户终端,用户可反复修改检索式,最后获得较满意的检索结果。

联机检索传统上采用命令检索方式(commandsearch),通过一些系统能够识别的命令(指令),完成对检索式的运算,实施检索。命令方式能比较恰当的反映检索词之间的概念范围,表达检索各概念间的关系。检索灵活、简捷、快速、利落,检索的精度较高。由于联机检索的机时通常被计入收费,因此,准确、快速的检索十分必要。但在另一方面,它对检索技能的要求也相应较高,常需要掌握检索技能、熟悉命令的有经验的人员来执行,以发挥命令检索的优势,避免把过多的经济负担转嫁给用户。DIALOG

美国DIALOG系统是世界上最大的联机检索系统,该系统始建于1963年,原隶属于美国洛克希德导弹与宇航公司,于1972年正式向公众提供联机检索服务。

DIALOG系统目前已在全世界100多个国家和地区拥有10余万个联机终端,数据库量已从最初的100多个发展为今天的450多个,数据库的内容涉及自然科学、社会科学、工程技术、人文科学、商业经济等各个领域,是一个综合性检索系统,其数据库数量之多、范围之广、用户之多均堪称世界之最。

光盘检索

光盘(opticaldisc)应用计算机技术、激光技术、多媒体技术存取数字信息。光盘检索通常采用菜单方式(menusearch),根据菜单提示、指引,通过选择、确定或键入填写以及一些功能键的使用,一步一步地执行检索,修改检索提问,直至完成全过程。光盘检索界面友好,允许人机对话,不需要专门的学习和培训,只要认真遵循界面的指示做下去,总能达到检索目的。

因其操作方式简单,使用时间宽松,因此称之为easy-to-use检索。面对众多的光盘生产厂商的品种各异的数据库产品,使用菜单方式就避免了用户不知所措、寸步难行的困惑,菜单检索在这方面的优势是明显的。但它因此带来的不足是烦琐,检索步骤多,反复操作,检索的时间开销大,检索精度一般也不如命令检索。

网络数据库

国际互联网(Internet)也称因特网,它具有全球性的分布结构、开放性的信息环境及跨国界的信息流。互联网的检索可同时使用网上多个主机,甚至所有主机的某种资源而并不需要用户预先知道它们的具体地址。这就极大扩宽了其检索的空间和信息量,包括各种文献信息资源及其指向的网络页面。而传统的联机检索、光盘检索只局限在对一台或几台主机上的特定数据库的检索。但在另一方面,互联网信息庞杂,正式与非正式信息及其交流渠道共存,信息缺乏有效的组织管理,因此很难用一般意义上的查全、查准这些概念来衡量其检索。

基于Web方式的联机检索是指Web版本的数据库检索,它使用WWW浏览器在windows界面下交互作业,给用户揭示到一篇篇文章的信息,有很强的直观性,也可以检索多媒体信息。

Internet

网络检索Internet是国际互联网,也称因特网,它是一个计算机网络的网络。Internet将世界上不计其数的计算机及计算机网络互联起来,它们共同遵循TCP/IP通讯协议。Internet是信息高速公路的原形。

INTERNET上主页的数量以10亿计,其信息量十分惊人。目前为止,INTERNET提供了数十种不同的检索工具,他们各自有各自的(特点)数据库、语言、检索功能和显示方式。对INTERNET的检索者来说,最重要的就是要熟悉它的性能,并且运用有效的检索策略,只有这样才不至于淹没在无关信息中而无所收获。三、计算机检索系统中常用算符

命令检索用于联机检索系统,应用于许多Web版数据库的检索。检索式由若干检索词组配形成。这些检索词的扩展、限定的字段,它们之间的逻辑关系、位置关系等均可由算符的连接来表示。尽管不同的联机系统有各自定义的算符表示,命令形式不尽相同,但都有许多一致的检索功能。常用算符

算符(operator)即组配符,它们与检索词互联组成检索式,表达检索策略。常用的算符有:截词符、检索字段符、逻辑算符、位置算符等。

(1)截词符

截词符(truncationoperator),也称统配符(wildcard),用来对检索词(干)进行扩展。在Dialog系统中用?号表示。?号加在不完整的词或词干之后,或是插在一个词的中间来表示词后或词中可添加的随机字符。其作用是减少检索词的输入而保证相关检索概念的涵盖,同时也方便解决语言文字拼写方面的差异(如美式英语和英式英语),避免漏检。截词有:非限定性截词、限定性截词和中间截词等。

非限定性截词

截词符(truncationoperator),是在一个词尾加一个?号,表示在其后可添加任意多个字符,这些字符都被作为检索词进行检索。

如:smok?

它将对若干词进行检索,包括:smoke,smoky,smoked,smoker,smokes,smokers,smoking,smokeless等等。

Chin?

限定性截词

限定性截词(limitedtruncation),是在一个词尾加有限个?号,n个?号表示其后可添加的字符数少于等于n个。

如:smok??

将对smoke,smoky,smoked,smoker,smokes等进行检索。对于最多允许添加一个字符的情况,则用??的形式表示。

如;smok??

将只对smoke,smoky进行检索。“Mine???

中间截词

中间截词(embeddedtruncation),是在一词中间出现若干个?号,表示可插入若干个字符。

如:ioni?ation

它将对ionisation和ionization进行检索。

如:cent??line

它将对centerline和centreline进行检索。

Wom?n

(2)检索字段符

检索字段符(rangesearching)是对检索词出现的字段范围进行限定,执行时,机器只对指定的字段进行检索,经常应用于检索结果的调整。检索字段符分作两类;后缀式和前缀式。后缀式对应基本索引(basicindex),反映文献的主题内容;前缀式对应辅助索引(additionalindex),反映文献的外部特征。

后缀式

后缀式(suffixcode),是将字段代码放在检索词之后,并用/号连接,如:后缀代码

/TI表示Title(篇名)

/AB表示Abstract(文摘)

/DE表示Descriptor(叙词,规范词)

/ID表示Identifier(标识词,专用词)

如:electron/ti

表示electron一词须出现在篇名字段,

electron/ti,ab

表示electron一词须出现在篇名或文摘字段。

ID(identifier)是识别词,或称专用词,它们在专业领域中常用、共识,但并不规范。

另外,还有一些限定性参数(limiting)也用后缀方式,

/ENG英语出版物

/NONENG非英语出版物

/MAJ/前面的词为主叙词,出现在规范词字段,有*号标志

/19981998年的出版物

/1995:19991995至1999的出版物

前缀式

前缀式(prefixcode),往往是用于表达文献外部特征的字段,即一些辅助性检索字段,将前缀代码放在检索词之前,用=号连接,常见的前缀代码,见下表。

(3)逻辑算符

逻辑算符(logicaloperator),也称布尔算符(Booleanoperator),用来表示两个检索词之间的逻辑关系,常用的有三种;逻辑与(and)、逻辑或(or)和逻辑非(not)。这里用A和B分别代表两个检索词,它们的逻辑关系由下表和图说明。

如果一个检索式中包含若干逻辑关系,则其执行优先顺序为:NOT,AND,NOT,最可靠的办法是将需先执行的部分放在括号内。(4)位置算符

位置算符(proximationoperator),表示其连接的两个检索词之间的位置关系,常用的有(W),(nW),(N),(nN),(L),(S),(F)等。

(W)与(nW)算符

W是with的缩写。(W)或用()表示其连接的两个检索词必须按序出现,中间不允许插词,只能有一空格或标点、符号。

如:high(W)class

命中的记录中出现的匹配词可能有:

highclass或high-class。

(nW)与(W)类似,只是它允许插词,插词量小于或等于n个。

如:silicon(1W)sensor

命中的记录中出现的匹配词除siliconsensor外,还可能有:

siliconintegratedsensor,siliconimagesensor,silicon-basedsensor等。

如:silicon(2W)sensor

命中的记录中出现的匹配词除上例的外,还可能会有:

siliconangularratesensor,silicon-basedchemicalsensor等等。

input(w)output

input(1w)output

(N)与(nN)算符

N是near的缩写。(N)表示其连接的两个检索词的顺序可以互易,但两词间不允许插词。(nN)中的n表示允许插词量少于或等于n个。

如:internet(N)accessing

命中记录中出现的匹配词可能有:

internetaccessing,accessinginternet。

如:internet(1N)accessing

命中记录中除上例的外,还会可能有:

accessinginternet,accessingtheinternet,internet/intranetaccessing等。

building(N)constructionbuilding(1N)construction

(F)算符

F是Field的缩写。(F)表示其连接的两个检索词必须出现在同一字段中,字段不限,词序不限。

以上所有算符的书写用大小写均可。算符执行的优先顺序是按检词之间的关系紧密程度确定的,越紧的关系越先执行。一般将需要先执行的部分可放在括号内。四、数据库

一)计算机信息检索系统数据库:一定专业范围内信息记录及其索引的集合体。

二)结构

字段:是数据库中最基本单元。记录:是数据库中一个完整的信息单元文档:是机读记录的有序集合,包括顺排文档和倒排文档。字段—〉记录—〉文档—〉数据库

三)数据库的记录格式

1

存取号字段

2基本索引字段篇名字段(TI)文摘字段(AB)

叙词字段(DE)

3辅助索引字段著者字段(AU)

期刊名称字段(JN)

语种字段

(LA)五、Internet网络检索

一)Internet基本概念

Internet是国际互联网,也称因特网,它是一个计算机网络的网络。Internet将世界上不计其数的计算机及计算机网络互联起来,它们共同遵循TCP/IP通讯协议。Internet是信息高速公路的原形。

Internet是一个庞大的数据资源网,它将全世界各部门、领域的信息资源集成为一体,供全人类享用。Internet是一个面向公众的社会团体,它是一个全球性论坛,允许人们在internet上来进行信息查询、交流与获取,并将自己的资源加入其中。

作为全球internet网络的一个组成部分,我国正在推进中国信息基础设施CII(ChinaInformationInfrastructure)的建设。1994年我国全面开通了Internet服务,建立了四大网络体系。一些商业公司也开始建立自己的网络服务中心,通过租用专线与CHINANET连接,越来越多的单位和个人进入了互联网。中国互联网络信息中心已于1997年6月成立,并实现了国内各大互联网络之间的互联。

(1)中国科技网CSTnet

/item13/cncnet/cncmain.htm(2)中国教育科研网CERNET

http://(3)中国公用计算机互联网CHINANET

/(4)中国金桥信息网

http://,Internet网络上蕴藏着非常丰富的信息资源,从电子期刊、电子工具书、商业信息、新闻、大学和专业机构介绍、软件、数据库、图书馆资源、国际组织和政府出版物,到娱乐性信息等等。它已经成为全球范围内传播科研、教育、商业和社会信息的最主要的渠道。但要从这个信息海洋中准确迅速地找到并获得自己所需的信息,却往往比较困难。正是为了解决这个问题,从20世纪80年代起人们就开发了各种网络信息检索工具。其中,搜索引擎成为检索多类网络信息资源的集成化工具。

二)搜索引擎概述

搜索引擎(SearchEngines)是指对WWW站点资源和其他网络资源进行标引和检索的一类检索系统机制。搜索引擎最根本的任务是向网络访问者提供一个高效的访问机制。搜索引擎本身是个网站,但搜索引擎的数据库中存放的是其他网站的信息,而不是自己的信息。搜索引擎不仅接受用户的访问,还根据用户的搜索要求,在庞大的数据库中搜索出满足用户需要的站点。

搜索引擎常用的检索方法有关键词检索和目录浏览两种形式。

关键词检索:用户直接输入检索词,搜索引擎通过查找索引数据库中包含有检索词的记录来提供用户所需的信息资源。检索方便直接,而且可以使用逻辑算符、位置算符、截词符等来构成检索式,可以限制检索对象的地区、数据类型、时间等,因而可准确检索满足特定条件的网络资源。

目录浏览:用户通过浏览层次型的目录来寻找相关的信息资源。目录按一定的主题分类体系组织,并辅之年代、地区等分类。用户一般采取逐层浏览目录、逐步细化来寻找合适的类别直至具体资源。检索和浏览在信息查询过程中各有其功用。一般地说,检索便于有的放矢,直接获取检索结果;浏览利于边查边看,发现未曾预料的结果。

(三)几种常用的搜索引擎1.一种典型的搜索引擎介绍———Yahoo!

(1)分类浏览

(2)关键词检索

在检索输入框中直接输入检索词或词组,Yahoo!将在索引数据库中进行检索。

中文yahoo()

中文yahoo则是yahoo为中文用户开发的中文网站查询系统,它收集了数以万计的中文网站,不论你要找的网站是用国标码简

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论