网络信息检索基础知识专题_第1页
网络信息检索基础知识专题_第2页
网络信息检索基础知识专题_第3页
网络信息检索基础知识专题_第4页
网络信息检索基础知识专题_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、网络信息检索网络信息检索基础知识基础知识广东工程职业技术学院网络信息检索基本知识网络信息检索基本知识v网络信息资源的概念网络信息资源的概念v网络资源的发展过程网络资源的发展过程v网络信息资源的类型网络信息资源的类型v网络信息检索的概念网络信息检索的概念v网络信息检索的发展历程网络信息检索的发展历程v网络信息资源的检索方法与检索技术网络信息资源的检索方法与检索技术网络资源的概念 网络资源网络资源: :指一切以数字形式生产、发指一切以数字形式生产、发行并通过网络检索、获取和利用的信息资源。行并通过网络检索、获取和利用的信息资源。数字形式是以能被计算机识别的、不同序列数字形式是以能被计算机识别的、不

2、同序列的的“0”0”和和“1”1”构成的形式。网络资源中的构成的形式。网络资源中的信息包括文字、图片、声音、动态图象等,信息包括文字、图片、声音、动态图象等,以数字代码的方式存储在磁带、磁盘等介质以数字代码的方式存储在磁带、磁盘等介质上,通过计算机输出设备和网络传送出去,上,通过计算机输出设备和网络传送出去,最终显示在用户的计算机终端上。最终显示在用户的计算机终端上。网络资源的产生与发展网络资源的产生与发展v19501950年代:电子管计算机的产生,人们开始年代:电子管计算机的产生,人们开始研究计算机情报检索系统研究计算机情报检索系统v19601960年代初:最早的数据库伴随着美国化学年代初:

3、最早的数据库伴随着美国化学文摘社(文摘社(CASCAS)开始发行)开始发行“化学题录化学题录”(Chemical Title)Chemical Title)而产生,同期出现的还有而产生,同期出现的还有美国医学图书馆的美国医学图书馆的“医学索引医学索引”(Index Index MedicusMedicus)。)。19651965年大约有年大约有2020多个数据库可以多个数据库可以提供使用,但使用范围不大,内容主要以书提供使用,但使用范围不大,内容主要以书目、文摘、索引为主。目、文摘、索引为主。网络资源的类型v按网络资源的性质和功能划分v按网络资源的生产途径和发布范围划分v按网络资源的载体划分v

4、按网络资源的学科划分按网络资源的加工程度划分v零次信息:网上学术信息中的新闻信息和动态信息这两大类零次信息:网上学术信息中的新闻信息和动态信息这两大类可以考虑与传统可以考虑与传统“零次信息零次信息”相匹配(当然性质不完全相相匹配(当然性质不完全相同)同) v一次信息:就是原始文献,如全文信息。一次信息:就是原始文献,如全文信息。v二次信息:对一次信息进行加工、整理,便于利用一次文献二次信息:对一次信息进行加工、整理,便于利用一次文献的信息资源,只提供题名、来源、文摘等体露信息。如文摘的信息资源,只提供题名、来源、文摘等体露信息。如文摘型数据库型数据库,中文生物医学期刊目次数据库中文生物医学期刊

5、目次数据库、工程索引数、工程索引数据库据库EI等。等。v三次信息:指对二次信息进行综合分析、加工、整理的信息三次信息:指对二次信息进行综合分析、加工、整理的信息资源,如资源,如WebCrawler(元搜索引擎)元搜索引擎)按网络资源的生产途径和发布范围划分v商用网络电子资源(正式出版物):电子期刊、全文数据库、电子图书、参考数据库v网络公开学术资源:学术网站、学科资源导航、搜索引擎/分类指南等v特色资源(灰色资源):古籍特藏、学位论文、教学课件等v其他:FTP资源、BBS。按网络资源的载体划分v文摘、索引数据库v电子图书 v电子期刊v电子会议录v电子版专利(中国专利、美国专利)v电子版工具书(

6、如网络版的大不列颠百科全电子版工具书(如网络版的大不列颠百科全书、汉语词典等)书、汉语词典等)按网络资源的学科范围划分v理工(如)理工(如)v人文人文v社会科学(新华社多媒体社会科学(新华社多媒体v医学医学(Medline、医学全文)、医学全文)v农业(农业( CNKI农业专辑)农业专辑)v经济(国研网数据库、中国咨讯行数据库)经济(国研网数据库、中国咨讯行数据库)v法律法律 (Lexsis、nexsisv综合等综合等(CNKI、学位论文数据库、书生数字图书馆)、学位论文数据库、书生数字图书馆)按信息的有偿性划分按信息的有偿性划分v分为付费和免费量大类。分为付费和免费量大类。v付费的网络资源大

7、多技术含量高、整理有序、具有很高的利用价值和参考价值。如,Dialog、 CNKI等大型数据库系统。免费或试用数据库。如美国专利数据库。 免费资源免费资源付费资源付费资源网络资源的检索v网络信息检索的发展历程v网络资源检索的概念v网络资源检索系统的构成、功能模块v网络资源检索系统的特点v网络数据库检索的概念v网络数据库检索的特点v检索语言v网络资源检索系统评价网络信息检索的发展历程v伴随着网络资源的出现,网络信息检索也随之发展起来。在信息检索活动中,手工检索曾是最基本最常用的检索方法手工检索曾是最基本最常用的检索方法,从检索原理看,手工检索与计算机检索是基本一致的,而且计算机检索就是在手工检索

8、基础上发展起来的。随着计算机技术、网络通讯技术和信息存储技术的飞速发展,传统手工传统手工检索过渡到了计算机检索。进入检索过渡到了计算机检索。进入2020世纪世纪9090年代,互联网的发年代,互联网的发展使人类社会信息的存储、传递、交流和利用发生了革命性展使人类社会信息的存储、传递、交流和利用发生了革命性的变化,的变化,互联网上的信息资源呈现爆炸性增长,传统相对独互联网上的信息资源呈现爆炸性增长,传统相对独立的联机检索系统纷纷变成了互联网上的一个站点,立的联机检索系统纷纷变成了互联网上的一个站点,计算机计算机检索由此进入了网络信息检索阶段。检索由此进入了网络信息检索阶段。网络信息资源检索的概念v

9、网络信息检索:网络信息检索:就是利用计算机、高速信息网络等信息技术存储和检索信息的过程。即人们通过联网计算机,并使用特定的检索指令、检索词、检索提问和检索策略,从网络资源中检索出所需要的信息,并可以在终端设备显示、下载、保存或打印。v网络信息检索的实质是网络信息检索的实质是“匹配运算匹配运算”,即用户输入的检索提问与检索系统中存储的信息特征标识及其逻辑组配关系进行比对、组配,并把相符合的信息调出来的过程。简单的说也就是一个信息查找的过程。需要人、计算机(和网络)共同作用来完成的。v 网络信息资源检索系统的物理构成 v(1)服务器服务器v服务器是检索系统的核心部分,在检索过程中需要处理大量的指令

10、和数据。这需要服务器具有较高的运算速度和处理能力,并且具有相当大的信息存储容量。v服务器决定了系统的检索速度和存储容量,而软件部分的作用则是充分发挥硬件的功能,主要进行信息的存储、处理、检索以及整个系统的运行管理。服务器软件和硬件的组成反映了整个信息检索系统的检索能力。(如CNKI服务器)(2)通信网络通信网络 v通信网络是终端与服务器之间的桥梁,其作用是确保信息传递的畅通无阻;而且通讯网络的性能决定着网络信息检索的速度和效率。v国际上大型联机检索系统的主机与本地区数据通信网络相联,在网络上有端口,检索用户通过网线和网络设备检索数据库信息。 (3)检索终端检索终端v检索终端是用户与检索系统传递

11、信息进行“人机对话”的装置, 有电传终端(如 )、数传终端和微机终端等。现在基本上都是微机终端。v常用的微机终端,由计算机、打印机以及调制解调器组成。v调制解调器的作用主要是把终端的信息在传输前加载到一个载波信号上(称之为调制),接受端在接收信号时通过检测收到的信息偏离精确载波信号的程度,分离出原先发送的信号(称之为解调),以解决信息传输过程中的衰减问题。 (4)软件)软件v软件的作用是充分发挥硬件的功能,进行信息的存储、处理检索以及整个系统的运行管理。v操作系统软件:WindowsXP、2000,WindowsNT等。v数据库管理系统软件:SQLserver2000、Oracle,Sybas

12、e等。v数据库检索软件和阅读软件:AcrobatReader(阅读PDF格式文件 、sreader(超星),vip(维普),CAJ (CNKI中国学术期刊数据库)。 (5) 数据资源数据资源v按内容划分,包括网络数据库、联机馆藏目录苦、电子出版物(电子图书、电子期刊、电子报纸)、政府机构信息(包括有关组织机构的宗旨、业务范围、人员、最新信息分布、各种法律、法规、政策信息等)、网络综合信息(包括购物、生活、商务、休闲娱乐等)。 网络资源检索系统的功能模块v信息采集模块信息采集模块v信息存储模块信息存储模块v标引著录模块标引著录模块v规范模块(著录后形成规范模块)规范模块(著录后形成规范模块)v内

13、容发布模块内容发布模块v检索模块检索模块v服务模块(如下载、浏览、保存、打印)服务模块(如下载、浏览、保存、打印)v管理模块管理模块网络信息检索的特点(一)v(1)信息检索空间的拓宽,可以检索因特网上的各信息检索空间的拓宽,可以检索因特网上的各类资源,检索这不必预先知道某种资源的具体地类资源,检索这不必预先知道某种资源的具体地址。址。(2 2)检索快捷)检索快捷:处理速度快、运算准确、可靠性高。v(3)多元灵活:多元灵活:可以采用逻辑运算和限制检索等功能,使检索词之间能够灵活地进行组配。v(4)交互式作业方式:能够从用户命令中获取交互式作业方式:能够从用户命令中获取指令,即时相应用户要求,执行

14、相应操作,并具指令,即时相应用户要求,执行相应操作,并具有良好的信息反馈功能。用户在检索过程中可以有良好的信息反馈功能。用户在检索过程中可以及时调整检索策略,并能及时获得联机检索帮助及时调整检索策略,并能及时获得联机检索帮助和指导。和指导。网络信息检索的特点(二)v(5)(5)更新迅速、及时更新迅速、及时:如许多动态类资源,可以随时更新。v(6)(6)资源共享资源共享: :利用本地计算机可以查询、获取网上丰富的信息资源,每个联网计算机都可以成为网上的信息源,实现资源共享。v(7 7)用户界面友好、操作简便)用户界面友好、操作简便:网络信息检索对用户屏蔽了各个局域网间的物理差异,使用户在透明的系

15、统平台上,使用自己熟悉或方便的检索界面、检索指令进行检索查询,并以自己所需的格式显示或输出、打印、保存自己检索到的信息资源,大大方便了用户检索、使用。v(8)由于网络资源杂乱无序,检索结果冗余信息多。 网络数据库检索的概念v在学术信息资源检索中,用的较多的是网络数据库,在学术信息资源检索中,用的较多的是网络数据库,网络数据库是网络数据库是指用户在自己的客户端上,通过互联网和浏览器界面对数据库进行检索,这一类检索系统都是基于互联网的分布式特点开发和应用的,即:数据库分布式存储,不同的数据库分布在不同的数据库生产者的服务器上;用户分布式检索,任何地方的终端都可以访问并存储数据;数据分布式处理,任何

16、数据都可以在网上的任何地点进行处理。网络数据库检索系统的特点v(1)(1)检索快捷检索快捷:处理速度快、运算准确、可靠性高。v(2)(2)多元灵活:多元灵活:可以采用逻辑运算和限制检索等功能,使检索词之间能够灵活地进行组配。v(3)(3)信息量大,数量多,一次可以检索各个年代范围的资源。v(4)(4)更新迅速、及时更新迅速、及时:如许多动态类资源,可以随时更新,又如美国OCLC网络的First Search检索系统,新刊出版后3天内,即可出现。网络数据库检索系统的特点v(5)5)资源共享资源共享: :利用本地计算机可以查询、获取网上丰富的信息资源,实现资源共享。v(6)(6)方式多样方式多样:

17、 :可以提供网络订购、直接获取全文等多种服务,可按要求输出。v(如题录格式、文摘格式、全文格式等)v(7 7)用户界面友好、操作简便)用户界面友好、操作简便:网络信息检索对用户屏蔽了各个局域网间的物理差异,使用户在透明的系统平台上,使用自己熟悉或方便的检索界面、检索指令进行检索查询,并以自己所需的格式显示或输出、打印、保存自己检索到的信息资源,大大方便了用户检索、使用。 网络数据库检索系统的特点v另外还有以下特点:另外还有以下特点:v检索针对性强,检索效果好(相对一般网络搜索)检索针对性强,检索效果好(相对一般网络搜索)v形式多媒体化,服务形式更直观形式多媒体化,服务形式更直观v响应速度快响应

18、速度快v客户端客户端/ /网关服务器网关服务器/ /服务器检索模式提高了检索效率服务器检索模式提高了检索效率v信息组织模式超链接化信息组织模式超链接化v检索功能强,通过检索功能强,通过WWWWWW提供检索,易学易用提供检索,易学易用v数据库的购买费用较高数据库的购买费用较高v用户界面基于用户界面基于WWWWWW开发,方便友好开发,方便友好v应用程序与数据服务器隔离应用程序与数据服务器隔离,使得数据库数据安全性好。,使得数据库数据安全性好。检索语言(retrieval language)v检索语言的概念和作用v检索语言的类型检索语言的概念和作用v检索语言检索语言(retrieval langua

19、ge):是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种专门语言。检索的运算匹配就是通过检索语言的匹配来实现的。是人与检索系统对话的基础。v作用:对文献的外部特征和内部特征进行多层次描述,提供多种检索途径,以方便用户从不同角度检索查找。检索语言的类型v人工语言:是根据信息检索的需要而由人工创制的,人工语言:是根据信息检索的需要而由人工创制的,采用规范词(采用规范词(controlled term),用来专指某个概),用来专指某个概念,可以将同义词、近义词、相关词、多义词及缩念,可以将同义词、近义词、相关词、多义词及缩略词规范在一起,由人工控制。人工语言包括:分略词规范在一起,由人

20、工控制。人工语言包括:分类检索语言(分类号)、主题检索语言和代码检索类检索语言(分类号)、主题检索语言和代码检索语言(化学物质登记号)。语言(化学物质登记号)。v自然语言自然语言:检索用词是从信息内容本身抽取的,主要检索用词是从信息内容本身抽取的,主要依赖于计算机自动抽词技术完成依赖于计算机自动抽词技术完成。自然语言检索自然语言检索人工语言人工语言网络资源获取途径:网络资源获取途径:途径途径之一:搜索引擎之一:搜索引擎v工作原理:由网络搜索软件(Robot、Spider、Worm等)自动定期遍历各类网站,自动搜集网页信息进行索引建库并提供全文检索。不仅可以快速地搜集全球各网站的信息,还及时发现

21、新的网站内容并剔除已废弃的网站网页,及时更新完善自身数据库。数据库规模可以做得相当庞大,数据的时效性也可以得到有力保障,大大提高了网络信息的查全率、及时性及有效性。 。v优点 :信息量大;信息更新速度快;方便普通用户使用。v缺陷:信息噪音较大。 网络资源获取途径网络资源获取途径网络检索工具网络检索工具v途径之一:搜索引擎途径之一:搜索引擎v第一代第一代:以网络、网页的数量:以网络、网页的数量 多少为标准,结多少为标准,结果不按相关性排序,代表为果不按相关性排序,代表为Lycos,Lycos是搜是搜索引擎中的元老,是最早提供信息搜索服务的网索引擎中的元老,是最早提供信息搜索服务的网站之一。站之一

22、。v第二代:第二代:以检索结果的质量为目标,检索思想、以检索结果的质量为目标,检索思想、方法发生转变,检索结果排序并进行超链分析,方法发生转变,检索结果排序并进行超链分析,代表为代表为GoogleGoogle、Baidu Baidu 。v第三代第三代:未来趋势智能化搜索工具,进行概念分:未来趋势智能化搜索工具,进行概念分析。析。根据检索提问,进行智能化分析与搜索,并根据检索提问,进行智能化分析与搜索,并对检索结果进行分析、筛选、排序、链接和提示对检索结果进行分析、筛选、排序、链接和提示等。等。 Google主页主页网络资源获取途径之二:网络资源获取途径之二:网络地址网络地址v一个城市如果没有街

23、道、门牌号,要找到一个地方很难,网络也如此。v在国际互联网上有成千百万台主机,为了区分它们,给每台主机都分配了一个专门的“地址”作为标识,称为IP地址。每个IP地址的长度为32位(bit),每段数字范围为1254Bit,段与段之间用小数点分隔。如v由于IP地址是数字型的,使用起来不方便,于是人们又发明了另一套字符型的地址方案,即域名地址。入网的每台主机都具有类似于下列结构的域名:如, 。在掌握网络地址的情况下,可以利用地址栏进行检索,直接、简便。 商都商都信息港信息港域名域名网络资源获取途径之三:网络资源获取途径之三:主题指南(主题指南(Subject

24、Subject DirectoryDirectory,网络目录,网络目录) )v(如搜弧 雅虎Yahoo! )v工作原理工作原理:将网络信息利用人工分类的方法组织成一个树状目录结构,用户根据主题类目和子类目逐层深入查找所需信息。v优点: 搜集的信息经过人工筛选,质量较高,结果更具有参考价值。v缺陷:信息量小;类目不易确定;信息更新速度慢。v例如:搜狐于1998年推出中国首家大型分类形式的主题指南。18个部类、近10万条链接构成的树型网页结构 。每日页面浏览量超过800万,可以查找网站、网页、新闻、网址、软件、黄页等信息。 主题指南主题指南主题指南主题指南网络资源获取途径之四:网络资源获取途径之

25、四:网络导航网络导航v网络导航就是通过一定的技术手段,为网站的访问者提供一定的途径,使其可以方便地访问到所需的内容。v相当于传统图书馆信息部门的目录索引。v网络导航网络导航有许多类,重点学科导航是其中一有许多类,重点学科导航是其中一类。如各高校重点学科导航,北大、清华。类。如各高校重点学科导航,北大、清华。 学科学科导航导航网络资源获取途径之五:网络资源获取途径之五:网络网络资源链接、超链接资源链接、超链接v检索到某一信息资源,往往有许多检索到某一信息资源,往往有许多相关链接、推荐连接、热点连接等,相关链接、推荐连接、热点连接等,顺链而下,可以查找到许多相关有顺链而下,可以查找到许多相关有价值

26、信息。价值信息。相关链接相关链接网络资源获取途径之六:网络资源获取途径之六:网络数据库网络数据库v网络数据库(免费、购买使用)网络数据库(免费、购买使用)v免费资源,如网络期刊(数字图书免费资源,如网络期刊(数字图书馆)、数据库馆)、数据库v购买的如:购买的如:CNKI CNKI 、万方学位论文数、万方学位论文数据库、据库、EI EI 、SCI SCI 等中外文数据库。等中外文数据库。网络资源获取途径之七:其他方法与途径网络资源获取途径之七:其他方法与途径v网络会议、专业博克网站。网络会议、专业博克网站。 v免费纯网络期刊网站,如神州学人、数字图书馆杂志免费纯网络期刊网站,如神州学人、数字图书

27、馆杂志( )( )v网络地址的获得网络地址的获得: :网络指南、网络指南、因特网适用网址速查因特网适用网址速查 国国外电力常用网址名录外电力常用网址名录中国工商网址黄页中国工商网址黄页中国医学网中国医学网址址、“中国精彩网址中国精彩网址”、“企业网址大全企业网址大全”等或运用网页等或运用网页地址历史记录、收藏夹直接进入相关站点,可以省去输入网地址历史记录、收藏夹直接进入相关站点,可以省去输入网址的时间。址的时间。v如果不知道网址,还可以直接输入汉语、或拼音名称即可。如果不知道网址,还可以直接输入汉语、或拼音名称即可。神州学人月刊简介(纯电子期刊)神州学人月刊简介(纯电子期刊)神州学人杂志历经14年的发展,围绕着“加强对广大在外留学人员进行爱国主义教育,鼓励他们回国工作或以适当方式为国服务,为我国改革开放和社会主义现代化建设事业做贡献”的办刊宗旨,经过多年的探索,其主要内容框架已基本形成,即:走近中国了解祖国的窗口; 留学视野联络感情的纽带;学人园地表达情思的园地;留学服务提供服务的媒体。网络信息检索中的一些常用基本概念网络信息检索中的一些常用基本概念初级检索初级检索v初级检索初级检索是面向一般读者提供的检索方式。利用初级检索系统能进行快速方便查询,适用于不熟悉多条件组合查询的普通用户。它为用户提供了详细的导航内容,最大范围的选择空间。对于一些

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论