《信息检索第二章》PPT课件_第1页
《信息检索第二章》PPT课件_第2页
《信息检索第二章》PPT课件_第3页
《信息检索第二章》PPT课件_第4页
《信息检索第二章》PPT课件_第5页
已阅读5页,还剩141页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络信息资源检索与利用,主要参考资料,课本因特网信息资源检索与利用第二版考试大纲湖北省高等教育自学考试大纲(课程名称:网络信息检索与利用课程代码:6385)作业题平时作业+考试模拟题(4套),第一部分课程性质与目标,一、课程性质与特点本课程是高等教育自学考试网络传播业的(独立本科段)专业课程之一,具有较强的实践性的特点。该课程与其他课程密切相关,在整个课程体系中处于重要地位。,因特网信息的无限、无序、优劣混杂、缺乏统一的组织与控制的特点,给人们查找和利用信息造成了一定的不便。能够在因特网中准确、及时、有效地查找并获取所需要的信息,对本专业的学生是一项非常重要的技能。这也是开设本课程的重要意义。,二、课程目标和基本要求通过本课程的学习,使学生能够:了解因特网信息资源的特点、种类、信息利用价值及评价、鉴选标准;了解并掌握因特网信息检索的基础知识了解并掌握各类型常用网络信息检索工具的功能、特点和评价、使用和检索方法;了解并掌握学术研究性信息、公共信息及各类专门信息的网上检索平台及查找方法。,第二部分考试说明与实施要求,考核的能力层次表述:大纲在考核目标中,按照“识记”、“理解”、“应用”三个能力层次规定其应达到能力层次要求。各能力层次为递进等级关系,后者必须建立在前者的基础上,其含义是:识记:能知道有关的名词、概念、知识的含义,并能正确认识和表述,是低层次的要求。理解:在识记的基础上,能全面把握基本概念、基本原理、基本方法,能掌握有关概念、原理、方法的区别与联系,是较高层次的要求。应用:在理解的基础上,能运用基本概念、基本原理、基本方法联系学过的多个知识点分析和解决有关的理论问题和实际问题,是最高层次的要求。,命题考试的若干规定,1、大纲各章所提到的内容和考核目标都是考试内容。试题覆盖到章,适当突出重点。2、试卷中对不同能力层次的试题比例大致是:“识记”为20,“理解”为40,“应用”为40。3、试题难易程度应合理:易、较易、较难、难比例为2:3:3:2。4、每份试卷进中,各类考核点所占比例约为:重点占65%,次重点占25%,一般占10%。5、试题类型一般分为:单项选择题、多项选择题、名词解释题、简答题、论述题。6、考试采用闭卷考试,考试时间150分钟,采用百分制评分,60分合格。,题型示例,(一)、单项选择题1、下列属于目录型网络检索工具的是().ABCD.(二)、多项选择题1、下列属于因特网信息资源的是()。AWWW信息资源B.RSS信息资源.FTP信息资源D.用户服务组信息资源.Telnet信息资源(三)、名词解释题1、布尔逻辑检索(四)、简答题1、简述搜索引擎的工作原理。(五)、论述题1、试述因特网检索工具的性能评价标准。,对大家学习提出几点要求,1、在开始阅读教材某一章之前,先翻阅大纲中有关这一章的考核知识点及对知识点的能力层次要求和考核目标,以便在阅读教材时做到心中有数,有的放矢。2、阅读教材时,要逐段细读,逐句推敲,集中精力,吃透每一个知识点,对基本概念必须深记得理解,对基本理论必须彻底弄清,对基本方法必须牢固掌握。3、阅读完每章教材后,认真完成老师布置的作业,要求熟练掌握!并独立完成老师安排的4套复习模拟题,注意答题技巧和答题方法。,考试大纲要求掌握的章节,第一章因特网信息资源(8分)第二章因特网信息检索概论(17分)第三章搜索引擎(17分)第四章目录型网络检索工具(14分)第五章元搜索引擎(14分)第六章多媒体信息检索(11分)第七、八章学术信息的网上检索与获取(11分)第九章参考信息的网上检索(8分),第三部分考核内容与考核目标,第一章因特网信息资源,一、学习目的和要求通过本章的学习,考生应掌握因特网信息资源的种类和特点,了解因特网信息资源的评价方法,Internet简介,Internet历史与发展(因特网、国际互联网)1.ARPANet(1969年,美国国防部研制)2.NSFNet(1985年美国国家科学基金会建立,1989年取代ARPANet)3.Internet(1990年后迅速普及),国内与Internet直接联网的四大网络,1.中国教育科研网(CERNET)2.中国科技网(CSTNET)3.中国公用计算机互联网(CHINANET)4.中国金桥信息网(CHINAGBNET),Internet的入网方式,1.通过局域网方式2.通过ISP接入(ISP是提供Internet入网服务的机构)拨号接入:计算机、Modem、电话线、ISP帐号。(ADSL)专线接入:租用数据专线或光缆、DDN等以及配套网络设备。,ADSL,(AsymmetricalDigitalSubscriberLine,非对称数字用户环路):是一种能够通过普通电话线提供宽带数据业务的技术,是目前极具发展前景的一种接入技术。ADSL素有“网络快车”之美誉,因其下行速率高、频带宽、性能优、安装方便、不需交纳电话费等特点而深受广大用户的喜爱,成为继Modem、ISDN之后的又一种全新的、更快捷、更高效的接入方式。,Internet的管理,1.TCP/IP协议:是计算机网络协议中最核心的两个协议。TCP是传输控制协议,处理由于路径不同及其它可能原因造成的数据包颠倒、数据丢失、数据失真等问题。IP是网际协议,利用路由算法解决路由选择的问题。,Internet的管理,2.IP地址:是Internet上每台主机和用户终端的识别标识。IP地址在全球范围内都是唯一的。IP地址的表示:33.域名系统(DNS):例:结构为:主机名.机构名.网络名.最高域名,Internet的管理,常用网络名:com(商业机构)、edu(教育机构)、mil(军事部门)、gov(政府部门)、org(非盈利组织)、net(网络服务商)最高域名:cn(中国)、uk(英国)、jp(日本)美国享有国家域名默认权。,Internet的管理,4.客户机/服务器(client/server)模式服务器:是指向全球Internet用户提供信息和服务的高性能计算机,包括Web服务器、邮件服务器、文件传输服务器。客户机:是指连接在服务器上的工作站(网络终端)。客户机通过有关程序(如浏览器等)向服务器发出指令或请求,服务器进行处理后将结果返回。,Internet提供的主要服务,电子邮件服务(E-mail)文件传输服务(FTP)远程登录(Telnet)电子论坛(ElectronicForum)信息查询服务(Archie、Gopher、WAIS,WWW),Internet提供的主要服务,1.电子邮件服务(E-mail)E-mail地址格式:用户名电子邮件服务器名如:lyqbs7209常用电子邮件软件:OutlookExpress,Eudora,Foxmail等,可管理多个邮件帐号,直接收发邮件。(将邮件pop到本地),Internet提供的主要服务,2.文件传输服务(FileTransferProtocol,FTP)是以其遵守的文件传输协议FTP而命名的。FTP是Internet上文件传输的各种规程的集合。通过FTP,用户可将本地文件上载给远程主机(upload),更多情况是从远程主机上下载(download)文件。(包括文本、图像、声音、多媒体、软件或数据文件等),Internet提供的主要服务,3.远程登录(Telnet)是指本地计算机通过Internet访问远程计算机上的硬件资源、软件资源和信息资源的过程。对于限制公开访问的远程主机,登录时要输入用户名和密码。随着www的普及,Telnet已少有使用。,Internet提供的主要服务,4.电子论坛(ElectronicForum)是Internet用户在网上讨论交流的一种形式,又称新闻组(Newsgroop)或专题讨论组(Usenet)。电子公告版(BulletinBoardSystem,BBS)与专题讨论组功能相似,但其规模小得多,且BBS上的观点只留在本地服务器上。,Internet提供的主要服务,5.信息查询(检索)服务在E-Mail、FTP和Telnet基础上开发的,比较知名的工具有Archie、Gopher、WAIS等,目前大多数INTERNET用户通过WWW浏览和WWW信息检索工具查询和使用网络信息资源。,WWW概述,万维网(WorldWideWeb,WWW)又称环球网、全球网,起源于1989年欧洲粒子物理研究中心,采用HTTP(超文本传输协议)在Internet上提供全球范围的多媒体信息服务。1993年1月,因特网上约有50个WWW服务器在工作,1999年高达300万个。现在WWW有等同于Internet的趋势。,WWW概述,超文本(Hypertext)包含两个含义:其一是信息的表达形式不局限于文字,还可以是图像、动画、视频、音频、动态数据、软件等非文本文件;其二是网页文件内部包含链接(link)。,WWW概述,超文本标记语言(HyperTextMarkupLanguage,HTML)是制作Web页面的语言,用来标记网页的标题、段落、链接、字体、颜色、表格等,并由浏览器来解释这些标识。HTML编辑器:Frontpage、DreamWeaver、NetscapeComposer,统一资源定位器(UniformResourceLocator,URL)用来描述信息资源的类型和在网上的位置,即网址。URL格式:,WWW概述,WWW概述,浏览器(Browser)是使用WWW资源的客户软件。常用的浏览器有:网景公司的NavigatorCommunicator微软公司的InternetExplorer(IE),Web检索工具,是指提供万维网信息查询的计算机系统。工作原理:1.信息采集:利用网络自动搜索软件Robot或Spider,以一个URL清单为向导,定期对Internet上的网页进行扫描搜索,记录下网页的有关事项。2.数据标引:对采集到的网页信息数据,Robot等会自动抽取表达网页主题意义的词作为关键词来构建数据库索引。有的网络检索工具同时采用人工标引。,Web检索工具,3.数据组织:标引后的网页数据形成检索工具数据库中的一条条记录,每条记录对应于一个网站或一个网页。记录内容包括网页标题、摘要或关键词、网址、网站网页与输入关键词的相关程度等。4.检索功能:布尔算符检索(AND+、OR|、NOT-),截词检索,词组检索,自然语言检索、概念检索、分类浏览,检索限定,语种翻译,自动排序等。,Web检索工具的类型,1.搜索引擎(searchengine)自动搜索采集网页信息,自动标引,数据量大,关键词检索功能强,查全率高,查准率低。典型:Google2.目录型检索工具(Webdirectory,catalog)以分类目录检索为主,接受网站推荐,人工参与网页信息的筛选标引,查全率低,查准率高。代表:Yahoo!、搜狐多数检索工具同时具有关键词检索和目录浏览功能。,Web检索工具的类型,3.多元搜索引擎(metasearchengine)通过统一的用户界面,可同时查询多个独立的Web检索工具,然后对这些结果进行加权等处理后返回给用户。例如:Metacrawler、Turbostart等;天网搜霸:强大的搜索引擎集成工具。飓风搜索通:整合近百个各类搜索引擎,包含简体中文,繁体中文,软件,音乐,股票,新闻等类别的全方位互联网信息检索工具。,国外著名通用搜索引擎,Yahoo!()Google()Lycos()Excite()AltaVista()Infoseek()HotBot(),Yahoo!,Yahoo!的两位创始人大卫费罗(DavidFilo)和杨致远(JerryYang),美国斯坦福大学电机工程系的博士生,于1994年4月建立。Yahoo!(雅虎)是最早最著名的目录型检索工具,在全球共有24个网站,12种语言版本。(参见雅虎中国),检索途径:,分类浏览:分为14个大类,每个大类下又分若干子类。专题链接:与Shopping、YellowPages、MapsNews、Sports等专题信息链接。简单检索:直接输入检索词高级检索,Google,Google的释义Google是由英文单词“googol”变化而来。“googol”是美国数学家EdwardKasner的侄子MiltonSirotta创造的一个词,表示1后边带有100个零的数字。Google使用这个词代表公司想征服网上无穷无尽资料的雄心。,关于Google,两位斯坦福大学的博士生LarryPage和SergeyBrin在1998年创立了Google。Google开发出了世界上最大的搜索引擎,提供了最便捷的网上信息查询方法。通过对30多亿网页进行整理,Google可为世界各地的用户提供适需的搜索结果,而且搜索时间通常不到半秒。现在,Google每天需要提供2亿次查询服务。,Google,特点:界面非常简洁,速度极快;检索网页数量达24亿,搜索引擎中排名第一;支持多达132种语言;包括简体和繁体中文;具有“手气不错”、“网页快照”、图片搜索、新闻组搜索等功能。运算符:空格表示逻辑“与”;减号“”表示逻辑“非”;“OR”表示逻辑“或”;对短语或句子搜索时必须加英文引号。,中文通用搜索引擎,百度()搜狐()新浪()网易(),于1999年底成立于美国硅谷,它的创建者是资深信息检索技术专家、超链分析专利的唯一持有人百度总裁李彦宏,及其好友在硅谷有多年商界成功经验的百度执行副总裁徐勇博士。百度是目前全球最优秀的中文信息检索与传递技术供应商。中国所有提供搜索引擎的门户网站中,超过80%以上都由百度提供搜索引擎技术支持,现有客户包括新浪、腾讯、263、21cn、上海热线、广州视窗、新华网、北方时空、西部时空、重庆热线等。,百度(B,Inc),使用搜索引擎注意事项,分类体系的差异类目设置和划分不一:如教育大类,新浪分出44个下位类;搜狐有34个;网易只有24个。类名表述的不同:如新浪用“计算机”;网易用“电脑”。关键词标引高级搜索中运算符的使用空格(AND)、&(AND)、(NOT)、|(OR)、()“”表示一个整体单元。不同的查询服务:网站、网页、新闻、软件等特殊的:图片、多媒体,网络信息资源的获取,Web检索工具(搜索引擎)网络数据库(文摘数据库、全文数据库)专业网站电子期刊、电子图书虚拟图书馆学科专业导航库,维普中文科技期刊数据库中国知网(中国期刊网)(CNKI)国家科技图书文献中心万方数据,国内主要数据库资源,国内医学搜索引擎和门户网站,眼科搜索三九健康网迈搏搜索中国导医网中国金卫网37医学网中国医药信息网,学科专业导航库,CALIS重点学科导航库(北大、复旦等)国家科技图书文献中心导航库,第一章因特网信息资源,教学内容:1.1、因特网上的信息资源1.2、因特网上信息资源的特点及信息利用价值1.3、因特网上信息资源的种类1.4、因特网信息资源的评价1.5、总结,1.1、因特网上的信息资源,因特网上有各种各样的信息,但并不是所有的内容都有。常见的误解有:认为因特网无所不包、无所不能;任何信息均可找到认为在网上找到的信息都是正确的认为因特网可以取代其他的媒体或信息渠道认为因特网的信息无多大的利用价值,1.1.1网上信息资源的种类,在网上可以找到的信息内容主要有:政府信息(网上最有价值的信息之一)指国际组织、各国政府及其相关部门所发布的信息。特点:权威可靠价廉,科研信息指各类专业学术机构所设立的网站及其相关信息。,教育信息指各大学所设立的网站及其相关信息。,文化信息主要包括各类信息媒体的网站和世界各地图书馆的数字化馆藏及其公共检索目录(OPAConlinepublicaccesscatalog),消闲娱乐性信息(网上“最成功”的领域),但并不是所有的信息都可以在网上找到的.,1.2、因特网上信息资源的特点及信息利用价值,因特网作为数字化、网络化信息的核心和集成。它提供了一种全新的交流信息和查找信息的渠道,具有方便、及时快速和交互性的特点。具体的可分为:,无限性和广泛性:信息资源极为丰富,多样性超文本、超媒体、集成式的提供信息,廉价性:价廉,是一种比印刷品便宜的信息提供方式,共享性广泛、直接交流,扩大人际交流的范围,提供更多机会,新颖性新颖、深入,提供了获取非出版信息的丰富机会,非正式和自由发表园地,无序性:在某些领域,信息来源分散、无序,没有统一的管理机构和发布标准,1.3、因特网上信息资源的种类,因特网信息资源包罗万象,广泛分布在整个网络中,没有统一的组织管理机构和目录。但按照其所采用的网络传输协议的不同,可将因特网信息资源划分为以下几种类型:万维网(WorldWideWeb,简称WWW)信息资源Telnet信息资源FTP信息资源用户服务组信息资源RSS信息资源,1.3.1、万维网信息资源,万维网(WorldWideWeb,简称WWW)信息资源是因特网信息资源的最主要、最常见的形式。它是指建立在超文本、超媒体技术的基础上,集文本、图像、图形、声音为一体,并以直观的图形用户界面(GUI)展现和提供信息的网络资源形式。自20世纪90年代问世以来发展极为迅速,他的超文本、超媒体特性使之在因特网信息存储和检索领域独占鳌头。与之相关的概念有:HTTP协议,HTML语言,URL,主页,连接,浏览器。,(1)超文本传输协议HTTP是浏览器与WEB服务器之间相互通信的协议,即WWW客户机和服务器用于网上传输、响应用户请求的协议。,(2)超文本标记语言HTML是一种专门编程语言,规定和描述文本显示的具体格式,即WEB服务器的信息是用HTML来描述的,HTML文档由文本、格式代码和其他文档的链接所组成。,3)统一资源定位器URL实质是一个用以标识文档类型及其所在网络地址的字符串,它的用途是用统一的方式指明因特网上信息资源的位置。URL包括三部分:所使用的传输协议;服务器地址;该服务器上定位文档的全路径名。如:,(4)主页(homepage)是指与任何一个WEB服务器链接后的所见到的第一个网页。是该服务器入口处的HTML文件。,(5)链接是WEB页的要素,是指向其他信息资源的指针。,(6)浏览器是一种应用于WWW的网络软件,驻于客户端的应用程序其用途为实现与WWW服务器的链接,帮助用户浏览、阅读和查找WWW信息资源。可分为三类:行式浏览器,文本浏览器和使用图形界面的浏览器。,1.3.2、Telnet信息资源,是指借助远程登录(remotelogin)在网络通信协议Telnet的支持下,在远程计算机上登录,使自己的计算机暂时成为远程计算机的终端,进而可以实时访问、使用远程计算机中对外开放的资源。亦即通过远程登录后,可以访问共享的远程系统中的软件和硬件资源。,远程登录Telnet,Telnet的应用:高性能超级计算机:完成复杂的运算ARCHIE服务器:查找所需的软件BBS:电子公告板公共文献检索系统:电子图书馆,远程登录,远程登录原理,用户本地计算机,远程服务器,客户机,服务器,Telnet,运行Telnet应用程序,BBS的浏览方式,BBS与最普遍的WWW服务一样,也是一种供大家交流信息的网络服务。一般的BBS站点都提供两种浏览方式:WWW和Telnet。WWW方式是指通过浏览器(如IE)直接看BBS上的文章参与讨论,其优点是使用比较简单方便,入门很容易,但由于其自身的限制,不能自动刷新,而且有些BBS的功能(如聊天、发信息等)难以在WWW下实现。Telnet方式是通过各种终端软件,直接远程登录到BBS服务器去浏览、发表文章,还可以进行聊天室和网友聊天,或者发信息给别的Telnet在站上的用户。,BBS的建立和管理,基于TelnetBBS服务器端telnet服务器BBS软件:C+程序支持英文、中文GB、中文BIG5客户机端telnet软件,基于WebBBS服务器端web服务器BBS软件:网页支持英文、中文GB、中文BIG5客户机端浏览器,BBS站管理讨论区,版主监控文章,telnet到BBS站点,如在浏览器的地址栏中输入telnet:/,讨论,交流,疑难解答,谈天说地,娱乐,1.3.3、FTP信息资源,FTP(filetransferprotocol)是因特网使用的文件传输协议,其主要功能是完成从一个系统到另一个系统完整的文件拷贝(即在因特网的联网计算机之间传输文件),是获取免费软件和共享软件资源不可缺少的工具。,1.3.4、用户服务组信息资源,用户服务组信息资源的实质是由一组对某一特定主题有共同兴趣的网络用户组成的电子论坛,是因特网上最受欢迎的信息交流形式,包括:新闻组(usenetnewsgroup)、邮件列表(mailinglist)、专题讨论组(discussiongroup)、兴趣组(interestgroup)、辩论会(conference)等。主要以电子邮件的形式进行交流。,1.3.5、RSS信息资源,RSS也叫聚合RSS是在线共享内容的一种简易方式(也叫聚合内容,ReallySimpleSyndication)。通常在时效性比较强的内容上使用RSS订阅能更快速获取信息,网站提供RSS输出,有利于让用户获取网站内容的最新更新。,1.4、因特网信息资源的评价,网络信息的自由存取和易用性,导致了网络信息资源的繁盛。任何可想象的学科、主题领域均有大量的信息产生。网络信息广泛、丰富,但缺乏组织和质量监控,呈现着无限、无序、优劣混杂的发展状态。故而必须对因特网信息资源进行相应的评价。,1.4.1、评价的意义,对网络信息资源进行评价,可以从信息海洋中经过甄别,挑选出有学术价值或利用价值的精华部分,推荐给用户使用,这样可以较好的屏蔽一些信息污染或检索噪音,大大提高用户利用因特网信息资源的效率。因特网改变了传统的信息发布和评价程序。用户必须掌握一些对网络信息资源的评价标准和方法,以对获取或发布的网络信息资源进行相应的鉴别,以提高和改善网络信息的质量。,1.4.2、评价的标准,对因特网信息资源的评价一般是以网页或站点为评价单位,评价标准是在借鉴传统的对印刷型文献的评价标准的基础上,结合网络信息的特点,主要着眼于网页所提供的信息内容质量和信息存取方式等综合而成。,(1)目的(purpose)网页的目的是什么;网页内容和目的是否相符;网页面对的用户是谁;用户的类型;网页内容是否适合相应的用户。,(2)范围(scope)网页所覆盖的主题领域,所提供信息的广度、深度、时间范围以及所包括的网络资源类型范围。,(3)内容(content)网页所提供的信息是事实性的,还是评论性的;网页包括的是原始信息还是仅提供链接。评价时主要考虑以下几方面:准确性权威性新颖性独特性可靠性链接,(4)图形和多媒体设计(graphicandmultimediadesign)网页的感官效果如何;网页所用的各种图形、图像、声音等手段是否与网页的宗旨和目的;是否喧宾夺主。,5)信息的展示与设计(informationpresentationanddesign)网页信息的组织、提供、展示的方式如何;是否易于浏览、查找;是否有自己的搜索引擎。,(6)可操作性(workability)衡量该网页是否方便、有效、易用。具体包括:用户友好性检索功能交互性连通性,(7)费用(cost)连通的费用;为访问、获取、使用网页中的知识内容所必须付出的费用,(8)评论(review)是否关注有关的评价服务工具,1.4.3、评价方法,定性评价:即按照一定的评价标准对被评价站点的各方面特征、质量作出主观评判。一般有问卷调查、专家评议等方式。定量评价:即利用数量分析方法,对调查统计数据进行分析,进而作出较系统、客观的评判。一般以统计访问次数、登录情况、链接数量等进行统计分析,进而对用户兴趣、网站影响力、站点所提供信息的水平和可信度等做出评判。,对于用户个人来说,全面掌握上述一系列标准并据此对某一网页或站点做出综合评判是比较难的。日常使用的方法可从以下几方面去收集信息:查看该网站首页描述;阅读帮助问件;查看FAQ(frequentlyaskedquestion,常见问题);观看记录、检索样例;查看网页内容的更新周期;发现有无空链接、死链、错链等;关注各种书刊和网上对各专题因特网信息资源的评价和介绍、综述和热门站点推荐等。,1.4.4、几个重要的评价站点,TheArgusClearinghouse面向主题的Internet资源指南TheClearinghouseforSubject-orientedInternetResource)(URL:,由密歇根大学图书馆信息学院的师生开发,目的是信息资源进行“重新包装”。它是各学科主题网络资源指南的指南。其任务方便对因特网信息资源的智能获取,1.5、总结本章的目的是介绍因特网的信息资源特点及信息利用价值,要求了解本章介绍的因特网上信息资源的种类,掌握因特网信息资源的评价。本章重点是了解因特网上信息资源的种类,难点是因特网信息资源评价。,课程内容与考核目标,一、学习目的与要求本章的目的是介绍因特网的信息资源特点及信息利用价值,要求理解因特网上信息资源的种类,掌握因特网信息资源的评价。本章重点是了解因特网上信息资源的种类,难点是因特网信息资源评价。,考核知识点(一)因特网上的信息资源(二)因特网上信息资源的特点及信息利用价值(三)因特网上信息资源的种类(四)因特网信息资源的评价,考核要求(一)因特网上的信息资源识记:在网上可以找到的信息内容的类型和不可能找到的信息(二)因特网上信息资源的特点及信息利用价值识记:因特网信息资源的独特之处和优越性的方面(三)因特网上信息资源的种类识记:因特网信息资源的种类:万维网信息资源、Telnet信息资源、FTP信息资源、用户服务组信息资源、Gopher信息资源理解:万维网信息资源的相关概念,Telnet信息资源的应用,FTP信息资源使用文件传输协议,用户服务组信息资源的信息交流形式,Gopher信息资源是菜单的网络服务(四)因特网信息资源的评价识记:因特网信息资源评价的意义、评价方法和常用评价站点理解:因特网信息资源的评价标准,课后作业:请大家完成老师共享在群里面的本章作业题。,第2章因特网信息检索概论,教学内容:2.1、因特网信息检索的发展2.2、网络信息检索的一般方法2.3、网络信息检索的特点2.4、网络信息检索工具2.5对应客户机/服务器模式的网络信息检索标准Z39.502.6、总结,因特网的广泛应用和发展,使世界范围内的信息资源交流、共享成为可能,同时它也对传统的信息组织、检索和获取方法形成了很大的冲击。计算机信息检索的检索服务模式从早期脱机批处理发展到商业性联机检索服务、光盘检索服务及因特网检索。网络信息检索工具(Networkedinformationretrievaltools)的产生和各种研究开发活动的丰富促使网络信息检索NIR(networkedinformationretrieval)成为在网络环境下发展起来的一种新型检索模式和信息检索领域的一个重要的学科分支。,2.1网络信息检索的特点,因特网检索与传统的文献检索大不相同,其特点主要表现为:,信息检索范围和空间的拓宽,可以检索因特网上的各种资源且检索者不须知道某种资源的具体地址;检索范围覆盖整个因特网,可以访问和获取广泛分布在世界各地的、成千上万台服务器和主机上的大量信息。这是其它任何信息检索方式所不具备的。,交互式作业方式,这是所有的网络信息检索工具都具有的特点。是指能够从用户命令中获取指令,及时响应用户的要求,执行用户的要求,并具有良好的信息反馈功能;用户可以在检索过程中及时调整检索策略以获得良好的检索结果,并能就所遇到问题获得联机帮助和指导。,用户界面友好且操作方便,网络信息检索对用户屏蔽了各局部网络间的物理差异,使用户在使用这些服务时感到明显的系统透明度。检索者使用自己所熟悉的检索界面和命令方式输入查询提问就可实现对各种异构系统数据库的访问、检索。网络信息检索所采用的交互式作业、系统透明、通用的windows界面和符合大多数用户检索习惯的用户接口等都使检索变得简单、易行。,2.2、网络信息检索的一般方法,要在因特网上获取信息,用户要找到提供信息源的服务器。首先以找到服务器在网上的地址(URL)为目标,再通过该地址去访问服务器提供的信息。一般的信息检索的方法有:浏览通过网络资源指南(resourceguide)来查找信息利用搜索引擎进行信息检索,(1)浏览,偶然发现:这是在因特网上发现、检索信息的原始方法。亦即在日常的网络阅读、漫游过程中意外发现一些有用的信息。该方法具有不可预见性、偶然性和目的性不明确的特点。顺“链”而行:是指用户在阅读超文本文档时,利用文档中的链接从一网页转向另一相关网页,类似于传统文献检索中的“追溯检索”。该方式能在较短的时间内得到大量信息,但可能偏离检索目标或迷失在网络信息空间中且不易找到合适的检索起点。,个人用户在网络浏览过程中常通过创建书签(bookmark)或热链(hotlink,hotlist)来记录网络信息的地址以备查。该方法只能满足个别、一时之需,相对整个网络信息的发展,它的信息检索功能较弱。,2)通过网络资源指南(resourceguide)来查找信息,是指基于专业人员对网络信息资源的产生、传递与利用机制的广泛了解和对网络信息资源的分布状况的熟悉以及对各种网络信息资源的采集、组织、评价、检索等手段的全面把握而开发出的可供浏览和检索的网站资源主题指南进行的网络信息检索。网站资源主题指南包括综合性的主题分类树体系的网络资源指南(如yahoo!)和专业性的网络资源指南。网络资源指南类似于传统的文献检索工具书目之书目(bibliographyofbibliographies),或专题书目。它们经常由专业人员在对网络信息资源进行鉴别、选择、评价、组织的基础上编制而成,对于有目的的网络信息发现具有重要的指导、引导作用。,其局限性在于:由于其管理、维护跟不上网络信息的增长速度,导致其收录范围不够全面,新颖性、及时性可能不够强;且用户还要受到标引者分类思想的控制。,(3)利用搜索引擎进行信息检索,是较为常规、普遍的网络信息检索方式。搜索引擎是提供给用户进行关键词、词组或自然语言检索的工具。用户提出检索要求,搜索引擎代替用户在数据库中进行检索,并将检索结果提供给用户。支持布尔检索、词组检索、截词检索、字段检索等功能。,优点:省时省力简单方便检索速度快范围广能及时获取新增信息。,缺点:由于采用计算机软件自动进行信息的加工、处理,且检索软件的智能性不是很高,造成检索的准确性不理想,与人们的检索需求及检索效率的期望还有差距,2.3、网络信息检索工具,网络信息检索工具是指因特网上提供信息检索服务的计算机系统,其检索的对象是存储在因特网信息空间中的各种类型的网络信息资源。WEB检索工具是指利用超文本(或超媒体)技术在因特网上建立的一种提供网上信息资源导航、检索服务的专门WEB服务器或网站。这是人们获取因特网信息资源的主要检索工具和手段,是网络检索工具的代名词,通过分析这些系统的一般构成和工作原理,揭开信息检索系统神秘的面纱,让读者对网络信息检索的过程有更加深刻的认识。主要知识点包括:网络检索工具一般构成网络信息检索工具的原理网络信息检索工具的类型,2.3.1、网络检索工具的构成,网络检索工具是都是由如下部件构成:自动搜索引擎数据库检索代理软件,网络检索工具的收录范围、标引方式、数据库的规模及所采用的算法、检索式的组织和处理等信息可在提供该网络检索工具的主页上点击“aboutus”,“FAQ”等项获得。,(1)、自动搜索引擎,因特网上的信息资源众多,且每天都有成千上万的新信息加入,靠人工来收集、加工、处理信息是难以胜任的。所以大多数网络检索工具一般采用一种被称为Robot(又名:Spider,Crawler,Worms,Wanders等)的网络自动跟踪索引程序来完成该工作。,不同的自动索引软件采用的标引、搜索策略不同自动索引软件搜寻、标引网页的方式对信息检索的质量有直接影响网络自动跟踪索引程序实际上是一个在网络上检索文件且自动跟踪该文件的超文本结构并循环检索被参照的所有文件的软件。它穿行于网络信息空间,访问网络中公共区域的各个站点,记录其网址,标引其内容,并组织建立索引文档,形成检索数据库。同时继续跟踪这个网页内链接的其它网页,确认链接的合法性。并且还不定期的巡视,返回各个网站,收集新的信息并进行标引。,2)数据库,数据库是网络检索工具提供检索服务的基础,由自动索引程序将采集和标引的信息汇集而成。不同网络检索工具的数据库的收录范围、标引方式不同。数据库的内容一般有网站的名称、标题、网址URL、网页的长度、相关的超文本链接点、内容简介或摘要等。不同检索工具的数据库的规模差异较大数据库规模的大小决定了查询到的信息是否全面,3)检索代理软件,检索代理软件是在当用户提出查询要求时代理用户在数据库中进行检索的程序。不同网络检索工具采用的检索机制、算法有所不同。布尔逻辑检索、相关度排序是较普遍采用的一种检索机制与算法。布尔逻辑检索是按照检索项间的逻辑关系使用布尔逻辑运算AND、OR、NOT等来组合检索项,形成检索式来提交查询。相关度排序是指检索软件综合利用某些检索模型来对检索结果与检索要求的相关度进行计算和评估比较,根据结果对文档排序,将最相关、最重要的信息排在较前优先提供给用户使用。,2.3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论