![最新[网络信息资源与利用]期末考试答案精品知识点复习考点归纳总结 .doc_第1页](http://file.renrendoc.com/FileRoot1/2018-12/20/55bad833-64d6-490b-812e-26da1a3fa743/55bad833-64d6-490b-812e-26da1a3fa7431.gif)
![最新[网络信息资源与利用]期末考试答案精品知识点复习考点归纳总结 .doc_第2页](http://file.renrendoc.com/FileRoot1/2018-12/20/55bad833-64d6-490b-812e-26da1a3fa743/55bad833-64d6-490b-812e-26da1a3fa7432.gif)
![最新[网络信息资源与利用]期末考试答案精品知识点复习考点归纳总结 .doc_第3页](http://file.renrendoc.com/FileRoot1/2018-12/20/55bad833-64d6-490b-812e-26da1a3fa743/55bad833-64d6-490b-812e-26da1a3fa7433.gif)
![最新[网络信息资源与利用]期末考试答案精品知识点复习考点归纳总结 .doc_第4页](http://file.renrendoc.com/FileRoot1/2018-12/20/55bad833-64d6-490b-812e-26da1a3fa743/55bad833-64d6-490b-812e-26da1a3fa7434.gif)
![最新[网络信息资源与利用]期末考试答案精品知识点复习考点归纳总结 .doc_第5页](http://file.renrendoc.com/FileRoot1/2018-12/20/55bad833-64d6-490b-812e-26da1a3fa743/55bad833-64d6-490b-812e-26da1a3fa7435.gif)
已阅读5页,还剩6页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
internet历史与发展(因特网、国际互联网)1. arpanet (1969年,美国国防部研制)2. nsfnet(1985年美国国家科学基金会建立,1989年取代arpanet)3. internet(1990年后迅速普及)国内与internet直接联网的四大网络1.中国教育科研网(cernet)2.中国科技网(cstnet)3.中国公用计算机互联网(chinanet)4.中国金桥信息网(chinagbnet)internet的入网方式1.通过局域网方式2.通过isp接入( isp是提供internet入网服务的机构)拨号接入:计算机、modem、电话线、isp 帐号。 (adsl)专线接入:租用数据专线或光缆、ddn等以及配套网络设备。adsl(asymmetrical digital subscriber line,非对称数字用户环路):是一种能够通过普通电话线提供宽带数据业务的技术,是目前极具发展前景的一种接入技术。adsl素有“网络快车”之美誉,因其下行速率高、频带宽、性能优、安装方便、不需交纳电话费等特点而深受广大用户的喜爱,成为继modem、isdn之后的又一种全新的、更快捷、更高效的接入方式。internet 的管理1.tcp/ip协议:是计算机网络协议中最核心的两个协议。tcp 是传输控制协议,处理由于路径不同及其它可能原因造成的数据包颠倒、数据丢失、数据失真等问题。 ip是网际协议,利用路由算法解决路由选择的问题。 2.ip地址:是internet上每台主机和用户终端的识别标识。 ip地址在全球范围内都是唯一的。 ip地址的表示:33.域名系统(dns): 例:结构为:主机名.机构名.网络名.最高域名常用网络名:com(商业机构)、edu(教育机构)、mil(军事部门)、gov(政府部门)、org(非盈利组织)、net(网络服务商)最高域名:cn(中国)、uk(英国)、jp(日本)美国享有国家域名默认权。4.客户机/服务器(client/server)模式服务器:是指向全球internet 用户提供信息和服务的高性能计算机,包括web 服务器、邮件服务器、文件传输服务器。 客户机:是指连接在服务器上的工作站(网络终端)。客户机通过有关程序(如浏览器等)向服务器发出指令或请求,服务器进行处理后将结果返回。 internet 提供的主要服务电子邮件服务( e-mail)文件传输服务(ftp)远程登录(telnet)电子论坛( electronic forum )信息查询服务( archie、gopher、wais,www)1.电子邮件服务( e-mail)e-mail地址格式:用户名电子邮件服务器名如:常用电子邮件软件:outlook express, eudora, foxmail等,可管理多个邮件帐号,直接收发邮件。(将邮件pop到本地)internet 提供的主要服务2.文件传输服务(file transfer protocol,ftp):是以其遵守的文件传输协议 ftp而命名的。ftp是internet上文件传输的各种规程的集合。通过ftp,用户可将本地文件上载给远程主机(upload),更多情况是从远程主机上下载 (download)文件。(包括文本、图像、声音、多媒体、软件或数据文件等)3.远程登录(telnet):是指本地计算机通过internet访问远程计算机上的硬件资源、软件资源和信息资源的过程。对于限制公开访问的远程主机,登录时要输入用户名和密码。 随着 www的普及, telnet已少有使用。4.电子论坛( electronic forum ):是internet用户在网上讨论交流的一种形式,又称新闻组(newsgroop)或专题讨论组(usenet)。 电子公告版(bulletin board system,bbs)与专题讨论组功能相似,但其规模小得多,且bbs上的观点只留在本地服务器上。internet 提供的主要服务5.信息查询(检索)服务:在e-mail、ftp和telnet基础上开发的,比较知名的工具有archie、gopher、wais等,目前大多数internet用户通过www浏览和www信息检索工具查询和使用网络信息资源。www概述万维网(world wide web,www):又称环球网、全球网,起源于1989年欧洲粒子物理研究中心,采用http(超文本传输协议)在internet上提供全球范围的多媒体信息服务。 1993年1月,因特网上约有50个www服务器在工作,1999年高达300万个。现在www有等同于internet的趋势。超文本(hypertext)包含两个含义:1.是信息的表达形式不局限于文字,还可以是图像、动画、视频、音频、动态数据、软件等非文本文件;2.是网页文件内部包含链接(link)。超文本标记语言:(hyper text markup language,html)是制作web页面的语言,用来标记网页的标题、段落、链接、字体、颜色、表格等,并由浏览器来解释这些标识。1 html编辑器:frontpage、dreamweaver、netscape composer统一资源定位器(uniform resource locator,url):用来描述信息资源的类型和在网上的位置,即网址。url格式:/zhaosheng/yjs/index.html 协议:/文件所在服务器名/目录路径和文件名浏览器(browser):是使用www资源的客户软件。常用的浏览器有:2 网景公司的navigator communicator3 微软公司的internet explorer(ie)web检索工具:是指提供万维网信息查询的计算机系统。工作原理:1.信息采集:利用网络自动搜索软件robot或spider,以一个url清单为向导,定期对internet上的网页进行扫描搜索,记录下网页的有关事项。2.数据标引:对采集到的网页信息数据, robot等会自动抽取表达网页主题意义的词作为关键词来构建数据库索引。有的网络检索工具同时采用人工标引。web检索工具3.数据组织:标引后的网页数据形成检索工具数据库中的一条条记录,每条记录对应于一个网站或一个网页。记录内容包括网页标题、摘要或关键词、网址、网站网页与输入关键词的相关程度等 。4.检索功能:布尔算符检索(and + 、or | 、not -),截词检索,词组检索 ,自然语言检索、概念检索、分类浏览,检索限定,语种翻译,自动排序等。web检索工具的类型1.搜索引擎(search engine) 自动搜索采集网页信息,自动标引,数据量大,关键词检索功能强,查全率高,查准率低。典型:google2.目录型检索工具(web directory,catalog) 以分类目录检索为主,接受网站推荐,人工参与网页信息的筛选标引,查全率低,查准率高。代表:yahoo!、搜狐多数检索工具同时具有关键词检索和目录浏览功能。web检索工具的类型3.多元搜索引擎(metasearch engine) 通过统一的用户界面,可同时查询多个独立的web检索工具,然后对这些结果进行加权等处理后返回给用户。例如: metacrawler、turbostart等;4.天网搜霸:强大的搜索引擎集成工具。5.飓风搜索通:整合近百个各类搜索引擎,包含简体中文,繁体中文,软件,音乐,股票,新闻等类别的全方位互联网信息检索工具。 国外著名通用搜索引擎 yahoo!() google() lycos() excite() altavista() infoseek() hotbot()yahoo! yahoo!的两位创始人大卫费罗(david filo) 和杨致远(jerry yang),美国斯坦福大学电机工程系的博士生,于1994年4月建立。 yahoo!(雅虎)是最早最著名的目录型检索工具,在全球共有24个网站,12种语言版本。(参见雅虎中国)检索途径:1.分类浏览:分为14个大类,每个大类下又分若干子类。2.专题链接:与shopping、yellow pages、 maps news、sports等专题信息链接。3.简单检索:直接输入检索词4.高级检索googlegoogle 的释义:google 是由英文单词“googol”变化而来。“googol”是美国数学家 edward kasner 的侄子 milton sirotta 创造的一个词,表示 1 后边带有 100 个零的数字。google 使用这个词代表公司想征服网上无穷无尽资料的雄心。两位斯坦福大学的博士生 larry page 和 sergey brin 在 1998 年创立了 google。google 开发出了世界上最大的搜索引擎,提供了最便捷的网上信息查询方法。通过对 30 多亿网页进行整理,google 可为世界各地的用户提供适需的搜索结果,而且搜索时间通常不到半秒。现在,google 每天需要提供 2 亿次查询服务。google特点: 界面非常简洁,速度极快;检索网页数量达24亿,搜索引擎中排名第一; 支持多达132种语言;包括简体和繁体中文; 具有“手气不错”、“网页快照”、图片搜索、新闻组搜索等功能。运算符:空格表示逻辑“与”;减号“”表示逻辑“非”;“or”表示逻辑“或”;对短语或句子搜索时必须加英文引号。中文通用搜索引擎4 百度()5 搜狐()6 新浪()7 网易()使用搜索引擎注意事项 分类体系的差异 类目设置和划分不一:如教育大类,新浪分出44个下位类;搜狐有34个;网易只有24个。 类名表述的不同:如新浪用“计算机”;网易用“电脑”。 关键词标引 高级搜索中运算符的使用 空格(and)、&(and)、 (not)、|(or)、( ) “ ”表示一个整体单元。 不同的查询服务: 网站、网页、新闻、软件等 特殊的:图片、多媒体网络信息资源的获取web检索工具(搜索引擎)1网络数据库(文摘数据库、全文数据库)2专业网站3电子期刊、电子图书4虚拟图书馆5学科专业导航库国内医学搜索引擎和门户网站:1.眼科搜索2.三九健康网3.迈搏搜索4.中国导医网5.中国金卫网37医学网6.中国医药信息网 /7.中国中医药信息网/8.中国药网/学科专业导航库1.calis重点学科导航库(北大、复旦等)2.国家科技图书文献中心导航库第一章 因特网信息资源 1.1、因特网上的信息资源 因特网上有各种各样的信息,但并不是所有的内容都有。常见的误解有:1认为因特网无所不包、无所不能;任何信息均可找到2认为在网上找到的信息都是正确的3认为因特网可以取代其他的媒体或信息渠道4认为因特网的信息无多大的利用价值 在网上可以找到的信息内容主要有: 政府信息(网上最有价值的信息之一):指国际组织、各国政府及其相关部门所发布的信息。特点:权威、可靠、价廉科研信息:指各类专业学术机构所设立的网站及其相关信息。教育信息:指各大学所设立的网站及其相关信息。文化信息:主要包括各类信息媒体的网站和世界各地图书馆的数字化馆藏及其公共检索目录(opaconline public access catalog)消闲娱乐性信息:(网上“最成功”的领域 ) 1.2、因特网上信息资源的特点及信息利用价值 因特网作为数字化、网络化信息的核心和集成。它提供了一种全新的交流信息和查找信息的渠道,具有方便、及时快速和交互性的特点。具体的可分为: 无限性和广泛性:信息资源极为丰富 多样性:本、超媒体、集成式的提供信息 廉价性:价廉,是一种比印刷品便宜的信息提供方式 共享性:泛、直接交流,扩大人际交流的范围,提供更多机会 新颖性:颖、深入,提供了获取非出版信息的丰富机会,非正式和自由发表园地 无序性:在某些领域,信息来源分散、无序,没有统一的管理机构和发布标准 1.3、因特网上信息资源的种类 因特网信息资源包罗万象,广泛分布在整个网络中,没有统一的组织管理机构和目录。按照其所采用的网络传输协议的不同,可将因特网信息资源划分为以下几种类型:1.万维网(world wide web,简称www)信息资源2.elnet 信息资源3.tp 信息资源4.服务组信息资源 5.s信息资源 万维网(world wide web,简称www)信息资源是因特网信息资源的最主要、最常见的形式。它是指建立在超文本、超媒体技术的基础上,集文本、图像、图形、声音为一体,并以直观的图形用户界面(gui)展现和提供信息的网络资源形式。 自20世纪90年代问世以来发展极为迅速,他的超文本、超媒体特性使之在因特网信息存储和检索领域独占鳌头。与之相关的概念有:http协议,html语言,url,主页,连接,浏览器。(1)超文本传输协议http是:器与web服务器之间相互通信的协议,即www客户机和服务器用于网上传输、响应用户请求的协议。(2)超文本标记语言html是一种专门编程语言,规定和描述文本显示的具体格式,即web服务器的信息是用html来描述的,html文档由文本、格式代码和其他文档的链接所组成。源定位器url实质是一个用以标识文档类型及其所在网络地址的字符串,它的用途是用统一的方式指明因特网上信息资源的位置。url包括三部分:所使用的传输协议;服务器地址;该服务器上定位文档的全路径名。(4)主页(home page)是:与任何一个web服务器链接后的所见到的第一个网页。是该服务器入口处的html文件。(5)链接是web页的要素是指:其他信息资源的指针。(6)浏览器:一种应用于www的网络软件,驻于客户端的应用程序其用途为实现与www服务器的链接,帮助用户浏览、阅读和查找www 信息资源。可分为三类:行式浏览器,文本浏览器和使用图形界面的浏览器。 1.net信息资源:指借助远程登录(remote login)在网络通信协议telnet的支持下,在远程计2.录,使自己的计算机暂时成为远程计算机的终端,进而可以实时访问、使用远程计算机中对外开放的资源。亦即通过远程登录后,可以访问共享的远程系统中的软件和硬件资源。 2.与最普遍的www服务一样,也是一种供大家交流信息的网络服务。3.bbs站点都提供两种浏览方式:www和telnet。4.w方式是:过浏览器(如ie)直接看bbs上的文章参与讨论,其优点是使用比较简单方便,入门很容易,但由于其自身的限制,不能自动刷新,而且有些bbs的功能(如聊天、发信息等)难以在www下实现。telnet方式是:过各种终端软件,直接远程登录到bbs服务器去浏览、发表文章,还可以进行聊天室和网友聊天,或者发信息给别的telnet在站上的用户。bbs的建立和管理ftp(file transfer protocol)是因特网使用的文件传输协议,其主要功能是完成从一个系统到另一个系统完整的文件拷贝(即在因特网的联网计算机之间传输文件),是获取免费软件和共享软件资源不可缺少的工具。 用户服务组信息资源的实质是由一组对某一特定主题有共同兴趣的网络用户组成的电子论坛,是因特网上最受欢迎的信息交流形式,包括:新闻组(usenet newsgroup)、邮件列表(mailing list)专题讨论组(discussion group)、兴趣组(interest group)、辩论会(conference)等。主要以电子邮件的形式进行交流。 rss也叫聚合rss:在线共享内容的一种简易方式(也叫聚合内容,really simple syndication)。通常在时效性比较强的内容上使用rss订阅能更快速获取信息,网站提供rss输出,有利于让用户获取网站内容的最新更新。 因特网信息资源的评价 :络信息的自由存取和易用性,导致了网络信息资源的繁盛。任何可想象的学科、主题领域均有大量的信息产生。网络信息广泛、丰富,但缺乏组织和质量监控,呈现着无限、无序、优劣混杂的发展状态。故而必须对因特网信息资源进行相应的评价。 评价的意义:网络信息资源进行评价,可以从信息海洋中经过甄别,挑选出有学术价值或利用价值的精华部分,推荐给用户使用,这样可以较好的屏蔽一些信息污染或检索噪音,大大提高用户利用因特网信息资源的效率。因特网改变了传统的信息发布和评价程序。用户必须掌握一些对网络信息资源的评价标准和方法,以对获取或发布的网络信息资源进行相应的鉴别,以提高和改善网络信息的质量。评价的标准:因特网信息资源的评价一般是以网页或站点为评价单位,评价标准是在借鉴传统的对印刷型文献的评价标准的基础上,结合网络信息的特点,主要着眼于网页所提供的信息内容质量和信息存取方式等综合而成。 (1)目的(purpose):页的目的是什么;网页内容和目的是否相符; 网页面对的用户是谁;用户的类型;网页内容 是否适合相应的用户。 (2)范围(scope):页所覆盖的主题领域,所提供信息的广度、深度、时间范围以及所包括的网络资源类型范围。 (3)内容(content):页所提供的信息是事实性的,还是评论性的;网页包括的是原始信息还是仅提供链接。 评价时主要考虑以下几方面:准确性、权威性、新颖性、独特性、可靠性、链接 (4) 图形和多媒体设计(graphic and multimedia design):页的感官效果如何;网页所用的各种图形、图像、声音等手段是否与网页的宗旨和目的;是否喧宾夺主。 5)信息的展示与设计(information presentation and design):页信息的组织、提供、展示的方式如何;是否易于浏览、查找;是否有自己的搜索引擎。衡量该网页是否方便、有效、易用具体包括:用户友好性、检索功能、 交互性、 连通性连通的费用:访问、获取、使用网页中的知识内容所必须付出的费用 (8)评论(review)1.4.3、评价方法 定性评价:即按照一定的评价标准对被评价站点的各方面特征、质量作出主观评判。一般有问卷调查、专家评议等方式。 定量评价:即利用数量分析方法,对调查统计数据进行分析,进而作出较系统、客观的评判。一般以统计访问次数、登录情况、链接数量等进行统计分析,进而对用户兴趣、网站影响力、站点所提供信息的水平和可信度等做出评判。 日常使用的方法可从以下几方面去收集信息:1.看该网站首页描述;2.阅读帮助问件;3.查看faq(frequently asked question,常见问题);4.观看记录、检索样例;5.查看网页内容的更新周期;6.发现有无空链接、死链、错链等;7.关注各种书刊和网上对各专题因特网信息资源的评价和介绍、综述和热门站点推荐等。1.4.4、几个重要的评价站点 :he argus clearinghouse面向主题的internet资源指南the clearinghouse for subject-oriented internet resource)(url: 由密歇根大学图书馆信息学院的师生开发,目的是信息资源进行“重新包装”。它是各学科主题网络资源指南的指南。其任务方便对因特网信息资源的智能获取 1.5、总结 因特网的广泛应用和发展,使世界范围内的信息资源交流、共享成为可能,同时它也对传统的信息组织、检索和获取方法形成了很大的冲击。 计算机信息检索的检索服务模式从早期脱机批处理发展到商业性联机检索服务、光盘检索服务及因特网检索。 网络信息检索工具(networked information retrieval tools)的产生和各种研究开发活动的丰富促使网络信息检索nir(networked information retrieval)成为在网络环境下发展起来的一种新型检索模式和信息检索领域的一个重要的学科分支。2.1 网络信息检索的特点 因特网检索与传统的文献检索大不相同,其特点主要表现为: 信息检索范围和空间的拓宽:以检索因特网上的各种资源且检索者不须知道某种资源的具体地址;检索范围覆盖整个因特网,可以访问和获取广泛分布在世界各地的、成千上万台服务器和主机上的大量信息。这是其它任何信息检索方式所不具备的。交互式作业方式:是所有的网络信息检索工具都具有的特点。是指能够从用户命令中获取指令,及时响应用户的要求,执行用户的要求,并具有良好的信息反馈功能;用户可以在检索过程中及时调整检索策略以获得良好的检索结果,并能就所遇到问题获得联机帮助和指导。用户界面友好且操作方便:络信息检索对用户屏蔽了各局部网络间的物理差异,使用户在使用这些服务时感到明显的系统透明度。检索者使用自己所熟悉的检索界面和命令方式输入查询提问就可实现对各种异构系统数据库的访问、检索。 网络信息检索所采用的交互式作业、系统透明、通用的windows界面和符合大多数用户检索习惯的用户接口等都使检索变得简单、易行。2.2、网络信息检索的一般方法 要在因特网上获取信息,用户要找到提供信息源的服务器。首先以找到服务器在网上的地址(url)为目标,再通过该地址去访问服务器提供的信息。一般的信息检索的方法有: 浏览、通过网络资源指南(resource guide)来查找信息、利用搜索引擎进行信息检索 (1)浏览 偶然发现:这是在因特网上发现、检索信息的原始方法。亦即在日常的网络阅读、漫游过程中意外发现一些有用的信息。该方法具有不可预见性、偶然性和目的性不明确的特点。 顺“链”而行:是指用户在阅读超文本文档时,利用文档中的链接从一网页转向另一相关网页,类似于传统文献检索中的“追溯检索”。该方式能在较短的时间内得到大量信息,但可能偏离检索目标或迷失在网络信息空间中且不易找到合适的检索起点。 个人用户在网络浏览过程中常通过创建书签(bookmark)或热链(hotlink,hotlist)来记录网络信息的地址以备查。该方法只能满足个别、一时之需,相对整个网络信息的发展,它的信息检索功能较弱。2) 通过网络资源指南(resource guide)来查找信息 :指基于专业人员对网络信息资源的产生、传递与利用机制的广泛了解和对网络信息资源的分布状况的熟悉以及对各种网络信息资源的采集、组织、评价、检索等手段的全面把握而开发出的可供浏览和检索的网站资源主题指南进行的网络信息检索。3。 网站资源主题指:包括综合性的主题分类树体系的网络资源指南(如yahoo!)和专业性的网络资源指南。4。 络资源指:类似于传统的文献检索工具书目之书目(bibliography of bibliographies),或专题书目。5。它们经常由专业人员在对网络信息资源进行鉴别、选择、评价、组织的基础上编制而成,对于有目的的网络信息发现具有重要的指导、引导作用。其局限性在于:由于其管理、维护跟不上网络信息的增长速度,导致其收录范围不够全面,新颖性、及时性可能不够强;且用户还要受到标引者分类思想的控制。 (3) 利用搜索引擎进行信息检索 是较为常规、普遍的网络信息检索方式。 搜索引擎是提供给用户进行关键词、词组或自然语言检索的工具。 用户提出检索要求,搜索引擎代替用户在数据库中进行检索,并将检索结果提供给用户。 支持布尔检索、词组检索、截词检索、字段检索等功能。 优点:1.省时省力2.简单方便3.检索速度快4.范围广5.能及时获取新增信息。 缺点:由于采用计算机软件自动进行信息的加工、处理,且检索软件的智能性不是很高,造成检索的准确性不理想,与人们的检索需求及检索效率的期望还有差距2.3、网络信息检索工具 网络信息检索工具是指因特网上提供信息检索服务的计算机系统,其检索的对象是存储在因特网信息空间中的各种类型的网络信息资源。 web检索工具是指利用超文本(或超媒体)技术在因特网上建立的一种提供网上信息资源导航、检索服务的专门web服务器或网站。这是人们获取因特网信息资源的主要检索工具和手段,是网络检索工具的代名词 通过分析这些系统的一般构成和工作原理,揭开信息检索系统神秘的面纱,让读者对网络信息检索的过程有更加深刻的认识。主要知识点包括:网络检索工具一般构成、网络信息检索工具的原理、网络信息检索工具的类型2.3.1、网络检索工具的构成 网络检索工具是都是由如下部件构成:1自动搜索引擎2数据库3检索代理软件 (1)、自动搜索引擎 因特网上的信息资源众多,且每天都有成千上万的新信息加入,靠人工来收集、加工、处理信息是难以胜任的。所以大多数网络检索工具一般采用一种被称为robot(又名:spider,crawler,worms,wanders等)的网络自动跟踪索引程序来完成该工作。 不同的自动索引软件采用的标引、搜索策略不同 自动索引软件搜寻、标引网页的方式对信息检索的质量有直接影响 网络自动跟踪索引程序实际上是一个在网络上检索文件且自动跟踪该文件的超文本结构并循环检索被参照的所有文件的软件。 它穿行于网络信息空间,访问网络中公共区域的各个站点,记录其网址,标引其内容,并组织建立索引文档,形成检索数据库。 同时继续跟踪这个网页内链接的其它网页,确认链接的合法性。 并且还不定期的巡视,返回各个网站,收集新的信息并进行标引。2)数据库 数据库是网络检索工具提供检索服务的基础,由自动索引程序将采集和标引的信息汇集而成。 不同网络检索工具的数据库的收录范围、标引方式不同。 数据库的内容一般有网站的名称、标题、网址url、网页的长度、相关的超文本链接点、内容简介或摘要等。 不同检索工具的数据库的规模差异较大 数据库规模的大小决定了查询到的信息是否全面3)检索代理软件 检索代理软件是在当用户提出查询要求时代理用户在数据库中进行检索的程序。 不同网络检索工具采用的检索机制、算法有所不同。布尔逻辑检索、相关度排序是较普遍采用的一种检索机制与算法。 布尔逻辑检索是按照检索项间的逻辑关系使用布尔逻辑运算and、or、not等来组合检索项,形成检索式来提交查询。 相关度排序是指检索软件综合利用某些检索模型来对检索结果与检索要求的相关度进行计算和评估比较,根据结果对文档排序,将最相关、最重要的信息排在较前优先提供给用户使用。2.3.2、网络信息检索工具的原理 通过自动索引程序robot(或人工)来广泛收集网络信息资源数据,经过一系列的判断、选择、标引、加工、分类、组织等处理后形成供检索用的数据库,创建目录索引,并大多以web页面形式向用户提供有关的资源导航、目录索引及检索界面。 用户根据自己的信息查找要求,按照该检索工具的句法要求等来通过检索界面输入想要查找的检索项、提问式。 系统检索软件接受用户提交的检索提问后,按照本系统的句法规定对用户输入的字符串、运算符、标识符、空格等进行识别和判断后,代理用户在数据库中检索,并对检索结果进行评估比较,按与检索结果的相关度排序后提供给用户使用。2.3.3、网络信息检索工具的类型 为了帮助用户准确、及时、方便的查找到广泛分布、存储于因特网这一巨大信息宝库中的数据资料,网络工作者为各类网络信息资源均开发了相应的检索工具。借助网络检索工具,用户可以在浩如烟海的网上信息资源进行有目的的检索。 网络信息检索工具的分类可以从多个角度和标准来进行。一般可分为以下两大类: web资源检索工具:以web资源为检索对象,又以web形 式提供的检索工具,代表网络信息检索的较高水平,且应用较为普遍。(重点讲述) 非web资源检索工具:以非web资源(如ftp,gopher等)为检索对象的检索工具。web资源检索工具目录型检索工具(subject directory ,catalogue)是:信息管理专业人员在广泛收集网络资源及有关加工整理的基础上,按照某种主题分类体系编制的一种可供检索的等级结构式目录。在目录类及子类下提供相应的网络资源站点地址并给以简单的描述,便于用户浏览并在目录体系的导引下发现、检索到有关信息。 优点:数据库是由专业人员制作的,从而数据质量得到了保证,故而具有检索数据的准确性较高。 局限性:数据库规模较小;某些主题数据收录范围不够全面而使检索数据有限;数据更新有时比较滞后 目录型检索工具适合查找综合性、概括性的主题概念或对检索准确度要求较高的课题。搜索引擎(search engine) 搜索引擎是:使用自动索引软件来发现、收集并标引网页,建立数据库;以web形式提供给用户一个检索界面,供用户输入检索关键词、词组或短语等检索项;代替用户在数据库中查找出与提问匹配的记录,并返回结果且按相关度排序输出。其强调的是检索功能而非主题指南那样的索引。 特点:由自动索引软件生成数据库,收录、加工信息范围广,速度快,能及时向用户提供新增信息。 局限性:检索噪音大;检索策略的构造和输入方式直接影响检索结果。 搜索引擎适用于检索特定的信息及较为专、深、具体或类属不明确的课题。多元搜索引擎(metasearch engine或megasearch engine),又称为集合式搜索引擎,是将多个搜索引擎集成在一起并提供一个统一的检索界面的检索工具。可分为搜索引擎目录和多元搜索引擎两类。 搜索引擎目录,亦即检索工具的检索工具,它主要是将搜索引擎集中起来,并按类型或检索问题等编排组织成目录,帮助、导引用户根据检索需求来选择适用的搜索引擎;它集中罗列检索工具并将用户导引到相应的工具去检索;检索还是某一索引引擎自己的数据库。 多元搜索引擎是将多个搜索引擎集成在一起,提供一个统一的检索界面;且将一个检索提问同时发送给多个搜索引擎,同时检索多个数据库,再经过聚合、去重之后输出检索结果。是一种集中检索的方式。最大的优点是省时;最大缺点是检索准确性较差且速度慢。 第三章 搜索引擎搜索引擎的发展历史搜索引擎的起源archiel 所有搜索引擎的祖先,是1990年由蒙特利尔的mcgill university三名学生发明的archie(archie faq)。alan emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了archie。l archie是第一个自动索引互联网上匿名ftp网站文件的程序,但它还不是真正的搜索引擎。archie是一个可搜索的ftp文件名列表,用户必须输入精确的文件名搜索,然后archie会告诉用户哪一个ftp地址可以下载该文件。 早期的另一个搜索工具gopherl 由于archie深受欢迎,受其启发,nevada system computing services大学于1993年开发了一个gopher(gopher faq)搜索工具veronica(veronica faq)。jughead是后来另一个gopher搜索工具。l 现在这个工具主要用在国外大型图书馆的信息检索上。第二代搜索:目录式搜索 yahoo!l 1994年4月,斯坦福大学的两名博士生,美籍华人杨致远和david filo共同创办了(yahoo)。随着访问量和收录链接数的增长,yahoo目录开始支持简单的数据库搜索。因为yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。yahoo!-几乎成为20世纪90年代的因特网的代名词。好听不好用的元搜索引擎l 1995年,一种新的搜索引擎形式出现了元搜索引擎(meta search engine)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。l 第一个元搜索引擎,是washington大学硕士生 eric selberg 和 oren etzioni 的 metacrawler。元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。第三代搜索:网页搜索l 两类搜索引擎的代表2.搜索引擎的工作原理l 定义:允许用户递交查询,检索出与查询相关的网页结果列表,并且排序输出。2 搜索引擎工作原理:从互联网上抓取网页建立索引数据库在索引数据库中搜索。l 搜索引擎三段式工作流程:搜集、批量搜集,增量式搜集;搜集目标,搜集策略、预处理、关键词提取;重复网页消除;链接分析;索引、服务、查询方式和匹配;结果排序;文档摘要2.2 搜索引擎的分类l 全文搜索引擎:从互联网上提取的各个网站的信息(以网页文字为主),建立的数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户, google、百度 等l 元搜索引擎 (meta search engine):在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。按检索内容划分l 通用检索工具:是综合性的信息检索系统,它往往基于检索词去匹配相关的内容。时常也会因检出内容太泛而无法一一过目。如:google、百度等l 专业检索工具:是专业信息机构根据专业需求,将internet上资源进行筛选整理、重新组织而形成专业信息检索系统,专业针对性较强。如:medical matrix、hon 等搜索引擎的共性:检索框和检索按钮;基本检索;高级检索;大小写无区别;布尔逻辑算符;多种检索限定;检索结果按相关性排序。3、通用搜索引擎实例:googlegoogle的特色l 检索响应速度极快,0.5秒内应答l pagerank专利网页级别技术与超文本匹配分析,客观评价网页的重要性,以提供相关性较高的搜索结果l 智能化的手气不错功能,直接连接到可能最符合要求的网页l 网页快照从服务器里直接取出缓存的网页。用不同颜色标记检索词,很醒目。l 图像搜索工具。2.1 google的关键词检索规则:支持拼音;相关检索词提示;双引号“ ”界定短语;自动“and”查询,字词键入的顺序会影响搜索结果;自动排除常用字词, 用“+”号可将其包含在查询字词中( “+”号前留一空格) 排除检索:“-”来指定检索结果中不包括某个词(减号之前必须留一空格);大小写无差别。google 搜索常用操作符, 在某个特定的站点中进行搜索,“site:”例如:新闻 site:;文件类型限定 filetype:文件名后缀例:干细胞移植 filetype:pdf;检索词出现位置限定:标题:allintitle;内文:allintext例:allintitle:干细胞移植;某个字词或词组的定义: define:; 2.2 google高级检索例:人类白血病的干细胞移植,不包括动物实验研究,仅限于儿童。l 第一检索词 人类 白血病l 第二检索词 干细胞移植l 应包括的词 儿童 或者 婴儿 或者 幼儿 或者少儿 l 不包括的词 动物l google的检索策略:人类 白血病 儿童 or 婴儿 or 幼儿 or 少儿 干细胞移植 -动物 2.4 google 学术搜索:学术搜索的结果都代表一组学术研究成果;一篇或多篇相关文章;引用该组文章的其他论文;同一篇文章的多个版本;2.4 google图书搜索:国内常用数字图书馆 1超星数字图书馆(已购买)书生之家数字图书馆(已购买);方正数字图书(apabi,阿帕比);google图片google地图google 其它功能:问答 例如:长江的长度;地图查寻例如:上海地图;货币转换 例如:3.5 usd =? gbp;计算器 例如:5+2*2;金融信息 例如:中国石化;天气查询 例如:上海 天气;邮编区号例如:拉萨 邮编 区号;手机号码:查找手机号的归属地,输入手机号码即可;农历日历转换 例如:2010年 春节定义例如:定义 html 3、生物医学搜索引擎hon3.1、 hon简介: l 由瑞士日内瓦国际性非盈利组织健康在线基金会(health on the net foundation)创建,1996年3月在网上发布。该网站是非常受欢迎的免费因特网门户网站。l hon的主页(http:/www.hon.ch)。l hon主页提供了3个搜索引擎:honcode、medhunt 和 honselect。 hon可供检索的内容:l honcode accredited :搜索经honcode认证过的可信站点l medical web:全部医学站点l honselect:通过mesh词搜索l news:世界各地医学新闻l conferences:会议信息l images:医学图像3.2 medhuntl 检索符合honcode的网站。l 检索经hon人工标引建立数据库(the anotated web sites )。l 检索通过hon的机器人程序marvin有规律地访问医学、健康网站,自动标引建立数据库(auto-index database)。3.3 honselect:l 整合了不同类型网络资源的多语言智能检索工具。包含相应的医学多媒体图片、参考文献、会议信息、新闻和网站。l 美国国家医学图书馆编制的33000个mesh(医学主题词)词表为其核心部分,这些主题词可以用多语种进行检索或浏览。 第四章 网络信息检索工具(二)网络资源目录(web directory)4.1、目录型网络检索工具原理n 因特网上的目录型检索工具称为网络目录(web directory)又称为分类站点目录、专题目录或主题指南、站点导航系统等。它是由网络开发者将网络资源收集后,以某种分类法进行组织整理,并和检索法集成在一起的信息查询方式。网络目录一般是通过引导网络用户的查询概念(而不是确切的词条)来帮助用户找到所需的网络信息。 4.1.1、目录资源的收集和分类 n 网络目录一般采用人工方式采集和存储网络信息,也可利用自动功能或由用户递交的方式来丰富和补充资源。人工方式建立的查询工具的信息准确率高于自动方式的,但其收集信息的效率和全面性低于自动方式的。 n 网络目录通常是按照网络资源的主题性质进行分类,以某种分类体系为依据,将信息资源分为若干领域的主题范畴,然后再细分为各学科专题目录,最后列出具体的相关网站(资源),形成一个由信息链组成的树状结构,即总目专题目录链接文本。 4.1.2、网络目录结构 n 一个网络目录包括许多层,最高层(一级)目录页总是将因特网资源分成最大范围、最普通的主题范畴(一般1020个);主题链接到第二层目录(另一个页面)。然后在第二层目录再分出子目录,一般到第四级。逐层点击,它将会罗列出一层层的目录清单,所有的选择只用鼠标点击链接来实现。 n 一个网络目录的层次取决于如下因素:与使用的目录有关;与所选的类目有关;与主题有关; 网络目录的多层结构使用户能够通过范围广泛的主题以及精细调整的类目,查询到符合要求的网站和文本信息 4.1.3、网络目录分类方法: 从分类学的角度来分析,网络目录所采用的分类方法有:主题分类法;学科分类法;体系分类法(即图书分类法);分面组配法;(1)主题分类法n 特征 是一个主题
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 环境采样员技能培训课件
- 2025年PCB感光油墨项目发展计划
- 森林火灾风险评价与防范措施考核试卷
- 名片设计排版
- 老年人日常生活能力训练方法考核试卷
- 数字智慧方案5488丨如何提升企业信息化管理能力
- 蔬菜种植的土壤健康与生物多样性考核试卷
- 病房护理团队合作与沟通考核试卷
- 西乐器生产中的质量管理体系考核试卷
- 2024年工地开复工肺炎疫情防疫方案
- 护理管理学中的化学性伤害
- 供暖项目可行性研究报告
- 《浙江省中药饮片炮制规范》 2015年版
- 辅导员考试基础知识考题盘点
- 阀门技术协议合同
- 2025江苏省安全员B证考试题库
- 客户旅程全维度管理研究-全面剖析
- 主题班会AI时代中学生的机遇与成长
- 2025城市供热工程管道安装施工合同
- 中考化学30天高效复习计划
- 静配用药工作流程
评论
0/150
提交评论