第九讲第五章互联网信息检索原理80_第1页
第九讲第五章互联网信息检索原理80_第2页
第九讲第五章互联网信息检索原理80_第3页
第九讲第五章互联网信息检索原理80_第4页
第九讲第五章互联网信息检索原理80_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信 息 文 化 教 程主讲 张沛黎 电话: 2057357(o)手机:河子大学图书馆 文检教研室E-mail:* 1zhangpeili第五章 互联网信息检索原理 5.2 互联网信息概述 互联网,或称环球网、因特网、Internet, 是指多个网络通过路由器、通信线路等通信设备互联,并基于一个共同的TCP/IP协议实现通信的世界性计算机网络。它是在美国 1969创建的军用网络的基础上逐步发展成型的。可以预见, Internet必将迅速覆盖全球,对人类生活产生深远的影响,使 “ 信息时代 ” 真正到来。Date 2zhangpeili第五章 互联网信息检索原理 网上信息资源的构成 互联网信息资源是由连接在网上的计算机中的无数信息、网上的各种信息工具以及网络通信渠道三方面构成。 网络信息包括计算机中的数据库、电子出版物、主页信息、软件以及各种格式的文件。 信息工具包括 FTP、 Telnet、 Email、 Gopher、 Archie、 WAIS、 WWW浏览器、搜索引擎等。网络通信渠道是指网络提供的信息交流的渠道。 Date 3zhangpeili第五章 互联网信息检索原理 网上信息资源的特点: (1) 数量庞大、增长迅速 互联网上的信息资源极其丰富。已经成为全球最大的信息资源。包括有哲学、社会科学和自然科学等各学科方面的知识。 (2) 更新频繁、变化无常 互联网上的信息源常常是不稳定,许多网站不断地更换网址,这些给利用带来许多的不便。 (3) 分布散乱、良莠混杂 互联网上的资源, 一部分是人类知识的精粹,是人类巨大的财富,还有相当一部分是出于某种目的的信息或者是未经任何审核的数据信息,我们必须要有足够的认识和警觉。Date 4zhangpeili第五章 互联网信息检索原理 3网络信息资源的类型 按照出版类型区分 网上信息资源有着和印刷型出版物类似的对应关系。 如:印刷型的期刊有网络期刊与其对应。印刷型的图书有网络图书与其对应。如此等等。 按照是否具有原创性 网上信息资源有一次资源和二次资源的区分。一次资源是指首次发表的原创性信息,二次资源是转载已有的信息。 Date 5zhangpeili第五章 互联网信息检索原理 按照有否经过审核,网上信息资源可分为正式出版物和非正式出版物两种。 正式出版物学术价值相对较高。 例如电子期刊、电子图书、电子报告、电子会议录等。网上正式出版物可以免费使用的很少。 网上的非正式出版物具有明显的个人行为性质,其学术价值变化较大。 例如个人主页、讨论组文章和公告版文章等,它们基本上可以免费利用。 Date 6zhangpeili第五章 互联网信息检索原理 按照是否属于搜索引擎检索范围,网络信息资源可分为可见资源和不可见资源两类。 可见资源是搜索引擎可搜索到的资源。这种资源要满足两个条件: 一是必须含有 HTML超链接。 二是没有设置口令,因而可见资源仅限于公开的资源。 不可见资源,具体的说,是指一切没有联接的资源。 Date 7zhangpeili第五章 互联网信息检索原理 5.2.3网络信息资源利用的几个概念 1 HTML和 XML 超文本标识语言 (Hyper Text Markup Language, 简称 HTML), 是为 WWW建立超文本文件的语言。 超文本文件是指含有多个指向其它文本、图像、声音或动画文件的指针,使它们连接在一起的文件。超文本标识语言通过链接项链接文件与文件或者文件内部不同部分,由此实现在 INTERNET上的漫游。用 HTML编写的超文本文档必须用 WWW浏览器阅读。 可扩展标识语言 (XML, Extensible Markup Language)正在成为各种数据,尤其是文档的首选格式,其优点是跨平台、跨网络、跨程序。 Date 8zhangpeili第五章 互联网信息检索原理 .2网站和网页 网页是用 HTML或 DHTML、 XML等语言写成的文本文件。 网站则是有独立的域名,由若干相关网页组成的一个站点。 按照微软公司的比喻,如果把 WWW当作是Internet上的大型图书馆,则每个 web站点就是一本书,每个 web页面就是书的一页,主页则是书的封面和目录。用户可以从主页开始,通过 web链接访问各类信息资源,在 WWW世界中漫游。 Date 9zhangpeili第五章 互联网信息检索原理 3 WWW和 WWW浏览器 WWW是 world wide web的缩写,可以称为 “ 全球信息网 ” 。 简称 3W或 Web, 有时中文也称为万维网。 WWW的这种遍布全球的信息网络是通过超文本和超媒体( Hypermedia) 技术来实现的。 在 Internet中,每个 web服务器不仅提供它自身拥有的信息数据,还利用超级链接指向其它的拥有相关信息的 web服务器,而那些服务器又指向更多的服务器,通过这种内部的链接机制,使遍布全球的主机形成了一个相互联系、资源共享的有机整体。 Date 10zhangpeili第五章 互联网信息检索原理 WWW浏览器是浏览信息的客户程序。通过浏览器,用户可以十分方便地在 Internet上获取所需要的信息。 浏览器 Internet Explorer和 Netscape Navigator具有下述基本功能: (1) 打开主页 浏览器运行时,总是按照某个内置的 URL进行访问,并将主页传送到客户机,并以超文本的方式显示。 (2) 随意浏览 通过输入不同的 URL, 用户可以打开 Internet上的任何服务器的 HTML文档。浏览器解释 HTML所描述的动画、声音、文本、图像以及超级链接等信息,展现在用户面前的是内容无所不包的超文本信息。 Date 11zhangpeili第五章 互联网信息检索原理 (3) 热表( hotlist) 功能 浏览器提供一种简便的方法,使得用户可以把感兴趣的URL保存下来,以备日后使用。这种存储机制称为热表( hotlist) 功能。 (4) 文档管理功能 浏览器具有对正在查看的文档进行存盘和打印的功能。 随着 Internet的普及,浏览器的地位也越来越重要,将逐渐成为和 DOS、 Windows一样必不可少的软件。Date 12zhangpeili第五章 互联网信息检索原理 3 URL URL是 Uniform Resource Locator( 统一资源定位器)的缩写,提供了一种地址寻找方式。 为了确定具体信息资源在网络中的位置,Internet使用 URL来描述具体资源和位置。 URL的组成结构为:应用协议、主机地址以及文件名。其中主机地址可以是域名,也可是 IP地址。 如: , /index.htm。 URL的格式为: Protocol:/host.:port/path/filename。 也就是说, URL的这个格式由 Protocol五部分内容组成: Date 13zhangpeili第五章 互联网信息检索原理 (1) Protocol 是通讯协议或撷取数据的方式。 FTP( 文件传输协议):它允许用户把一台计算机上的文件传到另一台计算机上。可以大大节省用户的联机通讯费用。 WAIS( 文档检索):这是一种基于关键词的文档检索工具。通过将网络上的文献、数据做成索引,用户只要在 WAIS给出的信息资源列表中用光标选取希望查询的信息资源名称并键入关键字,系统就能自动进行远程查询。 Telnet( 远程登录):允许用户从一台计算机登录到远程的另一台计算机上并使用其资源。Date 14zhangpeili第五章 互联网信息检索原理 E-mail( 电子邮件):每个网络用户可以申请一个电子邮箱,用于接送电子邮件。用户可以脱机处理邮件。 (2) host是主机的地址。Internet中每台计算机的域名结构为:主机名、机构名、网络名、最高层域名。域名是由有规律的英文单词组成的,非常便于记忆,而且还可以根据域名组成的规律,猜测某一个站点的域名。常见的标准域名结构为: 主机名、机构名、网络名、最高层域名。 在 Internet的域名系统中最高层域名有三种:Date 15zhangpeili第五章 互联网信息检索原理第一类为 国别域名 ,由两个英文字母组成,如: “ .CN( 中国) ” 、 “ .JP( 日本) ” 、 “ .US( 美国) ” 、“ .UK( 英国) ” 、 “ .CA( 加拿大) ” 。 第二类为 国际域名 ,现只有一个 “ .INT” 代表国际组织。 第三类为 通用域名 ,目前用到的有 13个:.net 网络服务机构; .edu 教育部门; .webweb 服务机构; .arts 文化娱乐部门; .info 信息部门; .rec 娱乐机构; .org 非赢利机构; .Store 销售部门 .Firm 公司企业;.gov 政府部门; .com. 商业机构 .mil 军事部门;.nom 个人。中国的域名注册由国务院信息化工作领导小组办公室授权中国互联网络信息中心( CNNIC) 负责办理。 例如:石河子大学的网址为: ttp://Date 16zhangpeili第五章 互联网信息检索原理 (3) :port即端口,用数字标识,属于可选项。 (4) path即路径。 (5) filename是文件名,即浏览器访问的目标。 4网站 网站是有独立的域名,由若干个相关网页组成的一个站点。网站通常是指有着特定的服务对象,相对固定的栏目,可供他人访问的网上信息站点。 网站的基本要素有二:一是具有可供他人访问的服务器;二是建立在这个服务器上的、并以网页形式发布的信息内容。 Date 17zhangpeili第五章 互联网信息检索原理 按照网站中所处的位置,页面通常有主页、次页等层次之分。主页是指网站的首页。由主页上提供的站内链接点导出的页面称为次页。 按照服务性质的不同,网站一般分为门户网站和垂直网站两类。 门户网站 , 是访问互联网的入口,它以丰富的内容吸引访问率。 垂直网站是针对某一领域、某一特定人群或某一特定需求,内容集中而深入的网站。Date 18zhangpeili第五章 互联网信息检索原理 按照服务功能的不同,网站又可分为政府机构网站、商业网站、公共媒介网站和学术网站几类。 除了上述各类网站之外,以个人名义建立的网站,即个人网站,正以其惊人的数量和包罗万象的信息吸引着众多的访问者Date 19zhangpeili第五章 互联网信息检索原理 5.3.1 搜索引擎概述 1定义 搜索引擎 (Search Engines)是网上信息搜索工具的通称。它是 Internet上的一种特殊网站,在这些站点的服务器中保存了一个非常庞大的数据库,其内容包罗万象。查到的结果往往是一批具有相关属性的网站地址。 搜索引擎可以是一个独立的门户网站,也可以是附在其他类型网站或主页上的一个搜索工具。 当用户输入检索提问时,搜索引擎会告诉用户包含这个检索提问的所有网址,并提供通向该网址的链接点。 Date 20zhangpeili第五章 互联网信息检索原理 搜索引擎的功能: ( 1)、前端界面简单易用、功能强大; ( 2)、查询方式容易设定; ( 3)、检索方式完备,可以按用户所需的方式进行查询 ( 4)、检索结果具有较好的准确性和可读性; ( 5)、检索的速度较快。 搜索引擎的检索系统由以下几部分组成:搜索器、分析器、索引器、检索器和用户接口。Date 21zhangpeili第五章 互联网信息检索原理 搜索器 : 负责定期地自动到各个网站上,把网页抓下来,并顺着上面的链接,持续不断地抓取网页 索引器 : 把搜索器抓来的网页进行分析,按照关键词句进行索引,并存入服务器的数据库中 检索器: 面向用户,接收用户提交的查询字串,在索引数据库中查询,并将结果反馈给用户Date 22zhangpeili用户系统用户接口搜索器索引器检索器WWW信息资源FTP信息资源Telent信息资源Ghopher信息资源WAIS信息资源用户服务组信息资源搜索引擎网络 网络二、搜索引擎的构成及工作原理搜索引擎:搜索器、索引器、检索器、用户接口Date 23zhangpeili第五章 互联网信息检索原理 同检索数据库一样,利用搜索工具检索,也需要用户能够将自己的检索需求编制成合适的检索策略,并且需要一定的检索技巧。 搜索引擎采用的检索词和信息标识词匹配运算的主要方法有:布尔逻辑检索、截词检索、限制检索、加权检索、词位置检索和全文检索等。Date 24zhangpeili第五章 互联网信息检索原理 2. 工作过程 各种搜索引擎工作过程一般包括以下三个方面: (1) 搜寻集中所有信息 (2) 将信息进行分类整理,建立搜索引擎数据库 (3) 通过 web服务器端软件,提供信息查询的浏览器界面 Date 25zhangpeili二、搜索引擎的构成及工作原理用户检索策略搜索引擎用户接口搜索引擎本地的摘要信息数据库各万维网站点资源访问详细信息反馈摘要信息反馈各 记录链接信息资源搜集Date 26zhangpeili第五章 互联网信息检索原理 3搜索引擎的类型 目前互联网上的搜索引擎数以千计,它们可以按照检索语言、工作语种、检索内容、检索方法、检索功能分成若干类型。 (1) 按检索语言区分,搜索引擎可以分为两大类。一类是按分类建立索引的搜索引擎,另一类是按主题词建立的搜索引擎。 分类引擎的数据库常常由人工处理,因而质量较高,但更新周期较慢。 主题引擎的数据库往往由 ROBOT技术自动完成,因而反映信息快,但相对质量略差。现实中使用的搜

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论