网络信息检索课件09版检索原理和搜索引擎a_第1页
网络信息检索课件09版检索原理和搜索引擎a_第2页
网络信息检索课件09版检索原理和搜索引擎a_第3页
网络信息检索课件09版检索原理和搜索引擎a_第4页
网络信息检索课件09版检索原理和搜索引擎a_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1网络信息检索第 2章 张胜光制作课件制作:张胜光课件制作:张胜光第二章第二章 检索原理和检索原理和搜索引擎搜索引擎2网络信息检索第 2章 张胜光制作本章内容搜索引擎原理和概况搜索引擎原理和概况2门户网站和看不见的网站门户网站和看不见的网站6网络信息检索原理网络信息检索原理31网页搜索引擎简介网页搜索引擎简介3网页搜索引擎使用方法网页搜索引擎使用方法34P2P搜索引擎使用方法搜索引擎使用方法353网络信息检索第 2章 张胜光制作第一节 信息检索原理:关键词匹配原则4网络信息检索第 2章 张胜光制作1、从 “ 图灵实验 ” 说起大家都知道,计算机发展史上有一个重要人物图灵,他在上世纪 50年代曾经提出了一个假想的实验,认为计算机可以具有人类的思维能力,被称为 “ 图灵实验 ”。他并且预言,在 20世纪末,具有人工智能的计算机将会出现。但时至今日,仍未有任何一台计算机能通过 “ 图灵实验 ” 。5网络信息检索第 2章 张胜光制作2、计算机检索的奥妙:关键词匹配计算机既然如此 “ 无能 ” ,连三岁小孩的智能都不具有,那么为什么人们要在网上查找信息,却总要通过计算机帮忙呢?计算机检索的奥妙在哪里呢?原来,计算机实现检索的奥妙,就在于它能把你输入的检索词,与它后台数据库中存储的文件关键词进行比对,如果能够匹配,就认为这条信息是你需要的,立刻输出给你。6网络信息检索第 2章 张胜光制作广义的信息检索:广义的信息检索: 是指将信息是指将信息按一定的方式按一定的方式 组织和存储组织和存储 起来起来,并根据用户的需要,并根据用户的需要 找出找出 相关相关信息的过程。信息的过程。 狭义的信息检索:狭义的信息检索:一个匹配一个匹配 ( Match)过程过程即用户即用户 使用检索语言使用检索语言 对自己的信息需对自己的信息需求求 予以描述予以描述 ,并在一定的,并在一定的 信息资源系统信息资源系统中进行中进行 描述匹配描述匹配 的过程。的过程。3、什么是信息检索?7网络信息检索第 2章 张胜光制作存 储检 索原始文献加工整理数据库提 问检 索输 出“爱因斯坦论文爱因斯坦论文 ”“论文论文 ”“爱因斯坦爱因斯坦 ” “论文论文 ”“爱因斯坦爱因斯坦 ”8网络信息检索第 2章 张胜光制作4、信息检索原理检索检索提问式提问式信息信息的选的选择与择与收集收集信息信息特征特征标标识识语语言言检索工具检索工具匹配匹配检检索索结结果果信信息息源源用用户户信信息息需需求求检索检索提问提问数据库数据库9网络信息检索第 2章 张胜光制作What? Where? How?5、信息检索的要领10网络信息检索第 2章 张胜光制作6、信息检索类型依信息存储和检索的方式依信息存储和检索的方式手工检索手工检索 ( Manual Retrieval)也叫传统信息检索,是利用各种印刷型检索工具来查找文献的一种方法。计算机检索计算机检索 ( Camputer-based Retrieval)也叫现代信息检索,是指利用计算机和网络来处理和查找文献信息的检索方式。11网络信息检索第 2章 张胜光制作7、主要计算机检索系统类型检索系统由一定的检索设备(计算机)和经过加工整理并存储在相应载体上的信息集合及其他设备共同构成的具有存储和检索功能的信息服务系统。v联机检索 (online search)v脱机检索( offline search)v光盘检索( CD search)v网络检索( Internet/Web search)v全球数字图书馆系统( digital global system)12网络信息检索第 2章 张胜光制作8、 “ 关键词原则 ” 是信息检索的根本原则四次文献四次文献三大系列中文网站三大系列中文网站两类搜索引擎两类搜索引擎Keyword原则原则13网络信息检索第 2章 张胜光制作第二节 搜索引擎的原理和发展概况14网络信息检索第 2章 张胜光制作1、网络信息资源种类vWWW信息资源: web网页vFTP信息资源:远程计算机上的文件夹vBlog信息资源:博客、播客等等信息资源vTelenet信息资源:直接调用远程主机vBBS 、新闻组信息资源:相当于论坛信息vP2P信息资源:私人计算机上的信息资源v数据库和收费网站:如三大库三大馆15网络信息检索第 2章 张胜光制作2、网络信息资源的特点v信息量大、传播广泛v信息类型多样、内容丰富v信息时效性强、变化频繁v信息分散无序、但关联程度高v信息缺乏管理、良莠不齐所以在网络信息检索中,我们常常要借助于搜索引擎来帮助我们 “ 大海里捞针 ”。16网络信息检索第 2章 张胜光制作3、搜索引擎的概念、搜索引擎的概念17网络信息检索第 2章 张胜光制作4、搜索引擎的发展历史18网络信息检索第 2章 张胜光制作搜索引擎发展历史元搜索元搜索引擎引擎1995Yahoo!1994Gopher1993Archie1990第二代搜索第二代搜索目录搜索目录搜索Google1996Baidu1999第三代搜索第三代搜索网页搜索网页搜索19网络信息检索第 2章 张胜光制作搜索引擎的起源 Archie所有搜索引擎的祖先,是 1990年由 蒙特利尔的 McGill University三名学生发明的Archie(Archie FAQ)。 Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了 Archie。 Archie是第一个自动索引互联网上匿名 FTP网站文件的程序,但它还不是真正的搜索引擎。 Archie是一个可搜索的 FTP文件名列表,用户必须输入精确的文件名搜索,然后 Archie会告诉用户哪一个 FTP地址可以下载该文件。 20网络信息检索第 2章 张胜光制作由于 Archie深受欢迎,受其启发,Nevada System Computing Services大学于 1993年开发了一个 Gopher( Gopher FAQ) 搜索工具 Veronica( Veronica FAQ)。Jughead是后来另一个 Gopher搜索工具。现在这个工具主要用在国外大型图书馆的信息检索上。早期的另一个搜索工具 Gopher21网络信息检索第 2章 张胜光制作1994年 4月,斯坦福大学的两名博士生,美籍华人杨致远和 David Filo共同创办了 Yahoo)。 随着访问量和收录链接数的增长, Yahoo目录开始支持简单的数据库搜索。因为 Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。 Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。Yahoo!-几乎成为 20世纪 90年代的因特网的代名词。第二代搜索:目录式搜索 Yahoo!22网络信息检索第 2章 张胜光制作1995年,一种新的搜索引擎形式出现了 元搜索引擎( Meta Search Engine)。 用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是 Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。 元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。 好听不好用的元搜索引擎23网络信息检索第 2章 张胜光制作第三代搜索:网页搜索它们都属于网页自动搜索它们都属于网页自动搜索引擎,有的还带有智能分引擎,有的还带有智能分析或析或 FTP、 P2P搜索功能搜索功能24网络信息检索第 2章 张胜光制作5、搜索引擎的工作原理25网络信息检索第 2章 张胜光制作26网络信息检索第 2章 张胜光制作搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。搜索引擎至少由三部分组成:v 爬行器(即机器人、蜘蛛等搜索程序)v 索引生成器(即网页索引数据库)v 查询检索器(即用户检索界面)随着搜索引擎的发展,许多搜索引擎在此基础上增加特色功能。如百度增加了监控程序。27网络信息检索第 2章 张胜光制作搜索引擎的工作原理就像超市索引生成器索引生成器(网页数据库)(网页数据库)爬行器爬行器(蜘蛛)(蜘蛛)查询检索器查询检索器(用户查询)(用户查询)因因特特网网28网络信息检索第 2章 张胜光制作利用能够从互联网上自动收集网页的 Spider系统程序,自动访问互联网,并沿着任何网页中的所有 URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。第一步:从互联网上抓取网页第一步:从互联网上抓取网页因因特特网网29网络信息检索第 2章 张胜光制作

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论