网络信息检索课件09版检索原理和搜索引擎B_第1页
网络信息检索课件09版检索原理和搜索引擎B_第2页
网络信息检索课件09版检索原理和搜索引擎B_第3页
网络信息检索课件09版检索原理和搜索引擎B_第4页
网络信息检索课件09版检索原理和搜索引擎B_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1可编辑版本章内容搜索引擎原理和概况2门户网站和看不见的网站6网络信息检索原理31网页搜索引擎简介33网页搜索引擎使用方法34P2P搜索引擎使用方法352可编辑版第五节

P2P搜索引擎

使用方法3可编辑版第二类搜索引擎:

FTP或P2P搜索引擎

以迅雷和天网为代表4可编辑版什么是FTP资源FTP是在Internet网上使用最广泛的一种服务,使用FTP几乎可以传送任何类型的文件:如文本文件、二进制的可执行程序、科学论文、图像文件、压缩文件、声音文件等。因此有大量有价值的信息资源存储在Internet网上的FTP服务器上,获取这些资源也是信息检索的一项内容。5可编辑版FTP的工作原理

FTP(FileTransferProtocol)是TCP/IP协议的一种,它是在Internet网上使用最广泛的一种服务,它可被用来在两台位于Internet网上的计算机之间传输文件,它是一种实时的联机服务,使用时,用户应首先登录到对方的主机上,登录成功后,可以进行文件搜索和文件传送的操作,如列文件目录,改变当前目录,设置传送参数等。6可编辑版什么是P2PP2P在IT界最初的含义是Peer-to-peer(点对点)。现在P2P已经被更广泛的理解为Point-to-Point,PC-to-PC等等。

简单来说,P2P就是指数据的传输不再通过服务器,而是网络用户之间直接传递数据。7可编辑版举一个简单的例子,在QQ出现之前,人们上网聊天大多通过聊天室,信息的传递方式是:用户A-聊天室服务器-用户B。这些不是P2P的方式。

在QQ时代,用户与服务器的交互仅用来完成登陆、维持在线状态等等,信息用户之间的信息传递不需要服务器参与,信息传递方式为:用户A-用户B。这就是典型的P2P应用。

不过,当信息的接收方不在线时,信息会通过服务器中转,这就又变成了上面提到的C/S模式8可编辑版第二类搜索引擎从FTP和P2P的工作方式可以看出,它们都不是传统意义上的www网站,而是直接在两台计算机之间进行的远程通信和文件传输。所以象百度和谷歌这类搜索引擎对这两种信息资源的搜索往往不能奏效。这就需要有新的类型的搜索引擎诞生。其中有代表性的是迅雷和天网搜索引擎。9可编辑版一、迅雷在线搜索引擎10可编辑版11可编辑版迅雷在线搜索引擎

迅雷是一款免费下载工具,号称第三代快速下载工具,它使用的多资源超线程技术基于网格原理,能够将网络上存在的服务器和计算机资源进行有效的整合,构成独特的迅雷网络,通过迅雷网络各种数据文件能够以最快的速度进行传递,据说下载速度是网际快车的7-8倍,支持断点续传。

迅雷还拥有一个强大的资源网络,实际上构成了一个独特的搜索引擎。任何人都可以将自己在因特网搜索到的资源再次在迅雷上发布,成为迅雷的“雷友”,拥有自己的迅雷博客。这样,迅雷就可以通过对雷友博客的搜索,提供更多的信息资源。12可编辑版作业4迅雷在线搜索

本作业要求,对2006年最火爆的“明星学者”易中天先生的力作:CCTV百家讲坛《易中天品三国》在迅雷上进行搜索,将这套系列视频教程的总目录列出来(据说有30多集),按演讲顺序编号,并附上资源发布站点的屏幕抓图,以使读者能够方便地下载自己需要的讲座内容。13可编辑版二、天网搜索引擎14可编辑版15可编辑版天网中文搜索引擎北大天网/

由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在中国教育和科研网CERNET上提供服务。收录网页约6000万,主要搜索CERNET上的信息,有强大的FTP搜索功能。16可编辑版17可编辑版18可编辑版北京天网时代科技有限公司(/)的前身是北大天网(/),北大天网是中国第一家为互联网用户提供服务的搜索引擎。2003年7月,北京天网时代科技有限公司完全收购了北大天网,开展搜索相关业务。19可编辑版天网资源:Web、FTP、Maze等20可编辑版天网FTP资源21可编辑版“天网妹子”天网资源最具特色的是Maze资源,天网Maze是一款集搜索和下载为一体的、基于P2P底层技术的客户端软件,它的特点是同时具有搜索、下载和共享发布的功能,当你安装此软件并注册后,就可以输入关键词进行搜索。但它搜索的对象主要是所有的Maze用户,你可以直接从找到的在线Maze用户的个人计算机共享文件夹上下载你感兴趣的任何文件。22可编辑版23可编辑版作业5

天网Maze大学课程在线搜索它的下载方式类似BT下载方式,浏览方式类似FTP浏览方式,下载速度快,支持断点续传。特别是它的主要用户都是教育网上的用户,所以在校园网上下载速度极快。

本作业要求从天网大学课程在线上下载一部指定的视频教程。这也将是本课程期末考试的必考题目之一,请用心掌握下述操作技巧。24可编辑版用天网妹子搜索到的大学课程在线25可编辑版大学课程在线项目理念来源于如下一些理想中的场景:

场景一:新疆石河子大学计算机系讲授《计算机体系结构》的张老师对他的学生说:关于“指令流水线部分”的内容请大家点播“大学课程在线”上北京大学李老师相关的视频,我们的答疑时间是本周星期四。26可编辑版场景二:西北大学的王老师的《文科计算机基础》课程刚刚被评选为教育部优秀课程,全国高校的学生和老师很快就能在“大学课程在线”上看到王老师的风采。27可编辑版场景三:未名湖边,博雅塔下,一位北大的学生打开自己的笔记本电脑,开始在“大学课程在线”上聆听周老师关于离散数学中的组合计数定理部分的内容,这已经是他第三次学习这部分内容了。28可编辑版场景四:东北大学的学生们在自己学校的机房里打开“大学课程在线”,开始观看前一天到访清华大学的诺贝尔奖获得者的精彩演讲。

场景五:五十年后,我突然想看看国学大师在北大讲坛上的音容笑貌,于是我打开了“大学课程在线”。29可编辑版场景六:一个没有读过大学的人,却对中国高校里面的名师如数家珍,因为他在闲暇时候观看了“大学课程在线”的所有课程并认真地阅读了老师们指定的参考书。这成了他事业成功的坚实基础。30可编辑版三、其他P2P搜索引擎BT电驴电骡……31可编辑版32可编辑版第六节

门户网站和“看不见的”网站33可编辑版一、门户网站的概念中国有三大网站被称为“门户网站”(新浪、搜狐和网易)。之所以他们被称为中国最大的三大门户网站,除了因为它们有搜索引擎以外,还因为它们安排了多种多样的信息服务,使得人们能自觉自愿地登陆这些网站开始“网上冲浪”,恰似因特网的大门一样。34可编辑版一、搜狐网站及其搜索引擎

Keywordsearching35可编辑版第三代互动式搜索引擎搜狗

搜狗是搜狐()推出的第三代互动式搜索引擎,在用户输入一个查询词后,尝试理解用户可能的查询意图,给出多个主题概念的搜索提示,通过人机交互过程,智能展开多组相关的主题概念,引导用户更快速准确定位自己所关注的内容。36可编辑版搜狗的地图功能37可编辑版38可编辑版39可编辑版搜狐博客40可编辑版二、新浪网站及其搜索引擎41可编辑版新浪网的搜索引擎42可编辑版43可编辑版44可编辑版爱问共享资料

45可编辑版46可编辑版47可编辑版48可编辑版三、网易网站及其搜索引擎Keywordsearching49可编辑版网易博客

50可编辑版网易相册51可编辑版52可编辑版二、看不见的网站与门户网站相反,有相当一批网络信息资源是搜索引擎看不到的,譬如天网妹子上的大学视频教程,以及私人服务器上的BT资源,百度、谷歌就对它们无能为力。因而就有了“看不见、搜不着的网站”的说法。但这些信息资源绝不是不重要的。53可编辑版WWW信息资源FTP信息资源Blog信息资源Telenet信息资源BBS、新闻组信息资源P2P信息资源数据库和收费网站信息资源这三类资源可见度较高,但每个搜索引擎最多能搜到其中的40%大多数情况下,搜索引擎对这几类资源无能为力,只能另想办法查找。看得见和看不见的网站54可编辑版轻轻松松学检索四次文献三大系列中文网站两类搜索引擎Keyword原则55可编辑版本章作业实验二

搜索引擎的使用【实验目的】

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论