




已阅读5页,还剩106页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章搜索引擎与网络信息资源检索,第一节搜索引擎的原理和发展概况,3,1、网络信息资源种类,www信息资源:web网页ftp信息资源:远程计算机上的文件夹blog信息资源:博客、播客等等信息资源telenet信息资源:直接调用远程主机bbs、新闻组信息资源:相当于论坛信息p2p信息资源:私人计算机上的信息资源数据库和收费网站:如三大库三大馆,4,2、网络信息资源的特点,信息量大、传播广泛信息类型多样、内容丰富信息时效性强、变化频繁信息分散无序、但关联程度高信息缺乏管理、良莠不齐所以在网络信息检索中,我们常常要借助于搜索引擎来帮助我们“大海里捞针”。,5,搜索引擎searchengineinternet网络信息检索工具,3、搜索引擎的概念,6,4、搜索引擎的发展历史,7,8,搜索引擎的起源archie,所有搜索引擎的祖先,是1990年由蒙特利尔的mcgilluniversity三名学生发明的archie(archiefaq)。alanemtage等想到了开发一个可以用文件名查找文件的系统,于是便有了archie。archie是第一个自动索引互联网上匿名ftp网站文件的程序,但它还不是真正的搜索引擎。archie是一个可搜索的ftp文件名列表,用户必须输入精确的文件名搜索,然后archie会告诉用户哪一个ftp地址可以下载该文件。,9,由于archie深受欢迎,受其启发,nevadasystemcomputingservices大学于1993年开发了一个gopher(gopherfaq)搜索工具veronica(veronicafaq)。jughead是后来另一个gopher搜索工具。现在这个工具主要用在国外大型图书馆的信息检索上。,早期的另一个搜索工具gopher,10,1994年4月,斯坦福大学的两名博士生,美籍华人杨致远和davidfilo共同创办了yahoo)。随着访问量和收录链接数的增长,yahoo目录开始支持简单的数据库搜索。因为yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。yahoo!-几乎成为20世纪90年代的因特网的代名词。,第二代搜索:目录式搜索yahoo!,11,1995年,一种新的搜索引擎形式出现了元搜索引擎(metasearchengine)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是washington大学硕士生ericselberg和orenetzioni的metacrawler。元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。,好听不好用的元搜索引擎,12,第三代搜索:网页搜索,它们都属于网页自动搜索引擎,有的还带有智能分析或ftp、p2p搜索功能,13,5、搜索引擎的工作原理,14,15,搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。搜索引擎至少由三部分组成:爬行器(即机器人、蜘蛛等搜索程序)索引生成器(即网页索引数据库)查询检索器(即用户检索界面)随着搜索引擎的发展,许多搜索引擎在此基础上增加特色功能。如百度增加了监控程序。,16,搜索引擎的工作原理就像超市,索引生成器(网页数据库),爬行器(蜘蛛),查询检索器(用户查询),因特网,17,利用能够从互联网上自动收集网页的spider系统程序,自动访问互联网,并沿着任何网页中的所有url爬到其它网页,重复这过程,并把爬过的所有网页收集回来。,第一步:从互联网上抓取网页,因特网,18,第二步:建立索引数据库,由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在url、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。,19,搜索引擎的spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。,20,第三步:检索界面的建立,当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。,21,每个搜索引擎都必须向用户提供一个良好的信息查询界面,一般包括分类目录及关键词两种信息查询途径。,22,23,第二节两类搜索引擎及网页搜索引擎,25,两类搜索引擎的代表,百度、google、yahoo等,迅雷、天网maze等,26,第一类搜索引擎:网页搜索引擎以谷歌和百度为代表,27,1、google搜索引擎,google搜索引擎诞生于斯坦福大学的一个学生宿舍里,然后迅速传播到全球的信息搜索者。google目前被公认为万维网上最大的搜索引擎,它提供了简单易用的免费服务,使用户能够访问一个包含超过80亿个网址的索引。“google”来自于数学名词“googol”,googol表示一个1后面跟着100个零。googleint.使用这一术语体现了公司整合网上海量信息的远大目标。地址:,28,google简介:,larrypage,创始人之一,主管产品的总裁。密西根安娜堡大学的荣誉毕业生,拥有理工科学士学位。他还因其出色的领导才能获得过多项荣誉,以奖励他对工学院的贡献。他曾担任密西根大学etakappanu荣誉学会的会长。目前他暂时从斯坦福大学计算机研究所博士班休学,其指导教授是terrywinograd博士。google就是由page在斯坦福大学发起的研究项目转变而来的。,29,google简介:,sergeybrin,创始人之一,主管技术的总裁。出生于莫斯科,是马里兰大学校本部的荣誉毕业生,拥有数学专业和计算机专业的理学士学位。已取得斯坦福大学计算机专业硕士学位,目前暂时从博士班休学。29岁的sergey是美国国家科学基金会的奖学金得主。他在斯坦福遇到了larrypage并参与了后来成为google的研究项目。他们于1998年共同创立了google。,30,注意用“”与*功能,31,google技术,google使用pagerank技术检查整个网络链接结构,并确定哪些网页重要性最高。然后进行超文本匹配分析,以确定哪些网页与正在执行的特定搜索相关,使得搜索方式发生了根本性变化。,32,google的特殊功能(部分),查找非html文件:可以支持13种非html文件的搜索,如pdf,doc,ppt,xls,swf。例如查找doc文本文件,只需搜索“关键词filetype:doc”即可。,33,网页快照:google在访问网站时,会将看过的网页复制一份网页快照,以备在找不到原来的网页时使用。单击“网页快照”后,将看到google将该网页编入索引时的页面。google依据这些快照来分析网页是否符合您的需求。(不好用)类似网页:如果你对某一网站的内容很感兴趣,但又嫌资料不够,单击“类似网页”google会帮你找到其他有类似资料的网站;,34,按链接搜索:查询“link:”显示所有指向该网址的网页。例如,“link:”将找出所有指向网易主页的网页。手气不错:按下“手气不错”按钮将自动进入google查询到的第一个网页。指定网域:如果要在某个特定的域或站点中进行搜索时可输入“*site:*.com”。如在新浪网中搜索“新闻”可输入“新闻site:”,35,36,查看哈尔滨工业大学研究生招生简章,37,其它技巧,中英文字典:英译汉输入“fyapple”汉译英输入“翻译苹果”定义:输入“定义:文献”或“define:html”计算器:google为用户提供了一个内置计算器。天气查询:检索“哈尔滨天气”或“shanghaitq”google返回的网站链接会提供最新的当地天气状况和天气预报。邮编区号:输入“邮编哈尔滨”、“yb150000”、“区号0451”、“哈尔滨qh”手机号码:输入可查询手机号的归属地。股票查询:输入“中国石化股票”或“gp600028”可查询股票价格及股市行情。,38,39,谷歌其他功能,40,2、百度(baidu),全球最大中文搜索引擎。提供网页快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、新闻搜索、flash搜索、信息快递搜索、百度搜霸、搜索援助中心。地址:,41,42,一、概况百度(b,inc)于1999年底成立于美国硅谷,2000年,落户中国。2001年8月,发布b搜索引擎beta版,从后台服务转向独立提供搜索服务,并且在中国首创了竞价排名商业模式。2001年10月22日正式发布baidu搜索引擎。2005年8月5日,百度在美国纳斯达克上市。,李彦宏,43,“百度”二字取自辛弃疾的青玉案“众里寻她千百度”。现在百度已成为世界上最大的中文搜索引擎。用户能够访问超过6亿的中文网页,5000多万张图片、500多万首中文mp3及各种格式的音乐。,44,百度技术,百度搜索引擎由四部分组成:蜘蛛程序、监控程序、索引数据库、检索程序。百度的核心技术:超链分析超链分析技术,是新一代搜索引擎的关键技术,已为世界各大搜索引擎普遍采用,百度总裁李彦宏就是超链分析专利的唯一持有人。在学术界,一篇论文被引用得越多就说明其越好,学术价值就越高。超链分析就是通过分析链接网站的多少来评价被链接的网站质量,这保证了用户在百度搜索时,越受用户欢迎的内容排名越靠前。,45,网页搜索功能,百度快照相关搜索拼音提示错别字提示英汉互译词典计算器和度量衡转换专业文档搜索股票、列车时刻表和飞机航班查询高级搜索语法高级搜索、地区搜索和个性设置,46,47,3、其它中文搜索引擎,新浪:,48,北京正望咨询有限公司,49,百度vsgoogle,第四节搜索引擎使用技巧,51,百度的使用方法和技巧1,百度的使用方法和技巧2,百度的使用方法和技巧3,百度的使用方法和技巧4,52,简单搜索,输入查询字符串,搜索引擎返回结果,53,搜索结果分析(google),网页标题,标题上下文本,a,b,c,网页地址,d,网页大小,e,f,网页快照,类似网页,54,搜索结果分析(baidu),网站被搜索引擎收录时间,55,提炼搜索关键词细化搜索条件用好逻辑符号强制搜索,如何运用“关键词原则”,56,提炼搜索关键词,学会从复杂搜索意图中提炼出最具代表性和指示性的关键词,对提高信息查询效率至关重要,这方面的技巧是搜索技巧的基础。如:搜索与秦朝历史文化有关的资料,可提炼关键词:“秦始皇”、“兵马俑”。,57,搜索条件越具体,搜索引擎返回的结果就越精确,有时多输入一两个关键词效果就完全不同,这是搜索的基本技巧之一。如:要了解中国戏剧中京剧的服饰及脸谱知识,搜索条件可为“京剧”、“脸谱”。,细化搜索条件,58,用好逻辑符号,高级关键字举例:空格一般用作增加搜索范围“”强制限定检索词+扩大检索范围-缩小检索范围(检索示例:查找天龙八部是指哪八部搜索:“天龙八部金庸佛教”)intitle限制关键字在题目里site限制关键字在某网站里加入看似无关但和搜索目标具有相关性的关键字。,59,通过添加英文双引号来搜索短语词,这一方法在查找名言警句或专有名词时显得格外有用。请同学们搜索电脑课件之家和”电脑课件之家”,看结果有何不同。,强制搜索,60,61,qq,qqsite:,vs,62,杨晨site:,vs,杨晨杜章勇,63,常用搜索引擎使用方法,google手气不错高级搜索图像搜索directorygooglegroupbaidump3地图黄页,64,baidu地图搜索,65,googlelocal,66,googlelocal,67,搜索中常见的错误,错误1:错别字经常发生的一种错误是,你输入的关键词含有错别字。笔者所做的统计表明,常有大量的错误搜索,光一个谢霆锋就有“谢霆锋”、“谢庭锋”、“谢霆峰”、“谢廷锋”、“谢庭峰”、“谢廷峰”6种查法,还有什么“星际争吧”、“以德制国”之类的,这样的关键词能搜索到什么有用资料吗?所以每当你觉得某种内容网上应该有不少、却搜索不到结果时,你应该先查一下是否有错别字。,68,搜索中常见的错误,错误2:关键词太常见如,搜索“电话”,有无数网站提供跟“电话”相关的信息,从网上黄页到电话零售商到个人电话号码都有。所以当搜索结果太多太乱的时候,你应该尝试使用更多的关键词或者减号来搜索,不使用过于通用的词汇来搜索,设计一个类似“上海常用电话”这样特殊的搜索关键词,会给你真正有用的结果。,69,错误3:多义词的使用,要小心使用多义词,比如搜索“java”,你要找的信息究竟是太平洋上的一个岛、一种著名的咖啡、还是一种计算机语言?搜索引擎是不能理解辨别多义词的。最好的解决办法是,在搜索之前先问自己这个问题,然后用短语、用多个关键词或者用其他的词语来代替多义词作为搜索关键词。比如用“爪哇印尼”、“爪哇咖啡”、“java语言”分别搜索可以满足不同的需求。,70,搜索失败的另一个常见原因是类似这样的搜索:“现代爱情故事歌词”、“信息早报在济南发行情况”、“铃羊车的各种图案”、“上海到成都列车时刻表”。应该这样搜索:“现代爱情故事歌词”、“信息早报济南发行”、“铃羊车图案”“上海成都列车时刻表”。,错误4:使用自然语言查询,71,又如,“杭州的特色景点与小吃”这么长的关键词实在不如“杭州特色小吃”、“杭州景点”来得准;如果觉得找到的结果还不多,可以进一步改为“杭州特色小吃”(表示相关页面既包括“杭州”,又包括“特色小吃”)、“杭州景点”。,72,2001年7月23日这一天,正逢高考发榜,各大搜索引擎竟有超过100万次以上的搜索跟高考查分有关。考生们不知道,搜索引擎从抓取网页、解析、索引到提供检索是有一个周期的,各搜索引擎的信息滞后周期从一周到一月不等,所以找最新内容应该去看新闻,用搜索引擎是找不到最新内容,只能找到一个星期或一个月以前的内容。另外,搜索引擎对动态内容,如:论坛、数据库内容,以及带frame(框架结构)的网页检索能力较弱,所以这类信息也不适合用搜索引擎搜索,而是应该去相关的网站寻找,当然,寻找相关网站的任务,搜索引擎是当仁不让的。,错误5:在错误的地方搜索,73,关于搜索的一些思想,不是互联网上所有的信息都能被搜索引擎搜集。动手前多动脑。不要盲目信任搜索得到的信息。不要期望一次搜索解决问题。,互联网上并没有所有的东西!,74,附加资料,baidu帮助中心google帮助中心搜索引擎列表googletutorial中文搜索引擎指南网,75,文献检索课程作业寻找蒙娜丽莎,、请在网上寻找如下图所示世界名画蒙娜丽莎的指定图片和介绍她被偷的文章。注意,如不是指定图片则此题不给分!提示:可试用以下检索词:monalisalouvremuseumstolen蒙娜丽莎500岁蒙娜丽莎被偷卢浮宫,76,、请在网上寻找卢浮宫三件“镇馆之宝”的另外两件维纳斯和胜利女神的雕像图片,把有关图片下载到你的作业文件夹中,作业文件名必须是图片的主题,否则不给分。,第四节p2p搜索引擎使用方法,78,第二类搜索引擎:ftp或p2p搜索引擎以迅雷和天网为代表,79,什么是ftp资源,ftp是在internet网上使用最广泛的一种服务,使用ftp几乎可以传送任何类型的文件:如文本文件、二进制的可执行程序、科学论文、图像文件、压缩文件、声音文件等。因此有大量有价值的信息资源存储在internet网上的ftp服务器上,获取这些资源也是信息检索的一项内容。,80,ftp的工作原理,ftp(filetransferprotocol)是tcp/ip协议的一种,它是在internet网上使用最广泛的一种服务,它可被用来在两台位于internet网上的计算机之间传输文件,它是一种实时的联机服务,使用时,用户应首先登录到对方的主机上,登录成功后,可以进行文件搜索和文件传送的操作,如列文件目录,改变当前目录,设置传送参数等。,81,像其它internet服务一样,ftp采用client/server结构。用户在使用ftp服务时,需要输入远程主机的用户名和口令才能被允许登录,在internet网上有许多数据服务中心提供一种称为匿名文件传送服务(anonymousftp),用户在登录时,以anonymous作为用户名,以自己的邮件地址做为password即可。一旦主机提供了匿名的ftp服务,它有限制地允许客户访问远程主机。因此,网页搜索引擎一般不能访问到ftp服务器上的信息资源。,82,什么是p2p,p2p在it界最初的含义是peer-to-peer(点对点)。现在p2p已经被更广泛的理解为pointer-to-pointer,pc-to-pc等等。简单来说,p2p就是指数据的传输不再通过服务器,而是网络用户之间直接传递数据。,83,举一个简单的例子,在qq出现之前,人们上网聊天大多通过聊天室,信息的传递方式是:用户a聊天室服务器用户b。这些不是p2p的方式。在qq时代,用户与服务器的交互仅用来完成登陆、维持在线状态等等,信息用户之间的信息传递不需要服务器参与,信息传递方式为:用户a用户b。这就是典型的p2p应用。不过,当信息的接收方不在线时,信息会通过服务器中转,这就又变成了上面提到的c/s模式,84,第二类搜索引擎,从ftp和p2p的工作方式可以看出,它们都不是传统意义上的www网站,而是直接在两台计算机之间进行的远程通信和文件传输。所以象百度和谷歌这类搜索引擎对这两种信息资源的搜索往往不能奏效。这就需要有新的类型的搜索引擎诞生。其中有代表性的是迅雷和天网搜索引擎。,85,ftp搜索引擎的功能是搜集匿名ftp服务器提供的目录列表以及向用户提供文件信息的查询服务。由于ftp搜索引擎专门针对各种文件,因而相对www搜索引擎,寻找软件、图像、电影和音乐等文件时,使用ftp搜索引擎更加便捷。,86,一、迅雷在线搜索引擎,87,88,迅雷在线搜索引擎,迅雷是一款免费下载工具,号称第三代快速下载工具,它使用的多资源超线程技术基于网格原理,能够将网络上存在的服务器和计算机资源进行有效的整合,构成独特的迅雷网络,通过迅雷网络各种数据文件能够以最快的速度进行传递,据说下载速度是网际快车的7-8倍,支持断点续传。迅雷还拥有一个强大的资源网络,实际上构成了一个独特的搜索引擎。任何人都可以将自己在因特网搜索到的资源再次在迅雷上发布,成为迅雷的“雷友”,拥有自己的迅雷博客。这样,迅雷就可以通过对雷友博客的搜索,提供更多的信息资源。,89,二、天网搜索引擎,90,91,天网中文搜索引擎,北大天网,92,93,94,主要以p2p资源搜索为主的搜索引擎2,北京天网时代科技有
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 开吊笼考试题及答案
- 玻璃制品机械成型工主管竞选考核试卷及答案
- 酒店保安考试题及答案
- 矿井制冷降温工转正考核试卷及答案
- 课件无响应问题解决
- 自行车与电动自行车装配工岗位操作技能考核试卷及答案
- 金山焊工考试题及答案
- 保险公估人工艺创新考核试卷及答案
- 医用消毒、低温设备组装调试工专项考核试卷及答案
- 教师调动考试题及答案
- 设施赔偿协议书范本
- 2025-2030中国镁合金行业市场深度调研及发展趋势与投资前景预测研究报告
- DB50∕T 632-2015 火灾高危单位消防安全评估规程
- 2025年上半年湖南湘西州龙山县事业单位招聘工作人员41人易考易错模拟试题(共500题)试卷后附参考答案
- 精神科进修汇报:专业护理实践与挑战
- 加油站员工绩效考核制度或加油站员工激励约束办法
- 食堂验货标准培训
- 电动叉车安全操作培训
- 浆砌石挡墙拆除施工技术方案
- 人教版九年级化学上册教学工作计划(及进度表)
- T-SEEPLA 09-2024 四川省功能区声环境质量监测站(点)布设技术规范
评论
0/150
提交评论