




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
搜索信息的利器-搜索引擎互联网出现到现今,信息量可以说成幂指数的增长,大量信息就像Google的原本含义“1的后面跟着100个0”一样,这个数比宇宙所有的基本粒子的数量总和还要大。我们喜爱在信息的海洋中自由遨游,正是因为它有无尽的信息资源可供浏览查询,可有时候当我们去寻找所需要的信息时,却如同大海捞针一样难。如何才能在这浩如烟海的信息中找到自己需要的信息呢?搜索引擎就像一只神奇的手,帮助我们从杂乱的信息中抽出一条清晰的检索路径。定 义:搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。起 源:1990年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出Archie。当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。 最早现代意义上的搜索引擎出现于1994年7月。当时Michael Mauldin将John Leavitt的蜘蛛程序 电脑“机器人”(Computer Robot)是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序象蜘蛛一样在网络间爬来爬去,因此,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。接入到其索引程序中,创建了大家现在熟知的Lycos。同年4月,斯坦福大学的两名博士生,美籍华人杨致远(Gerry Yang)和美国人David Filo,共同创办了雅虎(Yahoo),并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。(视频:搜索引擎的发展历史)组 成:搜索引擎一般由搜索器、索引器、检索器和用户接口四个部分组成,各自功能如下: 搜索器:在互联网中漫游,发现和搜集信息; 索引器:理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表; 检索器:根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息; 用户接口:接纳用户查询、显示查询结果、提供个性化查询项。工作原理:搜索引擎通常收集了互联网上几千万到几十亿个网页并对网页中的每一个文字(即关键词)进行索引,建立了索引数据库。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜索出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。搜索引擎的原理,可以看做三步:从互联网上抓取网页建立索引数据库等待用户提出搜索请求,根据关键词在索引数据库中搜索排序。搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。(图 解)超 链超 链超 链超 链超 链(1)抓取网页(搜索器)每个独立的搜索引擎都有自己的网页抓取程序(Spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。 (2)处理网页(索引器)搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。 任务:下图是中国2010年上海世博会官方网站的源代码截图,请注意其中关键词部分的内容。(3)提供检索服务(检索器、用户接口)用户输入关键词关键词就是您输入搜索框中的文字,也就是您命令搜索引擎寻找的东西。无庸至疑,选择正确的关键词是一切的开始。学会从复杂搜索意图中提练出最具代表性和指示性的关键词对提高信息查询效率至关重要,这方面的技巧(或者说经验)是所有搜索技巧之母。进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供网页描述或一段来自网页的摘要、网页快照网页快照是搜索引擎抓捕下来缓存在服务器上的网页。它有三个作用:第一,如果原地址打开很慢,那么可以直接查看搜索引擎的缓存页面,因为通常搜索引擎的服务器速度极快。第二,如果原链接已经死掉或者因为网络的原因暂时链接不通,那么可以通过网页快照看到该页面信息。当然,快照内容不是该页最新页面。第三,如果打开的页面信息量巨大,一下子找不到关键词所在位置,那么可以通过网页快照,因为快照中会用黄色表明关键字位置。以及其他信息。任务1:百度中搜索“搜索引擎”、“上海世博”或者其他自定内容,查看网页快照。任务2:老师备课时遇到了一些问题,请帮忙思考解决:(a)需要腾讯搜搜的logo图标,可当时搜搜网页上是清明的图片,怎么才能找到原来的logo图片?答案:用百度搜索腾讯搜搜,打开百度快照里面的网页,就可以找到历史记录中的图标。(b)用Google搜索javascript的某个知识点,已经在搜索结果列表中看到了要找的内容,但是链接打不开,想用快照看吧,可是谷歌的快照竟然也打不开,并且只搜索到这一个有用的链接,这时该怎么办呢?答案:将搜索结果中的部分内容复制出来,用百度搜索此内容,能找到,虽然网页链接同样打不开,但百度的快照可以打开,终于找到了所需要的内容。分类及其特点:(1)全文搜索引擎(关键词搜索引擎)关键词索 引数 据库用户接口 全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。关键字检索服务适用于按只字片语查找信息。它根据输入的几个字、词或短语,在其索引数据库里查找与其有关的信息所在的网址。通常会列出许多相关的网址供选择。最常用的全文搜索引擎有百度、谷歌教材和测试题中所提的北大天网已经停止服务了,也不对未安装maze软件的用户服务。可能有些题目关于全文搜索引擎的答案中含有北大天网,其实当时的北大天网也主要是ftp文件搜索。等。有些提供全文搜索引擎的网站本身并不具备专业的搜索引擎技术和自建的索引数据库,而是租用了搜索数据库服务提供商提供的资源,按照自定的格式排列搜索结果。关键词索 引数 据库用户接口Menu1Menu2MenuN(2)目录索引类搜索引擎(分类搜索引擎)目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟全文搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。 现在很多搜索网站都提供目录检索或网址导航的服务,如搜狐、雅虎、新浪等。知名网址大全:/ 、/ 最新2010搜索网站一览表站名Logo搜索首页(网页/关键词/全文)目录搜索(导航/网址大全)自助区Some Link百度新手指南、帮助中心、产品大全、搜索风云榜谷歌搜索入门、使用偏好搜狐搜狗帮助中心更多功能雅虎 帮助中心服务大全微软必应暂无帮助、首选项新浪爱问帮助更多搜索腾讯搜搜帮助产品大全中搜暂无帮助中心更多内容网易有道暂无帮助全部产品114搜索帮助中心帮你搜排行榜注:谷歌导航即;新浪爱问的网页搜索依赖谷歌;21世纪搜索()实际是114搜索;114搜索技术由必应提供。部分搜索品牌口号:百度一下你就知道;360度雅虎全能搜;搜搜更懂你。中文搜索引擎指南、搜索引擎大全/link.htm、转载某搜索引擎大全(3)元搜索引擎现在出现了许多的搜索引擎,其收集信息的范围、搜索机制、算法等都不同,用户不得不去学习多个搜索引擎的用法。每个搜索引擎平均只能涉及到整个www资源的30-50%(search engine watch数据),这样导致同一个搜索请求在不同搜索引擎中获得的查询结果的重复率不足34%,而每一个搜索引擎的查准率不到45%。A索引数据库A关键词用户接口B索引数据库C索引数据库索引列表列表元搜索引擎(Meta-Search Enging)是将用户提交的检索请求到多个独立的搜索引擎上去搜索,并将检索结果集中统一处理,以统一的格式提供给用户,因此有搜索引擎之上的搜索引擎之称。它的主要精力放在提高搜索速度、智能化处理搜索结果、个性搜索功能的设置和用户检索界面的友好性上,查全率和查准率都比较高。目前比较成功的元搜索引擎有MetaCrawler、ixquick、搜乐、搜客、觅搜、搜魅等。 站名LogoURLMetaCrawler/Ixquick/搜 乐/ 觅 搜/ 搜 客/搜 魅/任务:访问搜乐网站,看看它集合了几家搜索引擎的内容银行利率网 房贷利率网 冷笑话网 黄金价格网 汇率查询网 艾玛妇产网任务:访问必应,搜索一个你感兴趣的城市,看看搜索结果页面和其他搜索引擎有什么不同拓展阅读1:全文搜索引擎 PK 目录索引类搜索引擎与全文搜索引擎相比,目录索引有许多不同之处。 首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。 其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象Yahoo这样的超级索引,登录更是困难。此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。 最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。 目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而象 Yahoo! 这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围(注)。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。拓展阅读2:谷歌宣布退出中国后微软的行动微软公司近日对旗下搜索引擎必应(Bing)的用户界面进行了升级,软件巨头在新界面中添加了“快速标签”(Quick Tab),帮助用户更快更准确的进行搜索。微软介绍称,一项研究显示,有42%的搜索请求需要再度细化。当用 户使用搜索引擎完成一项普通任务时,需要不断增加关键词,细化搜索。而通过快速标签功能,用户则可一步完成搜索其他:例如,在计划一次旅游时,用户会关心目的地的天气、赛事与地图等信息。而这时通过必应搜索页面左侧 新添加的快速标签功能,就可以在只输入当地地名的情况下,通过一次点击了解各种信息。拓展阅读3:百度、Google的名称由来Google是英文单词Googol按照通常的英语拼法改写而来的。Googol是一个大数的名称,他是10的100次方,表示1后面跟100个零。Google公司采用这个词显示了公司想征服网上无穷无尽资料的雄心。Google公司没有采用Googol可能是因为版权的问题,而且当他们注册G的时候,G已经被注册。 Google 使用这一术语体现了公司整合网上海量信息的远大目标。详细众里寻她千百度,蓦然回首,那人却在灯火阑珊处此乃“百度”二字的含义。发展趋势:观看视频:1、网页预览,预见未来:有道首创“网页预览”专利技术;2、离奇的未来Google多媒体信息检索 多媒体技术、网络技术和信息数字化处理等高新技术的飞速发展,使得因特网上的多媒体数据量激增,网络信息已不再是单纯的文本信息。在多媒体数据库中,除了传统的文本和数字外,还包括图形、图像、视频、音频、动画以及各种媒体的组合。多媒体信息的内容具有丰富的内涵,每一种多媒体数据中都有一些特殊的数据,这些数据难以用字符来描述,如图像的颜色、纹理、形状,动画中的运动,声音的音调等。另外,由于多媒体形式的多元化和特征的多维性,不同的人因知识、经验的不同而有不同的理解,在很多情况下,多媒体信息无法直接用几个关键词加以描述。例如,我们现在查找歌曲,一般是通过歌手姓名、歌曲名、歌词等进行检索,而歌曲的旋律、音调、音质等难以用文字表述,这些正是基于内容的音频检索需要研究和解决的问题,以期达到更深的检索层次和更好的检索效果。目前有些音乐网站也已经有类似的目录分类检索,如音乐极限中有歌曲的心情类、状况类等的分类。专业垂直搜索引擎由于用户从事的职业有很大不同,不同用户对信息搜索也往往有自己的专业要求。综合性的搜索引擎收录各方面、各学科、各行业的信息,无关信息太多,专业垂直搜索引擎则可以解决这个问题。垂直类搜索引擎只面向某一特定的领域,专注于自己的特长和核心技术,能够保证对该领域信息的完全收录与及时更新。因此,基于专业领域的“垂直搜索引擎”开始成为搜索引擎发展的一个新趋势。垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。除了最常见的图片、音乐、视频、资讯、新闻、博客、地图、问答搜索外,还有如机票、期刊、数据等专业搜索,例如知识搜索、搜数网、去哪儿、口碑网等。阅读:知识型搜索引擎随着互联网的发展,网上可以搜寻的网页变得愈来愈多,而网页内容的质素亦变得良莠不齐,没有保证。所以,未来的搜索引擎将会朝着知识型搜索引擎的方向发展,期以为搜寻者提供更准确及适用的资料。目前,网上的百科全书如雨后春笋般发展起来;另一方面,近年来亦有不少公司尝试在搜寻方面改进,务求更符合用户的要求。当中诸如Copernic Agent之类的搜寻代理就是其中之一。维基百科全书是一部内容开放的百科全书,其目标是包含人类所有领域的知识。维基百科采用了WikiWiki技术,任何人都可以对条目进行编辑,并且这些修改都会得到完整的记录,我们相信它将在大家的无私奉献下得到不断完善。欢迎您一起参与维基百科全书的工作,自由地体会编书的乐趣,与大家分享您独到的知识和经验。百科导航:/ /提供了一些专业搜索的链接(有些已经失效),可以去了解一下。第三代搜索引擎有迹象表明,包括微软、google、IBM、雅虎等在内的搜索巨头已在研发自然语言搜索、语义搜索、人工智能搜索等第三代搜索技术,而一些新兴企业也试图借搜索技术升级换代之机争夺话语权。事实上,在使搜索引擎智能化的问题上,最大的瓶颈还不在于系统的逻辑能力和知识水平,而在于系统本身的调试。因为,逻辑推理能力可以改善,知识库可以增加,系统的协调则需要不断地试错和纠错。自主阅读:澳大利亚华人发明第三代搜索引擎 具备人工智能-搜索引擎揭秘AIsou人工智能搜索内幕搜索引擎的三个时代及第三代搜索引擎的商业前景(论点仅供参考)热点透视:(1)人肉搜索“如果你爱他,把他放到人肉搜索上去,你很快就会知道他的一切;如果你恨他,把他放到人肉搜索上去,因为那里是地狱”这句话一点也不夸张,“人肉搜索”兴起以来掀起的波澜可谓是一浪更比一浪猛,从最初的搜索“虐猫人”到最近的替奥运冠军寻父。是非热议已将“人肉搜索”推向了悬崖边, “人肉搜索”,到底是伸张正义还是网络暴力? 人肉搜索就是利用现代信息科技,变传统的网络信息搜索为人找人,人问人,人碰人,人挤人、人挨人的关系型网络社区活动,变枯燥乏味的查询过程为一人提问、八方回应,一石激起千
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 油菜种植与气候变化的适应性策略
- 牦牛养殖的智能化管理系统建设
- 工厂加工合同协议书模板
- 关节置换康复
- 2025至2030年中国塑胶温度计行业投资前景及策略咨询报告
- 2025至2030年中国土碱土霉素行业投资前景及策略咨询报告
- 2025厦门市果蔬种植基地预约生产购销合同模板
- 2025汽车销售合同范本范本
- 2025年畜牧业机械项目立项申请报告模板
- 2025年高纯锑及氧化锑项目申请报告模范
- 2025年05月四川乐山市市级事业单位公开选调工作人员44人笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 客户关系管理题库(含参考答案解析)
- 2025年中国军用电源模块市场现状分析及前景预测报告
- 汕头市潮阳区潮邑供水有限公司招聘真题2024
- 2025年北京市海淀区高三二模地理试卷(含答案)
- 江苏省无锡市梁溪区2025年中考一模语文试卷含答案
- 2024北京东城区五年级(下)期末数学试题及答案
- 私人教练健身课程安全协议
- 空调移机安装合同范本
- 药物配伍禁忌知识考题及答案
- 贵州粮食面试题库及答案
评论
0/150
提交评论