浅析各类搜索引擎之间的联系和区别.doc_第1页
浅析各类搜索引擎之间的联系和区别.doc_第2页
浅析各类搜索引擎之间的联系和区别.doc_第3页
浅析各类搜索引擎之间的联系和区别.doc_第4页
浅析各类搜索引擎之间的联系和区别.doc_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浅析各类搜索引擎之间的联系与区别摘要 internet上蕴藏着非常丰富的信息资源,但是要从浩如烟海的信息中准确、及时、方便、迅速的找到自己所需要的信息,却并不是一件容易的事情.为此应对重点网络搜索引擎的检索技术与功能作一全面的介绍.使学生在网络信息检索中选择了好的搜索引擎,才能快速、准确地找到所需要信息.本文主要对百度与google两个典型搜索引擎之间的检索技术、各自特点进行全面的比较与分析,从而得出各类搜索引擎之间的联系与区别。关键字 google 百度 搜索引擎 比较分析 Google是世界上最大的搜索引擎,通过对200多亿网页信息的整理,每天为世界各地提供1.5亿次以上的网上信息查询服务。百度是全球最大的中文搜索引擎, 拥有超过10多亿的中文网页数据库, 每天响应超过亿次的网络信息搜索请求。在这两大搜索引擎之间, 搜索的结果平均有85%的不同,因此,有网站把两者结合建立了百Google度。然而,这两大搜索引擎之间究竟有什么特点与区别,本文将根据数据加以分析、比较研究。Google与百度的特点 Google的特点 google秉持着开发“ 确解用户之意, 切返用户之需” 的“ 完美的搜索引擎” , 使得搜索方式发生了根本性变化, 在业界独树一帜, 其强大的功能与独到的特点就在于:(1) “ 网页快照” 功能。能从google服务器里直接取出缓存的网页。如果原地址打开很慢, 那么可以直接查看google缓存页面, 因为google服务器速度极快;如果原链接已经死掉或者因为网络的原因暂时链接不通, 那么可以通过google快照看到该页面信息;如果打开的页面信息量巨大, 一下子找不到关键词所在位置, 那么可以通过google快照, 因为快照中google用黄色表明关键字位置。(2) “ 单词英文解释” 功能。写英文文章的时候, 最头疼的事情就是对某个英文单词的用法不确定。现在有了google, 一切就迎刃而解了!无论你是想查找某个生词的意思还是想了解某个单词的用法, 均可使用在线词典。(3) “ 网页翻译” 功能。google提供了网页翻译功能, 虽然目前只支持有限的拉丁语、法语、西班牙语、德语与葡萄牙文, 但是不得不承认, 这是个杰出功能, 只要你点击“Translate this page ” 按钮, google为你提供了人工智能的机器翻译, 翻译出来的结果让你大致能够看得明白。(4) “ 搜索结果过滤” 功能。网络上的成人信息浩如烟海, 而且很多站点具有欺骗或者其他不良企图, 浏览者很容易掉入其中的陷阱。为此google新设立了成人内容过滤功能, 见google的设置页面,不过, 中文状态下的尚没有这个功能。(5) “ 超文本匹配分析” 功能。google的搜索引擎, 同时也分析网页内容, 它并不采用单纯扫描基于网页的文本的方式, 而是分析网页的全部内容以及字体、分区及每个文字精确位置等因素, 同时还会分析相邻网页的内容, 以确保返回与用户查询最相关的结果。(6) “ PageRank,” 技术。通过对由超过5000万个变量与20亿个词汇组成的方程进行计算,PageRank能够对网页的重要性做出客观的评价, 它并不计算直接链接的数量, 而是将从网页A指向网页B的链接解释为由网页A对网页B所投的一票, 这样会根据网页B所收到的投票数量评估该页的重要性, 提供准确率极高的搜索结果。(7)“ 图片搜索” 功能。google可以检索390000000张图片, 并称为“ 互联网上最好用的图像搜索工具” , 对中国用户而言, google的图片搜索引擎是最好的图像搜索工具。(8)“ 新闻组搜索” 功能。新闻组有详尽的分类主题, 某些主题还有专人管理与编辑, 具有大量的有价值信息。由于新闻组包含的信息实在是海量, 因此不利用工具进行检索是不大可能的。2001年google将DEJA收购并提供了所有DEJA的功能。现在, 除了搜索之外, google还支持新闻组的WEB方式浏览与张贴功能。(9) “ 目录检索” 功能, 如果不想搜索广泛的网页, 而是想找某些专题网站, 你可以访问google的分类目录。分类的网站目录一般由专人负责, 分类明确, 信息集中。(10) 其他功能。google的其他功能还包括查询电话号码、查找PDF文件、股票报价、找找谁与你链接、查找站点、查找字典释意, 等等。 百度的特点 百度致力于倾听、挖掘与满足中国网民的需求, 秉承“ 用户体验至上” 的理念, 除网页搜索外, 还提供MP3、文档、地图、传情、影视等多样化的搜索服务, 将无数网民头脑中的智慧融人了搜索, 使“百度一下” 已经成为了人们进行搜索的新动词。其独有的功能与特点就在于:(1)“ 百度快照” 功能。如果无法打开某个搜索结果, 或者打开速度特别慢, “ 百度快照” 能帮您解决。每个被收录的网页, 在百度上都存有一个纯文本的备份, 称为“ 百度快照” 。由于百度速度较快, 您可以通过“ 快照” 快速浏览页面内容。(2)“ 相关搜索” 功能。搜索的结果不佳, 有时候是因选择的查询词不妥当。您可以通过参考别人的做法来获得一些启发。百度的“ 相关搜索” ,就是与您的搜索很相似的一系列查询词。(3)“ 拼音提示” 功能。如果只知道某个词的发音, 却不知道怎么写, 或者嫌某个词拼写输入麻烦, 这时百度拼音的提示能够帮您解决。只要您输人查询词的汉语拼音, 百度就能把最符合要求的对应汉字提示出来。它事实上是一个无比强大的拼音输人法。(4)“ 错别字提示” 功能。由于汉字输人法的局限性, 在搜索时经常会输人一些错别字, 导致搜索结果不佳, 这是百度会给出错别字纠正提示。错别字提示显示在搜索结果上方。(5)“ 英汉互译词典” 功能。百度在线英汉互译词典, 你随便输人一个英语单词, 或者输人一个汉字词语, 点击结果页上的“ 词典” 链接, 就可以得到高质量的翻译结果。百度在线词典不但能翻译普通的英语单词、词组、汉字词语, 甚至还能翻译常见的成语, 具有直接使用英汉互译功能。(6)“ 计算器与度量衡转换” 功能。百度网页搜索内嵌的计算器功能, 则能快速高效解决你的计算需求, 你只需简单的在搜索框内输人计算式,回车即可看到计算式的结果。百度的搜索框中, 你也可以做度量衡转换, 当你输人:换算数量换算前单位=?换算后单位, 回车即可得到换算的结果。(7)“ 专业文档搜索” 功能。百度具有很好的office文档、Adobe PDF文档、RTF文档进行了全文搜索。只要你在普通的查询词后面, 加一个“ filetype” 与文档类型限定。就可快速查看该文档的网页格式内容。你也可以通过百度文档搜索界面而功, 直接使用专业文档搜索功能。(8)“ 股票、列车时刻表与飞机航班查询”功能。你在百度搜索框中输人股票代码、列车车次或者飞机航班号, 就能直接获得相关信息。例如, 输人股票代码“ 600001” , 搜索结果上方, 就显示邯郸钢铁的股票实时行情。(9)“ 天气查询” 功能。百度可以随时查询天气预报, 只要你在百度搜索框中输人你要查询的城市名称加上天气这个词, 您就能获得该城市当天的天气情况。百度支持全国多达400多个城市与近百个国外著名城市的天气查询。(10)“ 超链分析” 技术。百度将传统情报学中的引文索引技术同web中最基本的链接技术相结合, 通过分析链接网站的多少来评价被链接的网站质量, 使得在百度搜索时, 越受用户欢迎的内容排名越靠前. 两大搜索引擎的相关特点折射出各类搜索引擎的联系。它们都有自己服务理念与目标,都有强大的功能为用户服务,并打造自身的技术特点与专长。为用户不断提供优秀的服务质量,并完善自身的技术与不足,吸引用户的使用与得到信赖,不断发展。google与百度检索技术分析评价一个搜索引擎的质量, 就需要对检索结果进行比较分析, 为此有必要对google与百度从更新时间、响应速度、查全率、检准率、文档搜索等方面进行比较分析。(1) 规模、内容及更新时间 google多为月更新, 有部分日更新或时更新,搜索范围涵盖了世界各地的网页, 网页数达200多亿。百度平均为周更新, 中文信息大部分时更新,有超过10多亿中文网页, 9千万张图片, 拥有目前世界上最大的中文信息库, 并且还在以每天几十万页的速度快速增长, 涵盖了中国内地、港澳台、新加坡等华语地区及北美、欧洲部分网站。(2)搜索响应的速度 google有1.5万台服务器, 200多条T3级宽带, 索引功能通过索引库 与排序器来实现。百度在中国各地与美国均设有服务器, 高效的搜索算法与本地服务器保证最快的响应速度。 为了测试google与百度的响应速度, 笔者任意抽取了5个搜索词进行检索, 其结果是google的平均响应时间小于0.13秒, 百度的平均响应时间小于0.06秒(参见:搜索响应时间统计表), 百度的搜索响应的速度要快于google。 搜索响应时间统计衰 搜索词 google 百度 李文红 393000条 0.23秒 888000 0.001秒 信息组织学 1160条 0.05秒 308000 0.089秒 美对台军售 770000条 0.22秒 88300条 0.082秒 新农村文化建设 4560000条 0.07秒 525000条 0.001秒 网络信息资源检索 3850000条 0.06秒 27300条 0.125秒 平均响应时间 0.13秒 0.06秒 (3)资源查全率 google收取了大概200亿的英文搜索页面,互联网上总的英文网页的数量大概在300亿左右,google已经覆盖了英文网页数据量的60%到70%,在这个条件下, 所以它的用户满意度能达到60%到70%。互联网上中文网页有效数量大致在100到150亿之间, 而百度与收录的文网页量都在40亿到50亿之间, 因而, 百度与google的中文网络资源查全率一般只能达到任30一40%。对西方网络信息资源查全率进行研究, 百度与google同样无与伦比。(4)网络信息资源检准率 检准率是衡量网络信息检索质量的标准, 也是网络信息检索的一个突出问题。搜索引擎的检准率体现在两个方面, 一是搜索引擎对垃圾网页的抗干扰能力, 二是搜索引擎对检索结果的排序能力, 它主要取决与搜索引擎采用的排序算法的优劣。(5) 文档搜索应用 在互联网上除了网页资源外, 还如PDF,DOC,RTF,xls,PPT(S)等文档文件, 这些文档通常会包含一些重要的资料, 所以对这一部分网络信息资源的挖掘与利用, 也是搜索引擎的一个重要功能, 它也是衡量一个搜索引擎完整与否, 成熟与否的重要指标。 Google综合起来看是比百度要强大一些,各类搜索引擎之间的技术决定了搜索引擎公司的强大与否。结语通过google与百度二个无论从搜索的质量与数量都是世界一流的搜索引擎,能看出各类搜索引擎速度都非常迅速,它们在更新时间与搜索的速度上有着差别,在数据库规模、涵盖范围与检准率, 以及网络信息查全率上因各自的技术不同也有着差别。但是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论