信息搜索和分析技能(ISAS)专项训练.docx_第1页
信息搜索和分析技能(ISAS)专项训练.docx_第2页
信息搜索和分析技能(ISAS)专项训练.docx_第3页
信息搜索和分析技能(ISAS)专项训练.docx_第4页
信息搜索和分析技能(ISAS)专项训练.docx_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息搜索和分析技能(ISAS)训练百度搜索(网址:)百度简介百度的起名,来自于“众里寻他千百度”的灵感,它寄托着百度公司对自身技术的信心,另一层含义就是突破“事儿做到九十九度就是做到头”的西方说法,百度就是想要力争做到一百度,做到顶上开花的境界。百度拥有全球最大的中文网页库,在中国各地分布的服务器,能直接从最近的服务器上,把所搜索信息返回给当地用户,使用户享受极快的搜索传输速度。 百度每天处理来自超过138个国家超过数亿次的搜索请求,每天有超过7万用户将百度设为首页,用户通过百度搜索引擎可以搜到世界上最新最全的中文信息。2004年起,“有问题,百度一下”在中国开始风行,百度成为搜索的代名词。百度优势1.搜索引擎抓取网页并不困难,但要在所有网页中甄别优劣、去粗取精,依赖的是全面而强大的中文信息处理技术。百度中文数据库不仅最全,更是最有质量的。2.世界瞬息万变,全球第一的数据挖掘、分布式索引和检索技术与处理速度,以及大规模的工业级系统的开发,支持百度以最快的速度呈现世界新近发生的一切。3.百度一下,只需0. 1秒! 百度首页不到4K,最干净、最简洁的页面,随区域合理密布的多组服务器机群,架构于强大的网通及电信的骨干网上,可以在瞬间呈现搜索结果。4. 在百度,您能真实体验到准确无误的搜索快感。百度拥有全球第一的网页分析技术、世界上独一无二的“中文分词”技术及全球最完善的反垃圾网页技术与流程,因此,百度最为准确。 百度劣势:1.页面布局不合理 页面没有充分利用2.更新时间迅速的优势没有充分发挥3.商业味太重,你搜索的关键字的首页基本都价排名出价高的企业占据了,很难找到你需要的真正自然搜索的结果,百度的搜索排名技术不够权威;4.搜索结果中广告、垃圾网站和死链比较多百度发展前景在我们想到搜索答案的唯一性的时候,脑中会首先想到的是 “百度知道”吧,“百度知道”的诞生只是百度社区产品生产线上的一个产品而已,而百度推出这种产品的根本目的应该是吸引网民不停的点击自己的网站,只是随着搜索的发展,似乎“一不小心”进入了社会化搜索的行列,也似乎成为更有前途的产业。如果社会化搜索真的成为搜索引擎的下一个经济增长力的话,那么无疑,“百度知道”就“一不小心”成为一个“潜力股”。问题是再发展是怎样的呢?这又回到了那个很难做出回答的问题,人们上网到底想做什么?为什么做?而这可能更该是人类学或者心理学的范畴。搜索引擎只能走一步说一步了。雅虎(网址:)雅虎简介:Yahoo!起源于一个想法,随后变成一种业余爱好,最终成了使人全身心投入的一项事业。Yahoo!的两位创始人大卫费罗和杨致远,于1994年4月建立了自己的网络指南信息库,将其作为记录他们个人对互联网的兴趣的一种方式。但是不久,他们就发现他们自己编写的列表变得很长,不便于处理。于是他们开始在Yahoo!身上花费越来越多的时间。 雅虎公司是全球第一家提供互联网导航服务的网站,也是最为人熟悉及最有价值的互联网品牌之一,在全球消费者品牌排名中位居第38位。雅虎在全球共有24个网站,12种语言版本,雅虎搜索目前是国际两大顶级网页搜索引擎之一,也是全球使用最高的搜索引擎之一,具有全球第一的海量数据库。雅虎优势: 网页搜索:中国最大的网页搜索引擎,可以搜索全球190亿网页,20亿中文网页,支持38种语言。雅虎搜索网页搜索支持按照时间筛选结果,支持Doc、PPT、PDF等多种特殊格式文档检索,同时提供站内检索、网页快照、英译汉等多种特殊服务。 图片搜索:全球最大图片搜索引擎,可搜索全球20亿图片,并以每月几十万的速度增长,目前由“中文图库”和“全球图库”两部分数据库组成。雅虎搜索独有“翻译后搜索”功能:用户输入中文后,能根据用户选择将中文翻译为英文,在“全球图库”中搜索相应图片。 音乐搜索:中国最大音乐搜索引擎,可搜索到全球2000万音乐文档,能够根据用户选择进行多种格式的多媒体文档搜索。 资讯搜索:雅虎资讯搜索提供新闻全文搜索和资讯标题搜索,进一步推出向网民提供个性化定制服务的功能。用户可以定制自己感兴趣事件或人物的关键字,自行安排访问到的雅虎资讯搜索页面的内容,从而使用户更方便、更有目的查看自己感兴趣的资讯。 雅虎搜索社区:雅虎搜索社区为您提供一个表达和交流思想的自由网络空间,每一个在雅虎搜索搜索信息的人都可以在部落找到自己兴趣相同的人进行交流。 地址栏搜索:最简单有效的搜索服务,用户不必访问搜索网站,只用直接在浏览器地址栏中输入关键词即可直达网站或搜索信息。地址栏搜索,因为服务方式的简单有效,拥有巨大的使用量,是最受中国网民欢迎的搜索服务之一。 雅虎劣势:1、建立的数据库规模较小,且在某些类目下收集的文件数量有限等缺点,满足不了相应的信息需求。2、内含的自动截词功能,使得在检索中往往会出现许多不相关的文件,导致查准率降低。3、为了适应不同用户的查询或检索需求,Yahoo对相同的信息内容往往能提供不同的路径入口,并以符号“”建立相应的参照。这一方面加大了分类工作的难度,另一方面也使得其分类的一致性难以得到确切保障,所以,经常出现从某一路径入手,却无法查到Yahoo中所包含的信息内容的现象。4、待收录的网页或其它信息内容的复杂度的增加也在无形之中加大了确切分类的难度。雅虎发展前景:雅虎的搜索业务的发展前景令人质疑。雅虎目前在互联网搜索市场份额逐渐下降,Google未来有可能占据该市场80%至90%的份额。因此,雅虎未来搜索业务的增长速度不太可能超过整个市场的增长速度。而雅虎的失败,恰恰就是因为放弃了互联网的技术和创新本质,让自己几乎沦为成为传统商业攫取利益的互联网工具。在互联网领域,互联网企业再大,也是一个快公司。沉湎于过去某些方面的成功,只会走向失败。很不幸,这幕互联网的悲剧,就要在雅虎身上上演,因为,它曾经脱离的互联网的技术和创新的本质而固步自封。Google搜索(网址:)Google简介Google是由Larry Page 和 Sergey Brin 于 1998年在斯坦福大学的学生宿舍内共同开发了全新的在线搜索引擎,然后迅速传播给全球的信息搜索者。 现在其索引量已达30亿URL,成为万维网上最大的搜索引擎,它提供了简单易用的免费服务,用户可以在瞬间得到相关的搜索结果。Google是由英文单词“googol”变化而来。“googol”是美国数学家 Edward Kasner 的侄子 Milton Sirotta 创造的一个词,表示 1 后边带有 100 个零的数字。Google使用这个词代表公司想征服网上无穷无尽资料的雄心。2006年4月12日,Google公司行政总裁埃里克施密特在北京宣布该公司的全球中文名字为“谷歌”(有报道指出取义“丰收之歌”,如据此,该名的繁体中文应对应“谷歌”;不过亦有报道指出取义“山谷之歌”,如据此,该名的繁体中文则仍为“谷歌”)。 同时,Google公司于2006年2月15日在台湾地区登记之分公司取名为“美商科高国际有限公司”。“谷歌”发布不久,即遭到很多用户的批评。随后,部分中文用户发起反对“谷歌”的网上签名活动。但Google中国坚持使用“谷歌”作为正式名称。Google 的使命就是要为您提供网上最好的查询服务,促进全球信息的交流。Google 开发出了世界上最大的搜索引擎,提供了最便捷的网上信息查询方法。通过对 30 多亿网页进行整理,Google 可为世界各地的用户提供适需的搜索结果,而且搜索时间通常不到半秒。现在,Google 每天需要提供 2 亿次查询服务。当您访问 或众多 Google 域之一时,您可以使用多种语言查找信息、查看股价、地图和要闻、查找美国境内所有城市的电话簿名单、搜索数十亿计的图片并详读全球最大的 Usenet 信息存档 超过十亿条帖子。用户不必特意访问 Google 主页,也可以访问所有这些信息。使用Google 工具栏,您可以从网上的任何位置执行 Google 搜索,而 Google 桌面栏(测试版)将 Google 搜索框放在 Windows 任务栏中,这样您可以从任何正在使用的应用程序中执行搜索,不必打开浏览器。即使身边没有 PC 机时,您也可以通过 WAP 和 i-mode 手机等无线平台使用 Google。 Google 的实用性及便利性赢得了众多用户的青睐,它几乎完全是在用户的交口称颂下成为全球最知名的品牌之一的。Google优势1链接速度快,信息更新快速.2功能强大,分类查询详细.3可以供许多不同国家的人方便使用,能识别多国语言.4搜索覆盖范围广,能及时将全球的信息展现给用户. Google 目录中收录了 10 亿多个网址,这在同类搜索引擎中是首屈一指的。这些网站的内容涉猎广泛,无所不有。5Google只搜索那些与关键词相关的内容,直接有效地传递我们需要的信息6 Google搜索引擎储存网页的快照Google 储存网页的快照,当存有网页的服务器暂时出现故障时您仍可浏览该网页的内容。如果找不到服务器,Google 储存的网页快照也可救急。虽然网页快照中的信息可能不是最新的,但在网页快照中查找资料要比在实际网页中快得多。6Google有自己的核心技术。这是搜索引擎存在的必要条件,Google让人们相信,它的技术是最好的,搜索行业是一个以技术为核心的行业,判断某个com是不是搜索引擎的唯一标准是一一看它有没有自己的网页索引数据库,并且在搜索技术的其他方面,比如Google大力标榜的“pagerank”技术,Google给人的印象很深。目前看来Google做的相当成功。7它是一个商业搜索服务提供商,这样就可以降低对门户网络伙伴的依赖性,所以商业用户愿意付费。Google劣势1Google 是 Web 搜索引擎,可用性要求比较弱。Google 中对 Index 和 Web 页面数据都采用分布式存储。每台 PC 机都可能出故障,出现故障后需要一定的故障维修周期。2Google 集群耗电量巨大,占地面积大,停电是导致系统可用性降低的致命因素。另外地震、恐怖袭击等其它灾难性事故也将导致单一 Google 集群无法保证高可用性。3Google原始 Web 页面有80 多亿张,直接检索则范围太多,检索时间长。死链率比较高是Google最大的问题,4中文网站检索的更新频率不够高,不能及时淘汰已经过时的链接。5虽然通过“网页快照”功能,可以减少目标页面不存在的现象,但Google的“网页快照”功能在国内经常出现不可访问的问题,令用户无所适从。Google发展前景1)突破语言障碍 google一直在努力实现网络多语言互译,在这方面,google在自己大量全球数据资源的基础上正在研发一个更加准确、先进的机器学习及统计程序来优化google的翻译系统,希望能为实现真正“平坦”的世界而努力. 2)图书搜索 图书搜索不仅仅是为用户提供在网络中寻找自己所需的资料信息的一个通道,广义上来说,开发图书搜索是为了整合人类文明精华,为探求知识开辟捷径.google会与更多的图书馆合作伙伴和出版社合作,为提高图书搜索的质量而努力. 3)多媒体搜索 在互联网高速发展的今天,用户对多媒体搜索的需要日益增强.google近期在美国推出了一项服务就是对多媒体搜索这个领域做了小小的探索.这项服务的名字叫 Google Voice Local Search .用电话拔打 1-800-GOOG-411(在美国 411 相当于中国的 114 查号台),告诉我们你的问题,google会把搜索结果以短信的形式发给你,或者为你联通查询地的电话.这个探索的另一个意义就是通过这个搜索,我们每天可以搜集到不同的语音语料,这样为未来真正实现语音的搜索提供研究的数据准备.4)整合搜索(Universal Search) google希望能通过google的努力打破了传统的搜索引擎模式的概念,通用搜索利用智能分析和导航系统,把不同的搜索领域的结果有机整合在一个网页内,“整合”是google未来搜索发展的大方向.这样可以帮助用户一个搜索框方便的导航,同时也可以帮助众多垂直类门户真正挖掘他们的潜力,让那些不知道他们的用户快速的找到他们.5)地图及本地/生活搜索 谈到地图时,google地图对用户很有帮助.因为在地图上面,大家可以查到当时的交通状况和地理位置.6)Google人工智能化据报道,22日晚,在英国伦敦举行的一个会议上,Google公司的首席执行官埃里克施密特和创始人之一拉里佩奇向人们展示了他们正在研发的一个最具雄心的项目人工智能。佩奇说:“最终的搜索引擎将懂得所有事情,它了解你要问的任何问题,并立即给出你想得到的正确答案。你能问它:我想问佩奇什么问题呢?它会立即告诉你。”佩奇表示,他从Google的发展历程中悟出了一个道理:技术的改变能比预测的还要快,具备人工智能的搜索引擎也许在几年内就会变成现实。搜狗搜索(网址:)搜狗简介 搜狗是搜狐公司于2004年8月3日推出的全球首个第三代互动式中文搜索引擎,域名为。搜狗以搜索技术为核心,致力于中文互联网信息的深度挖掘,帮助中国上亿网民加快信息获取速度,为用户创造价值。搜狗的产品线包括了网页应用和桌面应用两大部分。网页应用以网页搜索为核心,在音乐、图片、新闻、地图领域提供垂直搜索服务,通过说吧建立用户间的搜索型社区;桌面应用则旨在提升用户的使用体验:搜狗工具条帮助用户快速启动搜索,拼音输入法帮助用户更快速地输入,PXP加速引擎帮助用户更流畅地享受在线音视频直播、点播服务。搜狗网页搜索作为搜狗最核心的产品,经过两年半持续不断地优化改进,于公元2007年1月1日正式推出3.0版本。全面升级的搜狗网页搜索3.0凭借自主研发的服务器集群并行抓取技术,成为全球首个中文网页收录量达到100亿的搜索引擎;加上每天5亿网页的更新速度、独一无二的搜狗网页评级体系,确保了搜狗网页搜索在海量、及时、精准三大基本指标上的全面领先。搜狗的其他搜索产品也各有特色。音乐搜索小于2%的死链率,图片搜索独特的组图浏览功能,新闻搜索及时反映互联网热点事件的看热闹首页,地图搜索的全国无缝漫游功能,使得搜狗的搜索产品线极大地满足了用户的需求,体现了搜狗强大的研发能力。搜狗在产品研发的过程中追求技术创新。尤其值得一提的是,搜狗以一种人工智能的新算法,分析和理解用户可能的查询意图,对不同的搜索结果进行分类,对相同的搜索结果进行聚类,在用户查询和搜索引擎返回结果的人机交互过程中,引导用户更快速准确定位自己所关注的内容。该技术全面应用到了搜狗网页搜索、音乐搜索、图片搜索、新闻搜索、地图搜索等服务中,帮助用户快速找到所需的搜索结果。这一技术也使得搜狗的问世标志了全球首个第三代互动式中文搜索引擎诞生,是搜索技术发展史上的重要里程碑。搜狗优势这里,我们对搜狗优势的分析主要是用普通用户的角度出发。可以这么说,搜狗有三大优势:网页搜索、音乐搜索和地图搜索。一、网页搜索: 历史上,搜狗就一直重视数据量的积累。但由于搜狗起步较晚,因此在2004年的8月发布的时候,数据量实际上非常小,大概只有有2亿,以致当时刚刚用搜狗搜索引擎的用户普遍反映在搜狗上有很多内容查不出来。但是,一直致力于后台技术研发和数据积累的搜狗,只用了两年时间,在2006年8月份的时候,就成功支持了50亿中文网页的查询,成为了全球首个中文网页收录量达到50亿的搜索引擎。2007年正式上线的搜狗3.0采用新的技术架构自主研发的服务器集群并行抓取技术,中文网站收录量从2006年8月的50亿猛增到100亿,已覆盖中文网页数据量的50%以上,每天的更新速度达到5亿网页。 搜狗3.0在搜索结果的排名上采用搜狗网页评级体系,不仅考察网页之间的链接关系,同时考察了链接质量、链接之间的相关性等特性,网页评级越高,该网页在搜索中越容易被检索到。此外,搜狗3.0从用户体验出发,将结果点击次数与搜索次数的比率,即点击通过率,作为评估搜索结果精准性的重要指标,进行优化,搜狗3.0网页搜索的点击通过率预计将提升10%。二、音乐搜索:我们通过比较感性的方式介绍搜狗在音乐搜索方面的优势。通过比较在百度和搜狗搜索音乐的体验,就可看出搜狗在这个领域的优势。例如当你用百度搜索“天大地大”这首歌曲时,结果有4,500条,用时0.003秒;但是文件大小良莠不齐,最大的将近5MB,最小的不足400KB,导致部分音质不佳,且存在较多死链;而且用百度搜索到的音乐只有部分提供试听,而且有的连接速度很慢。而当你用搜狗搜索同一首歌曲时,结果仅有140条,用时同为0.003秒;结果中文件大小一般都在2MB以上,整体质量较高,而且基本上全部链接都提供试听,连接的速度也较高。如果搜索的歌曲换成“only you”,在百度根本搜索不到任何结果,而在搜狗中可以搜到近千个连接。除了以上那些区别,搜狗还有一些百度没有的特色。当你在搜索一首歌曲时,在右侧会显示搜索过这首歌的人还搜索过什么歌曲,这点对于用户来说很实用,我们可以在这里找到很多同样喜爱的歌曲。搜狗的搜索结果跟百度也不一样,搜狗的搜索结果分为单曲和专辑,而百度的搜索结果只有类似搜狗的单曲。三、搜狗地图:搜狗地图正式发布“卫星影像地图”(以下简称“搜狗地图”)服务。其中搜狗号称最高分辨率达到了0.5米/像素,号称是世界商用卫星图片服务的极限。但事实上,搜狗地图的优势只是相对于国内其他搜索引擎而言。搜狗劣势一、 搜狗地图: 相对于国内,搜狗是有优势,当我们不要忘了Google的Google Earth。那么,搜狗地图和谷歌地图到底哪个产品更好用呢?我做出了一下几个对比的图。这是在武汉市随便找的一所学校。谷歌地图中,左下角的小操场里,操场跑道已经换成了塑胶+人工草坪,而搜狗地图中还是便宜的土操场武汉体育中心。正如一个CBer所说,现在武汉体育中心的附近都建起了房子,但是两图中的土地还是很多。不过这也不妨碍我们对比两个图。谷歌地图明显胜出。由上面两个例子可以看出,搜狗的卫星图更新较慢,而且不如Google的清晰。虽然话是这么说,但是在中国的区域内,谷歌地图和搜狗地图的清晰度是同等的。而且在笔者的实际使用中,搜狗地图利用地区优势,把每条街道都描述的很清晰,只要知道地址,找到某个建筑物是很简单的事。但是谷歌地图却是英文版的,虽然我们可以用有汉化的谷歌地球,但也不如搜狗地图的标示多。可以说,两款地图产品是各有千秋,搜狗地图有近乎完美的地图标识,而谷歌地图有更大的覆盖范围,而且地图要更新一些。对于不同的需要,我们可以选择不同的地图产品。在大城市旅游,我们可以选择搜狗地图。如果身在国外,那么谷歌地图就是独一无二的选择。二、知名度: 无论在国内外,搜狗的知名度都不如Google、Yahoo和百度,这造成了搜狗的流量落后于其他对手。但是随着搜狗在技术上的不断突破,相信有希望突出重围。三、用户习惯: 这也是制约搜狗的一个很重要的因素,如果有人问道为什么不用搜狗,相信很多人的答案会是:用其他用得好好的,为什么要换。确实,很多用户已经习惯了百度或者Google,如果要他们接受搜狗,这不是一天两就可以做到的。搜狗发展

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论