计算机网络专业毕业论文 Microsoft Word 文档.doc_第1页
计算机网络专业毕业论文 Microsoft Word 文档.doc_第2页
计算机网络专业毕业论文 Microsoft Word 文档.doc_第3页
计算机网络专业毕业论文 Microsoft Word 文档.doc_第4页
计算机网络专业毕业论文 Microsoft Word 文档.doc_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南昌航空大学自考本科毕业论文南昌航空大学Nanchang Hangkong University毕业论文题目 _搜索引擎原理及发展趋势_ 学院 _江西工业工程职业学校 _ 专业 _计算机网络_姓名 周文飞_学号 036811100078 指导老师 李国忠_职称_ _2012_年_5_月_5_ 日_目 录第一章 搜索引擎的概述 31.1 搜索引擎 31.2 搜索引擎的发展史 3第二章 搜索引擎基本常识 92.1 搜索引擎工作原理 92.2 搜索引擎分类 92.3 全文搜索引擎 10第三章 使用搜索引擎 的一些基本规则和技巧 123.1 搜索引擎的一些基本规则 123.2 搜索引擎的一些基本技巧 12第四章 搜索引擎的评测 164.1搜 索 引 擎缺陷 164.2搜索速度 16第五章 搜索引擎的未来发展动向及趋势 185.1搜索引擎的未来发展动向 185.2搜索引擎趋势 19结束语 23致 谢 24参考文献 25第 一 章 搜 索 引 擎 的 概 述1.1 搜 索 引 擎搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表。搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表。1.2 搜 索 引 擎 的 发 展 史互联网发展早期,以雅虎为代表的网站分类目录查询非常流行。网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。用户查询时,通过一层层的点击来查找自己想找的网站。也有人把这种基于目录的检索服务网站称为搜索引擎,但从严格意义上讲,它并不是搜索引擎。 1990年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出Archie。当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。 起源所有搜索引擎的祖先,是1990年由Montreal的McGill University三名学生(Alan Emtage、Peter Deutsch、Bill Wheelan)发明的Archie(Archie FAQ)。Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。 由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。 发 展(1)Excite 的历史可以上溯到1993年2月,6个Stanford University(斯坦福大学)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。到1993年中,这已是一个完全投资项目,他们还发布了一个供webmasters在自己网站上使用的搜索软件版本,后来被叫做Excite for Web Servers。 注:Excite后来曾以概念搜索闻名,2002年5月,被Infospace收购的Excite停止自己的搜索引擎,改用元搜索引擎 Dogpile 发 展(2)1994年4月,斯坦福大学的两名博士生,美籍华人杨致远和David Filo共同创办了Yahoo!。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。 注:Yahoo以后陆续有 Altavista、Inktomi、Google提供搜索引擎服务 Yahoo!几乎成为20世纪90年代的因特网的代名词。 发 展(3)1995年,一种新的搜索引擎形式出现了元搜索引擎(Meta Search Engine)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。 第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜索引擎概念上非常好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。 发 展(4)智能检索的产生:它利用分词词典、同义词典,同音词典改善检索效果,进一步还可在知识层面或者说概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典检索处理形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。 例: (1)查询“计算机”,与“电脑”相关的信息也能检索出来; (2)可以进一步缩小查询范围至“微机”、“服务器”或扩大查询至“信息技术”或查询相关的“电子技术”、“软件”、“计算机应用”等范畴; (3)还包括歧义信息和检索处理,如“苹果”,究竟是指水果还是电脑品牌,“华人”与“中华人民共和国”的区分,将通过歧义知识描述库、全文索引、用户检索上下文分析以及用户相关性反馈等技术结合处理,高效、准确地反馈给用户最需要的信息。 发 展(5)个性化趋势是搜索引擎的一个未来发展的重要特征和必然趋势之一。一种方式通过搜索引擎的社区化产品(即对注册用户提供服务)的方式来组织个人信息,然后在搜索引擎基础信息库的检索中引入个人因素进行分析,获得针对个人不同的搜索结果。自2004年10月yahoo推出myweb测试版,到11月a9推出个性化功能,到2005年Googlesearchhistory基本上都沿着一条路子走,分析特定用户的搜索需求限定的范围,然后按照用户需求范围扩展到互联网上其他的同类网站给出最相关的结果。另外一种是针对大众化的,Google个性化搜索引擎,或者yahooMindSet,或者我们都知道的前台聚类的vivisimo。但是无论其中的哪一种实现方式,即Google的主动选择搜索范围,还是yahoo,vivisimo的在结果中重新组织自己需要的信息,都是一种实验或者创想,短期内无法成为主流的搜索引擎应用产品。 发 展(6)网格技术(great global grid):由于没有统一的信息组织标准对网络信息资源进行加工处理,难以对无序的网络信息资源进行检索、交接和共享乃至深层次的开发利用,形成信息孤岛。网格技术就是要消除信息孤岛实现互联网上所有资源的全面连通。 国全球信息网格(Global Information Grid) Robot(机器人)一词对编程者有特殊的意义。Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程序像蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider程序。 1993年Matthew Gray开发了 World Wide Web Wanderer,这是第一个利用HTML网页之间的链接关系来检测万维网规模的“机器人(Robot)”程序。开始,它仅仅用来统计互联网上的服务器数量,后来也能够捕获网址(URL)。 1994年4月,斯坦福大学(Stanford University)的两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。雅虎于2002年12月23日收购inktomi,2003年7月14日收购包括Fast和Altavista在内的Overture,2003年11月,Yahoo全资收购3721公司。 1994年初,华盛顿大学(University of Washington )的学生Brian Pinkerton开始了他的小项目WebCrawler。1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。 1994年7月,卡内基梅隆大学(Carnegie Mellon University) 的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。 1994年底,Infoseek正式亮相。其友善的界面,大量的附加功能,使之和Lycos一样成为搜索引擎的重要代表。 1995年,一种新的搜索引擎形式出现了元搜索引擎(A Meta Search Engine Roundup)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理,提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。 1995年12月,DEC的正式发布AltaVista。AltaVista是第一个支持自然语言搜索的搜索引擎,第一个实现高级搜索语法的搜索引擎(如AND、 OR、 NOT等)。用户可以用AltaVista搜索新闻组(Newsgroups)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索Java applets、搜索ActiveX objects。AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。AltaVista最有趣的新功能之一,是搜索有链接指向某个URL的所有网站。在面向用户的界面上,AltaVista也作了大量革新。它在搜索框区域下放了“tips”以帮助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能。这系列功能,逐渐被其它搜索引擎广泛采用。1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的。 1995年9月26日,加州伯克利分校助教Eric Brewer、博士生Paul Gauthier创立了Inktomi,1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前。声称每天能抓取索引1千万页以上,所以有远超过其它搜索引擎的新内容。HotBot也大量运用cookie储存用户的个人搜索喜好设置。 1997年8月,Northernlight搜索引擎正式现身。它曾是拥有最大数据库的搜索引擎之一,它没有Stop Words,它有出色的Current News、7100多出版物组成的Special Collection、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。 1998年10月之前,Google只是斯坦福大学(Stanford University)的一个小项目BackRub。1995年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。Google以网页级别(Pagerank)为基础,判断网页的重要性,使得搜索结果的相关性大大增强。Google公司的奇客(Geek)文化氛围、不作恶(Dont be evil)的理念,为Google赢得了极高的口碑和品牌美誉。2006年4月,Google宣布其中文名称“谷歌”,这是Google第一个在非英语国家起的名字。 Fast(Alltheweb)公司创立于1997年,是挪威科技大学(NTNU)学术研究的副产品。1999年5月,发布了自己的搜索引擎AllTheWeb。Fast创立的目标是做世界上最大和最快的搜索引擎,几年来庶几近之。Fast(Alltheweb)的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。(2003年2月25日,Fast的互联网搜索部门被Overture收购)。 1996年8月,sohu公司成立,制作中文网站分类目录,曾有“出门找地图,上网找搜狐”的美誉。随着互联网网站的急剧增加,这种人工编辑的分类目录已经不适应。sohu于2004年8月创建独立域名的搜索网站“搜狗”,自称“第三代搜索引擎”。 Openfind 创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。2002年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累计抓取网页35亿,开始进入英文搜索领域。 2000年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。2001年8月发布百度搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。 Baidu搜索引擎的其它特色包括:百度快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。2002年3月闪电计划(Blitzen Project)开始后,技术升级明显加快。后推出贴吧、知道、地图、国学、百科、文档、视频、博客等一系列产品,深受网民欢迎。2005年8月5日在纳斯达克上市,发行价为USD 27.00,代号为BIDU。开盘价USD 66.00,以USD 122.54收盘,涨幅353.85%,创下了5年以来美国股市上市新股当日涨幅最高纪录。 2003年12月23日,原慧聪搜索正式独立运做,成立了中国搜索。2004年2月,中国搜索发布桌面搜索引擎网络猪1.0,2006年3月中搜将网络猪更名为IG(Internet Gateway) 。 2005年6月,新浪正式推出自主研发的搜索引擎“爱问”。2007年起,新浪爱问使用google搜索引擎。 2007年7月1日 全面采用网易自主研发的有道搜索技术,并且合并了原来的综合搜索和网页搜索。有道网页搜索、图片搜索和博客搜索为网易搜索提供服务。其中网页搜索使用了其自主研发的自然语言处理、分布式存储及计算技术;图片搜索首创根据拍摄相机品牌、型号,甚至季节等高级搜索功能;博客搜索相比同类产品具有抓取全面、更新及时的优势,提供“文章预览”,“博客档案”等创新功能。互联网发展早期,以雅虎为代表的网站分类目录查询非常流行。网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。用户查询时,通过一层层的点击来查找自己想找的网站。也有人把这种基于目录的检索服务网站称为搜索引擎,但从严格意义上讲,它并不是搜索引擎。 1990年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出Archie。当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。 起源所有搜索引擎的祖先,是1990年由Montreal的McGill University三名学生(Alan Emtage、Peter Deutsch、Bill Wheelan)发明的Archie(Archie FAQ)。Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。 由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。 第 二 章 搜 索 引 擎 基 本 常 识 2.1 搜 索 引 擎 工 作 原 理搜索引擎的原理,可以看做三步:从互联网上抓取网页建立索引数据库在索引数据库中搜索排序。 从互联网上抓取网页 。利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。 建立索引数据库 由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。 在索引数据库中搜索排序 当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。 最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。 搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。 互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。 你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的内容。你也应该有这个概念:如果搜索引擎的网页索引数据库里应该有而你没有搜出来,那是你的能力问题,学习搜索技巧可以大幅度提高你的搜索能力。2.2搜 索 引 擎 的 分 类搜索引擎按其工作机制可分为3种:全文搜索、分类目录搜索和元搜索。全文搜索与分类目录搜索最大的不同在于信息获取的方式,全文搜索引擎使用网络机器人(Spider)或网络蜘蛛(crawlers)来抓取并分析网页。分类目录搜索使用人工抓取和整理内容。全文搜索引擎抓取网页数量大,但缺乏准确性。分类目录提供的内容有限,但内容质量较好,可信度高。全文搜索引擎的代表网站是Google、百度等,分类目录的代表网站是DMOZ等ODP(Open Directory Project)网站。元搜索是整合了多个搜索引擎的搜索结果,在一个界面提供给用户,严格意义上说不算是搜索引擎,如图20.2所示。图20.2 元搜索引擎界面2.3 全 文 搜 索 引 擎1.全文搜索引擎的工作原理全文搜索引擎主要利用网络机器人或网络蜘蛛按IP段检查各个网际上的主机,如果发现有新的网站就开始抓取网站内容,被抓取的网页存放在搜索引擎的网页数据库中,搜索引擎通过特殊的分析机制,提取网页的有效信息和文本段存放于索引数据库中,同时提取页面链接存入搜索引擎的链接数据库中。网络机器人或网络蜘蛛会不定期地检查链接数据库中的链接,如果发现新内容便重新抓取网页内容,如发现链接失效,就删除失效链接,同时更新检索数据库。链接数据库会判断网页的外部链接等信息,通过特定算法形成网页排名,并发送给索引数据库。用户无论通过计算机、手机或PDA等任意一个可访问互联网的终端,只要进入搜索引擎,输入要查询的关键字,搜索引擎将自动从索引数据库中提取有效信息,按网页排名优先级将搜索结果反馈第三章 使用搜索引擎的一些基本规则和技巧3.1 搜索引擎的一些基本规则互联网在快速发展中,搜索引擎的种类在不断增多,其搜索功能也在不断强大。在信息爆炸时代,学会用好任何一种搜索引擎都会为你的网上遨游节省很多时间,及时找到你想要的为你带来无穷乐趣。下面以中文最大的搜索引擎“百度”为例,介绍几种常见的搜索技巧。为什么百度搜索引擎采用“百度”这个名字百度的名字就是来源于“众里寻他千百度,蓦然回首,那人却在灯火阑珊处” 百度(B,Inc)于1999年底成立于美国硅谷,它的创建者是资深信息检索技术专家、超链分析专利的唯一持有人百度总裁李彦宏,及其好友在硅谷有多年商界成功经验的百度执行副总裁徐勇博士。 百度是目前全球最优秀的中文信息检索与传递技术供应商。中国所有提供搜索引擎的门户网站中,超过80%以上都由百度提供搜索引擎技术支持,现有客户包括新浪、腾讯、263、21cn、上海热线、广州视窗、新华网、北方时空、西部时空、重庆热线、吉林信息港、大庆信息港、东方热线、湖南信息港、南阳信息港、顺德信息网。 百度搜索引擎由四部分组成:蜘蛛程序、监控程序、索引数据库、检索程序。 门户网站只需将用户查询内容和一些相关参数传递到百度搜索引擎服务器上,后台程序就会自动工作并将最终结果返回给网站。 百度搜索引擎使用了高性能的“网络蜘蛛”程序自动的在互联网中搜索信息,可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息。百度在中国各地和美国均设有服务器,搜索范围涵盖了中国大陆、香港、台湾、澳门、新加坡等华语地区以及北美、欧洲的部分站点。百度搜索引擎拥有目前世界上最大的中文信息库,总量超过6亿页以上,并且还在以每天几十万页的速度快速增长。3.2 搜索引擎的一些基本技巧百度产品网页搜索高级搜索 1. 减除无关资料:要搜寻关于“武侠小说”,但不含“古龙”的资料,可使用如下查询:“武侠小说 - 古龙”。 2. 并行搜索:要查询图片或写真相关资料,无须分两次查询,只要输入“图片 | 写真”搜索即可。百度会提供跟|前后任一关键词相关的网站和资料。 3. 相关检索:如果您无法确定输入什么关键词才能找到满意的资料,可以请先输入一个简单词语搜索,百度会在搜索结果页面的底部为您提供“相关搜索”做参考,这些“相关搜索”是基于其它用户使用的关键词而为您制作的。 4. 百度快照:当某个搜索结果中的某个网站不能打开时,百度快照能为您很好的解决这个问题。 百度快照功能在百度的服务器上保存了几乎所有网站的大部分页面,使您在不能链接所需网站时,百度为您救急,并且通过百度快照能够提高您的搜索效率。 因为: 百度快照的服务稳定,下载速度极快,您不会再受死链接或网络堵塞的影响; 在快照中,您的关键词均已用不同颜色在网页中标明,一目了然; 点击快照中的关键词,还可以直接跳到它在文中首次出现的位置,使您浏览网页更方便。 5. 在指定网站内搜索 搜索“葡萄酒 site:” 则可仅在网站内搜索和“葡萄酒”相关的信息; 搜索“旅游 site:”则表示在域名以“”结尾的网站内搜索和“旅游”相关的信息。 注意:关键词与“site:”之间须留一空格隔开;site后的冒号:可以是半角:也可以是全角:,百度搜索引擎会自动辨认。site:后不能有http:/前缀或/后缀,网站频道只局限于频道名.域名方式,不能是域名/频道名方式。 6. 在标题中搜索 搜索“intitle:南瓜饼”将搜索网页标题中含有“南瓜饼”的网页; 搜索“intitle:葡萄酒”将搜索网页标题中含有“葡萄酒”的网页。 7. 在url中搜索 搜索“inurl:mp3”将搜索网页网址中含有“mp3”的网页; 搜索“inurl:wine tour”将搜索网页网址中含有“wine”和“tour”的网页。 8. 高级搜索框:百度高级搜索功能可以使您更轻松地自己定义要搜索的网页的时间、地区,语言、关键词出现的位置、以及关键词之间的逻辑关系等。高级搜索功能将使百度搜索引擎功能更完善,使用百度搜索引擎查找信息也将更加准确、快捷。 9. 个性设置:您可以在个性设置中,定制您喜欢的搜索结果样式:搜索结果10条、20条还是50条结果?喜欢在新窗口打开网页还是在同一窗口打开?是否在百度网页搜索结果中显示相关的新闻?完成设置后,您再次进入百度进行搜索时,百度会按照您所设置偏好为您提供个性化百度搜索。 10.多文档查询:除一般网页外,您现在在百度还可以搜索PDF、DOC、XLS、PPT、RTF等文档文件。虽然这些文件不象 HTML 文件那样多,但这些文件通常会包含一些别处没有的重要资料,如研究报告、论文等。 如果某个搜索结果是文档文件而不是网页,它的标题前面会出现以蓝色字体标明的如 【PDF】。单击 【PDF】 右侧的标题链接就可以通过启动相关程序访问这个文档。如果您的计算机没有安装相应软件,可以通过访问下面的html浏览专业文档的文本内容。 如果您只想查找某个特定类型文件中的资料,而不要一般网页,只需在搜索关键词后边加上 “filetype: 文档类型”即可。百度支持的文档类型包括pdf,doc,xls,ppt,rtf,all。其中的“all”表示搜索百度所有支持的文档类型。 例: “可行性 报告 filetype:pdf” 在所有的pdf文件中搜索有关可行性报告的资料 “读后感 filetype:doc” 在所有word的doc文件中搜索有关读后感的资料 “统计表 filetype:xls” 在所有excel 的xls文件中搜索有关统计表的资料 “经济学 filetype:ppt” 在所有ppt文件中搜索有关经济学的资料 “教案 filetype:rtf” 在rtf文档中搜索有关教材的资料 “史记 filetype:all” 在所有pdf、doc、xls、ppt、rtf文档中搜索有关史记的资料 同时filetype:语法还可以和其他语法混合使用如: “intitle:论文 filetype:pdf” 表示在所有PDF文件中搜索标题中含有论文的资料。 “site: filetype:doc”表示搜索所有(北京大学网站)中的word文件。 11. 计算器功能 百度为您提供的常用计算器功能全面贴近用户使用习惯,无论多么复杂的混合计算公式和度量衡换算,只需一次输入便可准确获得计算结果。 点击这里获得更多计算器帮助信息:/search/cal_help.html 12股票查询 最权威的信息,最直观的行情,最便捷的操作股票行情一触即发!百度提供的股票价格和股市行情来自和讯财经,贴近股民的查询方式使您瞬间掌握实时的大盘股票信息。 例如:查询青岛啤酒的股票行情,您可以进行如下操作: 您可以在百度搜索框内,直接输入股票代码“600600”,即可得到该支股票的价格和成交股数信息。 您也可以输入“STOCK: 股票代码 (或股票简称、股票拼音简写)”,便可以得到该支股票的价格和成交股数信息 13词典查询 百度在线词典不仅支持强大的英汉、汉英单词互译功能,更提供常见中文成语的智能翻译。常用释义、语法、句法一览无余! 只需在百度搜索框中输入您查询的词语,百度词典就会自动辨别您的需求并在搜索结果页面的搜索框的上面出现词典的链接,你只需点击即可得到该词语的翻译结果。 14. 列车航班查询:百度提供列车/航班时刻查询,搜索列车车次/航班号,即可查询该列车/航班时刻了,如:“T109”、“CA1107”更多百度搜索技巧,请看百度帮助:/search/jiqiao.html搜索引擎框里的文字(搜索记录)如何清除?1 自定义删除(即想删除哪条历史记录就删除哪条) 在百度搜索网页里的搜索栏中,点击鼠标左键两次,会出现以前搜索过的历史记录。然后用鼠标指向你想要删除的历史记录(注意:是指向,不要点击),这时这条历史记录会深色显示,再点击DEL键,就可以删除这一条历史记录了。这种方法你可以随心所欲,想删哪条都可以。 2 完全删除法 在桌面用鼠标右键点击IE图标,再点属性。选上面的“内容”按钮。再点下面的“自动完成”按钮。然后点击“清除表单”,就可以把以前的所有历史记录删掉。如果想以后也把录用的内容不留历史记录,则把“表单”前面的勾去掉。 3 用修复工具,比如上网助手 搜索引擎的概念 搜索引擎是指以一定的策略搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。从使用者的角度看,搜索引擎提供一个包含搜索框的页面,在搜索框输入词语,通过浏览器提交给搜索引擎后,搜索引擎就会返回跟用户输入的内容相关的信息列表。互联网发展早期,以雅虎为代表的网站分类目录查询非常流行。网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。用户查询时,通过一层层的点击来查找自己想找的网站。也有人把这种基于目录的检索服务网站成为搜索引擎,但从严格意义上,它并不是搜索引擎。 搜索引擎的工作原理 可以分为三个部分 1、抓取网页每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。 2、处理网页搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。 3、提供检索服务用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。第 四 章 搜 索 引 擎 的 评 测4.1 搜 索 引 擎缺陷们先分析一下几个重要评测要素的能力缺陷:一:查全率 既然是搜索引擎,首先比搜索范围是天经地义的事,如果这条不及格,后边的评测好象也不用参加了。由于收录网页的数量都是各搜索引擎自己宣布的,未可全信,而同一个关键词的搜索结果却是显而易见的,所以一般的评测都以这个为准。 但以这个为准还是有很多毛病,多数象样一点的搜索引擎我都可以找出一批关键词来证明它的搜索结果是最全的。因为网页索引数量虽然有大小,但robot和spider程序不同,索引范围和索引标准也不尽相同,在最大的搜索引擎上搜不到的有可能在小得多的搜索引擎上搜到。 有的搜索引擎支持“的,about,了,of,啊,么”等虚词助词搜索,有的不支持,这又如何来比?哪次评测提到过? 关键词除了内容难选择,在长短上也不好定。有的搜索引擎完全不支持单个汉字搜索,怎么算它?一般都只比较单关键词搜索,而多关键词的搜索呢?长句的搜索呢?甚至有搜索引擎能支持任意文章或片段作为关键词,这样比较出来的结果跟单关键词搜索出来的可是不一样的,更别提没法比的功能了。象excite这样语义搜索的引擎,还有支持模糊搜索的引擎,别的搜索引擎搜索结果极少甚至为零的关键词它们可以搜出一大堆结果,这又如何比较? 最后一点,搜索引擎是可以针对特定的关键词进行结果优化的,评测的公正性谁来保证?如果其中某个被评测搜索引擎事先知道所用的关键词,那么只要轻松优化一下,冠军就非它莫属了。 4.2搜索速度二:搜索速度 比完了查全率,就该比搜索速度了,如果有搜索引擎索引的网页虽多,但是搜索一次要五、六秒或更长,直接请它出局吧,没有比下去的意义了。 速度的问题首先还是在关键词,单关键词搜索快的不一定多关键词搜索快。然后是访问量的问题,对一个日访问量一亿以上的搜索引擎和一个日访问量几万的搜索引擎作同样的测试本身已是不公平。 还有网页索引数量的问题,一个搜索引擎索引了10亿的网页,另一个搜索引擎索引了一千万的网页,让它们对同一个关键词在各自的数据库里搜索比搜索速度,这样的结果如何让人信服? 除了事先优化的问题外,有的搜索引擎本就具有记忆搜索结果加速调用的能力,一个关键词哪怕第一词搜索花了10秒,第二次搜索也许就2秒了,第三次,第四次,到你去测试的时候已经永远是0.0001秒了。这样,如果你选常见词测试,它快得惊人,如果来个偏僻词,也许老半天出不来,到底该选什么关键词?常用和偏僻各占多少?这真是一笔糊涂帐。 搜索引擎不是放在实验室的本地机上测试用的,而是给普通网友用的,所以这搜索时间应该还包括搜索界面和搜索结果的传输过程在内。一个搜索引擎搜索时间花了0.0001秒,但是传输结果网页花了3秒,另一个搜索花了0.5秒,但是传输网页结果花了一秒,你说哪个搜索引擎算快?真正用的时候,你选那个3.0001秒以后看到搜索结果的还是1.5秒以后看到搜索结果的? 三:查准率 这个相当重要,搜到的东西即使又多又快,但你想要的那条结果不知道要翻多少页才能找到,那这搜索结果要来何用?这样的搜索引擎只有在查稀罕东西时才有用,但是要查稀罕东西应该去元搜索引擎呀,干吗要用它?查准率的评价标准很难定,得看你查什么,你要查一个特定的网站和找一群相似网站根本就是两回事。查准率的关键还是在于要搜什么和选择什么关键词,评测人可以随意定夺的,然后影响到评测结果的可靠性。 四:死链接普通搜索引擎总有些搜索结果是点不进去的,少到百分之一二,多到百分之八九,这个也常被用作评测条件之一。但是象google使用了网页快照功能,几乎不存在死链接问题,就算搜索结果中的那个网站已关闭,你还是可以看到google自己储存的网页。这种死链接怎么计算? 五:用户负担还没见过国内搜索引擎评测有谁用过这一项,但它是评价搜索引擎优劣的重要因素,包括很多方面。搜索引擎是给人用的,一定要让人用得舒服方便快捷,任何妨碍和延迟用户到达最终搜索结果的都算用户负担。 首先是搜索界面,一个只有搜索框的纯粹搜索引擎界面跟一个带有广告和大量网页内容的门户相比,它们带给用户的搜索负担是高下立判的。 其次是搜索结果描述,搜索结果网页的文字描述是长还是短,网页文字描述采用索引带关键词的部分还是索引网页的开始几行还是索引网页的主要内容,关键词是否高亮显示又采用什么颜色,是否显示网页地址,还有搜索结果页面的布局,这些对于用户的搜索负担区别大大的有。 再者就是对用户操作步骤的影响,是否可以用鼠标启动搜索,搜索结果每页显示数量是否只有10条,翻页的便捷与否,搜索框是两个还是一个,放在上边还是下边,一次搜索后关键词是否还在搜索框中显示,这些每一条都会影响搜索效率。 六:其它还有 是否支持本目录下搜索, internet索引数据库更新时间长短, 搜索引擎的稳定性, 对高级搜索的支持能力强弱等也应该加以评测。 一个人想得不一定周到,可能还有其它重要评测要素没被我提及,网友若想到,望告知。看到这里,大家对目前常用搜索引擎评测方法的局限性一定有所了解了,当然最可笑的是,不知是无知还是猫腻还是选择标准比较特别,有的中文搜索引擎评测今年才做竟然没有包括google ,就好象排一长串小提琴名人却漏了帕格尼尼,呵呵。 评测搜索引擎实在是件很难的事。第五章 搜索引擎的未来发展动向及趋势5.1 搜索引擎的未来发展动向我们回顾一下2007年搜索引擎发展的状况。首先从全球市场来看搜索引擎市场规模持续快速增长,2007年以17.3高速增长实现了28.5亿美元的规模。市场结构来看Google继续领跑全球市场,其市场份额有所增长。搜索引擎巨头们竞争逐渐转向并购和扩张。在中国市场结构上可以看到百度、Google和雅虎依然占据前三甲,可以看到竞争格局继续提升,百度所占的份额较往年有所增长。在互联网不断走向成熟的今天, Google,百度在纳斯达克的神话,使得越来越多的人将目光投向了搜索引擎行业。同时在信息大爆炸的时代里,人们对网络信息的处理也越来越借重于许许多多的各种各样的搜索引擎。在这里,我仅仅是将几个我们较为常用的搜索引擎加以粗略的比较,希望对大家的选择和使用有所帮助。 一、Google 竞争优势:首先要讲述的就是世界搜索引擎的老大google了。Google 依据网络自身结构,清理混沌信息,缜密组织资源。Google 的搜索服务绝不仅仅是简单的信息目录。而且Google 目录中收录了 10 亿多个网址,这在同类搜索引擎中是首屈一指的。Google采用的是算法致胜的搜索模式。销售渠道方面,Google奉行代理制,这符合Google偏好技术型公司的原则,截止目前,Google在中国已经发展了7家渠道商。市场定位:google依托强大的国际背景和技术实力,定位于高端客户。他们期待更有效率的搜索,希望能在简短的时间里就能找出自己想要的信息,但也不希望其他没用的信息来扰乱他们的界面。二、百度 竞争优势:作为中文搜索引擎的老大,百度也有其及为独到的一面。其基于字词结合的信息处理方式,就相当巧妙解决了中文信息的理解问题,极大地提高了搜索的准确性和查全率。百度还支持主流的中文编码标准。百度竞价排名是指客户可以购买百度某一关键词的搜索结果排名,比如汽车,只要出得起钱,企业就可以任意改变百度搜索的排名顺序。市场定位:百度的市场定位是低端用户,采取的是一种低成本大覆盖的模式。事实上,百度为用户提供的产品并不是特别有效和精确,但对习惯

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论