网络搜索引擎的实践应用研究-论文.doc_第1页
网络搜索引擎的实践应用研究-论文.doc_第2页
网络搜索引擎的实践应用研究-论文.doc_第3页
网络搜索引擎的实践应用研究-论文.doc_第4页
网络搜索引擎的实践应用研究-论文.doc_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络搜索引擎的实践应用研究-论文网络搜索引擎的实践应用研究1.3搜索引擎的检索机制61.4搜索引擎的基本工作原理61.5搜索引擎的分类8第二章 中外搜索引擎发展现状比较研究102.1国外的比较研究102.2国内的比较研究10第三章 各大搜索引擎的比较研究133.1 百度搜索引擎介绍和研究133.2 GOOGLE搜索引擎的介绍和研究133.3网易搜索引擎的介绍与研究14第四章 搜索引擎的五大问题164.1 FLASH优化164.2 内容管理系统(CMS)的优化164.3 Frames 的优化164.4 购物系统(Shopping Carts)的优化174.5 图片型索引页/主页的优化17第五章 搜索引擎的未来发展趋势195.1大型综合性的搜索引擎与小型专业专题性搜索引擎协调发展195.2查询智能化195.3制定分编网页内容的标准语言和格式并倡导实行205.4多媒体搜索引擎的发展205.5多语种检索、本土化服务205.6增加个性化服务与特色服务205.7收费型与免费型搜索引擎并存21结 束 语22参考文献83网络搜索引擎的实践应用研究摘 要: 随着科技的不断发展,搜索引擎会越来越强大,必然会成为网络用户获取信息的一个不可或缺的网络检索工具。搜索引擎技术如何发展,服务方式如何改进,宗旨始终都会是满足用户快速、准确、方便以及个性化地查找信息。提供高质量、有价值的网络信息是搜索引擎不懈的追求。网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。本文介绍了基于因特网的搜索引擎的原理、分类、中外搜索引擎的发展现状分析,并把百度和GOOGLE、网易搜索引擎进行对比,并在此基础上得出搜索引擎的未来发展趋势,希望能对国内中文搜索引擎的开发和准确、快速、全面检索WWW网络乃至因特网信息资源有所启示。关键字:搜索引擎;研究;原理;优化;发展趋势Internet Search Engines Practice of the Applied ResearchHan Linlin , Class 3 Grade 2004, Department of Computer ScienceAbstract: Along with the technical unceasing development, the search engine will be getting more and more formidable, definitely will become the network user gain information an indispensable network retrieval tool. How does the search engine technology develop, how does the service mode improve, the objective can be throughout satisfies the user fast, accurate, convenient as well as the personalized search information. Supplies, the valuable network information high grade is the search engine unremitting pursue. Network is very rich in resources, but how to trade effective search information is also a difficult task. This paper based on principles , classification of the Internet search engine and analysis the development of home and aboard search engine. And compared the GOOGLE search engine , Baidu search engine and Netease search engine ,and on this basis that a search engine for the future development trends. I hope this paper can bring Chinese search engine and the development of accurate, rapid, comprehensive network and the Internet WWW retrieval of information resources to enlightenment.Key words: search engine;research;theory; optimization; development trends网络搜索引擎的实践应用研究搜索引擎的发展是引人注目的。由于因特网上信息资源内容广泛、时效性强、访问快速、网络交互搜寻、动态更新,而且还提供快速访问网上信息资源的各种搜索引擎(Search Engines),用于快速搜索WWW网络乃至因特上的有用信息,使得通过WWW网络获取网络信息资源成为国内外研究的一大热点。基于网络的搜索引擎的研制与开发应用成为当前网络信息资源开发应用研究领域的热点。英文搜索引擎“GOOGLE”和中文搜索引擎“百度搜索”的推出,拉开了搜索引擎核心技术争夺战的序幕。可以预言,在今后一段相当长的时间里,搜索引擎还将有长足的发展和进步,检索功能将更趋向于集成化和更具亲和力、更显人性化。信息技术的不断发展,特别是互联网应用的迅速普及,深入到了人们生活的各个方面,改变了人们生活方式和思维方式,方便了全球信息资源共享。全球目前的网页超过100亿,每天新增加数百万网页,电子信息爆炸似的丰富起来。要在如此浩瀚的海洋里寻找信息,就像“大海捞针”一样。能有一种工具使我们可以在不到1秒钟的时间就迅速找到我们想要的内容吗?答案是“有”,这就是搜索引擎。今天,搜索引擎已成为人们在网络信息海洋中自如冲浪必不可少的利器。1.1搜索引擎定义搜索引擎,Search engines,又称搜索机,Web搜索器,是伴随WWW网络出现的检索网上信息资源的新工具。实质上是一种网页网址检索系统,有的提供分类和关键词检索途径,有的仅提供关键词检索途径。它根据检索规则和从其他信息服务器上得到数据并对数据进行加工处理,自动建立索引,并通过检索接口为用户提供信息查询服务,能够自动对WWW资源建立索引或进行主题分类,并通过查询语法为用户返回匹配资源的系统。搜索引擎主要是由Crawler、Spider、Worm、Robot等计算机软件程序自动在因特网上漫游,不断搜集各类新网址及网页,形成数以千万甚至上亿条记录的数据库。它是通过采集标引众多网络站点来提供全局性网络资源控制与检索机制、将全球WWW网络中所有信息资源作一完整的集合、整理和分类、方便用户查找所需信息的网络检索软件。具有检索面广、信息量大、信息更新速度快,特定主题的检索专指性强等特点。1.2搜索引擎的主要技术一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。 1.搜索器 搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。目前有两种搜集信息的策略: 从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL,但常常是一些非常流行、包含很多链接的站点(如Yahoo)。 将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。搜索器搜集的信息类型多种多样,包括HTML、XML、Newsgroup文章、FTP文件、字处理文档、多媒体信息。 搜索器的实现常常用分布式、并行计算技术,以提高信息发现和更新的速度。商业搜索引擎的信息发现可以达到每天几百万网页。 2.索引器 索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度(Link Popularity)等等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分。 在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的区分度,同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短语索引项的提取方法有统计法、概率法和语言学法。 索引表一般使用某种形式的倒排表(Inversion List),即由索引项查找相应的文档。索引表也可能要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或接近关系(proximity)。 索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时,必须实现即时索引(Instant Indexing),否则不能够跟上信息量急剧增加的速度。索引算法对索引器的性能(如大规模峰值查询时的响应速度)有很大的影响。一个搜索引擎的有效性在很大程度上取决于索引的质量。 3.检索器 检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。 检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。 4.用户接口 用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。 用户输入接口可以分为简单接口和复杂接口两种。简单接口只提供用户输入查询串的文本框;复杂接口可以让用户对查询进行限制,如逻辑运算(与、或、非;、-)、相近关系(相邻、NEAR)、域名范围(如.edu、.com)、出现位置(如标题、内容)、信息时间、长度等等。目前一些公司和机构正在考虑制定查询选项的标准。 1.3搜索引擎的检索机制搜索引擎定期自动搜寻有关Web站点、采集关于这些站点上的各类信息,自动对这些资源进行标引、编制目录和文摘,自动将这些数据整合到数据库,并能提供以Web为基础的包括布尔检索、短语或词组检索、自然语言检索和各种限制检索在内的数据检索,按相关度输出检索结果 。搜索引擎的主体部分包括了数据采集模块、数据组织模块和数据检索模块。对应地,其资源组织和检索机制包括了数据采集标引机制、数据组织机制和用户检索机制,见图1-1。 ,网络搜索引擎的实践应用研究论文免费, 网络搜索引擎的实践应用研究图1-1 搜索引擎的检索机制示意图1.4搜索引擎的基本工作原理全文搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。它为保证采集的资料最新,还会回访已抓取过的网页。网络机器人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。我们平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。不同的搜索引擎,网页索引数据库不同,排名规则也不尽相同,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽相同。和全文搜索引擎一样,分类目录的整个工作过程也同样分为收集信息、分析信息和查询信息三部分,只不过分类目录的收集、分析信息两部分主要依靠人工完成。分类目录一般都有专门的编辑人员,负责收集网站的信息。随着收录站点的增多,现在一般都是由站点管理者递交自己的网站信息给分类目录,然后由分类目录的编辑人员审核递交的网站,以决定是否收录该站点。如果该站点审核通过,分类目录的编辑人员还需要分析该站点的内容,并将该站点放在相应的类别和目录中。所有这些收录的站点同样被存放在一个“索引数据库”中。用户在查询信息时,可以选择按照关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟全文搜索引擎一样,也是根据信息关联程度排列网站。需要注意的是,分类目录的关键词查询只能在网站的名称、网址、简介等内容中进行,它的查询结果也只是被收录网站首页的URL地址,而不是具体的页面。分类目录就像一个电话号码薄一样,按照各个网站的性质,把其网址分门别类排在一起,大类下面套着小类,一直到各个网站的详细地址,一般还会提供各个网站的内容简介,用户不使用关键词也可进行查询,只要找到相关目录,就完全可以找到相关的网站(注意:是相关的网站,而不是这个网站上某个网页的内容,某一目录中网站的排名一般是按照标题字母的先后顺序或者收录的时间顺序决定的)。搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。 现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。而且,如果有越多网页(C、D、E、F)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前。搜索引擎的原理,可以看做三步:从互联网上抓取网页建立索引数据库在索引数据库中搜索排序。 1.从互联网上抓取网页 利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。 2.建立索引数据库 由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。 3.在索引数据库中搜索排序 当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。 最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。 搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。 互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。1.5搜索引擎的分类搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。1全文搜索引擎 全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。2目录索引 目录索引虽然功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。3元搜索引擎 (META Search Engine)元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。除上述三大类引擎外,还有以下几种非主流形式:1、集合式搜索引擎:如HotBot在2002年底推出的引擎。该引擎类似META搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此叫它“集合式”搜索引擎更确切些。2、门户搜索引擎:如AOL Search、MSN Search等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。3、免费链接列表(Free For All Links,简称FFA):这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。网络搜索引擎的实践应用研究第二章中外搜索引擎发展现状比较研究搜索引擎的功能在于将分散的网址集中起来,分类提供给用户,以便快速查找到所需的信息。常规搜索引擎一般都带有数据库资源,因此对搜索引擎的比较主要集中在数据库资源和搜索引擎的性能两个方面。数据库资源方面的比较研究主要包括:数据库规模、索引方式、以及资源内容(如声音、图像、Usenet、FTP、Newsgroup、Gopher、Email等其它资源)。检索性能的比较,主要有布尔检索、复杂布尔检索、相邻和相邻and/or检索(NEAR、ADJ、FAR、BEFORE、FOLLOWED BY、)、截词检索、检索范围限定、出版日期限定、多语种检索、多种版本选择、大小写有别、概念检索、词语加权、词语限定、自然语言检索、特定字段检索、缺省值、检索结果显示方式、显示数量选择、相关排序、站点评价、相似性检索、结果过滤、用户界面、查准率、响应时间等方面的比较研究。2.1国外的比较研究国外学者对Alta Vista、Excite、Lycos从检索方式、响应时间、准确性等方面进行比较与评价,Alta Vista检索功能较强,Lycos的覆盖范围较广,Alta Vista真正地支持词语检索。不同搜索引擎的检索结果有很大差别,即使功能最完善的搜索引擎也只能找到Web上大约1/3的网页,1998年6种主要搜索引擎的Web网页搜索覆盖率:HotBot 34%;AltaVista 28%;Northen Light 20%;Excite 14%;Infoseek 10%;Lycos 3%。1999年被测试的11种搜索引擎中查询到网页最多的前三名是NorthernLight、Snap、AltaVista,没有任何一种搜索引擎可以包罗超过16%的网上信息资源,搜索引擎的覆盖能力与一年前相比明显萎缩。 近些年来陆续出现了许多比较网络检索工具的研究和报道,绝大多数研究是就一些检索提问,比较和评价多个检索工具,采用的比较和评价标准不统一。2.2国内的比较研究国内对于搜索引擎的比较研究主要在两个方面:一是对搜索引擎的基本检索性能和数据库内容进行比较;二是通过一定的检索提问进行上网测试。已有作者从数据库的内容和结构、检索方式及特点、检索结果的显示、数据库的更新及有无扩展功能等方面四个方面加以比较,发现目录型检索工具Yahoo、Librarians的检索功能相对较弱,检索型检索工具的检索功能则相对较强。在布尔逻辑检索方面,仅仅少数搜索引擎做得比较好。Infoseek和Open Text为检索结果提供了很好的描述,Open Text是唯一支持全文检索的引擎,Lycos、Excite、Open Text是覆盖面较广的数据库,Yahoo是较完整的目录。国内作者对多种搜索引擎的比较测试表明,对同一检索式,不同检索引擎的检索结果相互交叉的现象不多,各搜索引擎检索出的条数有较大差别,元搜索引擎检索出的结果不一定比单一搜索引擎多。有作者发现,Alta Vista、Excite、HotBot、Infoseek、Lycos、Open Text、Webcrawler、Yahoo以及中文搜索引擎Goyoyo在索引资源、用户界面、功能设置、检索速度、检索数量以及准确率等方面各有所长。也有人对中文搜索引擎进行了网络测试。与传统的光盘数据库检索相比,因特网信息缺乏深度、质量和可靠性不稳定,搜索引擎查询和光盘检索在用户服务方面均有优势和不足。搜索引擎及网址开发公司运行时间网页数检索功能结果显示Google()199833亿网页简单、高级检索、精确检索、网站定位标准、相关性排序、页显示结果数可选择Altavista(http:/www.alvista.di

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论