




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、网络搜索引擎的实践应用研究论文网络搜索引擎的实践应用研究13搜索引擎的检索机制614搜索引擎的基本工作原理615搜索引擎的分类8第二章中外搜索引擎发展现状比较研究102.1国外的比较研究102.2国内的比较研究10第三章各大搜索引擎的比较研究133.1百度搜索引擎介绍和研究133.2 google搜索引擎的介绍和研究133.3网易搜索引擎的介绍与研究14第四章搜索引擎的五大问题164.1 flash 优化 164.2内容管理系统(cms)的优化164.3 frames 的优化 164.4购物系统(shopping carts)的优化174.5图片型索引页/主页的优化17第五章搜索引擎的未来发展
2、趋势195.1大型综合性的搜索引擎与小型专业专题性搜索引擎协调发展19 5.2查询智能化195.3制定分编网页内容的标准语言和格式并倡导实行20 5.4多媒体搜索引擎的发展2055多语种检索、本土化服务205.6增加个性化服务与特色服务205.7收费型与免费型搜索引擎并存21结束语22参考文献83网络搜索引擎的实践应用研究摘要:随着科技的不断发展,搜索引擎会越來越强大,必然会成为网络用户获取信息的 一个不可或缺的网络检索工具。搜索引擎技术如何发展,服务方式如何改进,宗旨始终都会 是满足用户快速、准确、方便以及个性化地查找信息。提供高质量、有价值的网络信息是搜 索引擎不懈的追求。网络屮的资源非常
3、丰富,但是如何有效的搜索信息却是一件困难的事情。 本文介绍了基于因特网的搜索引擎的原理、分类、中外搜索引擎的发展现状分析,并把百度 和google、网易搜索引擎进行对比,并在此基础上得出搜索引擎的未來发展趋势,希望 能对国内中文搜索引擎的开发和准确、快速、全面检索www网络乃至因特网信息资源有 所启示。关键字:搜索引擎;研究;原理;优化;发展趋势internet search engines1 practice of the applied researchhan linlin , class 3 grade 2004, department of computer scienceabstra
4、ct: along with the technical unceasing development, the search engine will be getting more and more fonnidable, definitely will become the network user gain information an indispensable network retrieval tool. how docs the search engine technology develop, how docs the service mode improve, the obje
5、ctive can be throughout satisfies the user fast, accurate, convenient as well as the personalized search information. supplies, the valuable network information high grade is the search engine unremitting pursue network is very rich in resources, but how to trade effective search information is also
6、 a difficult task. this paper based on principles, classification of the internet search engine and analysis the development of home and aboard search engine and compared the google search engine,baidu search engine and nctcasc search engine ,and on this basis that a search engine for the future dev
7、elopment trends i hope this paper can bring chinese search engine and the development of accurate, rapid, comprehensive network and the internet www retrieval of information resources to enlightenment.key words: search engine ; research ; theory; optimization; developmentt rends网络搜索引擎的实践应用研究搜索引擎的发展是
8、引人注目的。由于因特网上信息资源内容广泛、时效性强、访问快速、 网络交互搜寻、动态更新,而且还提供快速访问网上信息资源的各种搜索引擎(search engines),用于快速搜索www网络乃至因特上的有用信息,使得通过www网络获取网 络信息资源成为国内外研究的一大热点。基于网络的搜索引擎的研制与开发应用成为当前网 络信息资源开发应用研究领域的热点。英文搜索引擎“google”和中文搜索引繁“百度搜索” 的推出,拉开了搜索引擎核心技术争夺战的序幕。可以预言,在今后一段相当长的时间里, 搜索引擎还将有长足的发展和进步,检索功能将更趋向于集成化和更具亲和力、更显人性化。 信息技术的不断发展,特别是
9、互联网应用的迅速普及,深入到了人们生活的各个 方面,改变了人们生活方式和思维方式,方便了全球信息资源共享。全球目前的 网页超过100亿,每天新增加数百万网页,电子信息爆炸似的丰富起来。要在如 此浩瀚的海洋里寻找信息,就像“大海捞针” 一样。能有-种工具使我们可以在 不到1秒钟的时间就迅速找到我们想要的内容吗?答案是“有”,这就是搜索引 擎。今天,搜索引擎已成为人们在网络信息海洋中自如冲浪必不可少的利器。l1搜索引擎定义搜索引擎,search engines 又称搜索机,web搜索器,是伴随www网络出 现的检索网上信息资源的新工具。实质上是一种网页网址检索系统,有的提供分 类和尖键词检索途径,
10、有的仅提供矢键词检索途径。它根据检索规则和从其他信 息服务器上得到数据并对数据进行加工处理,自动建立索引,并通过检索接口为 用户捉供信息查询服务,能够自动对www资源建立索引或进行主题分类,并通过 查询语法为用户返回匹配资源的系统。搜索引擎主要是由crawler 'spider 'worm、 robot等计算机软件程序自动在因特网上漫游,不断搜集各类新网址及网页,形 成数以千万甚至上亿条记录的数据库。它是通过采集标引众多网络站点来提供全 局性网络资源控制与检索机制、将全球www网络中所有信息资源作一完整的集合、 整理和分类、方便用户查找所需信息的网络检索软件。具有检索面广信息量
11、大、 信息更新速度快,特定主题的检索专指性强等特点。12搜索引擎的主要技术一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。1 搜索器搜索器的功能是在互联网屮漫游,发现和搜集信息。它常常是一个计算机程序,日夜不 停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更 新很快,所以还要定期更新己经搜集过的旧信息,以避免死连接和无效连接。目前有两种搜 集信息的策略:从一个起始url集合开始,顺着这些url中的超链(hyperlink),以宽度优先、深度 优先或启发式方式循环地在互联网屮发现信息。这些起始url可以是任意的url,但常常 是一些非常流行、包含很多
12、链接的站点(如yahoo)。将web空间按照域名、ip地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜 索。搜索器搜集的信息类型多种多样,包括html、xml、newsgroup文章、ftp文件、字 处理文档、多媒体信息。搜索器的实现常常用分布式、并行计算技术,以提高信息发现和更新的速度。商业搜索 引擎的信息发现可以达到每天几百万网页。2. 索引器索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成 文档库的索引表。索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关, 如作者名、url、更新时间、编码、长度、链接流行度(link popularity)等
13、等;内容索引 项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项对以分为单索 引项和多索引项(或称短语索引项)两种。单索引项对于英文來讲是英语单词,比较容易提 取,因为单词之i'可有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的 切分。在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的区分度,同 时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短语索引项 的提取方法有统计法、概率法和语言学法。索引表一般使用某种形式的倒排表(inversionlist),即由索引项查找相应的文档。索 引表也可能要记录索引项在文档屮出
14、现的位置,以便检索器计算索引项z间的相邻或接近关 系(proximity)。索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时,必须实现即时索 引(instant indexing),否则不能够跟上信息量急剧增加的速度。索引算法对索引器的性能 (如大规模峰值查询时的响应速度)有很大的影响。一个搜索引擎的有效性在很大程度上取 决于索引的质量。3. 检索器检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评 价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。4. 用户接口用户接口的
15、作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的冃 的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。用户 接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。用户输入接口可以分为简单接口和复杂接口两种。简单接口只提供用户输入查询串的文 本框;复杂接口可以让用户对查询进行限制,如逻辑运算(与、或、非;、)、相近关系(相邻、near)、域名范围(如.edu、.com)、出现位置(如标题、内容)、信息时间、 长度等等。目前一些公司和机构正在考虑制定查询选项的标准。13搜索引擎的检索机制 搜索引擎定期自动搜寻有尖web站点、采集尖于这些站点上
16、的各类信息,自动对 这些资源进行标引、编制目录和文摘,自动将这些数据整合到数据库,并能提供 以web为基础的包括布尔检索、短语或词组检索、自然语言检索和各种限制检索 在内的数据检索,按相尖度输出检索结果。搜索引擎的主体部分包括了数据采 集模块、数据组织模块和数据检索模块。对应地,其资源组织和检索机制包括了 数据采集标引机制、数据组织机制和用户检索机制,见图11。,网络搜索引擎 的实践应用研究论文免费, 网络搜索引擎的实践应用研究图1-1搜索引擎的检索机制示意图14搜索引擎的基本工作原理全文搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历web空间, 能够扫描一定ip地址范围内的
17、网站,并沿着网络上的链接从一个网页到另一个网页,从一 个网站到另一个网站采集网页资料。它为保证釆集的资料最新,还会回访已抓取过的网页。 网络机器人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行 大量的计算建立网页索引,才能添加到索引数据库中。我们平时看到的全文搜索引擎,实际 上只是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数 据库屮找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。不同的 搜索引擎,网页索引数据库不同,排名规则也不尽相同,所以,当我们以同一关键词用不同 的搜索引擎查询时,搜索结果也就不尽相同。和全文搜索引擎
18、一样,分类目录的整个工作过程也同样分为收集信息、分析信息和查询 信息三部分,只不过分类目录的收集、分析信息两部分主要依靠人工完成。分类目录一般都 有专门的编辑人员,负责收集网站的信息。随着收录站点的增多,现在-般都是由站点管理 者递交自己的网站信息给分类目录,然后市分类目录的编辑人员审核递交的网站,以决定是 否收录该站点。如果该站点审核通过,分类冃录的编辑人员还需要分析该站点的内容,并将 该站点放在相应的类别和目录中。所有这些收录的站点同样被存放在一个“索引数据库''中。 用户在查询信息时,可以选择按照关键词搜索,也可按分类目录逐层查找。如以关键词搜索, 返冋的结果跟全文搜索引
19、擎一样,也是根据信息关联程度排列网站。需要注意的是,分类目 录的关键词查询只能在网站的名称、网址、简介等内容屮进行,它的查询结果也只是被收录 网站首页的url地址,而不是具体的页面。分类fi录就像一个电话号码薄一样,按照各个 网站的性质,把其网址分门別类排在一起,大类下面套着小类,一直到各个网站的详细地址, 一般还会提供各个网站的内容简介,用户不使用关键词也可进行查询,只要找到相关目录, 就完全可以找到相关的网站(注意:是相关的网站,而不是这个网站上某个网页的内容,某 一目录屮网站的排名一般是按照标题字母的先后顺序或者收录的时间顺序决定的)。搜索引 擎并不真正搜索互联网,它搜索的实际上是预先整
20、理好的网页索引数据库。真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中 的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键 词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复 杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。现在的搜索引擎己普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引 所有指向该网页的链接的url、anchortext甚至链接周围的文字。所以,有时候,即使 某个网页a屮并没有某个词比如“恶魔撒旦”,但如果有别的网页b用链接“恶魔撒旦”指向 这个网页a,那
21、么用户搜索“恶魔撒旦”时也能找到网页a。而且,如果有越多网页(c、d、 e、f.)用名为“恶魔撒旦”的链接指向这个网页a,或者给岀这个链接的源网页(b、c、 d、e、f)越优秀,那么网页a在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会 越靠前。搜索引擎的原理,可以看做三步:从互联网上抓取网页一建立索引数据库一在索引数据 库屮搜索排序。1. 从互联网上抓取网页利用能够从互联网上自动收集网页的spider系统程序,自动访问互联网,并沿着任何 网页中的所有url爬到其它网页,重复这过程,并把爬过的所有网页收集回来。2. 建立索引数据库rti分析索引系统程序对收集回来的网页进行分析,提取相关网页信
22、息(包插网页所在 url、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链 接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针対页面内容中及 超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。3. 在索引数据库屮搜索排序当用户输入关键词搜索后,rh搜索系统程序从网页索引数据库屮找到符合该关键词的所 有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关 度数值排序,相关度越高,排名越靠前。最后,由页血生成系统将搜索结杲的链接地址和页血内容摘要等内容组织起来返回给用 户。搜索引擎的spider -般要
23、定期重新访问所有网页(各搜索引擎的周期不同,可能是儿 天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库, 以反映出网页内容的更新情况,增加新的网贝信息,去除死链接,并根据网页内容和链接关 系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各 不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几 十亿的网页索引,数据量达到几千g甚至几万g。但即使最大的搜索引擎建立超 过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜 索引擎之间的网页数据
24、重叠率一般在70%以下。我们使用不同搜索引擎的重要原 因,就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜 索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。1.5搜索引擎的分类搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(full text search engine) 目录索引类搜索引擎(search index/directory)和元搜索 引擎(meta search engine) c1. 全文搜索引擎全文搜索引擎是名副其实的搜索引擎,国外具代表性的有google、fast/alltheweb.altavista a inktomi > teom
25、a wisenut等,国内著名的有百度(baidu) «它们都是通过从互 联网上提収的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件 兀配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。从搜索结果来源的角度,全文搜索引擎乂可细分为两种,一种是拥有白己的检索程序 (indexer),俗称“蜘蛛” (spider)程序或“机器人” (robot)程序,并自建网页数据库,搜 索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数 据库,并按自定的格式排列搜索结果,如lycos引擎。2. 目录索引目录索引虽然功能,但
26、在严格意义上算不上是真止的搜索引擎,仅仅是按目 录分类的网站链接列表而已。用户完全可以不用进行关键词(keywords)查询, 仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的 yahoo 雅虎。其他著名的还有 open di rectory proj ect (dmoz) > looksmart > abo"等。国内的搜狐、新浪、网易搜索也都属于这一类。3. 元搜索引擎(meta search engine)元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返冋给 用户。著名的元搜索引擎有infospace> dogpil
27、e、vivisimo等(元搜索引擎列表),中文元 搜索引擎屮具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜 索结果,如dogpile,有的则按自定的规则将结果重新排列组合,如vivisimoo除上述三大类引擎外,还有以下几种非主流形式:1、集合式搜索引擎:如hotbot在2002年底推出的引擎。该引擎类似meta 搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4 个引擎当屮选择,因此叫它“集合式”搜索引擎更确切些。2、门户搜索引擎:如aol search、msn search等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来
28、自其他引擎。3、免费链接列表(free for all links,简称ffa):这类网站一般只简 单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起yahoo等目录 索引来要小得多。网络搜索引擎的实践应用研究第二章中外搜索引擎发展现状比较研究搜索引擎的功能在于将分散的网址集屮起來,分类提供给用户,以便快速查 找到所需的信息。常规搜索引擎一般都带有数据库资源,因此对搜索引擎的比较 主耍集中在数据库资源和搜索引擎的性能两个方面。数据库资源方面的比较研究 主要包括:数据库规模、索引方式、以及资源内容(如声音、图像、usenet、ftp、 newsgroup> gopher> e
29、mail等其它资源)。检索性能的比较,主耍有布尔检索、 复杂布尔检索、相邻和相邻and/or检索(near、adj、far、before> followed by、 <scntcnccs>> <paragraph>) >截词检索、检索范围限定、出版日期限定、多语 种检索、多种版本选择、大小写有别、概念检索、词语加权、词语限定、自然语 言检索、特定字段检索、缺省值、检索结果显示方式、显示数量选择、相关排序、 站点评价、相似性检索、结果过滤、用户界面、查准率、响应时间等方面的比较 研究。2.1国外的比较研究国外学者对altavista、exci te>
30、; lycos从检索方式、响应吋间、准确性等 方面进行比较与评价,alta vista检索功能较强,lycos的覆盖范围较广,alta vista真正地支持词语检索。不同搜索引擎的检索结果有很大差别,即使功能最 完善的搜索引擎也只能找到web上大约1/3的网页,1998年6种主耍搜索引擎的 web 网页搜索覆盖率:hotbot 34%;a1 tavista 28%; nor thenlight 20%;excite 14%; infoseek 10%;lycos 3%。1999 年被测试的 11 种搜 索引擎中查询到网页最多的前三名是northernlight> snap> alt
31、avista,没有 任何一种搜索引擎可以包罗超过16%的网上信息资源,搜索引擎的覆盖能力与一 年前相比明显萎缩。近些年来陆续出现了许多比较网络检索工具的研究和报道, 绝大多数研究是就一些检索提问,比较和评价多个检索工具,采用的比较和评价 标准不统一。22国内的比较研究国内对于搜索引擎的比较研究主要在两个方面:一是对搜索引擎的基本检索 性能和数据库内容进行比较;二是通过一定的检索提问进行上网测试。己有作者 从数据库的内容和结构、检索方式及特点、检索结果的显示、数据库的更新及 有无扩展功能等方面四个方面加以比较,发现目录型检索工具yahoo> librarians*的检索功能相对较弱,检索型
32、检索工具的检索功能则相对较强。在 布尔逻辑检索方面,仅仅少数搜索引擎做得比较好。infoseek和open text为 检索结果提供了很好的描述,open text是唯一支持全文检索的引擎,lycos、 excite、open text是覆盖面较广的数据库,yahoo是较完整的目录。国内作者 对多种搜索引擎的比较测试表明,对同一检索式,不同检索引擎的检索结果相互 交叉的现象不多,各搜索引擎检索出的条数有较大差别,元搜索引擎检索出的结 果不一定比单一搜索引擎多。有作者发现,al t a vi st a、exci te、hotbot、infoseek > lycos a open text> weber awler yahoo以及中文搜索引擎goyoyo在索引资源、 用户界面、功能设置、检索速度、检索数量以及准确率等方面各有所长。也有人 对屮文搜索引擎进行了网络测试。与传统的光盘数据库检索相比,因特网信息缺 乏深度、质量和可靠性不稳定,搜索引擎查询和光盘检索在用户服务方面均有优 势和不足。搜索引擎及网址开发公司运行时网页数检索功能结果显示间google(http:/www. go ogle, com)199833亿网页简单、高级检 索、精确检索、 网站定位标准、相关性排序、 页显示结果数可选 择altavista(http:/www美国数字1995. 1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论