(计算机应用技术专业论文)基于lucene面向主题搜索引擎的研究与设计.pdf_第1页
(计算机应用技术专业论文)基于lucene面向主题搜索引擎的研究与设计.pdf_第2页
(计算机应用技术专业论文)基于lucene面向主题搜索引擎的研究与设计.pdf_第3页
(计算机应用技术专业论文)基于lucene面向主题搜索引擎的研究与设计.pdf_第4页
(计算机应用技术专业论文)基于lucene面向主题搜索引擎的研究与设计.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华东师范大学硕士学位论文 摘要 随着信息化的高速发展,信息量正以指数规律迅猛增长,互联网已经成为人 类最重要的海量信源,“信息迷航”和“信息过载”已经成为日益严重的问题。 基于i n t e r a c t 的各类搜索引擎应运而生并得到了迅速发展。g o o g l e ,y a h o o 等通 用搜索引擎功能虽然非常强大,但是当使用它们来检索某些特定专业的信息时, 通用搜索引擎系统就有些力不从心。 面向主题的搜索弓l 擎是一种分类细致精确、更新及时的搜索引擎。随着 i n t e r a c t 信息的爆炸增长以及信息多元化的发展,主题搜索引擎正成为研究热点 与发展趋势。 本文就面向主题搜索引擎的关键技术进行了研究,并提出了一种基于l u c c n e 面向主题搜索引擎解决方案,研究实现了求职帮助信息主题搜索引擎。 本文的主要叙述过程如下: 首先,叙述了搜索引擎的发展背景和发展现状及特点,回顾了搜索引擎的发 展历史,比较了通用搜索引擎和主题搜索引擎的区别,体现了主题搜索引擎在专 业搜索方面的优势。 其次,对面向主题搜索引擎的关键技术分三大模块即:主题信息抓取、索引 和检索进行了深入分析和研究。研究了主题机器人与普通机器人的区别和搜索策 略。重点研究了基于j a v a 的全文索引引擎工具包l u c e n e ,分析了l u c e n e 与传统 数据库相比的不同之处,体现了利用l u c e n e 进行索引和检索的高效性、准确性。 然后,基于以上关键技术,提出了求职帮助信息主题的搜索引擎设计方案。 包括系统设计思想,技术策略,结构框架,开发环境等。 接着,将设计付诸实践。详细介绍了基于l u c e n t 的应聘帮助信息主题搜索 引擎的具体实现过程。并对系统运行情况和结果进行了展示。 最后,对论文的各项工作进行了总结,并指出了今后发展方向和进一步的工 作,以便以后不断更新和完善。 基于l u c e n e 的求职帮助信息主题搜索引擎系统,保证了对求职帮助信息的 完全收录与及时更新,避免了强大的搜索噪音,提高了检索效率,能快、全、准 地提供专题信息查询。 本论文的主要研究内容: 1 研究分析了通用搜索引擎和主题搜索引擎的关键技术。 2 对a p a c h ei _ , u c c n e 全文索引引擎工具包进行了深入剖析,比较了l a c e n e 检索 和传统数据库检索的异同,以及中文切分词技术。 3 在分析研究了主题搜索引擎关键技术的基础上,提出了求职帮助信息主题的 搜索引擎设计方案。 华东师范大学硕士学位论文 4 深入剖析了在设计实现中运用的关键技术,并在剖析的基础上进行了扩展及 二次开发,设计实现了基于l u c e n e 的应聘帮助主题搜索引擎。 【关键词】面向主题搜索引擎、l u c e n e 、信息索引 【论文类型】应用研究 华东师范大学硕士学位论文 a b s t r a c t w i t ht h er a p i dg r o w t ho fi n f o r m a t i o nt e c h n o l o g y , i n t e r a c ti s e x p e n d e d e x t r e m e l yt h e s ey e a r s n o w a d a y s ,i n t e r n e th a sd e c o m ea l li m p o r t a n ti n f o r m a t i o n r e s o u r c ew i t he n o r m o u ss c a l e s h o w e v e r ,i n f o r m a t i o nf o r t r e s sa n di n f o r m a t i o n o v e r l o a d h a v eb e c o m ea ni n c r e a s i n g l ys e r i o u sp r o b l e m v a r i o u si n t e r n e t - b a s e d i n f o r m a t i o ns e a r c he n g i n ee m e r g e da n dh a sb e e nd e v e l o p i n gr a p i d l y a l t h o u g h o o o g i e ,y a h o oa n do t h e rs e a r c he n g i n e sa r ev e r yp o w e r f u l ,w h e nt h e yu s et h e i n f o r m a t i o nt os e a r c hf o rc e r t a i np r o f e s s i o n a l ,g e n e r a ls e a r c he u g i n a s ,t h e yh a v es o m e i n a d e q u a c i e s t h et o p i c - s p e c i f i cs e a r c he n g i n ei sak i n do fp r e c i s ec l a s s i f i c a t i o n ,r e n e w a l p r o m p ts e a r c he n g i n e w i t ht h ei n t e r a c ti n f o r m a t i o nd e t o n a t i o ng r o w t ha sw e l la st h e i n f o r m a t i o nm u l t i p l i c a t i o nd e v e l o p m e n t ,t h et o p i c - s p e c i f i cs e a r c he n g i n ei sb e c o m i n g t h er e s e a r c hh o ts p o ta n dt h er e n do fd e v e l o p m e n t t h et h e s i sr e f e r r e dt ot h ek e yt e c h n o l o g yo ft o p i c - s p e c i f i cs e a r c he n g i n e ,p r e s e n t at o p i c - s p e c i f i cs e a r c h e n g i n e s o l u t i o n sb a s e do ni a l c e n e , t h e nr e s e a r c ha n d i m p l e m e n taj o bh e l p i n f os e a r c he n g i n e t h ec o n t e n to ft h et h e s i sc a nb ed e s c r i b e da sf o l l o w i n g : f i r s t ,t h et h i s i sd e c r i b e st h eb a c k g r o u n d , d e v e l o p m e n ta n dc h a r a c t e r i s t i c so f s e a r c he n g i n e ,r e v i e w st h eh i s t o r yo fs e a r c he n g i n e ,c o m p a r e sw i t ht h ed i f f e r e n c e b e t w e e ng e n e r a ls e a r c he n g i n ea n dt o p i c - s p e c i f i cs e a r c he n g i n e ,e m b o d i e st h e p r o f e s s i o n a la d v a n t a g eo ft o p i c s p e c i f i cs e a r c he n g i n e 一 s e c o n d , r e f e r r i n gt o t h et h r e em o d u l e so ft h es e a r c ge n g i n ek e yt e c h n o l o g y : i n f o r m a t i o nc a p t u r e ,i n d e x i n ga n dr e t r i e v a l , t h et h e s i sd o e sa ni n - d e p t ha n a l y s i sa n d 。 r e s e a r c h r e s e a r c h e sf o rt h ed i f f e r e n c eb e t w e e nt o p i cr o b o ta n dg e n e r a lr o b o t ,a n df o r t h es e a r c hs t r a t e g y t h et h e s i sf o c u so nap a c k a g eo fj a v a - b a s e df u l l t e x ti n d e x i n g e n g i n el u c e n e ,c o m p a r e sw i t ht h ed i f f e r e n c eo ft r a d i t i o n a ld a t a b a s ea n dl u c e n e , r e f l e c t st h eu s eo fl u c e u ef o ri n d e x i n ga n dr e t r i e v a lo fh i 曲e f f i c i e n c ya n da c c u r a c y t h i r d ,b a s e do nt h ea b o v ek e yt e c h n o l o g i e s ,t h ed e s i g no fj o bh e l p i n f os e a r c h e n g i n ei s p r e s e n t e d ,i n c l u d i n gs y s t e md e s i g na n dt e c h n o l o g ys t r a t e g y , a r c h i t e c t u r e , a n dt h ed e v e l o p m e n te n v i r o n m e n t t h e n ,t h ed e s i g nw a sb r o u g h ti n t op r a c t i c e i n t r o d u c e st h es m i l ep r o c e s so fj o b h e l p i n f os e a r c he n g i n eb a s e do nl u c e n ed e t a i l l y a tl a s t ,t h et h e s i sg a v eas u m m a r yo ft h ed i s s e r t a t i o nw o r k ,a n dp o i n t e do u tt h e d i r e c t i o no ff u t u r ed e v e l o p m e n ta n dt h ef u r t h e rw o r kt oc o n s t a n t l yu p d a t ea n d i i i 华东师范大学硕士学位论文 t m p r o v e t h ej o bh e l p i n f os e a r c he n g i n ec r s m c st h ec o m p l e t ei n f o r m a t i o na n du p d a t i n g b e t i m e s ,c a l la v o i d ss t r o n gs e a r c hn o i s e s ,a n di m p r o v e st h ee f f i c i e n c yo fs e a r c h i n g ,c a n p r o v i d ea c c e s st os p e c i a li n f o r m a t i o ni n q u i r i e sq u i c k l y , c o m p l e t e l y , a n da c c u r a t e l y t h em a i nc o n t r i b u t i o no ft h i st h e s i sc a nb ei n c l u d e da sf o l l o w i n g : 1 a n a l y z e st h ek e yt e c h n o l o g i e so fg e n e r a ls e a r c he n g i n ea n dt o p i c - s p e c i f i c s e a r c he n g i n e 2 a n a l y z e st h ea p a c h el u c e n e f u l l - t e x ts e a r c he n g i n ef o rt h et o o lk i t d e e p l y , c o m p a r e sw i t ht h ed i f f e r e n c e sb e t w e e nl u c e n er e t r i e v a la n dt r a d i t i o n a l d a t a b a s er e t r i e v a l ,a n di n t r o d u c e st h ec h i n e s ew o r ds e g m e n t a t i o nt e c h n i q u e s 3 i nt h ea n a l y s i so ft h et o p i c - s p e c f i cs e a r c he n g i n e o nt h eb a s i so fk e y t e c h n o l o g i e s ,d e s i g n aj o bh e l p - i n f os e a r c he n g i n eb a s e do nl u c e n e 4 a n a l y z e st h ek e yt e c h n o l o g i e su s e di nd e s i g na n di m p l e m e n t a t i o n ,a n dt h e a n a l y s i si st h ef o u n d a t i o nf o rt h ee x p a n s i o na n dr e d e v e l o p m e n t g e yw o r d s lt o p i c - s p e c i f i cs e a r c he n g i n e ,l u c c n e ,i n f o r m a t i o ni n d e x i n g t y p eo f t h e s i s a p p l i c a t i o nr e s e a r c h i v 华东师范大学硕士学位论文 学位论文独创性声明 本人所呈交的学位论文是我在导师的指导下进行的研究工作及取得的研究 成果。据我所知,除文中已经注明引用的内容外,本论文不包含其他个人已经发 表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体,均已在文中 作了明确说明并表示谢意。 作者签名;姜笠 学位论文使用授权声明 本人完全了解华东师范大学有关保留、使用学位论文的规定,学校有权保留 学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版。有权将学 位论文用于非赢利目的的少量复制并允许论文进入学校图书馆被查阅。有权将学 位论文的内容编入有关数据库进行检索。有权将学位论文的标题和摘要汇编出 版。保密的学位论文在解密后适用本规定。 学位论文作者签名:娄卒 日期:! 超:2 :墨y 导燧名:凇 日期:獬! :吵 , 华东师范大学硕七学位论文 o r i g i n a l i t yn o t i c e i np r e s e n t i n gt h i st h e s i si np a r t i a lf u l f i l l m e n to ft h er e q u i r e m e n t sf o rt h em a s t e r sd e g r e ea t e a s tc h i n an o r m a lu n i v e r s i t y , 1w a r r a n tt h a tt h i st h e s i si so r i g i n a la n da n yo ft h et e c h n i q u e s p r e s e n t e di nt h et h e s i sh a v eb e e nf i g u r e do u tb yi n e a n yo ft h er e f e r e n c e st ot h ec o p y r i g h t , t r a d e m a r k , p a t e n t , s t a t u t o r yr i g h t ,o rp r o p r i e t yf i g h to fo t h e r sh a v eb e e ne x p i i c i t i ya c k n o w l e d g e d a n di n c l u d e di nt h er e f e r e n c e ss e c t i o na tt h ee n do ft h i st h e s i s s i g n a t u r e :肄。a t e :盈坐 c o p y r i g h tn o t i c e ih e r e i na g r e 2t h a tt h el i b r a r yo fe c n us h a l lm a k ei t sc o p i e sf r e e l ya v a i l a b l ef o ri n s p e c t i o n if u r t h e ra g i e tt h a te x t e n s i v ec o p y i n go ft h et h e s i si sa l l o w a b l eo n l yf o rs c h o l a r l yp u r p o s e s ,i n p a r t i c u l a r , s t o r i n gt h ec o n t e n to ft h i st h e s i si n t or e l e v a n td a t a b a s e s ,a sw e l l c o m p i l i n ga n d p u b l i s h i n gt h et i t l ea n da b s t r a c to ft h i s t h e s i s c o n s i s t e n tw i t h :f a l ru ”a sp r e s c r i b e di nt h e c o p y r i g h tl a wo f t h ep e o p l e sr e p u b l i co f c h i n a s 鲫。砷辞 华东师范大学硕士学位论文 第一章绪论 1 1 引言 w w w ( w o r l dw i d ew e b 万维网) 是全球性的网络信息系统。在最近这些年 里,w w w 得到了长足的发展,不仅成为企业必不可少的组成部分,并且开始走 进千家万户。2 0 0 0 年4 月在波士顿举行的第5 届搜索引擎年会的会议报告指出 当时的网页数目己经超过了1 0 亿1 1 1 。著名的n e t c r a f t ( 英国网络统计机构) 刚刚完 成了最新的互联网调查,结果显示到2 0 0 6 年3 月3 1 日止,互联网上一共有 8 0 6 5 5 9 9 3 个网站。而单是在0 6 年3 月这一个月里,世界上的网站数量就增长了 3 1 0 万个。而在2 0 0 3 年8 月所得的调查结果为4 0 0 0 万个,这说明了互联网上的 网站数量在过去的3 年里就已经翻了一番,增长相当惊人。 w w w 在中国的发展速度也十分惊人。根据c n n i c ( 中国互联网络信息中心) 2 0 0 6 年7 月1 9 日发布的最新的中国互联网络发展状况统计报告【2 1 ,截至2 0 0 6 年6 月3 0 日,我国网民人数达到了1 2 3 0 0 万人,与去年同期相比增长了1 9 4 , 其中宽带上网网民人数为7 7 0 0 万人,在所有网民中的比例接近2 3 。我国网站总 数达到了7 8 8 ,4 0 0 个,其中今年上半年增长了9 万个,网络国际出口带宽总量则 达到2 1 4 1 7 5 m ,与去年同期相比增长率为1 5 9 2 。 随着网络覆盖范围的不断扩大以及网络技术的发展,存在于网络上的信息资 源飞速传播并迅速增长。数量巨大的网络信息资源来源于各行各业,包括不同学 科、不同领域、不同地区、不同语言的各种信息,。其内容是非常丰富的,并且以 文本、图像、音频、视频、数据库等多种形式存在。网络信息分布具有很大的自 由度和随意性,缺少质量控制和管理机制,使得网络信息繁杂、混乱,质量良莠 不齐,安全存在隐患,给用户选择、利用网络资源带来了障碍。 1 2 选题背景和研究意义 1 2 1 选题背景 随着科技与时代的发展,i n t e r n e t 已经成为我们学习和工作的重要工具,与 我们的生活密不可分。互联网上的信息数以亿计,如何在这浩如烟海的世界中找 到自己想要的信息已经成为互联网技术的一个非常重要的研究课题。为了帮助用 户找到自己需要的信息,各种搜索引擎应运而生。 搜索引擎是一种用于帮助i n t e m e t 用户查询信息的搜索工具,它以一定的策 略在i n t e m e t 中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用 华东师范大学硕士学位论文 户提供检索服务,从而起到信息导航的目的。搜索引擎的问世,为我们快速、准 确、有效地获取网络信息资源提供了极大的帮助。搜索引擎是为满足人们搜索网 络信息的需要而开发的网络工具,是互联网信息查询的导航针,是沟通用户与网 络信息的桥梁。 随着i n t e r a c t 信息急剧膨胀以及信息多元化的发展,传统搜索引擎采集索引 查询内容不断扩大。这不但使搜索引擎面临巨大的困难,而且越来越不能满足主 题用户的需求。常见到这样的情况:为了获取数条相关信息,用户不得不在大量 的失效信息、甚至垃圾信息中费力寻找。目前人们对搜索引擎的首要关注点已经 从如何找到更多的信息转向如何快速找到准确、有用的信息。用户迫切需要一个 数据分类细致、准确、全面、更新及时的面向主题的搜索引擎来获取主题资源信 息。 这种情况下,主题搜索引擎应运而生并成为发展趋势,也称专业搜索引擎、 专用搜索引擎、垂直搜索引擎、实时搜索引擎等,是搜索引擎发展史上的一块里 程碑。主题搜索引擎保证了对某一领域信息的完全收录与及时更新,避免了搜索 时强大的“噪音”,提高了查询效率。在提供专业信息方面有着其它检索工具无 法比拟的优势。 主题搜索引擎具备有效的信息采集策略,索引更新周期大大缩短,通常能在 1 2 天内提供更新的网上专业领域信息查询,甚至能在数小时内更新查询信息p o 。 主题搜索引擎面向某一特定的专业领域,专注于自己的特长和核心技术,保证了 对该领域信息的完全收录与及时更新。它最大的优势就在于能够把具有相同兴趣 点的人们集中在一个“主题社区”内,通过及时集中提供各种专业资源查询,避 免了大量的搜索噪音,提高了查询效率。在提供专业信息方面有着其它检索工具 无法比拟的优势。同时主题搜索引擎站点也提供了一个相互交流、哄享经验和教 训、展望行业发展前景的机会和场合,双向交流和互动性明显,因此受到越来越 多的用户的欢迎。据赛迪网( w w w c c i d n e t c o r n ) 的“国内搜索引擎市场调查报告” 显示,9 2 的网民认为将来垂直型的主题搜索引擎非常可能或可能使用。 1 2 2 研究意义 面对如此浩瀚的互联网资源,搜索引擎为所有网上冲浪的用户提供了一个入 口。但是,随着信息多元化的增长,千篇一律的给所有用户提供同一个入口显然 己经不能满足特定用户更深入的查询需求。同时,在目前的硬件条件下,通用搜 索引擎要及时更新以得到互联网上较全面的信息是不太可能的。 针对这种情况,需要一个面向主题的、对硬件要求低、数据全面深入、更新 及时的专题搜索引擎。面向特定领域的搜索技术已经成为近几年来搜索领域里比 2 华东师范大学硕士学位论文 较热的研究方向,针对某一领域、某一特定人群或某一特定需求建立的搜索引擎 称为主题搜索引擎。主题搜索引擎因针对性强、目标明确和查准率高而成为获取 专业或专业信息的重要工具。目前常见的主题搜索的研究包括面向法律专业领域 的,面向新闻的,求职的,面向图片或歌曲的等。 虽然面向求职的主题搜索已经出现,但笔者注意到,在找工作过程中,面临 激烈的人才竞争,除了广泛寻找职位信息之外,及时准确地搜集面试技巧、面试 经验,公司资料等求职帮助信息也显得尤为重要,特别是现在许多大公司实行多 轮淘汰制,每轮采用不同的形式和内容,所以知己知彼百战不殆,在同等条件下 获得及时的相关信息也成为制胜的法宝,所以在深入分析各种搜索引擎基础上, 针对现有求职主题的不足,本论文提出了一个面向求职帮助信息的搜索引擎方 案,并付之于实现,抛砖引玉,旨在对广大求职者给予一定的帮助。 1 3 本论文的主要内容和结构 本文主要针对l u c e n e 的基本功能和扩展进行研究,在已有网络机器人程序 的基础上进行扩展,设计并实现一个面向主题的搜索引擎。 首先,叙述了搜索引擎的发展背景和发展现状及特点,回顾了搜索引擎的发 展历史,比较了通用搜索引擎和主题搜索引擎的区别,体现了主题搜索引擎在专 业搜索方面的优势。 接着,对面向主题搜索引擎的关键技术分别进行了深入分析和研究。讨论和 比较了主题机器人与普通机器人的区别和搜索策略。对开源开发工具包l u c e n e 进行了全面剖析,对其系统结构、数据类型、索引格式进行深入分析,并比较了 和传统数据库检索的异同。 然后,基于以上关键技术,并针对求职帮助信息的特点,提出了求职帮助信 息主题的搜索引擎设计方案。包括系统设计思想,技术策略,结构框架,开发环 境等。 最后对本系统进行了实现,并对本系统运行结果进行了展示。 本文总体分为六章,各部分的组织结构如下: 第一章介绍了选题背景,指出了本文的研究意义。 第二章进行搜索引擎的概述。回顾了搜索引擎的发展历程,从较为流行的角 度对通用搜索引擎进行了分类,并着重对机器人搜索引擎、目录型搜索引擎和元 搜索引擎的基本工作原理和特点作了简要的阐述和比较,指出了通用搜索引擎面 临的问题,进而引出了主题搜索引擎的产生、优势和特点,并简要介绍了主题搜 索引擎的目前研究状况和性能评价指标。 第三章对基于l u c e n e 面向主题搜索关键技术进行了全面的分析。介绍了主 3 华东师范大学硕士学位论文 题机器人的基本构造方式,讨论和比较了主题机器人与普通机器人的区别,分析 了主题搜索策略。在此基础上,对信息检索模型和开源开发工具包l u c e n e 进行 了全面剖析,对其系统结构、数据类型、索引格式进行深入分析,并比较了和传 统数据库检索的异同。 第四章针对应聘帮助信息的特点设计了应聘主题搜索引擎的整体系统结构, 明确了系统功能和设计目标、设计思想和策略并分析了难点所在,描述了系统的 基本工作流程。 第五章对基于l u e c n e 的应聘帮助信息系统进行了实现,并对本系统的运行 进行了展示。 第六章是总结和展望,总结了本文的工作和今后的发展方向。 4 华东师范大学硕士学位论文 第二章搜索引擎概述 2 1 搜索引擎的概念和发展历史 搜索引擎( s e a r c he n g i n e ) 1 2 8 1 【别一种用于帮助i n t e r a c t 用户查询信息的搜索工 具,它以一定的策略在i n t e r n e t 中搜集、发现信息,对信息进行理解、提取、组 织和处理,并为用户提供检索服务,从而起到信息导航的目的。 在i n t e r a c t 的发展过程中,先后产生了多种网络信息资源,其中最主要的 是f r p ( f i l et r a n s f e rp r o t o c o l 文件传输协议) ,g o p h e r 、w a i s ( w i d ea r e a i n f o r m a t i o ns e r v e r 广域信息服务器) 和w w w ( w o r l dw i d ew e b 万维网) ,而与之 相应的则是各种搜索引擎的出现与发展。 a r c h i e 1 9 9 0 年加拿大蒙特利尔m c g i l lu n i v e r s i t y 大学的学生a l a ne m t a g e 发明的 a r c h l e 是所有搜索引擎的鼻祖【1 6 。当时w w w ( w o r l dw i d ew e b ) 尚未出现,大 量的文件散布在世界各地的f t p 服务器中,查询起来非常不便,因此a l a ne m t a g e 想到了开发一个可以用文件名查找文件的信息检索工具a r c h i e 。a r c h i e 的工作原 理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索f r p 服务器上的文 件,然后对有关信息进行索引,供使用者以一定的表达式进行查询。用户必须输 入精确的文件名搜索,然后a r c h i e 会告诉用户哪一个f t p 地址可以下载该文件。 v e r o n i c 和j u g h e a d 1 9 9 1 年明尼苏达大学( t h eu n i v e r s i t yo fm i n n e s o t a ) 的m a r km c c a h i l l 发明了 g o p h e r i 朔。g o p h e r 是一种类似w w w 的分布式客户机,服务器( c l i e n t s e r v e r j 形 式的信息资源体系。此前由于a r c h i e 成功地实现了对f t p 服务器上的文件进行 搜索,这就激发了人们研究和开发g o 曲e r 服务器上的文件搜索工具。1 9 9 3 年美 国内华达大学s y s t e mc o m p u t i n gs e r v i c e s 小组开发了g o p h e r 搜索引擎v e r o n i c ( v e r ye a s yr o d e n t o r i e n t e dn e t - w i d ei n d e xt oc o m p u t e r i z e da r c h i v e s ) t 埔1 。紧随其 后的是j u g h e a d ( j o n z y su n i v e r s a lg o p h e rh i e r a r c h y e x c a v a t i o n a n dd i s p l a y ) 。 w a i ss e a r c hd i r e c t o r y w a i s ( w i d ea r e ai n f o r m a t i o ns e w e r s 读作 w a y z ,) 是由思维计算机公司 等设计的一种双层客户机服务器( c l i e n t s e r v e r ) 结构的网络全文信息资源和检索 机制。为了检索i n t e r a c t 上的w a r s 资源,人们设计了w a i ss e a r c hd i r e c t o r y 工具。 在一个w a l s 检索过程中,客户机首先检索目录服务器,获得相关数据服务器名 称,再从中选择合适的数据服务器,修改和重新执行原有检索,获得按检索词出 现次数降序排列的相关数据文件名称,用户可调出和浏览这些文件。如今,我们 可用w w w 浏览器来作w a i s 客户机,直接在浏览器地址输入框内输入w a i s 华东师范大学硕士学位论文 目录服务器的u r l t l 9 1 。 以上三类网络信息检索工具作为搜索引擎的雏形在i n t e m e t 信息检索服务发 展过程中发挥了巨大作用,但是随着w w w 的出现并发展成为i n t e m e t 信息资源 的主流,基于w w w 的搜索引擎应运而生,并以其界面友好、使用方便而逐渐 成为全球最大、最流行的网络信息检索工具。 w b d dw i d ew e bw 锄d e r e l 第一个网络机器人 1 9 9 3 年出现了世界上第一个网络机器人程序,它就是麻省理工学院( i r r ) 的学生m a t t h e wg r a y 编写的w o r l dw i d ew e bw a n d e r e r 。刚开始它只是用来统计 互联网上的服务器数量以便追踪互联网发展规模,后来则发展为能够捕获网址, 并由此形成了世界上第一个网页数据库w a n d e x 。 呦o o 一目录型搜索引擎的典型代表 1 9 9 4 年4 月,斯坦福大学( s t a n f o r du n i v e r s i t y ) 的两名博士生,美籍华人j e r r y r a n g ( 杨致远) 和d a v i df i l o 共同创办了y a h o o 。y a h o o 属于目录型搜索引擎 ( d i r e c t o r ys e a r c he n g i n e 或c a t a l o gs e a r c he n g i n e ) ,其数据是依靠人工筛选、手 工输入的,且评判标准十分严格。 用户可以通过两种方式在y a h o o 上面查找信息,一是通常的关键词搜索,另 一是按分类目录逐层查找。以关键词搜索时,网站排列基于分类目录及网站信息 与关键字串的相关程度。包含关键词的目录及该目录下的匹配网站排在最前面。 以目录检索时,网站排列则按字母顺序。 l y o o 旷搜索引擎中的元老 1 9 9 4 年7 月2 0 日美国卡内基梅隆大学( c a r n e g i em e l l o nu n i v e r s i t y ) 的 m i c h a e l m a u l d i n 博士将j o h n l e a v i t t 的“网络蜘蛛”程序接入到其索引程序中, 创建了著名的l y c o s 搜索引擎。l y e o s 是最早提供信息搜索服务的网站之一,被 认为是搜索引擎中的元老。2 0 0 0 年,l y c o s 被西班牙网络集团t e r r a l y c o sn e t w o r k 以1 2 5 亿美元收归旗下,是目前最大的西班牙语门户网络【2 0 1 。 m e t a c r a w l e r 第一个元搜索引擎 m e t a c r a w l e f 是世界上第一个元搜索引擎( m e t as e a r c he n g i n er o u n d u p ) , 1 9 9 4 年由华盛顿大学( u n i v e r s i t yo fw a s h i n g t o n ) 计算机与工程系的硕士生e r i c s e l b e r g 和o r e ne t z i o n i 开发,1 9 9 5 年6 月投入运行1 2 1 】。m e m c r a w l e r 支持调用 1 2 个独立搜索引擎,提供涵盖近2 0 个主题的目录检索服务。用户只需提交一次 搜索请求,由m e t a c r a w l e r 负责转换处理后提交给多个预先选定的独立搜索引擎, 并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。 g o o g i 棚索引擎巨头 g o o g l e 源自于斯坦福大学( s t a n f o r du n i v e r s i t y ) 的一个小项目b a c k r u b 。1 9 9 5 6 华东师范大学硕士学位论文 年博士生l a r r yp a g e 开始学习搜索引擎设计,于1 9 9 7 年9 月1 5 日注册了 g o o g l e c o m 的域名,1 9 9 7 年底,在s e r g e yb r i n 和s c o t th a s s a n 、a l a n s t e r e m b e r g 的共同参与下,b a c h r u b 开始提供演示版( d e m o ) 。1 9 9 9 年2 月,g o o g l e 完成了 从a l p h a 版到b e t a 版的蜕变。g o o g i e 公司则把1 9 9 8 年9 月2 7 日认作自己的生 日。 g o o g l e 提供常规及高级搜索功能。在高级搜索中,用户可限制某一搜索必 须包含或排除特定的关键词或短语。该引擎允许用户定制搜索结果网页所含信息 条目数量,可从1 0 到1 0 0 条任选。提供网站内部查询和横向相关查询。g o o g i e 还提供特别主题搜索,如:a p p t em a c i n t o s h , b s du n i x ,l i n u x 和大学院校 搜索等。 g o o g i e 允许以多种语言进行搜索,在操作界面中提供多达3 0 余种语言选择, 包括英语、主要欧洲国家语言( 含1 3 种东欧语言) 、日语、中文简繁体、朝语等。 同时还可以在多达4 0 多个国别专属引擎中进行选择。 以上我们对搜索引擎的发展历程做了一个粗略的回顾和介绍。总的看来, w w w 出现之前的基于f i p 、g o p h e r 和w a i s 的检索工具被认为是搜索引擎的 雏形,基于w w w 的搜索引擎才是现代意义上的搜索引擎。 2 2 搜索引擎的分类 一般来说,根据搜索引擎所基于的技术原理,可以将其分成:目录搜索引擎 ( d i r e c t o r ys e a r c he n g i n e ) ,机器人搜索引擎( r o b o ts e a r c he n g i n e ) ,元搜索引擎 ( m e t as e a r c he n g i n e ) ,客户端搜索引擎和分布式搜索引擎【3 1 。 1 目录搜索引擎 目录搜索引擎( d i r e c t o r ys e a r c he n g i n e ) 是最早出现的基于w w 3 v 的搜索引 擎,以y a h o o 为代表,国内的搜狐也属于目录式搜索引擎。 目录型搜索引擎的数据库是依靠专职编辑或志愿人员建立起来的,这些编辑 人员在访问了某个w e b 站点后撰写一段对该站点的描述,并根据站点的内容和 性质将其归为一个预先分好的类别,把站点的u r l 和描述放在这个类别中,从 而形成分类目录。分类目录就像一个电话号码薄一样,按照各个网站的性质,把 其网址分门别类排在一起,大类下面套着小类,一直到各个网站的详细地址。随 着收录站点的增多,现在一般都是由站点管理者递交自己的网站信息给分类目 录,然后由分类目录的编辑人员审核递交的网站,以决定是否收录该站点。 由于目录式搜索引擎的信息分类和信息搜集有人的参与,因此其搜索的准确 度是相当高的。但由于目录式搜索引擎,不能及时的对网上信息进行实时监控, 其查全率并不是很好。同时,分类是按分类者或分类软件的分析而定,不一定与 7 华东师范大学硕士学位论文 用户的意见一致。如果你查找的信息没有对应的分类项,则无法进行搜索。 2 机器人搜索引擎 机器人搜索引擎( r o b o t s e a r c h e n g i n e ) 是很常用的一类搜索引擎。它的主要特 点是利用网络机器人去抓取站点网页,然后根据其中的链接信息继续抓取其他网 页,或转向搜索其他站点,如此循环。其基本工作原理大致分为三个模块,如下 图所示: l 偿童齄曩 l , l 臻螂哪卜 罩| |圊副蕊l li 王 、 屯一l 国 f 赢、 图2 , - i 机器人搜索引擎 尽管每个搜索引擎设计的细节大不相同,但是一个搜索引擎一般会包含3 个 要素:机器人、索引程序和搜索软件。 一般地,w w w 搜索引擎执行步骤为: 1 ) 机器人从起始u r l 列表中取出u r l 并从网上读取其内容; 2 1 从每一个文档中提取某些信息并放入索引数据库中; 3 ) 从文档中提取指向其它文档的u r l ,并加入到u r l 列表中; 4 ) 重复上述3 个步骤,直到再没有新的u r l 发现或超出了某些限制( 时间或 磁盘空问1 ; 5 1 给索引数据库加上查询接口,向网上用户发布。 3 元搜索引擎 元搜索引擎( m e t as e a r c he n g i n e ) 是将现有的多个搜索引擎作为一个整体,为 用户提供一个统一的查询界面,用户的查询请求由元搜索引擎根据知识库中的信 息,转换为多个搜索引擎所能识别的格式,然后分别发送给各个搜索引擎,由这 些搜索引擎完成实际的信息检索,最后元搜索引擎再把从各个搜索引擎返回的结 果收集起来,进行比较分析,合并冗余信息,以一定的格式返回给用户1 1 4 j 。 元搜索引擎将用户查找要求递交给其它搜索引擎。它的重点在于改进用户界 面及用不同的方法过滤从其它搜索引擎接收到的相关文档,包括消除重复信息。 元搜索引擎设计简单,但网络的负载太大,典型的元搜索

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论