(应用数学专业论文)个性化垂直搜索引擎研究.pdf_第1页
(应用数学专业论文)个性化垂直搜索引擎研究.pdf_第2页
(应用数学专业论文)个性化垂直搜索引擎研究.pdf_第3页
(应用数学专业论文)个性化垂直搜索引擎研究.pdf_第4页
(应用数学专业论文)个性化垂直搜索引擎研究.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(应用数学专业论文)个性化垂直搜索引擎研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

河南大学研究生硕士学位论文第1 页 摘要 目前互联网领域主要的搜索引擎服务商如y a h o o 、百度、g o o g le 等, 为用户提供的都是横向的海量信息搜索。而在互联网不断更新和演化的现 阶段,我们发现:普通网络用户想找到所需的资料简直如同大海捞针,海 量的信息已经不再是发展的主要动力,意识和时效性才是真正的动力。互 联网发展的关键不再是能否快速、大量地向用户提供和传递信息,而是能 否实现使用户在期望的时间、期望的地点,以期望的方式和成本,获取期 望的信息。然而综合搜索引擎可以满足大量信息的横向搜索,但很难兼顾 搜索的准确度与相关度的质量。综合搜索。引擎的价值在于做大量的信息导 航,对于信息需求相对集中、分类更加详细的行业客户缺乏导向。解决这 个问题成为搜索发展的机会,也成为未来科研机构竞相研究的热点。垂直 搜索这一新的搜索模式正是在这背景下产生的。 本文主要的研究工作分为两个部分:第一部分通过理论研究分析,提 出了对垂直搜索引擎信息采集算法的改进思路;第二部分通过对垂直搜索 引擎的核心技术进行剖析,设计并实现了一个垂直搜索引擎的原型系统。 正文部分分五章对研究内容进行详细介绍。 第一章绪论部分详细介绍了搜索引擎的发展历史,指出了目前综合搜 索引擎所面临的问题以及解决这些问题的途径,即本文所研究的方向:垂 直搜索引擎。通过和综合搜索引擎在信息服务以及关键技术上的比较分 析,指出垂直搜索引擎存在的巨大优势和发展空间。最后,分析了垂直搜 索引擎在国内外发展状况以及提出本文所要解决的问题。 第二章总体架构与信息采集部分给出了垂直搜索引擎总体架构的设计 方案和工作流程,并对垂直搜索引擎自身特点进行分析。此外,在信息采 集策略方面给出了常用的信息采集模型,并分析了目前通用的信息采集算 法一基于向量空间模型的相似度匹配算法的核心思想及不足。最后,通 过对本体的介绍,提出了构建基于本体知识库的智能化信息采集策略的实 现思路来解决信息采集过程中一词多义和一义多词的问题。 第三章l u c e n e 框架的研究部分对目前最优秀的开源全文检索框架 第li 燹;霉南大学研究生硕士学位论文 l u c e n e 进行了详细的分析。包括对全文检索技术的介绍,l u c e n e 项目的 来源露框絮构成的介绍,以及l u c e n e 所提供静索弓l 藤搜索功能中非裳羹 要的倒排索引技术和评分机制的介绍,并给出了索引建立和搜索实现的核 心程序代码。最后,还介绍了中文分词技术以及l u c e n e 中分词豹实臻原 理。 第瑟帮垂壹搜索弓 辈豹实现部分结合h e r t r i x 开源穗盛察l u c e n e 槎粲 设计并构建一个面向手机产品信息的垂直搜索引擎的原型系统。该系统分 三个部分来实现,第一部分基于h e r i t r i x 框架实现了信意采集动能并设 计了信息结构化抽取程序。第二部分设计了面向手机产品信息的分词工 具,并利用l u c e n e 框架实现了结构化文本信息豹索引。第三部分设计了 基于m v c 架构的查询接口,并实现了原型系统的检索功能。从而为垂直搜 索引擎在技术实现层面提供有益的借鉴和指导。 第五鼋总结与展望部分对本文工作进行了小结,并提出了垂窟搜索引 擎的发展趋势以及若干继续研究的方向。 搜索领域有句名言:“用户无法描述知道他要找什么,除非让他看到 想找的东西”。微软研究院一名技术专家说:“7 5 的内容综合搜索引擎搜 索不出来”。垂直搜索弓l 擎作为搜索引擎技术发展的一个分支方向,是互 联网用户的搜索倾向从起初单纯的希望搜索内容全面向搜索内容全面、搜 索准确率提高以及信息的时效增强转移的必然结果。并且,垂直搜索引擎 通过对行业领域内的信息模型和用户模型结构化的搜集或再组织,将会提 供更多、更专业、个性他的行业楣关照务,与传统综台搜索相比,显得更 为聪明且更具人性化。因此,垂直搜索引擎市场有其存在的必要性和广阔 的发展蒙最,然露垂直接索作为一i 簧剐剐起步的裁技术,还有诲多需要改 进和突破的地方,本文对垂直搜索引擎技术的研究将为垂直搜索的发展提 供现实摆导意义。 关键词:垂直搜索弓i 擎;本体;l u c e n e ;索弓l ;蓿怠捶取;m v c 河南大学研究生硕士学位论文第1 ll 页 a b s t r a c t a tp r e s e n tt h em a i ns e a r c he n g i n ei ni n t e r n e tf i e l dm a i nf a c i l i t a t o ri sy a h o o , b a i d ua n dg 0 0 9 l e ,e t c ,w h i c hp r o v i d et h ec u s t o m e rt of i n dh o r i z o n t a la n dl a r g e n u m b e r so fi n f o r m a t i o n g ow i t ht h ec o n t i n u o u su p d a t ea n de v o l v e m e n to fi n t e r n e t ,i f t h eo r d i n a r yn e t w o r ku s e rw a n t st of i n dt h en e c e s s a r yd a t ai tj u s tl i k el o o k i n gf o ra n e e d l ei nab o t t l eo fh a y ,t h el a r g en u m b e r so fi n f o r m a t i o ni sn ol o n g e rt h em a i np o w e r o ff u r t h e rd e v e l o p m e n t ,t h a ti sc o n s c i o u s n e s sa n dt i m e l i n e s sa r et h er e a lm o t i v ef o r c e t h ek e yp r o b l e mo ft h ei n t e r n e td e v e l o p m e n ti sn o tt op r o v i d ea n dt r a n s f e ri n f o r m a t i o n f o rc u s t o m e rf l e e t l ya n dl a r g e l y ,b u tt om a k eo u rc u s t o m e rt oo b t a i na n t i c i p a n t i n f o r m a t i o na ta n t i c i p a n tt i m ea n dd e s t i n a t i o ni na n t i c i p a n tm o d ea n dc o s t w ec a n s a r i s f yt h el a r g e l yi n f o r m a t i o n sr e s e a r c hi nh o r i z o n t a lw a yb yc o m m o ns e a r c he n g i n e , h o w e v e r ,i ti sv e r yd i f f i c u l tt og i v ec o n s i d e r a t i o nt ot h ea c c u r a c ya n dt h er e l e v a n to f s e a r c hq u a l i t y t h ev a l u eo fc o m m o ns e a r c he n g i n el i e si nt h en a v i g a t i o no fi nal a r g e a m o u n to fi n f o r m a t i o n ,w h i c hi sl a c ko fd i r e c t i o nf o rt r a d ec u s t o m e rw h o s ed e m a n df o r i n f o r m a t i o ni sr e l a t i v e l yc e n t r a l i z e da n dc l a s s i l y i n gi sm o r ed e t a i l e d t os o l v et h i s p r o b l e mb e c o m e st h ec h a n c et ot h ed e v e l o p m e n to fs e a r c he n g i n e i ta l s ob e c o m e st h e f o c u so ft h es c i e n t i f i cr e s e a r c hi n s t i t u t i o nt oc o m p e t i t i v e l ys t u d yi nt h ef u t u r e t h en e w s e a r c hm o d ev e r t i c a ls e a r c he n g i n ei sj u s tp r o d u c e du n d e rt h i sb a c k g r o u n d : t h ei n v e s t i g a t i o no ft h i sd i s s e r t a t i o nc o n s t r u c t sap r o t o t y p es y s t e mo fv e r t i c a l s e a r c he n g i n eb yt h e o r e t i ca n a l y s i sa n di d i o g r a p h i cd e s i g n t h et e x tw i l li n t r o d u c et h e i n v e s t i g a t i o nc o n t e n td e t a i l e d l yi nf i v ep a r t s t h ei n t r o d u c t i o np a r to fc h a p t e ro n eh a si n t r o d u c e dt h ed e v e l o p m e n th i s t o r yo ft h e s e a r c he n g i n ei nd e t a i l ,i nw h i c hh a v ep o i n t e do u tt h ep r o b l e ma tp r e s e n tt h a tt h e c o m p r e h e n s i v es e a r c he n g i n ef a c e sa n dt h er o u t et os o l v et h e s ep r o b l e m s t h a ti st h e d i r e c t i o no ft h ed i s s e r t a t i o ns t u d i e s :v e r t i c a ls e a r c he n g i n e t h r o u g ht h ec o m p a r a t i v e a n a l y s i sw i t hc o m p r e h e n s i v es e a r c he n g i n ei ni n f o r m a t i o ns e r v i c ea n dk e yt e c h n o l o g y , 第 v 耍海露大学秘究生硕士学位论文 i tp o i n t so u tt h a tt h ev e r t i c a ls e a r c he n g i n ei sp r o v i d e dw i t he n o r m o u sa d v a n t a g ea n d d e v e l o p m e n ts p a c e f i n a l l y , i ta n a l y z e st h es t a t eo fd e v e l o p m e n ta th o m ea n da b r o a do f t h ev e r t i c a ls e a r c he n g i n ea n dp r o p o s e dt h ep r o b l e mt h a tt h i st e x ts h o u l ds o l v e o v e r a l lf r a m ea n a l y s i sa n dd e s i g nt h a tb u i l d su pt h ec h a p t e rt w o ,w h i c hp r o v i d e s o v e r a l ld e s i g np l a na n dw o r k f l o wo ft h ev e r t i c a ls e a r c he n g i n e ,a n dt h e na n a l y z e si t s o w nc h a r a c t e r i s t i c i na d d i t i o n ,i tp r o v i d e sc o l l e c t i o ni n f o r m a t i o nm o d e lw h i c hi si n c o m m o nu s ei ng a t h e r i n gs t r a t e g y , a n da n a l y z e st h ek e r n e li d e aa n dt h ed e f i c i e n c yo f t h ec o m m o n l yc o l l e c t i o na l g o r i t h m s c o m p a r a b i l i t ym a t c h i n ga l g o r i t h m sb a s e do nt h e v e c t o rs p a c em o d e l f i n a l l y ,t h r o u g ht h ei n t r o d u c t i o no f o n t o l o g y ,i tp r o p o s e st h e i m p l e m e n tw a yo ft h ei n t e l l i g e n ti n f o r m a t i o ng a t h e r i n gs t r a t e g yb a s e do nt h eo n t o l o g y r e p o s i t o r y ,w h i c hi st or e s o l v et h ep r o b l e mt h a t o n ew o r dm o r et h a nj u s t i c ea n do n e j u s t i c em o r et h a nw o r di nt h ec o u r s eo fi n f o r m a t i o nc o l l e c t i o n , t h ec h a p t e rt h r e ei st h el u c e n ef r a m er e s e a r c hp a r tw h i c hd e t a i l e d l ya n a l y s e st h e c l a s s i co p e n i n gc o d ef u l l - t e x tr e t r i e v a lf r a m e i n c l u d i n gt h ei n t r o d u c t i o no fr e t r i e v a l t e c h n i q u eo ft h ef u l lt e x t ,t h es o u r c eo ft h ep r o j e c t ,t h ei n t r o d u c t i o no nh o wt o c o n s t r u c tt h ef r a m e ,t h ei n t r o d u c t i o no nt h ev e r yi m p o r t a n ti n v e r s ea r r a n g i n gi n d e x t e c h n o l o g ya n dm a r k i n gm e c h a n i s mw h i c ht h ei n d e xa n ds e a r c hf u n c t i o nt h a tl u c e n e p r o v i d e ,a n ds h o wt h ec o r ec o d eo fh o wt oc o n s t r u c tt h ei n d e xa n dr e a l i z et h es e a r c h f i n a l l y ,a l s oi n t r o d u c e st h ep a r t i c i p l et e c h n o l o g yi n c h i n e s ea n dt h er e a l i z a t i o n p r i n c i p l eo fl u c e n e , c h a p t e rf o u rd e s c r i b e sw i t ht h eo p e n i n gc o d er e p t i l eh e r i t r i xa n dt h el u c e n e f r a m ed e s i g nh o wt or e a l i z et h ei n d i v i d u a l i z e dv e r t i c a ls e a r c he n g i n e ,a n dc o n s t r u c t o n ep r o t o t y p es y s t e mo fv e r t i c a ls e a r c he n g i n ew h i c hf a c e dt ot h em o b i l ep h o n e p r o d u c ti n f o r m a t i o n i ti si m p l e m e n t e di nt h r e ep a r t s ,p a r to n er e a l i z e st h a tg a t h e r i n g f u n c t i o no fi n f o r m a t i o nb a s e do nh e r i t r i xf r a m ea n dd e s i g n st h e p r o c e d u r eo f i n f o r m a t i o ns t r u c t u r i z a t i o nc o l l e c t i o n p a r tt w o d e s i g n st h e p a r t i c i p l e t o o l f a c i n g m o b i l ep h o n ep r o d u c ti n f o r m a t i o n 。a n dm a k eu s eo fl u c e n ef r a m et or e a l i z et h ei n d e x o ft h es t r u c t u r i z a t i o nt e x ti n f o r m a t i o n p a r tt h r e ed e s i g n st h ei n q u i r yi n t e r f a c eb a s e d0 n t h a tm v cf r a m e ,r e a l i z e st h es e a r c hf u n c t i o no ft h ep r o t o t y p es y s t e m t h u si tp r o v i d e s b e n e f i c i a lr e f e r e n c ea n dg u i d a n c ef o rt h ev e r t i c a ls e a r c he n g i n eo nt h ea s p e c to f 河南大学研究生硕士学位论文第v 页 _ _ - _ _ - - - - - 。_ _ 。_ _ - - _ _ - - _ _ _ _ _ _ _ _ _ _ _ _ _ - _ - - _ - - _ _ - - - 。- _ _ - _ _ _ _ _ _ _ _ - - 。- 。- _ _ _ _ _ _ _ - _ 。- _ _ - - - - - - _ _ - _ _ _ _ _ _ _ _ _ - _ _ - 。一 t e c h n o l o g y c h a p t e rf i v e s u m m a r i z e sa n de x p e c t sh a v ec a r r i e do nt h eb r i e fs u m m a r yt ot h e w o r ko ft h i st e x t ,h a sp u tf o r w a r dt h ed e v e l o p m e n tt r e n do ft h ev e r t i c a ls e a r c he n g i n e a n ds e v e r a ld i r e c t i o n ss t u d i e di nc o n t i n u a t i o n t h e r ei saf a m o u sm o t t oi nt h es e a r c hf i e l d :”t h ec u s t o m e r sa r eu n a b l et od e s c r i b e w h a th ew a n t st ol o o kf o r ,u n l e s sl e th i ms e et h et h i n gh ew a n t e dt ol o o kf o r ”a t e c h n o l o g i s to fm i c r o s o f tr e s e a r c hi n s t i t u t es a y s :”t h e r ea r ea l m o s t7 5 c o n t e n tt h a t w ec a n ts e a r c ht h e mo u ti nt h ec o m m o ns e a r c he n g i n e s ”a sab r a n c hd i r e c t i o no ft h e t e c h n i c a ld e v e l o p m e n to ft h es e a r c he n g i n e ,t h ev e r t i c a ls e a r c he n g i n ei sn e c e s s i t y r e s u l tt h a tt h ei n t e r n e tc u s t o m e r s s e a r c ht h a ti n c l i n e st ot h eo r i g i n a l l ys i m p l eh o p et o s e a r c ho v e r a l l l yi nc o n t e n tc o n v e r tt on o to n l yo v e r a l l l yi nc o n t e n tb u ta l s oi m p r o v et h e a c c u r a c ya n dt i m e l i n e s so ft h ei n f o r m a t i o n i tw i l lp r o v i d eu sr e l a t e ds e r v i c et h a ti sn o t o n l yi nq u a n t i t yb u ta l s om o r ep r o f e s s i o n a la n di n d i v i d u a t i o n c o m p a r e dw i t ht h e t r a d i t i o n a ls e a r c h ,i ti sm o r es m a r t s ot h ev e r t i c a ls e a r c he n g i n em a r k e th a v ei t s e x i s t i n gn e c e s s a r yc o n d i t i o na n de x p a n s i v ed e v e l o p m e n tf o r e g r o u n d b u ta s an e w t e c h n o l o g ya tt h ee a r l y s t a g e ,t h e r ea r eal o to fp l a c e sn e e dt oi n i p r o v e m e n ta n d b r e a k t h r o u g h ,t h i se s s a y ss t u d yo nt h et e c h n o l o g yo ft h ev e r t i c a ls e a r c he n g i n ew i l lp r o v i d e r e a l i s t i cd i r e c t i v es i g n i f i c a n c ef o rt h ed e v e l o p m e n to fv e r t i c a ls e a r c h k e y w o r d s :v e r t i c a ls e a r c h e n g i n e ;o n t o l o g y ;l u c e n e ; i n d e x i n g ; i n f o r m a t i o ne x t r a c t :m v c 关于学位论文独立完成和内容创新的声明 本人向河南大学提出硕士学位中请。本人郑重声明:所呈交的学位论文是 本人在导师的指导下独立完成的,对所研究的课题有新的见解。据我所知,除 文中特j ;i j d o 以说明、标注和致谢的地易- s , t - ,论文中不包括其他人已经发表或撰 写过的研究成果,也不包括其他人为获得任何教育、科研机构的学位或证书而 段保存、汇编学位论文( 纸质文本和电子文本) 。 ( 涉及保密肉睿的学位论文在解密后适用本授权书) 学位获得者( 学位论文作者) 签名: 7 00 7 + 毛是| s b 学位论文指导教师签名:企型 7 , 00 7 年乡月r 日 河南大学研究生硕士学位论文第l 页 第1 章绪论 本章首先介绍了搜索引擎的发展历史,并指出目前综合搜索引擎所面临 的问题。然后通过比较分析指出垂直搜索引擎存在的巨大优势以及发展空 间。最后,提出了本文要解决的问题。 1 1 搜索引擎发展的历史过程 在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联 网爆炸性的发展,整个网络正在不断累积成一个前所未有的超级大型数据 库。面对如此海量存储的信息空间,普通网络用户想找到所需的资料简直如 同大海捞针,因此,如何快速获取所需的信息已成为信息时代最基本的问题。 搜索引擎正是为了解决这个问题而出现的技术。搜索引擎以一定的策略在互 联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提 供检索服务,从而起到信息导航的目的。 现代意义上的搜索引擎的祖先是1 9 9 0 年由蒙特利尔大学学生m a n e m t a g e 发明的a r c h i e f 】。虽然当时w o r l dw i d ew e b 还未出现,但网络中文 件传输还是相当频繁的,而且由于大量的文件散布在各个分散的f t p 主机 中,查询起来非常不便,因此a l a ne m t a g e 想到了开发一个可以以文件名查 找文件的系统,于是便有了a r c h i e 。从概念上讲,a r c m e 的工作十分简单。 每隔一段时间,一个特殊的程序就会连接到每一个已知的匿名f t p 主机上下 载所有公共文件的完整目录表,然后将这些表存储到i n t e r n e ta r c h i v e s d a t a b a s e 中,当用户要求a r c h i e 检索一个文件对,a r c h i e 能够对该数据库 进行检索。其实,a r c h i e 工作原理与现在的搜索引擎已经很接近,都是依 靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,并保存到索引 库中,供使用者以一定的表达式查询。 正是由于a r c h i e 深受用户欢迎,受其的启发,美国明尼苏达大学的一 个学生m a r km c c a h i l l 与1 9 9 1 年发明了一种叫g o q h e r 的搜索协议。a r c h i e 仅能够索引网络上的文件,而g o q h e r 却可以对网页也进行索引。同时,另 外两个程序v e r o n i c a 和j u g h e a d 可以用来对以g o q h e r 格式进行索引的文 件进行检索。它能够对整个g o q h e r 列表中的目录主题进行关键查找。而 第2 页河南大学研究生硕士学位论文 j u g h e a d 是一个能够从很多g o q h e r 服务器上获取目录信息的工具。 当时,在开发者中,“机器人”( r o b o t ) 是个十分流行的词汇。电脑“机 器人”( c o m p u t e rr o b o t ) 是指能够以人类无法达到的速度不问断地进行某项 任务的软件程序。由于用于检索信息的“机器人”程序象蜘蛛一样,在网络 间爬来爬去,因此搜索引擎的“机器人”程序又被称为“蜘蛛”程序。它能 够在获取网页的情况下,自动遍历其超文本结构,同时递归遍历所有与其相 关的网页。 第一个“机器人”程序诞生于1 9 9 3 年,由美国麻省理工学院的m a t t h e w g r a y 开发,名字叫做w o r l dw i d ew e bw a n d e r e r 。最初它只是用来统计互联 网上的服务器数量,检测网络的规模。从1 9 9 5 年开始,这个程序每个月都 会运行一次,以获取相关信息。后来,它演变成为收集u r l 的工具。 随着网络机器人理论逐渐成熟,1 9 9 3 年2 月,6 个斯坦福( s t a n f o r d ) 大学的学生研究分析字词关系,为互联网上的大量信息作更有效的检索,于 是他们开始发出了e x c i t e ,后来它曾以概念搜索闻名。仅用了一年的时问, e x c i t e 就组成了公司,并在1 9 9 5 年1 2 月上线。不过在2 0 0 2 年6 月,被 i n f o s p a c e 收购的e x c i t e 停止了自己的搜索引擎改用元搜索引擎d o g p i l e 。 1 9 9 4 年斯坦福大学的两名博士生,美籍华人杨致远( j e r r yy a n g ) 和 d a v i df i l o 共同创建了雅虎( y a h o o ) 。一开始,雅虎只是列出一些用户喜爱 的站点,但与其他分类搜索引擎最大的不同是,除了简单的u r l 连接之外, 它还提供了对网页的一些简单描述信息。另外,随着访闯量和收录连接数的 增长,y a h o o 的目录也开始支持简单的数据库搜索。因为最初y a h o o 的数据 是手工输入的,所以还不能够被归为搜索引擎。事实上它只是一个可搜索的 目录。不过一年之内,他们就又得到了投资,并迅速成长壮大,最终成为今 天家喻户晓的搜索引擎。 美国卡耐基梅隆大学的m i c h e a lm a u l d i n 和j o h nl e a v i t 开发的网络机 器人程序与其创建的索引程序组合在一起,创建了l y c o s 。1 9 9 4 年7 月2 0 日,数据量为5 4 0 0 0 个文档的l y c o s ( m 1 y c o s c o m ) 搜索引擎正式发布。 l y c o s 的出现是搜索引擎史上又一个重要的进步l y c o s 除了引入相关度排 序外,还提供了前缀匹配和字符相似度限制。同时,它还是第一个使用了网 页自动摘要的搜索引擎。不过,其最大的优势还是它远胜过其他搜索引擎的 数据量:1 9 9 4 年8 月它收集了3 9 4 0 0 0 个文档;到1 9 9 5 年1 月,这个数据 量达到了1 5 0 万;而到1 9 9 6 年1 1 月,l y c o s 已经有了超过6 0 0 0 万个文档。 1 9 9 5 年初,搜索引擎家族又添了新的一员;i n f o s e e k 。i n f o s e e k 是另 外一个重要的搜索引擎。虽然公司声称1 9 9 4 年1 月已经创立,但直到年底 河南大学研究生硕士学位论文第3 页 其搜索引擎才与公众见面。起初,i n f o s e e k 只是一个不起眼的搜索引擎。 它沿袭了雅虎和l y c o s 的概念,并没有什么独特的创新,但是它的发展史和 后来受到众口称赞证明的它的重要性。i n f o s e e k 友善的用界面和大量附加 服务使它的声望日益增加。而1 9 9 5 年1 2 月与n e t s c a p e 战略性协议,使它 成为强势搜索引擎。作为当时使用最为广泛的互联网浏览器,每当用户点 n e t s c a p e 浏览器上的搜索按钮时,总会弹出i n f o s e e k 的搜索服务,此前, 该项服务是由y a h o o 提供的。到了i n f o s e e k ,搜索引擎的发展已经基本成型。 它与现在的搜索引擎在功能上没有太大的区别。所不同的,只是受当时的硬 件发展束缚,搜索引擎在性能上还有待提高。 l t a v i s t a ( 1 r w w a l t a v i s t a c o m ) 是在1 9 9 5 年1 2 月推出的。虽然到来晚 些,不过大量的创新功能使它迅速达到了搜索引擎的顶峰。a l t a v i s t a 最大 的优点是搜索引擎速度快。同时,它的另一些新功能则永远改变了搜索引擎 的定义。a l t a v i s t a 是第一个支持自然语言搜索的搜索引擎。同时,它也是 第一个实现高级搜索语法的搜索引擎。所谓高级搜索语法,就是允许用户在 查找关键字时。输入一些逻辑运算符,以表示关键字之间的关系。用户可以 用a l t a y i s t a 搜索新闻组的内容,并从互联网上获得文章,还可以搜索图 片名称中的文字、搜索目录、搜索j a v aa p p l e t s 和搜索a c t i v e x 对象。 a l t a v i s t a 也声称是第一个支持用户自己想网页索引库提交或删除u r l 的搜 索引擎,并能在2 4 小时内上线。除此之外,a l t a v i s t a 还添加了一个新功 能,使它能搜索有链接指向某个地址的所有网站。在用户界面上,a l t a v i s t a 也有长足的进步。它能在搜索框区域下使用一些提示,以帮助用户更好的使 用表达搜索式,从而构建更准确的和有效的搜索关键字。这些搜索提示经常 更新,这样,在使用过几次a l t a v i s t a 的服务后,用户会看到很多从来不知 道的搜索功能。 因该说,a l t a v i s t a 是功能最为全面的搜索引擎,它在g o o g l e 声明鹤 起之前曾经名噪一时,但现在其地位已被g o o g l e 取代。即便如此,它仍然 认为是功能最完善,搜索精度较高的全文搜索引擎之一。截止2 0 0 2 年6 月, a l t a v i s t a 宣称其数据库已存有1 1 亿个w e b 文件,并且经过升级,其搜索 精度已达业界领先水平。在a l t a v i s t a 诞生的那几年,业界还出现了一些其 他搜索引擎。但是它们的出现并没有给整个搜索引擎领域带来新鲜感。不过, 这种情况很快被打破了。1 9 9 8 年的1 0 月g o o g l e 正式推出,迅速成为业界 的领头羊。g o o g l e 在网页排序,动态摘要,网页快照,每日更新,多文档 格式支持,地图、股票、词典、任务搜索等方面的创举,令全世界为之一惊。 第4 页河南大学研究生硕士学位论文 它在集成搜索、多语言支持、用户界面等功能上的革新,像a 1 t a v i s t a 一样, 再一次永远改变了搜索引擎的定义。 事实上,在1 9 9 8 年1 0 月之前,g o o g l e 只是斯坦福大学的一个小项目 b a c k r u b 。1 9 9 5 年,博士生l a r r y p a g e 开始学习搜索引擎设计,并与1 9 9 7 年9 月1 5 日注册了g o o g l e c o m 的域名。1 9 9 7 年底,在s e r g e yb r i n 、s c o t t h a s s a n 和a 1 a ns t e r e m b e r g 的共同参与下,b a c h r u b 开始提供d e m o 。1 9 9 9 年2 月,g o o g l e 完成了从a l p h a 版到b e t a 版的蜕变。g o o g l e 公司则把1 9 9 8 年9 月2 7 日认作自己的生日。在2 0 0 0 年以前,g o o g l e 虽然以搜索的准确 性备受称赞,但因为数据库不如其他搜索引擎大,并且缺乏高级搜索语法, 所以使用价值不是很高,推广并不快。直到2 0 0 0 年数据库升级后,又接着 被y a h o o 选作搜索引擎的东风,才飞冲天。 进入2 0 0 0 年,互联网高速发展,网上信息量以指数级速率增长着。这 再次为搜索引擎的发展提供了良好的背景。搜索引擎成为继门户网站后的又 一个重心。但是同时,在中文搜索领域,全世界还没有任何一个搜索引擎有 着令人满意的效果,其中的原因是多方面的:一方面,源自于中文的复杂性 和汉语分词的不确定性;另一方面,也是由于国内搜索引擎技术水平与国外 还有着较大的差距。 2 0 0 0 年1 月,超链接分析专利发明人,前i n f o s e e k 资深工程师李彦宏 与好友徐勇( 加州伯克利分校博士) 携1 2 0 万美元从美国硅谷回国,他们在 北京中关村创立了酉度( b a i d u ) 公司。创立之初,百度就将自己定位于打造 中国人自己的中文搜索引擎。2 0 0 0 年5 月,百度首次为门户网站“硅谷动 力”提供搜索技术服务,之后它迅速占领了中国搜索引擎的市场,成为国内 最主要的搜索技术供应商。2 0 0 1 年8 月,百度公司发布了b a i d u c o i n 搜索 引擎b e t a 版,从后台服务转向独立提供服务,并在中国首创竞价排名的商 业模式。2 0 0 1 年1 0 月2 2 日,正式发布b a i d u 搜索引擎。b a i d u 虽然只提 供中文搜索,但目前收录的中文网页超过9 0 0 0 万,是最大的中数据库。b a i d u 搜索引擎的其他特色包括:网页快照、网页预览、相关搜索词、错别字纠正 提示、新闻搜索、f l a s h 搜索、信息快递搜索。2 0 0 5 年8 月5 日,百度在纳 斯达克上市,成为2 0 0 5 年全球资本市场上最为引人注目的上市公司,中国 的搜索引擎市场由此进入一个崭新的阶段。 河南大学研究生硕士学位论文第5 页 1 2 为什么需要垂直搜索引擎? 2 0 0 6 年1 0 月份发布的( 2 0 0 6 年中国搜索引擎市场调查报告显示【2 1 , 上网用户对搜索引擎的依赖性越来越高,每次上网都要用到多次搜索引擎的 比例达4 4 2 ,接近一半,搜索引擎服务成为最受欢迎的网络服务。归其原 因,是它解决了用户在浩瀚的互联网海量信息中快速定位信息的瓶颈问题。 但是,互联网的信息量呈爆炸趋势增长,海量数据的增加带来的是传统 综合搜索引擎( 又称为水平搜索引擎) ,如百度和g o o g l e 的搜索品质的下降。 搜索弓l 擎在搜集网络信息方面远远赶不上网络信息的增长速度,庞大的网络 信息资源使得搜索变得越来越难以控制。目前,尽管搜索引擎技术的发展日 益成熟,但是要准确、快速地查找到所需要的信息却越来越困难。一是查询 的结果集是海量的,经常是几十万笔的资料,在这些庞大的信息群中,有用 的信息只是其中一小部分,可谓“冰山一角”,而且,这些搜索结果中存在 着大量的重复信息和垃圾信息,用户很难在短时间内准确地筛选出需要的内 容,出现所谓的“认知过载”【3 l 。二是目前的搜索引擎都是要求用户严格按 照所规定的格式输入查询词,但种种限制使用户不知道如何确切地表达自己 的信息需求,即所谓的“迷航”f 4 j 。这些用户需求和市场服务之间的巨大反 差所产生的问题使人们开始呼唤更有针对性的搜索引擎的出现。 垂直搜索引擎的产生正是有效地解决了综合搜索引擎搜索质量不高的 问题。它为用户提供的不再是成千上万的相关网页信息,而是范围很小,且 极具针对性的具体信息。那么,什么是垂直搜索引擎昵? 垂直搜索引擎( v e r t i c a ls e a r c he n g i n e ) 的定义: ( 1 ) 是指应用于搜索某一学科领域或某一类信息( 如图像、影像) 的专 业搜索引擎,又称为专题搜索引擎、专门搜索引擎,是搜索引擎的细分和延 伸。嘲 ( 2 ) 是专为查询某一学科或主题的信息而产生的查询工具,是相对综合 搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论