(计算机软件与理论专业论文)基于index+server的站内搜索系统研究与应用.pdf_第1页
(计算机软件与理论专业论文)基于index+server的站内搜索系统研究与应用.pdf_第2页
(计算机软件与理论专业论文)基于index+server的站内搜索系统研究与应用.pdf_第3页
(计算机软件与理论专业论文)基于index+server的站内搜索系统研究与应用.pdf_第4页
(计算机软件与理论专业论文)基于index+server的站内搜索系统研究与应用.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(计算机软件与理论专业论文)基于index+server的站内搜索系统研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 在电子商务方兴未艾的今天,企业上网不但是为了展示企业形象,提高知名度;也意味 着无穷的商机与财富。而内部网i n t r a n e t 则为企业带来了全新的沟通方式和管理理念。因此 构建企业w e b 站点已经排上了许多企业信息部门的日程。w e b 的优点在于可以方便的展示 大量信息,但同时也带来了信息的泛滥使得寻找有效信息非常困难。为此,好的企业网站都 拥有强大的搜索引擎,使得网站更加友好和便利。对于有政策法规、合同定单等大量文档上 网的企业网站,信息搜索的服务必不可少。 i n d e xs e r v e r 是专门为企业网站设计的专业搜索引擎,利用它可以非常轻松的在网站中 加入功能强大的信息搜索功能。并且i n d e xs e r v e r 搜索的文件不局限于h t m l 格式,还支持 t 、d o c 、e x l 、r t f 、g i f 、j p e g 等多种文件格式,并可以通过插入第三方插件来支持 更多的文件格式。搜索范围可以是存放在本地服务器中的内容,也可以是网络中其他机器的 共享资源,包括1 n t e r n e t 中的资源。搜索时除了文档中的关键字词以外,还可以就文件 大小、修改日期、作者等属性进行搜索。此外i n d e xs e r v e r 还支持英文、简体中文、德语、 法语、臼语等语种,无须编程,就可在网站中实现多语种的搜索引擎。由于i n d e xs e r v e r 是 零维护设计,故只需启动i n d e xs e r v e r 服务,搜索引擎就会自动运行。而在w e b 服务器端, 需要加入与i n d e xs e r v e r 连接的页面。传统i n d e xs e r v e r 的工作过程由浏览器通过h t m l 文 档的f o r m 表单向w e b 服务器发出请求开始,w 曲服务器通过一个类似于数据库接口的专 用文件i d q 与i n d e xs e r v e r 连接,将客户的请求转换成i n d e xs e r v e r 理解的语句。i n d e xs e r v e r 再将查询结果按照模板文件h t x 定义的格式组织成h t m l 文档,通过w e b 服务器返回给 浏览器。这种方式称为h t m l i d q h t x 方式,需要三个文件配合完成查询。使用这种方式 不能对查询结果进行处理,并且模板文件h t x 格式单一。因此微软在i n d e xs e r v e r2 0 中加 入了对a s p n e t 的支持,用一个a s p x 文件替代先前的三个文件。由于a s p n e t 有灵活且功能 强大的脚本语言操纵,因此w e b 开发者可以设计条件复杂的查询,并能更加精确的处理查 询结果。 本文围绕站内搜索这一课题,对i n d e x 戤- r v e r 索引技术、数据采集这两大站内搜索的核 心支撑技术进行了深入细致的研究与分析,并在对g o o g l e 、百度、搜狗等已有站内搜索产品 和市场详细调研的基础上实现了一个实时站内搜索系统。本文所做的主要工作、技术难点与 创新处如下: 1 大量查阅了站内搜索的相关资料,追溯了站内搜索兴起的原因及其发展过程,认真 学习了站内搜索的体系结构、架构过程及应用实旌的知识,深入领会了站内搜索的 概念及其核心支撑技术。 2 深入细致的学习了i n d e xs e r v e r 索引的概念、特点以及i n d e xs e r v e r 系统的体系结构, 并研究了数据的索引过程:过滤,字分离和规范化,并对实现索引查询的数据流程、 体系结构、查询后的结果集以及将i n d e xs e r v e r 索引服务器的数据库连接器做为二次 开发的类库进行了详细的分析与研究,而且也从应用的角度对i n d e xs e r v e r 服务器中 的时间排序、精确排序做了深入的学习。 3 认真学习了s q l 数据库的相关知识,分析了数据库的体系结构,并重点学习了如何 实现对数据库的监控和安全访问。 4 深入学习v i s u a ls t u d i o2 0 0 3 开发【具,详细的研究了w i n d o w s 服务的开发模式, 把w i n d o w s 服务应用到s o c k e t 通信服务器端,充分利用w i n d o w s 服务的优点,扬 长避短,不仅大大提高了生产效率,而且明晰了系统结构,为系统稳定安全的运行 提供了保障。 3 5 深入的学习了网络通信编程技术,以及t c p i p 协议和信息包的知识,并将之用在数 据采集的c s 系统中。 6 基于上述原理和已有的研究成果,设计并实现了站内搜索系统,该系统具有的特点 与创新如下: 1 )本系统中数据采集子系统采用了c s 结构,系统的所有用户可以通过i n t e r n e t 使用本查询系统,不受时间和地点的限制,而且系统基于w e b 的操作方式, 对于有着庞大的互联网用户数量的中国市场来说更加具有竞争力。 2 ) 实时信息查询:百度和o o o g l e 等著名的搜索引擎巨头他们也提供了免费的站 内搜索系统,他们也可以完成快速的站内搜索功能,但是百度或g o o g l e 的站 内搜索系统却不能查到网站内的最新的新闻内容或查到网站中已经不存在的 信息,因为他们的网络蜘蛛不能实时的对每一个网站的内容进行数据的采集。 然后进行索引。所以对于很多数据有一个延迟性。而本站内搜索系统通过对网 站内的数据库进行实时监控处理,有效地采集到网站的最新信息变动,实现了 实时查询。 3 ) 信息数据的生成和管理,为了能使网站的客户能查询到最新的信息,使用 w i n d o w 后台服务对s q l 的数据库信息更新进行实时的监控,及时的把变更信 息用d c l r 文件形式存储并添加到索引服务器中。 舢采用t x t 文件形式存储数据信息,i n d e xs e e r 支持h t m l 、x m l 等多种 文件形式的索引功能,但是t x t 是最稳定,高效的存储格式。 目前,本系统已经在证券之星进行内部安全测试,效果良好。作者在校期间,所发 表的文章见附录。 关键字:站内搜索,数据采集,s o c k e t , i n d e xs e r v e r , w i n d o w s 服务 中图分类号:t p 3 1 1 5 2 4 a b s t r a c t t h eu p s w i n gi ne - c o n l n l c r c ct o d a y ,i n t e r n e tc o m p a n i e sn o to n l yt o d i s p l a yc o r p o r a t e i m a g e ,r a i s ev i s i b i l i t y ;a l s om e a n se n d l e s so p p o r t u n i t i e s a n dw e a l t h w h i l ei n t e r n a li n t r a n e t n e t w o r kf o re n t e r p r i s e so ft h en e wm e a n so fc o m m u n i c a t i o na n dm a n a g e m e n tc o n c e p t t h e r e f o r e c o n s t r u c t i n gac o r p o r a t ew e bs i t eh a sb e e np u ti nal o to fe n t e r p r i s ei n f o r m a t i o ns e c t o ra g e n d a t h e a d v a n t a g e so ft h ew e bi st of a c i l i t a t et h ed i s p l a yo fl a r g eq u a n t i t i e so fi n f o r m a t i o n , i ta l s ob r i n g sa f l o o do fi n f o r m a t i o nm a k e sf o re f f e c t i v ei n f o r m a t i o nv e r yd i f f i c u l t t 0t h i se n d ,g o o dc o r p o r a t e s i t e sh a v eap o w e r f u ls e a r c he n g i n e ,m a k i n gs i t e sm o l ef r i e n d l ya n dc o n v e n i e n t f o rp o l i c i e sa n d r e g u l a t i o n s ,s u c ha sal a r g en u m b e ro fo r d e r sf o rc o n t r a c td o c u m e n t so n l i n ew e b s i t e s ,i n f o r m a t i o n s e r v i c e se s s e n t i a lt ot h es e a r c h i n d e xs e r v e ri sd e s i g n e df o re n t e r p r i s ew e bd e s i g np r o f e s s i o n a ls e a r c he n g i n e ,i tc a nb e v e r ye a s yt oa d dt h es i t ep o w e r f u li n f o r m a t i o ns e a r c hf u n c t i o n s e a r c ha n di n d e xs e r v e rd o c u m e n t i sn o tl i r n i t e dt oh t m lf o r m a ta l s os u p p o r t s 曰汀,d o c ,e x l ,k 盯,g i f ,j p e ga n do t h e rf i l e f o r m a t s , a n db yi n s e r t i n gat h i r dp a r t yp l u g i nt os u p p o r tm o r ef i l ef o r m a t s n es c o p eo ft h e s e a r c hc a l lb es t o r e di nt h es e r v e r sl o c a lc o n t e n t , a n dc a na l s ob en e t w o r k so fo t h e rm a c h i n e s s h a r i n gr e s o u r c e s ,n t e r n e ti n c l u d i n g t h er e s o u r c e s a p a r tf r o mt h ef i l es e a r c ho f k e y w o r d s a l s oo nf i l es i z e ,m o d i f i c a t i o nd a t e ,t h ea u t h o ra t t r i b u t e ss u c ha ss e a r c h i na d d i t i o n i n d e xs e r v e ra l s os u p p o r t se n g l i s h ,e n g l i s h ,g e r m a n ,f r e n c h ,j a p a n e s ea n do t h e rl a n g u a g e s , w i t h o u tp r o g r a m m i n g ,t h ew e b s i t ec a na c h i e v em u l t i l i n g u a ls e a r c he n g i n e a st h ei n d e xs e r v e ri s z e r om a i n t e n a n c ed e s i g n ,i tj u s ts t a r ti n d e xs e r v e rs e r v i c e s ,s e a r c he n g i n e sw i l la u t o m a t i c a l l y r u n t h e 、v e bs c r v e r , t h en e e dt oj o i nw i t hi n d e xs e r v e rc o n n e c t i o np a g e s t r a d i t i o n a li n d e x s e r v e rp r o c e s sb yt h eb r o w s e rt h r o u g hh r d o c u m e n tf o r mf o r mt or e q u e s ti s s u e db yt h e w e bs e r v e r w e bs e r v e rd a t a b a s et h r o u g ha ni n t e r f a c es i m i l a rt ot h es p e c i a lp a p e r g a n di n d e x s e r v e rc o n n e c t i v i t y , c u s t o m e r sw i l lb ec o n v e r t e di n t ot h er e q u e s ti n d e xs e r v e ru n d e r s t a n d i n go f t h ep h r a s e i n d e xs e r v e rf l l r t h e ri n q u i r yi na c c o r d a n c e 埘lt h er e s u l t so ft h et e m p l a t ef i l e sh t x d e f i n i t i o nf o r m a to r g a n i z e di n t oh t m ld o c u m e n t s w e bs e r v e rb a c kt ot h eb r o w s e r t 1 l i s a p p r o a c hi sc a l l e dh t m l i q d h t x 州也t h et h r e ed o c u m e n t sr e q u i r e dt oc o m p l e t ei n q u i r i e s t h eu s eo f s u c hm e t h o d sc a l ln o tq u e r yr e s u l t sp r o c e s s e da n dt e m p l a t ef i l e sh t xs i n g l ef o r m a t m i c r o s o f ti n d e xs e r v e r2 0i na d d i t i o nt ot h es u p p o r to fa s p n e tw i ma l la l t e r n a t i v ed o c u m e n t a s p xp r e v i o u st h r e ed o c u m e n t s a s p n e t 笛af l e x i b l ea n dp o w e r f u ls c r i p t i n gl a n g u a g e m a n i p u l a t i o n ,w e bd e v e l o p e r sc a nd e s i g nc o n d i t i o n sf o rc o m p l e xq u e r i e s ,a n dm o r ep r e c i s e h a n d l i n gi n q u i r i e sr e s u l t s t h i ss e a r c hs t a t i o n sa r o u n dt h es u b j e c t , r i g h ti n d e xi n d e xs e r v e rt e c h n o l o g y ,d a t a a c q u i s i t i o nw i t h i nt h et w om a j o rs t a t i o n ss u p p o r tt h ec o r es e a r c ht e c h n o l o g yo fi n t e n s i v er e s e a r c h a n da n a l y s i s ,g o o g l ea n dt h er i g h t ,b a i d us o g o uh a ss t a t i o n ss u c ha ss e a r c hp r o d u c t sa n dd e t a i l e d m a r k e tr e s e a r c ho nt h eb a s i so far e a l - t i m es t a t i o n ss e a r c hs y s t e m i nt h i sp a p e r , t h em a i nw o r k , t e c h n i c a ld i f f i c u l t i e sa n di n n o v a t i o nd e p a r t m e n ta sf o l l o w s : 1 al a r g en u m b e ro fi n s p e c t i o ns t a t i o n ss e a r c hr e l e v a n ti n f o r m a t i o no nt h eb a c ko ft h es t a t i o n s e a r c ha n dt h er e a s o n sf o rt h er i s eo ft h ed e v e l o p m e n tp r o c e s s ,s e r i o u s l ys t u d yt h es t a t i o n ss e a r c h a r c h i t e c t u r e , s t r u c t u r ea n da p p l i c a t i o no ft h ep r o c e s st oi m p l e m e n tt h ek n o w l e d g e ,i n d e p t h u n d e r s t a n d i n go ft h es t a t i o n ss e a r c ht h ec o n c e p ta n di t sc o r et e c h n o l o g ys u p p o r t 5 2 i n t e n s i v es t u d yo ft h ei n d e xs e t v e ri n d e x i n gc o n c e p t ,c h a r a c t e r i s t i c sa n di n d e xs e r v e rs t r u c t u r e o ft h es y s t e m , r e s e a r c ha n dt h ed a t ai n d e x i n gp r o c e s s :f i l t r a t i o n ,s e p a r a t i o na n ds t a n d a r d i z a t i o no f t h ew o r d ,f o rt h ea c h i e v e m e n to ft h ei n d e xd a t af l o wa r c h i t e c t u r e ,t h ei n q u i r yw i l lr e s u l ts e t s ,a n d i n d e xs e r v e ri n d e xs e r v e rd a t a b a s ec o n n e c t o ra sas e c o n d a r yd e v e l o p m e n to fc l a s sl i b r a r i e sf o ra d e t a i l e da n a l y s i sa n dr e s e a r c h , b u ta l s ot ob ef r o mw i t ht h ep e r s p e c t i v eo ft h es e r v e rs e r v e ri n d e x o f t i m es e q u e n c i n g ,p r e c i s es e q u e n c i n gd o n ea ni n d e p t hs t u d y 3 s e r i o u s l ys t u d yt h es q ld a t a b a s ek n o w l e d g e ,a n a l y s i so ft h ed a t a b a s es t r u c t u r e n 圮s t u d y f o c u s e do i lh o wt oa c h i e v et h er i g h td a t a b a s ea c c e s sc o n t r o la n ds e c u r i t y 4 a ni n - d e p t hs t u d yo fv i s u a ls t u d i o2 0 0 3d e v e l o p m e n tt o o l s ,ad e t a i l e ds t u d yo ft h ew i n d o w s s e r v i c ed e v e l o p m e n tm o d e l ,s e r v i c ea p p l i c a t i o n st ow i n d o w ss o c k e tc o m m u n i c a t i o n ss e r v e r , f u l l u s eo ft h ea d v a n t a g e so fw i n d o w ss c n r i c e sa n dp r e f e c t u r e s n o to n l yg r e a t l ye n h a n c et h e p r o d u c t i o ne f f i c i e n c y ,a n dc l a r i t yo ft h es y s t e ms t r u c t u r ei no r d e rt os t a b i l i z et h es e c u r i t ys y s t e m f o rt h eo p e r a t i o no fp r o t e c t i o n 5 i n - d e p t hs t u d yo fn e t w o r kc o m m u n i c a t i o n sp r o g r a m m i n gt e c h n o l o g y ,a n dt h e t c p i pp r o t o c o l a n dp a c k e tk n o w l e d g e w i l lu s et h ed a t aa c q u i s i t i o no f c ss y s t e m 6 b a s e do nt h ea b o v ep r i n c i p l e sa n dt h ee x i s t i n gr e s e a r c hr e s u l t s ,t h ed e s i g na n di m p l e m e n t a t i o n o fi n t e m a ls e a r c hs y s t e m , t h es y s t e mh a sf e a t u r e sa n di n n o v a t i o na l ea sf o l l o w s : 1 ) 砸ss y s t e mu s e s 也ec ,ss y s t e m , a l lu s e r sc a nl l s et h er e m o t ei n t e m e ti n q u i r ys y s t e m , i n d e p e n d e n to f t i m ea n dp l a c ec o n s t r a i n t s n 氏b a s e ds y s t e ma n dm o d eo f o p e r a t i o n , h a sah u g en u m b e ro fi n t e r a c tu s e r si nc h i n am a r k e tm o r ec o m p e t i t i v e 2 ) r e a l - t i m ei n f o r m a t i o n :b a i d ua n dg o o g l ea r ea m o n gt h el e a d i n gs e a r c he n g i n eg i a n ta l s o o f f e r saf r e es e a r c hs t a t i o n s ,t h e yc a na l s or a p i d l yc o m p l e t e dt h ei n t e m a ls e a r c h f u n c t i o n , b u tb a i d us t a t i o no rw i t h i ng o o g l e ss e a r c hs y s t e mi sn o ta v a i f a b l ew i t h i n t h e s i t e t ot h el a t e s tn e w sc o n t e n t0 1 s i t eh a sb e e nf o u n dt h e r ei sn o i n f o r m a t i o n , b e c a u s ct h e i rn e t w o r k ss p i d e r - n o te v e r yo n eo ft h es i t e sc o n t e n tf o r d a t ac o l l e c t i o n ,a n dt h e ni n d e x e d s oh a v eal o to fd a t ad e l a y e d a n dt h es e a r c hs i t e w i t h i nt h es y s t e mt h r o u g ht h ew e b s i t ed a t a b a s ef o rr e a l - t i m em o n i t o r i n g , t o e f f e c t i v e l yc o l l e c tt h el a t e s ti n f o r m a t i o nw e b s i t ec h a n g e s , r e a l - t i m ei n q u i r y 3 ) t h ei n f o r m a t i o nd a t ag e n e r a t i o na n dm a n a g e m e n t ,i no r d e rt oe n a b l et h ec u s t o m e rs i t ec a nl 瞄m a b o u tt h el a t e s ti n f o r m a t i o n w i n d o wb a c k g r o u n ds e 夏 v i c e su s cs q lt ou p d a t et h e d a t a b a s ei n f o r m a t i o ni nr e a l - t i m em o n i t o r i n g ,t i m e l yi n f o r m a t i o nw i t hy o u rc h a n g e s t x td o c u m e ms t o r a g ea n da d d e dt ot h ei n d e xs e r v e r 4 ) u s et x td o c u m e n t ss t o r e dd a t a ,i n d e xs e r v e rs u p p o r t sh 眦,舭a n do t h e rf o r m so f d o c u m e n ti n d e x i n gf e a t u r e s ,d i st h em o s ts t a b l e ,e f f i c l e n ts t o r a g ef o r m a t c u r r e n t l y ,t h es y s t e mh a sb e e ni nt h es e c u r i t i e ss t a ri n t e r n a ls a f e t yt e s t s ,g o o dr e s u l t s m a u t h o ra tt h es c h o o l ,w h i c hp u b l i s h e dt h ea r t i c l e ,s e ea p p e n d i x k e y w o r d s :s t a t i o n ss e a r c h ,d a t aa c q u i s i t i o n ,s o c k e t ,i n d e xs e r v e r , w i n d o w ss e r v i c e s c l a s s 弧c a t i o nn o :t p 3l1 5 2 6 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究在做出重要贡献的个人和集体,均已在文中以明确方式标明。本人 完全意识到本声明的法律责任由本人承担。 论文作者签名:牛日期:一 关于学位论文使用授权的声明 本人完全了解贵州大学有关保留、使用学位论文的规定,同 意学校保留或向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅;本人授权贵州大学可以将本学位论 文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:邀盈缉二导师签名 第章站内搜索的现状和发展前景 1 1 站内搜索的现状 髓着互联网普及程度的不断提高,搜索引擎成为许多人不可或缺的工具,而他们对各类 搜索引擎的要求也越来越高。而众多拥有大量数据资源的网站受制于搜索技术,无法有效的 把具有很强粘性的独特资源提供给用户,宛如空有万夫莫敌力而无用武之地。因此站内搜索 在1 1 r 受到了广泛的重视。 基于网站的站内搜索功能对于用户获取网站信息具有非常重要的作用,尤其对于含有大 量信息的网站,如b 2 c 网上零售网站、含有大量产品类别的大型企业网站等,但是相对于 公共搜索引擎来说,许多网站的站内搜索功能显得不尽人意,这种状况在一定程度上已经成 为一个网站成败的决定性因素。新竞争力网络营销博客文章“只要好一点就能胜:当当和卓 越的购物体验( 张剑涛2 0 0 6 0 2 2 1 ) ”中,作者以消费者的身份分析了电子商务网站站内搜索 结果对网上购物的影响,这实际上是一种普遍现象。 关于网站站内搜索功能的现状,知名市场研究公司f o r r e s t e r r e s e a r c h 对1 7 9 个欧洲网站 的调查发现,高达9 7 的欧洲在线消费者都使用搜索引擎寻找需要的信息,并且他们把这 种搜索习惯带到了站内搜索中。但调奄发现很多欧洲网站的站内搜索引擎功能并不能满足用 户的搜索需求,超过一半的被调奄网站( 5 6 ) 在站内搜索功能和搜索界面上没有达到 f o r r e s t e r 拟订的站内搜索引擎标准。 调查显示,大部分欧洲消费者往第一次访问一个网站的时候,往往是首先进行站内搜索, 如果搜索结果没有他们想要的,则有1 3 的消费者会马上离开,去别的网站寻找。这对该 网站来说就失去了一个与用户建立关系或增加销售的机会。 在那些没能满足用户搜索需求的5 6 的网站中,大众汽车公司的丹麦站根本没有提供 站内搜索;还有一些站内搜索设计很不友好,如英国著名的玛莎百货m a r k s s p e n c e r 网站 的站内搜索显示用户刚刚搜索的内容,却不提供立即实施第二次搜索的机会。 由于用户习惯了使用g o o g l e 这样的高效搜索引擎,因此在使用他们不熟悉的网站的时 候,他们对站内搜索引擎的依赖性往往高于对浏览器的依赖。f o r r e s t e r 的研究结论是:网站 的站内搜索功能需要引起重视,欧洲网站是时候升级站内搜索了。 f o r r e s t e r 对站内搜索功能的相关研究:f o r r e s t e r 在2 0 0 5 年5 月份对网上购物的一项调 查研究表明,用户网上购物经历越丰富,对站内搜索结果要求越高,这就意味着,电子商务 网站站内搜索结果的质量关系到网上销售的效果,尤其对于有数年在线购买经历的网上购物 老用户更为重要。 1 2w e b 站内搜索方案的横向比较 有很多网站都意识到搜索的重要性,加了个“站内搜索引擎”、“搜索引擎”、“全文检索” 等等。但很多用户会发现,搜索既不能多关键组合查询,也不能支持国际语法,甚至不能支 持全文检索,就更别谈支持相关性排序等真正的搜索引擎具备的功能了。事实上,这些网站 使用的都只是数据库搜索或是基丁s p i d e r 抓取的站内网页搜索,真正具备站内搜索功能应是 全文检索站内搜索技术。以下为当前网站常用站内搜索方案的比较: 7 基于数据库的搜索 基于s p i d e r 抓取的站内搜索 全文检索站内搜索软技术 大部分网站,如中文 部分中大型网站 少量大型网站,如华军网、 网站b t 联盟如俺要下载软件网布谷网( 采用“懒汉搜索 技术) 技术原 数据库搜索经s p i d e r 抓取网页,对h t m l对数据库数据进行h t m l 解 解析分词索引实现网页式站 析、分词,索引,实现站内 理 内搜索 搜索 数据容小于百万级 千万级以上千万级以上 量 检索效秒级速度,准确度高, 毫秒级速度,高速,准确度低毫秒级速度,高速,准确度 窒高 不支持分词功能,无 支持分词功能,但随数据量增支持分词功能,可对过关键 法完成全文检索,但加,搜索结果中垃圾信息比重字进行检索,可基于内容分 检索能 可以用s q l 的单字索弓l上升,影响结果的排序和显示 析的排序方法。所有动态丽 力功能实现最低级的全效果,严重影响精确度。只对 页和没有链接的网页均可 文检索静态页面进行搜索,动态页面有效收录 数据无法抓取 抗压能 差,随数据量上升,抗压能力强,系统安全系数高抗压能力强,系统安全系数 数据库压力增大,系 高 力 统崩溃的危险系数高 结果精 用户对搜索范围、内用户对搜索范围、内容和体现用户可对搜索的内容范围 容和体现的结果无法的结果无法精确控制 和体现的结果进行精确的 度 精确控制 控制 内容范可控制不可有效控制,栏目无法精确 可有效控制,栏目控制精准 围控制 动态摘 无一摘要内容不清晰各种垃圾信 提供动态摘要,摘要清晰精 息过多 确,便于用户快速寻找到所 要 需信息 1 、无关键字飘红l 、有关键字飘红l 、有关键字飘红 2 、无同义词搜索r2 、无同义词搜索2 、有同义词搜索 其他功 3 、可实现相关性排序3 、可实现相关性排序 3 、可实现相关性排序 4 、支持标准的国际搜索语法。4 、支持标准的国际搜索语 能 5 、二次开发成本高 法 5 、持续升级能力,可提供 良好的售后服务 8 1 3 站内搜索的发展前景 由于站内搜索的功能的实现和强大与否和站内搜索的搜索引擎有着密切的联系,而功能 强大的站内搜索引擎往往借用广域上搜索引擎,所以站内搜索系统的发展前景和搜索引擎的 发展前景是密切相关的。 搜索引擎的目标就是在非常短的时间内搜索的信息全面并且准确。传统信息检索系统的 性能参数召回率和精度同样也可以衡量一个搜索引擎的性能。 召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统 ( 搜索引擎) 的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是 检索系统( 搜索引擎) 的查准率。对于一个检索系统来讲,召回率和精度不可能两全其美: 召回率高时,精度低;精度高时,召回率低。对于网民来说,网站上的信息不是不够,而是 “过剩”,如何精确查找到信息是大家所关心的问题。因此,目前的搜索引擎系统都非常关 心精度。 目前搜索引擎是网络上被使用频率最高的服务项目之一。随着i n t e r n e t 的强势发展,各 网站上庞大的数字化信息和人们获取所需信息能力之间的矛盾日益突出。国际数据公司 ( i d c ) 曾公布的一份报告表明,被大肆宣传为“使用简便易用,搜索结果丰富”的搜索引 擎技术正在被信息更集中的局域网取代,因为大多数搜索系统的表现与用户的期望值相差太 大,诸如数据量高速增长的视频、音频等多媒体信息的检索,现在仍然是无法突破的难题。 搜索引擎越来越不能满足挑剔的网民们的各种信息需求,这表现在以下几个方面: 收集的网页数量和其数据库的更新速度存在着不可调和的矛盾。用户经常无法打开查询 的结果。网络信息时刻变动,实时搜索几乎不可能。就是刚刚浏览过的网页,也随时都有更 新、过期、删除的可能。网络信息收集与整理是搜索引擎工作的重要一部分。搜索引擎需要 定期不断地访问网络资源。目前网络带宽不足,网络速度不够理想,遍历如此庞杂的网络时 间花费是非常庞大的,这就是不能实时搜索的原冈。 对多媒体内容的处理尚不成熟。迄今为止,搜索对象主要是文本。基于语义的多媒体搜 索技术还不成熟,比如搜索图片时还只能通过周围相关的文字进行判断,而无法根据图片本 身的信息提供检索。多媒体技术的发展,对搜索引擎提出了更多的要求。人们期望引擎不仅 能挑出自己需要的文章,还能挑出自己所关心的图片、电影、音乐等。搜索引擎的“智能” 有待提高。一般的公共搜索引擎只能查到h t m l 格式,主要的原因是搜索引擎的自动排序软 件s p i d e r s 蜘蛛程序,只能接受这种格式的网页。这意味着,在企业内部的局域网上,任何没 有使用h t m l 格式的信息将无法被外部的搜索引擎查到。这就是为什么像p i t 、w o r d 、p d f 、 电子邮件等文件,以及e r p 、c r m 等应用软件的数据库的信息会长期的“沉没”在信息的 海底中。智能搜索引擎具有跨平台工作和处理多种混合文档结构的能力。譬如既能处理 h t m l ( h y p e r t e x t m a r k u p l a n g u a g e ,超文本标志语言) ,又能处理s g m l ( s t a n d a r d f o r g e n e r a lm a r k u pl a n g u a g e ,通用标志语言标准) 和x m l ( e x t e n d e dm a r k e dl a n g u a g e ,扩展 标志语言) 文档以及其他类型的文档,譬如w o r d 、w p s 等。智能搜索引擎应该可以支持多 语言搜索。 搜索引擎应更好地支持动态网页,许多蜘蛛软件不敢去碰动态网页,怕被变化无穷的动 态系统黑洞吸进去出不来。然而,网站使用动态网页生成工具乃是大事所趋,解决动态网页 查找的问题已经迫在眉睫。 如何解决这些难题已成为第三代搜索引擎探索的方向。一个好的搜索引擎不再仅凭借数 据库大小、更新频率、检索速度、对多语言的支持这几个基本特性来衡量,随着数据库容量 的不断膨胀,如何从庞大的资料库中精确地找到正确的资料,被公认为是下代搜索技术的 9 竞争要点。 在网络信息多样化和网络用户多样化的呼唤下,人们希望在网络上找到更丰富更实用的 资源,不再漫无目的地查找,特色搜索引擎便应运而生了。 寻人搜索引擎。如果您想在网上寻找一位老朋友,那么可以考虑使用y a h o o 提供的寻人搜索 引擎( h t t p :p e o p l e y a h o o c o r n ) 。由于y a h o o 的用户群极为庞大,大多数网民都拥有或曾经拥 有y a h o o 的账户,另外其国际化特征明显,用户群包含了全世界各国的网民。因此,它应该 是大范围寻人的较好选择。尤其当您寻找的人正好在某些非英语国家,找不到专门的搜索引 擎,y a h o o 的优势就更为明显。 图像搜索引擎。图像搜索引擎虽然还没有成熟的产品,但是这项研究工作却紧锣密鼓的 进行着。据称,美国p u r d u e 大学的研究人员已经开发出了一种新的搜索引擎,这种搜索引擎 不再使用关键词文本进行搜索,而是使用图像或者草图进行搜索。不就的将来,用户自己画 一幅草图,搜索引擎就可以对数据库进行搜索,并找到所有与草图类似的图像。不过,这要 求图像搜索引擎能够快速处理超大容量数据库。这种技术不仅为网民提供了方便,在生物、 化学、医学等领域都可能发挥极大的作用。 - 多媒体搜索引擎。f a s t (

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论