




已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
内容提要 搜索引擎是w w w 上出现最早的网络二次信息组织 工具,也是w w w 上最有效的信息检索工具。搜索引擎 经历了近十年的发展,它一方面极大地改善了人们在网络 上进行信息搜索的手段,另一方面由于种种原因在信息收 录完备性、检全率、检准率、检索功能和用户检索界面等 方面还存在许多不足之处。 本文首先回顾了搜索引擎的发展历程,说明了搜索引 擎的基本工作原理、类型与功能。在我们建立的搜索引擎 评价指标体系基础上,对搜索引擎进行重新评价。得出搜 索引擎现存的最主要问题是:信息完备性差、检准率不高、 检索界面不够友好。 本文集中解决如何提高搜索引擎信息收录完备性与 改善搜索引擎检索功能这两个问题,综合运用协作式搜索 和分布式检索,通过移动a g e n t s 技术来实现搜索引擎之 间的信息共享。针对当前搜索引擎将关键词检索和分类主 题检索分离的缺陷,借鉴关键词检索、概念词检索和分类 主题检索一体化的思想,阐述了一体化的实现对于提高搜 索引擎检准率和检全率以及改善检索界面友好性的作用 与意义。 关键词:搜索引擎检索协作式结构分布式系统 s t u d y o nt h ec u r r e n ts i t u a t i o na n d d e v e l o p m e n to f s e a r c he n g i n e a b s t r a c t :t h es t u d yr e v o l v e sa r o u n dt h es e a r c he n g i n e ,w h i c hi st h e e a r l i e s ta n dt h em o s te f f i c i e n tt o o if o ri n f o r m a t i o no r g a n i z a t i o na n dr e t r i e v a l o nt h ei n t e r n e t t h em e t h o d so fs e a r c h i n gi n f o r m a t i o no nt h ei n t e r a c tw o r l d h a v eb e e ni m p r o v e dg r e a t l yb ys e a r c he n g i n e 。h o w e v e r , f o rs o m er e a s o n s , s e a r c he n g i n ed o e sn o tc o l l e c ti n f o r m a t i o np e r f e c t l y , a n dp r o v i d e su n s a t i s f i e d r e c a l lr a t i o ,p r e c i s i o nr a t i o ,r e t r i e v a lf u n c t i o na n dt h ei n t e r f a c e t h ea r t i c l el o o k sb a c ko nt h ec o u r s eo f t h ed e v e l o p m e n to fs e a r c he n g i n e , a n di l l u s t r a t e st h ew a yb yw h i c hs e a r c he n g i n ew o r k s ,a n de x p l a i n si t s c a t e g o r i e sa n df u n c t i o n s r n l ea r t i c l es t u d i e st h et r a d i t i o n a le v a l u a t i o ns y s t e m i n c l u d i n gc o v e r a g e ,r e c a l lr a t i o ,p r e c i s i o nr a t i o ,r e s p o n s et i m e ,a n dt h e f r i e n d s h i po f t h ei n t e r f a c e t h e n ,i te x p l a i n st h em a j o rd i f f e r e n c eh a p p e n e dt ot h es e a r c he n g i n eo n t h ei n t e r a c t o nt h eb a s eo f t h en e wp r i n c i p l e s ,t h ea r t i c l ee v a l u a t e st h es e a r c h e n g i n ea g a i n ,a n dm a k e st h ec o n c l u s i o nt h a tt h em a j o rp r o b l e m so ft h e p r e s e n ts e a r c he n g i n e sa r ep o o rc o v e r a g e ,l o wp r e c i s i o nr a t i o ,a n dr e l a t i v e l y u n f r i e n d l yi n t e r f a c e w ef o c u so nh o wt ob e t t e rt h ec o v e r a g ea n dh o wt oi m p r o v e1 1 1 e f u n c t i o n so f s e a r c he n g i n e w e s u g g e s t t h a ts e a r c h e n g i n e s h o u l d c o m p r e h e n s i v e l yu s et h ec o i l a b o r a t i v es e a r c hr o b o t sa n dt h ed i s t r i b u t i v e r e t r i e v a s y s t e r nt om a k et h ej n f o r m a t i o ns h a r e d i no r d e rt ot e , m o v et h e d e f e c t so ft h er e t r i e v a lf u n c t i o no ft h ep r e s e n ts e a r c he n g i n e ,t h ep a p e rm a k e u s eo ft h ei d e at h a tt h ek e y w o r dr e t r i e v a l t h es u b j e c tr e t r i e v a la n dt h e c l a s s i f i c a t i o nr e t r i e v a ls h o u l db ei n t e g r a t e d ,a n de x p o u n d st h ei m p o r t a n c eo f t h ei d e at oi m p r o v et h er e c a l lr a t i o ,t h ep r e c i s i o nr a t i oa n dt h ef r i e n d s h i po f 血ei n t e r f a c eo f s e a r c he n g i n e k e y w o r d s :s e a r c he n g i n e r e t r i e v a l c o l l a b o r a t i v es e a r c hr o b o td i s t r i b u t i v er e t r i e v a ls y s t e m 图表索弓 图2 - 1 搜索引擎基本结构8 图2 - 2 自动采集器工作原理9 囤2 。3 网页的原始数据存储结构1 1 图2 - 4 按照关键词建立的索引库1 3 图2 5 根据类别建立的类别索引库1 3 图4 1 协作式搜索机器人3 1 图4 - 2 搜索引擎的分布式结构3 2 图4 3 传统搜索机器人的结构3 3 图4 - 4 移动式搜索机器人3 4 表3 1主要搜索引擎的数据库规模和覆盖率2 5 引言 1 9 7 2 年a r p a n e t 实验性连网的成功标志着因特网的诞生,1 9 9 3 年所有与a r p a n e t 连接的网络实现向t c f s p 的转换t c p o p 协议 运用包交换技术成功解决了不同平台、网络和操作系统间的兼容性 问题,具有统一的网络互联标准,能够支持多种交流模式。这使得 网络信息发布自由,出版速度快捷,信息资源数量增长迅速,网络 信息形式多样,变化频繁,结构复杂 从i n t e m e t 诞生初期,信息搜索利用的问题就已经存在,为了 能够硷索剁用网上大量的信息资源,因特网上不断地出现了一些信 息检索工具,包括名录服务x 5 0 0 ,f t p 文档地址检索系统a r e h i e , 菜单式信息检索系统g o p h e r ,广域信息服务系统( w i d ea r e a i n f o m a m i o ns e r v i c e s ,w a i s ) ,和超文本信息查询工具w w w ( w o r l d w i d e w e b ) 等 1 1 。 w w w 中的各种信息都使用统一的格式u r l ( u n i f o r m r e s o u r c el o c a t o r ) 访问,并采用超级链接技术形成“超丈本”“超媒 体”的信息组织方式,h t m l 语言通过“标记”寿“属性”对文本 语义进行描述。w w w 的出现改变了人们访问和使用网上信息的 方式,提供给用户一个简单而功能强大的全球信息系统,很快成为 臣特网信息发布与传递的主要平台。然而,w w w 信息量的指数级 增长、形式的多样性及其分布式等特性给网上寻找信息带来了更大 困难,仅靠w w w 自身的导航能力,使人们很难查找到所需信息, 人们迫切希望找到一种在线w w w 信息搜索工具,借助专业的信 息搜索工具来提高信息查询利用的效率。 搜索引擎的产生改变了过去基于信息导航和信息发现的检索 方式,进而过渡到基于内容的搜索,也就是用户提供需求的描述, 系统协助定位符合需求的信息 1 】。搜索引擎是w w w 上出现最早 的网络二次信息组织工具,也是w w w 上最有效的信息检索工具 ( 但i n t e m e t 上传统的f t p 、w a i s 和g o p h e r 并没有完全消失,它 们都能通过w w w 浏览器阅读) 。 搜索引擎至今已经历了近十年的发展它一方面极大地改善了 a 4 n 在网络上进行信息搜索的手段,另一方面由于种种原因在信息 收录完备性、检全率、检准率、检索功能和用户检索界面等方面还 存在许多不足之处。搜索引擎发展的主要问题是信息收录的完备性 不够、检全与检准都不理想、检索功能单一。 改进搜索引擎的思路有很多、涉及的课题和技术非常广泛本 文将集中于提高搜索引擎信息收录完备性和改善搜索引擎目前的 检索功能这两个问题。综合运用协作式搜索和分布式检索,通过移 动a g e n t s 技术来实现搜索引擎之间的信息共享针对当前搜索引 擎将关链词检索和分类主题检索分离的缺陷,借鉴关键词检索、概 念词检索和分类主题检索一体化的思想,阐述一体化的实现对于提 高搜索引擎检准率和检全率以及改善检索界面友好性的作用与意 义。 1 搜索引擎的发展现状 1 1 相关搬念界定与说明 目前,人们对“搜索引擎”概念的理解尚存在分歧: 一般认为搜索引擎是由一系列技术组成的w w w 上的在线检 索工具。如:“搜索引擎( s e a r c he n g i n e s ) 是利用网络自动搜索技 术,对因特网各种资源进行标引,并为检索者g :g t - , 检索的工具”f l 】; “搜索引擎( s e a r c he n g i n e s ) 指对w w w 站点资源和其它网络资 源进行标引和检索的一类检索系统机制,例如y a h o o ! 、a i r a v i s t a 、 i n f o s e e k 、e x c i t e 和搜狐( s o h ur 【2 】。 但习惯上人们认为搜索引擎是查询网站或网页信息的站点或 工具。如:“搜索引擎是i n t e m e t 上的一个网站,它的主要任务是在 i n t e r n e t 上主动搜索w e b 服务器信息并将其自动索引,其索引内容 存储于可供查询的大型数据库中。当用户输入关键字( k e y w o r d ) 查询时,该网站会告诉用户包含该关键字信息的所有网址,并提供 通向该网站的链接”【3 】。 2 也有人认为前述所列均是对搜索引擎狭义的理解,而“广义地 说,搜索引擎是指在互联网上或通过互联网能够响应用户提交的搜 索请求,返回相应查询结果的信息技术和系统,这里所说的信息可 以是任意的信息,如网站信息、商品信息等”【4 】 我们可从以上定义中总结出两点:( 1 ) 搜索引擎是由一系列技 术组成的网络信息在线查询系统,它具有相对稳定的检索功能,即 关键词检索和分类浏览式检索。( 2 ) 这种查询系统借助不同网站的 服务器,协助网络用户查询信息,并且该服务是该网站的核心服务 项f l 。本文无意要为搜索引擎增加一条新定义,谨以此说明本文所 采用的“搜索引擎”的内涵 这种将技术和实体分离的含义理解是符合搜索引擎原理和当 前发展实践的。从技术上看,搜索引擎是由采集标引机制、数据组 织机制和用户检索机制组成的完整检索系统,它的信息搜集对象是 网络信息资源。虽然在搜索引擎最初的发展中,不同的搜索引擎网 站一般都拥有自己的搜索引擎技术,但是现在随着搜索引擎技术的 成熟,逐步实现了商品化:不同的搜索引擎网站运用了共同的搜索 引擎技术、共享了相同的数据库资源,如:g o o g l e 同时为y a h o o ! 、 网易等数家搜索引擎公司提供技术支持。此外,随着互联网规模和 信息量的急剧膨胀,一家搜索引擎光靠自己单打独斗已无法适应目 稚的市场状况,现在不仅搜索引擎之间开始出现了分工协作,并且 有了专业的搜索引擎技术和搜索数据库服务提供商,a l t av i s t a 、 百度、i n k t o m i 等都是著名的搜索引擎技术提供商。 1 2 搜索引擎的发展历程 ( 1 ) 搜索引擎的产生 对于搜索引擎的发端,人们莫衷一是,有人认为是发端于1 9 9 4 年4 月w c b c r a w l e r 搜索引擎在网上正式发布【5 】。有人认为最早的 真正意义上的搜索引擎是l y c o s ,创建于1 9 9 4 年的春天。当时 m i c h a e lm a u l d i n 将j o h nl e a v i t t 的s p j d e r 程序接入到其索引程序中 6 1 。也有人认为第一个真正意义上的现代搜索引擎出现在1 9 9 4 年 7 月,也就是大家熟知的超级目录索引y a h o o ! 【7 】。 搜索引擎的产生当然不是一日之工,它是在经历了长期发展之 后逐步走向成熟的。1 9 9 0 年蒙特利尔大学学生艾伦伊米杰发明的 a r c h i e 算是现代搜索引擎的雏形,它依靠脚本程序自动搜索网上共 享的文件,然后对相关信息进行索引,以供使用者查询。a r c h i e 工作原理与现在的搜索引擎很相似,不过此时的搜索工具还只限于 文件索引功能世界上第一个用于监测互联网发展规模的“机器 人”程序是马太杰瑞开发的w o r l dw i d ew e bw a n d e r e r ,刚开始它 只用来统计互联网上的服务器数量,后来则发展为能够检索网站域 名。马丁科斯特于1 9 9 3 年1 0 月创建了a l l w i r b ,它是a r c h i e 的 h t t p 版本a l l w e b 不使用“机器人”程序,而是依靠网站主动提 交信息来建立自己的链接索引,类似于现在我们熟知的y a h o o 网站 【7 】。 浏览器的发展是另一项技术因素1 9 9 3 年,i n t e r n e t 上出现 了最早的w e b 浏览器m o s a i c ,次年t i e t s c a p e 推出了n a y i g a t o r , 浏览器的发展促使w e b 得到迅速推广,同时也推动着搜索引擎的发 展。 除了技术因素外,搜索引擎发展的外在原因是劂迅速发展并 成为因特网的主要平台。据文献【8 】提供的资料,1 9 9 3 年注册的万 维周服务器只有6 2 个,1 9 9 4 年4 月达到8 2 9 个,一个月之后,数 量使达到1 2 4 8 个,到1 9 9 6 年6 月,万维网服务器的数量增加到2 3 万个,其中仅1 9 9 6 年1 月到6 月之间网址的数量便增加1 3 万个。 网络信息资源的检索利用必须借助专业的信息搜索工具。 所以到1 9 9 4 年搜索引擎也开始进入到快速发展时期。1 9 9 4 年 大卫菲勒和美籍华人扬致远共同创办了y a h o o ! ,由a l t a v i s t a 提 供技术支持。m i c h a e lm a u l d i n 将j o h nl e a v l t t 的s p i d e r 程序接 入到l y e o s 的索引程序中,l y c o s 创建于1 9 9 4 年的春天。 从1 9 9 4 年4 月中国科学院网首次与i n t e r n e t 网互联开始,中 文搜索引擎的发展速度也非常惊人,台湾和香港加入互联网的时间 较早,建立和发展中文搜索引擎的历史较长,其发展速度也很快。 在中国,大陆的中文搜索引擎以天网、搜狐、网易、新浪搜索等为 代表;台湾的中文搜索引擎以o p c n f i n d 、奇摩、盖世引擎等为代表; 香港的中文搜索引擎以茉莉之窗、网上行、悠游等为代表。国际上 一些大型的搜索引擎公司也纷纷加入了中文搜索引擎市场,最具有 代表性的是 l t av ls t a ,y a h o o 中文简体版和繁体版,还有e x c it e 。 ( 2 ) 搜索s l 擎的发展 搜索引擎大致经历了两个发展阶段,人们一般称为第一代搜索 引擎和第二代搜索引擎第一代搜索引擎以y a h o o ! 模式为典范。它 是一个综合性网站,提供的服务种类多,内容广泛,涉及领域广, 通过等级列举式浏览检索和关键词检索查询因特网上各类学科领 域的内容。因其提供的是免费的大众化的综合性信息服务,所涉范 围广泛而不深入,故被称为水平门户网站。主要代表如:y a h o o ! 、 e x c i t e l y c o s 等。 但是,随着网上信息的爆炸式增长和信息形式花样的不断翻 新,搜索引擎越来越不能满足挑别的网民们的各种信息需求人们 更加需要搜索引擎提供针对某一特定领域、特定人群或特定需求提 供有一定深度的信息和相关服务。这就是所谓的“垂直门户网站”, 它在1 9 9 9 年提出,典型代表有s i n o i a m 、h e a l t h e o m c o m 、 n i e d i c o m u l t c o n l 等【9 】, 垂直门户网站可以分为专业领域垂直门户和综合垂直门户 9 。专业领域垂直门户又可分为提供特定领域信息服务,如:中华 万游网( 旅游) 、d o u b l e c l i c k t o m ( 广告) ;提供专业信息服务,如: 北大法律信息网( 法律) ;为满足特定人群需求提供信息,如:考 研网( 准备考研的学生) 、集邮网( 集邮爱好者) ;提供某个领域的 电子商务信息,如软件屋之类。综合垂直门户是将多个垂直门户( 网 站) 组合而成,如:v e r t i c a l n e t 和国内的东方龙( e d r a g o n n e t ) 。 搜索引擎第一代一般设计为门户网站,搜索引擎第二代的发展 方向有两个:一个是向服务深入、集中、专业化的垂直门户网站方 向发展;另一则是像i n k t o m i 、g o o g l e 、百度那样专门给网站提供 技术与服务的a s p ,或是为其他网站提供数据库服务。这一类搜索 引擎主要是为其他引擎提供后台支持。 第二代搜索引擎不断采用新的技术,如:g o o g l e 采用链接评价 体系,根据网页链接敷量评价文件的重要性。a s kj e e v e s 是第一个 实现智能查询系统的搜索引擎,对自然语言提问进行结构和内容分 析h o t l i n k s 通过挖掘a 4 r 1 日常使用的书签( 或收藏夹) 的潜在价 值,形成一个类似y a h o o ! 的分类搜索体系,从而成为一个有力的辅 助工具还有一些搜索引擎着力于开拓网络上的信息资源,针对 w e b 上的数据库资源进行导航和信息服务,善于揭示不可见的非 w e b 信息资源。如以非w e b 信息导航服务为主的d i r e c ts e a r c h , l y c o si n v i s i b l ew e bc a t a l o g ,i - s l e u t h 等;以信息搜索服务为主的 i n v i s i b l e w e b t o m ,n o r t h e r nl i g h t 的“s p e c i a lc o l l e c t i o n ”f 4 l 。 由于第二代搜索引擎可以将搜索引擎技术的研究开发与搜索 引擎网站的经营分离开,第二代搜索引擎能够更加集中注意力开发 搜索引擎网站的服务项目,搜索引擎进一步商业化,在商业模式上 不断推陈出新。自从g o t o c o m 最先将拍卖的概念引入搜索引擎服 务以来,搜索引擎作为网站或广告宣传工具的功能就受到了重视。 当用户检索某些词时,广告商可以通过竞拍使自己的网站在搜索结 果中的排名提前,允许通过实时竞标的方法自主地决定自己在搜索 引擎相关条目下的排列位置,从而有效购买用户的页面点击率和注 意力。 尽管人们越来越离不开搜索引擎这个网络信息检索工具,然而 任何一个搜索引擎都不可能1 0 0 的覆盖网络上的信息。用户通常 需要检索多个搜索引擎才能获得较全面的检索效果,于是产生了元 搜索引擎。元搜索引擎又称为集合式搜索引擎,是一种基于独立搜 索引擎的搜索引擎,它通过自己定制的检索界面接受并处理用户的 查询提问,在进行实际查询时调用一个或多个独立搜索引擎的数 据,搜索结果是来自独立搜索引擎的检索结果或者是这些结果集合 的综合。元搜索引擎区别于独立搜索引擎的主要特征是:将一次提 问提交给多个搜索引擎;基于独立搜索引擎的检索结果进行二次加 工:标明结果记录的来源搜索引擎及其相关度。i x q u i c k 、w e b c r a l e r 、 6 p r o f u s i o n 等都是知名的元搜索引擎 1 0 】。 元搜索引擎有两类:将主要的搜索引擎集中起来并按类型或按 检索问题等编排组织成目录以帮助、引导用户根据需求选择适用搜 索引擎的称为“搜索引擎目录”;将多个搜索引擎集成在一起,提 供统一界面,并将检索提问同时发给多个搜索引擎,然后将返回信 息聚合、去重、输出的称为“并行式多元搜索引擎”【1 1 1 。 ( 3 ) 搜索引擎的发展趋势 随着搜索引擎商业化的发展,搜索引擎自身在检索性能和友好 性、智能性方面会得到进一步的发展。更广阔的信息资源领域金- 得 到开发利用,更先进的信息技术会被采纳应用,更灵活的商业手段 和管理方法会促进它进一步获得更好的商业利润。 具体来说,提供综合性服务的网站将成为搜索引擎发展的主要 方向,综合型搜索引擎将面向广大普通用户,而专题型搜索引擎具 有较大发展空间。网络用户的需要带有明显的地域特点和语言特 点,这必将促进搜索引擎向系列化和多种语言版本的方向发展。为 支持字段检索和达到信息资源描述、著录的统一,必须从网页项目 的标准化做起,元数据标引将成为搜索引擎向规范化方向发展的主 要手段在检索功能方面,某些搜索引擎可能实现关键词检索,概 念检索、分类浏览检索的一体化,检索命令和符号有可能趋于统一。 在经营方面,搜索引擎的兼并、集团化经营或联合经营将成为发展 方向。 搜索引擎技术近期急需解决的问题是:自然语言理解从计 算机科学特别是从人工智能的观点看,自然语言理解的任务是建立 一种计算机模型,这种计算机模型能够像人那样理解、分析并回答 自然语言。以自然语言理解技术为基础的新一代搜索引擎的信息检 索是基于知识( 或概念) 层面,对知识有一定的理解与处理能力,能 够实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译 技术。超媒体搜索引擎。随着宽带技术的发展,未来的互联网是 多媒体数据的时代,图像、视频将很快取代文本成为互联网上主 要的信息。开发出可查寻文本、图像、声音、图片和电影的超媒体 搜索引擎是一个新的方向。 2 搜索引擎的工作原理、类型与功能 2 1 搜索引擎的工作原理 搜索引擎实际上是将教据采集技术与计算机情报检索系统 接合并成功运用到因特网上的一个实例。因此,搜索引擎一般包括 数据采集机制、数据组织机制和用户检索机制它的基本结构如图 2 - 1 所示【4 3 : 搜索引擎的基本工作原理是:数据采集机制按照一定规律和方 式对网络上的各种信息资源进行搜索,并将搜索到的页面信息存入 到一个临时数据库中;数据组织机制对临时数据库中的页面信息进 行标引,经过整理形成各种倒排档,相应地建立起索引数据库;用 户检索机制则提供检索界面,接受用户提出的检索任务,并根据要 求访问相应的索引数据库,将符合要求的结果按一定规则排序输 出。 实际上搜索引擎可以被看成一个双层c l i e n t s e r v e r 结构体系: 当用户访问搜索引擎时,用户端为客户机向搜索引擎提出检索请 求,搜索引擎为服务器,检索自己的索引数据库并将检索结果以应 答形式提交给用户。当搜索引擎采集数据时,搜索引擎为客户机, 向因特网上的各资源系统提出搜索请求,因特网上的各资源系统是 服务器,将有关数据作为应答提交给搜索引擎一一对于多元搜索引 擎,则是向其他搜索引擎的数据资源提出请求,这时其他被提问搜 索引擎可以认为是多元搜索引擎的服务器。 ( 1 ) 搜索引擎的数据采集机制 数据采集机制包括人工采集和自动采集两种方式人工采集是 由专门的信息采集人员搜集、跟踪及选择有用的w w w 站点和页 面,进行标引,并进而建立倒排档自动采集机制是利用象“机器 人”( r o b o t ) 、“网络蜘蛛”( s p i d e r ) ,“网络爬虫”( c r a w l e r ) 和“网 络蚂蚁”( a n t s ) 这样的巡视软件( 或称搜索软件) 按照一定规则 对网站和网页进行搜集并自动加入到临时数据库中。人工搜集的信 息质量和标引质量有保障,但戍本高、效率较低;自动搜集农时省 力,形成的数据库覆盖面广,但信息加工质量不高,从而使检准率 较低。但是,鉴于自动搜集自动化程度高的优点,大多数搜索引擎 都采用自动方式。 巡视软件是通过检索文档、遍历其超文本结构并递归地对其引 用文献重复这一过程,然后将发现和收集的信息资源进行标引,加 入到数据库中。其工作原理如图2 - 2 所示:【4 】 w w w 可以看成是有向图,页面相当于图中的接点,页面之 问的超链则相当于图的有向边。大多数搜索引擎的搜索机器人基本 9 上采用相似的算法来定位i n e m e t 上的资源: 第一步:建立一个待搜索的初始u r l 列表,列表中至少有一 个u r l 地址。 第二步:从列表中选取一个页面进行搜索。 第三步:取回第二步中选定的页面,抽取出该页面中指向其它 页面的链接。将未被搜索的页面链接加入到查询队列 中。 第四步:处理第三步取回的页面,抽取出标题、头部、关键词 等其他信息。 第五步:转到第二步。 从原理上说无论选取何种初始列表基本上不影响到后面的工 作,但在实际操作中应尽量选用那些引用率高的主页作为起点,因 为这样有利于控制搜索范围,有利于下次更新操作。 搜索机器人从原理上说是可以遍历整个w w w ,但在事实上这 种实现是困难的。为了更好地搜索对自己有用的网站信息搜索引擎 往往采用深度优先策略或广度优先策略。深度优先策略是指机器人 在对第一个文档进行分析后,取回第一个连接所指向的页面,然后 分析此页面,再取回其第一个链接所指向的文档,反复执行下去。 而广度优先策略则将新获取的超级链接加入u r l 列表的尾部。二 者相比,前者能够较好地发掘文档结构,但将长时间占用某段网络 的带宽和服务器资源;而后者则尽* - r a g 快速地访问各个站点,保证 各站点至少有一份文档被下载,但却不能深入文档结构。 随着搜索引擎由水平门户向垂直门户的发展,a 4 j - j 逐渐认识到 巡视软件实际上只对某个领域内的页面有兴趣,通过建立一些页面 评价标准,可以有效地帮助机器人优先搜索它感兴趣的页面。这种 策略被称为最佳优先策略。实际上象g o o g l e 这样的现代搜索引擎 都已采用若干分布的c r a w l e r 同时搜取网页。 巡视款件将搜集到的网页或网站送到存储服务器中,存储服务 器要对这些网页或网站进行预处理:将这些网页压缩( 如:过滤掉 网页中无用的信息) ,对文档进行分词、抽词、转换,然后将其存 j 0 入一个临时数据库中,并赋予每个网页或网站一个相关的标识符 号。不同搜索引擎抽取的信息各不相同:有些搜索引擎只保留标题 和头部信息( w w ww o r m 只抽取标题,j u m p s t a t i o n 只保留标题和 头部) :有些搜索引擎保留全文( 如:w e b c r a w l e r ) 。图2 - 3 所示是 网页原始数据存储结构的实例f l 】: 将网页中提取的这些信息按照一定顺序和结构存储到数据库或数 据仓库中,就形成搜索i f 擎的顺排文档。 根据标引的实现手段可以分为人工标引和自动标引两种。人工 标引是由标引人员对搜集到的网页进行标引,自动标引则由机器人 来完成。自动标引的主要方法包括自动抽词、自动文摘、自动分类 以自动抽词为例:抽词的基本依据是词频一一除了起语法作用的共 用词外,一个词在文件申出现频率越高,它代表该文件主题的程度 就越大,从而作为标引词的准确性也就越高。此外,自动索引器 ( i n d e x e r ) 还可以利用其它信息进一步帮助选词或计算词的权重, 如:g o o g l e 根据链接计算页面的等级。 搜索引擎标引的内容和质量直接影响到查询的效果。目前,关 于文本内容的查询模型可分为两类:全文检索模型和基于内容的检 索模型。这两种查询模型分别建立在抽词标引扣分类标引基础上。 ( 2 ) 搜索引擎的数据组织机制 搜索引擎的数据组织主要是利用强有力的数据库管理系统来 组织所采集标引的网页信息,形成索引数据库。 搜索引擎的索引功能是通过索引器( i n d e x e r ) 和排序器( s o r t e r ) 共同实现的。索引器( i n d e x e r ) 从搜索引擎搜集来的信息所临时存 储的数据库中读取文档,解压文档,并进行解析,形成搜索引擎的 顺排文档。排序器( s o r t e r ) 则根据网页或网站的顺排文档按照一 定的索引要求形成各种倒排档。 此外,数据组织模块还争数据采集模块一同实现索引数据的动 态维护。包括对索引数据进行及时的更新、添加和删除,以保证索 引数据库和它所对应的取页之间的链接可靠。因此,为了保证索引 数据库的高效,索引数据库应该满足以下条件: 允许新文档的高效插入。 允许文档记录的高效更新。 允许对任意记录的随机访问 必须高效地使用存储空间。因为一般搜索引擎的容量都在 数百万、千万。【2 】 ( 3 ) 搜索引擎的用户检索机制 搜索引擎的用户检索机制包括四个部分:检索界面模块, 接受用户检索要求,往往分为一般检索界面和高级检索界面; 检索策略模块,将用户输入的检索请求编制成计算机可执行的规 范化检索式;检索执行模块,利用检索式检索索引数据库,并 保证检索的速度和准确性:检索结果组织模块,对检中记录的 整理组织。 这四个模块用于完成用户捡索机制的四项功能:查询条件 的生成:用户以某种形式提交查询请求。这些请求可以是关键词的 布尔组合、自然语言、案例档案和人名等,检索界面模块必须从 中提取出符合搜索引擎所设定查询模型的检索特征。查询匹配: 将生成的检索特征与索引数据库中的文档相互比较,确定哪些文 档满足用户需求。结果排序:将满足用户需求的结果按照相关 性算法进行排序。结果返回:根据用户的要求按照相关度降序 排列,并生成动态页面返回用户。 对于用户检索机制来说,最重要的是查询模型的建立。目前, 关于文本内容的查询模型可分为两类:全文检索模型和基于内容 的检索模型。全文检索是以文档的全部信息作为检索对象的一种 信息检索技术,不考虑文档的具体内容,而仅判断是否包含被检 索元素。通常运用关键词进行检索,l y c o s 运用后控词典的方法在 1 2 关键词检索基础上实现了概念词检索。基于内容的检索则舍弃文 档的局部细节,侧重于文档的主要内容的查询,包括主题检索和 分类检索等。 全文检索模型在标引时形成的索引数据库如图2 - 4 所示 1 】: 采用关键词检索的用户将提问通过搜索引擎的用户界面递交 给搜索引擎。不同搜索引擎的检索规则不同,一般都有普通检索 和高级检索两个界面现在某些搜索引擎已经尝试提供自然语言 检索,这需要对用户请求进行分词分析以理解提问的真正含义。 通过c g i 语言读取完用户提问后,要将其转化为搜索; 擎内部可 识别的检索式,并对上述关键词索引数据库进行匹配( 可以是精 确匹配,也可以以截断检索实现模糊匹配) ,然后将检索结果汇总、 去重、计算相关度,最后按相关度降序排列,并生成动态页面返 曰用户 分类主题检索的步骤与关键词检索相似,但实现方法不同。 分类主题检索模式形成的索引库如图2 5 所示 目前,搜索引擎主要还是通过人工分类。其树状等级列举式类 目体系的构成较为稳定,分类人员根据网页的主要内容进行分类。 自动分类的算法比较复杂,且不同搜索引擎的算法也不尽相同,有 的基于语词共现原理,利用计算机的智能性特性和存储功能,根据 文档的内容特征进行统计分析,判别出若干最能表达文献内容的 词,然后将其与语词类集进行相似性比较,确定一篇文献属于代表 某个语词类集的类。根据语词类集的选择,可以将自动分类技术分 为两大类:自动聚类分类技术和词表法自动分类技术。所谓自动聚 类分类就是从文献本身出发,根据文献的主题内容,将相关者聚成 一类。自动聚类分类方法不需要分类词表,实现起来较为灵活,但 缺乏规范性词表法分类是根据现有文献分类体系进行分类,能达 到鸟瞰学科全貌的效果,检索时可利用分类号进行扩检和缩捡,能 提高检全率和检准率。但是,词表的建设和维护成本较高,更新困 难,灵活性差 3 】。现在自动分类技术还处于研究阶段,实践应用 的不多y a h o o ! 是采用人工分类和自动分类相结合的方法 目前,搜索引擎的关键词检索或概念检索还没有实现一体化, 用户通过分类途径进行检索时,一般是根据搜索引擎提供的类表逐 层点击浏览,直到查找到所需子类目,选择相关网站。 2 2 搜索引擎的类型 ( 1 ) 搜索引擎按照用户检索机制可以划分为检索型搜索引擎、 目录型搜索引擎和混合型搜索引擎。4 检索型搜索引擎是通过用户直接输入检索词,查找索引数据库 电用检索词标引的索引记录来查找用户所需信息资源可以使用布 尔逻辑检索、短语或邻近检索、模糊检索、自然语言检索等高级检 索方式,可以限制检索对象的地区、网络范围、数据类型、时间等, 可对满足特定条件的资源准确定位a l i av i s t a 、g o o g l e 、北大天网 等都是著名的检索型搜索引擎。 目录型搜索引擎是通过用户浏览层次型类别目录来寻找符合 需要的信息资源,目录按一定的主题分类体系组织,并辅之以年代、 地区等分类。y a h o o ! 等是目录型搜索引擎的典型。 混合型搜索引擎则是指兼具检索型和目录型两种检索方式的 搜索引擎。为了方便用户,增加检索途径,现在大部分搜索引擎都 是混合型搜索引擎。但是,混合型搜索引擎并不能实现关键词检索、 1 4 概念词检索和分类主题检索一体化,只是这两种检索类型的简单组 合。 ( 2 ) 按照检索内容划分可将搜索引擎划分为综合型搜索引擎、 专题型搜索引擎和特殊型搜索引擎。 综合型搜索引擎在采集标引信息资源时不限制资源的主题范 围和数据类型,人们可利用它们来检索几乎任何方面的资源 专题型搜索引擎专门采集某一主题范围的信息资源,并用更为 详细和专业的方法对信息资源进行标引,且往往在检索机制中设计 利用与该专业领域密切相关的方法技术。 特殊型搜索引擎指那些专门用来检索某一类型信息或数据的 检索工具,如检索地图的m a p b l a s t 、查询图像的w e b n e w s 等。 ( 3 ) 现在的搜索引擎和网站服务器是分不开的。根据其包含 的搜索引擎的数量可划分为独立型搜索引擎和元搜索引擎。 独立型搜索引擎是通过自身的采集标引机制、数据组织机制和 用户捡索机制提供检索服务。元搜索引擎能够通过同一界面检索利 用多个搜索引擎的数据资源。两者的主要区别在于是否拥有自己独 立的网络资源采集标引机制和相应的数据库。 ( 4 ) 还可以按照搜索引擎检索资源的类型划分为万维网搜索 翱擎和非万维网搜索引擎。 万维网搜索引擎主要检索万雏网上的信息资源,般的搜索引 擎都是万维网搜索引擎非万维网搜索引擎主要是对i n t e m e t 上万 维网之外的信息资源进行捡索。如:北大天网提供f 卯检索, n o r t h e ml i g h t 、i n v i s i b l e w e b 、d i r e c ts e a r c h 。 2 3 搜索引擎的功能 搜索引擎是对i n t e r n e t 上的、及通过i n t e m e t 可获得的信息进 行搜集、过滤、组织,并提供检索利用的网络信息检索工具。所以, 搜索引擎具有信息组织、网络导航和检索的功能。对于搜索引擎的 网络实体,因其经营模式的关系还可能具有传播知识和广告宣传等 相关服务功能。 搜索引擎对网络上的信息进行集中搜集,并对这些搜集来的信 息进行甄别和过滤,不仅使有效信息能从因特网庞杂的信息集合中 分离出来,而且不同搜索引擎类型各有其搜集的主题范围和标准, 因而能够将这些信息资源予以类分和聚类。 搜索引擎对过滤后的信息予以标引,进行关键词索引和分类索 引,存储在一定的数据库中,并由u r l 与i n t o r n e t 建立起链接关系, 使检索者随时可以获取文献。搜索引擎通过定期更新,保证信息的 新颖性和链接的可靠这些使信息资源通过搜索引擎不仅得以组织, 而且可以通过采用不同的索引方法和数据库结构使这些信息所包舍 的知识得以分割和重组,并且开始具有一定的结构。搜索引擎通过 检索来实现知识的提取。所以,通过搜索引擎的采集组织,网络信 息就能够被高效提取利用,起到了网络导航的作用。中国互联网络 发展状况统计报告( 2 0 0 2 1 ) 显示有7 6 3 ( 的用户是通过搜索引擎得 知新网站的。【5 】 搜索引擎的另一项基本功能是检索功能,包括分类浏览检索功 能和关键词检索功能。分类浏览检索是根据一定的分类方法按照类 目或主题建立一个结构化的从大类到小类的目录清单,在每个类别 及子类下分别将相关信息的u r l 组织罗列出来。所用的分类方法主 要有主题分类法、学科分类法和分面组配法。 主题分类法是一个主题充当一个类目,每个类目像主题词袁一 样按字顺排列。一个类日又可分为若干细目,同位细目也按字顺排 列这种分类方法以事物分类,适应交叉学科的主题,但容量小, 对网络资源的覆盖面小。y a h o o 、搜狐、新浪等搜索引擎都有自己 的主题分类方法。学科分类法是按学辩逐级分类。“网络指南针” 采用了科学分类法,一级类目共2 0 个学科,类目按字顺排列 6 】。 分面组配法是首先确定几个分类标准,即分面;再确定每个分类标 准中的若干特征值,即类目;每一分面的类目与其它分面的类目分 别组配,形成许多组配类目。“搜狐”的系统设计了两个分面:城 市和主题。城市分面包括北京上海一个城市有一个版面,每 个版面包含有主题分面,包括娱乐休闲工商经济综合信息 7 】 关键词检索一般有两个界面:简单关键词检索和增强关键词检 索功能的各种辅助检索功能( 高级检索功能) 。高级检索功能包括: 布尔检索、加权检索、限定检索( 限定可以限在宇段、专题、网 络信息资源类型、数据类型、地区等) 、截词检索、词组检索和短 语检索、自然语言语句检索、概念捡索( 智能概念提取技术) 、容 错检索( 模糊检索、拼写检查等) 、区分大小写的检索等 除此之外,一些专门搜索引擎还具有特殊的检索功能,如:图 像、声音、视频资源检索,地图检索,交通线路检索和名录检索等。 随着搜索引擎服务功能的加强,其服务的灵活性和个性化会进 一步加强。出现了一些新的辅助检索功能。如:设定等候时问限 定价格、建立用户个人导航库、定题服务、提供词表,中文繁简体 转换自动翻译、帮助信息和关于提高检索效率的建议等。 搜索引擎提供的相关服务包括:文献获取服务、用户自己登录 网页公益性服务( 如入学申请登记,履历传送服务、e - m a i l 服务 等) 、电子商务( 如订票、网上书店等) 、金融方面的特殊服务( 如 经济研究或公司研究报告、股市分析等) 、信息和广告发布、链接 饮伴站点等 搜索引擎的评价与主要问题 3 1 搜索引擎的评价体系 对搜索引擎进行评价就是根据给定的指标体系,采用一定的方 法和程序,对搜索引擎及其各部分的功能、特性和运营状况进行评 测,以确定其达到的水平和现存的主要问题。 对搜索引擎进行评价具有重要意义。通过评价可以找出其存在 的缺陷及其
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年数控切割工考试题及答案
- 古建筑方案设计投标
- 兽医专业的面试题及答案
- 2025年K2教育STEM课程实施现状与未来发展趋势:效果评估与启示报告
- DB65T 4454-2021 新疆褐牛生产性能测定技术规范
- 课时7.3 万有引力理论的成就-2024-2025学年高中物理同步练习分类专题教学设计(人教版2019必修第二册)
- 2025年制造业数据治理策略与智慧工厂建设报告
- 2025年新能源行业碳足迹评估与碳减排产业趋势预测报告
- 2025年高升专数学试题及答案
- 城乡交流遴选考试题及答案英语
- 自动扶梯应急救援预案
- 老人骨折术前护理
- 工伤认定申请证人证言模板
- 压裂返排液的深度处理及再利用技术研究进展
- 2024届江西省南昌市高三上学期零模物理试题【含答案解析】
- 南京理工大学介绍课件模板
- 高中物理听评课记录表
- 2025届天津市春季高考升学考试全真模拟试卷(一)英语(无答案)
- 《流行音乐发展史》课件
- GB 17761-2024电动自行车安全技术规范
- 建设项目土地预审和土地报批收费标准参考
评论
0/150
提交评论