(计算机应用技术专业论文)基于java的元搜索引擎的研究及实现.pdf_第1页
(计算机应用技术专业论文)基于java的元搜索引擎的研究及实现.pdf_第2页
(计算机应用技术专业论文)基于java的元搜索引擎的研究及实现.pdf_第3页
(计算机应用技术专业论文)基于java的元搜索引擎的研究及实现.pdf_第4页
(计算机应用技术专业论文)基于java的元搜索引擎的研究及实现.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(计算机应用技术专业论文)基于java的元搜索引擎的研究及实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

湖北工业大学硕士学位论文 摘要 随着信息技术的飞速发展,i n t e r n e t 已经发展成为当今世界最大的信息库, 并且成为全球范围内传播信息和获取信息的最主要途径之一。i n t e r n e t 上出现越 来越多的信息,同时也出现了越来越多的搜索引擎。怎样通过这些搜索引擎找到 自己想要的信息仍然不是一件易事,而想要搜索到高质量的信息就更困难了。元 搜索引擎的出现解决了一定程度上的问题。 元搜索引擎是一种建立在独立搜索引擎之上的搜索引擎口1 。用户只需要递交 一次检索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引 擎,并将搜索查询结果集中起来以整体统一的格式呈现到用户面前堙1 。在这里我们 选择j a v a + x m l 作为我们系统的技术平台。j a v a 提供了一个跨平台的方案,可支 持分布式处理环境。j a v a 语言成为了结合x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 的 最佳选择。x m l 以一种开放的自我描述方式定义了数据结构,在描述数据内容的同 时能突出对结构的描述。由于数据显示与内容分开,x m l 定义的数据允许指定不同 的显示方式,使数据更合理地表现出来。在提取单独搜索引擎的结果方面,我们 没有使用j a v a 自带的包,而是使用了功能更加强大的h t t p 协议的客户端编程工 具包h t t p c l l e n t ,在系统开发过程中也使用了a j a x 技术,这两种技术的使用使开 发的系统更加稳定,功能更完善。在确定权威页面的工作上,分别提到p a g e r a n k 和h i t s 两种算法,并对两种算法做了分析和比较,根据本系统的特点选择了使用 h i t s 算法。 本文介绍了搜索引擎和元搜索引擎的发展历史,讨论了元搜索引擎的基本工 作原理并对元搜索引擎进行了分类,比较了元搜索引擎与独立搜索引擎相比的优 点,讨论了元搜索引擎的几个关键技术,并分析了元搜索引擎面临的问题和将来 的发展趋势。作者提出了一个元搜索引擎模型,首先讨论了元搜索引擎的基本体 系结构以及设计时应考虑的问题,接下来较详细地介绍了元搜索引擎系统的体系 结构、系统整体上作流程以及各个功能模块描述。最后,将系统开发过程中比较 重要的实现细节及代码作了详细分析。 关键词:j a v a 、元搜索引擎、x m l 、p a g e r a n k 、h i t s 、w e b 挖掘 湖北z - 业大学硕士学位论文 a b s t r a c t w i t ht h eh i g h s p e e dd e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g yi n t e r n e th a sb e c o m e n o to n l yt h er i c h e s ti n f o r m a t i o nw a r e h o u s eb u ta l s ot h el e a d i n ga p p r o a c ho fi n f o r m a t i o n t r a n s m i s s i o na n da c q u i r e m e n ti nt h ew o r l d w i t ht h ea p p e a r a n c eo fm o r ea n d m o r et e x t i n f o r r n a t i o no nt h ei n t e r n e t m o r ea n dm o r es e a r c he n g i n ea p p e a r sa tt h es a m et i m e h o wt of i n dw a n ti n f o l r m a t i o ni nt h ei n t e r n e tb yt h i ss e a r c he n g i n eh o we v e ri sam a j o r p r o b l e m s e a r c ho fh i g hq u a l i t yi n f o l r r n a t i o ni se v e nm o r ed i f f i c u l t t h em e t a s e a r c he n g i n ec a nr e s o l v et h ea b o v ep r o b l e m m e t a s e a r c he n g i n ei sr e g a r d e d a ss e a r c h e n g i n eb a s e do ns e a r c he n g i n e s u s e r so n l yn e e dt o s u b m i ts e a r c h r e q u i r e m e n t so n c e i ti st h er e s p o n s i b i l i t yo ft h em e t a s e a r c he n g i n et ot r a n s f o r m p r o c e s sa n dh a n do v e rt h er e q u i r e m e n t st om u l t i p l ep r e - s e l e c t e di n d e p e n d e n ts e a r c h e n g i n e sa n dt h e np r e s e n tt h es e a r c hr e s u l t si nau n i tf o l - mf o r m a tt ou s e r s w ec h o o s e j a v aa st h eb a s et e c h n o l o g yo fo u rs y s t e m j a v ai st h eb e s tc h o i c et ob ec o m b i n e dw i t h x m lx m lu s e sa no p e n s e l f - d e s c r i b e dm o d et od e f i n es t r u c t u r e ;i tc a nd e s c r i b ed a t a c o n t e n ta sw e l la ss t r u c t u r e d u et ot h es e p a r a t i o no fd a t ad i s p l a ya n dd a t ac o n t e n t i ti s a l l o w e dt os h o wx m lw i t hd i f f e r e n tm e t h o d a tt h er e s u l to fe x t r a c t i n gs i n g l e h a n d e d s e a r c he n g i n e ,w ed on o tu s ej a v a - p a r c e l ,b u tu s ep r o g r a m m i n gt o o l k i t h t t p c l i e n to f c u s t o m e rc l i e n tt h a th a v ee s p e c i a l l ym o r e p o w e r f u l d u r i n gd e v e l o p m e n t u s e t e c h n o l o g y o fa j a x t h eu s i n go ft w ot e c h n o l o g i e sm a k e sd e v e l o p m e n ts y s t e m e s p e c i a l l ys t a b l y , t h ef u n c t i o nm o r ep e r f e c t p a g e r a n ka l g o r i t h ma n dh i t sa l g o r i t h m a r et w os c h e d u l i n gs y s t e m st h a th a v ec o m m o n l yb e e nu s e di ns e l e c t i n ga u t h o r i t a t i v e p a g el a y o u t i nt h i st h e s i s t h ea u t h o r sa n a l y z e dt h ec h a r a c t e r sa n dd i f f e r e n c e so ft h et w o s y s t e m sa n dd e c i d e dt om a k eu s eo fh i t sa l g o r i t h mt h r o u g hb a s i n go nt h ec h a r a c t e ro f t h i sa p p l i c a t i o ns y s t e m f i r s t l yw ef o c u so nt h ek e yt e c h n o l o g i e s i n d e s i g na n di m p l e m e n t a t i o no f m e t a s e a r c he n g i n e a f t e rg i v i n gad e m o n s t r a t i o no ft h eb a s i cs t r u c t u r eo fm e t a s e a r c h e n g i n e ,t h i sp a p e rd i s c u s s e st h eq u e s t i o n st h a ts h o u l dt a k ei n t oc o n s i d e r a t i o ni nd e s i g n a n db r i n g sf o r w a r dt h ec o r r e s p o n d i n gi m p l e m e n t a t i o n s e c o n d l yw et a l ka b o u tt h e a r c h i t e c t u r eo fm e t a s e a r c he n g i n eo ft h i sw h o l es y s t e ma n dd e s c r i p t i o no ff u n c t i o n a l m o d u l e s l a s t l y , w ea n a l y z et h em o s ti m p o r t a n ti m p l e m e n t a t i o nd e t a i l si nt h ea c t u a l p r o c e s so fm e t a s e a r c he n g i n es y s t e m k e y w o r d s :j a v a ,m e t as e a r c he n g i n e ,x m l ,p a g e r a n k ,h i t s ,w e bm i n i n g i i 潮咖j 棠火茅 学位论文原创性声明和使用授权说明 原创性:声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作所取 得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经 发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方 式标明。本声明的法律结果由本人承担。 学位论文作者签名:压哞日期:叩年厂月h 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、便用学位论文的规定,即:学校有权保留 并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授 权湖北工业大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复制手段保存和汇编本学位论文。 学位敝储鲐力呼指剐雠:孵凯 日期:2 母f 月石日。日期:沙7 年6 知莎日 湖北工业大学硕士学位论文 1 1 研究背景 第1 章绪论 1 1 1 搜索引擎的重要意义 随着因特网的迅猛发展、w e b 信息的增加,用户要在信息海洋里查找信息,就 像大海捞针一样,搜索引擎技术恰好解决了这一难题( 它可以为用户提供信息检 索服务) 。搜索引擎( s e a r c he n g i n e ) 是随着w e b 信息的迅速增加,从1 9 9 5 年开 始逐渐发展起来的技术。据发表在科学杂志1 9 9 9 年7 月的文章( ( w e b 信息的 可访问性估计,全球目前的网页超过8 亿,有效数据超过9 t ,并且仍以每4 个 月翻一番的速度增长。用户要在如此浩瀚的信息海洋里寻找信息,必然会“大海 捞针无功而返口。 搜索引擎j 下是为了解决这个“迷航 问题而出现的技术。搜索引擎以一定的 策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用 户提供检索服务,从而起到信息导航的目的。搜索引擎提供的导航服务已经成为 互联网上非常重要的网络服务,搜索引擎站点也被美誉为“网络门户”。搜索引 擎技术因而成为计算机工业界和学术界争相研究、开发的对象。 1 1 2 搜索引擎的历史及发展 在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆 炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大 众信息检索需求的专业搜索网站便应运而生了。现代意义上的搜索引擎的祖先, 是1 9 9 0 年山蒙特利尔大学学生a l a ne m t a g e 发明的a r c h i e o 虽然当时w o r l d w i d e w e b 还未出现,但网络中文件传输还是相当频繁的,而且大量的文件散布在各个分 散的f t p 主机中,查询起来非常不便,因此a l a ne m t a g e 想到了开发一个可以以 文件名查找文件的系统,于是便有了a r c h i e 。a r c h i e 的上作原理与现在的搜索引 擎已经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引, 供使用者以一定的表达式查询h 1 。a r c h i e 深受用户欢迎,受其启发,美国内华达 大学于1 9 9 3 年开发了另一个与之非常相似的搜索工具,不过此时的搜索工具除了 湖北工业大学硕士学位论文 索引文件外,已能检索网页。当时,“机器人”。词在编程者中十分流行。电脑“机 器人 ( c o m p u t e r r o b o t ) 是指某个能以人类无法达到的速度不问断地执行某项任 务的软件程序。专门用于检索信息的“机器人”程序像蜘蛛一样在网络间爬来爬 去,因此,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。世界上第一个用 于监测互联网发展规模的“机器人”程序是m a t t h e wg r a y 开发的w o r l dw i d ew e b w a n d e r e r 。刚开始它只用来统计互联网上的服务器数量,后来则发展为能够检索 网站域名崎1 。 与w a n d e r e r 相对应,m a r t i nk o s t e r 于1 9 9 3 年1 0 月创建了a l l w e b ,它是a r c h i e 的h t t p 版本。a l l w e b 不使用“机器人 程序,而是靠网站主动提交信息来建立自 己的链接索引,类似于现在我们熟知的y a h o o 。随着互联网的迅速发展,使得检索 所有新出现的网页变得越来越困难,因此,在m a t t h e wg r a y 的w a n d e r e r 基础上, 一些编程者将传统的“蜘蛛”程序工作原理作了些改进。其设想是,既然所有网 页都有可能有连向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能 检索整个互联网。到1 9 9 3 年底,一些基于此原理的搜索引擎开始纷纷涌现,其中 以j u m p s t a t i o n ,t h ew o r l dw i d ew e bw o r mc g o t o 的前身,也就是今天的o v e r t u r e 和r e p o s i t o r y b a s e ds o f t w a r ee n g i n e e r i n g ( r b s e ) 最负盛名。然而j u m p s t a t i o n 和w w ww o r m 只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果, 因此毫无信息关联度可言。而r b s e 是第一个在搜索结果排列中引入关键字串匹配 程度概念的引擎。现代科学技术的发展将人类带入一个前所未有的“信息爆炸 时代,美国著名的未来学家奈斯比特在大趋势一书中指出:“我们淹没在信息 中,但是我们却渴求信息。”为什么当信息像潮水一样向我们涌来时,我们却缺少 必要的信息呢? 这主要是我们缺少有效的信息搜索手段。信息每时每刻都在不断得 增加和更新,这种速度已经超过了人类自身的处理能力1 。譬如:仅美国化学文摘 1 9 7 6 年就报道了4 5 万篇文献,他们分别来自1 3 6 个国家以5 6 种文字表达的1 2 0 0 0 种刊物。如果一个人能通晓各种语言,并能以每1 5 分钟浏览一篇化学文献的速度 查找资料,他也需要5 2 年才能浏览完这一年的化学文献,等他浏览完这些文献, 又不知道有多少新文献没有浏览呢? 可以以看出,有效的信息搜索工具已经成为 人们生活和上作中不可缺少的一种工具口1 。 进入二十世纪九十年代,信息的存在方式发生了深刻变化,尤其是在w w w 流 行以后,信息从图书馆搬到了因特网上,从油墨转换成电、磁、光信号。数字信 息成为人们生活中不可缺少的一部分。人们更多的使用数字化信息,更倾向使用 数字化信息,更离不丌数字化信息。伴随着这种变化,借助于计算机网络,信息 搜索技术得到了前所未有的发展。并且在这种容量大,变化快的数字化世界中起 2 湖北工业大学硕士学位论文 到越来越重要的作用。随着互联网规模的急剧膨胀,1 家搜索引擎光靠自己单打 独斗已无法适应目前的市场状况,因此现在搜索引擎之间开始出现了分上协作, 并有了专业的搜索引擎技术和搜索数据库服务提供商。像国外的i n k t o m i ,它本身 并不是白接面向用户的搜索引擎,但像包括o v e r t u r e ( 原g o t o ) ,l o o k s m a r t , m s n ,h o t b o t 等在内的其他搜索引擎提供全文网页搜索服务。国内的百度也属于 这一类( 注:搜狐和新浪用的就是它的技术) 。 1 1 3 当前搜索引擎存在的问题 尽管搜索引擎已为人们检索信息提供了很大方便,但当前许多搜索引擎还存 在一些需要我们继续改进的地方。随着网上信息资源的膨胀发展,传统搜索引擎 在搜索引擎的查全率和查准率方面很难满足用户的要求国3 。为了查询相关的内容, 用户经常是同时使用多个搜索引擎查询相同内容,然后综合出最适合自己的内容。 因此如何准确选择搜索引擎、如何减轻学习与操作负担、如何有效利用多个搜索 引擎的“集成”资源与检索能力,就成为制约网络信息检索技术进一步优化和发 展的重要问题。 元搜索引擎的出现,在一定程度上解决了这些问题。元搜索引擎系统对来自 不同搜索引擎的结果进行整合,如剔除重复、统一格式、检验链接等,最关键的 是重新给出相关度,按新的相关性排列查询结果后提交给用户,经过这样的二次 处理,查准率将明显提高旧1 。 综合考虑以上问题,我们考虑利用元搜索引擎的技术,设计一种基于元搜索 的中文信息检索系统,该系统将基本搜索引擎的信息紧密融合起来,消除重复链 接、消除死链接,以提高准确率和缩短搜索时间为最终目标,我们将在后续章节 逐步介绍。 1 2 搜索引擎的基本原理 1 2 1 数据检索与信息检索 信息检索与数据检索是两个不同的概念n 引,数据检索主要是查找完全匹配, 其答案是确定的,即某文件是否存在某关键词;而信息检索是部分匹配查询,输 出的是最佳匹配结果,主要衡量的是关键词与查询网页之间的相关度大小。数据 检索为固定结构的数据库系统提供了很好的解决方案,但对于文本信息检索会议 3 湖北工业大学硕士学位论文 确定的基于问题信息检索就无能为力。为了更好满足用1 查询需求,信息检索系 统必须有理解查询字符串内容的功能,即基于自然语言处理的智能功能,这是与 数据检索不同的地方。信息检索系统的主要目标就是检索所有与用户查询内容相 关的文件,并尽可能少地输出不相关的文件,“信息相关”概念是信息检索的中心 1 i 1 2 2 搜索引擎的分类 按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类: 1 目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息 之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向 网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能, 所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息 更新不及时。这类搜索引擎的代表是:g o o g l e 、y a h o o 、l o o k s m a r t 、o p e nd i r e c t o r y 、 g og u i d e 等。 2 机器人搜索引擎:由一个称为蜘蛛( s p i d e r ) 的机器人程序以某种策略自 动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器 根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网 页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、务须人工干预, 缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索 引擎的代表是:a l t a v i s t a 、n o r t h e r nl i g h t 、e x c i t e 、i n f o s e e k 、i n k t o m i 、f a s t 、 l y c o s 、g o o g l e ;国内代表为:“天网”、悠游、o p e n f i n d 等。 3 元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时 向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自 己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是 返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能, 用户需要做更多的筛选。这类搜索引擎的代表是w e b c r a w l e r 、i n f o m a r k e t 等 4 湖北工业大学硕士学位论文 1 2 3 性能指标 我们可以将w e b 信息的搜索看作一个信息检索问题,即在由w e b 网页组成的 文档库中检索出与用户查询相关的文档。所以我们可以用衡量传统信息检索系统 的性能参数一召回率( r e c a l l ) 和精度( p r i c i s i o n ) 衡量一个搜索引擎的性能。 召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的 是检索系统( 搜索引擎) 的查全率;精度是检索出的相关文档数与检索出的文档 总数的比率,衡量的是检索系统( 搜索引擎) 的查准率。对于一个检索系统来讲, 召回率和精度不可能两全其美:召回率高时,精度低,精度高时,召回率低。所 以常常用1 1 种召回率下1 1 种精度的平均值( 即1 1 点平均精度) 来衡量一个检索 系统的精度。对于搜索引擎系统来讲,因为没有一个搜索引擎系统能够搜集到所 有的w e b 网页,所以召回率很难计算。目前的搜索引擎系统都非常关心精度。影 响一个搜索引擎系统的性能有很多因素,最主要的是信息检索模型,包括文档和 查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法 和用户进行相关度反馈的机制。 5 湖北工业大学硕士学位论文 第2 章元搜索引擎 2 1 元搜索引擎概念 元搜索引擎被称为搜索引擎之上的搜索引擎,查询者只需递交一次搜索请求, 由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎( 例如将查询 请求发给g o o g l e ,百度,i n f o s e e k , e x c i t e ,a 1 t a v i s t a ,y a h o o ,h o t b o t ) , 然后对各个搜索引擎的反馈结果再进行整理后返回给查询者。元搜索引擎向其提 交查询请求的搜索引擎称为目标搜索引擎。由于采用了一系列的优化运行机制, 能够在尽可能短的时间内提供相对全面、准确的信息,可以作为相对可靠的参考 源进行扩展搜索,因此是倍受推崇的检索首选入口。 2 2 元搜索引擎的分类 各种元搜索引擎虽然在上作原理上都是大同小异的,但是具体实现过程中采 用的算法等都是有很大差别的,这样各种搜索引擎的性能也不尽相同。有些元搜 索引擎对目标搜索引擎依次搜索,另一些则同时对它们进行检索。有些元搜索引 擎将检索提问转变成目标搜索引擎的提问语言,而有一些则是原封不动将这些提 问语言发送出去。我们可以从不同的角度给元搜索引擎进行分类,如果按功能划 分,元搜索引擎可以分为多线索式搜索引擎和a l l i n o n e 式搜索引擎;如果按运 行方式的差异,可以分为在线搜索引擎和桌面搜索引擎。下面具体介绍一下元搜 索引擎的几种类型: ( 1 ) 多线索式 所谓多线索式元搜索引擎,是指它们都有统一的检索界面,实现对多个独立 搜索引擎的索引数据库进行检索,并将检索结果以统一的格式显示的网络检索工 具。像m e t a c r a w l e r ,s a v v y s e a r c h ,p r o f u s i o n 等都属于这类元搜索引擎,多 线索式元搜索引擎一般具有以下特征: 统一界面:系统提供统一的检索界面,提供对各搜索引擎的特点介绍和选 择机制,但所有目标搜索引擎构成一个逻辑整体,元搜索引擎检索界面构成唯一 的全局外部检索模式,用户通过这个全局界面实现对多个或任意一个搜索引擎的 检索。 6 湖北工业大学硕士学位论文 指令转换:一般来说,系统可以提供统一的全局指令语言,并自动地实现 元搜索引擎指令与其目标搜索引擎的转换,用户使用同一指令语言检索不同搜索 引擎的索引数据库。 统一结果集显示:元搜索引擎对各个目标搜索引擎返回的结果进行处理, 形成全局结果集,并以统一格式显示,主要涉及数据格式转换、去重、统一排序 等等。 ( 2 ) a 1 1 - i n - o n e 方式 是指元搜索引擎界面以任意顺序或分类罗列多个( 一般都是数十个) 搜索引 擎,元搜索引擎本身主要提供各类搜索引擎的介绍信息和物理连接机制。用户可 以通过这些信息了解有关的搜索引擎、连入要选择的搜索引擎。但元搜索引擎没 有统一的全局外部模式,而是以各搜索引擎的检索模式和数据格式自接面对用户。 例如a l 卜i n o n e ( w w w b l b a n y n e t ) 就是属于这类搜索引擎。确切地说,这种 a l l i n o n e 方式的元搜索引擎,只是搜索引擎的罗列,它们一般具有以下特点: 仅仅提供一个简单界面帮助用户选择和使用各搜索引擎。 只能选择一个搜索引擎进行检索。 对各个目标搜索引擎检索界面的复制只能是部分或全部。 白接利用所选的搜索引擎显示格式将结果显示给用户。 ( 3 ) 桌面式 以上各类元搜索引擎都是通过网上调用方式在线使用,称之为在线元搜索引 擎,与它相对应的另一类元搜索引擎可自接在用户计算机上运行,相当于用户自 己拥有一个元搜索引擎,称之为桌面元搜索引擎,一般可以从网上下载。桌面元 搜索引擎是一个包括多个目标搜索引擎的完整系统,它们往往允许用户自定义检 索运行的搜索引擎集和( 例如一个或全部目标搜索引擎) ,甚至可以使用户添加新 的搜索引擎,比如w e b c o m p a s s 就是这种元搜索引擎。这些桌面元搜索引擎不仅可 以实现对多个搜索引擎的并行检索,而且也能够提供重要的后期处理功能n2 j 。例 如用户自定义结果排序方式、删除重复记录等。 2 3 元搜索引擎基本组成 独立搜索引擎根据用户的查询请求,按照一定的算法从索引数据库中查找对 应的信息返回给用户。独立搜索引擎中索引数据库中的信息是通过一种叫做网络 蜘蛛的程序从互联网中采集得到的网页,所以一般独立搜索引擎主要由网络蜘蛛、 7 湖北工业大学硕士学位论文 索引与搜索引擎软件等部分组成。 与独立搜索引擎相比,元搜索引擎不需要维护庞大的索引数据库,也不需要 网络蜘蛛去采集网页。是元搜索引擎的原理示意图( 图2 1 ) ,其过程表述如下: 用户查询处理过程:与其它搜索引擎一样,元搜索引擎提供人机接口查询 界面,不同的是元搜索引擎需要针对各基本搜索引擎设定相应的搜索格式,并允 许用户选择是否调用基本元搜索引擎; 元搜索引擎调用基本搜索引擎网页结果过程:这阶段,元搜索引擎必须并 行调用基本搜索引擎,没有并行调用基本搜索引擎,将会造成检索时间变长的后 果,削弱元搜索引擎的优势; 元搜索引擎信息融合阶段:对不同基本搜索引擎的结果,有些网页实际无 法正常连接,有些是重复的,有些网页不是重复但属于同网站内容相关性较大的, 故需要进行网页连接检测、消除重复网址等处理流程,并根据相关度算法进行计 算,保存到数据库中; 元搜索弓f 擎结果显示阶段:根据相关度计算结果,显示倒排结果,并同时 显示内容摘要,以及对应的基本搜索引擎名称等信息; 图2 1 元搜索引擎原理图 基本搜索引擎与元搜索引擎在搜索评价指标是一样的,其主要区别在于基本 搜索引擎拥有独立的网页信息源和相应的数据库,而元搜索引擎一般没有自己独 8 湖北工业大学硕士学位论文 立的数据库,却更多的是提供统人机查询界面,形成一个多个分布的、具有独 立功能的搜索引擎构成的虚拟整体,用户通过元搜索引擎实现对各基本搜索引擎 查询操作。元搜索引擎所调用的搜索引擎被称为”基本搜索引擎”,它们各自保持 原来的检索指令:元搜索引擎给出一个统一人机界面,接受用户查询需求和反馈 查询结果。 2 4 常见元搜索引擎的介绍 自1 9 9 5 年第一个元搜索引擎m e t a c r a w l e r 推出以来,这一新型的网络检索工 具如雨后春笋般发展迅速,特别是在国外已出现许多比较知名的多种元搜索引擎。 ( 1 ) 万纬搜索引擎 网址:h t t p :硼啊w i d e w a y s e a r c h t o m 万纬搜索引擎是最有名的中文元搜索引擎。万纬中文集成搜索引擎包括了8 个英文搜索引擎如a l t a v i s t a 、a r g o s 、d i r e c t h i t 、f a s t 、g o o g l e 、h o t b o t 、 n o r t h e r n l i g h t 、y a h o o 和1 2 个中文搜索引擎如网典、新浪、雅虎( 中文) 、搜狐、 搜索客、天网、悠游搜索、好多、找到啦、欧姆龙、飞华、e x c i t e ( 中文) 。用户 可根据需要自由选择其中最多6 个引擎进行同步搜索,搜索结果可按相关度、时 间、域名和引擎分类。 ( 2 ) m a m m a ( 英文元搜索引擎) 网址:h t t p :w w w m a m m a c o m 说到元搜索引擎不能不说m a m m a ,m a m m a 自称为”搜索引擎之母”的并行元搜索 引擎,可同时调用7 个最常用的独立搜索引擎,并且可查询网上商店、新闻、股 票指数、图像和声音文件等资源。其特点是检索界面友好,检索选项丰富,主要 包括:可控制调用的独立搜索引擎、选择使用短语检索功能、设定检索时间、设 定每页可显示记录数等。另外,m a m m a 支持常用检索语法在不同搜索引擎中的转换, 还提供了专门检索页面文件标题的特殊检索服务,以及通过e m a i l 传输检索结 果的特色功能。检索结果以相关性排序,内容包括网页名称、u r l 、文摘、源搜索 引擎。 9 湖北工业大学硕士学位论文 ( 3 ) p r o i u s i o n ( 英文搜索引擎) 融逝:h t t p : | 删p r o f u s i o n c o m p r o f u s i o n 是一个优秀的智能型元搜索引擎,是2 0 0 0 年元搜索引擎9 2 3 8 推 荐奖获得者。p r o f u s i o n 在其检索界面上提供了尽可能多的检索选项,包括:检 索类型( 简单、a l l 、a n y 、布尔、短语) 、结果显示( 1 l o 、l 2 0 等) 、摘要选 项、链接检查、搜索引擎选择( 根据检索需求动态的提供最好的3 个、最快的3 个或全部、自定义等) ,可搜索资源范围涵盖娱乐、健康、体育、m p 3 、u s e n e t 等, 并支持个性化设置,自动实现符合特殊检索语法要求的转换,如在调用e x c i t e 、 i n f o s e e k 、w e b c r a w l e r 时将”n e a r ”转换成”a n d ”,在调用g o t o 、y a h o o 时将”n o t ” 删除等。另外,p r o f u s i o n 提供了比较丰富的检索技巧和f a q 内容。 ( 4 ) c 4 ( 英文搜索引擎) 网址:h t t p :w w w c 4 c o m c 4 搜索引擎是2 0 0 0 年元搜索引擎9 2 3 8 推荐小奖获得者。并行元搜索引擎, 可对网页,健康,商业,财经新闻,科技新闻,标题新闻,家庭工作,m p 3 ,体育, 公司名录和新闻组共h 大类5 3 个搜索引擎发送搜索请求。支持a n d ,o r ,n o t 和 短语搜索,像a s k j e e v e s 一样支持自然语言搜索,但不同的是没有自己的标准问 答库,搜索结果都来自网上。返回结果每页显示可从5 到5 0 条自选,默认2 0 条。 搜索结果以相关性排序,每条结果旁都有来源搜索引擎的标志,如果对哪个搜索 引擎满意,可以点击”m o r ef r o mx x x x ”直接用那个搜索引擎搜索。注册后可保存 个性化设置,在任何地方登录后均可进行个性化搜索,还提供在线收藏央,可以 保存复杂或常用的搜索请求。提供了有多达5 种很酷界面的搜索功能代码免费下 载安装在用户主页上。 其他常用的英文元搜索引擎还有a s kj e e v e s ( h t t p :w w w a s k j e e v e s c o m ) 、 b y t e s e a r c h ( h t t p :们州b y t e s e a r c h c o m ) 、m e t a c r a w l e r ( h t t p :w w w m e t a c r a w l e r t o m ) 等,这里不一一介绍。 1 0 湖北工业大学硕士学位论文 2 5 元搜索引擎的优点 元搜索引擎的技术重心在于查询前的处理( 检索请求提交机制和检索接口代 理) 和结果的集成。元搜索引擎与独立搜索引擎相比,具有如下主要优点。 ( 1 ) 信息的覆盖面 元搜索引擎一般缺省调用它自己认为比较好的几个搜索引擎,而且大多数的 元搜索引擎都提供给用户在一定范围内选择搜索引擎的功能。有些元搜索引擎还 以频道的方式为用户提供专业搜索引擎的分类。这样用户可以根据自己的喜好和 要查询的内容选择对应的搜索引擎。 ( 2 ) 搜索结果的权威性和可靠性 独立搜索引擎索引数据库的更新需要一定的周期,而且搜集的信息也各有一 定的侧重,元搜索引擎调用多个独立搜索引擎获取搜索结果,这种方式首先保证 了信息的互补性,其次与独立搜索引擎相比,提高了信息的新鲜度。如果同样的 搜索结果在多个独立搜索引擎中同时出现,那么说明这个搜索结果比较重要。这 样避免了有些独立搜索引擎人工干预有些搜索排名的缺点,使得搜索结果的排序 更加公正。有些元搜索引擎还检查搜索结果链接的存在性,这样可以保证用户得 到的元搜索结果的可靠性。 ( 3 ) 易维护性 易维护性是针对元搜索引擎的管理者而言的。元搜索引擎省去了独立搜索引 擎中收集和存储网页、建立和存储索引的工作。它将它所调用的搜索引擎看成一 个可以独立完成一定功能的实体,它本身不需要去维护它们,只需知道它们的调 用接口。元搜索引擎的查询精度在很大程度上在于它所调用的搜索引擎的查询精 度。所以元搜索引擎可以把主要精力放在搜索引擎的选择、查询请求的优化和搜 索结果的优化上。一般的元搜索引擎都提供了对应的优化机制。如果要尽快查询 到一个独特的术语或某个课题的概述,用元搜索引擎。当用其他独立搜索引擎查 询而得不到所需文件时,可改用元搜索引擎。即元搜索引擎主要用于提高搜索的 广度。对其他搜索引擎不是很熟悉的时候,也可以使用元搜索引擎作为通向其他 搜索引擎的门户n 引。 2 6 元搜索引擎的局限性 元搜索引擎的出现可以大大提高用户查询信息的覆盖面。但是一般的元搜索 湖北3 - 业大学硕士学位论文 引擎返回的结果彳i 能提高搜索结果的准确性。应当说,元搜索引擎在查准率上不 一定强于其他独立搜索引擎,但是由于能够在多个搜索引擎中搜索,必然能够为 搜索提供更多的机会。具体说来,元搜索引擎的局限性主要体现在以下几个方面: ( 1 ) 调用搜索引擎上的局限性 元搜索引擎大多只调用如g o o g l e , a l t a v i s t a ,i n f o s e e k 等几个主要的搜 索引擎。即便有些元搜索引擎提供了让用户选择搜索引擎的选项,但是只能在其 提供的几个搜索引擎中进行选择。 ( 2 ) 元搜索引擎查询请求上的局限性 元搜索引擎在查询语法转换上的局限性限制了许多高级的查询语法。因为元 搜索引擎的查询语法要考虑到它所调用的所有搜索引擎的查询语法,这种复杂性 使得大多数元搜索引擎只能提供一些简单的查询语法。 ( 3 ) 查询结果数量上的局限性 由于网上信息的急速膨胀,搜索引擎搜集的信息越来越多,一个查询往往能 够返回成千上万的搜索结果。元搜索引擎需要对多个搜索引擎的返回结果进行处 理,考虑到系统运行的效率,大多数元搜索引擎只取每个搜索引擎返回的前几个 的搜索结果。这样必定影响了信息的覆盖面。有些元搜索引擎提供了选项,以便 设置从每个搜索引擎返回结果的数量。 ( 4 ) 查询结果排序上的局限性 由于不同的搜索引擎在收集信息数量、收集信息的范围、采用的索引方法、 使用的相似度评价等方面的巨大差异,再加上元搜索引擎的设计者不能获取这些 搜索引擎的好多技术细节,对不同搜索引擎返回的结果不能进行很好的排序。 2 7 元搜索引擎的发展趋势 目前的元搜索引擎对于非结构化数据的处理能力很弱,它无法处理在用户看 来是非常普通的常识性知识,更不能处理随用户不同而变化的个性化知识、随地 域不同而变化的区域性知识以及随领域不同而变化的专业性知识等。未来的元搜 索引擎应该覆盖面更广、搜索速度更快、搜索精度更高和能够满足用户个性化和 多语言查询的要求副。 l 、更精确 元搜索引擎技术本身一个最重要的发展方向是提供更精确的搜索。实际上, 用户在元搜索引擎上进行信息查询时,主要关注结果是否和自己的需求吻合。目 1 2 湖北工业大学硕士学位论文 前出现了几种提高查准率的方法,如通过使用相关度反馈机制,使用户告诉搜索 引擎哪些文档和自己的需求相关,通过多次交互逐步求精等方法了解用户的真正 意图。但要想大幅度地提高查准率,元搜索引擎必须能够处理语义信息,即当前 影响元搜索引擎效率和搜索结果准确度的主要原因是它不能处理复杂语义信息。 2 、个性化 目前的元搜索引擎不考虑人的地域、性别、年龄等方面的差别。一些搜索引 擎公司已经开始了个性化方面的研发工作。例如,信息智能代理( i n t e l l i g e n t a g e n t ) 使用自动获得的领域模型( 如w e b 知识、信息处理、与用户兴趣相关的 信息资源、领域组织结构) 、用户模型( 如用户背景、兴趣、行为、风格) 知识进 行信息搜集、索引、过滤( 包括兴趣过滤和不良信息过滤) ,并自动地将用户感兴 趣的、对用户有用的信息提交给用户。智能代理具有不断学习、适应信息和用户 兴趣动态变化的能力,从而提供个性化的服务。 3 、交叉语言查询 交叉语言查询是指用户用母语提交查询,搜索引擎在多种语言的数据库中进 行信息检索,返回能够回答用户问题的多种语言的文档。如果再加上机器翻译, 则返回结果可以用母语显示。该技术目前还处于初步研究阶段,主要的困难在于 语言之间在表达方式和语义对应上存在不确定性。 1 3 湖北工业大学硕士学位论文 第3 章系统实现的技术平台 因为元搜索引擎是一个基于w e b 的系统,所以我们决定采用j a v ae e 作为本 系统的实现平台。本章首先对j a v a 及在开发该系统中使用到的一些技术作一个简 要的介绍,使大家对这些技术有一个总体的认识。 3 1j a v a 及其框架 j a v a 是一个由s u n 公司开发而成的新一代编程语言。使用它可在各式各样不 同种机器、不同种操作平台的网络环境中开发软件。j a v a 正在逐步成为i n t e r n e t 应用的主要开发语言。它彻底改变了应用软件的开发模式,带来了自p c 机以来又 一次技术革命,为迅速发展的信息世界增添了新的活力。 s u n 的j a v a 语言开发小组成立于1 9 9 1 年,其目的是开拓消费类电子产品市 场,例如,交互式电视、烤面包箱等。s u n 内部人员把这个项目称为g r e e n ,那时 w o r l dw i d ew e b 还在图纸上呢。该小组的领导人是j a m e sg o s l i n g ,是一位非常 杰出的程序员。他出生于1 9 5 7 年,于1 9 8 4 年加盟s u nm i c r o s y s t e m 公司,之前 在一家i b m 研究机构工作。他是s u nn e w s 窗口系统的总设计师。也是第一个用c 实现的e m a c s 的文本编辑器c o s m a c s 的开发者

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论