(国际贸易学专业论文)基于MapReduce的分布式智能搜索引擎框架研究.pdf_第1页
(国际贸易学专业论文)基于MapReduce的分布式智能搜索引擎框架研究.pdf_第2页
(国际贸易学专业论文)基于MapReduce的分布式智能搜索引擎框架研究.pdf_第3页
(国际贸易学专业论文)基于MapReduce的分布式智能搜索引擎框架研究.pdf_第4页
(国际贸易学专业论文)基于MapReduce的分布式智能搜索引擎框架研究.pdf_第5页
已阅读5页,还剩111页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术 和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放 广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎 查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象。搜索引擎 经济的崛起,又一次向人们证明了互联网所蕴藏的巨大商机。互联网离开了搜 索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘的金矿。如今互联网中 的信息每天以指数级的数量增长,面对海量数据的处理和存储,传统的集中式 搜索引擎显得无能为力。另外传统搜索引擎系统一般都采用关键词匹配模式, 无法理解用户搜索意图,使得用户在互联网上搜索自己真正需要的信息很困难。 因此搜索引擎的分布式智能化是未来发展的趋势。 本文从研究和设计的角度出发,对分布式智能搜索引擎的相关理论和技术 进行了详细的分析和讨论,将基于m a p r e d u c e 的分布式智能搜索引擎框架研究 分为三个层次,即分稚式并行计算理论方法研究、搜索引擎原理的研究以及基 于分布式的智能搜索引擎研究。论文主要研究的内容如下: 论述了目前搜索引擎的国内外发展现状、存在的问题以及发展趋势;分析 了搜索引擎的工作原理以及各部分的主要功能;对分布式计算理论、网格计算、 云计算、m a p r e d u c e 分布式计算模型进行分析与研究。对开源搜索引擎工具包 l u c e n e 、开源分布式计算框架h a d o o p 进行了详细的分析与研究。 在基于m a p r e d u c e 的分布式计算模型的基础上,借助语义词典,对分布式 的智能搜索引擎系统进行了研究。设计并实现了基于m a p r e d u c e 的分布式智能 搜索引擎l e b s o u 。重点阐述了i e b s o u 系统框架的实现。不仅给出了系统 各模块之间的关系,而且还分析了各个模块的实现原理和思想。对i e b s o u 的 m a p r e d u c e 基础框架进行了设计:结合l u c e n e 设计了统一文档处理框架,并 对中文分词中人名识别、新词的识别进行了研究;提出了基于m a p r e d u c e 的网 页消重算法;提出了通过构建概念集的方式来提供基于语义联想的搜索推荐词 生成算法。借助语义词典,对用户搜索关键词的概念进行语义扩展,构造概念 集,让系统智能的理解用户搜索意图,提高系统的查全率和查准确率。 关键字:搜索引擎,分布式计算,m a p r e d u c e ,h d f s a b s t r a c t w i t ht h ee c o n o m i cr i s eo fs e a r c h ,m o r ep e o p l eb e g i nt oc o n c e r nt h ew o r l d s m a j o rs e a r c he n g m ep e r f o r m a n c e ,t e c h n o l o g ya n dd a i l yf l o w a ne n t e r p r i s ew i l l c h o o s ew h e t h e rt ol a u n c ha d v e r t i s i n gb a s e do nt h es e a r c h e n g i n ep o p u l a r i t ya n d d a i l y f l o w , a so r d i n a r yi n t e r n e tu s e r s ,w h i c hc h o o s eaf a v o r i t es e a r c he n g i n et of i n d i n f o r m a t i o na c c o r d i n gt os e a r c he n g i n ep e r f o r m a n c ea n dt e c h n o l o g y , a st e c h n i c i a n s , w i l lc h o o s ear e p r e s e n t a t i v eo fs e a r c he n g i n ea st h er e s e a r c ho b je c t t h ee c o n o m i c r i s eo fs e a r c he n g i n e s ,t ot h ep e o p l eo n c ea g a i nd e m o n s t r a t e st h ei n t e r n e tb yt h e t r e m e n d o u sb u s i n e s so p p o r t u n i t i e s w i t h o u ts e a r c he n g i n e s ,i n t e r n e tw i l lb el e f to n l y e m p t yc l u t t e ro fd a t a ,a sw e l la ss om u c hg o l dm i n e rw h i c hn e e d sd i g g i n gw i t hh a r d s l e d d i n g 。t o d a y , t h ei n f o r m a t i o ni nt h ei n t e r n e ti sm o u n t e du pe x p o n e n t i a l l v e v e r y d a y , a n di nt h ef a c eo fm a s s i v ed a t ap r o c e s s i n ga n ds t o r a g e ,t h et r a d i t i o n a l c e n t r a l i z e ds e a r c he n g i n ea p p e a r st ob ep o w e r l e s s o nt h eo t h e rh a n d ,t r a d i t i o n a l s e a r c he n g i n e s y s t e m i s g e n e r a l l yu s e dw o r d sm a t c h i n gm o d e l ,a n du n a b l et o u n d e r s t a n dc u s t o m e rs e a r c hi n t e n t i o n s ,m a k i n gi tv e r yd i f f i c u l tf o rt h eu s e r st os e a r c h o nt h ei n t e r n e tf o r t h e r e a l l y w a n t e di n f o r m a t i o n t h e r e f o r e ,t h ed i s t r i b u t e d i n t e l l i g e n ts e a r c he n g i n ei st h ef u t u r ed e v e l o p m e n tt r e n d f r o mt h er e s e a r c ha n dd e s i g n p o i n to fv i e w , t h i st h e s i sm a k e sad e t a i l e d a n a l y s i sa n dd i s c u s s i o no nt h ed i s t r i b u t e di n t e l l i g e n c eo ft h es e a r c he n g i n e r e l a t e d t h e o r ya n dt e c h n o l o g y t h er e s e a r c ho nt h ef r a m e w o r ki ss u b d i v i d e di n t ot h r e el e v e l s w h i c ha r ec o r r e l a t e dw i t he a c ho t h e rc l o s e l yt os u p p o r tt h ed i s t r i b u t e di n t e l l i g e n t s e a r c he n g i n eb a s e do nt h em a p r e d u c e t h ef i r s ti st h et h e o r ya n dm e t h o d o l o g yo f d i s t r i b u t e dp a r a l l e lc o m p u t i n g t h es e c o n di st h ep r i n c i p l eo fs e a r c he n g i n e t h e t h i r di st h et h e o r ya n dm e t h o d o l o g yo ft h ed i s t r i b u t e di n t e l l i g e n ts e a r c he n g i n e t h e m a i nc o n t e n to ft h et h e s i si sa sf o l l o w s : f i r s t l yt h et h e s i sd i s c u s s e st h ec u r r e n td e v e l o p m e n ts t a t u so fs e a r c he n g i n ea t h o m ea n da b r o a d ,a sw e l la st h ee x i s t i n gp r o b l e m sa n dt h ed e v e l o p m e n t t r e n d s a f t e r a n a l y s i so ft h es e a r c he n g i n e sw o r k i n gp r i n c i p l ea sw e l la ss o m eo ft h em a i n f u n c t i o n s ,t h et h e o r yo fd i s t r i b u t e dc o m p u t i n g ,g r i dc o m p u t i n g ,c l o u dc o m p u t i n g , n m a p r e d u c ed i s t r i b u t e dc o m p u t i n gm o d e la r ee l a b o r a t e d a n dt h eo p e ns o u r c e s e a r c he n g i n ek i tl u c e n e ,o p e n - s o u r c ed i s t r i b u t e dc o m p u t i n gf r a m e w o r kh a d o o pa r e a n a l y z e da n ds t u d i e d b a s e do nt h em a p r e d u c ed i s t r i b u t e dc o m p u t i n gm o d e la n ds e m a n t i cd i c t i o n a r y , t h ed i s t r i b u t e di n t e l l i g e n c eo ft h es e a r c he n g i n es y s t e mi ss t u d i e d t h ed i s t r i b u t e d i n t e l l i g e n ts e a r c he n g i n e i e b s o u ,w h i c hb a s e do nt h em a p r e d u c e ,i sd e s i g n e d a n di m p l e m e n t e d a n dt h et h e s i sf o c u s e so nt h ef r a m e w o r kf o rt h er e a l i z a t i o no ft h e i e b s o us y s t e m n o to n l yd i s p l a y st h er e l a t i o n s h i pb e t w e e nt h em o d u l e s ,b u ta l s o a n a l y z e st h ei m p l e m e n t e dp r i n c i p l e sa n di d e a so ft h ev a r i o u sm o d u l e s a f t e rt h a tt h e b a s i so ft h ef r a m e w o r ko ft h ei e b s o u sm a p r e d u c ei sd e s i g n e d c o m b i n e dw i t h l u c e n e ,au n i f i e df r a m e w o r kf o rd e a l i n gw i t ht h ed o c u m e n ti sd e s i g n e d ,a n dt h e nt h e n a m e si nc h i n e s ew o r dr e c o g n i t i o na n dr e c o g n i t i o no fn e ww o r d sh a v eb e e ns t u d i e d t h ee l i m i n a t i o nr e p a g e a l g o r i t h mb a s e do nt h em a p r e d u c ea n dt h es e a r c h r e c o m m e n d e dw o r dg e n e r a t i o na l g o r i t h mb a s e do nt h es e m a n t i ca s s o c i a t i o na r e p r o p o s e d t h r o u g hc o n s t r u c t i n gac o n c e p ts e t ,i e b s o uc a ni n t e l l i g e n t l yg e n e r m et h e s e m a n t i cr e l a t e dw o r d sf o rt h eu s e r s o nt h eo t h e rh a n d ,w i t hs e m a n t i cd i c t i o n a r y , i e b s o uw i l lc o n d u c tas e m a n t i ce x t e n s i o nf o ru s e r ss e a r c h e rk e y w o r d sa n db u i l da c o n c e p ts e t ,s ot h es y s t e mc a ni n t e l l i g e n t l yu n d e r s t a n dt h eu s e r ss e a r c h i n gi n t e n t , a n di m p r o v et h er e c a l la n dp r e c i s i o n k e yw o r d s :s e a r c he n g i n e ,d i s t r i b u t e dc o m p u t i n g ,m a p r e d u c e ,h d f s i i i 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权 保留、送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 研究生签名: 阻导师 日期: 武汉理工大学硕士学位论文 第1 章绪论 随着互联网技术的发展,网络中的资源越来越丰富,如今互联网上的信息 更是浩如烟海。目前,互联网已经成为世纪上最大的信息源,成为全球范围内 科研、教育、商业和社会、新闻、学校和专业机构介绍、图书及娱乐等信息的 集大成者。信息量呈指数级增长带来的最直接的问题就是:网路用户如何从这 些浩如烟海的资源中找到符合自己需求的信息。搜索引擎的出现方便了人们迅 速而有效地获取信息。虽然搜索引擎的历史还不长,但根据中国互联网信息中 心2 0 0 7 年7 月1 8 同发布的第2 0 次中国互联网发展状况调查统计分析【1 1 , 截止2 0 0 7 年6 月3 0 日,它已经成为第二大w e b 应用,是每年w w w 学术年 会的重要论题之一。搜索引擎已日益成为人们日常生活中必不可少的一部分, 成为人们在信息海洋中进行“大海捞针”的工具1 2 儿引,不断地改变着人们获取信 息的方式。然而目前搜索引擎又面临一系列的挑战,如网络信息量迅猛增加, 人工已经无法对它们进行有效的分类、索引和利用;简单的关键词搜索,返回 的信息量过大,已经让用户无法承担;网络信息组织的无序性;信息有用性评 价困难;网络信息同新月异的更变;信息媒体的多样化;带宽等其它因素的制 约,这些都给因特网信息的获取造成了极大的阻碍。搜索引擎涉及到信息检索、 数据库、数据挖掘、人工智能、分布式处理、自然语言处理等多个领域的理论 和技术,因而具有综合性和挑战性。搜索引擎技术在我国的发展仍然不成熟, 虽然它的基本工作原理已经很稳定,但其在质量、性能和服务方式等方面依然 有很大的提高空间。 1 1 选题的背景与研究意义 中国多年的互联网企业应用发展,搜索引擎一直是中坚力量。搜索引擎已 经成为了企业实施信息化尤其是电子商务的第一道大门。先是阿里巴巴收购雅 虎中国,再是百度宣布进军c 2 c ,国外还风传谷歌( g o o g l e ) 要收购e b a y ,再 到今年十月百度的c 2 c 平台“有啊 的j 下式上线。搜索引擎与电子商务的捆绑 趋势,是市场发展的需求带动。2 0 0 7 年,百度提出电子商务e s e ( e c o m m e r c e 武汉理工火学硕士学位论文 b a s e do ns e a r c he n g i n e ) 模式,这一概念的价值在于,首次试图将“搜索”和“电 子商务”这两个互联网领域内的核心业务板块打通。所谓e s e ,是指基于搜索 引擎的电子商务。这一阶段的电子商务将以搜索技术与商品需求、信息的完善 结合为特征,能够改善商务体验,从而全面提升产业效率。但搜索和电子商务, 并非同一量级上的概念。应该说,互联网自诞生之日,就包蕴了信息搜索的这 一基本需求;而电子商务则是这一信息高速公路日渐成熟后承载的具体商业应 用【4 】。根据艾瑞咨询最新推出的( ( 2 0 0 8 年搜索在网络购物流程中的价值分析报 告结果显示,搜索从用户产生潜在网络购买意识到网络购物结束后的整个流 程中,都发挥着重要的作用,在网络购物用户决策前及购买后的相当长时期内, 无论是购物站内还是站外的搜索都是用户获取商品信息和品牌信息的主要渠 道。在消费者做出购买决策前,需要获取尽可能多的商品信息以知晓品牌,了 解产品。网络购物消费者在购买前,获取商品信息最主要的方式是通过搜索查 询比较,有5 7 5 的选择比例,而通过综合门户下辖的垂直品牌查询商品信息 的占1 2 6 ,通过社区和网友评价讨论查询商品信息的占1 0 4 ,而7 0 的网 络购物用户通过垂直网站进行查询。艾瑞咨询调研发现,在消费者做出购买并 提交订单后,依然有6 6 1 的消费者继续搜索商品信息【5 】。然而搜索引擎的好坏, 会直接影响用户的体验,从而直接影响着电子商务的发展。比如搜“超人”这 个词,如果会把“咸蛋超人”和“超人气商品”混杂在一起,另j , b 女i l 果输入英 文,一个字母都不能错,甚至大小写都不能搞错,否则就完全找不到需要的商 品。这样的搜索体验往往会导致客户的流失,潜在的交易难以进行下去。由此 可见,电子商务依赖搜索才能够得以生存发展。 这一点直接体现在国家科技支撑计划“电子商务与现代物流共性集成技术 研究开发”的课题研究上。该课题主要针对集成平台体系架构、电子商务与现 代物流集成技术、平台实现中的关键技术等进行研究,开发相应的集成中问件、 公共构件和决策支持系统,形成完整的电子商务与现代物流集成服务平台,制 定相应的集成服务接口规范,并在此基础上通过项目中的相关课题或合作单位 的应用推广,丌展平台的应用示范,取得良好的经济效益和社会效益。在研究、 设计开发中,我们发现在集成方面主要面临的问题有: ( 1 ) 业务结构复杂,应用系统繁多。在现今电子商务和现代物流中,往往 存在许多异构的应用系统,例如e r p 、c r m 、s c m 、o a 、d s s 等各类信息系 统,这造成在跨企业、跨组织的信息系统中,数据语义和应用语义不同,使得 2 武汉理工大学硕士学位论文 集成面临两个重要问题,一是如何解决交易信息、物流信息、支付信息、认证 信息及业务标准在类型、格式、语义等多方面的差异;二是如何实现来自多个 分布信息源的信息集成,包括信息关联、信息模式重构、信息实例转换等多方 面内容。 ( 2 ) 信息变化频繁。在集成中,非常大量的数据都具有很强的时效性,包 括用户信息、财务信息、网络信息甚至竞争对手的信息等,都处在一个不断动 态更新的过程中。 ( 3 ) 数据量庞大,数据种类众多。对于长期以来企业所搜集的黄沙般一望 无际的海量数据,如何对这些沙子善加利用,或是从中淘出金粒,或是将其锻 造成水晶玻璃,却是一件极具挑战性的工作。 很明显,以上这些问题给平台的设计带来了极大的困难,对海量数据的处 理是一项浩繁的系统工程,在满足复杂的数据分析的要求下,还往往需要能够 从海量的数据中进行信息的查询。因此在进行课题研究的过程中,笔者深刻的 体会到搜索和电子商务的结合的重要性和迫切性,并以此为契机和主要出发点, 展开了有针对性的文献查阅和学习研究,结合i t 企业许多年来积累的大量经 验,其中一条重要的经验就是对数据的分布式并行处理。并认识到,分布式的 智能搜索引擎是基于目前i n t e m e t 上信息的无组织、异构、分布和动态的特点提 出的,用于解决信息检索中“信息过载”和“资源迷向”等问题。分布式架构 有助于解决传统搜索引擎集中式处理海量数据的性能瓶颈。传统的搜索引擎并 不能对用户输入的关键字进行词意的分析和词意的扩张,缺乏知识处理能力和 理解能力,导致用户查询的精度非常低,因此如何提高用户查询结果的精度已 经成为搜索引擎所要解决的一个非常关键的问题,从而导致了智能搜索引擎的 发展。基于分布式的智能搜索引擎技术是集人工智能、计算机分布式并行计算、 存储、数据库、数据挖掘、信息检索以及自然语言处理等多个领域的理论和技 术,因而具有综合性和挑战性,是计算机科学与技术和信息科学相结合的前沿 课题,具有前瞻性和创新性,既有重要的学术价值,又有很强的实际应用背景 和社会经济效益。 武汉理i j 人学硕十学位论文 1 2 搜索引擎研究综述 1 2 1 国内外搜索引擎研究的背景和进展 早在w 曲出现之前,互联网上就已经存在许多旨在让人们共享的信息资源 了。那些资源当时主要存在于各种允许匿名访问的f t p 站点( a n o n y m o u sf t p ) , 内容以学术技术报告、研究性软件居多,它们以计算机文件的形式存在,文字 材料的编码通常是p o s t s c r i p t 或者纯文本( 那时还没有h t m l ) 。 为了便于人们在分散的f t p 资源中找到所需的东西,1 9 9 0 年加拿大麦吉尔 大学( u n i v e r s i t yo f m c g i l l ) 计算机学院的师生开发了一个软件,a r c h i e 6 ,7 】。 它通过定期搜集并分析f t p 系统中存在的文件名信息,提供查找分布在各个 f t p 主机中文件的服务。a r c h i e 能在只知道文件名的前提下,为用户找到这个 文件所在的f t p 服务器的地址。a r c h i e 实际上是一个大型的数据库,再加上与 这个大型数据库相关联的一套检索方法。该数据库中包括大量可通过f t p 下载 的文件资源的有关信息,包括这些资源的文件名、文件长度、存放该文件的计 算机名及目录名等。尽管所提供服务的信息资源对象( 非h t m l 文件) 和本书 所讨论搜索引擎的信息资源对象( h t m l 网页) 不一样,但基本工作方式是相 同的( 自动搜集分布在广域网上的信息,建立索引,提供检索服务) ,因此人们 公认a r c h i e 为现代搜索引擎的鼻祖【6 。1 。 1 9 9 3 年,美国内华达s y s t e mc o m p u t i n gs e r v i c e s 大学开发了一个与a r c h i e 非常相似的搜索工具,这个搜索工具既能够检索文件也能够检索网页。当时, “机器人”一词在编程者中十分流行。电脑“机器人”( c o m p u t e rr o b o t ) 是指 某个能以人类无法达到的速度不问断地执行某项任务的软件程序。由于专门用 于检索信息的“机器人”程序像爬虫一样在网络间爬来爬去,因此,搜索引擎 的“机器人”程序也被称为“爬虫”程序。 1 9 9 4 年4 月,斯坦福( s t a n f o r d ) 大学的两名博士生,d a v i df i l o 和美籍华 人杨致远( g e m yy a n g ) 共同仓l j 办了超级目录索引y a h o o ,并成功地使搜索引擎 的概念深入人心。从此搜索引擎进入了高速发展时期。 1 9 9 8 年,斯坦招大学的两位博士生l a r r yp a g e 和s e r g e yb r i n 丌发出了现在 世界上最大的搜索引叫o o g l e 。通过对2 0 多亿网页进行整理,g o o g l e 可为 世界各地的用户提供适需的搜索结果,而且搜索时间通常不到半秒。现在, 4 武汉理工大学硕十学位论文 g o o g l e 每天需要为世界各国用户提供2 亿次查询服务。 1 9 9 7 年1 0 月2 9 口,北大天网正式在c e r n e t 上向广大i n t e m e t 用户提供 w e b 信息导航服务,它是由北大计算机系网络与分布式系统研究室开发的国家 “九五 重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果, 受到学术界广泛好评。 2 0 0 0 年1 月,两位北大校友,前i n f o s e e k 资深工程师李彦宏与加州大学伯 克利分校博士后徐勇在北京中关村创立了百度( b a i d u ) 公司。历经8 年的高速 发展后,百度高居全球网站流量i l l s , s t , 名的位置。已经成为全球十大网站之一, 是目前世界时最大的中文搜索引擎i l2 。如今百度的同均i p 访问量大约为 2 9 ,9 4 0 ,0 0 0 ,同均p v 浏览量大约为3 8 0 ,2 3 8 ,0 0 0 乃j 。“有问题百度一下”已经成 为中国网络流行语之一。 2 0 0 2 年,中国搜索( 原慧聪搜索) 正式进入中文搜索引擎市场。在一年多 的时间里,就发展为全球著名的中文搜索引擎服务商,为新浪、搜狐、网易、 t o m 等知名门户网站提供搜索引擎技术、慧聪搜索引擎的优势是从人工审核网 站信息源和设置禁查词两个方面入手,有效地过滤了不良信息,降低了垃圾信 息的含量在互联网实时新闻搜索方面,慧聪也实现了网络新闻的实时检索。 目前,i n t e r n e t 上已有数千个能提供检索服务的站点,这些站点的搜索引擎 在收录的范围、内容、检索方法上各有不同,采用的技术也各具特色。但总的 来看,按照信息搜集方法和服务提供方式的不同,搜索引擎可以分为3 类:1 1 4 。1 7 j ( 1 ) 目录式搜索引擎:以人工方式或者半自动方式搜集信息,由编辑员查 看信息后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大 多面向网站,提供目录浏览服务和直接检索服务。但这类搜索引擎有两大问题: 分类是按分类者或分类软件的分析而定,不一定与用户的意见一致:如果 你查找的信息没有对应的分类项,则无法进行搜索。目录索引中最具代表性的 莫过于大名鼎鼎的y a h o o 。其他著名的还有o p e nd i r e c t o r yp r o j e c t ( d m o z ) 、 l o o k s m a r t 、a b o u t 等。早期国内的搜狐、新浪、网易搜索也都属于这一类。但 是如今,都纷纷推出了机器人搜索引擎,2 0 0 4 年,搜狐推出了“搜狗”:2 0 0 7 年,网易推出了机器人搜索引擎“有道”。 ( 2 ) 机器人搜索引擎:由一个称为爬虫( 也称为蜘蛛) 的机器人程序以某 种策略自动地在互联网中搜集和发现信息,由索引器为搜索到的信息建立索引, 由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方 武汉理工大学硕士学位论文 式是面向网页的全文检索服务。基于机器人的搜索引擎常被批评为不安全及产 生大的网络负责和服务器负载,但当检索一个特定网站或检索的题目范围比较 窄时,使用机器人搜索引擎是非常恰当的。国外具有国外具代表性的有g o o g l e 、 f a s 似l l t h e w 曲、a l t a v i s t a 、i n k t o m i 、t e o m a 、w i s e n u t 等,国内著名的有百度 ( b a i d u ) 。 ( 3 ) 元搜索引擎:这类搜索引擎没有什么自己的数据,而是将用户的查询 请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理 后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。元数据搜 索引擎的查询结果是建立在其他搜索引擎的查询基础上,查询的精度与查找的 范围要比单个搜索引擎的查询精度与查找范围要好,但是由于元搜索引擎是建 立在传统搜索引擎的基础上,因此,传统搜索引擎所存在的查询精度低的问题 在元搜索引擎中同样出现。著名的元搜索引擎有i n f o s p a c e 、d o g p i l e 、v i v i s i m o 等,中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有 的直接按来源引擎排列搜索结果,如d o g p i l e ,有的则按自定的规则将结果重新 # 列组合,如v i v i s i m o 。 除上述三大类引擎外,还有以下几种非主流形式: ( 1 ) 集合式搜索引擎:如h o t b o t 在2 0 0 2 年底推出的引擎。该引擎类似元 搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的 4 个引擎当中选择,因此叫它“集合式”搜索引擎更确切些。 ( 2 ) 门户搜索引擎:如a o ls e a r c h 、m s ns e a r c h 等虽然提供搜索服务, 但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。 ( 3 ) 免费链接列表( f r e ef o r a l ll i n k s ,简称f f a ) :这类网站一般只简单 地滚动排列链接条目,少部分有简单的分类目录,不过规模比起y a h o o 等目录 索引来要小得多。 1 2 2 传统搜索引擎存在的问题 互联网从产生、技术积累到飞速发展的近十年里,给现代社会带来了无法 估量的影响,在科技、教育、工业、经济、生活等方方面面发挥了巨大的推动 作用【1 8 】。随着互联网网站页面的激增和用户队伍的不断壮大,搜索引擎越来越 成为人们上网浏览时的重要工具。这种市场的需求刺激着搜索引擎的技术不断 的走向完善。目前搜索引擎的研究和应用已经取得了巨大的进步,但是从当日i 6 武汉理t 大学硕十学位论文 搜索引擎实际的现状来看,依然存在下述几个问题有待进一步研究: ( 1 ) 网络信息资源日新月异,每天都是以几何级数成倍增长。目前世界上 最大的搜索引擎公司g o o g l e 公司的总页面数大概在3 0 亿左右,但是这大概仅 仅占整个互联网上资源总量的3 0 ,而且由于互联网上网络资源的增长速度远 远超过g 0 0 9 l e 公司页面数增长的速度,也就是说,互联网上有超过7 0 的资源 用户是无法通过搜索引擎检索到。这个问题从第一代搜索引擎开始就一直存在, 而且在以后的相当长的一段时间内将一直存在,但是这并不意味着我们对此无能 为力,已经提出来很多年的分布式计算理论将能够给这个问题的解决带来曙光。 ( 2 ) 目前人们对搜索引擎越来越依赖,但是同时也带来了一系列的问题。 搜索引擎通过对用户输入的关键字在自己的索引数据库中进行模糊查询,然后 将结果返回给用户,随着搜索引擎数据量的递增,返回的大量信息都不能满足 用户的需求,另外,对不同的用户,相同关键字的检索结果是一样的,这也是 不能接受的。以上两个问题,正是智能化搜索引擎需要解决的问题。 实际上传统搜索引擎采用的是一级映射模式,即用户提交的关键字被直接 传递给搜索引擎,搜索引擎用机械匹配的方式到预先建好的索引文件中去检索, 然后把检索结果返回给用户,可是,传统的搜索引擎并不能对用户输入的关键 字进行词意的分析和词意的扩张,缺乏知识处理能力和理解能力。如查找“华 人”一次,搜索结果中有“外籍华人”、“华人联盟”、“中华人民共和国”,但是 按照常理来说,“中华人民共和国”中的“华人与用户要检索的“华人”并不 相关。因此智能搜索引擎的需求越来越强烈。 1 2 3 搜索引擎的分布式智能化趋势 现今,搜索引擎的性能指标主要有3 个:【l 9 j ( 1 ) 规模的大小。只有规模达到一定的数量级,用户的搜索结果的符合度 才能够达到满足不同用户的需求程度。 ( 2 ) 性能。搜索引擎的网络爬虫必须在一个较短的时问内完成对目标网络 的信息搜集、分类、索引,保证数据的时效性,有效性。同时,能够在用户可 容忍的时i 日j 段内,完成搜索结果的反馈。 ( 3 ) 搜索的质量。能够去掉信息重复的网页,对一些无用的信息进行过滤, 能理解用户查询的语义,进行智能的搜索,返回用户最想要的数据,而不是返 回一堆无用的信息。 7 武汉理工大学硕士学位论文 可以说以上这三个指标是未来搜索引擎发展中必须满足的。总的来说,搜 索引擎在短短十几年的发展过程中,对世界产生了不可估量的影响。在它背后 暗藏着巨大的挑战和商机,而这些必将继续推动搜索引擎未来的发展,包括它 的实现技术和体系架构。 从设计角度看,由于搜索量的翻倍增加,用户对搜索速度的挑剔,使得搜 索引擎对性能的要求不断提高,目前许多搜索引擎从体系结构上看是集中式的, 即从i n t e r n e t 上取回页面,经过分析、处理后将所有的索引信息形成索引数据库 集中存储在某个站点,用户通过访问该站点实现查询。这种架构的搜索引擎服 务器负载过大,一旦大量用户同时向服务器请求检索服务,搜索引擎不可能及 时响应,也会造成网络堵塞。由于i n t e m e t 网络庞大,分布广泛,所提供的信息 浩如烟海,集中式的搜索引擎所能搜索到的信息十分有限,达不到深度与广度 的搜索。另外由于搜索引擎智能化的要求越来越高,这也无形中给搜索引擎计 算性能方面增加的巨大的负担。因此单单依靠单台计算机的处理能力远远不够。 即使硬件的发展速度很快,但是根本赶不上信息的增长速度。采用集群计算机 实现,虽然可以解决处理速度问题,但由于在网络的整体上看该集群仍然是一 个节点,会严重受制于网络带宽。因此需要采用多台计算机进行分布式协调处 理。正因如此,人们纷纷提出建立分布式搜索引擎的策略。分布式计算,合理 的部署和设计才能带来高效的搜索性能,合理的应用硬件资源才会把巨大的信 息量更好的利用。分布式搜索引擎是通过网络把大范围的分布、异构数据集联 合起来,形成一个逻辑的整体,为用户提供分布式的信息检索服务。同传统的 集中式搜索引擎相比,分布式搜索引擎具有如下的优点:1 1 6 1 ( 1 ) 各检索服务器之间协同工作,每个服务器只搜索自身自治区域内的信 息资源,彼此之间只传递搜索结果信息,加快了检索速度,减轻网络及各站点 的负担。 ( 2 ) 与网络资源本事的分布式特征相适应,增加搜索服务的方便,有良好 的可扩展性。 ( 3 ) 索引信息划分到各个数据库中,使得各索引数据库规模小,易于管理, 缩短查询响应时间。【2 0 j 1 2 l j 从技术角度看,挑战和竞争将愈演愈烈。短短十余年的时间便已经经历了 三代更新,每一次都是技术的更新换代,老的技术被淘汰,新的技术被提出并 应用。创建于1 9 9 4 年的l y c o s 搜索引擎是第一个现代意义的搜索引擎。第一代 8 武汉理工大学硕士学位论文 搜索引擎一般索引的网页比较少,也很少去重新搜集网页和刷新索引,而且其 搜索速度非常慢。第二代搜索引擎的特点是采用超链分析技术,最具有代表性 的是g o o g l e 搜索引擎,现在它已经成为全球最受欢迎的搜索引擎【2 2 1 。虽然与第 一代搜索引擎相比,第二代搜索引擎在搜索速度和针对多种语言信息的扩展等 方面有所改进,在以自然语言为查询语言方面也做了一些探索。但是,随着 i n t e m e t 的迅猛发展,网上庞大的数字化信息和人们获取所需信息能力之问的矛 盾日益突出。如何从庞大的资料库中精确地找到正确的资料,并满足用户的个 性化需求,被公然为是第三代搜索引擎探索的方向。所以分布式智能搜索引擎 的出现,较好的解决了这方面的问题。 国内外对搜索引擎的研究也可分为分布式和智能化两个层面。在上个世纪 五六十年代,大型机在市场上处于主导地位,所有的企业信息系统都依赖于这 个中心实体构建。这种集中式方法的优势在于比较简单,处理单一系统就可以 满足所有的处理需求,以及集中配置所有的资源等。但是,随着互联网的发展, 如今搜索引擎要处理的数据要以t b 计,同时要求搜索引擎要及时响应人们的 搜索请求。面对海量的信息进行检索,如果单单依靠单台计算机的处理能力远 远不够【2 3 】。随着分布式计算理论的发展,人们提出构建基于分布式的搜索引擎。 针对搜索引擎采用分布式并行计算模式架构整个系统可获得较好的性价比。文 献【1 9 】对主要的分布式搜索引擎进行了相关研究,介绍了采用j x t a 实现的基于 p 2 p 的搜索引擎,以及基于m a p r e d u c e 的分布式搜索引擎的原理:文献 2 4 就 大规模分布式并行信息检索进行了分析,对信息采集、索引、检索给出了分布 式并行模型;文献 2 5 】介绍了一种使用分布式技术的搜索引擎解决方案。近几 年,计算机对等网( p e e r - t o p e e r ) 技术的发展,引起了人们的注意,人们开始 考虑使用p 2 p 来构建分布式搜索引擎。c h o r d t 2 6 1 ,c a n t 2 7 1 ,t a p e s t r y t 2 8 1 ,p a s t r y l 2 9 1 等采用分布式散列表( d h t l 3 0 j ,d i s t r i b u t e dh a s ht a b l e ) 的方法来实现分布式搜 索,这类系统又称为结构化p 2 p 系统。非结构化p 2 p 网络采用泛洪( f l o o d i n g ) 的方法进行搜索,例如g n u t e l l a ,一个节点向所有邻居节点广播查询消息,邻 居节点再向自己的所有邻居节点广播,就这样向外泛洪扩张。文献 3 1 【3 2 重点 研究了基于p 2 p 的分布式搜索算法,对现有的分布式结构化c h o r d 网络拓扑结 构进行了改进,提出了一种分布式双环结构的网络拓扑结构,并在此基础上对 c h o r d 搜索算法进行了扩展。文献 3 3 3 7 1 对n e t s h o t 路由算法进行了分析,其中 文献 3 3 提出的基于p 2 p 的分布式搜索引擎中采用了n e t s h o t 路由算法,还提出 9 武汉理 :大学硕+ 学位论文 了基于树状词库进行中文分词,设计了基于x m l 与b + 树的倒排索引算法。文 献 3 8 1 研究了文本信息的特征抽取,信息特征的归类,网络任务的分布管理, 以及分布式信息检索系统的合理结构,提出了虚拟文档分类技术和信息特征向 量表示以及相似性算法。文献 3 9 设计描述了一个分布式网络爬虫的结构,分 析了分布式网络爬虫的关键技术解决方法。文献【4 0 】【4 l 】论述了w e b 搜索引擎设 计中缓存优化的相关技术。文献 4 2 4 4 对m a p r e d u c e 模型进行了详细的说明。 m a p r e d u c e 是由g o o g l e 公司首先提出的,一种能在大型计算机集群上并发地处 理海量数据的框架模型。文献 4 5 1 在对m a p r e d u c e 算法进行分析的基础上,利 用丌源h a d o o p 软件设计出高容错高性能的分布式搜索引擎。作为一种海量数 据的分布式处理技术,m a p r e d u c e 已经成功地运用于g o o g l e 搜索引擎的数据 处理【4 酬,g o o g l e 正是利用了这一技术,成功地运用了普通机器超大规模群集实 现了大规模信息处理。文献 4 7

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论