




已阅读5页,还剩81页未读, 继续免费阅读
(计算机软件与理论专业论文)基于lucene的面向商业应用的搜索引擎研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 如今因特网上的信息可以用惊人来形容。同时,我们的信息来源已经不仅仅 限于因特网领域中了因为台式电脑的存储量也在飞速增长。当我们一边要面 对如此大量的信息,一边时间又成为宝贵的资源时,只有找到一种更加灵活、自 由和即时查询的方式才能通过尽可能小的努力而迅速跨越严格的分类界限,准确 地找到我们所需的信息。各种各样搜索引擎的出现解决了这个问题。搜索引擎技 术正成为计算机工业界和学术界争相研究和开发的热点。 搜索引擎就是按照某种策略搜索和收集信息,并且对这些信息加以组织和处 理,为用户提供信息查询服务的软件应用系统。 本文首先对搜索引擎的产生背景、发展历史进行了说明,并对当前著名的四 大中文搜索引擎进行了简单介绍,同时指出了搜索引擎的发展现状和趋势。接下 来,文章对搜索引擎的基本原理、相关技术和处理流程作了进一步的分析。通过 对中文搜索引擎核心技术的研究,让我们对中文搜索引擎的实现难点有了更深的 认识。由于在中文的书面格式中,词与词之间没有自然的分隔符( 例如英文中的 空格) ,中文分词就成为中文语言分析过程的核心任务。本文着重分析和比较了现 有中文分词技术,并且提出了一个基于最短路径分词算法的改进方法。 文章接着介绍了一个纯j a v a 实现的成熟、自由、开源的软件项目:l u c e n e 。 l u c e n e 是一个高性能的、可扩展的信息检索工具库。通过对l u c e n e 源代码的分析 和编程实验,让我们领略到了l u c e n e 的精髓。由于其提供了一套简单却十分强大 的核心a p i ,使得我们可以快速得将它集成到我们自己的应用程序中。 文章最后以成功开发中国电信号码百事通的搜索系统为案例阐述了搜索引擎 技术在商业环境中的应用。本文详细说明了中国电信号码百事通的搜索系统的各 组成模块及相关功能。并且利用基于最短路径分词算法、加权排序算法和搜索过 滤等方法,对原有的基于拉丁文字的搜索引擎核心模块进行了改进,以适用于中 文应用和特定商业规则。 关键词:l u c e n e ,搜索引擎,信息检索,商业应用 a b s t r a c t n o w a d a y s ,t h ea m o u n to ft h ei n f o r m a t i o no i lm ei n t e m e t nb eo v e r w h e l m i n g a t t h es a m et i m e ,t h en e e dt oq u i c k l yl o c a t ei n f o r m a t i o ni nt h es e ao fd a t ai s n tl i m i t e dt o t h ei n t e r n e tr e a l m - - d e s k t o pc o m p u t e r sc a i is t o r ei n c r e 勰i n g i ym o r ed a t a w i t ht h i s a b u n d a n c eo fi n f o r m a t i o n , a n dw i t ht i m eb e i n go n eo ft h em o s tp r e c i o u sc o m m o d i t i e s f o rm o s tp e o p l e ,w en e e dt ob ea b l et om a k ef l e x i b l e ,f r e e f o r m , i n s t a n tq u e r i e sw h i c h c a nq u i c k l yc u ta c r o s sr i g i dc a t e g o r yb o u n d a r i e sa n df i n de x a c t l yw h a tw e r ea f t e rw h i l e r e q u i r i n gt h el e a s te f f o r tp o s s i b l e t h ee m e r g e n c eo fs e v e r a ls e a r c he n 西u e sw i t h v a r y i n gc a p a b i l i t i e ss o l v e st h i sp r o b l e m t h es e a r c he n g i n et e c h n o l o g yi sb e c o m i n gt h e h o t s p o to f r e s e a r c ha n dd e v e l o p m e n t b o t hi nc o m p u t e ri n d u s t r ya n da c a d e m i cw o r l d s e a r c he n g i n ei sa l la p p l i c a t i o ns o f t w a r es y s t e mw h i c hs e a r c h e sa n dc o l l e c t s i n f o r m a t i o nb yc e r t a i ns t r a t e g y , o r g a n i z e sa n dp r o c e s s e st h ei n f o r m a t i o n ,a n dt h e n p r o v i d e st h ei n f o r m a t i o ni n q u i r ys e r v i c ef o rt h eu s e r s t h i sa r t i c l ef i r s t l ye x p l o r e st h eb a c k g r o u n da n dh i s t o r yo fs e a r c he n g i n ea n dg i v e s ab r i e fi n t r o d u c t i o no f4f a m o u sc h i n e s es e a r c he n g i n e sw h i l ep o i n t i n go u tt h ea c t u a l i t y a n dt r e n do fs e a r c he n g i n ed e v e l o p m e n t t h e n , t h eb a s i ct h e o r i e s ,r e l a t i v et e c h n o l o g i e s a n dp r o c e d u r eo ft h es e a r c he n g i n ea r ee x p l a i n e d w ec o u l dh a v ef u r t h e ru n d e r s t a n i n g o ft h ed i f f i c u l t i e st or e a l i z eac h i n e s es e 缸c he n g i n eb yi n v e s t i g a t i n gt h ec o r e t e c i m o l o g i e sa b o u tc h i n e s es e a r c he n g i n e i nt h ew r i t t e nc h i n e s e , t h e r ei sn od e l i m i t e r ( s u c ha st h es p a c e si nt h ew r i t t e ne n g l i s h ) b e t w e e nt h ew o r d s ,a n dw o r ds e g m e n t a t i o n , w h i c h m e a n sb r e a k i n gas e n t e n c ei n t ow o r d s i sa l le s s e n t i a lt a s kf o rc h i n e s el a n g u a g e p r o c e s s i n g t h i sa r t i c l ea n a l y z e sa n dc o m p a r e st h ee x i s t i n gc h i n e s ew o r ds e g m e n t a t i o n m e t h o d s a ne f f e c t i v em e t h o do fc h i n e s ew o r ds e g m e n t a t i o ni sa c h i e v e db yi m p r o v i n g t h es h o r t e s t - p a t h sa l g o r i t h m l u c e n e ,am a t i l r e ,f r e e , o p e n s o u r c ep r o j e c ti m p l e m e n t e dmj a v ai si n t r o d u c e d i m e c n ei sah i g hp e r f o r m a n c e , s c a l a b l ei n f o r m a t i o nr e t r i e v a l ( ql i b r a r y w ec o u l d m a s t e rt h ee s s e n t i a lo fl u e e n eb yt h ea n a l y s i so ft h es o u r c ec o d ea n dt h ee x p e r i m e n t a l p r o g r a m m i n g d u et ot h es i m p l ey e tp o w e r f u lc o r ea p i l u c e n ei sa b l et ob ei n t e g r a t e d i n t oo u ra p p l i c a t i o nr a p i d l y f i n a l l y , t h i sa r t i c l ei l l u s t r a t e sa l li m p l e m e n t a t i o no fs e a r c he n g i n ei nt h eb e s t - t o n e s y s t e mo w n e db yc h i n at e l e c o m 皿em a i nm o d u l e sa n dt h e i rf a c t i o n si nt h e a p p l i c a t i o na r ee x p l a i n e di nd e t a i l w ec a ns e et h a ti ti san i c et r yt oc u s t o m i z el u c e n e t oo b e ys p e c i f i e db u s i n e s sr u l e sb yi m p l e m e n t i n gt h ec h i i l e s ew o r ds e g m e n t a t i o n p r o c e s sa n da d o p t i n gs u i t a b l ew e i g h t - s o r ta l g o r i t h m k e y w o r d s :l u c e n e ,s e a r c he n g i n e ,i n f o r m a t i o nr e t r i e v a l ,b u s i n e s sa p p l i c a t i o n m 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名:盎矗i 垒日期:叫年4 月呼日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使甩学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘厂允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:遗受堑导师签名: 日期。蠲7 年5 【月节日 第一章绪论 1 1搜索引擎简介 第一章绪论 搜索引擎就是以一定的策略在信息资源中搜集、发现信息,对信息进行理解、 提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。用户的 查询途径主要包括自由词、全文检索、主题词检索、分类检索及其它特殊信息的 检索( 企业、人名、电话黄页等) 【l l 。 随着互联网的迅速发展和普及,信息搜索成为互联网信息共享领域不可阻挡 的用户需求。作为网络信息检索的利器,搜索引擎从全文检索技术中发展而来经 过十几年的发展,越来越贴近人们的需求,目前搜索引擎技术已成为计算机工 业界和学术界争相研究、开发的热点技术。 1 2搜索引擎产生的背景和发展历史 随着信息技术的不断发展,特别是互联网应用的迅速普及,电子信息爆炸似 的丰富起来。目前仅g o o g l e 收录的网页就超过8 0 亿【2 】,并且每天全球互联网网 页数目以千万级的数量增加。要在如此浩瀚的信息海洋里寻找信息,就像“大海 捞针”一样困难。工欲善其事,必先利其器。要在浩瀚的网络信息海洋中自如冲 浪,搜索引擎已成为必不可少的利器。 自1 9 9 4 年起至今,伴随着因特网的日益发展壮大以及信息量的迅速膨胀, 搜索引擎技术为了不断满足人们对信息检索的需求,已经经历了三代发展阶段 3 1 : 第一代搜索引擎出现于1 9 9 4 年,以集中式检索为主要特征。这类搜索引擎 一般都索引少于1 百万个网页,极少重新搜集网页并去刷新索引,而且其检索速 度非常慢,一般都要等待l o 秒甚至更长时间。在实现技术上也基本沿用较为成熟 的i r ( i n f o r m a t i o nr e t r i e v a l ) 、网络、数据库等技术,相当于利用一些已有技 术实现的一个w 孵上的应用。 第二代搜索引擎系统大约出现在1 9 9 6 年,大多采用分布式检索方案,即多 个微型计算机协同工作来提高数据规模、响应速度和用户数量。它们一般都保持 一个大约5 千万网页的索引数据库,每天能够响应l 千万次用户检索请求。1 9 9 7 年1 1 月,当时最先进的几个搜索引擎号称能建立从2 百万到l 亿的网页索引。 电子科技大学硕士学位论文 a l t av i s t a 搜索引擎声称他们每天大概要承受2 千万次查询。 第三代搜索引擎系统出现在1 9 9 8 年到2 0 0 0 年期间,这一时期是搜索引擎 空前繁荣的时期。第三代搜索引擎的发展有如下几个特点: 1 索引数据库的规模继续增大,一般的商业搜索引擎都保持在几千万甚至上 亿个网页。 2 除了一般意义上的搜索以外,开始出现主题搜索和地域搜索。很多小型的 垂直门户站点开始使用该技术。 3 由于搜索返回数据量过大,检索结果相关度评价成为研究的焦点。相关的 研究又可以分为两类:一类是对超文本链的分析,在这方面始于s t a n f o r d 大学的 g o o g l e 系统作出了很大的贡献:另一类是用户信息的反馈,d i r e c t h i t 系统采用 的就是这种方法。 4 开始使用自动分类技术。n o r t h e r nl i g h t 和i n k t o m i 的d i r e c t o r ye n g i n e 都在一定程度上使用了该技术。 进入2 1 新世纪以后,随着信息多元化的增长,千篇一律的给所有用户同一 个入口显然已经不能满足特定用户更深入的查询需求。同时,这样的通用搜索引 擎在目前的硬件条件下,要及时更新以得到互联网上较全面的信息是不太可能的。 针对这种情况,我们需要一个分类细致精确、数据全面深入、更新及时的面向主 题的搜索引擎。由于主题搜索运用了人工分类以及特征提取等智能化策略,因此 它比上面提到的前三代的搜索引擎将更加有效和准确,我们将这类完善的主题搜 索引擎称为第四代搜索引擎。 1 3搜索引擎技术现状 1 3 1 文本信息搜索引擎 文本信息搜索引擎可以说是最常见,应用得最广的搜索引擎了。 按照应用领域,此类搜索引擎可以分为三类: 1 ) 互联网搜索引擎。以w e b 应用为基础,大而全,旨在为用户提供更丰富的 搜索结果。 2 )个人桌面搜索搜索引擎。随着个人电脑的普及,在个人电脑中也就积累 了大量的个人信息,如邮件,文档,下载的各种网页。对于个人桌面的信息搜索 诉求,我们把她总结成为“个人搜索引擎”。 2 第一章绪论 3 )企业搜索引擎。以企业内部所有的信息资源,以及部分外部资源为搜索 范围,以企业资料库、目录、帮助文本、源代码信息库、新闻组等( 如网页、电 子邮件、o f f i c e 文件、p d f 文件、图片、音视频多媒体文件、图表、公文、研究 报告等) 为搜索对象,提供专业、定向的搜索,注重结果的准确性和高度匹配性, 并且是一种信息安全的搜索。 按照信息搜集方法和服务提供方式的不同,此类搜索引擎系统又可以分为以 下三大类: 1 ) 目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息 之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向 网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能, 所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息 更新不及时。这类搜索引擎的代表是:y a h o o 、i o o k s m a r t 、o p e nd i r e c t o r y 、g og u i d e 等。 2 ) 机器人搜索引擎:由一个称为蜘蛛( s p i d e r ) 的机器人程序以某种策略自 动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器 根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网 页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预, 缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索 引擎的代表是:a l t a v i s t a 、n o r t h e r nl i g h t 、e x c i t e 、i n f o s e e k 、i n k t o m i 、f a s t 、 l y c o s 、g o o g l e ;国内代表为:天网、悠游、o p e n f i n d 等。 3 ) 元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时 向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自 己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是 返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能, 用户需要做更多的筛选。这类搜索引擎的代表是w e b c r a w l e r 、i n f o m a r k e t 等。 1 3 2 多媒体搜索引擎 随着计算机数据处理能力的提高和多媒体编码技术的进步,网络上的各类资 源日益丰富,尤其是直观形象的多媒体信息备受人们的青睐。查找音乐、电影, 购物,查找病例档案图库等等,无论是对于专业的设计者,还是一般的普通网友, 挖掘网络素材,查找和利用网络上的多媒体信息都成为一种需求。 3 电子科技大学硕士学位论文 1 图像检索技术 从2 0 世纪7 0 年代开始,有关图像检索的研究就已开始,当时主要是基于文本 的图像检索技术( t e x t b a s e di m a g er e t r i e v a l ,简称t b i r ) ,利用文本描述的方 式描述图像的特征。n 9 0 年代以后,出现了对图像的内容语义,如图像的颜色、 纹理、布局等进行分析和检索的图像检索技术,即基于内容的图像检索 ( c o n t e n t - b a s e di m a g er e t r i e v a l ,简称c b - i r ) 技术。 从图像检索的目前实际研究来看,基于文字的搜索引擎大多支持关键词搜索 和分类浏览两种检索方式。基于内容的搜索引擎还可以提供另外两种搜索方式。 一种是示例检索( q u e r yb ye x a m p l e ) :从给出的众多图片中选择一幅与要检索图 像接近或者相似的图画,逐步逼近检索的结果;另一种是略图索引( q u e r yb y s k e t c b ) :在一个指定版面内绘出要检索的略图,然后根据所绘略图进行逐步逼近 的检索。 a ) 关键词检索 基于图像外部信息或人工赋予的关键词进行自由词检索。图像的外部信息包 括图像的文件名或目录名、路径名、链路、a l t 标签以及图像周围的文本信息。 基于这部分信息的检索是目前图像搜索引擎采用最多的方法。有些图像搜索引擎 采用人工对图像的内容( 如物体、背景、构成、颜色等) 进行描述并分类,给出标 引词,检索时,主要在这些标引词中搜索用户的检索词。这种查询方式比较准确, 可以获得较好的查准率。但需人工参与,劳动强度大,因而限制了可处理的图像 数量,并且需要一定的规范和标准,效果取决于人工描述的精确度。 b ) 分类目录浏览 图像搜索引擎将采集到的图像或通过某种自动机制或采用人工进行分类标 引,为用户提供按主题测览的检索方式。适用于检索目标不明确或以一般浏览为 目的的用户。如w e bs e e k 提供了含有1 6 个大类7 7 个小类的极为丰富的类目体系, y a h o o ! 的i m a g es u r f e r 的类目体系虽只包括几个流行主题,但对类目的划分比较 深入,含有6 个大类1 4 个二级类以及更多的三级类,每个类目下的图像从几个到几 百个不等。 c ) 示例检索( q u e r yb ye x a m p l e ) 包括系统随机给出样本和用户提交样本两种,由系统随机给出一组图像训练 样本时,让用户对这组图像进行评价,选择与自己的检索需求相似的图像,然后 根据用户选择的图像进行分析,检出与之相似的其它图像。另外,也可以由用户 提供一副图像的地址信息,由图像检索系统即时抓取、即时分析。 4 第一章绪论 d ) 草图检索( q u e r yb ys k e t c h ) 在给定的区域内,用户亲自动手绘制希望查找的图像特征,以用户描绘的草 图为训练样本,查找与之相似的其它图像。类似的还有特征输入查找,对图像的 特征参数进行设置,如希望图像中的色彩比例为“r :1 2 8 ;g :1 2 8 ;b :6 4 ”,或 者是对图像的明亮度在0 1 0 0 之间加以调节。 2 声音检索技术 据新浪科技报道,g o o g l e 负责技术的主要官员西尔维斯坦( c r a i gs i l v e r s t e i n ) 说:不出数年,g o o g l e - - 定会推出一种语音搜索界面,用户通过它可以搜索从行 车路线到居家附近超市中某一商品所在货架的任何想要搜索的内容。现在g o o g l e 实验室的网页上已经推出了语音搜索工具的前期实验版本。在常规检索声音文件 的时候,我们通常是基于人工输入的属性和描述,例如文件名称( 例如歌曲名) 、 作者、演唱者、专辑名称等相关的文字信息来检索,其原理和上面提到的一样。 但是随着网络中的数据量越来越多时,人工的注释强度大大增加,难以维系。并 且各人对音频的感知,如音乐的旋律、音调、音质等,难以用文字注释表达清楚, 于是近年来基于内容检索( c o n t e n t b a s e dr e t r i e v a l ) 的音频检索技术就应运而 生。 作为一种信息载体,音频信息可以分为三种类型:波形声音、语音、音乐, 对应的检索技术有三种类型: a ) 基于语音技术的检索:以语音为中心的检索,采用语音识别等处理技术。 如检索电台节目、电话交谈、会议录音等。 b ) 音频检索:以波形声音为对象的检索,这里的音频可以是汽车发动机声、 雨声、鸟叫声,也可以是语音和音乐等,这些音频都统一用声学特征来检索。 c ) 音乐检索:以音乐为中心的检索,利用音乐的音符和旋律等音乐特性来 检索。如检索乐器、声乐作品等。 目前声音搜索引擎一般提供用户以下几种检索方式: a ) 示例检索:用户选择一个声音例子表达其查询要求,查找出与该声音在某 些特征方面相似的所有声音。如查询与飞机的轰鸣声相似的所有声音。 b ) 直喻检索:通过选择一些声学、感知物理特性来描述查询要求,如亮度、 音调和音量等,这种方式与可视查询中的描绘查询相似。 c ) 拟声检索:发出与要查找的声音性质相似的声音来表达查询要求。如用户 可以发出嗡嗡声来查找蜜蜂或电气嘈杂声。 5 电子科技大学硕士学位论文 1 4四大中文搜索引擎简介 目前,应用较为广泛的中文搜索引擎有以下四个【4 】: ( 一) g o o g l e ( w 啊g o o g l e e o m ) 是美国s t a j f f o r d 大学的博士生l a r r yp a g e 和s e r g e yb r i n 创建的搜索引擎,g o o g l e 由“g o og o l ”一词变化而来,它表示 创建者欲征服网上无穷无尽的信息资源的雄心。1 9 9 8 年l o 月前,g o o g l e 只是 s t a n f o r d 大学的一个研究项目b a c k r u b ,1 9 9 9 年2 月,它完成了从a l p h a 版至1 b e t a 版 的蜕变。g o o g l e 在网页级别技术、动态摘要、网页快照、d a i l yr e f r e s h 、多文 档格式支持、图像搜索、多语言支持、用户界面等方面进行革新,它以检索功能 强大、搜索信息的准确性而倍受赞誉,现在一些门户性网站如雅虎、网易等以它 作为搜索引擎。 ( 二) 百度( w w w b a i d u c o m ) 是中国的两位海外留学生创建的中文搜索引擎, 他们一位是资深信息检索技术专家、超链分析专利的唯一持有人李彦宏,另一位 是在美国硅谷有多年商界成功经验的徐勇博士。百度一词源于宋辛弃疾青玉 案中的“众里寻他千百度”,它表明创建者对自己技术的信心。2 0 0 1 年l o 月正 式发布b a i d u 搜索引擎,2 0 0 2 年3 月闪电计划( b l i t z e np r o j e c t ) 开始后,其技术升 级明显加快。百度以网页快照、网页预览、相关搜索词、错别字纠正提示、新闻 搜索、f l a s h 搜索、信息快递搜索为特色。目前它成为中国8 0 9 6 以上的门户性网站 如新浪、搜狐、腾讯、上海热线、广州视窗、新华网等的搜索引擎。 ( 三) 天网( e p k u e d u c a ) 是北京大学网络实验室研制的中英文搜索引擎, 它是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研 究成果,1 9 9 7 年l o 月正式提供网上服务。2 0 0 0 年初成立天网搜索引擎新课题 组,由国家9 7 3 重点基础研究发展规划项目基金资助开发,致力于研究中英文搜 索引擎系统的关键技术。天网利用中国教育网的优势,有强大的f t p 文件检索功 能。 ( 四)o p e n f i n d ( w w o p e n f i n d c o m ) 是台湾中正大学吴界博士领导的g a i s 实验室开发的搜索引擎。o p e n f i n d 起初只做中文搜索引擎,2 0 0 2 年6 月重新发布基 于g a i s 3 0p r o j e c t 的o p e n f i n d 搜索引擎b e t a 版,推出多元排序( p o l y r a n k ) ,开始 进入英文搜索领域。它收录的网页数量十分庞大,提供全球网页检索、中文简繁 体网站检索,尤其以台湾地区的繁体中文网页、网络论坛检索为特色。 6 第一章绪论 1 5搜索引擎技术的发展趋势 搜索引擎已成为一个新的研究投资热点,它要用到信息检索、人工智能、计 算机网络、数据库、数据挖掘、数字图书馆、自然语言处理、多媒体信息处理等 多领域的理论和技术,具有综合性和挑战性。由于互联网络的急速发展,越来越 多的用户需要用到搜索引擎,搜索引擎带来了巨大的商机,成为现代电子商务发 展的一个必不可少的条件。现在搜索引擎已经引起了世界各国计算机科学界和信 息产业界的高度关注,g o o g l e 、微软、y a h o o 、i b m 等信息产业巨头目前都投入巨 资对其进行研究、开发,迅速推动搜索引擎技术朝前发展。在这个过程中,也出 现了很多值得注意的问题和研究动向。 1 。注意提高信息查询结果的精度,提高检索的有效性 用户在搜索引擎上进行信息查询时,并不十分关注返回结果的多少,用户最 关心的是搜索的相关性。现在任何一个搜索引擎都意识到了相关性对于用户检索 的重要性,都在致力于减少不相关搜索结果的出现。搜索引擎可以通过各种方法 获得用户没有在查询语句中表达出来的真正用途,其方式包括:使用智能代理跟 踪用户检索行为,分析用户模型;使用相关度反馈机制,使用户告诉搜索引擎哪 些文档和自己的需求相关( 及其相关的程度) ,哪些不相关,通过多次交互逐步求 精等。 2 进行信息过滤,提供个性化服务 利用自动获得的领域模型( 如w e b 知识、信息处理、与用户兴趣相关的信息资 源、领域组织结构) 、用户模型( 如用户背景、兴趣、行为、风格) 知识进行信息 搜集、索引、过滤( 包括兴趣过滤和不良信息过滤) ,并自动地将用户感兴趣的、 对用户有用的信息提交给用户。搜索引擎可以不断学习、适应信息和用户兴趣动 态的变化,从而提供个性化的服务。微软将要推出的新操作系统v i s t a 可以跟踪 记录用户的所有操作信息,包括打开的每一个文件,每一幅图片、m p 3 、电子图书 等,在用户上网检索时,搜索引擎可以根据平时记录的信息来过虑搜索结果,从 而大大提高相关性。虽然这样可能会泄露一些用户的私人信息,但相比较由此带 来的更高相关性的搜索结果,相信大多数用户还是愿意接受的。 3 提供基于内容的多媒体信息搜索服务 目前基于内容的多媒体搜索引擎技术仍然相当不成熟,理论上和实用上均有 许多问题亟待解决,尤其在系统模型优化、通用性设计、图像声音特征相关性研 究及在i n t e r n e t 上实用化等方面,还是目前需要着力加强研究的地方。基于内容 7 电子科技大学硕士学位论文 的多媒体信息搜索是未来搜索引擎发展的必然趋势,随着技术的发展,相信不久 的将来我们就可以在方便的使用搜索引擎进行多媒体信息的检索。 4 在用户常用软件或工具中提供搜索服务 y a h o o 、h o t m a i l 在其用户邮箱的每一个页面上都有一个搜索框,使得用户在 收到邮件时如果想搜索什么时可以方便的进行。g o o g l e 在此基础之上则更进一步 发展了这一方面的技术,它可以根据邮件内容特点,在界面上显示一些用户可能 会感兴趣的付费广告,或者提供一些链接到相关内容的站点上。 1 6 本文的主要工作及内容组织 本文对搜索引擎的基本原理、核心技术、处理流程进行了阐述和分析,并对 开源项目l u c e n e 的实现机制及所使用的算法进行了较为深入的研究,通过对 l u c e n e 的扩展,成功将l u c e n e 引入了一个商业应用中。 本文共分五章,按以下顺序组织内容: 第一章:绪论。该章主要介绍了搜索引擎的定义、出现背景、发展历史、现 状及发展趋势,并对现有的四大网络中文搜索引擎进行了介绍。 第二章:搜索引擎的系统结构和基本原理。该章主要从搜索引擎的系统结构 和基本原理对搜索引擎进行了介绍。 第三章:中文搜索引擎核心技术研究。该章详细分析和讨论了中文搜索引擎 的理论基础,并对现有的中文分词技术和检索技术进行了比较分析。 第四章:l u c e n e 简介。该章主要介绍开源全文检索系统l u c e n e 。深入描述 l u c e n e 的特点、优势及应用。 第五章:号码百事通系统。该章对号码百事通进行了简介,并分析了该系统 全文检索模块对l u c e n e 的改造和应用,对进一步的工作给予了说明。 第六章:论文总结。对这篇论文所做的工作和研究进行了总结,并对后续研 究给予了展望。 8 第二章搜索引擎的系统结构和基本原理 第二章搜索引擎的系统结构和基本原理 2 1搜索引擎的系统结构 薰糯 缀块: 罔i 献 u : r 三亭l 榴潍潍瀛承线 lt 王 橼黢散镶霆援艨 l 。蔓 善 r 一一一一一。o i 垒变羧索梭勘謦i 骧 : 翰墩糍姨 i 多簪l 繁缝您镄壤:l x m l 惦残锻淤l : 纛 i h 慨a p e il m 黜a 纛 ;i 煳譬l 攀 爨 霉善 溺 : 援 块疑 i b 艟戳隅l 搬雠d ! b l 、_ k w p _ 、“_ m _ _ _ w “7 一 图2 _ 1通用搜索引擎系统结构 图2 - 1 描绘出了通用搜索引擎的系统结构,一个搜索引擎系统主要由文档抽 取模块、文档过滤模块、文档处理模块、索引检索模块、输出模块等五大模块组 成四。 接下来就搜索引擎系统结构的各组成模块进行一个简单的介绍: l _ 文档抽取模块。 它由处理不同类型文档的文档适配器和数据源爬行管理器组成,它的主要工 作根据配置文件定时产生数据源爬行器以遍历整个数据源,并使用相应的文档适 9 电子科技大学硕士学位论文 配器对文档内容进行抽取。文档适配器抽取的信息类型多种多样,包括l 仃m l 、x 札、 p d f 、w o r d 文件、文本文件、多媒体信息等。数据源爬行器通常是一个计算机程序 进程或线程,它要尽可能多、尽可能快地搜集各种类型的新信息,特别是w e b 搜 索引擎,因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息, 以避免死链接或无效链接。数据源爬行器的实现常常用分布式、并行计算技术, 以提高信息发现和更新的速度。 2 文档过滤模块。 文档过滤模块是对待索引检索信息的预处理。它的主要功能是为接下来的索 引检索作好数据的准备工作。这些准备工作包括噪音词的过滤、关键字过滤、中 文的预分词等。 3 文档处理模块。 它由一系列文档处理程序模块构成,它们可以在配置管理的操纵下挂接在文 档处理流水线上。系统配置管理的作用是管理系统的配置资源,并可以根据配置 的变更动态地更新不同的系统参数配置。 4 索引检索模块。 索引检索模块是搜索引擎系统重要的组成部分。它由索引器和检索器组成。 索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文 档以及生成文档库的索引表。索引项有客观索引项和内容索引项两种:客观索引 项与文档的语意内容无关,如作者名、u r l 、更新时间、编码、长度、链接流行度 ( l i n kp o p u l a r i t y ) 等等;内容索引项是用来反映文档内容的,如关键词及其权 重、短语、单字等等。内容索引项可以分为单索引项和多索引项( 或称短语索引 项) 两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有 天然的分隔符( 空格) ;对于中文等连续书写的语言,必须进行词语的切分。 在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的 区分度,同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法 和概率法。短语索引项的提取方法有统计法、概率法和语言学法。索引表一般使 用某种形式的倒排表( i n v e r s i o nl i s t ) ,即由索引项查找相应的文档。索引表也 可能要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或接 近关系( p r o x i m i t y ) 。 索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时,必须 实现即时索引( i n s t a n ti n d e x i n g ) ,否则不能够跟上信息量急剧增加的速度。索 引算法对索引器的性能( 如大规模峰值查询时的响应速度) 有很大的影响。一个 第二章搜索引擎的系统结构和基本原理 搜索引擎的有效性在很大程度上取决于索引的质量。检索器的功能是根据用户的 查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结 果进行排序,并实现某种用户相关性反馈机制。检索器常用的信息检索模型有集 合理论模型、代数模型、概率模型和混合模型四种。 5 输出模块。 输出模块通常也被称为用户u i 模块。它的作用是输入用户查询、显示查询结 果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、 多方式地从搜索引擎中得到有效、及时的信息。输出模块的设计和实现使用人机 交互的理论和方法,以充分适应人类的思维习惯。 用户输入接口可以分为简单接口和复杂接口两种。简单接口只提供用户输入 查询串的文本框;复杂接口可以让用户对查询进行限制,如逻辑运算( 与、或、 非) 、相近关系( 相邻、n e a r ) 、域名范围( 如e d u 、c o r n ) 、出现位置( 如标题、 内容) 、信息时间、长度等等。目前一些公司和机构正在考虑制定查询选项的标准。 2 2搜索引擎的基本原理及相关技术 2 2 1 索弓 假设你需要从大量文件中搜索出包含某个单词或短语的文件。你会怎样写一 个程序完成这样的事呢? 一个比较初级的方法就是顺序扫描每个文件,查找其中 有没有包含需要搜索的单词或短语。这个方法有很多缺陷,最显著的就是它不适 用于规模非常大的文件或者文件数量非常多的应用环境。而这正是索引所适用的 领域。为了快速地搜索大量的文本文件,首先必须为文件建立索引,就像是为一 本书建立目录。然后把文本转换成你能快速搜索到的格式,而不是使用那种慢速 顺序扫描的处理方法。这个转换过程就叫索引操作( i n d e x i n g ) ,它的输出就称为 索引文件( i n d e x ) 。 你可以把一条索引想象成一种数据结构,这种结构允许对存储在其中的单词 进行快速随机存取。这种设计思想类似于书后的索引,这种索引可以让你快速定 位需要关注的某个主题的页码。在搜索引擎系统之中,索引是一个经过精心设计 的数据结构,通常作为一组索引文件存储在文件系统之中。 根据索引文件的组织结构索引可以分为前向索引( f o r w a r di n d e x ) 和倒排索 引( i n v e r t e di n d e x ) 。前向索引是指索引文件以被索引的文档作为中心实体,并 为每一个文档分配一个唯一的i d 值,同时保存该文档所包含的语汇单元。前向索 1 1 电子科技大学硕士学位论文 引是全文检索技术的基础,因其简单直观的特性为早期检索系统所采用。倒排索 引顾名思义它是把从文档中抽取出来的词汇单元看作是查找关键字,而不是把文 档本身作为中心实体。换句话说,倒排索引并不是回答“这个文档中包含哪些单 词? ”这个问题,而是经过优化以后用来快速回答“哪些文档包含词x ? ”这个问 题。回想一下最喜欢的w e b 搜索引擎站点和你心中典型的查询方式,就能体会到 这种搜索是速度最快的一种查询方式。现在所有的w e b 搜索引擎的核心都是使用 倒排索引技术。这些w e b 搜索引擎的不同之处在于它们各自增加了一些额外的、 用于改善倒排索引结构的技术,且这些技术作为商业机密而被严格保护了起来。 2 2 2 搜索 搜索是一个在索引中查找关键字的过程,这个过程的目的是为了找到这些关 键字在哪些地方出现过。搜索的质量通常由准确率( p r e c i s e ) 和召回率( r e c a l l ) 来衡量。召回率可以衡量这个搜索系统查找到相关文档的能力,而准确率则是用 来衡量搜索系统过滤非相关文档的能力。对于一个检索系统来讲,召回率和准确 率不可能两全其美:召回率高时,准确率低,准确率高时,召回率低。当然,也 需要考虑很多其它的因素。本文已经提到过快速查找大量文本文件的速度和能力 问题。例如:对单一项的查询、多个项的查询、短语查询、通配符、结果评分、 排序等功能的支持以及友好的查询输入语法,对于一个搜索系统而言都是很重要 的。 2 2 3 页面存储库 对于w e b 搜索引擎来说,页面存储库存储每个w e b 页面完整的h t m l 代码和相 应的u r l 信息,并采取了如下图所示的存储压缩方式。页面存储库不需要其他额 外的数据结构来管理和维护,简化了数据一致性维护的复杂度和工作量。并且, 从页面存储库能够重建其他相关的数据结构。 页面存储库采取紧缩压缩方式,利用同步标志和压缩包长度来进行定位和查 找。压缩包主要记录了文档标识号和o r l 、页面信息等。 2 2 。4 词典库 词典库( l e x i c o n ) 最主要的作用是为检索器( s e a r c h ) 提供单词查找帮助, 即将待查的文本单词转化为单词标识号( w o r d i d ) ,以便在存储桶( b a r r e l ) 中查 1 2 第二章搜索引擎的系统结构和基本原理 找与之对应的文档。为了保证及时响应速度,词典库应该能够整个放入内存当中。 因此词典库采取的紧缩存储方式显得尤其重要。由于每个单词长度变化很大,单 词总数达到数百万个,因此词典库采取不定长记录紧缩存储的方式,附加一个哈 希表( h a s h t a b l e ) 辅助查询。检索器( s e a r c h e r ) 依据用户待检索单词,在词典 哈希表中查出对应的单词标识符,然后到存储桶( b a r r e l ) 中查找与该单词标识 符对应的各个相关文档。 2 2 5h i t s 列表 h i t s 列表是指特定单词们r d 在某个页面文档d o c 中每次出现时的出现状态 ( o c c u r r e n c e s ) 的列表,包括单词出现位置、字体大
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 上市企业市值管理办法
- 电玩城库存管理办法
- 上海返乡人员管理办法
- 自然角区域管理办法
- 融资业务贷款管理办法
- 综合部材料管理办法
- 个人活期账户管理办法
- 粮油厂分级管理办法
- 中国设备租赁管理办法
- 上海灯光设置管理办法
- 测绘法规与管理课件
- 2025年潍坊市中考数学试题卷(含标准答案)
- 2024重庆护士三基考试真题卷(附答案)
- 并购整合方案模板(3篇)
- 2025-2026学年人教鄂教版(2017)小学科学四年级上册教学计划及进度表
- 2025-2026学年秋季第一学期学校德育工作安排表
- 《汽车电工与电子技术基础》课件(共七章节)
- 浙教版2025-2026学年八年级上科学第1章 对环境的察觉 单元测试卷
- 产科护理SBAR交班模式
- DB61∕T 1576-2022 矩形钢管混凝土组合桁梁桥技术规范
- 2025-2030中国汽车工程服务外包(ESO)行业现状调查与前景趋势研究报告
评论
0/150
提交评论