已阅读5页,还剩69页未读, 继续免费阅读
(计算机应用技术专业论文)可定制的垂直搜索引擎研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 由于w e b 海量信息处于不断的变化中,通用搜索引擎已经很难再为用户提供 一个高质量的、全面并且更新及时的信息搜索服务。通用搜索引擎试图索引全部 w e b 信息并服务于所有领域的查询请求。相比之下,垂直搜索引擎只覆盖与特定 领域主题关键词相关的w e b 区域,这样搜索的内容可以更深,搜索的周期可以更 短。由于w e b 分类众多,领域又广,用户希望能对所提供的服务定制。可定制的 垂直搜索引擎应该从人的角度去设计,让用户选择自己感兴趣的领域服务,这样 会吸引更多的用户。因此,能满足用户对快速、准确、方便的获取信息资源的要 求。目前,垂直搜索引擎正成为计算机科学界和信息产业界争相研究、开发的对 象,可定制的垂直搜索引擎更具挑战性和吸引力。 本文首先简要介绍了搜索引擎的发展现状,分析了存在的优缺点,然后通过对 当前通用搜索引擎技术的学习和研究,结合可定制的垂直搜索引擎的特点,设计 出了可定制的垂直搜索引擎的总体架构及核心模块:网页抓取模块、分词储存索 引模块和网页检索模块、可定制模块。然后本文分章节详细分析、设计和实现了 这四个模块。它们构成了本文的核心部分。通过对垂直搜索引擎的w e b 信息抓取 模块的设计和实现,完成了基本的网页抓取工作;本文采用了海量智能分词研究 版( 免费) 来分词,结合l u e e n e 实现了文档的存储与索引;在网页检索模块中,本 文采用b f u 排序算法来对网页进行排序,最后本文给出了函数的具体形式及收敛 性证明;通过对各大垂直搜索引擎的亲身体验和仔细研究,分析出存在的不足及 改善方法,于是本文设计了可定制的实现流程图及功能定制。本文最后的总结讨 论了这些技术及其将来还需进一步研究的内容。 关键词:垂直搜索;网络蜘蛛;b f u 排序;可定制 分类号:t p l 8 1 a b s t r a c t w i t ht h ec o n s t a n t l yc h a n g i n go fw e bi n f o r m a t i o n ,i ti sb e c o m i n gm o r ea n dm o r e d i f f i c u l tf o ras e a r c he n g i n et op r o v i d eah i g h - q u a l i t y ,c o m p r e h e n s i v ea n dt i m e l y u p d a t e di n f o r m a t i o ns e a r c h i n gs e r v i c et ou s e r t h eb a s i cl i m i t a t i o ni st h a ti ta t t e m p t st o i n d e xa l lt h ew e bi n f o r m a t i o na n ds e r v i c e st oa l lf i e l d si n q u i r i e sr e q u e s t i nc o n t r a s t ,t h e v e r t i c a ls e a r c he n g i n eo n l yc o v e r ss p e c i f i cf i e l d sr e l a t e dw e bi n f o r m a t i o n ,s ot h a ti t s c o n t e n tc a nb ed e e p e ra n di t su p d a t i n gc y c l ec a l lb es h o r t e r f o rm a n yw e bc a t e g o r i e s a n dm a n yw e bf i e l d s ,t h ec o n c e p to fc a n b e - e u s t o m i z a b l ec o m e so u t , a n dt h e c u s t o m i z a b l ev e r t i c a ls e a r c he n g i n es h o u l db ep e o p l e - c e n t e r e d ,i no r d e rt h a tm o r ea n d m o r ep e o p l ec o m eh e r e a sr e s u l to ft h a ti tc a r lm e e tt h er e q u i r e m e n t so ff a s ta n d a c c u r a t ea c c e s st oi n f o r m a t i o nr e s o u r c e s a tp r e s e n t ,v e r t i c a ls e a r c he n g i n ei sb e c o m i n g ah o tr e s e a r c ha n dd e v e l o p m e n to b j e c to fc o m p u t e rs c i e n c ea n di n f o r m a t i o ni n d u s t r y , a n dac u s t o m i z a b l ev e r t i c a ls e a r c he n g i n ei sm o r ec h a l l e n g i n ga n da t t r a c t i v e f i r s t l y ,t h i sp a p e rd e s c r i b e st h ep r e s e n ts t a t u so ft h es e a r c he n g i n ed e v e l o p m e n t , a n da n a l y s e st h ea d v a n t a g e sa n dd i s a d v a n t a g e so ft h ee x i s t i n gs e a r c he n g i n eb f i e f l y a n dt h e nt h i sp a p e rd e s i g n se a c hm o d u l ea n dt h eo v e r a l la r c h i t e c t u r eo ft h e e u s t o m i z a b l ev e r t i c a ls e a r c he n g i n eb ys t u d y i n go ng e n e r a ls e a r c he n g i n et e c h n o l o g i e s , a n db yc o m b i n i n gt h ec h a r a c t e r i s t i c so ft h i se n g i n e a n dt h e nt h i sp a p e ro r g a n i z e s s e v e r a lc h a p t e r st od e s c r i b et h ea n a l y s i s ,d e s i g n a t i o na n di m p l e m e n t a t i o np a r t l yo f t h e s e m o d u l e s :w e bc r a w l i n gm o d u l e ,s e g m e n t a t i o ns t o r a g ei n d e x i n gm o d u l ea n dw e b s e a r c hm o d u l e ,ac a n - h e - e u s t o m i z a b l em o d u l e t h r o u g ht h ed e s i g na n di m p l e m e n t a t i o n o ft h ev e r t i c a ls e a r c he n g i n e ,t h eb a s i ci n f o r m a t i o nc r a w l i n gw o r ki sc o m p l e t e d ;t h i s p a p e ru s e sh a i l i a n gs e g m e n t a t i o n ( f r e e ) t os e g m e n td o c u m e n t s , w i t hl u c e n e a c h i e v e sad o c u m e n ts t o r a g ea n di n d e x i n g ;i nw e bs e a r c hm o d u l e ,t h i sp a p au s e sb f u s o r ta l g o r i t h mt os o r tt h ep a g e s ,w h i c hi sr e s e a r c h e d ,a n dh a sg i v e nt h ef u n c t i o nf o r m a n dt h ep r o o fo fc o n v e r g e n c e ;t h r o u g hm yo w ne x p e r i e n c ea n dc a r e f u ls t u d yt os e v e r a l v e r t i c a ls e a r c he n g i n e ,t h es h o r t c o m i n g sa n da r e a sf o ri m p r o v e m e n ta r es e e n ,s ot h i s p a p e rd e s i g n st h ec a n - b e c u s t o m i z a b l ea r c h i t e c t u r ea n df e a t u r e sc u s t o m i z a t i o n f i n a l l y , t h i sp a p e rd i s c u s s e st h ef u t u r ew o r ko fc u s t o m i z a b l ev e r t i c a ls e a r c he n g i n ea n dt h e t e c h n o l o g i e sn e e d e daf u r t h e rs t u d yi ns u m m a r y k e y w o r d s :v e r t i c a ls e a r c he n g i n e ;w e bs p i d e r s ;b f us o r t i n :c a n - b e - c u s t o m i z a b l e c i a s s n 0 :t p l8 l 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位论文作者签名:签字日期:年月日 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国 家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学名:磅桫 签字日期:年月日 导师签名:帮嗡剐戊宅 签字日期:年月 日 致谢 本论文的工作是在我的导师黄厚宽教授的悉心指导下完成的,黄厚宽教授 严谨的治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢两年 来黄厚宽老师对我的关心和指导。 黄厚宽教授悉心指导我们完成了实验室的科研工作,在学习上和生活上都给 予了我很大的关心和帮助,在此向黄厚宽老师表示衷心的谢意。 黄厚宽教授对于我的科研工作和论文都提出了许多的宝贵意见,在此表示衷 心的感谢。 瞿有利老师对于我的论文内容结构和组织、测试实验提出了宝贵意见,在此 表示衷心的感谢。 在实验室工作及撰写论文期间,傅士光、韩洪光等同学对我论文中的网页抓 取和信息的存储与索引研究工作给予了热情帮助,在此向他们表达我的感激之情。 还要感谢中国万网的同事们,他们给了我一个具体的实践机会,让我亲身体 验了公司紧张的工作氛围和高尚的团队精神。 另外也感谢我的父母,他们在我上学期间给予很多的理解支持和帮助,正是 他们的理解支持和帮助使我能够在学校专心完成我的学业。 序 本文从总体上介绍了什么是搜索引擎,搜索引擎的发展现状,针对通用搜索 引擎存在的不足,设计了可定制的垂直搜索引擎并给出了总体架构及核心模块。 接着本文在具体的章节中对各个模块进了分析、设计和实现。 设计搜索引擎是一项很有挑战性的工作。由于通用搜索引擎已经很难为用户 ( 对信息有特殊具体要求的用户) 提供一个高质量实时的搜索结果,加上作者对 搜索引擎技术的浓厚兴趣及在编程上的经验积累和作者在中国万网设计和开发项 目的实践经验,本文对可定制的搜索引擎做了些工作。本文详细介绍了网页抓取 模块的设计与实现,本文采用了免费技术开源项目对内容分词存储索引,介绍了 基于领域和用户行为的b f u 排序算法,并给出了函数的具体形式及收敛性证明, 介绍了可定制思想,可定制思想可能成为搜索引擎的研究重点。 本文旨在设计和实现一个服务于各个群体的可定制的垂直搜索引擎系统,并 将结合图表,实验结果,代码以及流程图等来对每一个功能点所应用到的原理和 技术进行详细的阐述。在设计和实现过程中,参考了很多开源的搜索项目,也遇 到了许多挑战。 1 引言 我们正处在一个新时代的起点。搜索引擎的出现已经改变了人们的学习、生 活和工作等各个方面,它们的影响力已经开始渗透到社会的各个层面,使得人们 能更方便地从w e b 这部百科全书中得到更多的知识、信息、资料,使人们享受着 网络带来的无穷魅力。同时它的存在也推动了信息处理技术的突飞猛进,使得这 十几年网络内容变得越来越多,越来越复杂。正是由于搜索引擎能给人们带来了 很大的方便,能够从海量信息中获得有用信息,才使得对搜索引擎技术的研究变 得越来越有价值。 本文旨在设计和实现一个服务于各个群体的可定制的垂直搜索引擎系 统,并将结合图表,实现结果,代码以及流程图等来对每一个功能点所应用 到的原理和技术进行详细的阐述。 1 1 搜索引擎及其发展现状及未来方向 搜索引擎( s e a r c he n g i n e ) 是指根据一定的策略、运用特定的计算机程序搜集 互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。搜 索引擎用来检索w e b 网站网页、新闻组、图片、声音等w e b 数据n 1 ,是互联网上一 种基于w w w 的信息检索工具。与一般网站不同的是,其主要功能是采用人或自动 的方式去搜寻互联网上的信息,并将收集到的信息进行分类、建立索引,再把索 引的内容存放到索引数据系统中,通过查询索引为用户返回匹配的信息链接,以 帮助用户在i n t e r n e t 中找到所需要的信息。面对浩瀚的网络数据资源,搜索引擎 为所有网上冲浪的用户提供了一个入口,从理论上说,所有的用户都可以从功能 强大的搜索引擎出发,到达自己想去的网络任何的地方。 近年来i n t e r n e t 得到了突飞猛进的发展,站点遍布全球,使得w e b 成为包含 丰富信息的资源。搜索引擎已成为人们网上冲浪不可或缺的部分。人们越来越习 惯从互联网上查询和获得资源。一方面,互联网上的信息量在飞速增长,同时不 断膨胀的互联网资源又吸引了越来越多的信息贡献者和分享者。二者相互促进, 共同增长,互联网展现出越来越大的魅力。但是,如果不借助搜索引擎技术,这 些有价值的信息在网络中将很难被有效地共享和利用;同时,网站要想得到较大 的访问量,借助搜索技术也是比较经济的途径。这些需求和迅速膨胀的w e b 资源 促使搜索技术企业迅速发展,如国际搜索巨头g o o g l e 和中文搜索老大b a i d u 。在 互联网信息不断丰富的今天,人们已经习惯从搜索引擎出发到自己想去的地方, 使网络享受变得如此简单。 然而,自动通用搜索引擎返回太多的低质量的匹配结果,使问题更糟的是, 一些广告为了赢得人们的注意,想方设法地误导自动搜索引擎,也就是所谓的作 弊网站。目前自动搜索引擎很难精确的分析出作弊网站,也不可能做到“博大精 深 ,这是因为它们是矛盾的两个方面,不可兼得。随着互联网信息的急剧增长, 关于搜索引擎的“博大 越来越难实现,从利用信息的也完全没有必要,“精深” 反而成了人们越来越关注且重视并追求的目标。另外,多层次的搜索服务体系远 远没有建立起来,传统搜索引擎重导航作用,而轻精准信息服务,就像行人问路, 不仅仅是要知道方向,还要知道此方向的可行性,此方向的最有效性,以免南辕 北辙。 第一代搜索引擎,人们一般认为,是指产生于1 9 9 4 年左右的以分类目录为主 要特征的搜索引擎,它们以y a h o o 的分类网址为代表,y a h o o 的分类网站,通过人 工分捡的方法,形成了庞大的网站群,使人们通过分类目录,能够快速到达相应 的网站。优点是查找准确,结果唯一。缺点是通过人工的方法,要想把网络内容 全部收录进来,几乎是不可能的事,并且对网页内容无法识别。 第二代搜索引擎,是以g o o g l e ,b a i d u 为代表的智能型网页搜索。第二代搜索引 擎的搜索原理是:派出众多的自动搜索蜘蛛,通过互联网上不同网站之间的链接, 将自己认为有价值的网页,收录到数据库中,并且对这些网页的重要性,进行智 能化的排序,从而使搜索结果趋向合理。优点是自动搜索,以网页内容为主要搜 索结果,可以提供海量的搜索结果,缺点是尽管有一定的智能差别,但永远无法 真正对网页的重要性进行公正的判定,海量结果也经常使使用者无所适从。 现在人们经常讨论下一代搜索引擎一一第三代搜索引擎,那么,第三代搜索 引擎与第二代第一代搜索引擎有什么不同? 又有什么联系呢? 它应该包括哪些功 能? 这些都是必须问答的问题,但答案众说纷纭。有人说,下一代搜索引擎也许要 融入功能强劲的智能化、人机交互等技术,来改善相关度的计算,也有人说,下 一代搜索引擎不仅仅需要运行在大规模服务器上,更有可能是运行在共享计算机 资源的个人电脑集群上,或者植入“搜索芯片中,也许其索引库的边界已经模 糊或更加清晰。很有可能,当前搜索巨头通过资金品牌等人为手段不断树立壁垒, 但第三代搜索引擎将是抵挡不住创新搜索技术的颠覆,就像当初g o o g l e 无声无息 地将a l t a v i s t a 打败,并远远甩在后面一样瞳1 。可能是可定制的垂直搜索引擎。可 定制的垂直搜索引擎是创新的,更人性化的,更能满足大众需求的。以后章节将 具体介绍可定制的思想。 2 1 2 可定制的垂直搜索引擎简介 所谓可定制的垂直搜索引擎就是以构筑某一领域的i n t e r n c t 网络信息资源库为 目标,智能地在互联网上搜集符合这一领域的信息资源,能够为包括学科信息门 户、专业信息机构、特定行业领域、公司信息中心、行业专家等在内的信息用户, 在所提供的所有的可定制项中选择自己关注的领域作为以后登陆的默认页面,提 供这一整套的网络信息资源解决方案d 1 。 可定制的垂直搜索引擎与前一代搜索引擎( 通称为通用搜索引擎) 存在着很 大的差别。 ( 1 ) 服务方式不同 通用搜索引擎完全是自己定制的服务样式,基本没有个性设置,不考虑每个人 的爱好,用户很难改动,而可定制的垂直搜索引擎使每一个用户都可以根据自己 的需要在访问搜索页面时,在搜索引擎提供的所有可定制项中,选择他喜欢的来 作为他以后再次访问的默认页面。此可为用户提供方便快捷的服务,为用户节省 时间。 ( 2 ) 服务目的不同 通用搜索引擎面向任何用户,提供对任何信息的查询,而垂直搜索引擎则面 向特定用户群体,并向他们提供对特定领域的信息检索服务。 ( 3 ) 搜索方式不同 通用搜索引擎对网络进行逐站逐页爬行,试图遍历整个i n t e r n e t 。而垂直搜索 引擎则采用特定的策略来判断是否爬行,能动态地调整蜘蛛的爬行方向,使蜘蛛 尽可能地在特定领域爬行,这节约了大量的网络资源,也节约了大量的网页抓取 的时间开销,收集了特定领域的数据。 ( 4 ) 数据组织方式不同 等待检索的数据服务器不再是一个所有数据直接组成的庞大系统,而是由领 域组织,领域构成服务数据系统,每个领域都有独自的网络爬虫去搜集该领域的 数据。 ( 5 ) 排序方式不同 网页的排序方式与g o o g l e 的p a g e r a n k 和b a i d u 的竞价排名不同,采用的是领 域优先原则,即与关键词相关度高的领域排在前面。 可定制的垂直搜索引擎更注重用户的交互作用,用户既是网站内容的消费者, 也是网站的制造者。本文将之理解为一种新的搜索服务理念 3 1 3 本论文的主要工作 本论文设计了一个可定制的垂直搜索引擎,它包含了搜索引擎所具有的基本 功能,包括网页抓取,分词存储索引,及网页检索,可定制,以及将这几部分结 合在一起的搜索引擎的总体架构和工作流程的设计和实现,本论文在设计实现这 一系统时,借助和参考了一些开源项目,如a p a c h e l u c e n e 等。 1 4 本论文的内容组织结构 本文将内容主要组织为七个部分: 第一部分为引言,首先介绍了搜索引擎的其发展现状,接着引出了可定制的 垂直搜索引擎的概念,然后叙述了本人所做的工作和本文内容的组织安排。 第二部分概要地介绍了可定制的垂直搜索引擎相关工作综述及本系统包含的 几个模块,并将这几个模块有机地结合起来,完成了一个功能基本完善的检索系 统,并给出了总体的架构图和工作流程; 第三部分为网页抓取模块的研究与实现,在传统的网页抓取方法的基础上实 现了垂直搜索引擎的网页抓取; 第四部分为分词存储索引模块的研究与实现,分词采用的免费的海量智能分 词,存储索引是采用开源l u c e n e 实现的; 第五部分为网页检索模块的研究与实现,本文提出了b f u 排序算法,并给出 了具体的函数形式及收敛性证明; 第六部分为可定制模块的研究与实现,给出了可定制的基本流程图; 最后总结了本文的内容,并对以后工作进行了展望。 4 2 可定制的垂直搜索引擎相关工作综述 在设计和实现可定制的垂直搜索引擎时,本文首先通过对通用搜索引擎的架 构h 1 进行了学习和研究,了解了搜索引擎的架构及工作原理,本章结合垂直搜索引 擎的特点,参考了通用搜索引擎的架构, 然后对几个核心模块进行概要性的介绍, 和展示。 2 1 通用搜索引擎架构介绍 设计出了可定制搜索引擎的总体架构, 其详细的设计和实现将在后面章节介绍 如下图2 1 所示,我们可以看到整个系统是如何协调工作的。通用搜索引擎涵 盖的信息量大,因而对存储、网络等硬件的要求和对算法效率的要求都非常高。 图2 1 通用搜索引擎系统总体架构 f i g u r e2 1t h ea r c h i t e c t u r eo f ag e n e r a ls e a r c he n g i n e 如图2 1 所示,通用搜索引擎中包含以下几个部分: ( 1 ) l i n k s t r u c t u r e a n a l y z e r 对l i n k 库分析并初始化,设置蜘蛛的起点,u f l s d v e r 通过对l i n k s 库的访问,为网络蜘蛛程序w e b s p i d e r s 提供u r l 。 ( 2 ) 网络蜘蛛程序w e b s p i d e r s 负责抓取网页内容,然后将网页交给c l e a n e r 处理 器,提纯w e b 页面内容,去除h t m lt a g s ,并提取链接信息交给u r lr e s o l v e r , 将相对路径信息转换成绝对u r l ,存入l i n k s 库,并将提纯后的w e b 内容交给存储 服务器s t o r es e r v e r 存入到知识库r e p o s i t o r y 中。 ( 3 ) 索引器i n d e x e r 通过调用分词程序w o r d s e g m e n t o r 将页面信息全文存储到索 引文件d o c i n d e x 中: ( 4 ) 检索器通过调用分词程序w o r d s e g m e n t o r 后,使用索引器检索索引,并将返 回的内容交给排序器s o r t e r 排序,最后把排序好的内容返回给用户。 2 2 通用搜索引擎架构局限性 通过在2 1 节对通用搜索引擎架构的分析,不难发现其结构的复杂性。考虑到 通用搜索引擎数据量大的特点,搭建一个通用搜索引擎是非常困难的事情。首先, 其索引的w e b 信息不可能做到快速及时的更新,而且提供的有些服务某些用户根 本不感兴趣,而且通过对专业通用搜索引擎g o o g l e 的学习,发现其索引及文档都 是以文件的形式存储在优化的网络文件系统中,然而其特定的文件格式缺乏通用 性,也使得通用搜索引擎的功能扩展变的困难。而垂直搜索引擎的目标是为某个 行业或领域提供专业而又及时的信息检索服务喳1 ,信息覆盖的只是互联网的某个领 域,信息量远远没有通用搜索引擎的大,再加上对通用性、扩展性和易于开发等 方面考虑,使得在某些环节使用数据库技术成为可能。 例如,2 0 0 6 年4 月,周女士被检查出患了绒毛膜癌,希望能够了解有关知识, 并找出一些治疗的案例。周女士开始使用百度搜索引擎。检索关键词”绒毛膜癌 。 检索效果不理想。开始检索出来的都是一些医院的信息( 参见图2 2 ) 。造成这种情 况的原因,一方面是由于随着网络的普及,所收集的信息越来越多,另一方面, 也是由于商业利益的驱动,使用“竞价排名”技术所造成的。而在垂直搜索引擎 上,则可以大大提高检索效率。作者选择垂直搜索引擎f u l l s e a r c h e r 进行检索。 f u l l s e a r c h e r 主页面上选择 首席医学全文检索 ,键入关键词“绒毛膜癌 ,即可 得到非常直接的结果嘲( 参见图2 3 ) 。 很明显,垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不 够等提出来的新的搜索引擎服务模式。通过针对某一特定领域、某一特定人群或 某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”, 且具有行业色彩,相比通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更 加专注、具体和深入。 6 韭甚至通古堂塑主堂垃垃窑互虚捌曲垂直搜盛l 【塞揠羞王使堡蓝 l 目盛鼻_ := r 圆a ! ! ! 巴 。 l i 一 l 鹭昔嚣景詈嚣嚣嚣。一黑盛鞋 一 i = := ,智? 乏二o _ i 篮盘5 s ;k 蛊踹k p 一 i 目 g 。 戤氇曼础葛l 。 一一 ,t 器普善端譬詈k 。r i ! 。譬8 “_ = - _ 一 啉:鼎搿娄鬻鬈燃镒燃黜热蛳 圈2 3 在垂直控素引擎上检索的有关绒毛膜癌的结果 f 建l 时2 3 t h e i 螂mo f s e 帆h h 洲o c a r c m a m a 血f d 咖s c 咻h e n g m e 搜索引擎的最新技术发展方向包括以下几个方面: 提高搜索引擎对用户检索提问的理解,为了提高搜索引擎对用户检索提问的 理解,就必须有一个好的检索提问语言,为了克服关键词检索和目录查询的缺点, 现在已经出现了自然语言智能答询。 对检索结果进行处理: ( 1 ) 基于链接评价的搜索引擎 基于链接评价的搜索引擎的优秀代表是g 0 0 9 l e ,它独创的。链接评价体系” 是基于这样一种认识,一个网页的重要性取决于它被其它网页链接的数量,特别 是一些已经被认定是“重要的网页的链接数量。 ( 2 ) 基于访问大众性的搜索引擎 基于访问大众性的搜索引擎的代表是d i r e c th i t ,它的基本理念是多数人选 择访问的网站就是最重要的网站。 ( 3 ) 去掉检索结果中附加的多余信息 有调查指出,过多的附加信息加重了用户的信息负担。为了去掉这些过多的 附加信息,可以采用用户定制、内容过滤等检索技术。口2 1 通过以上分析,我们有信心有能力设计好一个可定制的垂直搜索引擎,以满足 专业、更新及时、通用性好和易于扩展等的要求。 2 3 可定制的垂直搜索引擎架构设计 垂直搜索引擎和通用搜索引擎的最大区别是对网页信息进行了结构化信息抽 取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索 是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位。而垂直搜 索是以结构化数据为最小单位。然后将这些数据存储到数据库进行进一步的n i 处理,如去重、分类等。最后再以搜索的方式满足用户的需求乜幻。 通过对传统搜索引擎架构的学习和研究,结合可定制的垂直搜索引擎的特点, 设计本系统包含如下功能模块: ( 1 ) 网页抓取模块 ( 2 ) 分词储存索引模块 ( 3 ) 网页检索模块 ( 4 ) 可定制模块 为了方便在不同模块间交换数据,使用了x m l 技术,数据库技术( m y s q l 数据 库) ,再加上对不同技术优点及项目领域的考虑,我们主要使用p e r l 语言来实现可 定制模块、网页抓取模块和检索模块,使用j a v a 实现分词存储索引模块( 基于免费 海量智能分词及开源l u c e n e ) ,其总体架构如图2 4 所示。 8 客户网站1 驾 t “,;现 、l 网络蜘蛛i ;习 。上 i 转换( h t m l - - x m l ) 豸 上 7 习 x m l 支:件 匕 ,t i 。l t 一,;礓 分词( 籀 量智能) 曩 w,d 上 i 存储索弓l ( 1 u c e n e ) j j 上 厂、厂气 f 酝引库j 弋。l 夕 。土 :馘捧序j :溺 儿 ,m e氍b 查询界嚣翻 f 。甥 2 4 核心模块介绍 2 4 1网页抓取模块 一一一丁一一一一 一一一手一一一 圄 一一一手一一一 图2 4 总体架构图 f i g u r e2 4t h ew h o l ea r c h i t e c t u r e 通用搜索引擎为了提高其w e b 页面的覆盖率,它的爬行策略基本采用图的遍 历算法如广度优先或深度优先策略,它不必判断网页的相关性,也不必对链接指 向的网页是否相关作出预测。垂直搜索引擎面对的是特定人群,其采集的信息只 限定于特定的领域,出于性能上的考虑其不必也不可能对整个w e b 进行遍历。因 此,垂直搜索引擎中需要研究以何种方式预测链接指向的网页对主题的相关性, 并决定其是否值得访问;需要研究以何种爬行策略访问w e b 以在尽可能多地采集 到相关网页的同时尽可能少地采集到无关的网页。p 2 j 在本系统中,网页抓取由网络蜘蛛控制器控制多个w e b s p i d e r 进程并行完成。 其流程如图2 5 所示。 9 旱园 图2 5t o p i c 领域的w e b 信息抓取基本流程 f i g u r e2 5t h eb a s i cw o r k f l o wf o rw e bi n f o r m a t i o nc r a w l i n ga b o u taf i e l do f t o p i c 如图2 5 所示,w e b s p i d e r 需要的u r l 由u r l p r o v i d e r 提供。u r l p r o v i d e r 从m y s q l 数据库l i n k 表中取出一定数量的需要采集的u r l ,缓存在内存中。当缓存中的u r l 抓取完后,u r l p r o v i d e r 将再次缓存u r l ,直到没有未抓取的u r l 为止。w e b s p i d e r 进程完成一个u r l 内容的抓取后,将抓取到的w e b 内容先存入文件服务器( t x t 格 式) 交付w e b 数据清理器c l e a r n e r 处理。c l e a n e r 需要使用t o p i c 过滤器来分析新解 析出来的u r l 与当前的t o p i c 是否相关,如果相关,则该u r l 将被加入到m y s q l 数据库l i n k 表中,否则该u r l 将被忽略,并将清理出的纯文本存入) 【h l l 文件,等 待被分词存储索引。 由以上论述可知,垂直搜索引擎的w e b 信息抓取与通用搜索引擎的w e b 信息 抓取主要区别在于:在抓取流程中加入了t o p i c 过滤器。t o p i c 过滤器根据数据库 t o p i c 表中设定的当前领域的关键词来计算当前网页的相关度,来断定该u r l 是否 属于同一领域,如果属于就加入l i i l l 【表,如果不属于就忽略。 可以通过如下方法计算网页与领域的相关度, ( 1 ) 基于网页内容的相关度计算方法口盯 ( 2 ) 基于锚文本的相关度计算方法3 所谓的锚文本就是描述链接所指向网页主题信息的文字内容。对于总结网页内 容和性质有着重要意义。例如在某网页中有 d a lj a nu n i v e r s i t yo ft e c h n o l o g y ,则d a l i a nu n i v e r s i t yo ft e c h n o l o g y 就是概括链接h t t p :w w w d l u t e d u c n 所指向网页主题内容的锚文本。 1 0 故本文采用第二各方法来判断某个网页是否属于当前领域。 i n t e r n e t 中的网页以领域为单位进行收集,每个领域会有专门的网络蜘蛛负责 抓取网页,数据的组成结构如图2 6 所示。 图2 6 数据的组成结构 f i g u r e2 6d a t ac o m p o s i t i o n 领域的主题关键词集合的建立将在3 3 2 介绍。 2 4 2 分词储存索引模块 在搜索引擎全文检索系统中,对中文和英文文档进行分词有很大的区别。英 文句子中的词与词之间由空格隔开,根据空格就可以分割出完整的单词;而中文 则以字为单位,不像英文那样由空格隔开,在句子中多个字连起来才能表达一个 意思。由于这些差异,中文信息化处理一直远远落后于英文以及其他语种。中文 分词技术是中文信息自动化处理技术发展的瓶颈。国际著名自然语言理解技术专 家周富秋说:“英文清晰的单词分隔和严格的语法规范使得英文信息智能化处理具 有天然的优势。现在基于英文人工智能系统水平已经相当于7 岁的儿童,而使用 中文的情况下只有两岁儿童的水平。一个重要的原因在于,英文清晰的单词分隔。 可以设想,英文句子中没有空格,立刻就成了一堆没有人能读懂的字母乱码。但 中文天生就是没有空格的,这就使汉字在信息时代的智能化处理非常困难。”因此, 将中文句子划分成合理的词是一项非常困难的工作。 传统的中文分词算法大致可分为三种:基于字符串匹配的分词算法、基于理 解的分词算法和基于统计的分词算法。本系统所用的是海量科技发展有限公司开 发的海量智能分词研究版( 免费) ,海量智能分词采用的是复方概念平衡各算法, 海量智能分词以“砌词 为突破口,巧妙地解决困扰分词最大的问题未登录 词的识别问题,在其他问题上博采众长各个击破。 分词算法在搜索引擎中起着举足轻重的作用。一个好的分词算法一方面能将 文档内容准确地划分成词的序列,消除歧义,正确建立全文索引;另一方面,在 用户使用搜索引擎时,分词算法能根据用户输入的查询语句,正确的理解用户需 要查询的内容,并能根据用户的初衷,将查询语句分解成词的序列,避免歧义划 分,查询索引。然而,目前的中文分词算法还不能百分百地进行中文分词,这在 很大程度上导致搜索引擎返回大量的垃圾结果。本文通过对传统的分词算法进行 分析和学习,介绍了海量智能分词研究版,海量分词通过采用复方概念平衡各算 法,使海量分词在大规模语料测试中的准确率达到了9 9 5 ,分词效率2 0 0 0 万字 分钟,基本上达到实用要求。 数据是w e b 应用的灵魂,对数据的存取访问效率决定了程序的运行效率。在 本文中描述了一般w e b 数据的存储和索引。第五章将详细叙述使用b + 树作为w e b 内容的索引,并结合数据库技术完成对倒排索引的支持。 设计和实现倒排索引是构建全文信息系统必须的环节。在倒排索引中,索引 不再以文档为核心内容,它利用分词算法将文档分割成词的序列,然后对这些词 建立索引,通过对倒排索引的查询,用户可以得到这个词出现在哪些文档中,出 现的频率多大,甚至有些倒排索引还提供词出现在文档中的位置,字体等信息。 最后通过与开源l u c e n e 结合,实现了对文档的存储与索引。 2 4 3网页检索模块 在网页检索过程中,系统先将用户输入的要检索的字符串进行分词,再去索 引库中查询,然后根据排序算法将结果显示给用户。排序算法在检索过程中起了 非常重要的作用。本文提出了基于领域及用户行为的b f u 排序算法,并给出了具 体的函数形式及收敛性证明,这将在第六章作具体介绍。 2 4 4 可定制模块 每一个用户都可以根据自己的需要在访问搜索页面时,在提供的所有可定制 项中,选择他喜欢的领域来作为他以后再次访问的默认页面或检索的领域范围。 此可为用户提供方便快捷的服务,为用户节省了时间,体现了人性化。 理想的可定制服务包括以下几个特点: ( 1 ) 对搜索服务内容进行个性化设置。用户可以像操作普通窗口一样在窗口上移 动w e b 部件控件,或者移除、隐藏或最小化这些控件; ( 2 ) 对页面布局进行个性化设置。用户可以将w e b 部件控件拖到窗口的不同区 1 2 域,也可以更改控件的外观、属性和行为; ( 3 ) 导出和导入控件。用户可以导入或导出w 曲部件控件设置以用于其他窗口 或站点,从而保留这些控件的属性、外观甚至是其中的数据。这样可减少对最终 用户的数据输入和配置要求; ( 4 ) 创建连接。用户可以在各控件之间建立连接; ( 5 ) 对站点级设置进行管理和个性化设置。授权用户可以配置站点级设置、确 定谁可以访问站点或窗口、设置对控件的基于角色的访问等。例如,管理员角色 中的用户可以将w e b 部件控件设置为由所有用户共享,并禁止非管理员用户对共 享控件进行个性化设置。 2 5 本章小结 在设计和实现该系统时,参考了不少搜索引擎架构,有的适合于大型或超大 型的搜索引擎,有的实现比较繁琐,有的太过于依赖运行环境,本文还参考了不 少开源项目和免费试用技术。通过对这些架构和项目的对比与学习,证明该章所 给出的模型能较好的工作和吸引更多用户,而且采用数据库技术、解释性语言p 甜 和开源项目能加快系统的开发,可以得到中等的效率。 本章简单介绍了通用搜索引擎的架构及局限性,对此本文设计了可定制的垂 直搜索引擎总架构及核心模块。可定制是基于用户角度考虑的,使用户使用起来 方便快捷;通过对通用搜索引擎的网页抓取技术的研究与分析,本章给出了垂直 搜索引擎的网页抓取技术的架构图,具体技术实现将在第3 章详细介绍;本章简 单叙述了分词的背景与重要性及本文为何采用海量智能分词,并结合开源l u c e n e 实现了存储索引,这是由于数据量小,要求工作效率不是很高,时间有限。如果 从新开发遇到的问题会很多,所以最后决定采用开源l u c e n e 作为文档存储和索引。 相信今后对l u c e n e 学习和研究,学透其设计思想,不断积累经验教训,最后要实 现自己的全文索引模块;在检索模块中,本章简单介绍了b f u 排序算法,具体的 函数形式及收敛性证明将在第六章作详细介绍。 3 网页抓取模块的实现 搜索引擎一直专注于提升用户的体验度,用户体验度集中反映在三个方面: 准、全、快。即查准率、查全率和检索速度。其中对于检索耗时在1 秒以下的系 统来说,访问者很难判别其快慢,更何况还有网络速度的影响。因此对搜索引擎 的评价就集中在查准率和查全率。搜索引擎的“准 ,需要保证搜索的前几十条结 果都和搜索词高度相关,这由分词技术和排序技术来决定,而搜索引擎的“全 则需保证不遗漏某些重要的结果,而且能找到最新的网页,这需要搜索引擎有一 个强大的网页收集器,一般称为“网络蜘蛛”、“网页机器人 或w e p s p i d e r 。 网络蜘蛛程序是建立搜索引擎的第一步,通过访问w e b 页面,将w e b 上的资 源整合到本地数据库中。研究搜索引擎技术的文章不少,但大部分讨论的是如何 评价网页的重要性,对于网络蜘蛛研究的文章不多。网络蜘蛛技术并不是一项十 分高深的技术,但要做一个强大的网络蜘蛛,却不是件容易的事。在目前磁盘容 量已经不是瓶颈的时候,搜索引擎一直在扩大自己的网页数量。最大的搜索引擎 g o o g l e 从2 0 0 2 年的1 0 亿网页增加到现在的近4 0 亿网页,最近雅虎搜索引擎号称 收录了4 5 亿的网页,国内的中文搜索引擎百度的中文页面数量从两年前的七千万 增加到了现在的两亿多。据估计,整个互联网的网页数量已有1 0 0 多亿,而且每 年还会快速增长。因此一个优秀的搜索引擎需要不断地优化网络蜘蛛算法,提升 其性能。 现在一般的网站都希望搜索引擎能更全面的抓取自己网站的网页,因为这样 可以让更多的访问者能通过搜索引擎找到自己的网站。为了让本网站的网页更全 面地被抓取到,网站管理员可以建立一个网站地图,即s i t e m a p 。许多网络蜘蛛会 把s i t e m a p h t m 文件作为一个网站网页爬取的入口,网站管理员可以把网站内部所 有网页的链接放在这个文件里面,那么网络蜘蛛可以很方便的把整个网站抓取下 来,避免遗漏某些网页,也会减轻网站服务的负担。 随着搜索技术的发展,已经出现不少针对某些领域的搜索,如天网商搜、酷迅、 爱帮等。这些站点索引了大量的与某一领域相关的专业性站点页面,人们通常称 这类搜索引擎为基于主题的搜索
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 租赁手表归还合同范本
- 番禺房产租赁合同范本
- 2025年政协防城港市委员会办公室招聘编制外聘用人员1人参考题库及1套完整答案详解
- 2025广东中山东凤镇党建和组织人事办公室招聘见习人员20人参考题库及答案详解(易错题)
- 2025广东惠州市“百万英才汇南粤”大亚湾开发区招聘事业单位人员8人参考题库附答案详解
- 2025年垃圾分类知识竞赛题及答案(共60题)
- 2025年大学《融合教育-特殊儿童评估与支持》考试备考题库及答案解析
- 光伏发电站运行维护习题及答案
- 2025年大学《戏剧影视导演-经典导演研究》考试备考题库及答案解析
- 2025年广东省汇源通校园招聘(法学类综合类+综合类)复习题及答案
- 无讼学院实习律师培训结业考试题目含答案
- DG-TJ08-2021-2025 干混砌筑砂浆抗压强度现场检测技术标准
- 养老院护理员培训课件
- 关于畜禽交易管理办法
- 神经内科眩晕病例讨论课件
- 管制刀具班会课件
- JG/T 528-2017建筑装饰装修材料挥发性有机物释放率测试方法-测试舱法
- 林火监测与预警课件
- 会计中级职称《财务管理》电子书
- 学生学业成绩分析与进步跟踪表
- 2025年驾驶证资格考试科目一必刷题库及答案(共420题)
评论
0/150
提交评论