




已阅读5页,还剩68页未读, 继续免费阅读
(计算机科学与技术专业论文)基于lucene的垂直搜索引擎关键技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 武汉理工大学或其他教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示了谢意。 期:墨! ! :! :兰d 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的 全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制 手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有 关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息 服务。 ( 保密的论文在解密后应遵守此规定) 研究生( 签名) 吖坍儡 导师( 签 加期7 功t l 、j w l一一 摘要 随着网络信息的迅速增长,通用搜索引擎的搜索范围为整个互联网的所有 信息,从而信息更新的时效性差,导致了通用搜索引擎的搜索结果多而杂的情 况,不能满足特定用户对搜索结果的精确化、深入化的要求。于是,针对特定 领域用户的特定需求而产生垂直搜索引擎。垂直搜索引擎专注于获取针对特定 领域的信息并且提供相应信息的检索服务。 本文首先介绍垂直搜索引擎的结构,工作流程和特点,并叙述垂直搜索引 擎相关技术的研究现状。进而分析并研究垂直搜索引擎的一些关键性技术如主 题爬虫的工作流程及主题爬行策略、网页主题信息提取算法和网页排序算法。 在探讨网页主题信息提取算法中,根据现有的h t m l 网页的结构特点,把h t m l 文件中的文本内容划分成若干块,统计各个文本块内的文字数,从而找出文本 分布密集的区域,把此区域作为网页正文区域,从而提取网页的主题信息,通 过实验与数据分析本文提出的基于文本块的网页主题信息提取算法有较大的准 确度。 本文通过对现有的词频位置加权算法、h i t s 算法和p a g e r a n k 算法进行分 析,得到改进的p a g e r a n k 算法,该算法利用余弦相似度算法对相链接的网页的 相似度进行分析,还在算法中加入时间因子,反映了网页的年龄。改进的 p a g e r a n k 算法同时利用了网页的链接结构和网页之间的内容相关性,避免了原 p a g e r a n k 算法的主题漂移和偏向于旧网页的缺点,通过实验证明改进的 p a g e r a n k 算法在很大程度上改进了排序的效果。 最后本文对全文检索工具包l u c e n e 的相关技术进行分析和研究,包括 l u c e n e 的系统架构,索引机制、搜索机制和评分机制。在此基础上,利用l u c e n e 全文检索工具包设计并实现了一个面向校园网内教学学习资源的小型垂直搜索 引擎原型。该垂直搜索引擎原型利用h e r i t r i x 实现信息的搜集,并且利用l u c e n e 实现搜索引擎的索引模块和搜索模块。针对该垂直搜索引擎原型的实际需求, 利用p a o d i n g 分词器扩展l u c e n e 的中文分词功能,利用a p a c h ep o i 实现o f f i c e 文档的解析,包括w o r d 文档、p o w e r p o i n t 文档、e x c e l 文档,并且利用x p d f 实。 现对p d f 文档的解析,还实现了对仅t 文档和h t m l 文档的解析。同时,该垂直 搜索引擎原型对l u c e n e 的评分机制进行扩展,利用改进的p a g e r a n k 算法改进 网页排序的效果。通过测试运行,该垂直搜索引擎原型达到了预期的目标。 a b s t r a c t w i t ht h er a p i dg r o w t ho fw e bi n f o r m a t i o n ,b e c a u s es e a r c hs c o p eo fg e n e r a l s e a r c he n g i n e sa r ea l lo ft h ei n f o r m a t i o no ft h e w e b ,u p d a t i n gs p e e do ft h e i n f o r m a t i o ni s s l o w , w h i c hr e s u l t si nv a r i e da n de x c e s s i v es e a r c hr e s u l t s t h i s c o n s e q u e n c ec a l l ts a t i s f yt h ed e m a n d so fs p e c i f i e du s e r s ,w h on e e da c c u r a t ea n d d e e ps e a r c hr e s u l t s t h e r e f o r e , a i m i n ga ts p e c i f i e dd e m a n d so fu s e r s i ns p e c i f i e d d o m a i n ,v e r t i c a ls e a r c he n g i n e se m e r g e v e r t i c a ls e a r c he n g i n e sf o c u so no b t a i n i n g t h ei n f o r m a t i o no fs p e c i f i e dd o m a i na n dp r o v i d er e t r i e v a ls e r v i c e so fc o r r e s p o n d i n g i n f o r m a t i o n t h i sp a p e rf i r s t l yi n t r o d u c e st h es t r u c t u r eo fv e r t i c a ls e a r c he n g i n e s ,s t a t i n g w o r k i n gp r o c e s sa n dc h a r a c t e r i s t i c s ,a n ds t a t e st h ep r e s e n tr e s e a r c hs i t u a t i o no f v e r t i c a ls e a r c he n g i n e sr e l a t e dt e c h n o l o g i e s f u r t h e rm o r e , t h i sp a p e ra n a l y z e sa n d d i s c u s s e ss o m ek e yt e c h n o l o g i e so fv e r t i c a ls e a r c he n g i n e s ,s u c ha st h ew o r k i n g p r o c e s so ft o p i c a lc r a w l e r sa n dt o p i c a ls e a r c hs t r a t e g i e s ,e x t r a c t i n ga l g o r i t h mo f t o p i c a li n f o r m a t i o ni nw e bp a g e sa n dt h er a n k i n ga l g o r i t h mo fw e bp a g e s i nt h e s t u d yo fe x t r a c t i n ga l g o r i t h mo ft o p i c a li n f o r m a t i o ni nw e bp a g e s ,a c c o r d i n gt ot h e s t r u c t u r a lf e a t u r e so fh t m lw e bp a g e s ,h t m lw e bp a g e sa r ed i v i d e di n t os e v e r a l b l o c k s c a l c u l a t et h ew o r dn u m b e r so fe a c hb l o c k ,t h r o u g hw h i c hc a nf i n dt h em o s t c o n c e n t r a t e dt e x td i s t r i c t so ft h ew e b p a g e sa n dr e g a r dt h e s ed i s t r i c t sa st h em a i nt e x t o ft h ew e bp a g e s t h u se x t r a c tt o p i c a li n f o r m a t i o ni nw e bp a g e s 功ee x p e r i m e n ta n d d a t aa n a l y s i ss h o w st h a tt h ee x t r a c t i n ga l g o r i t h mo ft o p i c a li n f o r m a t i o ni nw e bp a g e s t h a tt h i sp a p e rp r o p o s e sh a sb e t t e ra c c u r a c y t h i sp a p e ra n a l y z e se x i s t i n gw e i g h t e dt e r mf r e q u e n c yp o s i t i o na l g o r i t h m , h i t sa l g o r i t h ma n d p a g e r a n ka l g o r i t h m a n do b t a i n s i m p r o v e dp a g e r a n k a l g o r i t h m 1 1 h i sa l g o r i t h m u s e sc o s i n es i m i l a r i t y a l g o r i t h m t o a n a l y z et h e s i m i l a r i t i e so fl i n k e dw e bp a g e sa n da d d st i m ef a c t o r , w h i c hr e f l e c t st h ea g eo fw e b p a g e s i m p r o v e dp a g e r a n ka l g o r i t h mn o to n l yu s e st h el i n ks t r u c t u r eo fw e bp a g e s , b u ta l s on s e st h es i m i l a r i t i e so fl i n k e dw e bp a g e s ,w h i c ha v o i dt h ed i s a d v a n t a g e so f t h e m e - d r i f ta n dd e v i a t i o no fo l d p a g e si no n g i n a lp a g e r a n ka l g o r i t h m t h e e x p e r i m e n tp r o v e st h a tt h ei m p r o v e dp a g e r a n ka l g o r i t h mi m p r o v e st h er a n k i n g l l i e f f e c tg r e a t l y f i n a l l y , 。t h i sp a p e ra n a l y z e sa n dd i s c u s s e st h er e l a t e dt e c h n o l o g i e so ff u l l t e x t r e t r i e v a lt o o l k i tl u c e n e ,i n c l u d i n gt h es y s t e ma r c h i t e c t u r e ,i n d e x i n gm e c h a n i s m , s e a r c h i n gm e c h a n i s ma n ds c o r i n gm e c h a n i s m o nt h eb a s i so ft h i s ,t h i sp a p e rd e s i g n s a n di m p l e m e n t sas m a l lv e r t i c a ls e a r c he n g i n ep r o t o t y p ew h i c hf a c e st ot h et e a c h i n g a n ds t u d yr e s o u r c e si nc a m p u sn e t w o r kw i t hl u c e n ed e v e l o p m e n tt o o l k i t t h i s v e r t i c a ls e a r c he n g i n ep r o t o t y p eu s e sh e r i t r i xt oc o l l e c ti n f o r m a t i o n ,a n du s el u c e n e t oi m p l e m e n tt h ei n d e xm o d u l ea n ds e a r c h i n gm o d u l e a i m i n ga tt h ea c t u a ld e m a n d s o ft h i sv e r t i c a ls e a r c he n g i n e ,e x t e n dt h ec h i n e s ew o r ds e g m e n t a t i o nf u n c t i o no f l u c e n ew i t hp a o d i n gw o r ds e g m e n t a t i o nt o o l ,a n di m p l e m e n tr e s o l u t i o no fo f f i c e d o c u m e n t sw i t ha p a c h ep o i ,i n c l u d i n gw o r dd o c u m e n t s ,p o w e r p o i n td o c u m e n t sa n d e x c e l d o c u m e n t s ,i m p l e m e n tr e s o l u t i o no fp d fd o c u m e n t sw i t hx p d f , a n dt x t d o c u m e n t sa n dh t r n ld o c u m e n t s i n 。t h em e a n w h i l e ,t h i sv e r t i c a ls e a r c he n g i n e e x t e n d st h es c o r i n gm e c h a n i s mo fl u c e n e ,a n di m p r o v e st h ee f f e c to fr a n k i n gw e b p a g e su s i n gt h ei m p r o v e dp a g e r a n ka l g o r i t h m a c c o r d i n gt ot h et e s t s ,t h i sv e r t i c a l s e a r c he n g i n ea c h i e v e st h ee x p e c t e dg o a l s k e y w o r d s :v e r t i c a ls e a r c he n g i n e ,l u c e n e ,e x t r a c t i n gt o p i c a li n f o r m a t i o ni n w e bp a g e s ,r a n k i n ga l g o r i t h mo fw e bp a g e s i v 目录 摘要 a b s t r a c t 目录 第1 章引言 1 1 研究背景 1 2 垂直搜索引擎。 1 2 1 垂直搜索引擎的结构和工作流程 1 2 2 垂直搜索引擎的特点 1 2 3 垂直搜索引擎的研究现状5 1 3 本文的主要工作及论文组织结构6 第2 章垂直搜索引擎的关键技术8 2 1 主题爬虫:8 2 1 1 主题爬虫的工作流程。8 2 1 2 主题爬行策略1o 2 2 网页主题信息提取算法一1 3 2 2 1 现有的网页主题信息提取技术一1 4 2 2 2 基于文本块选择的网页主题信息提取算法一l7 2 2 3 实验测试21 2 3 网页排序算法2 2 2 3 1 词频位置加权排序算法2 2 2 3 2 链接分析排序算法2 3 2 3 3 改进的p a g e r a n k 算法2 7 2 3 4 实验结果3 3 2 4 本章小节。3 6 第3 章l u c e n e 的相关技术研究3 7 3 1l u c e n e 简介3 7 3 2l u c e n e 的系统结构3 8 3 3l u c e n e 索引机制。4 1 3 3 1l u c e n e 索引的层次结构4 1 3 3 2l u c e n e 的增量索引过程。4 2 3 3 3l u c e n e 索引文件格式_ 。4 3 3 4l u c e n e 的搜索机制4 5 3 5l u c e n e 的评分机制4 6 3 6 本章小节4 7 第4 章垂直搜索引擎的实现4 8 4 1 功能模块4 9 4 1 1 信息搜集模块4 9 4 1 2 索引模块51 4 1 2 搜索模块。5 3 4 1 3l u c e n e 评分算法的改进。5 6 4 2 测试结果5 6 4 2 1 索引模块的测试一5 6 4 2 2 搜索模块的测试5 7 4 3 本章小节5 9 第5 章总结与展望6 0 5 1 工作总结:6 0 5 2 工作展望。6 0 参考文献。6 2 致 射6 5 附录:攻读硕士学位期间公开发表的论文6 6 武汉理工大学硕士学位论文 1 1 研究背景 第1 章引言 随着互联网的迅猛发展,存在于互联网上的网络信息资源也迅速增长。这些 信息资源的来源广泛,并且以文本、图像、音频、视频等多种形式存在。对于用 户来说,面对这些海量数据,如何在其中准确、快速地找到找到自己需要的信息 呢? 搜索引擎的出现帮助用户快速定位这些特定的信息。 搜索引擎是一种为用户在互联网上进行信息搜索的工具,它借助于网络爬虫 在互联网上搜集网页文档信息,然后进行网页和文档信息的提取、处理和建立索 引,为用户提供信息检索服务。 搜索引擎通常为用户提供一个查询界面,用户通过浏览器访问此查询界面, 然后输入查询词语或短语,搜索引擎对查询词语或短语进行分析,在索引数据库 中找到匹配的文档信息,试图在有限的时间内返回和尽可能用户输入内容相关的 文档信息列表( 按照相关程度的高低排列) ,用户在此信息列表中浏览并选取所 需的文档信息。 随着网络信息的存在形式多元化趋势和用户对搜索结果的精确化、深入化的 要求,现阶段的搜索引擎一通用搜索引擎由于其搜索范围为整个互联网的所有 信息,从而信息更新的时效性差,导致了通用搜索引擎的搜索结果多而杂的情况, 不能满足特定用户对搜索结果的要求。 垂直搜索引擎( v e r t i c a ls e a r c he n g i n e ) 是针对特定领域用户的特定需求而 产生的,因此,垂直搜索引擎专注于获取针对特定领域的信息并且提供相应信息 的检索服务。相比较通用搜索引擎来说,垂直搜索引擎搜集的信息是与特定主题 相关的,信息量较少,信息能够及时更新,能够跟上互联网上信息的变化,从而 保证搜索结果更加准确、具体和深入。由于这些优势,垂直搜索引擎是现阶段的 搜索引擎的其中一个发展趋势,已经成为搜索引擎研究和应用领域的热门课题。 目前国内外已有很多研究者对垂直搜索引擎的相关技术做了大量的研究。 基于上述背景,本文在分析垂直搜索引擎的结构和工作流程的基础上对垂直 搜索引擎的一些关键技术进行研究,并改进了网页主题信息提取算法和网页排序 算法。 武汉理工大学硕十学位论文 1 2 垂直搜索引擎 垂直搜索引擎,又称为主题搜索引擎,是用来检索针对特定领域或主题的网 络信息,保证对该特定领域或主题信息的完全搜集与及时更新。垂直搜索引擎是 通用搜索引擎的细分和延伸,在解决某些实际专业的查询问题时比通用搜索引擎 更有效。 1 2 1 垂直搜索引擎的结构和工作流程 垂直搜索引擎的工作流程是:首先网络爬虫根据互联网的超链接结构,从互 联网上抓取与特定领域或主题相关的网页、文档,存入本地数据库,然后对数据 库中特定领域或主题信息进行结构化信息抽取,把网页的非结构化信息处理为结 构化数据,并进行深度加工处理,比如网页去重、网页分类等,再对网页、文档 进行文本分词,计算词的权值,以此构建索引并存入索引数据库。用户在提交检 索请求时,检索器对用户输入的请求进行分词,然后在索引数据库中查找匹配的 信息,并按照特定的排序算法对结果排序,最后从数据库中提取各网页、文档的 摘要等信息反馈给用户。 一个典型的垂直搜索引擎主要由网络爬虫、网页和文档预处理器、索引器和 检索器等组成,其结构如图1 1 所示: 1 、网络爬虫 网络爬虫的主要工作是从已定制的u r l 列表出发访问并读取w e b 页面,对 其进行分析并提取链接信息,然后根据w e b 页面中的链接进入其他w e b 页面, 如此递归地访问w e b ,直到u r l 列表为空或超出时间和磁盘空间的限制为止。 网络爬虫需要定期地访问w e b ,反映出网页的更新情况并去除无用的链接。垂直 搜索引擎的网络爬虫通常称为主题爬虫,这是因为它是从互联网上搜集与特定领 域或主题相关的网页、文档。主题爬虫在搜索方式上与通用搜索引擎不同,通用 搜索引擎是搜索整个互联网的所有信息,而主题爬虫更注重下载信息的准确性, 主题爬虫通过网络的拓扑结构和网页、文档的文本信息,判断网页、文档与预定 主题的相关程度,增加主题网页、文档的下载,避免下载与主题无关的网页、文 档,从而提高效率,减少冗余信息,并可以提高更新频率,保证提供更新、更全 面的主题信息。为提高信息发现和更新的速度,网络爬虫多采用分布式架构。 2 、网页预处理器 网页、文档通过主题爬虫下载存入本地数据库,然后需要通过预处理器对网 页进行去重、净化等操作,对文档进行解析操作。 2 图1 1 垂直搜索引擎结构图 1 ) 网页去重 由于网页的转载、复制、修改现象的普遍性,在互联网上存在着大量内容重 复的网页。这种现象使得搜索引擎在后续的分词索引工作中要消耗大量的资源进 行不必要的操作,降低了索引效率,并且在检索结果中出现内容重复的网页会加 武汉理工大学硕士学位论文 重用户的阅读负担。因此,在进行分词索引工作之前有必要进行去除内容重复的 网页。 2 ) 网页主题信息提取 由于商业或网站导航的因素,在网页中会存在一些与主题内容无关的信息或 者网站导航信息。这些信息的存在会影响搜索引擎对网页主题相关度判断的准确 程度,从而产生主题漂移现象,并且会增加分词索引工作的困难程度。因此,需 要识别和去除网页的广告或导航信息,并且提取网页的正文内容和主题相关的超 链接信息。 3 ) 网页文档的分类 网页文档分类的实现可以使得搜索引擎能够对资源进行合理的组织和管理。 搜索引擎将网页文档分类生成的类别信息以合理的方式写入索引,便可以实现按 类别和关键词检索,这样可以缩小范围,提高检索效率。 4 ) 文档的解析 , 网络爬虫下载的文档格式主要有t x t 、w o r d 、p d f 、h t m l 等形式,文档的解析 就是要过滤这些文件的格式,提取这些文档中的文本内容,方便索引器进行分词 和索引操作。 3 、索引器 用户在使用搜索引擎时,是通过输入关键词来查找相关文档,即将关键词与 文档中每个词进行匹配。如果用户输入的关键词在某个文档中,则这篇文档就作 为匹配结果返回给用户。索引器的目的就是建立关键词和文档之间的映射信息。 索引器对文档进行分析,使用特定的分词工具分词,去掉停用词,提取需索引的 关键词( 包括文档中出现的关键词,网页的链接信息,锚文本等) ,并且记录关 键词的词频、位置,以此计算关键词的权值,并构建正排和倒排索引。倒排索引 的形式可以方便检索器由索引项查找相关的网页、文档。 4 、检索器 检索器接收到用户提交的检索请求后,使用分词工具对检索请求信息进行分 词,然后将分词的结果与倒排索引中的索引项进行匹配,取出匹配的文档集合, 并计算用户的检索请求信息与文档集合中的每一篇文档的关联程度,最后按相关 度递减的顺序将这些文档所对应的相关信息返回给用户。 1 2 2 垂直搜索引擎的特点 相对于通用搜索引擎,垂直搜索引擎具有以下特点: l 、面向特定的专业领域,从而信息量相对较少,对特定领域或主题资源的 4 武汉理工大学硕士学位论文 覆盖率较高,信息的质量较高,能够保证搜索引擎对该领域信息搜集的全面性并 且信息能够实时更新。 2 、只涉及特定的领域,用语的一词一字多义的可能性相比通用搜索引擎大 大降低,利用专有的特定领域专业词汇库,关键词的表达方式规范化,保证搜索 结果的准确性。 3 、在网络爬虫搜集特定的领域信息之后,会对该信息进行机构化信息抽取, 并进行深度处理,保证网页信息抽取的准确程度,提高用户查询效果。 4 、信息量较少,从而网络传输量较小,可以有效利用网络带宽。 5 、索引数据库的规模较小,在用户进行查询信息时可以缩短查询响应时间。 1 2 3 垂直搜索引擎的研究现状 垂直搜索引擎是现阶段的搜索引擎的一个发展趋势,已经成为搜索引擎研究 和应用领域的热门课题。目前国内外已有很多研究者纷纷对垂直搜索引擎的相关 技术做了广泛的探讨和研究。 在国内,刘艳敏等提出一种w e b 页面主题信息抽取技术【l 】,对网页进行分块 处理,把网页分割为头、脚、左、右和中间区,进而取出中间区的网页主题信息。 缪霖等提出w e b 页面自顶而下的正文信息定位算澍2 1 ,把h t m l 节点建立成树 型结构,根据各节点的数据信息,包括文本长度,连接数量等信息,找到最佳正 文子树,从中提取主要信息。刘军等提出基于d o m 的网页主题信息的抽取技术 3 1 ,构建网页对应的d o m 树,为d o m 树节点添加链接数、非链接文字数、高 度、宽度等属性,并根据一种聚类规则来d o m 树进行分块,找到网页的主体, 进而通过剪枝,删除掉无用的信息,提取主题信息。顾韵华等提出基于d o m 模 型扩展的w e b 信息提取技术【4 】,利用w e b 页面的d o m 树结构,对d o m 树的节 点进行语义扩展并计算其影响度因子,依据结点的影响度因子进行剪枝,进而提 取页面的主题信息内容。王春花等提出改进的非平均传递权值p a g e r a n k 算法【5 】 把页面的出度和页面之间的相关度融入p a g e r a n k 算法。段准川等提出基于主题 特征和时间因子的改进p a g e r a n k 算法 6 1 ,将网页权威性权值、网页之间的相关 度和时间因子引入p a g e r a n k 算法。 在国外,df r e i t a g 提出m a c h i n e 1 e a r n i n gf o ri n f o r m a t i o ne x t r a c t i o ni n i n f o r m a t i o nd o m a i n s 技术,将机器学习的理论融入信息提取技术中。g u p t a 等提 出d o m - b a s e dc o n t e n te x t r a c t i o no fh t m ld o c u m e n t s 技术,利用d o m 树对h t m l 网页分析,进而得到有效信息。m a n a s k a s e m s a kb 等提出p a r a l l e lp a g e r a n k c o m p u t a t i o n0 1 1ag i g a b i tp cc l u s t e r 技术【9 】,是对p a g e r a n k 并行计算提出的改进。 5 武汉理工大学硕士学位论文 r i c h a r d s o nm 等提出t h ei n t e l l i g e n ts u r f e r :p r o b a b i l i s t i cc o m b i n a t i o no fl i n ka n d c o n t e n ti n f o r m a t i o ni np a g e r a n k 算法【l o 】,探讨在p a g e r a n k 算法中如何融合链接 和内容信息。e i r o nn 等提出l i n ka n a l y s i s :r a n k i n gt h ew e bf r o n t i e r 1 1 】技术,通过 对网页的链接结构进行分析,探讨对已有的链接分析算法的改进措施。r a b i a n u r a y 等提出a u t o m a t i cr a n k i n go fi n f o r m a t i o nr e t r i e v a ls y s t e m su s i n gd a t a f u s i o n 1 2 】算法,将聚类方法应用到网页排序算法中。c h r i s t o sm a k r i s 等提出 c a t e g o r yr a n k i n gf o rp e r s o n a l i z e ds e a r c h t 3 1 算法,在排序算法中加入用户反馈信息 与用户偏好信息。 1 3 本文的主要工作及论文组织结构 论文的主要工作如下: 第l 章引言。引言部分介绍了本论文的研究背景,垂直搜索引擎的结构, 工作流程和特点,并叙述垂直搜索引擎相关技术的研究现状。 第2 章垂直搜索引擎的关键技术。其中关键性技术包括: 主题爬虫的工作流程及主题爬行策略; 网页主题信息提取算法。根据h t m l 网页的结构特点,把h t m l 文 件划分成若干块,统计块内文字数,从而找出文本分布密集的区域,把此 区域作为网页正文区域,从而提取网页的主题信息,通过实验与数据分析 本文提出的基于文本块的网页主题信息提取算法有较大的准确度。 网页排序算法。通过对现有的词频位置加权算法、h i t s 算法和 p a g e r a n k 算法进行分析,得到改进的p a g e r a n k 算法,该算法既利用了网 页的链接结构,利用网页主题信息提取算法对相链接的网页的相似度进行 分析,还在算法中加入时间因子,反映了网页的年龄,避免了原p a g e r a n k 算法的主题漂移和偏向于旧网页的缺点,在很大程度上改进了排序的效果。 第3 章l u c e n e 的相关技术研究。研究了l u c e n e 的系统架构,索引机制、 搜索机制和评分机制。 第4 章垂直搜索引擎的实现。利用l u c e n e 全文检索工具包设计并实现了 一个面向校园网内教学学习资源的小型垂直搜索引擎原型。该垂直搜索引擎原型 利用h e r i t r i x 实现信息的搜集,并且利用l u c e n e 实现搜索引擎的索引模块和搜索 模块。该垂直搜索引擎原型并且对l u e e n e 进行扩展,实现对不同类型的文档的 解析,包括文本、h t m l 、w o r d 、p d f 等格式,并在改进的p a g e r a n k 算法的基础上 改进l u c e n e 中网页排序的效果。 6 第5 章总 7 2 1 进而 对性 留与 页的 快。 2 1 主题爬虫的工作流程如下: ( 1 ) 网页抓取器从种子u r l 出发爬取网页,提取当前网页的所有超链接,放 入候选u r l 链接队列中。 ( 2 ) 网页分析器根据给定的网页分析算法,分析候选u r l 链接与既定主题的 相关程度。 ( 3 ) 链接过滤器按照u r l 的主题相关程度对相关程度较高的u r l 进行排序, 并放入待抓取u r l 队列中,过滤掉不满足主题要求的u r l 链接。 ( 4 ) 页面过滤器对网页分析器中抓取的网页内容进行分析,提取与主题相关 的网页,并存入网页数据库。 ( 5 ) 根据第( 2 ) 、( 3 ) 、( 4 ) 步类似的爬行策略从待抓取的u r l 队列中找到与既 定主题的相关的u r l 链接,重复此过程,直到满足某条件( 抓取的网页 规模达到既定的目标,或者u r l 链接为空等) ,则抓取过程结束。 8 图2 - 1 主题爬虫工作流程 在主题爬虫爬行的过程中,需要采取一定的方法来限制爬行的范围和爬行的 深度。并且在建立u r l 访问列表时,应该判断是否存在着相互链接的情况,避 免对页面的重复处理而陷入死循环。 由于网页中存在各种各样的链接,即使是主题相关度高的网页也存在着很多 指向与主题无关的链接。因此,主题爬虫的爬行过程中需要解决以下问题: 1 ) 如何决定待爬行u r l 列表的访问次序? 许多主题爬虫会根据网页与给 定主题的相关程度,按相关度大小进行排序,优先访问相关度大的u r l 。 2 ) 在待抓取的u r l 队列中,如何分析候选u r l 链接与既定主题的相关程 度? 这需要对网页中的文本信息进行分析。 主题爬行策略直接影响主题爬虫的性能。主题爬虫根据既定的主题爬行策略 在网络上有目的地爬取与主题相关的网页。制定较好的主题爬行策略,可以使得 主题爬虫优先下载到与主题最为相关的网页。这就需要在爬行策略中对网页的链 接背景信息进行提取。 9 武汉理工大学硕士学位论文 2 1 2 主题爬行策略 2 1 2 1 基于文字内容的主题爬行策略 基于文字内容的爬行策略是对网页的文字内容进行分析,从而确定爬行方 向。比较典型的算法由f i s h s e a r c h 算法、s h a r k - s e a r c h 算法和b e s tf i r s ts e a r c h 算法【1 4 】【1 5 1 。 f i s h s e a r c h 算法 f i s h s e a r c h 算法将主题爬虫爬取网页的过程形象地表示为鱼群在大海里觅 食的过程。一个u r l 链接用一条鱼进行表示。主题相关信息用鱼的食物进行表 示。该算法具有三个重要的参数:d e p t h ( 搜索深度) 、w i d t h ( 搜索宽度,即每个 页面最多能够爬取的子页面的数目) 和p o t e n t i a l s c o r e ( u r l 主题相关度,表示 u r l 的优先级) 。当鱼找到食物( 发现主题相关网页,相关网页的子链接的前 a w i d t h 个的p o t e n t i a l s c o r e 值设为l ,其余设为0 ) ,它继续繁殖并且繁殖能力增 强( w i d t h 增加) ,它繁殖的后代寿命与它相同( d e p t h 不变) ;当鱼没有找到食物 ( 没有发现主题相关网页,子链接的前w i d t h 个的p o t e n t i a l s c o r e 值设为0 5 ,其 余设为o ) 时,它的繁殖能力不变( w i d t h 不变) ,它的后代寿命缩短( d e p t h 1 ) ; 当鱼进入污染区( 网页不存在或读取时间超出给定值) ,则这条鱼死去( 放弃对 该链接的爬行) 。 当一个网页被爬取之后,解析该网页并找出其所有的子链接( u r l ) ,如果 子链接深度为0 ,则停止这个方向的搜索;如果深度大于0 ,则将其u r l 根据下 述策略放入u r l 队列中: 幻主题相关网页的前a w i d t h 个子链接加入u r l 队列的首部; b ) 主题不相关网页的前w i d t h 个子链接放入前一项之后; c ) 剩下的子链接u r l 放入尾部。 f i s h s e a r c h 算法的模式简单,但有以下缺点: a ) 对网页相关性的判断是用离散的值p o t e n t i a l s c o r e ( 只有0 、0 5 、l 三个 值) 进行判断,即:相关,不相关。这种方法不能很好地反映页面的主题 相关程度。 b ) 当在u r l 队列中具有很多相同的p o t e n t i a l s c o r e 值的u r l 时,会因为 爬行时间的限制,排在后面的u r l 可能会被延时或忽略。 c ) 仅仅使用w i d t h 值来选取子链接的个数可能会丢失重要的资源。 s h a r k s e a r c h 算法 s h a r k s e a r c h 算法是在f i s h - s e a r c h 算法的基础上进行了改进:首先,用连续 1 0 武汉理工大学硕士学位论文 的值函数( 取值介于0 1 之间) 来表示网页的主题相关性,而不是像f i s h s e a r c h 算法那样采用离散的二值判断;其次,引入了锚文本、锚文本上下文和父链接相 关性的继承值来计算u r l 的主题相关性。这使得s h a r k s e a r c h 算法更加准确地 表示u r l 的主题相关性。但是在网页中若存在大量的躁声链接的话, s h a r k - s e a r c h 算法很难计算其网页与主题的相关程度,很容易提高噪声链接的优 先级。 b e s tf i r s ts e a r c h 算法 b e s tf i r s ts e a r c h 算法首先访问与主题相关度最高的w e b 页面。在b e s tf i r s t s e a r c h 算法中,首先给定待爬取的u r l 队列,然后根据主题关键词与网页中的 文字内容的相关度来计算u r l 的优先级。判断是否相关的方法是:如果u r l 字 符串或其对应的锚文本中含有主题关键词,则相关。待爬取网页相关度越大,则 优先级越高。若相关,则将其放入已下载u r l 队列中。如果待爬取的u r l 队列 的缓冲区已满,则从队列中移去优先级最低的u r l 。由于在关键词较多的情况 下,u r l 字符串和锚文本并不能很好的反映主题,所以b e s tf i r s ts e a r c h 算法比 较适用于单个关键词的主题而不太适用于多个关键词的主题。除此之外,在u r l 字符串中,大部分是英文,很少包含中文,所以b e s tf i r s ts e a r c h 算法往往忽略 那些u r l 字符串中包含关键词汉语拼音的网页,而很多这种类型的网页往往是 主题相关的。 。2 1 2 2 基于链接结构的主题爬行策略 基于文字内容的主题爬行策略只利用了网页、u r l 、锚文本等文字内容信息, 并没有考虑到网络链接结构。基于链接结构的主题爬行策略考虑到通过页面的超 链接而形成的w e b 链接结构对主题爬虫的影响。若网页a 存在有链接指向网页 b ,则网页a 与网页b 的内容相关比在网页集中任意抽取的两个网页
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版足浴技师劳动合同范本与培训体系
- 2025版养老护理服务定向采购合同下载
- 2025年度装配式建筑项目管理服务合同范本
- 2025年户外广告设备安装与广告发布合同
- 2025年核设施运输安全操作规范合同
- 2025年智能音响独家代理销售合同范本
- 2025版水车租赁业务合作协议书
- 2025版挖掘机租赁与维修一体化服务合同
- 2025版事业单位场地租赁合同书
- 2025版太阳能光伏发电系统安装与维护服务委托协议书
- 廉洁培训ppt课件-廉洁培训课件
- 全过程工程咨询服务技术方案
- GB/T 4802.1-2008纺织品织物起毛起球性能的测定第1部分:圆轨迹法
- GB/T 35568-2017中国荷斯坦牛体型鉴定技术规程
- GB/T 28707-2012碟簧支吊架
- GB/T 2791-1995胶粘剂T剥离强度试验方法挠性材料对挠性材料
- GB/T 25702-2010复摆颚式破碎机颚板磨耗
- 超分子化学简介课件
- 流体力学-流体力学基本方程课件
- 粮油产品购销合同
- YYT 0681.2-2010 无菌医疗器械包装试验方法 第2部分:软性屏障材料的密封强度
评论
0/150
提交评论