(计算机应用技术专业论文)面向民航web信息的主题爬虫研究.pdf_第1页
(计算机应用技术专业论文)面向民航web信息的主题爬虫研究.pdf_第2页
(计算机应用技术专业论文)面向民航web信息的主题爬虫研究.pdf_第3页
(计算机应用技术专业论文)面向民航web信息的主题爬虫研究.pdf_第4页
(计算机应用技术专业论文)面向民航web信息的主题爬虫研究.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(计算机应用技术专业论文)面向民航web信息的主题爬虫研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国民航人学颂 :学位论文 摘要 随着网络信息的指数级增长以及行业分工的不断加大,专业领域应用中网络信息在 精度和深度方面的缺陷日益明显,专业领域主题w e b 信息的有效获取成为各行业有效利 用网络信息资源的基础。 面向民航w e b 信息的主题爬虫是专注于在海量的网络信息中有效地识别与民航相关 的w e b 信息资源,并进行获取和及时更新的系统,该系统不仅可作为民航主题搜索引擎 必要的信息获取模块,也可成为其它民航企业级信息应用的网络数据来源。 该文对现有主题爬虫相关技术进行了详细的研究和总结,通过对其中关键性技术以 及模型的对比、选择和优化,给出了民航主题爬虫的设计方案。方案采用基于任务通信 机制的分布式并行架构保证了系统的高度扩展性,利用页面过滤和u r l 剪枝保证了爬虫 搜集信息的民航主题相关性。 该文对页面主题相关性过滤所采用的向量空阳j 模型以及u r l 主题相关性剪枝所采用 的p a g e r a n k 算法进行了性能优化,并且在搜集网页更新方面,提出了一种新颖有效的 更新策略,通过增加主题度和更新度的考虑以最大限度保证信息的时效性。 然后基于歼源项目n u t c h 提出了此设计方案的具体实现方法,成为利用此设计,j 棠 实际进行民航主题爬虫开发的有力补充。最后通过对部分系统所采用算法进行的实验以 及对我们所开发原型系统的整体性能测试,证明了民航主题爬虫设计方案和实现方法所 具有的可行性和实用性。 关键词:主题爬虫,信息采集,网页过滤,链接分析,n u t c h 中因民航人学硕i 一学位论文 a b s t r a c t w i t hw e bi n f o r m a t i o nc o n t i n u i n gt oe x p l o d ei na l ld i r e c t i o n s i tc a n n o tk e e p u pw i t ht h em o r ea n dm o r er i g o r o u sa n dp r o l i f i cr e q u i r e m e n t sf r o mp r o f e s s i n r , a p p l i c a t i o n r e c e n t l y ,h o wt og a t h e rt h et o p i c a lw e bi n f o r m a t i o ne f f i c i e n t1 y i sb e c o m i n gt h ek e yq u e s t i o nf o rt h eu s eo fi n f o r m a t i o i lr e s o u r c e so nw w w t h et o p i c a lc r a w l e rf o ra v i a t i o n o r i e n t e dw e bi n f o r m a t i o na i m st os e a r c h , f e t c ha n du p d a t ea v i a t i o n o r i e n t e dw e bi n f o r m a t i o ne f f i c i e n t l y i tc a nb eu s e d a st h em o d u l e o ft o p i c a ls e a r c he n g i n ea n dt h ed a t as o u r c eo fp r o f e s s i o n a p p li c a t i o n b a s e do no u ri n d e p t hr e s e a r c ho nt h et o p i c a lc r a w l e r a n di t sk e ya l g o r it h m s , t h ed i s s e r t a t i o np r e s e n t sa ni n t e g r a t e ds o l u t i o no ft h et o p i c a lc r a w l e rf o rc iv i1 a v i a t i o n ,c o m b i n e dw i t ht h ea c t u a lr e q u i r e m e n t so fp r o f e s s i o nd o m a i n u t i l i z i n g t h ea s s i g n m e n tc o m m u n i c a t i o n ,t h et o p i c a lc r a w l e rh a sag o o de x t e n s i o n ia n dt h e n u s e sp a g ef i l t r a t i o na n d u r lp r u n i n gt oe n s u r et h ef o c u s e d w e bc r a wl i n gp r o c e s s t h ev e c t o rs p a c em o d e lu s e di np a g ef il t r a t i o na n dt h ep a g e r a n ka l g o r it h m u s e di nu r lp r u n i n ga r eo p t i m i z e di nt h es o l u t i o n a tt h es a m et i m e ,t h es o l u t i o n p r e s e n t sa nu p d a t es t r a t e g yt oe n s u r et h ew e b i n f o r m a t i o nu p d a t ei nti m eb y c o n s i d e r i n gt h et o p i cr e l a t i v i t ya n dc h a n g ef r e q u e n c y i no r d e rt os u p p l yt h es o l u t i o n ,t h ed i s s e r t a t i o na l s oi l l u s t r a t e sa l l i m p l e m e n t a t i o nm e t h o dh o wt od e v e l o pt h et o p i c a lc r a w l e rb a s e do nn u t c h ,a n o u t s o u r c i n gp r o j e c t a tl a s t ,t h ee x p e r i m e n to ni n t e g r a la l g o r i t h m sa n dt h e p e r f o r m a n c eo ft h ep r o t o t y p es y s t e ms h o wt h a tt h es o l u t i o na n di t si m p l e m e n t a t i o n m e t h o da r er e a l l yf e a s i b l ea n dv a l u a b l ei nr e a la p p l i c a t i o ne n v i r o n m e n t k e y w o r d s :t o p i c a lc r a w l e r ,i n f o r m a t i o ng a t h e r i n g ,w e bp a g ef ii t r a t i o n h y p e r l i n k a n a l y z e ,n u t c h i i 中国民航大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导f 进行的研究工作及取得的研究成果。尽我所 知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得中国民航大学或其它教育机构的学位或证书而使用过的材料。与我一同l :作的同忠 对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名:超重= 熔日期:之妞 中国民航大学学位论文使用授权声明 中国民航大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印制 和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论史的内 容相一致。除在保密期内的保密论文外允许论文被奇阅和借阅,可以公布( 包括刊登) 论文的全 部或部分内容论文的公布( 包括刊登) 授权中国民航大学研究生部办理。 一躲馘名:耻 邺 中田民航人学顺l 学化论文 1 1 研究的背景和意义 第一章绪论 伴随着i n t e r n e t 网络的普及和企业信息化的进展,w e b 作为信息技术的载体j 下f 1 益 成为信息存储、应用和共享的重要手段。互联网业已成为一个巨大的、分布式、全球信 息中心,一方面拥有着无可比拟的海量信息资源,另一方面也为信息检索和有效利用造 成了困难。 搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织 和处理,并为用户提供检索服务,从而起到信息导航的目的,成为网络信息资源检系和 利用的主要工具。但是由于网络信息的指数级增长和社会分工的不断加大,现存的通辟i 搜索引擎由于其包含信息种类繁多、信息量覆盖范围极大,在专业领域应用中,特别足 在信息的精度和深度方面的缺陷日益明显,这已成为搜索引擎应用于专业领域亟待解决 的问题。 1 1 1 课题的来源和背景 民航经过多年的信息化建设,已经取得了十分显著的成果:完成了相当规模的民航 数据电子化并建设了众多的网络信息平台。目前网络上存在着日益丰富的民航w e b 信向 资源,但是由于民航信息化是在旧有体制框架下展开的,信息化基础相对较弱,再加卜 w e b 信息资源海量性和分散的特征,造成了只益丰富的网络信息资源和缺乏有效的获取 和使用方法之间的矛盾,使得信息资源的浪费和相对贫乏共存。 在这种情况下,如何对民航w e b 信息资源进行有效获取,组织和检索就成为民航信 息化建设在网络应用方面的重要研究课题。民航主题( 垂直) 搜索引擎是解决这一问题 的理想方法,一方面,搜索引擎在w e b 信息检索方面的优秀功效已经是有且共睹,另一 方面,搜索引擎的主题化,已成为搜索引擎应用于专业领域的发展趋势,其本质是使搜 索引擎面向某一特定行业领域,专注于行业内的特长和核一t l , 技术,保证了对该领域信息 的更完全收录与及时更新,同时可以集中提供专业资源的查询等应用,避免了大量的信 息噪音,提高了信息的精度。 从主题搜索引擎的本质可以看出,如何在海量的网络信息中有效的搜集和更新与民 航主题相关的信息,是民航主题搜索引擎研究的关键。有效的对网络上的民航主题w e b 信息进行识别、获取和及时更新不但是从根本上实现搜索引擎民航主题化并提高民航f 题搜索引擎性能的方法,同时它也是增强民航w e b 信息资源搜集能力,满足民航f ? ,n 数据挖掘,智能决策等应用需要的关键。 中国民航人学硕匕学位论文 1 1 2 研究的目的和意义 搜索引擎系统中,负责信息搜集与更新的模块称为爬虫( c r a w l e r ) ,面向民航w e b 信息的主题爬虫( 以下简称民航主题c r a w l e r ) 的研究与实现,其目的就是研:制柏帮4 :一: 的网络信息中,能有效识别与民航相关的w e b 信息资源并进行获取和及时更新的系统, 该系统不仅可作为民航主题搜索引擎必要的信息获取模块,也可成为其它企业级信息应 用的网络数据来源。 一方面,主题搜索引擎是当i ;i 搜索引擎发展的主要趋势之一,吸引了越来越多的学 者对其进行研究,作为主题搜索引擎的基础和核心,主题c r a w l e r 也一直是信息检索技 术研究的热点。在民航主题c r a w l e r 的研究开发中,需要对现有相关技术的复杂性、实 现难易、实用性等进行更详细地比较和提炼,通过对其理论知识进行深入研究和从实用 性角度对关键技术进行局部验证,找出并优化能够很好地运用到民航信息主题c r a w l e r 系统中的所需,这对主题搜索引擎这一课题的研究与发展具有重要的意义。 另一方面,研制的民航主题c r a w l e r 可以做到跨硬件平台,跨操作系统,实现并行、 分布式w e b 信息抓取和民航主题识别,具有高性能的主题化网页搜集和更新能力, i i 系统具有良好的可扩展性和提供包括搜索引擎在内的各种应用接口。该系统开辟了一条 更为通用、廉价和高效的民航网络信息资源获取通道,解决了民航企业应用信息资源年1 l 对贫乏的问题,增强了民航行业在信息利用上的能力,从而提高了民航的整体信息化水 平和行业竞争力。 有鉴于此,本文选取了“面向民航w e b 信息的主题c r a w l e r 研究”作为课题并得到j , 中国民航大学科研基金资助项目( 0 4 一c a u c 一0 6 e ) 的支持。 1 2 主题搜索引擎研究现状 作为主题搜索引擎的关键部分,主题c r a w l e r 的研究包含在主题搜索引擎的研究之 中。在国外,对主题搜索引擎的研究丌始得比较早,同时计算机水平也发展到相j i 绒 的阶段,对主题搜索引擎问题的研究进行得很全面。 国外从事主题搜索引擎研究的机构和团体主要有三类:一是国际性研究团体,例如 开源项目n u t c h 的研究小组;二是科研机构和院校,例如美国斯坦福大学,n e c 研究院: 三是各大通用搜索引擎商业公司,例如g o o g l e ,y a h o o 。而且在比较发达的国家,已绛 有相当一部分代表性的原型系统投入了实际应用。目i ; 投入实际应用的一些代表性原型 系统主要有: o e l s e v i e r 的s c i r u s 系统”1 s c i r u s 是一种专为搜索高度相关的科学信息而设计的搜索引擎,获得2 0 0 1 搜索 引擎观察授予的“最佳专业搜索引擎”奖。s c i r u s 是目前互联网上最全面、综合性最 强的科技文献门户网站之一。它只面向包含有科学内容的网站,如大学和作者个人主页 2 中国民航人学硕 :学位论文 以及e l s e v i e r 自己的数据库。 q b e r k e l e y 的f o c u s e dp r o j e c t 这个系统是由印度裔科学家s c h a r k r a b a r t i 带头发起的,他是最早从事这方面研 究的人之一。该系统通过分类器c l a s i f i e r 和净化器d i s t i l e r 来指导c r a w l e r 丁作的 系统架构成为一种典范。 o n e c 研究院的c i t e s e e r ”1 c i t e s e e :是一个非常有名的针对计算机科学领域论文的检索系统。c i t e s e e r 的惨,l 、j 是a c i ( a u t o m a t i c a l l yc i t a t i o ni n d e x ) ,它可以自动地对网上的电子文件( p o s t s c r i p t 和p d f 等格式) 进行索引并分类。 o 美国国家科学数字图书馆的c o l l e c t i o nb u i l d i n gp r o g r a m ( c b p ) 这个项目旨在为科学、数学、工程和技术创建大规模的在线数字图书馆,试图研究 在某一主题上资源自动建设的可能性。 在我国,主题搜索引擎近年来也已经成为了应用所需和研究热点。许多研究机构和 院校都在进行相关方面的研究,一些商业搜索引擎公司也纷纷表示了主题化的发展方 向,与此同时,有些行业也正在筹建或开发行业内部的主题搜索引擎。其中具有代表性 的有北京大学的天网搜索引擎的相关研究,百度公司的学术检索等功能和赛迪网的i t 搜索引擎“i t 罗盘”、农业搜索引擎s d d 、旅游搜索引擎s e e l u 等。 主题搜索引擎的实现方法主要有三种:一是控制信息采集更新的网站范围,将索,j i 和检索信息限制在特定的几个主题网站之内;二是在通用搜索引擎采集信息的基础上进 行文本分类或过滤,提取主题信息进行索引和检索;三是实现主题c r a w l e r 来控制信息 的采集,仅仅采集,索引主题相关的信息。可以看出,只有第三种方法才是保持信息采 集精度,缩短采集时间、减少存储、加快检索,节约网络资源,实现高性能主题搜索引 擎的根本解决之道,同时第三种方法也是公认的搜索引擎主题化发展方向。1 。 但是,现存的大部分主题搜索引擎都足基于i j 两种方法开发实现的,在主题w e b 亿 息的识别和获取上还普遍存在着较大的不足和发展空间,并且由于行业不同,其它干亍、 主题搜索引擎技术也并不能完全满足民航应用的需要。 1 3 主题c r a w l o r 研究概述 虽然主题c r a w l e r 的概念最早出现于文献 6 中并提出了一个算法,并且此算法住 文献 7 中得到了部分改进,但是目前主题c r a w l e r 的主要架构和方法却来源于s c h a k r a b a r t i 于1 9 9 9 年构建的f o c u s e dc r a w l i n g 系统”1 ,改系统采用基于样例刚页驱 动的主题信息的搜集方法,所搜集的主题信息由用户通过选定样例网页来确定,其中部 分概念和思想来源于文献 8 中提出的各种测量网页重要性的方法。 在此基础上的多年研究中,主题c r a w l e r 出现了很多新的探索和改进。其中文献0 9 中提出了使用上下文图表来引导主题c r a w l e r ,其每一层都使用贝叶斯分类器,最先使 中国民航大学硕卜学位论文 用最短路径。使用的评价机制是下载的相关网页的比率。实验表明,此技术可以维护搜 集网页更高的相关性。a g g a r w a l 等在其i n t e l l i g e n tc r a w l i n g 系统“”中利用关键浏柬 定义主题信息并使其在爬行中具有学习链接结构的能力,这样使得主题c r a w l e r 省去分 类器并简化了主题信息的定义,但是这造成负例的选择面太广。 马亮等设计的i r o b o t 主题信息搜集系统“”在搜集页面的主题相关度评价和待搜集 u r l 的相关性预测中考虑了一些启发因素,对页面的结构和布局信息以及u r l 附带信,! 、 等进行考虑,取得了较好的效果。李晓明等提出了主题信息的一种搜集与处理模型及其 应用“,从样本空间的选取,主题特征的提取,设置目标参量,网页的搜集以及数掘的 后处理几个步骤对主题w e b 信息搜集进行了过程化研究。 与此同时,网络信息分布探测、并行化信息采集和网络文本信息分类等与主题 c r a w l e r 相关的技术研究领域也在蓬勃发展“”,特别是每年一次的全国搜索引擎和mf 信息挖掘学术研讨会( s e w m ) ,都会促使相当一部分的研究成果得到展示和交流,为辛 题c r a w l e r 的进一步研究开发奠定了基础。 1 4 本论文的主要内容和结构 本论文分析了民航信息化建设在网络信息资源利用方面存在的问题,提出了研究和 开发民航主题c r a w l e r 的必要性。接着对现有主题c r a w l e r 相关技术进行了详细的研究 和总结,并对其中关键性技术和模型的多种选择方案( 如相关性判别算法、主题描述模 型等) 进行了对比,在此基础上结合民航主题c r a w l e r 的实际需求对其选择和优化,给 出了民航主题c r a w l e r 的设计方案。然后基于开源项目n u t c h 提出了此设计方案的具体 实现方法,成为利用此设计方案实际进行民航主题c r a w l e r 开发的有力补充。最后通j :t 对部分系统所采用算法进行的实验以及对我们所开发原型系统的整体性能测试,让叫j 7 本文工作在提升民航主题w e b 信息搜集能力方面的有效性。 本论文的主要工作和创新表现在: 0 对现存主题c r a w l e r 关键技术的多种选择方案进行了研究对比,总结了各种方案 的优缺点和适用度。 o 分柝了民航主题c r a w l e r 的实际应用需要,给出了完整的民航主题c r a w l e r 系统的 设计方案。 o 给出了w e b 信息搜集中民航主题搜集策略的实现方法,为其它主题c r a l e r 的丌 发提供了借鉴。 0 结合设计方案和开源项目n u t c h 提出了民航主题c r a w l e r 的具体实现方法,并基 于此方法开发了民航主题c r a w l e r 原型系统。 o 原型系统沿袭了开源项目n u t c h 易于扩展的实现风格和技术,为系统的二次j i :发 打下了良好的基础。 4 中国民航大学硕卜学位论文 全文主要章节内容安排如下: 第一章主要对民航网络信息资源利用问题迸行概述性总结,并对主题搜索引擎特刖 是主题c r a w l e r 技术的研究现状进行综合评述。在此基础上,最终确定了本文研究的f f 务和目标。 第二章主要介绍了搜索引擎特别是主题c r a w l e r 的基本概念和关键技术。 第三章主要对现有主题c r a w l e r 关键技术的多种选择方案进行了研究对比,在此展 础上结合实际情况进行选择和优化,给出了民航主题c r a w l e r 系统的设计方案。 第四章主要基于开源项目n u t c h 提出了民航主题c r a w l e r 设计方案的具体实现方法, 成为利用此设计方案实际进行民航主题c r a w l e r 开发的有力补充。 第五章主要介绍了民航主题c r a w l e r 的原型系统,并通过对部分系统所采用算法进 行的实验以及对我们所开发原型系统的整体性能测试,证明了本文工作的有效性。 第六章对本论文内容进行总结,并分析了下一步研究的方向。 中国民航大学颂k 学位论文 第二章主题c r a w l 6 r 技术 作为搜索引擎的必要和核心模块之一,c r a w l e r 最初和主要的技术研究都是包含在 搜索引擎研究领域之内的。虽然目前w e b 信息搜集技术正逐渐独立并出现了部分弓搜 索引孥无关的应用,但是其主流技术仍然是和搜索引擎密不可分的。 2 1 搜索引擎的结构 搜索引擎根据用户提交的类自然语吉查询词或者短语,将一系列很可能与该查询十 i 关的网页信息返回给用户,此时搜索引擎并不真f 搜索互联网,它搜索的实际上是预先 整理好的网页索引数据库。现代大规模高质量搜索引肇的主流是采用“从互联嗣上抓取 网页( 搜集) 一建立索引数据库( 整理) 一在索引数据库中搜索并排序( 服务) ”的三 段式工作流程“。其系统流程如图2 - i 所示: 2 1 1c r a w l e r 图2 - 1 搜索引擎系统流程 c r a w l e r 也称为“网络机器人”( r o b o t ) ,“网络蜘蛛”( s p i d e r ) ,是一个功能很强 的w e b 搜集程序。它可以在搜集w e b 页面的同时发现其内的超链接并加入搜集队列等待 以后搜集。因为w e b 广泛使用超链接,所阻c r a w l e r 程序理论上可以访问整个w e b 页面。 为了保汪网络机器人遍历信息的广度和深度需要设定一些重要的链接并制定柑父 6 中固民航人学硕f + 学位论文 的搜集策略然后对这些链接进行遍历,在遍历过程中不断记录网页中的链接,这样不断 遍历下去,直到访问完所有链接。搜索引擎的c r a w l e r 一般还要定期重新访问所有网页, 更新网页索引数据库,以反映出网页文字的更新情况,所以c r a w l e r 的实现常需要采用 分布式、并行计算技术,以提高信息发现和更新的速度。 2 1 2 索弓 由分析索号l 系统程序对c r a w l e r 收集回来的网页进行分析,提取相关网页信息( 包 括网页所在u r l 、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、人 小、与其它网页的链接关系等) ,根据一定的相关度算法进行大量复杂计算,得到每一 个网页针对页面文字中及超链中每一个关键词的相关度( 或重要性) ,然后用这些棚笑信 息建立网页索引。 索引的建立方法对搜索引擎来说具有很大的影响,好的索引能提高搜索引擎系统运 行的效率以及检索结果的质量。其中主要涉及的技术是文本分析,包括提取索引项、自 动摘要、自动分类器、文本聚类等。索引通常按照倒排文件的格式进行组织和存储,并 且需要对索引进行及时更新以保证用户利用搜索引擎能检索到最新的信息。 2 1 3 用户检索 当用户输入查询信息后,由检索程序从网页索引中找到符合该关键词的所有相关嘲 页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数 值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页 面内容摘要等内容组织起来返回给用户。从根本上讲,搜索引擎的质量体现在查渤? 。玳 序列上。 搜索的最终目的是获取需要的信息,在大量的信息中进行查找是很讨厌的一件事 情,很难做到令人满意。即使是在现实生活中,面对一大堆自己辛辛苦苦找来的资料时, 你往往会发现并不是所有的资料都有用。目前搜索引擎所实现的只是通常意义上的午1 关 信息搜索,常用的相关信息查找方法有相似性函数法、归类( 组) 法等,因此在向用户腱 现搜索结果时对各个结果进行的相关排序就显得尤为重要。 2 2 主题c r a w l e r 简介 2 2 1 主题c r a w l e r 的特点 主题搜索引擎与通用搜索引擎有所不同,主题搜索引擎足以构筑某一专题或学科钡 域的i n t e r n e t 网络信息资源库为目标,智能地在互联网上搜集符合这一专题或领域需 要的信息资源,能够为包括学科信息门户、专业信息机构、特定行业领域、公司信息中 7 中国民航大学颐卜学位论文 心、行业专家等等在内的信息用户,提供整套的网络信息资源开发方案。这些羞异决定 了主题c r a w l e r 虽然在实现原理上与通用c r a w l e r 基本相同,但是在以下几个方面需要 更进一步的工作: o 以一定的启发式搜索策略算法控制信息资源的搜集。w w w 是一张巨大的信息州, 如何引导c r a w l e r 在这张网中漫游,有目的、有控制地收集与特定领域相关的信息是- 个关键问题。为达到这个目的,主题c r a w l e r 通常采用某种启发式搜索策略算法,根掘 用户设置的主题导向词或主题表示模型,以启发式函数计算每个u r l 的权值,并选择权 值高的u r l 优先访问。 o 对网页进行主题过滤。网络上的w e b 信息是海量的,往往希望搜集的只是其中很 少的一部分信息,而大量的都是与主题不相关或相关性较低的信息。所以,主题c r a w l o r 通常对网页需要进行主题过滤,滤除不相关信息。 0 寻找和发现高质量网页和关键资源。关键资源:是指一个包含许多指向指定卡题 的链接的网页。高质量网页:是指内容是指定主题的网页。由于网页信息分布通常呈现 不均匀性。通常,指定主题的关键资源总是链向高质量网页。寻找和发现高质量网页和 关键资源不仅可以大大提高主题w e b 搜集的效率和质量,还可以为主题表示模型的优化 等应用提供支持。 0 信息的定制。由于面向主题的搜索是面向用户搜集某一领域的信息。搜集的信息 应该满足用户的要求。信息定制就是让用户定制自己想要找的内容,通常有给出分类体 系,关键词,初始网站和网页例子等形式。 2 2 2 主题c r a w l e r 的分类 根据搜集主题的范围和规模,面向主题的w e b 信息搜集可划分为广泛主题的w e b 信 息搜集和具体主题的w e b 信息搜集“”。广泛主题是指那些涵盖面较宽,并且和其它主题 相比具有较强独立性的一类主题。广泛主题的w e b 信息搜集也称作领域w e b 信息搜集。 用户在搜集这类主题时,往往没有太具体的明确要求,这类信息提取所需要提取的w e b 页面数量较多,为了达到较高的召回率,在进行u r l 主题相关性剪枝过滤时所没的脚以 较低,限制条件较宽。同时它搜集的页面内容种类相对较杂,搜集页面与主题的平均相 关度也相对较低。 与之相对应,具体主题的w e b 信息搜集涵盖面较窄,意义也比较明确,搜集页面的 数量也较少。这类搜集一般直接服务于用户。它在进行u r l 主题相关性剪枝过滤时候所 设定的闽值较高,限制条件比较严格。这类信息搜集对用户来说具有更强的针对性,提 供的是主题相关度很高的页面。 根据在w e b 信息搜集时能否指定主题,面向主题的w e b 信息提取可以分为固定手题 的w e b 信息搜集和可变主题的w e b 信息搜集。 固定主题的w e b 信息提取不能对搜集的主题进行变更。因此,它一般面向广泛手题 中国民航人学硕e 学位论文 的提取,并且搜集的主题具有较强的代表性和使用价值。这类w e b 信息搜集一般应用于 领域搜索引擎中,不直接面向用户。通过领域搜索引擎的索引和后期处理,以类似r 1 j 户搜索引擎的服务方式向用户提供服务,所提供的页面内容比面向整个w e b 信息搜集的 页面内容具有更好的主题特性。在大多数情祝下,领域搜索引擎要比门户搜索引擎有着 更好的主题搜索效果。 相对地,可变主题的w e b 信息搜集是指用户可以对搜集的主题进行自定义设置。这 类w e b 信息提取系统提取的主题大多比较具体,所提取页面的数量也较少,提供给几j ,、, 的操作方式也相对灵活。 2 2 3 主题c r a w l e r 结构 目前主流的主题c r a w l e r 系统主要包含如图2 - 2 所示的五个模块: o 下载器用来下载w e b 上的信息。它从待抓取u r l 队列获取u r l ,为了保证下载速 度,通常会采取分布式和多线程的并行下载技术。 0 预处理器处理下载到的资源。它的功能包括( 1 ) 决定提取到的数据的类璎:( 2 ) 解 析下载的超文本;( 3 ) 提取文档中的超链接及一些特殊的结构。并把提取出来的链接文 本结构等信息送入链接价值计算器。 0 链接价值计算器计算每个链接的优先值,作为度量链接重要性及相关性的依抛。 o 链接优先权控制器按非贪婪策略选择链接存入待抓取u r l 队列并按照链接优爿:m 排序。 o 页面相关性过滤器根据网页结构及内容计算与主题的相关性,过滤不相关的嘲 页,并把结果格式化后交由索引部分处理。 图2 - 2 主题c r a w l e r 系统结构 不同的主题c r a w l e r 根据所采取的具体技术不同,以上五个模块的组成结构会肯所 相同,但是五个模块的功能在主流主题c r a w l e r 中都会得到实现。主题集也是 题 c r a w l e r 的一个必需,其构建方法通常和各模块实现所采取的技术紧密相关,其质量会 9 中国民航大学硕t 学位论文 对整个c r a w l e r 的性能产生重大影响。 2 3 主题c r a w l e r 关键技术点 2 3 1 主题描述 主题描述是指对主题的量化表现,即通过一定的方法和模型将抽象的主题概念表达 为可量化计算和对比的表现形式。主题描述是主题信息搜集的基础,因为主题c r a w l e r 是通过判断w e b 信息是否与搜集主题相关来筛选所需的,主题描述的精确度直接影像荇 搜集信息的质量。目前通用的主题描述方法是选取一定的主题样本并基于一定的数学模 型对其进行样本分析和特征提取,从而建立相应的主题特征描述。 当我们要完整的表现一类主题信息在互联网上的特征的时候,最珲想、最彻底的力 法是将网上的所有信息考察一遍。但这显然是不现实的。通常,我们只能取一个样本宅 间来进行研究。具体来说,样本空间就是网页总体集合的一个子集,对应于若干特定网 站中的若个特定网页“”。为了有效的对主题特征进行描述,样本空间的选取要最大可能 的做到覆盖范围广且有代表性。 目前,面向主题的信息采集主要用三种方法进行主题描述样本的选择:首先,可以 在网上许多分类目录站点例如y a h o o ,y e l l o wp a g e s 等的主题分类目录中选取自已所j i 的主题样本;其次,对第一种方法获取的主题样本进行人工或机器选择,以使得它们能 够更完整准确地满足主题信息搜集的需求:第三,如果以上方法提供的主题样本不能伞 面完整地满足主题搜集的需求,或者主题分类目录中没有所需要的主题,则需要对主题 词和主题样本进行自定义,例如通过搜索引擎和人工筛选的方法进行确定等。 用于主题描述的数学模型是多种多样的,其选择需要满足系统采用的主题耵j 笑,州 断算法的需求。相关性判断算法会将待判断文本进行文本分析和信息提取,并据此创建 算法设计的文本表达模型,利用此表达模型和主题描述计算出文本的主题相关度,从而 判断文本是否与主题相关。所以系统使用的相关性判断算法中提取信息的种类、方法以 及文本表达模型,通常也会使用于主题描述。 2 3 2 相关性判别算法 主题c r a w l e r 系统最基本的功能点就是在搜集的同时要对待抓取的u r l 进行主题竹j 关性剪枝和排序,对提取到的页面进行主题相关性过滤,而完成这些任务的核心问题就 在于页面、u r l 的主题相关性判别算法的使用。目前,相关性判别算法的研究主要呵以 分为三个大类:1 ) 基于链接结构分析的判别;2 ) 基于页面语义内容的判别;3 ) 基于网虹 标签信息的判别。 1 0 中冈民航大学坝 学位论文 2 3 2 1 基于链接结构分析的判别 链接结构分析是指通过对w e b 页面之间相互链接关系的分析来确定w e b 重要性和相 关度的方法。w e b 是一个超文本集合,页面和页面之间通过超链接( h y p e r l i n k ) 相连,超 链接所在的网页是该超链接的起始网页,而该超链接的u r l ( u n i f o r mr e s o u r c el o c ;- l o l , 统一资源定位符) 所指向的网页是该超链接的终止网页。w e b 虽然是一个分散的 ( d e c e n t r a l i z e d ) 信息网络,但大量研究表明,w e b 的链接结构具有自组织性。w e b 的这种自组织性为链接结构分析提供了依据,链接结构分析基于以下一个或二个假 设: 0 从页面a 到页面b 的一条超链是页面a 作者对页面b 的一种推荐和赞许( 意味借 权威性或质量) ; o 若页面a 与页面b 被一条超链链接,则它们可能有相同或相近的主题( 意味着相 关性) 。 w e b 超链结构分析算法可以用来提高搜索引擎的查询效果,可以发现因特网上的照 要社区,可以分析某个网站的组织结构和权威性,可以用来实现文档的自动分类。当然, 链接并不都是完全可靠,可以用以进行价值判断的,超链接中也有纯粹起导航作用的喊 者是广告链接,或者有时链接可以表示不赞同,或者有时为了达到某种目的而添加的欺 骗性链接。为了准确和有效地评估链接,在进行具体的算法分析之前需要识别和去除“噪 音”链接1 。 目前w e b 超链分析算法主要有两种:基于随机漫游模型的p a g e r a n k 算法和基于h u b 和a u t h o r i t y 相互加强模型的h i t s ( h y p e r l i n k i n d u c e dt o p i cs e a r c h ) 算法。 p a g e r a n k 超链分析算法是g o o g le 搜索引擎采用的页面排序算法。“2 “,近年束也傲 应用于c r a w l e r 对链接重要性和相关性的评价。”。其基本思想是:一个页面被很多页 面所链接,则这个页面很可能是重要的;一个页面虽然没有被很多页面所链接,但被一 个很重要的页面链接,则这个页面也可能是重要的:一个页面的重要性通过超链接传递 到它所链接的页面。算法中,页面的价值通常用页面的p a g e r a n k 值表示,采用如下公式 计算: p r ( j ) :( 1 一d ) + d 登,p r o ( 2 1 ) k l p j惕 其中,册f 一和朋( 分别代表第j 个和第个网页的p a g e r a n k 值;y 只取0 、l 值,代表从网页i 到网页是否存在链接;力,代表网页j 有多少个连向其他网页的链接; d 为衰减因子( 通常设为0 8 5 ) 。选择合适的初始数值,递归的使用公式2 1 ,即可计算 出网页的p a g e r a n k 值。 i b m 研究院c l e v e r 系统中的相应技术称为h i t s 算法4 “。h i t s 方法定义了两个 重要概念:a u t h o r i t y 和h u b 。a u t h o r i t y 表示一个权威页面被其它页面引用的数赜, 中国民航大学硕l - 学位论文 即该权威页面的入度值。网页被引用的数量越大,则该网页的a u t h o r i t y 值越大:h u b 表示一个w e b 页面指向其它页面的数量,即该页面的出度值。网页的出度值越大,其 h u b 值越高。由于h u b 值高的页面通常都提供了指向权威页面的链接,因而起到了隐含 说明某主题页面权威性的作用。 h i t s 方法对每个已访问页面计算其a u t h o r i t y 权重和h u b 权重,并以此决定链接 的价值。设页面p 的a u t h o r i t y 权重和h u b 权重分别为月帅嘲它们分别按下列迭 代公式计算: 彳 尸】= 研g 】 ( 2 2 ) 磊 h i p = 饥9 1 ( 2 3 ) 口e f 其中。f 为所有指向页面p 的页面集合,f 为被页面p 中的链接指向的页面集合。 2 3 2 2 基于页面语义内容的判别 最好的页面主题相关性判别方法还是从基于语义理解的方面着手解决,尽管这样做 往往要花费更高的计算代价。从目前应用的实际情况来看,文本的主题相关性判别方法 仍然是基于关键词的“”,主要有全文本扫描,布尔模型,向量空间模型,统计模型等, 这些方法均是信息检索领域中的经典方法。 o 全文本扫描:对于信息检索来说,要确定某个搜索串的位置,最简单直接的办法 就是进行全文搜索,即从头至尾扫描文本,检查目标串是否存在于文本之中。相心地, 要确定页面是否主题相关,最简单的方法也是进行全文本扫描。在进行分词、去除停用 词、词根还原等处理步骤后,检索主题关键词是否都在页面内容中出现。如果出现则表 示相关,否则为不相关,主题关键词出现的频率越高,页面的主题相关度越大。 o 布尔模型:布尔模型是建立在集合理论和布尔运算上的一种计算模型,该模型足 信息检索系统和数据库系统的查询构建基础。在布尔模型中将主题等价表示为由“与 ( a n d ) ”、“或( o r ) ”、“非( n o t ) ”连接起来一系列关键词,只考虑每个关键词是否出现在 文档中来进行页面相关性的判断。 o 向量空间模型:向量空间模型是通过利用向量空间的数据表示和几何运算解决卡 题相关度表示和相似度度量的问题。该模型是s a l t o n 等人于上世纪6 0 年代末提出的, 是一种简便高效的文档表示模型。在向量空间模型中,不仅可以通过计算向量自j 的距离 来表示文本间的相似度,也可以利用贝叶斯算法、k n n 算法( k 一近邻算法) 、支持向f i : 1 等算法进行文档的相似度判断。 o 统计模型:利用统计模型进行相关性判定,需要进行主题特征词词典的建立。首 先通过对样本网页进行分析,统计其中出现过的关键词,建立关键词词典,根据每个列 在网页中的出现次数,出现位置来计算它的权值,最后,由这些信息,综合多个网页,来 确定该主题的特征词词典,以及特征词的权值。当进行相关性判断时,根据页面中特征 1 2 中国民航大学硕卜学位论文 词出现的统计学特征进行主题相关度的计算。 2 3 2 3 基于网页标签信息的判别 网络上的w e b 信息一般是以h t m l ( h y p e r t e x tm a r k u pl a n g u a g e 超文本标记语言) 形式存在。h t m l 是一种结构化的标记语言,它含有功能丰富的标签( t a g ) 和属性定义, 主要用于定义文档的标题、字符集等属性信息,控制文本的显示格式和表现效果,以及 引入超链或各种媒体等。其中常应用于相关性判别的主要有网页元数据和超链接标签腻 性等信息。 元数据( m e t a d a t a ) 是指关于数据的数据,用于对数据信息的内容、质量以及其它特 征进行描述。其在网页中表现为h t m l 规范从2 0 版本开始引入的 标签,通常表 达形式为: 。由于m e t a d a t a 中包含着网页信息的 特征描述,其对于主题相关性判别是很有用的,事实上,已经有一些系统在尝试使用 m e t a d a t a 信息来对u r l 的主题相关性进行预测1 。 但是问题在于,为w e b 页面指定元数据标准是一项十分困难的任务,因为w e b 所涉 及的学科领域、语种、国家地域、文本种类都非常多。虽然在各学科专有属性的确定以 及各属性有效范围的定义方面存在着不少提案,但是并没有达成一个普遍接受的标准。 另外,利用m e t a d a t a 信息需要人们事先按照标准书写h t m l 页面,这就增加了页丽的1 i 作代价,而人们往往习惯了原来的编写方式,很难遵照m e t a d a t a 标准。因此,元数据 通常作为辅助信息参与主题相关性判断。 链接标签信息是指链接标签属性、链接文本、链接上下文文本等数据,统计分析表 明,链接标签的h r e f 属性和t i t l e 属性、链接文本和链接上下文文本在w e b 中分布最 为常见。为了估算链接所指页面与主题的相关性,常见的方法是判断在u r l 、链接文木 ( a n c h o rt e x t ) 、链接标题( a n c h o rt i t l e ) 和链接上下文文本中是否包含主题关键:# 束 计算相关性权重值。考虑到自然语言中常见的词性近似现象,因而,还需要考虑近义词 的情况。 2 3 3 性能优化技术 在主题c r a w l e r 的相关

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论