已阅读5页,还剩54页未读, 继续免费阅读
(计算机科学与技术专业论文)基于页面分析的主题网络爬虫的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
武汉理工大学硕士学位论文 摘要 随着互联网上w 曲资源的迅猛增长,在庞大的互联网上,快速准确全面地 找到与用户查询主题相关的信息变得越来越难。人们对检索质量和速度的要求 越来越高,由于传统的全网网络爬虫爬取的主题范围过于广泛,信息的及时性 及与主题的相关性都无法保证,导致其检索结果的时效性、准确性及检索效率 都不尽人意,已满足不了特定领域用户的精确搜索的需求。为此,本文展开了 对高页面时效性、高内容相关性的主题网络爬虫的研究。 本文对目前存在的网络爬虫的种类、原理及发展状况进行了研究,对比分 析了通用爬虫和主题爬虫的结构及工作原理,展示了主题网络爬虫的各项优势。 本文通过对知网的语义分析及语义相关性理论的研究和对传统向量空间模 型的分析,针对原有的页面内容与主题的相关性判定算法存在的缺陷,提出了 一种基于页面分析的主题网络爬虫。该主题爬虫摒弃了传统主题爬虫在关于页 面与主题相关性判定所采用的传统向量空间模型算法,采用了结合知网提 出的具有语义分析功能的基于w 曲页面特点的改进向量空间模型算法,实验表 明该模型在进行页面内容与主题相关性判定过程中起到了有效作用。 本文的重点是研究基于页面分析的主题网络爬虫的页面过滤算法。它采用 知网语义分析技术和向量空间模型相结合的方法对传统的页面与主题相关 性判定算法一向量空间模型( v s m ) 进行改进。改进后的算法利用知网 进行词义消歧,相关度计算以及主题文本义原集的提取,同时考虑到w 曲网页 的半结构化特点,即w 曲网页上不同位置的文本特征项对整个w 曲页面主题内 容的表达能力是不同的,引入了适应w 曲页面结构的位置权重,采用多层向量 空间模型将w 曲页面划分成n 层结构,不同层次的文本结合其位置权重分别计 算与主题的相似度。该算法在加入语义分析的基础上更适合于主题爬虫的w 曲 页面的相似度计算,对主题网络爬虫抓取页面的准确率、页面利用率及爬虫的 效率上都有所提高。 关键词:网络爬虫,主题,向量空间模型,相关性 塑堡堡王奎兰堡圭堂垡堡垄 一一一一 ,_ - - - _ ,_ - _ _ - _ 一一一 a b s t r a c t a st h er a p i dg r o w t ho fw e br e s o u l c e si nt h ev a s ti n t e n l e t ,i tb e c o m e sm o r e a i l d m o r ed i 伍c 1 j 1 tt oq u i c l 【l y 锄da c c u r a t e l y s e a r c l lt h ec o m p r e h e l l s i v ei n t o m l a t l o n r e l e v a n tt ot h et h 锄eu s e r sq u e 哆a sm eq u a l i t ya n ds p e e d o ft h es e a r c hb e c 伽e i n c r e a s i n 西yd 锄锄d 岵孤d 缸a d i t i o n a l e i l t i r ew e bc r a w l e rc r a w l i n gs u b j e c ts ob r o a d t h a ti tc 锄,tg u a r a n t e em et i l 【n e l i n e s sa n dr e l e v a n c eo ft h ei n f b 咖a t i o n ,r e s u l t i n gm l t c a i ln o tm e e tt h eu s d se x 础s e a f c hr e q u i r 锄e n t si ns p e c i 6 ca r e a sb e c a u s eo f t h e u n s a t i s f a c t o n rt i m e l i n e s sa 1 1 da c c u r a c yo f i t sr e 5 u l ta n ds e a r c he 衢c i e n c y t h u s ,w e g e ti n t 0t h er e s e a r c ho nt 0 p i c 嘶e n t e dw 曲c r a w l e rw h i c hc 锄h i 曲1 y e l l s u r et h e t i m e l i n e s s ,r e l e v a l l c et o 洲e c t a r e rs t u d 埘n gt 1 1 et y p e s ,w o r k i n g 研n c i p l e 觚dd e v e l o p m e l l t o ft h ee x i s t i n gw 曲 c m w l 盯i nt h ew o r l d ,t h i st h e s i sc o m p a r e sa n da n a l y s e st h es 缸1 l c t u r ea n dw o r k l n g p d n d p l eo ft l l e 仃a d i t i o n a lw 曲c r a w l e ra n dt o p i c 一嘶跚t e dw e bc r a w l t h 朗s h o w s m ea d v a n t a g e so ft o p i c - o r i e n t e dw 曲c r a w l e ra g a i f l s tt l l e t r a d i t i o n a lw 曲c r a w l d s 沁e r 铋td 积s a s 咖蛳n g 狃da n a l 蜘n gt h eo l dv e c t o rs p a c em o d e l ( v s m ) a n d t h e0 1 da l g o n t h ma b o u tc o m i ) u t i n gt h er e l e v 锄c eo ft h ep a g ec o n t i m t 狃d 也es u b j e c t , t l l et h e s i si n t r o d u c e s h o w n e t ”s 伽a n t i cr e l e v 锄c ea 1 1 ds e m a n t i c 锄a l y s i st h e o r y 孤d m e i lp r e s 棚t san e wa d v 锄c e dv e c t o rs p a c e m o d e lb a s e do ns e m a n t i c 趾a l y s l s 锄dt h e c h a r a c t e f i s t i cw e bp a g es m l c t i l r e 1 1 h et h e s i sf o c u s e so nc o m b i n i n ga 1 1 di m p r o v i n gs e m 枷i ca n a l y s i s 锄d v s m i t c o n l b i n e sw o r ds e n s ed i s a h l b i g u a t i o n ,r e l e v a i l c ec o m p u t e a l l ds 锄锄es e te x t r a c t l o n o ft h ep a g et ov s m ,m e 卸w l l i l e t 1 1 et h e s i sa l l a l y s e st h es e m i s 仃u c t i l r e dw e bp a g ea n d p o 豳0 u tt h ef e a 帆i t 锄s i nd i 虢r e n tp o s i t i o no f m ew 曲p a g eh a v ed i ta b i l 时 t oe x p r e s s 也ep a g ec o n t e n t ,t h e i lan e wa d v 觚c e dv s m b a s eo nw 曲p a g ei s 艄e n t 吐w h i c ho p o s i t i o nv a l u e 觚dm l l l “l a y e rv s m t op 枷t i o nt h ew 曲p a g e i n t onp a r t sa 1 1 dr e s p e c t i v e l yc o m p u t em er d e v 锄c ew i t hp o s i t i o nv a l u e t h en e w m o d e l 诵ms 锄a i l t i ca 1 1 a l y s i si sm o r es u i t a b l ef i o rc o m p u t i n g r e l e v 锄c eo fw e bp a g e i nt o p i c o r i e i l t e dw 曲c r a w i w h i c hi m p r o v e sm ea c c u r a c y u t l l l z a t l o n a i l d e f f i c i e i l c vo ft i l ec r a w l 瓯 k e yw o r d s :w 曲c m w l 钒t h 锄e v s m ,r e l e v 勰c e 独创性声明 本人声明, 所呈交的论文是我个人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得武汉理工大学或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示了谢意。 研究生( 签名) :邀! 兰叁日期:趔 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的 全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制 手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有 关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息 服务。 ( 保密的沦文在解密后应遵守此规定) 研究生( 签名) :珏巫导师( 签名) 武汉理:j 二人学硕十学位论文 第1 章绪论 w 曲信息的急速膨胀,使得互联网上的信息丰富繁多,人们享用着丰富资 源的同时,也被大量不相关的信息困扰着,人们对搜索专业性、准确性、高效 性、时效性等要求越来越高,而传统搜索引擎的索引规模、更新速度和检索质 量等也已满足不了人们同益增长的个性化检索需求l l 】。为满足搜索需求的多样化 和个性化,基于主题的搜索引擎为开始成为人们研究的热点,其通过语义信息 分析来提高检索的查准率,通过高效的刷新率来提高w 曲信息的时效率,为特 定人群使用专业主题检索提供了有效的工具。而作为主题搜索引擎的基础组成 部分,基于特定主题个性化搜索的网络爬虫的研究也有着重要意义和价值。 1 1 课题的研究背景和意义 随着互联网技术的发展和普及,w 曲资源呈爆炸式增长,网页成为人们日 常生活中获取信息的重要来源。根据。蝌i c 于2 0 0 9 年1 月发布的中国互联 网发展状况统计报告中的数据指出,截止到2 0 0 8 年底,i i l t e n l e t 上仅中国的网 页数量就己经超过1 6 0 亿,较2 0 0 7 年增长9 0 ,上网用户数量超过2 9 8 亿【2 1 。 网络资源繁多且具开放性、动态性和异构性等【3 】,无法进行统一管理,这使得人 们想要快速准确地查找到所需信息成为难题,搜索引擎的出现大大解决了人们 这一烦恼,随着用户的增多,搜索引擎也成为人们在互联网上获取信息最常用 的工具。 为了解决网上资源繁多检索困难的问题,人们在信息检索领域进行了大量 的研究和实验,成功开发了各种搜索引擎( 如g o o 西e 、百度、y 抽o o ) 。这些搜 索引擎通常向用户提供两种查询信息途径,一是关键词检索,二是分类目检索【4 】。 关键词搜索只机械地对用户提交关键词进行匹配搜索,它所搜索的信息是一个 无秩序的信息库,并不对这些信息进行有效且准确地自动分类,搜索结果中包 含了大量的无用信息,而真正有用信息却被淹没在成千上万的结果中不易发现, 用户在使用时还需要重新组织成自己需要的信息,这种查准率低、信息冗余量 大的缺点使用户难以忍受【4 j 。分类检索是以分类目录浏览方式提供信息检索途 径,即把各类信息分门别类放入分层类目下,用户层层选择,逐渐缩小检索范 围,这类搜索引擎多采用人工类目分类,如鼬0 0 、搜狐、新浪等门户网站【5 】。 武汉理工大学硕士学位论文 但是它们也同样存在重复信息、信息冗余量大等缺点。因此,为了提高检索质 量,需要对有用信息进行筛选和相似度排序。这些搜索引擎的原理都大致相同, 由三个功能模块组成,即网页搜集,预处理和查询服纠6 】。网页搜集就是信息采 集的过程,由网络爬虫( c r a w l e r ) 或网络蜘蛛( s p i d e r ) 在i n t e m e t 上爬取各种 数据信息,通过w 曲页面之间的链接关系,从w 曲上自动地获取页面信息,并且 随着链接不断向所需要的w r e b 页面扩展的过程【4 j 。预处理则是对抓取下来的网 络资源建立索引并形成索引库,方便用户检索时根据提交的检索条件从索引库 中迅速找到相关信息,即为查询服务。 作为搜索引擎的基础组成部分,网络爬虫在w 曲信息采集中起着关键的作 用。简略地讲,网络爬虫主要是个w 曲应用程序,该应用程序从人工给定的 一个初始的u r l 集合出发,根据u r l 获取其所指向的页面,存入页面库中, 同时从这些已获取的页面中提取出新的u r l 链接,将u r l 全部放入待提取u r l 队列中,下一次抓取页面时就从这个队列中按一定顺序提出u r l 进行爬行,重 复上述过种,直到达到某一预定条件时停止抓取。 传统的网络爬虫的特点是尽可能多地抓取信息页面,甚至是整个w 曲上的 资源,它希望通过索引尽可能多的抓取信息页面资源来满足不同用户的查询需 求,而并不太在意抓取的顺序和被采集页面的语义信息【_ 7 1 。这样的好处是能够集 中精力在抓取的速度和数量上,并且实现简单。但这传统的网络爬虫在w 曲信 息爆炸性增长的同时,各种问题和缺陷也随之而来,如爬取速度和采集覆盖率。 网络爬虫的爬取速度受到硬件资源的制约,要想提高爬取速度和采集覆盖率, 只能采用高处理能力的计算机系统,或者采用并行爬行的方式,然而硬件的提 升带来的是性价比的降低,并行式爬行的设计难度大、开销大,其带来的改善 效果并不理想【3 j 。网络爬虫必须经常刷新采集到的数据来保证采集到的页面的 “新鲜度”,而i n t e n l e t 上信息分散,信息资源时刻都有可能变化,要避免采集到 的页面失效对传统网络爬虫来说是一个巨大挑战。传统网络爬虫由于采集到的 页面数量庞大,待刷新的页面数量也一样巨大,刷新一遍页面所需时间往往很 长,可能当页面刷新还未完成,页面已经失效,页面失效率很大。降低页面失 效率的办法就是减少采集页面的数量,缩短刷新的时间。 减少采集页面数量并不是盲目减少,整个w 曲上的信息资源浩大,而它们 中有相当大一部分是用户不关心的,实际上,全网采集消耗的系统和网络资源 并没有换来采集到页面的较高利用率,这是对资源的浪费。而用户关心的页面 只在整个w 曲中极少一部分,并且往往集中于某个主题,网络爬虫爬取到的 2 武汉理:r :人学硕士学位论文 大部分页面对他们来说是没有用的。为了避免这种系统和网络资源的浪费,要 有效地提高采集页面的利用率,就要从另一个角度改善目前的困境。对于每一 个用户而言,他们查询的内容都可以归于某一个分类,若将整个w 曲进行分类, 按分类后确定的主题来采集信息,再将每类主题采集的结果整合到起,形成 基于主题的信息检索系统,这样基于某一主题的网络爬虫爬取的页面数量显著 减少,爬取的速度和页面刷新率也会提高,用户在该主题下的检索对采集到页 面的利用率也大大提高,而整合后的网络爬虫也逐渐覆盖整个w 甜引。这样上述 问题都得到有效缓解,本文基于此开展基于主题的网络爬虫的研究。 1 2 网络爬虫概述 本节主要讲述网络爬虫的基本情况,包括网络爬虫的基本原理、结构。主 要介绍通用的网络爬虫,它比较具有代表性,可以体现网络爬虫的本质和共性 特征,对于其他类型的网络爬虫将在下一节中讲述。 1 2 1 网络爬虫的基本原理 网络爬虫也常称作网络蜘蛛w 曲s p i d e r ,w 曲c r a w l e r ,w 曲r o b o t 或 w 曲w 6 皿,通常利用u r l 和w 曲文档检索方法遍历i n t 锄e t 的软件程序都称为 网络爬虫。它是一个能够自动从m t 哪e t 上提取网页下载到本地的程序,它从预 定的u r l 开始遍历w 曲空间,从一个网页链到另一个网页,获取已抓取页面上 的链接,并为遍历过的网页建立索引,并将页面和索引存储在数据库中,再遍 历抓取的新链接,重复这一过程,直到网络爬虫根据自己的采集策略停止爬取【8 】。 这一系列过程都由网络爬虫自动完成,无需人工干预。 通用网络爬虫为了尽可能多地抓取网页,获取较高的w 曲覆盖率,常采用 宽度( 广度) 优先策略遍历整个w 曲。宽度优先策略是图搜索算法的原型,是 沿树的宽度遍历树的节点,爬虫在抓取过程中,完成当前层次的爬取后才进行 下一层的抓取,是盲目的没有选择性的抓取。其在爬行过程中不太在意采集顺 序和网页的语义,不对网页内容进行相关分析,将所有页面保存下来,不对页 面进行筛选过滤。这必然会采集到很多无用或无意义的页面,已采集页面的利 用率降低的同时浪费了网络带宽和系统资源,爬虫的采集效率得不到提高f 3 1 。而 有些网络爬虫还会对采集到的页面及其中的链接进行语义分析,进行与主题相 关性的筛选,有选择地抓取“有用”页面,保留下满足条件的页面和链接进行 3 武汉理t 大学硕七学位论文 下一次爬取,这种网络爬虫的原理、结构特点及优势将在下面章节详细讲述。 1 2 2 网络爬虫的基本结构 网络爬虫是搜索引擎中最基础的部分,搜索引擎使用的资源都源于网络爬 虫采集到的页面,网络爬虫的性能直接影响搜索引擎的质量。通用网络爬虫基 本流程如图1 1 所示。 是 , 图1 一l通用网络爬虫基本流程图 通用网络爬虫的结构如图1 2 ,主要由页面采集模块,页面分析模块,链接 过滤模块,种子u r l ,页面库和待采集u i u 队列等,简述主要部分的功能【9 j 。 图1 2 通用网络爬虫结构图 4 武汉理工大学硕士学位论文 1 ) 页面采集模块:该模块是根据种子u r l 或u r l 队列中的链接访问到 i n t e m e t 上的各种资源,并通过w 曲协议将其采集下来保存,以供后续模块处理。 这个阶段保存下的页面是未经过处理的,页面内容和页面上的链接还未分离。 2 ) 页面分析模块:该模块是将页面采集模块过程中保存下来的页面进行分 析,抽取页面中的链接,并对其进行相应处理,规范化u r l ,以供链接过滤模 块使用。例如,对u r l 相对路径进行补全,然后过滤掉队列中已有的u r l 以 及循环u r l ,再将剩下的u r l 加入到待采集u r l 队列中。 3 ) 链接过滤模块:该模块是将页面分析后产生的超链接进行过滤,去掉待 采集u r l 队列中已经存在的链接,然后放入待采集u r l 队列中。 4 ) 页面库:用来存储已经采集下来的页面,这是网络爬虫在搜索引擎中最 终完成的任务,为检索操作提供素材。 5 ) 初始u r l :这是预先设定的一定数量的u r l ,做为种子u r l 启动爬虫。 6 ) 待采集u r l 队列:用存放采集到的页面分析后抽取出来的新u r l ,供 页面采取模块循环访问,直到u r l 队列为空或某一采集策略的条件满足,爬虫 程序终止。 1 3 网络爬虫研究现状 网络爬虫主要是用来采集w 曲页面,传统的网络爬虫是单纯的基于整个w 曲 的采集页面的,在采集过程中并不对采集到的页面进行语义分析、分类,也不 对页面上链接进行相应处理,其实现起来较容易。网络爬虫发展到现在形成了 可满足不同需求的多种网络爬虫。本文对其进行归纳,大致有以下几种类型: ( 1 ) 通用网络爬虫 这最早出现也是目前主流的网络爬虫,它是基于整个w 曲来采集页面的, 其目标是尽可能多地获取w 曲上信息资源,它是通用搜索引擎的数据收集部分, 随着网络资源的膨胀,大量新的信息不断产生,由于采集规模的巨大,系统的 开销和设计的复杂度大大增加,而爬取速度和覆盖率并没有因并行采集器的增 加而显著提高,具对全网进行一次完全刷新的代价也是巨大,系统性能提升的 空间越来越有限,性能瓶颈不断出现【引。 由于爬取网页过程中没有对页面和链接进行相关性判断和语义分析,属于 广泛主题的采集,因此只适合于广泛主题的搜索引擎,如当前流行的百度,g o o 酉e 等。 5 武汉理f 人学硕士学位论文 ( 2 ) 增量式网络爬虫 增量式网络爬虫与传统网络爬虫的区别在于对已抓取页面刷新的过程,增 量式网络爬虫只对那些发生了变化或新增加的页面进行抓取,对没有更新变化 的页面不进行采集,这种采集方式极大减小了周期内采集页面的数量,进而节 约了时空开销,目前流行的搜索引擎大都采用增量式网络爬虫。 ( 3 ) 主题网络爬虫 这种网络爬虫是有选择地采集信息,只搜寻那些与预定主题相关或相联系 的页面,这种网络爬虫的出现是由于传统检索系统对用户的检索需求没有分析 考虑,只机械式的进行关键词匹配,而同一关键词由于歧义性的存在,在不同 领域会有不同含义,即使有各种匹配程度的算法支持,仍无法按语义识别。为 此,针对用户在特定领域内检索的需求,主题式网络爬虫应时而生。与通用网 络爬虫相比,它只选择那些与特定主题相关的页面,而舍弃大量与主题无关的 页面,采集的页面数大大减少,所以极大地节省了硬件和网络资源,己采集页 面也由于数量少而刷新快,与特定主题相关使它的页面利用率极大提高,很好 地满足特定人群对特定领域信息的需求,成为近年来研究的热点,这也本文讨 论的重点。 ( 4 ) 基于a g e n t 的网络爬虫 a g e i l t 是一个能在特定环境中连续和自主地运行的软件实体,具有自主性、 反应性、合作性、学习性,能够自我学习、自行推理,对外界环境做出反应, 并自我调整以适应环境【3 】。利用a g e n t 技术方便灵活且适应力强的特性,美国 s t a n f o r d 大学研究了一种基于学习a g e i l t 的主题信息采集系统i m 。它使用向量空 间模型和t f i d f 算法来给发现的文本评分排序。 ( 5 ) 迁移的网络爬虫 迁移的网络爬虫在爬取页面时,并不向w 曲站点服务器发页面请求,而是 将自己上传到它所要采集的页面所在服务器中,在该服务器中进行采集,并将 采集结果压缩回传到本地,s p h i n x 信息采集器就是采用这种网络爬虫思想【1 1 1 。 ( 6 ) 基于元搜索的网络爬虫 元搜索引擎系统将用户提交的检索请求通过门户搜索引擎搜索,将结果整 合后提交给用户,用户最终看到的是统一的界面形式返回的结果。目前基于元 搜索引擎的网络爬虫已是一个研究热门,美国b i n g l l 锄t o n 大学的研究者对元搜 索引擎技术数据库选择问题进行了详细深入的研究【1 2 】【13 1 。 6 武汉理工人学硕士学位论文 1 4 网络爬虫面临的主要问题和解决手段 w 曲信息的特殊性使其与传统信息媒介有很大区别,如w 曲信息量巨大、 增长速度快、信息的内容与结构时刻变化、w e b 的异构性等特点,这些特点使 得网络爬虫面临以下几个主要问题。 ( 1 ) 抓取效率问题。w e b 网页数量以指数数量级增长,信息容量巨大,使 得网络爬虫不可能抓取到所有的w 曲页面,有限的存储空问也无法存放采集到 的所有页面,这些都超出了网络爬虫的处理能力,导致信息搜集不全面,覆盖 率低。在规定时间内抓取到尽可能多的高质量页面,是网络爬虫的主要目标。 ( 2 ) 并行爬行问题。页面的采集速度是衡量网络爬虫性能的重要指标,在 w 曲页面数量庞大和网络连接速度慢的情况下,要提高爬行的速度就要求网络 并行。但并行又带来了新的问题,一是当多个不同的网络爬虫同时采集的时候 会爬取重复页面,二是每个采集线程不能看到全局的最优页面,其采集到的页 面质量下降,三是采集线程间的通信问题1 4 】。 ( 3 ) 维护代价高。为了保持采集到的页面是最新的,系统必须对已采集的 页面定期更新,而页面数据越来越巨大,且索引库中留有大量参考价值不高的 页面,刷新速度慢,维护代价高。 ( 4 ) 用户个性化需求的满足。每个用户的兴趣爱好不同,即使提交的检索 条件相同其搜索目标也不相同,网络爬虫要根据每个用户的需求来抓取相关网 页,抓取过程中不能仅对关键词机械式的匹配,而要进行语义关联分析,才能 保证检索结果与用户需求之间的契合。 为解决上述问题,需要爬虫在单位时间内尽可能多且全面地抓取到与用户 个性化需求相关的高质量页面,这些页面相对于全网信息采集的信息量少了一 大部分,这样爬虫的抓取效率,对目标的覆盖率,页面的刷新率和利用率的提 高都不再是难以解决的问题。通用网络爬虫在采集页面时采取大而广的原则, 不考虑页面抓取的优先级,尽可能多地抓取页面,这样导致页面库中留有大量 参考价值不高的垃圾页面,而每次的页面刷新还要为这些垃圾页面浪费大量的 硬件和网络资源,页面利用率低,爬虫性能下降,由此可见,通用的网络爬虫 并不能解决上述问题,而主题网络爬虫的出现从根本上解决了以上爬虫的瓶颈 问题。 主题网络爬虫在爬取页面过程中对页面进行评分,其通过预测待已采集页 面上的u r l 与主题的相关度,按照相关度大小来采集资源,优先抓取与主题相 7 武汉理- t 大学硕士学位论文 关度高的页面,同时尽可能少的遍历与主题不相关的页面,有效地减小了爬取 范围,这样,爬虫每次采集的都是最可能与主题相关的网页,提高资源的利用 率1 5 】。有针对性地搜集一个领域的主题页面更具很强的目的性,集中深入对其 进行搜索能够更全面地发掘主题区域,提高主题覆盖率和准确率,搜集范围的 缩小可以减少存储空间和刷新时间,提高页面时效性,节约系统资源。 1 5 本文研究的内容及组织结构 1 5 1 本文研究的内容 本文对面向主题的网络爬虫进行深入地研究后,通过对知网语义分析 理论的研究及传统向量空间模型的分析,指出传统页面与主题相关性判定算法 上的缺陷,并针对这些缺陷提出了相应的解决方法,经理论分析和实验手段验 证本文提出的改进向量空间模型对主题网络爬虫采集准确率和效率上有所改 善。 本文的重点是主题网络爬虫中页面内容与主题的相关性判定方法的研究。 论文先指出传统的页面内容与主题相关性判定算法一向量空间模型( v s m ) 存在的缺陷:关键词出现频率的机械式匹配及忽略了w 曲页面的结构特点。针 对这些缺陷,本文将语义分析与多层向量空间模型相结合来改进页面内容与主 题的相关性判定方法,提出了一种改进的向量空间模型。该模型利用知网 对页面内容与主题进行语义分析,包括词义消歧、相关度计算以及文本义原集 的提取,并将页面的特征向量转化为与之对应的义原向量,从而计算带有语义 分析的义原向量间的相似度,这样的权重计算结果更贴近文本的主题语义,相 似度的准确度也有提高。同时该模型还考虑到w 曲页面特有的半结构化组织特 点( w 曲网页上不同位置的文本特征对整个w 曲页面主题内容的表达能力是不 同的) ,加入了适应w 曲页面结构的位置权重,即特征项在w 曲页面中的位置 权重,采用多层向量空间模型的概念,将w 曲页面划分成n 层结构,不同层次 的文本结合其位置权重分别计算与主题的相似度,然后合并不同层次与主题的 相似度结果作为整个w 曲页面与主题的相似度。最后用实验手段表明新模型在 加入语义分析的基础上更适合于主题爬虫的w 曲页面的相似度计算,对主题网 络爬虫抓取页面的准确率、页面利用率及爬虫的效率上都有所提高。 8 武汉理工人学硕士学位论文 1 5 2 论文的组织结构 第l 章:绪论。介绍本文研究内容的背景、意义及所做的工作,引出网络 爬虫的概念、原理及组成结构,通过分析现存的网络爬虫的种类及现状,提出 现阶段传统网络爬虫所面临的主要困难,并针对这些困难提出相应的解决手段, 从而引出本文讨论的重点内容一主题网络爬虫。 第2 章:基于页面分析的网络爬虫基本问题研究。根据主题网络爬虫的采 集方法,介绍基于页面分析的主题网络爬虫的工作原理及其与传统爬虫相比的 优势所在,最后介绍本文本提出的基于页面分析的主题网络爬虫的模型,给出 了该模型每一部分的介绍,并详细介绍了其中的页面分析和页面过滤模块,提 出利用一种改进的向量空间模型与知网语义分析相结合的方法对页面内容 与主题进行语义相关的相似度计算。 第3 章:基于知网的语义分析技术。介绍中国知网的相关理论,并结 合知网,提出了语义相关度计算原理及利用该方法实现词义消歧的过程,同时 介绍了主题文本集和主题关键词集的获取方法,以及利用知网进行主题义 原集的提取,最后简略讲述了计算词语相似度的算法。 第4 章:页面与主题相关性判定算法研究。介绍了传统的向量空间模型及 其存在的缺陷,针对此缺陷,先介绍了改进的思路,然后依此提出一种改进的 向量空间模型,并详细介绍该模型的计算原理,其利用基于w 曲页面结构的向 量空间模型与知网语义分析相结合的方法对页面内容与主题进行语义相关 的相似度计算。 第5 章:系统设计及实验。设计出基于页面分析的主题网络爬虫模型的部 分功能,并进行实验测试其性能,最后与通用爬虫、传统v s m 主题爬虫进行比 较并得出相应结论。 第6 章:结论与进一步工作。对全文进行总结,阐述本文的主要工作及结 果,然后指出本文需要改善的部分及进一步开展研究的方向。 最后是参考文献和致谢。 9 武汉理工人学硕十学位论文 第2 章基于页面分析的主题网络爬虫的初步研究 本章围绕主题网络爬虫的基本问题展开研究,根据主题页面在w 曲上分布 特征和主题网络爬虫的采集方法,结合知网的语义分析技术,提出了一种 基于页面语义分析的主题网络爬虫模型,本章内容包括主题网络爬虫的基本工 作流程、原理、优点,最后介绍基于页面分析的主题网络爬虫的系统模型,给 出了该模型每一部分的介绍,并详细介绍了其中的页面分析模块。 2 1 主题网络爬虫的采集方法 有专家研究表明,虽然i n t 锄e t 上的w 曲页面的分布从整体上看是无序的、 杂乱的、异构的,但同一个主题的相关页面在w e b 上的分布可能是系统化的, 存在一定规秽3 1 。许多网页都有指向其他网面的链接,这些链接看似是随意的, 但进一步研究后发现网页上放冠的链接大部分都不是随意放置的,而是链向与 该网页主题相关的一些网页,这样看来,w 曲上与同一主题相关的网页都趋于 相互链接,这就是w e b 上的主题局部性f m 。基于这种理论,a g g 删a l 提出了这 样的基于主题的网络爬虫采集方法: ( 1 ) l i n k a g cl o c a l i t ) ,即与某一主题相关的页面上的链接指向的页面也趋 向于与该主题相判1 6 j 。 ( 2 ) s i b l i n gl o c a l 时,页面上的某个链接指向某一主题页面,那么该页面上 的其他链接所指向的页面也与该主题相关【l6 1 。 主题网络爬虫正是基于这两种假设,在爬虫接到一个主题采集请求命令后, 它就从预行给定的关于这个主题的起始种子页面出发,依照两种假设爬行,在 搜集与主题相关的页面过程中,利用合理的u r l 剪枝策略及页面过滤策略,使 抓取到的页面更接近主题。 2 2 基于页面分析的主题网络爬虫的工作原理 主题网络爬虫并不像通用网络爬虫只简单地抓取页面,还要尽可能多地抓 取与主题相关的页面,这其中要涉及主题的选择、页面特征抽取及其与主题相 关性判定、语义分析等方面,因此,主题网络爬虫比通用爬虫采集页面过程复 杂,包括通用搜索引擎中网络爬虫和页面解析两个功能。 1 0 武汉理一f 大学硕十学位论文 主题网络爬虫在尽可能短的时间内选择性地抓取与预定主题相关的网页, 它从一个初始的u r l 种子集出发,根据一定分析算法判定u r l 指向的页面及 其上的链接的主题相关度,过滤掉相关度低的页面与链接,保留与主题相关的 页面和新的链接,页面存入主题页面库,链接放入待采集u r l 队列中,再从待 采集u r l 队列中根据设定的采集策略选择下一次要抓取的u r l ,重复以上过程, 直到爬虫根据自己的策略达到某一条件停止爬行,这一过程中不断从当前页面 抽取新链接放入u r l 队列中,所有抓取的页面被存贮在主题页面库中。主题网 络爬虫的工作流程如图2 1 。 图2 1 主题网络爬虫的工作流程 2 3 基于页面分析的主题网络爬虫的优点 w 曲结构越来越复杂,网页数量越来越多,传统爬虫对所有链接指向的网 页不加选择地爬取,其越发不可能遍历整个w 曲上的所有网面,并及时对其刷 新。而主题爬虫有选择的爬行符合预定主题的网页,分析每个页面的链接,并 通过相关性算法的计算预测链接指向的网页与主题的相关度,优先度高的链接 先爬行,舍弃与主题无关的链接。对主题的选择不仅可以用几个关键词表示, 武汉理工大学硕士学位论文 还可以自然语言、层次化分类等其它形式来描述【1 7 】。高质量的主题爬虫要在最 短时间内,尽可能多地爬取与主题相关的页面,尽可能少地爬行不相关的页面。 故主题爬虫可以在很大程度上节省硬件和网络资源,并能保证爬行网页的时新 性有效性。归纳一下主题网络爬虫的优点有以下几个: ( 1 ) 它从很大程度上缓解了信息采集刷新问题带来的瓶颈,主题网络爬虫 随着采集范围的缩小,采集页面数据大大减少,这样页面刷新的周期就变短, 页面时效性也极大提高,爬虫效率提高。 ( 2 ) 主题网络爬虫只有选择的抓取网页,在爬行过程中根据需要对u r l 进行剪枝,剪掉的u r l 数量巨大,使得剪枝后的u r l 数量远小于被采集的u r l 数量,这样过滤u r l 后采集到的页面有较高的利用率,能极大地节约硬件、系 统和网络资源,有效地提高了资源利用率。 ( 3 ) 主题网络爬虫采集的范围小,页面数据少,页面内容更有针对性,能 更深入挖掘与主题相关的页面,故其更灵活,更利于满足用户的个性化需求。 ( 4 ) 主题网络爬虫对主题页面的发掘能力更强,要比基于全网的网络爬虫 更能采集到更多更全面质量更好的页面,当多个主题网络爬虫整合起来共同协 作分类各个主题进行采集,则可提高整个w 曲的页面采集覆盖率。 2 4 基于页面分析的主题网络爬虫模型 通过对主题页面在w 曲上的分布特征,利用知网的相关理论,结合语 义分析相关算法及页面与主题相关性判定算法向量空间模型( v s m ) ,本文提 出了一种基于页面语义分析的主题网络爬虫模型如图2 2 ,它的处理过程为:根 据知网相关知识设计出主题选择策略,生成主题义原集,从初始u r l 种子 集开始抓取网页,对抓取到页面进行预处理后进行页面分析,将页面内容和页 面上的链接进行分离。对于页面内容,经过页面分析后根据h t m l 页面的结构 特点,提取出页面的标题、小标题、内容描述、正文等重要的标签内容。根据 本文提出的改进向量空间模型,结合知网语义分析理论,计算页面与主题 的相似度,根据设定的阈值保留语义相关度较高的页面,存入主题页面库中; 对于链接,找出其扩展元数据的概念集【i 引,再将其与主题义原集进行语义相关 度计算【l9 1 ,并将相关度高的链接放入u r l 队列中,而下一次爬行时从u r l 队 列中取优先度高的链接,直到u r l 队列为空或满足定条件时采集过程结束。 整个模型处理过程大致分为七个模块:主题义原集的形成、初始u r l 种子 1 2 武汉理f t 大学硕士学位论文 集、c r a w l e r 爬取、页面预处理、页面分析、链接过滤( u r l 与主题相关性判定) 、 页面过滤( 页面内容与主题相关性判定) 。下面简要讲述各模块的功能,其中页 面分析及页面过滤部分将在下面章节中重点讲述。 l 页面过滤 图2 2 基于页面分析的主题网络爬虫模型图 ( 1 ) 主题集的概念 在基于主题的网络爬虫中,为了有效的进行剪枝和过滤,描述或定义主题 是确定采集方向的前提,主题集的表示可能很大地影响采集效果,直接影响链 接、页面与主题相关的准确过滤。对于用户感兴趣的主题如何使机器识别并对 其规范化描述是主题网络爬虫启动的先决条件。对主题的描述不仅可以用几个 关键词表示,还可以自然语言、层次化分类等其它形式来描述。为了有效地确 定用户选定的主题,用户可以对主题做进一步的描述,例如提供多个文本表达 主题的含义,也可由系统提供主题描述文本由用户选择。也可按照中国图书馆 的分类方法,对主题进行第一级目录和二级目录进行分类的,并为每个主题下 1 3 武汉理一 人学硕士学位论文 提供主题描述文本以供用户选择【2 0 1 。主题集的获取方法将在3 2 1 节中讲述。 ( 2 ) 初始u r l 种子集 基于w 曲上的l i n k a g e s i b l i n gl o c a l i t y 特性,主题网络爬虫的采集起点选 择必须十分慎重,刚开始采集的准确率将影响着采集的效率,一般网络爬虫需 要选择质量较高的主题u r l 作为初始种子u r l 集。 ( 3 ) c r a w l e r 爬取 这部分是专门与w 曲上的信息资源打交道的,处于系统的底层,主要通过 各种w 曲协议( 如h 1 呼、f t p 等) 来自动爬取网络上站点的有效信息,包括 文本、图像、声音、视频、链接、压缩包等各类文档【2 1 1 。 ( 4 ) 页面预处理 页面预处理主要是把网络爬虫抓取下来的w 曲页面规范化,便于进行后续 处理,主要包括以下操作:对w 曲页面去噪,如广告条、导航条、书签等;同 时对英文文本进行词法分析,把变形后的词恢复原型,包括名词的复数去除、 动词的时态转换、动词第三人称转换、词干抽取等。 ( 5 ) 页面分析 从采集到的页面中提取正文、标题、小标题、页面内容描述、链接等信息, 去掉不需要信息,处理后的页面信息存入中间信息库中,提取出的链接将用来 与主题相关判定,过滤掉无关链接;提取出的标题、小标题、页面内容描述与 正文共同与主题进行相关性计算,本文采用一种改进的向量空间模型与知网 语义分析相结合的方法对页面内容与主题进行语义相关的相似度计算,其结果 做为页面过滤时的对比数据。具体页面分析过程将在2 5 节中详细讨论。 ( 6 ) 链接过滤 为了有效的提高主题网络爬虫爬取页面的准确率和效率,需要对u r l 队 列”中的链接进行主题相关性判定,根据一定的算法对u r l 进行预测,并赋予一 定的数值,在采集过程中对预测值高的u r l 先进行采集,对预测值低于设定阈 值的u r l 进行丢弃,这样就大大减少爬取页面的数量,有效的提高主题爬虫的 爬取速度和效率。这种u r l 剪枝处理就叫链接过滤,也称为链接预测。 ( 7 ) 页面过滤 页面过滤就是页面内容与主题相关性判定过程,就是采用向量空间模型对 已采集的页面进行主题相似度评价,通过剔除相似度小于设定阈值的页面,来 提高所采集到的页面的准确率【2 2 】。 页面经过分析后得到标题、小标题、页面内容描述和正文等页面信息,对 1 4 武汉理工大学硕士学位论文 这些信息需要进行分词、词义消歧及分别提取其义原集。页面分词即根据分词 词典进行分词,去掉文本中没有意义或不重要的词,留下有意义的重要的实词。 词义消歧就是根据知网对页面中出现的多义词进行上下文语义分析,确定 每个词语在上下文语境中的词义。再利用向量空间模型中t f i d f 算法提取页面 信息的特征项并计算权值,将特征项权重、义原集及位置权重相结合,将特征 向量转化为与之对应的再有权重的义原向量,计算带有语义分析的义原向量间 的相似度来求得页面与主题的相似度,本文采用一种改进的向量空间模型与知 网语义分析相结合的方法对页面内容与主题进行语义相关的相似度计算,根 据设定的阈值保留语义相关度较高的页面,存入主题页面库中,对相似度不高 的页面进行舍弃来提高抓取到页面的准确率。详细的页面与主题相关性判定计 算过程将在第四章中仔细展开研究。 2 5 页面分析 基于页面的主题网络爬虫对页面与主题相关判定中,主要对h t m l 页面进 行过滤,而h t m l 页面与传统的文本信息的不同之处在于它是半结构化的, h t m l 页面用各种不同的标签表示其中文本的不同意义,而我们要进行页面与 主题语义分析时只需要页面上的有用信剧2 3 j ,如:正文、标题、链接等内容, 故在进行语义相关分析时,要先从网页中提取这些信息,并用这些标签的意义 表征文本,处理后的页面信息存入中间信息库中,以做后面的过滤工作。 2 5 1h t m l 页面的结构 有专家通过对大量网页分析后认为:整个网页内容只要网页正文、标题、 标记信息、链接信息就可以反映,它们可以代表一个网页的整体特征【2 4 1 。因此, 网页信息的提取就是将网页的特征信息提取出来,即标题、正文、标记信息、 链接。本文主要是对网页的标题与正文进行主题相关的判定计算来过滤网页, 而把标记信息融入了语义分析过程中。 一个典型的h t m l 页面如下: 武汉理工大学硕七学位论文 页面内容的标题,显示在标题栏 此部分为主要的文本部分 1 1 t m 可见h t m l 页面上的标签有很多种,其中有基本标签、标题标签、格式标 签、属性标签等,如:文档描述 、标题 、正文 、段落 、 强调 、链接 、n 级标题 ( 其中n 可以取1 6 的整数) 等, 当然还有注释标记 ,注释直接被忽略而不作任何处理【2 5
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 奇瑞控股招聘面试题及答案
- 2025年放射工作人员培训考试试题(附含答案)
- 山东省中昇大联考2024-2025学年高三上学期10月联考地理试题(解析版)
- 游戏化安全学习-洞察与解读
- 终身寿险考试题库及答案
- 2025年焊割培训考试题库及答案
- 2025年制图识图卷子题库及答案
- 2025年肝病科试题及答案
- 人工智能原理MOOC习题集及答案
- 2025-2030中国液体化工物流市场价格波动与成本传导机制研究
- 2025年食品安全管理员考试题库(附答案)
- 2025浙江金华市交通投资集团有限公司招聘笔试笔试历年参考题库附带答案详解
- 2025中国大唐集团新能源股份有限公司本部应届毕业生招聘笔试历年常考点试题专练附带答案详解2套试卷
- 2025四川广安投资集团有限公司第一次招聘工作人员18人笔试考试参考试题及答案解析
- 2025四川南充市嘉陵城市发展集团有限公司招聘10人笔试历年参考题库附带答案详解
- 2025年广西信息职业技术学院辅导员招聘考试笔试模拟试题及答案解析推
- 道路运输企业安全生产责任清单
- 1年级上册口算题2000道大全 A4打印版
- 浙江省初中名校发展共同体2024-2025学年第一学期七年级数学期中试卷(含答案)
- 2025年护理副高级职称题库及答案
- 微生物检验课件
评论
0/150
提交评论