已阅读5页,还剩56页未读, 继续免费阅读
(计算机应用技术专业论文)本体导向的对象级垂直资源抓取.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 近几年来,一些列重大公共突发事件的频发,使得智能应急系统的构建变得 愈加重要。互联上存在着大量与应急领域密切相关的资源,这些资源对于应急智 能系统的构建具有重要的意义,而如何有效的获取这些资源是本论文的研究重 点。 与传统的资源抓取方式不同,本论文首先以“自顶向下”的思想提出本体导 向的垂直资源抓取框架,阐述了该框架中各个模块的作用与算法流程设计。框架 包括了三个核心模块:领域知识本体建模、应急领域相关的元搜索引擎、以及爬 虫。 本体建模方面,论文建立了应急预案本体模型,用o w l 语言描述了该本体 各个要素的实现;元搜索方面,论文实现了当前最权威的中文搜索引擎的调用接 口,结合领域特点提出了改进的元搜索合并算法,用于对搜索结果进行合并与排 序,系统运行结果表明改进的元搜索合并算法使得元搜索的结果更能有效的反应 搜索对象与资源的关系:爬虫方面,通过对应急领域的各种资源来源进行分析, 本论文设计与实现了各种资源抓取模式,并在本体的指导之下,提出结合网页内 容分析和链接分析的垂直抓取策略,用于应急资源的垂直抓取。 论文最后实现了应急垂直搜索引擎原型系统,对本文所做的工作进行验证。 关键词:本体建模元搜索垂直抓取垂直搜索引擎系统 a b s t r a c t i nr e c e n ty e a r s ,n u m b e r so fp u b l i ce m e r g e n c ye v e n t sh a p p e n e d , m a k i n gt h e c o n s t r u c t i o no fi n t e l l i g e n te m e r g e n c yr e s p o n s es y s t e mi n c r e a s i n g l yi m p o r t a n t t h e r e e x i s tal a r g en u m b e ro fw e br e s o u r c e sc l o s e l yr e l a t e dt ot h ea r e ao fe m e r g e n c y p r o c e s s i n g ,w h i c h a l eo fg r e a ts i g n i f i c a n c et ot h ec o n s t r u c t i o no fi n t e l l i g e n t e m e r g e n c yr e s p o n s es y s t e m ,a n dh o wt oa c q u i r et h e s er e s o u r c e se f f e c t i v e l ya n d e f f i c i e n t l yi st h ef o c u so f t h i st h e s i s d i f f e r e n tf r o mt h et r a d i t i o n a lw e br e s o u r c ec r a w l i n g ,t h i st h e s i sd e s i g n e da ”t o p - d o w n ”o n t o l o g y - b a s e df r a m e w o r kf o rd o m a i nf o c u s e dr e s o u r c e sc r a w l i n g w h i c h s h o w sh o ws e v e r a lm o d u l e sw o r k i n gt o g e t h e ra n dh o we a c hm o d u l ei si m p l e m e n t e d i na l g o r i t h ml e v e l t h i sf r a m e w o r ki m ! c l u d e st h r e ec o r e m o d u l e s :d o m a i no n t o l o g ym o d e l i n g ,d o m a i n r e l a t e dm e t as e a r c he n g i n e ,a sw e l la sad o m a i nf o c u s e dc r a w l e r t h ep a p e r e s t a b l i s h e da l le m e r g e n c yp l a n o n t o l o g ym o d e lu s i n go w lt o d e s c r i b et h e i m p l e m e n t a t i o no fi t sd e t a i l s a st om e t as e a r c he n g i n e ,t h i sp a p e ri m p l e m e n t e d s e a r c hi n t e r f a c e so ft h em o s ta u t h o r i t a t i v ec h i n e s es e a r c he n g i n e s ,a n dp r o v i d e da n i m p r o v e dc o m b i n i n ga l g o r i t h mu s e dt oc o m b i n ea n ds o r ts e a r c hr e s u l t sf r o md e f e r e n t s e a r c he n g i n ew i t ht h ec h a r a c t e r i s t i c so ft h ed o m a i no fe m e r g e n c y t h er u n n i n g r e s u l t ss h o wt h a tt h ei m p r o v e da l g o r i t h mm a k e st h es e a r c hr e s u l t sm o e er e l a t e dt ot h e s e a r c ho b j e c t s i nt h ec r a w l e rm o d u l e ,t h ep a p e rd e s i g n e dav a r i e t yo fc r a w l i n gm o d e s t oc r a w l i n gd i f f e r e n tw e br e s o u r c e s av e r t i c a lc r a w l i n gs t r a t e g yc o m b i n i n gw e b c o n t e n ta n a l y s i sw i t hw e bl i n ka n a l y s i sw a su s e di nt h ev e r t i c a lc r a w l i n gp r o c e s s f i n a l l yw ei m p l e m e n t e dap r o t o t y p es y s t e mt ov e n f y t h em a i ni d e ao ft h i sp a p e r k e y w o r d s :o n t o l o g ym o d e l i n g ,m e t as e a r c h ,v e r t i c a lc r a w l i n g ,v e r t i c a ls e a r c h 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得丞盗基鲎或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 繇螽毡 签字日期:7 川年6 月2 日 j 学位论文版权使用授权书 本学位论文作者完全了解:苤盗态茔有关保留、使用学位论文的规定。 特授权苤洼苤堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者魏素够奇 签字日期:川年6 月2 ,日 导师签名: 签字日期:乃q 年 斗。 b 月2日 第一章背景介绍和问题提出 第一章背景介绍和问题提出 公共突发事件频发带来的重大损失,促使我国进一步加强和完善各类应急决 策体系;急剧增加的网页资源使得互联网聚集了海量的信息和丰富的潜在知识; 搜索引擎的发展使得人们更加便捷的寻找自己所感兴趣的信息,同时也使得搜索 引擎本身向着领域化、专业化的方向发展。本章节首先在应急领域中,结合互联 网的发展,讨论本论文研究的背景。之后给出论文研究问题的提出,以及本论文 的组织情况。 1 1 研究背景 1 9 9 8 年洪灾、2 0 0 3 年的s a r s 、2 0 0 8 年的雪灾,还有禽流感、汶川大地震 以及最近的猪流感等一系列重大突发公共事件,对社会的影响日益的加剧,与人 们的生命财产也息息相关。国家各个部门和组织在积极的制定相应的措施来建立 和完善应急预防和处置体系。但是,当前应急平台的建设仍有许多需要深入挖掘 的地方,如何科学的获取各类应急资源,挖掘应急知识,完善应急处置体系就是 值得深入研究的课题之一。 据i s c ( i n t e r n e ts y s t e mc o n s o r t i u m ) 统计,在2 0 0 0 年7 月份的时候,全世界 互联网上的主机数为9 3 ,0 4 7 ,7 8 5 ,而2 0 0 5 年1 月份这个数目上升到31 7 ,6 4 6 ,0 8 4 , 到2 0 0 8 年几乎是2 0 0 5 年的两倍:5 4 1 ,6 7 7 ,3 6 0 t 。在国内,据2 0 0 8 年互联网调 查报告【2 】,中文域名的总数为1 4 8 5 万个,年增长率为6 1 8 ;截至2 0 0 8 年6 月 底,中国网民数量达到2 5 3 亿人,将超越美国成为最大的互联网国家。以上的 数据说明,当今的互联网高速发展,使得互联网与人类的生活息息相关。无论是 个人团体,组织或者政府部门,通过互联网发布和获取相关的信息成为了一个必 然的选择。因此,当今的互联网充斥了海量的信息。这使得传统的信息发布和获 取的方式发生了翻天覆地的变化。在社会高速发展的今天。以最短时间获取最实 时准确的信息,已经成为信息消费者首要的倾向。同时,互联网不仅是信息的海 洋,而且还是知识的海洋。各种权威的信息,各种专家的知识,在互联网上无处 不在。加上语义网的研究和发展,可以预见互联网将会逐渐成为最大的知识库之 一。因此,通过互联网获取知识而不仅是信息,已经成为了下一代互联网应用的 一大趋势。这也会使得信息消费又更进一步,促进互联网平台不断的向前发展。 第一章背景介绍和问题提出 4 0 0 ,0 0 0 0 0 0 3 0 0 ,0 8 0 ,o o o 10 0 ,0 0 0 , 0 0 0 0 i n t e m e td o m a i ns u r v e yh o s tc o u n t v 卜 o o口v = - n nv卜 口。口口口口口口口 圭圭垂圭 圭圭 圭垂 毛圭圭圭圭圭圭 d时a6口白a0口 o a a口口0 111111_ 11111 s o u r c e :i t e m e l ts ,n 哪c o n = o d i u = = i - _ - i l c m m 图1 1 互联网主机统计脚 搜索引擎在这样的互联网环境下更加突显其重要的意义,在很大程度上改 变了人们获取信息的方式。在2 0 0 8 年7 月发布的互联网调查报告中【2 】,中国网 民的搜索引擎使用率为6 9 2 ,搜索引擎位居中前十大互联网应用中的第五位。 2 0 0 8 年上半年搜索引擎用户增长了2 3 0 4 万人,半年增长率达到1 5 5 。但总体 使用率低于美国( 9 1 ) 。在本科以上的学历中,甚至有9 1 的人在学习和生活 中使用过搜索引擎来进行所需的信息检索。这说明搜索引擎已经成为中国互联网 用户必不可少的互联网工具之一。同时,面对互联网的海量信息,现有的搜索引 擎也只能索引互联网上网页的很小一部分,为了提供更专业更细致的搜索服务, 搜索引擎开始针对于某些特定的领域,出现了垂直搜索引擎。也有些搜索引擎将 获取的网页信息进行抽取、聚合之后,形成结构化的搜索结果,出现了以对象为 单元的对象级垂直搜索引擎。搜索引擎正向着领域化、结构化的方向发展。 实验室结合应急需求和互联网的发展,开展研究基于互联网的应急知识获 取平台。应急的知识蕴含在互联网的各个角落:国家各政府部门发布的应急预案, 是国家针对公共突发事件制定的权威的预防和处置应急灾害的知识;各个应急案 例发生、发展、处置、结果等系列的要素也包含了丰富的知识,可以用来指导 应急专家对应急事件的处置。因此,实验室在应急建设日益紧迫的大背景下,结 合互联网搜索最新的研究进展和研究成果,开展从互联网中获取应急知识的研究 2 第一章背景介绍和问题提出 不仅具有重要的应用背景,同时利具有很强的科研前沿性。本论文是实验室研究 框架中的部分,旨在获取与应急领域密切相关的互联网资源。 1 2 存在的问题 通用的搜索引擎提供给了用户一个寻找自己所需信息的接口,但是由于数据 的庞大,仍然存在着以下一些问题: 1 1 数据过于庞大导致搜索引擎返回的结果数量也很大,用户没有时间浏览 所有的结果。 2 ) 数据返回的形式是一个一个网页,用户需要从网页中自己发掘所需要的 信息。 3 ) 不同的用户关心不同的问题,即使同一个用户也在关心不同领域的问题。 这样导致了搜索引擎向着不同的维度发展: 1 ) 针对于特定领域的垂直搜索 2 ) 针对于信息整合的对象级搜索 3 1 结合以上两个特点韵对象级垂直搜索 这样的发展导致搜索引擎面临着巨大的挑战:需要更精致的资源,来描述数 据。因此资源的获取成了一个关键的步骤。在搜索引擎中,需要获取的主要资源 是互联网上的网页。由于搜索引擎自身提供的服务的需要,其获取的资源是越多 越好,也就是在提供给信息消费者搜索结果之前,理想上需要获取英特网上几乎 所有的网页资源。而垂直搜索引擎其所提供的信息服务是针对于某个特定的领 域,比如计算机领域,医疗领域。这样的特定使得垂直搜索引擎资源获取的关注 点从所有的互联网网页转移到从海量的互联网网页中寻找特定领域相关的网页。 但是,垂直搜索引擎与搜索引擎一样,其返回的结果仍然是网页镜像的形式,没 有对网页进行信息的重组与整合,因此关注的单元是网页页面本身。对象级垂直 搜索是以对象为检索单元,返回给搜索用户关于某一个对象的完整描述,比如某 一篇学术论文的所有相关情况。因此,对象级垂直搜索引擎其资源获取的目标是 存在于互联网各个角落的对象。于是传统的以网页为单元,以领域为核心的垂直 资源获取的方式对于以对象为单元,以w e b 对象为核心的对象级垂直资源获取 并不适用。另一方面,目前的对象级垂直搜索引擎是从领域出发,在获取一定量 的领域相关的网页资源基础上,通过对象记录的抽取,以及对象信息的聚合来重 新组织成w e b 对象的方式,也存这样一些问题: 1 1w e b 对象数目的不明确性。在获取网页资源之前,不知道有多少这样的 对象。 3 第一章背景介绍和问题提出 2 ) 网页资源的不确定性。获取的网页资源是从领域出发的,但是否是描述 领域对象的也不能有足够的保证。 3 ) 获取网页资源之后,需要对描述同一对象的资源进行聚类。这是一个事 后的过程,是在获取瓷源了之后,根据对象的特征去对网页资源进行聚 类,分配给不同的领域对象。由于聚类本身的不准确性以及聚类过程时 间上的开销,也使得这样的获取方式存在着很大的缺陷。 1 3 问题描述 对于本论文要研究的问题,可以用如下的形式化方法来描述。从领域本身出 发,设领域的知识表示为d o m a md ,该领域描述的领域对象为o b j e c t so ,互 联网上的所有的与领域对象相关的网页资源为r e m o t er 。本论文需要解决如下 的问题: 1 1 对于d ,如何生成领域对象的集合o 第一步我们需要对所关注的领域进行知识建模,描述清楚领域中的概念,实 例以及概念之间的关系,从领域描述中自动获得领域中隐藏的领域对象。问题的 输入为领域知识描述,问题的输出为领域对象的集合。 2 ) 已知o ,如何发现和获取描述领域对象的相关资源r 第二步,从目标出发,以目标为导向,如何根据领域对象到互联网上发现和 获取相关的资源。问题的输入为领域对象集合,输出为与对象集合相关的资源。 3 ) 将资源r 分配给o 中不同的对象 第三步,所有的资源与所有的对象可能是一个多对多的关系。不同的资源可 以描述相同对象中的某一部分特征,而对某一个对象,可能有多个不同的资源对 其进行描述。因此,需要建立获取的资源与领域对象之间的映射关系,以便于以 后对资源进行信息的抽取和聚合,以及对象的索引。 1 4 本文的工作 论文为了解决如上提出的问题,以应急领域为背景,研究如何从互联网上获 取与该领域相关的资源。在进行了相关研究的基础之上,论文以“自顶向下”的 思想,首先提出了本体导向的垂直资源抓取框架。框架描述了如何在领域知识本 体的指导下定义领域对象、对象的属性特征、以及为后续资源抓取提供指导的其 他领域知识;如何使用元搜索引擎对领域对象进行资源的初步抓取;以及如何使 用爬虫对领域相关的资源进行进一步抓取与分配。框架针对这些问题给出了相应 4 第一章背景介绍和问题提出 的算法原型与流程。 接着论文着重讨论框架中的三个核心模块:领域本体建模研究与实现、元搜 索设计与实现以及垂直爬取策略的设计与实现。在领域本体建模研究与实现章节 中,论文以应急预案为研究对象,用u m l 对其进行本体建模,并详细的讨论了 o w l 对本体模型的描述与实现。在元搜索设计与实现章节中,论文提出了一个 改进的元搜索结果合并算法,并给出了元搜索引擎类层次的实现说明。在爬虫的 设计与实现章节中,论文研究了适用于应急领域的四种抓取模式,给出了爬虫的 实现类图,并设计了一种结合网页内容分析与链接分析的垂直抓取策略,用于应 急领域的垂直资源抓取中。 最后,论文在这些模块基础之上,实现了一个应急垂直搜索引擎原型系统, 验证了本体导向的垂直资源抓取框架及支撑框架的核心技术实现的可行性、合理 性与有效性。 1 5 论文的组织 本文共分为六章,其主要内存如下: 第一章背景介绍与问题提出。概要性地描述本文的研究背景,需要解决 的问题,以及文章的主要内容,是全文内容的概述。 第二章相关概念与研究。着重介绍和本文研究工作相关的概念及相关的 研究性工作,主要包括对象级别垂直搜索,垂直抓取,本体与本 体建模。 第三章本体导向的资源抓取框架。对该框架做了详细的介绍,包括每个 模块的功能和作用,以及实现的算法与流程。 第四章关键技术研究实现。详细介绍第三章框架中的三个关键模块,包 括应急预案领域本体建模与实现、元搜索引擎的设计与实现、应 急爬虫的设计与实现。 第五章应急垂直搜索引擎系统原型。在第四章关键技术的研究与实现基 础之上,介绍了针对应急领域的搜索引擎系统原型的实现架构, 以及搜索系统的各个组成部分的实现效果。 第六章总结与展望。总结了全文的主要内容,并展望下一步工作的重点 和方向。 第_ 章相关概念与研究 第二章相关概念与研究 2 1 对象级垂直搜索 2 1 1 相关概念 互联网信息越来越庞大,而通用的搜索引擎只能索引所有网页所有的很小一 部分,索引的部分不能提供给用户充分的信息。对于搜索,用户在搜索的过程中, 输入一个查询词,虽然能有很多的返回结果,但是实际上有用的结果似乎很少。 而且通用的搜索引擎返回的结果一般上是包括了网页的镜像、网页中匹配查询关 键词部分的文本片段( s n i p p e t ) 、以及网页的标题和u r l 。这些信息基本上是从原 网页上直接得到的,没有经过任何的处理。因此用户需要大量的时间去自己判断 搜索结果是否是仔细想要的结果,浪费了用户的时间,同时影响用户的搜索体验。 针对于以上问题,垂直搜索引擎成为了搜索引擎发展的趋势。垂直搜索引擎是通 用搜索引擎领域化,结构化发展的结果。 领域化:垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和 延伸。垂直搜索引擎搜集关于某一特定领域的网页,对网页库中的网页进行分类 以及独立的索引。 结构化:垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行 了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数 据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最 小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库, 进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满 足用户的需求。 垂直搜索引擎与通用搜索引擎相比,更加的易于使用,提供的搜索服务也更 加的专业化。 对象级垂直搜索引擎是以对象为检索单位,针对于用户的特定输入,搜索对 象数据库,返回给用户查询相关的一系列的对象。这些对象是搜索引擎对网页信 息经过抽取、聚合、重组、索引等一些中间处理之后的结果。相比较网页而言, 具有结构清晰、信息丰富、内容准确等特点。在对象级垂直搜索引擎中,用户一 次性就找到自己想要结果的可能性会大大的增加,这也很大程度上减少用户去翻 页寻找目标信息的时间。 6 第章相关概念与研究 t o i m 幛 2 1 2 相关研究 酉2 1 搜索引擎发展趋势 m s r a 提出了一个对象级的垂直搜索引擎框架口】,描述了m s r a 建立对象级 垂直搜索引擎的流稃。在该领域中目前国内外研究的热点包括了如下的一些问 题: 爬取与对象相关的网页资源。 对爬取的网页按照领域进行分类 从网页中抽取出描述对象信息的记录 对抽取的记录进行聚合整理,形成对象仓库 卜在对象仓库上面可以进行对象排序,对象信息挖掘等任务 w e b 对象的检索 在面向对象的垂直搜索领域研究中w e b 对象识别方而。 4 4 中研究如何判 断网页中随时间变化的对象属性值,到底是同一个对象属性在不l 刊时间的值,还 是不同对豫的属性值,以此来识别相同的w e b 对象在和不同的w e b 对象。 w e b 对象信息抽取方面,5 1 提出了三个语言模型用于对网页进行对象信息 的抽取:非结构化对象检索模型、结构化对象检索模型,混台检索模型。实验表 明,【s 】提出的混合语言模型能有效的从多个网页中抽取出不同的对象记录,并 对记录进行合并成描述同一对象的属性,从而得到领域对象。 哼| i 第二章相关概念与研究 ,一、,、 ,工、。 d ,一 p a p e r a u t h o rc o n f e r e n c el o c a t i o np r o d u c t e x t f a c t o re x t r a c t o r e x t r a c t o r e x t r ac t o r e x t r ac t o r :l:i p a p e r a u t h o r c o n f e r e n c e !l o c a t i o n p r o d u c t a g g r e g a t o ra g g r e g a t o ra g g r e g a t o r !a g g r e g a t o ra g g r e g a t o r - 二:一,:f7z 一二乏 :w e bo b j e c t s翮;n t m cw e b 乡 h 一一 p r o d u c t o b j e c tw a r e h o u s eo b j e c tw a r e h o u s e _一 一。t r 一一一一一一一一1 t 一一一一一一一。n 一一一一一一一一f 一一一一一一一 匦亟豆圃匦逦亘逦逦面匝巫互亘圃 图2 - 2m s r a 对象基级垂直搜索框架翻 图2 3w e b 对象生成p 】 第二章相关概念与研究 【6 】研究使用领域知识来对w e b 对象进行索引; 【7 ,8 】研究对w e b 对象进行排序,不同于网页排序,基于链接分析的算法在 对象场合并不适应。网页与网页之间的链接关系只有两种,指向与被指向,而对 象之间的链接关系要复杂得多。 8 】中指出,对象之间的链接关系是多元的,例 如一个论文对象,其与作者之间有a u t h o r e d - b y 的关系,与其他论文有c i t e d b y 的关系,与会议有p u b l i s h e d b y 的关系。对于每个关系,应该赋予不同的传播因 子,在前面的例子中,a u t h o r e d b y 的因子必须小于c i t e d b y 的因子,因为一个论 文的作者多肯定没有这篇论文被引用的次数多更能代表对象的重要性。在专家手 动给出部分排序结果的基础上,f 8 】研究如何自动的学习这些关系的传播因子, 实现对象级的排序。 对象级垂直搜索引擎资源抓取方面的研究比较少,一般都借助于垂直爬取的 技术来获取描述领域对象的资源。【9 提出了一个基于元搜索的垂直搜索资源抓 取方法。该方法首先使用元搜索引擎对描述领域对象的关键词进行搜索,获得搜 索的结果。通过建立一个领域评价模型,分析领域对象和返回的u r l 之间的关 系,学习得到领域的特点,从而调整搜索关键词。调整好的关键词作为数据种子, 再次输入到元搜索引擎中,获取待爬取的u r l 。同时,论文也引入了领域s c h e m a 来对目标领域进行描述,并用辅助爬取的策略来提高目标对象的资源覆盖率 ( r e s o u r c er e c a l l ) 。 对象级别垂直搜索引擎的研究正处于初步阶段,目前对象级垂直搜索引擎系 统有m s r a 的l i b r a 学术搜索引擎( h t t p :l i b r a m s r a o n ) ,用户能在l i b r a 学术搜索 中搜索论文、作者、会议等对象信息。w i n d o w sl i v e 产品搜索是另一个对象级 垂直搜索引擎。通过对产品信息的搜集,信息抽取,对象信息重组,产品搜索能 提供给用户关于某个产品对象的综合信息,如产品名字、规格参数、价格等。这 些垂直搜索引擎与传统搜索引擎相比,搜索的结果能提供更详细精准的信息。但 是由于对象资源获取不足以及对象级垂直搜索本身的一些研究难题,这些搜索引 擎都没有很高的对象覆盖率,搜索引擎索引的对象信息还远远不能满足用户搜索 的需要。 2 2 垂直抓取 2 2 3 相关概念 资源抓取的任务是识别领域相关的资源。在互联网的环境下,资源抓取就是 识别和定位我们感兴趣的网页。互联网具有海量的信息,而且资源分布广泛,相 9 第= 章相关概念与研究 关的资源可能出现在互联网上的任何位置。手动的发现感兴趣的网页非常的消耗 资源,因此,需要自动化或者半自动化的方法来执行资源抓取的任务。控索引擎 中的垂直爬取子系统就是自动执行资源抓取任务的模块。与普通的爬虫不同,垂 直爬虫不仅是根据网页的链接关系进行爬取,更重要的是如何分析网页问的链接 关系、弼页的内容以及网页的结构,制定垂直爬取策略以只获取与特定领域相 关的网页瓷源。 垂直爬取是发现有特定领域相关的资源,其并不需要下载尽可能多的网页, 因此宽度优先的方法对爬取来说不适合。与通用爬取不同,垂直爬取采b e s t - f i r s ( 的方式,从网页中抽取的l r p , l 放入到u r l 优先级队列中。对每个待爬取的u i l l 垂直爬取程序采用某种爬取策略对u r l 进行评分,优先爬取评分高的u r l 对应 的网页,评分低于某一闽值的u r l 。垂直爬取程序直接丢弃。因此垂直爬取 研究的核心问题就是如何制定垂直爬取策略,对下载的网页进行过滤,以及对 u r l 进行评分引导爬虫快速的发现与特定顿域相关的那些网页。垂直策略的 制定可能涉及到阿页页面内容分析、阿页链接分析中的一种或者两者的结合。研 究方向有基于机器学习的自动策略发现,也有如何利用领域专家制定规则来指导 垂直爬取的过程。 2 2 4 相关研究 垂直爬取系统首次由sc h a k r a b a r t i 在 1 0 】中提出。在该系统中,首先给出一 系列的主题和具有分层结构的文档资源库。用户对于每个主题从文档资源库中选 取与其认为是与主题相关的文档资源。垂直爬取系统分析各主题以及用户选择的 与之相关的文档学习出描述各主题的模型,用来在将来爬取网页的过程中对被 爬取的网页进行主题的分类。 第二章相关概念与研究 网页间的链接关系对于垂直爬取系统具有很重要的意义。h i t s 算法 1 1 】与 p a g e r a n k 算法【12 】是两个经典的链接分析的算法。在h i t s 算法中,将重要的网 页分成两种:权威网页( a u t h o r i t y ) 和中心网页( h u b s ) 。权威网页是指其网页的内 容是与特定的领域紧密相关的,而中心网页其本身的内容不是特定领域的相关 的,但是包含了大量的指向权威网页的链接。因此,爬取中心网页也能使爬虫爬 取到很多的主题相关的网页。h i t s 算法和p a g e r a n k 算法都对每个需要爬取的 u r l进行评分。在h i t s算法中,中心网页的分值 a u t h o r i t y s c o r e ( p ) = h u b s c o r e ( q ) ( q 是所有指向p 的h u b 网页) ,认为每个权威 网页的分值由所有指向它的中心网页的分值决定;中心网页的分值 h u b s c o r e ( p ) = a u t h o r i t y ( r ) ( r 是所有p 指向的权威网页) ,认为每个中心网页 的分值由所有它指向的权威网页的分值决定。因此,h i s 算法是一个迭代算法。 p a g e r a n k 算法的核心思想是:网页p 如果有一个链接指向q ,则q 对于p 来说 是重要的,p 对+ q 网页投了一票。p a g e r 册露( p ) :o - d ) + d 木p a g _ e r _ a n k ( q ) ( q c t q ) 是所有指向p 的网页集合) 。论文f 1 3 】提出了链接分析算法的稳定性和相似性的概 图2 - 5 网页链接关系 念。该论文提出,如果链接关系矩阵的微小变动,对u r l 分数的排名不会造成 大的影响,则该算法是稳定的。如果两个链接分析算法对于同一个链接矩阵计算 之后得到的u r l 分数排名结果相似,则这两个算法是相似的。该论文在这两个 第二章相关概念与研究 算法的基础上提出了s a l s a 算法,用于计算不可约减的链接矩阵,而构成链接 矩的网页集合内容集中,一般都指向某一个领域,因此该算法对于垂直爬取具有 重要的意义。论文还通过实验得出,h i t s 算法和p a g e r a n k 算法既不是稳定的, 也不与s a l s a 算法相似。 论文 1 4 1 将神经网络的概念引用到垂直爬取的策略制定中。该论文建立了一 个叫h o p e f i e l dn e t 的神经网络,神经网络中的节点代表了网页,边代表了网页 间的链接。爬虫在每个迭代期爬取u r l 对应的网页。当前迭代期已爬取的网页 的分值,以及网页中锚文字的分值用于计算下一个迭代期待爬取的u r l 分值。 爬虫优先爬取分值高的u r l ,对于分值低于某一与阈值的u r l ,直接丢弃。论 文的核心是构建了一个神经网络,使得先爬取的网页的分值可以沿着神经网络向 后传播,以此引导爬虫优先爬取与领域相关的网页。 。 。 。 ) 一一 一 叉 新对象的发现 本体能够描述领域中的大部分领域对象,但是,由于本体本身的限制( 领域专 家对领域认识的局限性) ,其也不能保证能够捕获所有的领域对象。但是本体描 述了领域对象的特征,在进行对象的爬取过程中,可以发现对象的模式,并将其 与本体描述的对象
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 成都市 2024-2025 学年小学五年级语文期中素养测评模拟卷及答案
- 成都市 2024-2025 学年小学五年级上学期音乐期中模拟卷及答案解析
- 成都市 2024-2025 学年小学五年级科学期中模拟试卷(答案全解全析)
- 2025年高中一年级数学上学期专项练习测试卷
- 2025年应聘会计的试题及答案
- 2025年化学全真模拟试题及答案
- 山东省高中期末数学试题汇编-15三角恒等变换(人教版)
- 2025年贵州省公务员行测专项突破真题
- 个人简历模版(三页)带封面(可编辑)中国风
- 2025城镇公寓买卖合同
- 2025年郑州登封市公共交通运营有限公司社会招聘工作人员35人笔试考试参考题库及答案解析
- 2024年公务员国考行测真题(含答案)
- 灵活就业人员劳动合同范本及说明
- 退休人员返聘合同
- 智能物流设备维护操作指南
- 2025年学习两会精神应知应会知识测试题附含答案
- 水性涂料项目建设工程方案
- 2025年医养结合养老机构运营中的服务质量评估与改进报告
- 中国重症医学科建设和发展指南2025版解读 3
- 2025年北京市高考语文试题卷(含答案及解析)
- 工程资金监管协议书示范文本
评论
0/150
提交评论