




已阅读5页,还剩40页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东南大学硕士学位论文 摘要 随着语义网的发展,基于语义网数据的应用越来越多。由于语义网数据的开发与存储具 有分布式的特点,为了促进语义网数据的重用和集成,语义网搜索引擎渐渐成为语义网的研 究热点。f a l c o n s 正是一个集语义网数据采集、索引、检索功能于一体的语义网数据搜索引 擎。本文阐述了它的一个子系统一f a l c o n s 语义网数据采集系统的设计与实现。 本文首先对语义网采集的研究现状进行了调查研究,指出了现有工作的不足之处,为了 能够采集尽可能多、数据形式多样的语义网数据,本文总结出各种可行的采集方案,并设计 出一个多种采集方式结合,并相互协作的采集框架来完成采集的工作,即元采集、站点内采 集和r d f 采集。其中元采集是利用已有的搜索引擎获得采集结果的采集方式;站点内采集 是利用并改进传统网络爬虫进行的采集方式;r d f 采集是把语义网看作是一个r d f 图模型, 通过解析语义网文档,选择r d f 链接得到新的语义网文档的采集方式。另外,本文还关注 了采集过程中需要考虑的几点问题,如回访策略和网页重定向的问题。 本文的贡献在于,通过多种采集方式结合与协作的方式,能够全面地覆盖万维网中的语 义网数据,大大提高数据收集的效率,f a l c o n s 系统因而也更具竞争力。f a l c o n s 所支持的三 种采集方式构成了一个各部分既相对独立,又相互协作、互为补充,并且可持续运行的整体。 元采集可以说是整个采集系统的启动采集方式,它可以为站点内采集和r d f 采集提供种子 u r l ;而站点内采集与r d f 采集又可以互相为对方提供种子u r i 。在实验结果部分,文章 分别给出了利用每种采集方式得到的数据量与采集的精度,并做了一些比较。最后,文章总 结了全文的研究工作,提出了两点改进的建议并且对未来的工作进行了展望。 关键字:语义网、语义网数据采集、r d f 图模型 东南大学硕士学位论文 a bs t r a c t w i t ht h ep r e v a l e n c eo ft h es e m a n t i cw e b ,a p p l i c a t i o n sb a s e do ns e m a n t i cw e bd a t ae m e r g e c o n s i d e r a b l y s i n c et h ep r o c e s so fc r e a t i o na n dp u b l i c a t i o no fs e m a n t i cw e bd a t ai sd i s 曲u t e di nn a t u r e , i no r d e r 幻p r o m o t et h er e u s ea n di n t e g r a t i o no fs e m a n t i cw e bd a t a , s e m a n t i cw e bs e a r c he n g i n ei s b c a ) i i l i n gah o t s p o t f a l c o n si ss u c has e m a n t i cw e bs e a r c he n g i n e , w h i c hi sc o m p o s e do fac o u e c t i n g s u b s y s t e m , a l li n d e x i n gs u b s y s t e ma n dar e t r i e v a ls u b s y s t e m i nt h i s 球i p e f ,w ep r e s e n tt h ed e s i g na n d i m p l e m e n t a t i o no ff a l c o sc o l l e c t i n gs u b s y s t e m , l l lt h i sp a p e f ,w es u r v e yt h es t a t eo fa r to fs e m a n t i cw e bd a t ac o l l e c t i o nr e s e a r c h , a n dt h e nd e v e l o pa h y b r i da n dc o l l a b o r a t i n gs e m a n t i cw e bc o l l e c t i n gf r a m e w o r kw h i c hh a st h r e em a i np a r t s ,n a m e l ym e t a c r a w l i n g ,s i t ec r a w l i n ga n dr d fc r a w l i n g m e t ac r a w l i n gr e q u e s t sc o n v e n t i o n a lw e bs e a r c he n g i n l 络a n d r e t r i e v e su r i so fw e bd o c u m e n t sm a t c h i n gt h eq u e r yc o n s t r a i n s s i t ec r a w l i n gi m p r o v e st h e c o n v e n t i o n a lw e bc r a w l i n gm e t h o d r d fc r a w l i n gc o n s i d e r ss e m a n t i cw e ba sar d f g r a g hm o d e la n d c o l l e c t sn e ws e m a n t i cw e bd a t ab ya n a l y z i n gt h er d fg r a g hm o d e l b e s i d e se l a b o r a t i n gt h ed e s i g n a n di m p l e m e n t a t i o no fo u rc o n e c t i n gf r a m e w o r k , w ea l s oc o n c f e t ns o m eo t h e ri s s u e ss u c ha sr e - v i s i t s t r a t e g ya n dr e d i r e c t i o n t h em a i nc o n m i b u t i o no ft h i sp a p e ri st h a tb y u s i n gt h eh y b r i ds e m a n t i cw e bc o l l e c t i n gf r a m e w o 出 l a r g ea m o u n to fv a r i o u sd a t aa r er e t r i e v e d , s of a l c o n ss y s t e mt h u sb e c o m e sm o r ec o m p e t i t i v e t h et h r e e c o l l e c t i o nm e t h o d sa r er e l a t i v e l yi n d e p e n d e n t , w h i c hc o n s t i t u t eam u t u a lc o l 0 i ) e 枷1 1 9a n ds u s t a i n a b l e o p e r a t i n gs y s t e m m e t ac r a w l i n ga c t sa st h es t a r t u pc o l l e c t i o ns t e p , b e c a u s ei tc a na u t o m a t i c a l l yp r o v i d e s e e du r i sf o rs i t ec r a w l i n ga n dr d f c r a w l i n g , w h i l es i t ec r a w l i n ga n dr d fc r a w l i n gc a na u t o m a t i c a l l y p r o v i d es e e du r i sf o re a c ho t h e r i nt h ee x p e r i m e n tp a r t , w ec o m p a r et h eq u a n t i t i v ea n dq u a l i t yo fd a t a s e t f 峨n s 0 8 m a rb ye a c hc o l l e c t i n gm e t h o d i nt h ee n d , w es mu po u rw o r ka n dp o i n to u ts o m e f u t u r er e s e a r c h k e yw o r d s :s e m a n t i cw e b ,s e m a n t i cw e bd a t ac 0 恤旭,r d fg r a p hm o d e l u 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 研究生签名: 啦日 期:2 盟鱼垒 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位 论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人 电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论 文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包 括刊登) 授权东南大学研究生院办理。 研究生签名: 扯导师签名:驰日 期:虬夸 东南大学硕士学位论文 1 1 研究背景 1 1 1 语义网的发展 第一章绪论 万维网( w b f l dw i d ew e b ,简称w 曲) 的出现在很大程度上改变了我们的世界,它为 人们提供了更为便捷的通讯手段以及极为丰富的信息。w e b 上的信息非常丰富,几乎涵盖 了所有的知识领域。人们可以从w e b 上获得任何自己感兴趣的信息,也就是说w e b 完全 有可能成为一个巨大的知识库。但是由于w e b 内容的极其庞杂和目前网络信息检索工具的 性能限制,使很多人面对w e b 上数量巨大的信息不知所措。另一方面,随着硬件技术的飞 速发展,人们已经可以相对比较便宜地拥有强大的计算能力和海量的存储设备。同时,我们 注意到,在庞大的互联网环境中,几乎所有的计算机目前所起到的作用只是存储数据、传输 数据或显示数据,担当着人与信息之间的媒介。如果能够让这些计算机理解所存储和传输的 数据的话,其势必可以帮助人们去选择、鉴别,并进而自动地去处理这些数据,这样将显著 地提高数据的自动处理能力和现有w e b 内容的利用率。 正是基于这个思想,w e b 的创始人t u nb e r n e r s l e e 在1 9 9 8 年提出了语义网( s e m a n t i c w 曲) 的概念【1 1 ,并把语义w e b 看成是下一代w 曲的发展方向。其目标是为w e b 的实际信 息内容提供形式化的含义,以实现信息在语义层的互操作,从而使得计算机和人类能够更好 地协同工作。也就是说,语义w e b 的目标是让w e b 上的信息能够为机器所理解,从而实 现w e b 信息的自动处理( 如自动搜索、知识获取、逻辑推理等) ,以适应w e b 信息资源的 快速增长,更好地为人类服务。2 0 0 4 年2 月1 0 日,w 3 c 正式发布了与r d f ,r d f s 和o w l 语言相关的1 2 个技术规范,这标志着语义网的资源描述框架、本体描述语言等基础工作已 经得到奠定。同年,w 3 c 成立了“s e m a n t i cw e bb e s tp r a c t i c e sa n dd e p l o y m e n t ”工作组1 2 1 ,用 以全面支持基于语义网技术的各种w e b 应用的研究与开发工作,从而宣告了“s e m a n t i cw e b a c t i v i t y 开始进入关注各种w e b 应用研发的第二个阶段,引领着w ,e b 应用向语义互操作 ( s e m a n t i ci n t e r o p e r a b i l i t y ) 【3 j 的方向发展。图1 - 1 是预测到2 0 1 0 年时万维网的演化过程【4 】。 东南大学硕士学位论文 蝴l 薯锄撺咖耐锄扫i 蝴螂静嬲黝 嚣。,紫:一一怒4 嚣锗甓! 船# ,枷 。确i 锄一十撬# 翮 = = :!# 坤瞬鼽锄最。 ” 。缈一。嚣妇茹孑r 薹淼: 器懒。蕊勉懒锄; m ” ” ” ,* 句 女彬o 。愀船h 由咖 秽 、。a ? 瞄绷蚺9 _ 暂毳;i 荔鬈 on“写 7 7 么。一 l 翟“翟獬,麓鬈季墓“一黜j ? 援 。蚴。: 一”“麓w “瓮 一一 ,7 4鳓”三鬻撼多 十i 。 4 协嘞 m ”m “9 p ,一 ,:一一,。,妻 图1 - 1 到2 0 2 0 年万维网的演化过程闱 1 1 2 语义网的基本概念 为了实现语义网的研究目标,t u n b e m e r s k 于2 0 0 0 年提出了语义网体系结构模型【5 】, 为语义网相关技术的研究工作制定了一个可实施的技术路线图。 图1 - 2 修订的语义网体系结构描述1 本章节余下部分将对语义网体系结构中的核心部分进行简要说明。 1 该图内容是最新经过修订的语义网体系结构描述。此图与2 0 0 0 年给出的语义网体系结构图示有所区别。 2 舅耋毒-母-杂矗lo耋冒量量譬霉擘毫量l鬟 东南丈学硕士学位论文 ( 1 ) u n i c o d e 和u r i u n i c o d e 和u r i 是语义网的基础。u n i c o d e 是一个字符编码系统标准【6 l ,支持世界所有 主要语言文本的混合编码,用于保证使用国际化、通用化的字符集,避免不同类型字符集之 间由于编码不同而造成的存储、传递和使用上的混乱,同时也可以实现多国语言的混合存储 和使用。u r i ( u n i f o r mr e s o u r c ei d e n t i f i e r s ,统一资源标识符) 是i n t e r a c t 资源的一种识别 方法【7 】,在语义网中,任何可以被描述的事物都可以称为资源【8 】( 即语义网资源) ;每一个 资源都由唯一的语义网u r i 所标识,并通过u r i 来确定该资源;不同的资源拥有不同的 i j r l 。 ( 2 ) x m l 和n a m e s p a c e s x m l ( e x t e n s i b l em a r k e tl a n g u a g e ,可扩展标记语言) 是一种允许自定义标记的通用、 结构化描述语言【9 l ,是描述w e b 文档和数据的标准化语言。n a m e s p a c e ( 命名空间) f l o j 为 x m l 文档中的结构化标记提供了上下文环境:一方面为文档中的每一个标记都赋予了确定 的含义,另一方面将不同于上下文环境中相同名称的标记区分开来,从而避免了语义上的歧 义。 x m l 的出现使得在已有不同类型数据之间实现互操作成为可能,能够帮助消除万维网 上的各种信息在语法描述层次上的差异。由于x m l 实现了数据内容和表现形式的分离,这 就使得现有万维网上的信息能够在保持面向用户浏览的同时,还能帮助支持计算机对这些信 息的自动处理。因此,x m l 构成了语义网的语法基础。 ( 3 ) r d f 和r d f s c h e m a r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ,资源描述框架) 1 1 】定义了一种用以描述w e b 资 源及其相互关系的简单模型,提供了一个机器可处理的元数据框架,是用于描述形式化语义 信息的有效工具。r d f 是实现语义网的核心技术之一,其基本数据模型主要包括三类对象: 资源( r e s o u r c e s ) ,属性( p r o p e r t i e s ) 和陈述( s t a t e m e n t s ) 。r d f 描述的任何事物被称为 r d f 资源,并通过语义网u r i 进行唯一标识,因此又被称为是r d fu r i 资源;资源之间 的相互关系通过属性和属性值来描剥1 1 】。描述某个资源具有特定属性的属性值,就构成了 r d f 中的一个陈述( s t a t e m e n t ) 。陈述用于表达资源之间特定的二元关系,通常用r d f 三 元组( r d ft r i p l e ) ,即 的形式进行描述;其中,s u b j e c t 是指被描 述的资源,p r e d i c a t e 是指描述资源的属性,o b j e c t 则是属性对应的属性值。属性值也可以是 r d f 常量资源( 1 a t e r a l s ) 。一组r d f 三元组的集合共同构成了一张r d f 图( r d fg r a p h ) 【1 l 】。 r d f 通过属性和值描述资源及资源之间的关系,但r d f 并没有提供语言机制定义r d f 的词汇表( v o c a b u l a r i e s ,或术语t e r m s ) 。r d f s ( r d fv o c a b u l a r yd e s c r i p t i o nl a n g u a g e ,即 r d fs c h e m a ) 1 2 l 提供了这种表达机制。r d f s 为r d f 定义了基本的词汇表,并提供语言 机制让用户扩展词汇表,自定义所需的词汇。r d f s 通过类型层次结构和属性层次结构将定 义的词汇组织起来,支持有限的推理能力,构成完备的语义空间。 x m l ( 包括x m l s c h e m a 9 1 ) 和r d f ( 包括r d f s ) 能为所描述的数据或资源提供有限 的语义信息。但是x m l 标签和r d f 属性不能处理以下问题:同一概念有多种词汇表达, 同一词汇表示多种概念。这一问题需要本体来给予解决。 ( 4 ) o w l 及o n t o l o g y 3 东南太学i 学位论空 语义信包的交流必颁以韭同的理解为基本前提吾川交流般方就会产生误解或者出现不 理解的情况。在 鲁义阿中,这种共同理解是由奉体* 乏实现的。本体( o n t o l o g y ) 是共亭概念 的形式化规范说明。本体明确定义类型、实例和属性,组织类刑层次结构和属性层次结 构,井通过属性来描述资源之间的芙系。在语义网中,率体具有非常重要的地位本体是解 决语义层次上w e b 信息共享和交换实现信启集成和进行语义操作的基准。 o w l ( w e b 0 t o i o g yl a n g “a g e ,w e b 本体语j ) ,是w 3 c 推荐的w e b 本体描述语 言,用于描述在万维阿上发布和共享的本体。o w l 作为r d f r d f s 的扩展,提供了更多基 丁描述逻辑( d e s c r i p t i o nl o g i c rd l ) “的原语以支持更加丰富的语义表哒和更强的推理能 力。o w l 有= 个子语言一o w l i a t e ,o w l d l 和o w l f u l i ;这三个子语言的语义表达能力 是逐渐增强的,用十支持不同的语义表达能力和推理要求的w e b 应用。 1 2 研究内容 随着语义网的发展,万维网中的语义网数据也越来越多故需要语义网数据搜索引擎为 语义网的研究人员和开艇人员提供服务。f a l c o n s 2 系统是目前正在研究与开发的一个包括语 义网数据采集、索引以及检索功能的综台系统图1 - 3 显示了f a l c o n s 系统检索结果的截罔。 语义网数据采集系统的主要功能是选取合适的种子、分析并粟集崭在的语义阿数据,同时记 录相戈信包。语义网数据的分类系统的主要功能是按照某种分类目录将数据分类,一边用户 按目录浏览。语义嗣数据索引系统是为语义网数据建立简洁高教的索引,为语义网数据检索 系统服务。语义网数据检索系统是整个系统与用户之间的接口,为用户提供检索本体的功能。 本人的主要i 作是语义网数据采集系统的设计与实现。 f a i cn s 誊“。”一:。 h t t p :l i w s5 c ue d uc 妇n l c e “t “c o 吲 罔1 - 3f a l c o a s 检索结果截图 谢 m 洲 _ 纛勰 辫一 东南大学硕士学位论文 语义网数据采集系统的研究与开发包含着非常丰富的内容,在采集过程当中会有各种各 样的突发状况的发生,因此是一个发现问题解决问题再发现再解决的不断探索实践过程。 由于采集数据的特殊性与局限性,以及采集数据量比较庞大,因此对于实验环境也提出了较 高的要求。为了能够完成这项有挑战性的工作,我们首先对目前整个语义网进行了较为详细 的调研,然后我们设计并实现了一个多种采集方式结合并相互协作的采集系统来完成我们的 工作。 1 3 论文组织结构 本文阐述了一个语义网数据采集系统的设计与实现,全文共分六章。 第一章首先介绍了论文的研究背景:介绍了语义网的相关概念及其发展,指出建立语义 网数据搜索引擎的必要性,并指出了本文的研究内容及目标。 第二章介绍了与语义网采集相关的研究工作。首先我们介绍了网络爬虫的概念,包括传 统的网络爬虫和聚焦网络爬虫以及在设计网络爬虫时需要注意的一些基本问题,并指出语义 网采集系统与二者之间的联系与区别。然后我们列举了一些目前已有的语义网数据采集系 统,并指出了它们存在的一些缺陷。 第三章阐述了语义网数据采集系统的设计。为了能够高效地采集尽可能多的语义网数 据,我们设计了一个多种采集方式结合、相互协作、互补的采集系统的架构。 第四章详细阐述了语义网数据采集系统的实现。包括几种采集方式的具体实现元采 集、站点内采集和r d f 采集。元采集可以说是整个采集系统的启动采集方式,因为它可以 为站点内采集和r d f 采集提供种子u r i :而站点内采集与r d f 采集又可以互相为对方提供 种子u r i 。同时我们还介绍了数据的存储与采集过程中需要注意的一些问题,如重定向以及 采集数据的回访问题。 第五章对语义网数据采集系统的性能进行了分析,并比较了各种采集方式采集的数据量 的大小,以及结果精度的比较。 第六章总结了本文工作的主要内容,并展望了f a l c o n s 语义网数据采集系统未来的研究 工作。 5 东南大学硕士学位论文 第二章相关工作 本章主要是介绍一些与我们的采集系统相关的一些工作,首先我们介绍了网络爬虫的概 念,包括传统的网络爬虫和聚焦网络爬虫以及在设计网络爬虫时需要注意的一些基本问题, 并指出语义网采集系统与二者之间的联系与区别。然后介绍了语义网采集的研究现状,列举 了一些目前已有的语义网数据采集系统,并指出了它们存在的一些缺陷。 2 1 网络爬虫 2 1 1 传统网络爬虫 网络爬虫( w e bc r a w l e r ) 也称作是网络蜘蛛( w e bs p i d e r ) 或是网络机器人( w e br o b o t ) 。 它是一个自动抓取网页内容的程序【1 6 1 。搜索引擎( s e a r c he n g i n e ) ,例如传统的通用搜索引擎 a l t a v i s t a ,y a h o o t 和g o o g l e 等,通常使用网络爬虫来获得不断更新的数据。网络爬虫通常 对所有访问过的网页进行拷贝,而搜索引擎对这些拷贝数据进行索引以提供高效的搜索服 务。 网络爬虫的工作原理:网络爬虫是从一个或若干初始网页的u r l 开始采集数据,这些 u r l 被称为种子( s e e d s ) 。在访问这些u r l 时,同时把网页中存在的超链接( h y p e r l i n k s ) 添加到u r l 列表里等待处理,通过这种循环的方式采集数据。图2 - 1 显示了通用网络爬虫 的体系结构: 图2 - 1 通用网络爬虫的体系结构1 6 1 在设计一个通过用网络爬虫的时候我f f j j - 要需要注意以下几个方面的内容: 东南大学硕士学位论文 抓取的效率 抓取的效率和计算机硬件的性能、硬件的多少、网络的带宽有关系,但为了提高抓取效 率不能一味地增加硬件,而是要利用有限的硬件资源在一定的时间内抓取最多的网页。常见 的提高抓取效率的策略有:1 ) 采用多线程并发抓取;2 ) 采用单线程、非阻塞i o 抓取:3 ) 分布式抓取,把抓取工作分布到多台服务器完成,对于g o o g l e 这样的搜索引擎还包括地理 上的分布式,把抓取服务器机群分布到全球各个国家的主干网上抓取;4 ) 抓取的效率很大 程度也取决于抓取的对象网站服务器和带宽的速度。因此设计网络爬虫时要有估算抓取 网站服务器负载和带宽的功能并且有一个很好调度策略,使得访问不同状况网站服务器有不 同的频率。 抓取的质量 设计网络爬虫的目标不是把互联网上的所有网页都抓回来,而是抓重要的并且是最新的 网页即可。怎样抓取高质量的网页? 哪些网页是质量比较高的? 这里就要求设计人员对互联 网以及用户的习惯和常理都有一定的理解。从互联网整体上看,网站中各个网页之间的链接 关系是一个很重要的资源,因此在抓取网页时要记录网页之间的链接关系,以便进行链接分 析,从而通过链接关系来评价网页的质量。网页重要性的评价指标可以从以下几个方面着手: 1 ) 某个网页的链接深度:2 ) 网页的入度;3 ) 网页的父网页的入度;4 ) 网页的重复数。 以上这些指标都基于这么几个常理:1 ) 网站最重要的网页都放在前面,即层次越浅。 网站首页以及首页指向的网页都是比较重要的;2 ) 引用:有很多网页、很重要的网页都指 向这个网页,这个网页就比较重要,就像检索工具( s c l 3 评价论文的质量一样,被引用的 论文的次数越多,则说明这篇论文比较重要;3 ) 转载,网页转载的次数越多,则说明这个 网页比较重要,就像报纸或杂志文章一样,好的文章都被其他媒体大量转载。 具体实现时除了第一个指标外,其他三个指标只有在预处理阶段的统计才能得出。所以 在抓取时应首先获得尽量多的网站首页,然后从该网站首页出发采用广度有限的抓取策略。 抓取的礼貌问题 礼貌的抓取具体表现在:网站不让抓取的网页就不要抓取,控制好访问网站的频率,网 络爬虫的抓取行为不能影响正常用户的访问。因此网络爬虫在抓取时要:1 ) 限制单位时间 内对一个网站抓取网页的数量;2 ) 限制同时对同一个网站抓取的线程进程的数量;3 ) 控 制对同一个网站抓取的时间间隔:4 ) 遵循r o b o t s 、m e t at a g 、s i t e m a p h t r n 协议,对不 允许访问的目录不访问;5 ) 在抓取网页时发送的请求中,通过u s e r - - a g e n t 、f o r m 字段, 标识网络爬虫的身份、联系e m a i l 、网络爬虫注意事项页面u r l 。 避免重复抓取 + 之所以会造成重复抓取,是因为:1 ) 互联网上大量网页被其他网页引用,这就使得同 一个网页的u r l 出现在多个不同的网页中,这就要求网络爬虫必须有u r l 去重功能;2 ) 网页被其他网页转载,这就使得同一篇文章出现在不同u r l 的页面中,这就要求网络爬虫 具有内容去重功能,目前这块比较难以实现,当前很多搜索引擎公司都没有较好的解决这个 问题;3 ) 网页的u r l 有多种表示形式,这是由于d n s 与i p 对应关系造成的。 一个u r l 对应一个网页,但由于u r l 可以采用以下两种表示方式:1 ) f 协议:1 域名f : 端口】【路径文件名】;2 ) 【协议:d 点分十进制i p 地址【:端口】【路径厂文件名】 东南大学硕士学位论文 且域名与i p 存在以下对应关系:1 ) 一对,h t t p :w w w b a i d u c o m 与h t t p :2 2 0 2 3 1 3 9 9 7 指向的是同网页;2 ) 一对多,d n s 轮转,h t t p :w w w 1 6 3 c o r n 与h t t p :2 0 2 1 0 8 4 2 7 3 、 h t t p :2 0 2 1 0 8 4 2 9 1 指向的是同一网页;3 ) 多对一,虚拟主机,多个域名对应同一个i p ,不 同的u r l 指向不同的网页。一个网站具有多个域名,对应同一个i p ,例如:w w w n e t e a s e c o r n , v c x v w 1 6 3 t o m 指向同一个网页;4 ) 多个域名对应多个i p ,一个网站有多个域名,同时采用 了d n s 轮转技术,一个域名对应多个i p 地址。 抓取数据的更新 抓取数据的更新问题是一个很重要的问题,它决定了用户能不能马上搜索到最新的新 闻,最新的内容,但是由于互联网上海量的网页使得一次抓取的周期都很长,如果通过每 次重新抓取一次来更新,势必更新周期很长。 网络爬虫已经抓取的网页可能被修改、删除,网络爬虫要定期检测这些网页的更新情况, 同时更新原始网页库、提取的数据库以及索引库。互联网上同时不断地产生新的网页,网络 爬虫也要抓取回来。不同的网站的更新周期不一样,有的很长,有点很短。网络爬虫要根据 网站的更新周期,对网站进行分类,不同更新周期的网站抓取的周期不一样。 一般来说,网络蜘蛛在更新原始网页库等的时候,不用把u r l 对应的网页重新抓取一 遍,对于大部分的网页,只需要h t r ph e a d 请求、条件g e t 请求来更新。 内容提取 网络爬虫要抓取的文件各种各样,比如有h t m l 、x m l 网页,有d o c 、p p t 、x l s 、p d f 等带格式的文档,有图片、音频、视频等多媒体数据,对这些不同类型文件网络爬虫都要提 取出文件里的纯文本内容。 对于d o e 、p d f 等文档,这种由专业厂商提供的软件生成的文档,厂商都会提供相应的 文本提取接口。对于h t m l 、x m l 网页来说,除了标题和正文以外,会有许多版权信息、 广告链接以及公共的频道链接,这些链接和文本正文一点关系也没有,在提取网页内容的时 候,也需要过滤这些无用的链接。对于多媒体、图片等文件,一般是通过链接的锚文本( 即, 链接文本) 和相关的文件注释来判断这些文件的内容。另外,许多多媒体文件中有文件属性, 考虑这些属性也可以更好的了解文件的内容。对于网页内容的提取一般采用插件的形式,通 过一个插件管理服务程序,遇到不同格式的网页采用不同的插件处理。这种方式的好处在于 扩充性好,以后每发现一种新的类型,就可以把其处理方式做成一个插件补充到插件管理服 务程序之中。 硬件投入、抓取速度、一次抓取时间、抓取数据量等估算 孙子日:凡是预则立,不预则废。强调计划的重要性。很多事情也要做到心中有数。设 计一个网络爬虫一定要考虑抓取1 0 亿网页需要多长时间,需要多少硬盘来存,需要多少服 务器来抓等。这些都可以通过估算得到一个最好最大值的。例如:抓取时应该使用多少台 机器以及一台机器启动多少抓取进程线程呢? 这里要考虑硬件资源情况有:1 ) 局域网带宽:发送速率;2 ) 互联网接入带宽;3 ) 局 域网时间延迟:1 1 0i l l s ;4 ) 互联网时间延迟:1 0 0 5 0 0i l l s ;5 ) 服务器端接收请求、响 应时间;6 ) c p u 利用率;7 ) 内存大小以及利用率;8 ) 硬盘大小以及读写速度;9 ) 系统 负载情况 8 东南大学硕士学位论文 2 1 2 聚焦爬虫 由于( 1 ) 不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所 返回的结果包含大量用户不关心的网页;( 2 ) 通用搜索引擎的目标是尽可能大的网络覆盖率, 有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深;( 3 ) 万维网数 据形式的丰富和网络技术的不断发展,图片、数据库、音频视频多媒体等不同数据大量出 现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发 现和获取;( 4 ) 通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查 询。 为了解决上述问题,定向抓取相关网页资源的聚焦爬虫【1 7 ,1 8 】( f o c u s e dc r a w l e r ) 应运而 生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上 的网页与相关的链接,获取所需要的信息。与通用爬虫( g e n e r a jp u r p o s ew e bc r a w l e r ) 不 , 聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主 题的用户查询准备数据资源。 聚焦爬虫工作原理及关键技术 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎 的重要组成。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关 的链接,保留有用的链接并将其放入等待抓取的u r l 队列。然后,它将根据一定的搜索策 略从队列中选择下一步要抓取的网页u r l ,并重复上述过程,直到达到系统的某一条件时 停止,如图1 m ) 所示。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过 滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果 还可能对以后的抓取过程给出反馈和指导。 相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题: ( 1 ) 对抓取目标的描述或定义; ( 2 ) 对网页或数据的分析与过滤; ( 3 ) 对u r l 的搜索策略。 抓取目标的描述和定义是决定网页分析算法与u r l 搜索策略如何制订的基础。而网页 分析算法和候选u r l 排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关 键所在。这两个部分的算法又是紧密相关的。 聚焦爬虫抓取目标描述 现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领 域概念3 种。基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据 种子样本获取方式可分为: ( 1 ) 预先给定的初始抓取种子样本; ( 2 ) 预先给定的网页分类目录和与分类目录对应的种子样本,如y a h o o ! 分类结构等 ( 3 ) 通过用户行为确定的抓取目标样例,分为:a ) 用户浏览过程中显示标注的抓取样 本;b ) 通过用户日志挖掘得到访问模式及相关样本。 其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征,等等。现有的 聚焦爬虫对抓取目标的描述或定义可以分为基于目标网页特征,基于目标数据模式和基于领 9 东南大学硕士学位论文 域概念三种。基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。具体 的方法根据种子样本的获取方式可以分为: ( 1 ) 预先给定的初始抓取种子样本; ( 2 ) 预先给定的网页分类目录和与分类目录对应的种子样本,如y a h o o ! 分类结构等; ( 3 ) 通过用户行为确定的抓取目标样例。其中,网页特征可以是网页的内容特征,也 可以是网页的链接结构特征,等等。 2 2 语义网爬虫 语义网爬虫也称为语义网数据采集系统,它也是一种聚焦爬虫。因此在采集过程中, 我们同样需要1 ) 描述抓取的目标;2 ) 分析过滤数据;3 ) 描述采集策略。语义网爬虫采集 的是语义网文档( 如,t d f 文档或者o w l 文档) 或者片段( 嵌入在网页中,w 3 c 对此已有些 规范,如r d f a 1 9 】,g r d d l t 2 0 1 ) 。由于语义网数据的分布特性,为了能够较高效率地采集到 语义网的数据,我们首先采用了一些启发式的采集策略过滤掉一些不相关的网页( 如,普通 网页或是图片) ,采集到可能为语义网数据的一些数据,并最终通过分析处理模块得到确定 的语义网数据。 下面列举了一些有文献记载的语义网爬虫: ( 1 ) e b e r h a r t sr d fc r a w l e r 2 1 l 于2 0 0 2 年采集了1 , 4 7 9 个语义网文档; ( 2 ) o n t o k h o j 2 2 】于2 0 0 3 年采集了4 1 8 个语义网本体。 ( 3 ) d a m lc r a w l e r a 瞄】于2 0 0 4 年采集到2 1 ,0 2 1 个d a m l 文档。 ( 4 ) s c u u e i i 冽于2 0 0 5 年采集到1 5 0 万的f o a f 文档。 ( 5 ) m u l t i c r a w l e r 2 5 l 中提出了一个管型结构的采集与索引模型( a p i p e l i n e d a r c h i t e c t u r ef o rc r a w l i n ga n di n d e x i n gs e m a n t i cw e bd a t a ) ,如图2 2 。 图2 2 采集与索引语义网数据的五个阶段 图2 2 示的采集与索引语义网数据的五个阶段分别是获取( f e t c h ) 、发现( d e t e c t ) 、转 换( t r a n s f o r m ) 、索引( i n d e x ) 和提取( e x t r a c t ) 在获取( f e t c h ) 阶段,我们从万维网获得 数据;在发现( d e t e c t ) 阶段,我们判断数据的类型,如r d f 、w s d l 、g i f 等等;在转换 ( t r a n s f o r m ) 阶段把数据转换成通用的数据格式,这一阶段是区别于传统文本索引的关键阶 段;索引( i n d e x ) 阶段是建立索引,提取( e x t r a c t ) 阶段用于发现更多的数据资源。它于 2 0 0 5 年采集了7 8 。0 3 8 个文档。 前四个介绍的语义网爬虫采集的数据量不大,而且采集数据缺乏多样性( 如,s e u t t e r 只是采集了f o a f 的文档) 。第五个介绍的m u l t i c r a w l e r 是s w s e 语义网数据搜索引擎中的 采集系统。 3 h t t p :w w w d a m l o r g c r a w l e r 4 h t t p :w w w s w s e o r e , 1 0 东南大学硕士学位论文 第三章语义网数据采集系统的设计 3 1 相关概念 首先我们需要解释语义网数据、语义网文档和r d f 图的概念。 定义1 语义网数据是指在w e b 上提供以r d f ,o w l 等语言描述的具有语义信息的资 源。目前w e b 上大量的r d f 信息来源于r d 删l 文档或者嵌入r d f 信息的w e b 文档; 某些w e bs e r v i c e 提供基于r d f 的信息服务,我们也将其称为语义网资源。另外,语义网数 据还包括了嵌入r d f 信息的图像、视频等多媒体文件。 定义二语义网文档( s e m a n t i cw e bd o c u m e n t ) 是能够被网络用户和软件获取的使用 语义网语言( 基于r d f 的语义网语言,例如,r d f s 、d a m l + o i l 、和o w l ) 编写的文档。 类似于信息检索里的文档,语义网文档是语义网中信息交换的基本单位。 目前主要有两种语义网文档,一种是用来描述概念的概念层语义网文档,还有一种是实 例层语义网文档。这就像面向对象中的类与实例的关系。概念层语义网文档定义新的术语 ( t e r m ,例如,新的类和属性) 或通过加入新的属性或约束延伸其他语义网文档术考韵定义。 实例层语义网文档描述或声明个体实例( i n d i v i d u a l ) ,或是声明在其它语义网文档中描述的 个体实例5 。 举个例子来说,语义网文档h t t p :x m l n s c o m f o a f 0 1 i n d e x r d f 一被认为是一个概念层的语 义网文档,因为在它的4 6 6 个声明( s t a t e m e n t ) 当中定义了1 2 个类和5 1 个属性,并且没有 任何的实例描述。而语义网文档h t t p :u m b c e d u 一f l n i n f o a f r d f 贝, l j 被认为是实例层的语义网文 档因为他描述了3 个个体实例,而没有定义或是扩展任何t e r m 。 这两种极端情况之间,有一些语义网文档既定义了t e r m ,又描述了一些个体实例。而 我们是按照定义t e r m 与描述实例的比例来划分概念层语义网文档与实例层语义网文档的。 我们引入语义网文档的概念在于对于我们的采集系统而言,语义网文档是我们采集数据 的基本单元。对于r d f a 、g r d d l 这些嵌入在网页中的语义网数据,我们的采集系统目前 并没有涉及。 定义三r d f 图( r d fg r a e # ) :我们知道r d f 的基
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 家具清洗活动方案
- 品牌故事 培训课件
- 变化培训课件
- 矿山教育培训课件
- 直播培训课件设计
- 扶壁式挡土墙施工方案
- 2025年时尚零售行业快时尚模式产品生命周期管理策略报告
- 医疗与医药行业:互联网医院商业模式与竞争格局研究报告001
- 2025年资源型城市绿色转型与绿色建筑产业政策优化报告
- 2025年能源行业智能电网在能源互联网中的应用与挑战报告
- CMBS尽调清单目录
- 机械原理课程设计-自动打印机设计说明书
- 建设工程消防设计审查申报表
- 2020新版个人征信报告模板
- FBI教你破解身体语言(完整版)(54页)ppt课件
- 内科护理学消化系统试习题及答案
- 华北电力大学-任建文-电力系统PPT(第1章)
- 《文殊真实名经》
- 对敏视达雷达回波进行基于PHIDP的dBZ和ZDR订正_2014年4月5日~18日
- 苏教版五年级数学下册-复习知识点整理资料(共9页)
- 利乐无菌试验
评论
0/150
提交评论