已阅读5页,还剩50页未读, 继续免费阅读
(计算机应用技术专业论文)基于soa的网络信息资源采集系统的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华北电力大学硕士学位论文 摘要 互联网是当今世界上最大的信息库和传播信息的最主要渠道,但是由于信息数 据量巨大、整合程度低等特点,限制了对其蕴涵价值的挖掘,如何高效地采集有价 值的网络信息资源,成为当前研究的热点。针对采集系统中的难点,在对本体等相 关技术深入研究的基础上,本文提出了基于目录树的网络资源采集算法与基于本体 和可视化规则的抽取模型,结合网络科技资源应用集成环境建设项目的技术方案和 需求说明,设计并实现了基于s o a 的网络信息资源采集系统,为获取网络信息资源 提供了一个可行的方案。通过实际项目的应用,验证了系统的可行性和高效性。 关键词:信息采集,服务,目录树,本体 a b s t r a c t i n t e r n e ti st h em o s ti m p o r t a n tc h a n n e lt ot r a n s m i ti n f o r m a t i o na st h el a r g e s t i n f o r m a t i o nd a t a b a s ei nt h ew o r l d h o w e v e r , t h ec h a r a c t e r i s t i c so fi n f o r m a t i o ns u c ha s t r e m e n d o u sv o l u m eo fd a t a , al o wd e g r e eo fi n t e g r a t i o n ,a n ds oo n ,r e s t r i c tu st of u l l y m i n i n gt h ev a l u eo ft h ei m p l i c a t i o no fi n f o r m a t i o n h o wt og a i nt h ev a l u a b l ei n f o r m a t i o n e f f e c t i v e l yh a sb e c o m et h eh o ti s s u ei nc o m p u t e ri n d u s t r y f u l l ys t u d y i n go nt h e o n t o l o g yt e c h n o l o g y , t h ep a p e rp u t sf o r w a r dac r a w l e ra l g o r i t h mb a s e do nd i r e c t o r y t r e ei nn e t w o r ki n f o r m a t i o nr e s o u r c e sa n dt h ef e t c hm o d e lb yv i s u a l i z a t i o nr u l e st o s o l v et h ep r o b l e m so nw e b - p a g el i n ka n dt e x te x t r a c t i o n a n dw i t ht h et e c h n i c a lp r o g r a m d e m a n do ft h e 刍r d je c to fr e s o u r c ei n t e g r a t ei ns c i e n c ea n dt e c h n o l o g y ( r i s t ) , s e r v i c e o r i e n t e dn e t w o r ki n f o r m a t i o nc r a w l i n gs y s t e mi sd e s i g n e da n dr e a l i z e dt o i n t e g r a t et h en e t w o r kr e s o u r c e se f f e c t i v e l y t h i ss y s t e mh a sp r o v e dt h ef e a s i b i l i t ya n d p r a c t i c a l i t yb ya p p l i c a t i o ni nr i s t l i uz h o n g q i a n g ( c o m p u t e ra p p l i c a t i o nt e c h n o l o g y ) d i r e c t e db yp r o f l i uc h a n g a n k e yw o r d s :i n f o r m a t i o nc r a w l i n g ,s e r v i c e ,d i r e c t o r yt r e e ,o n t o l o g y 华北电力大学硕士学位论文 摘要 互联网是当今世界上最大的信息库和传播信息的最主要渠道,但是由于信息数 据量巨大、整合程度低等特点,限制了对其蕴涵价值的挖掘,如何高效地采集有价 值的网络信息资源,成为当前研究的热点。针对采集系统中的难点,在对本体等相 关技术深入研究的基础上,本文提出了基于目录树的网络资源采集算法与基于本体 和可视化规则的抽取模型,结合网络科技资源应用集成环境建设项目的技术方案和 需求说明,设计并实现了基于s o a 的网络信息资源采集系统,为获取网络信息资源 提供了一个可行的方案。通过实际项目的应用,验证了系统的可行性和高效性。 关键词:信息采集,服务,目录树,本体 a b s t r a c t i n t e r n e ti st h em o s ti m p o r t a n tc h a n n e lt ot r a n s m i ti n f o r m a t i o na st h el a r g e s t i n f o r m a t i o nd a t a b a s ei nt h ew o r l d h o w e v e r , t h ec h a r a c t e r i s t i c so fi n f o r m a t i o ns u c ha s t r e m e n d o u sv o l u m eo fd a t a , al o wd e g r e eo fi n t e g r a t i o n ,a n ds oo n ,r e s t r i c tu st of u l l y m i n i n gt h ev a l u eo ft h ei m p l i c a t i o no fi n f o r m a t i o n h o wt og a i nt h ev a l u a b l ei n f o r m a t i o n e f f e c t i v e l yh a sb e c o m et h eh o ti s s u ei nc o m p u t e ri n d u s t r y f u l l ys t u d y i n go nt h e o n t o l o g yt e c h n o l o g y , t h ep a p e rp u t sf o r w a r dac r a w l e ra l g o r i t h mb a s e do nd i r e c t o r y t r e ei nn e t w o r ki n f o r m a t i o nr e s o u r c e sa n dt h ef e t c hm o d e lb yv i s u a l i z a t i o nr u l e st o s o l v et h ep r o b l e m so nw e b - p a g el i n ka n dt e x te x t r a c t i o n a n dw i t ht h et e c h n i c a lp r o g r a m d e m a n do ft h e 刍r d je c to fr e s o u r c ei n t e g r a t ei ns c i e n c ea n dt e c h n o l o g y ( r i s t ) , s e r v i c e o r i e n t e dn e t w o r ki n f o r m a t i o nc r a w l i n gs y s t e mi sd e s i g n e da n dr e a l i z e dt o i n t e g r a t et h en e t w o r kr e s o u r c e se f f e c t i v e l y t h i ss y s t e mh a sp r o v e dt h ef e a s i b i l i t ya n d p r a c t i c a l i t yb ya p p l i c a t i o ni nr i s t l i uz h o n g q i a n g ( c o m p u t e ra p p l i c a t i o nt e c h n o l o g y ) d i r e c t e db yp r o f l i uc h a n g a n k e yw o r d s :i n f o r m a t i o nc r a w l i n g ,s e r v i c e ,d i r e c t o r yt r e e ,o n t o l o g y 声明尸明 本人郑重声明:此处所提交的硕士学位论文基于s o a 的网络信息资源采集系 统的研究与实现,是本人在华北电力大学攻读硕士学位期间,在导师指导下进行 的研究工作和取得的研究成果。据本人所知,除了文中特别加以标注和致谢之处外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得华北电力大学 或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均已在论文中作了明确的说明并表示了谢意。 学位论文作者签名:刭生:强日 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定,即:学校有权 保管、并向有关部门送交学位论文的原件与复印件;学校可以采用影印、缩印或 其它复制手段复制并保存学位论文;学校可允许学位论文被查阅或借阅;学校 可以学术交流为目的,复制赠送和交换学位论文;同意学校可以用不同方式在不同 媒体上发表、传播学位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名: 日 期:迦鲤捆銎,4 导师签名:必整鲎 华北电力大学硕士学位论文 1 1 研究背景及意义 第一章引言 在网络飞速发展的今天,w e b 提供了丰富的网络信息资源,人们通过i n t e r n e t 和w e b 技术可以很容易的访问世界上各个角落的数据。但现实是用户获取自己需要 的信息并不是一件容易的事。用户需要在这个不断变化、开放的信息世界里面进行 浏览、搜索、过滤、导航、收集、相关数据处理。各个数据源的数据模型、数据结 构、内容表示以及使用的概念、词汇的不同,使得人们面对如此多的异构信息源 时,很难准确找到自己所需信息。 网络信息资源数量巨大,类型多样,形式丰富,且内容广泛,但它们具有分散 性,缺乏一致性,整合程度低,信息关联不够等特点心1 ,科技工作者很难充分体现 和挖掘出其中蕴涵的价值,也制约着更高层次应用的建立和实施。这也意味着要充 分开发和利用网络信息资源,实现网络信息资源的共享并非易事。网络信息资源的 分布和流通是非均衡性的,信息价值的实现也是有条件的;信息不会必然地、无条 件地、自动地变成资源和财富口1 。网络信息资源的优势h 1 在于:它赋予了用户以强 大的信息检索和获取能力。但在实际生活中,网络信息资源并不能将这个威力显示 出来。人们在许多场合中并未感觉到使用它有很大便利。其中一个很重要的原因就 在于日常生活中的网络信息资源缺乏整合性,从而使网络信息资源难以发挥强大作 用。 只有对网络信息资源进行积极有效的整合,才能真正实现网络信息资源的有序 化,实现网络信息资源共享效用的最大化。在信息资源的整合过程中,数据采集是 必不可少的、最重要的环节。设计开发一套功能高效的数据采集模式,保证数据获 取的准确性,提高数据装载的效率,具有重大的现实意义。 1 2 发展现状 一方面网络上的信息多种多样、丰富多彩,而另一方面用户却找不到他们所需 要的信息。这样的矛盾促使一种以w e b 搜索引擎为主的,用于提取网络有效资源的 信息检索技术应运而生了。g o o g l e 、a l t a v i s t a 、天网等国内外知名的搜索引擎啼1 正 是人们为了解决网上信息检索的难题,而在信息检索领域进行大量研究后的成果。 这些搜索引擎通常使用一个或多个资源采集器从i n t e r n e t 上收集各种数据,然后在 华北电力大学硕士学位论文 本地服务器上为这些数据建立索引,当用户检索时根据用户提交的检索条件从索引 库中迅速查找到所需的信息。这些搜索引擎中常用的采集器有:s p i d e r s 、c r a w l e r s 、 w e br o b o t s 、w a n d e r e r s 等。 目前许多国家和企业的情报部门通过情报采集系统来跟踪和调查对手的情况, 收集相关信息并提出预警分析使自己立于不败之地1 。最近几年,信息采集技术在 国内的应用越来越广泛。从某个领域的科技人员到一些大的图书馆和企业,都更多 的借助于网络信息采集系统来获取自己需要的信息。特别是随着信息采集技术的发 展,用户从网上获取信息的效率不断提高,获得信息的完整性得到了很好的保障。 采集功能的完善促使许多提供信息服务的部门,纷纷建立了针对本部门的特点的网 络信息采集系统。为了促进数字图书馆网络信息资源的共建共享而建立的数字图书 馆信息采集系统口1 ;针对医学信息量大难以管理和获取的特点开发的医学信息采集 系统呻3 ;政府部门根据其政府信息的特殊性而建立的政府信息采集系统等等。这些 采集系统都极大地提高了本部门的工作效率。 为了更好的满足用户的需求,一些新的技术在信息采集过程被广泛采用。特别 是在国外,多线程技术、并发技术、信息挖掘技术等阳1 已经在信息采集领域得到了 很好的应用和发展。新技术的应用和采集功能的不断完善,使得信息采集技术不仅 仅用于知识信息的积累,也不断的向政治和军事领域扩展。 随着w e b 服务种类和质量的不断提高,人们对信息采集系统的要求也越来越 高。但是目前国内大多数的信息采集系统都是针对某一特定的部门( 如政府机构、 图书馆等) 而专门设计的,功能单一,不能满足大多数用户的需求。s o a ( s e r v i c e o r i e n t e da r c h i t e c t u r e ,面向服务的架构) 思想的提出和技术的广泛应用n0 1 ,使得基 于s o a 部署企业应用已经成为企业公认的发展趋势,越来越多的企业和组织机构开 始考虑应用s o a 架构。所以在s o a 架构下进行网络信息的采集将具有普遍的实际 意义。 1 一主要研究内容 本文的研究工作在项目“网络科技资源应用集成环境建设 的资助下进行。“网 络科技资源应用集成环境建设项目来源于国家科技基础条件平台应用服务支撑系 统。项目针对面向科技领域的资源信息,为整个国家科技基础条件平台的科技信息 提供支撑环境。本文的工作主要实现网络信息资源的汇集等相关工作。 根据项目需求,本文对网络信息资源的特点和信息采集的原理进行了调研和分 析,重点研究了搜索引擎和爬虫中采集器的抓取算法和策略,提出了基于目录树的 网络资源采集算法与基于本体和可视化规则的抽取模型;通过对面向服务的架构思 2 华北电力大学硕士学位论文 想和o n t o l o g y 、正则表达式等技术的深入研究,提出了面向服务的采集体系架构, 并设计实现了基于s o a 的网络信息资源采集系统。 针对上面内容进行了以下方面的相关工作: 1 ) 广泛调研和分析网络信息的特点,对多种搜索引擎和开源爬虫的采集原理 进行了深入的研究。最初的网络信息采集n 通常是借助各种搜索引擎来完成的,是 从异构数据源收集信息进而转换为用户需要的信息的过程。作为一个概念,从其最 初的查询、存储信息的简单能力逐渐上升为_ _ 个综合性的概念,包含了丰富的内在 意义。 2 ) 深入的研究了s o a 和w e bs e r v i c e s 技术,重点对面向服务的体系架构进行 分析,进而将面向服务的思想应用到信息采集系统中,提出了面向服务的网络信息 资源采集架构,并对架构作了详细的分析和说明。 3 ) 针对网络科技资源的特点和资源网站的既定分类方式,提出一种目录树采 集算法。通过对现有采集算法的深入研究,详细分析网站链接之间的层次关系,构 建站内链接的目录层次结构和基于本体技术的分类目录树,按照目录树的结构有层 次的采集网络信息资源。 4 ) 深入的研究了网页内容的抽取技术,结合本体和正则表达式等技术提出了 一种基于本体和可视化规则的抽取模型。首先通过对页面内容的预处理及分析后, 形成抽取过程中遵循的规则;同时,用o n t o l o g y 建立数据模型,把可能抽取的信息 项映射到o n t o l o g y 中的元素上。将抽取规则与o n t o l o g y 中的对象进行对应,实现网 页内容的抽取。 5 ) 采用面向服务的采集体系结构,结合目录树算法及基于本体和可视化规则 的抽取模型,设计实现一个基于s o a 的网络信息采集系统,并对系统的总体结构进 行了详细分析;通过在网络科技资源应用集成环境建设项目中的应用,验证了系统 的可行性和高效性。 1 4 本文的组织结构 本文主要研究如何实现基于s o a 的网络信息采集系统,全文共分六章。 第一章首先介绍本课题的研究背景、意义和发展现状,然后阐述本文研究的主 要内容及本文的组织结构。 第二章首先研究面向服务的架构( s o a ) ,在深入研究和讨论其主要实现技术 w e bs e r v i c e s 的基础上,提出面向服务的采集体系架构,并对采集架构进行了分析 和说明。 第三章研究和分析现有的采集算法,结合项目需求提出了一种基于目录树的网 3 华北电力大学硕士学位论文 络信息资源采集算法,对算法的结构进行详细分析;最后通过实验验证该算法的性 能。 第四章研究和设计网络科技领域本体,对本体的定义、构建、结构及可视化规 则的形成过程进行深入分析的基础上,提出一种基于本体和可视化规则的抽取模 型,最后进行模型的性能测试。 第五章将目录树算法及基于本体和可视化规则的抽取模型与面向服务的体系 机构相结合,设计并实现基于s o a 的网络信息资源采集系统,并对该系统在实际项 目中的应用情况进行介绍。 第六章对本论文的工作进行总结,同时也提出了下一步需要做的工作。 4 华北电力大学硕士学位论文 第二章系统架构设计 本章首先对面向服务的架构和w e bs e r v i c e s 技术进行研究,然后将面向服务的 思想和网络信息资源采集相融合,提出面向服务的网络信息资源采集架构,并对架 构进行分析和说明。 2 1 面向服务的体系结构 面向服务的体系结构( s e r v i c e o r i e n t e da r c h i t e c t u r e ,s o a ) 是一种体系结构风 格n 扣。它将应用程序的不同功能单元一服务( s e r v i c e ) ,通过服务间定义良好的接口和 契约( c o n t r a c t ) 联系起来。接口采用中立的方式定义,独立于具体实现服务的硬件平 台、操作系统和编程语言,使得构建的系统中的服务可以使用统一和标准的方式进 行通信。 s o a 采用面向服务的软件封装技术, 现( s e r v i c ei m p l e m e n t a t i o n ) 的方式呈现, 它以服务接口( s e r v i c ei n t e r f a c e ) 和服务实 它的三个基本要素是服务描述、服务发现 和服务调用 1 3 9 如图2 1 所示。从技术角度讲,s o a 是一个组件模型,以x m l 技 术为基础,通过使用w s d l 协议( w e bs e r v i c e sd e f i n i t i o nl a n g u a g e ,基于x m l 格 式的w e bs e r v i c e s 描述语言) 来描述接口。s o a 不仅仅是一个软件开发框架而且还 是一个业务开发框架。它能够将不同类别、不同平台的服务结合在一起,动态地、 实时地更新维护一个跨区域的多功能的应用实体。 图2 1 面向服务的体系结构组成 w e bs e r v i c e s 是一种实现s o a 的构架技术【1 4 1 ,是建立在开放标准和独立三一 的协议基础之上的分布计算单元。w e bs e r v i c e s 通过w s d l 协议定义服务接口,使 用u d d i 协议进行w e bs e r v i c e s 注册和查找。所有这些特性使得它是目前实现s o a 5 华北电力大学硕士学位论文 的最好方式之一。基于w e bs e r v i c e s 的动态发现、配置和即时集成所提供的服务, 已成为i n t e r n e t 上的应用主流。图2 2 是w e bs e r v i c e s 协议栈匹配s o a 的结构图。 ( s o a 功能元素) ( w e bs e r v i c e s 的协议栈) 业务流程 - i w s x l 、w s f l 服 务 j i t 务- u d d i 注 册 服务描述w s d l 中 服务通讯协议 卜 s o a p ,x m l 心 传输l h t t p 、f t p 、m q 图2 - 2w e b 服务到s o a 的映射 w e b 服务的体系结构是一种面向服务的体系结构n 引。它的主要思想就是未来的 应用将由一组应用了网络的服务组合而成,所有东西都是服务,这些服务发布一个 应用程序接口提供给网络中的其它服务使用,并且封装了实现细节。w e b 服务的体 系结构如图2 3 所示。 务; 图2 - 3 面向服务的体系结构 从图2 3 可以看出,这一体系结构有3 种角色: 1 ) s e r v i c ep r o v i d e r :发布自己的服务,并且对使用自身服务的请求进行响应; 2 ) s e r v i c eb r o k e r :注册已经发布的服务提供者,对其进行分类,并提供搜索服 3 ) s e r v i c er e q u e s t e r :利用服务代理查找所需的服务,然后使用该服务绑定。 在这些角色之间使用了以下3 种操作: 1 ) p u b l i s h 操作:使服务提供者可以向服务代理注册自己的功能及访问接1 :3 ; 2 ) f i n d 操作:使服务请求者可以通过服务代理查找特定种类的服务; 6 华北电力大学硕士学位论文 3 ) b i n d 操作:使服务请求者能够真正使用服务提供者所发布的服务。 为了支持这3 种操作,w e b 服务使用w s d l ( w e b 服务描述语言) 文档来对服 务进行描述。w s d l 文档用于描述服务以及如何使用s o a p 来调用w e b 服务,比如 服务的属性、它用来干什么、它的位置以及调用方法等。w s d l 是一种x m l 应用, 它把w e b 服务描述定义为一组服务访问点,客户端可以通过这些服务的访问点对 服务进行调用。它首先对访问的操作和访问时所使用的请求响应消息进行抽象, 随后将其绑定到具体的传输协议和消息格式上,从而最终定义服务访问点。相关服 务访问点的集合就构成了抽象的w e b 服务。 2 2 面向服务的采集架构设计与分析 综合考虑以上因素,结合项目的实际需求,本文设计了基于s o a 的网络信息资 源采集架构,图2 4 为系统整体架构。 图2 _ 4 基于s o a 的网络信息资源采集架构 架构采用面向服务的体系结构,通过资源封装工具,将需要封装的信息字段封装 为服务,保存到系统的资源库中并对外发布。这些服务由w s d l 文件进行描述并对 外提供服务访问点,客户端通过服务访问点对服务进行调用,通过服务的注册和 调用实现网络科技资源的采集功能。 架构中定义的服务分为功能服务和事务服务两种类型。事务服务包括用户注册服 务、用户验证服务和系统安全性服务等,主要实现用户的登陆、注册、验证及系统 7 华北电力大学硕士学位论文 的安全性和可操作性等操作;功能服务主要包括采集策略配置服务、链接抽取服务、 正文抽取服务和信息过滤服务等。这些功能服务主要实现的功能如下。 2 2 1 采集策略配置 采集配置即采集策略中的参数配置,实现对多个采集策略的配置管理,主要设 定参数包括:策略名称、采集线程数、采集深度、相似度、链接文件地址、索引文 件地址等。针对不同特性的网站采用不同的采集策略,将直接影响采集效率和采集 内容的精确度。 主要配置参数及说明包捕。 1 ) 线程数:采集线程个数; 2 ) 深度:采集层数,第一层为起始链接; 3 ) 相似度:抓取链接列表中链接数,对抓取大信息量的网站有效; 4 ) 链接文件地址:链接文件的存放路径; 5 ) 索引文件地址:索引库文件的存放路径。 2 2 2 采集算法研究 信息采集主要借助于各种搜索引擎来完成,而采集算法程序则是搜索引擎中的 核心部分。采集算法的效率对系统采集效率的影响将是巨大的。设计高效的采集算 法,提高链接获取的速率和准确度,是本文第三章的研究重点。 2 2 3 正文抽取模型研究 主要获取网页信息中除了链接之外的核心信息,即获取网页中有价值的内容。 从w e b 网页上的信息中抽取用户所感兴趣的数据,并将这些数据转换成结构化的并 且语义更加清晰的格式,方便用户以后的使用。 准确有效地提取已爬行下来的网页的正文对采集系统来说是非常重要的。首 先,虽然u r l 被预测为有效的,但实际爬行下来的页面内容可能杂乱不堪,这就需 要对页面正文进行相关性识别。其次,在系统中需要对相关性高于设定值的文本加 入到训练样本中进行再学习,网页提取得越精确,训练效果就越好。再则,可以给 用户提供更直接、更精确的内容,以免广告或其他信息的干扰。本文第四章将针对 这些问题展开研究。 8 华北电力大学硕士学位论文 2 2 4 网页查重处理 互联网是当今世界上最大的信息库和传播信息的最主要渠道,为广大用户提供 了一个巨大价值的、广阔的获取信息的渠道。但互联网中不乏许多转载、重复的信 息,在这浩大的数据中寻找我们需要的信息无异于是大海捞针。虽然搜索引擎可以 帮助我们在互联网上找到需要的信息,但现在的搜索引擎技术并不完善,存在一些 亟待解决的问题,最主要的问题是当我们在网上使用搜索引擎寻找需要的内容时, 得到的结果中存在着大量的重复链接和死链接,这使得用户处理起来很不方便,如 果是死链接,不需要处理就直接关闭;但如果是重复的信息,还需要仔细分析才会 发现已经看过了,这样既浪费时间又浪费精力。 无效资源的存在对采集系统的采集结果和效率有着较大的影响,主要表现在检 索的正确率和召回率较低等方面。所以,需要在采集过程中进行查重操作,只采集 有效的信息资源。对于海量信息,若单单依靠人工处理,不仅耗费宝贵的人力资源, 而且时效性也不能满足实际需要。如何有效的判断两个页面的相似度进而准确的识 别重复页面,提高采集系统的采集效率和精确度,将是本节的研究重点。 本文总结了互联网中网页的特点,文中主要分析网页在重复方面的特点,归纳 如下。 1 ) 重复率高 由于网页转载非常容易,因此网页的重复主要来自转载。受用户兴趣的驱动, 许多网络资源,如经典的文章、新闻网页等信息在流通过程中很容易引起人们的关 注。人们经常通过复制或转载的方式进行信息的共享。 2 ) 存在噪声 转载时一般都原样照搬,保持文本内容和结构的一致,并尊重版权,在开头加 入了引文信息。可是引文会导致复制的文本与原文不完全一致,这种造成转载文章 与原文不同的情况一般称为网页噪声n 引。还有一些其它情况也可能引入噪声,如一 般各个网站网页的生成环境和版面的风格各不相同,转载的文本有时还需要在h t m l 和x m l 语言内部格式之间进行转换,造成内部格式的不完全一致。另外,插入的广 告图片也是噪声的主要来源。 3 ) 局部性明显 主要表现在转载内容的局部性和转载时间的局部性。前者是指转载的内容主要 偏向于人们关注的热点且权威网页,其他网页转载的相对较少;后者是指转载的时 间比较集中,一般在几天内进行转载,十天以后再进行转载的几率则很少,即转载 的概率受时间影响较大。 针对以上特点,本文设计的系统主要从网页链接地址和网页正文内容两个方面 9 华北电力大学硕士学位论文 进行重复网页的剔除操作,保证系统的采集效率。 1 ) u r l 查重分析方法 通过分析u r l 来进行网页相似性的检测主要是对u r l 的结构n 刀进行分析,对 u r l 的构成进行深入的了解是非常必要,u r l 一般由三个部分构成: 服务器标识符 通过选择服务器标识符能够确定将要访问的服务器类型,u r l 中的服务器标识 符可以有h t t p :、f t p :、t e l n e t :h 等多种。 信息资源地址 信息资源地址由两部分构成。一是机器名称,如w w w n c e p u e d u c n 是用来指示 资源所存在的机器;另一个是通信端口号,指连接时所使用的通信端口号,一般情 况下使用的是标准端口号。 路径名 路径名是表示资源在机器上的完整文件名,一般情况下,只有用户知道所要找 的资源在什么地方时才会给出这个选项。如h t t p :w w w n c e p u e d u c n i n d e x x m l 等。 对于一个采集系统来说,其u r l 库通常是百万到千万数据量级的,所以对u r l 的查重将是一项非常重要而繁重的任务。通常的做法是直接用u r l 作为数据库的 k e y 进行查重对比,查重的效率低下,极大的影响采集速度。通过分析研究,本文 以u r l 算成后的3 2 位定长字符串作为k e y 来建索引。试验证明,该方法可以有效 的加快查重的速度。 2 ) 网页内容查重分析方法 内容分析方法一般都是基于摘要、基于关键词、基于主题等。本文采用的是基 于摘要的内容分析方法一信息摘要算法u 引,即提取一个网页的特征,通常是一组词 或者一组词权重,然后调用相关的算法,将这组词转化为一组代码,这组代码就成 为标识这个信息的指纹。从理论上讲,每两个不同文本的特征信息是不同的,那么 得到的代码也应该是不一样的,就像人的指纹,不同人的指纹是不同的。信息摘要 算法的基本思想是:为每个文档计算出一组指纹,如果两个文档拥有一定数量的相 同指纹,那么就认为这两个文档内容的重复度是比较高的,也就可以认为这两个文 档是相似的。这种方法跟内容相关,准确性比较高。 信息摘要算法主要分以下几个步骤: 将页面内容分解成若干个组成文档的特征文档对象,由若干组成文档的特 征集合表示,进行特征的相似度计算和比较。 特征的压缩编码,通过h a s h 编码等文本向数字串映射方式,方便后续的特 征存储以及特征比较。同时可以起到减少存储空间,加快比较速度的作用。 文档相似度计算,根据文档特征重合比例来确定是否重复文档。 1 0 华北电力大学硕士学位论文 2 3 主要功能模块关系说明 架构中的主要功能模块包括:采集策略配置模块、网页链接提取模块、网页内 容提取模块和网页查重模块,各模块之间的关系如图2 5 所示。 图2 5 主要功能模块关系图 系统运行过程中,以起始链接为起点,每当访问一个页面就自动提取该页面中 出现的所有新的链接,然后再以这些新的链接为起点,继续访问,直到没有出现满 足条件为止,并且可以根据标题或者分析整个页面提取需要的信息。其中,采集策 略和网页查重功能将贯穿整个采集过程。 2 4 小结 本章在分析和研究了s o a 的基础上,将面向服务的架构思想与资源采集相融 合,提出了面向服务的网络信息资源采集架构。架构将采集功能模块封装为服务, 由服务描述语言对服务进行描述并对外提供服务访问点,采集客户端通过服务访问 点对服务进行调用,实现网络科技资源的采集功能。 华北电力大学硕士学位论文 第三章基于目录树的采集算法研究 本章首先对现有算法进行深入的研究,在分析网络科技领域资源分类方式多样 化、数据量大等特点的基础上,提出了一种基于目录树的采集算法,最后通过实验 验证该算法的性能。 3 1 目录树采集算法的提出 当今互联网发展迅猛,科技领域信息资源异常丰富,充分利用网络,重视科技 资源的开发利用是当前科研人员的重要工作之一。网络科技资源的开展和利用是科 技创新的基础,科技人员的创新能力在很大程度上取决与科技信息资源的利用程 度。挖掘网络科技资源不仅为科技人员研究开发提供可靠而丰富的信息,节省其大 量查阅文献的时间,而且可以为科研立项和科技成果的鉴定、评估、验收等提供客 观依据,针对网络科技资源的信息采集具有非常重要的意义。 通常信息采集主要借助于各种搜索引擎来完成,而采集算法程序则是搜索引擎 中的核心部分。随着网络资源的不断扩增和人们对专业领域信息检索服务需要的日 益增长,被通用搜索引擎所广泛采用的遍历搜索策略( 如广度优先算法) 已经不再 适用。面对网络科技资源分类复杂、数量巨大等特点,传统搜索引擎效率低下,这 使得网络上的科技信息资源得不到充分地利用。 网络科技资源的特点主要有: 1 ) 分类方式多样化。每个资源网站有各自的分类标准,但单个网站分类目录明 确,层次较清晰,每个分类目录下的资源类别较为统一。 2 _ ) 数据量巨大,增长迅速。全互联网提供的科技信息总量成指数级增长n 明。 3 1 时效性强,科技资源通过超文本系统和h t m l 置标语言,将各种信息内容 集中在统一易用的用户界面上,方便用户存取和利用。 针对网络信息资源的特点,结合网络信息资源应用集成环境建设项目的任务需 求,通过采集i n t e m e t 上的科技资源来汇集大量的科技类数据,经过加工处理,构 建资源目录服务系统,将共享资源呈现给用户。本节提出的目录树采集算法,就是 根据资源网站的既定分类方式,基于本体技术来构建分类目录树,并按照目录树的 结构有层次的采集网络科技资源。 1 2 华北电力大学硕士学位论文 3 2 目录树采集算法设计与分析 3 2 1 采集算法优劣的评价标准 网络上的采集系统数量众多、各具特色,要合理的评价一个采集体系结构的优 劣不是一件容易的事,因为其涉及的因素很多。传统的方法主要从效果性和效率性 来衡量,效果性能包括采集覆盖率、准确率等;效率性包括采集响应时间、系统稳 定性等。准确的计算采集覆盖率和准确率是不可能的,而且采集的覆盖率和准确率 是互相制约,一般采集覆盖率较高时,准确率会较低;采集覆盖率较低时,准确率 便会提高。所以往往要在两个值之间进行平衡,以达到最优的采集效果。 3 2 2 目录树采集算法的结构 分析互联网上科技资源网站的特点不难发现,相同或相似类别的数据资源往往 会在同一个子栏目中展示,如果把网站主页看作是根目录,那么可以把网站中的各 个栏目叫做子目录,把指向该栏目的链接称为子目录链接,当然不同的网站子目录 中还可能嵌套多个子目录;栏目下的各个资源条目叫做叶子节点,把指向资源条目 的链接称为节点链接,同一栏目下的节点链接互称兄弟节点链接。采集时,按照从 根目录到子目录,再到叶子节点的顺序有层次性的进行采集工作。图3 1 为本文设 计的基于本体的目录树采集体系结构。 i i 目 举趸v 1 1 种子链接i 目录链接i! -录 l i 链 i 。 提取 i 接 i fi 队 l 列 用 l 领域 - i 有效目录链接f 中扣 l 更赴 本体 。 i i 知识 识别l i 户 i库 ”“。i ; i 有效节点链接卜轴 链 l i l 接 i 信 【! , 息 广二二问仕田页火删卫j 啾 一 一i i 逐凹结朱 i 库 l l 图3 1 基于目录树的采集体系架构 1 3 华北电力大学硕士学位论文 1 ) 针对该体系结构作以下说明: 逐层过滤链接的策略,通过分析网站链接之间的层次关系,构建站内链接 的目录层次结构,并以此为据进行网络资源的采集。 链接信息库,保存u r l 链接之间的相互链接关系,u r l 字符串及链接周围 的锚文本提示信息,以及采集过程中的切虬链接状态记录。链接信息库的结构设计 如图3 2 所示。 t b l e l 总表 序号种子链接表名 l 网址1 t a b l e l 2 网址2 t b l e 2 3 网址3 t j b l e 3 序号链接名称锚文本类别所属状态 目录0待采集 节点 1 已采集 节点 4 已采集 1名称1i n f 0 l 2 名称2 i n f 0 2 3名称3i i 岍0 3 图3 - 2 链接信息库结构 领域本体库,在明确某领域的共享概念及其概念间的关系的基础上,构建的 本领域的概念树,主要包括类主题词表和主题词表。它可以根据在实际爬行过程中 出现的高频率新概念进行更新与维护操作。 2 ) 算法部分数据结构及参数设定: 构建一个目录链接队列a ,存放种子页面和目录链接页面提取的所有链接地 址及锚文本信息。 构建一个链接信息库,存放有效目录链接和节点链接及相关描述信息。 设定对象个数n 和相似概率n ,用来描述目录链接的锚文本信息与领域本体 库中对象的相似程度。 设定相似度b j j ,网页i 指向网页j 的链接系数。 3 ) 算法过程描述: 首先从资源网站的种子页面( 由系统给出) 出发,抽取所有链接和锚文本 信息,并存入队列a 中。 若队列a 为空,转入第步;否则,读取一条链接信息,判断该链接是否 为目录链接,若不是,将该条记录从队列a 中删除。 以领域本体知识库为依据,识别该链接是否为有效目录链接,若不是,将 1 4 华北电力大学硕士学位论文 该条记录从队列a 中删除,转入第步。 提取该目录链接指向页面中的所有链接,判断是否为目录链接,若是,转 入第步;否则,判断节点链接与目录连接和兄弟结点链接的相关度,提取有效节 点链接,按照目录链接与节点链接之间的层次关系,将所有节点链接存入链接信息 库中。 读取链接信息库中的信息,按目录层次抓取页面信息。 结束。 在采集过程中,根据用户提交的网站地址及参数信息,创建根目录,抽取首页 的所有站内链接,然后进行链接分析确定该链接的类别,若为目录链接,则以领域 本体知识库提供的本体知识作为评价依据创建目录树,并抽取页面内的所有站内链 接进行链接分析;若为节点链接,则进行页面的抓取工作,并保证相同目录下的所 有条目链接指向的页面内容保存于同一目录下。 3 2 3 目录链接的提取 w w w 上超链接结构是个非常丰富和重要的资源,如果能够充分利用的话,可 以极大的提高检索结果的质量。有的基于这种超链分析的思想的算法已经在实际的 系统中实现和使用,并且取得了良好的效果。本文将首先研究分析多种已有的链接 算法,进而提出自己的链接提取方法。 1 ) 链接分析算法综述 随机漫游模型的算法 p a g e r a n k 算法是随即漫游模型的典型算法n 盯之一。传统情报检索理论中的引文 分析方法是确定学术文献权威性的重要方法之一,即根据引文的数量来确定文献的 权威性。p a g e r a n k 对超链接结构和文献引文机制的相似性进行了综合研究,把引文 分析思想借鉴到网络文档重要性的计算中来,利用网络自身的超链接结构给所有的 网页确定一个重要性的等级数。其方法是,当从网页a 链接到网页b 时,就认为网 页a 投了网页b 一票,增加了网页b 的重要性。简单地说,p a g e r a n k 就是要从链 接结构中获取网页的重要性,而网页的重要性决定并依赖于其他网页的重要性。 p a g e r a n k 的基本思想是:一个页面被多次引用,则这个页面很可能是重要的;一个 页面尽管没有被多次引用,但被一个重要页面引用,则这个页面很可能是重要的; 一个页面的重要性被均分并被传递到它所引用的页面。 基于h u b 和a u t h o r i t y 相互加强模型的算法 h i t s 算法是一种依赖于查询式的算法n 们。算法设定每个网页有两个级别:权 威级别( a u t h o r i t y 网页,依赖于指向它的网页) 和中心级别( h u b 网页,依赖于它指向 别人的网页) 。其基本思想是建立一个与查询式相关的图。相对于某一主题,a u t h o r i t y 1 5 华北电力大学硕士学位论文 网页被认为有比较相关的内容,而h u b 网页被认为具有大量的链接指向相关内容。 如果一个网页有大量的链接指向其他网页,则这个网页就可能是一个好的h u b 网 页;一个网页如果被大量的链接所指,那么它就可能是一个好的a u t h o r i t y 网页。 基于概率模型的算法 p a g e r a n k 算法是基于用户随机的向前浏览网页的直觉知识,h i t s 算法考虑的 是a u t h o r i t i v e 网页和h u b 网页之间的加强关系。实际应用中,用户大多数情况下是 向前浏览网页,但是很多时候也会回退浏览网页。基于上述知识,r l e m p e l 和s m o r a n 提出了s a l s a ( s t o c h a s t i ca p p r o a c hf o rl i n k s t r u c t u r ea n a l y s i s ) 算法,考虑 了用户回退浏览网页的情况,保留了p a g e r a n k 的随机漫游和h i t s 中把网页分为 a u t h o r i t i v e 和h u b 的思想,取消了a u t h o r i t i v e 和h u b 之间的相互加强关系。 s a l s a 算法n 盯没有h i t s 中相互加强的迭代过程,计算量远小于h i t s 。s a l s a 算法只考虑直接相邻的网页对自身a h 的影响,而h i t s 是计算整个网页集合t 对 自身a h 的影
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年咸宁辅警招聘考试真题含答案详解(综合卷)
- 2024年兰州辅警招聘考试真题及一套参考答案详解
- 2024年东莞辅警协警招聘考试备考题库附答案详解(夺分金卷)
- 2024年大连辅警协警招聘考试真题附答案详解(夺分金卷)
- 2023年聊城辅警招聘考试题库附答案详解(突破训练)
- 2024年大足县辅警招聘考试题库及答案详解(各地真题)
- 2024年台州辅警招聘考试真题含答案详解(达标题)
- 2024年厦门辅警协警招聘考试真题及答案详解(网校专用)
- 2023年赣州辅警协警招聘考试真题附答案详解(a卷)
- 2023年荆门辅警招聘考试题库附答案详解(达标题)
- 邮件分拣业务外包管理服务方案
- DB3501-T 011-2022供水智能监控系统建设技术要求
- DL∕T 5853-2022 火力发电厂烟囱工程施工与验收规范
- 绿色建筑评价标准 DG-TJ08-2090-2020
- SYT5405-2019酸化用缓蚀剂性能试验方法及评价指标
- 咖啡师-国家职业技能标准(2022年版)(Word精排版)
- 实习生安全教育培训课件
- 2021年浙江师范大学第五届安全知识竞赛题库
- 中建EPC工程总承包项目全过程风险清单(2023年)
- 创意故事接龙
- 会厌囊肿的护理查房
评论
0/150
提交评论