（计算机应用技术专业论文）基于soa的网络信息资源采集系统的研究与实现.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-16 格式：PDF 页数：55 大小：4.90MB 积分：0 举报 版权申诉

（计算机应用技术专业论文）基于soa的网络信息资源采集系统的研究与实现.pdf_第2页

（计算机应用技术专业论文）基于soa的网络信息资源采集系统的研究与实现.pdf_第3页

（计算机应用技术专业论文）基于soa的网络信息资源采集系统的研究与实现.pdf_第4页

（计算机应用技术专业论文）基于soa的网络信息资源采集系统的研究与实现.pdf_第5页

已阅读5页，还剩50页未读，继续免费阅读

（计算机应用技术专业论文）基于soa的网络信息资源采集系统的研究与实现.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

华北电力大学硕士学位论文摘要互联网是当今世界上最大的信息库和传播信息的最主要渠道，但是由于信息数据量巨大、整合程度低等特点，限制了对其蕴涵价值的挖掘，如何高效地采集有价值的网络信息资源，成为当前研究的热点。针对采集系统中的难点，在对本体等相关技术深入研究的基础上，本文提出了基于目录树的网络资源采集算法与基于本体和可视化规则的抽取模型，结合网络科技资源应用集成环境建设项目的技术方案和需求说明，设计并实现了基于s o a 的网络信息资源采集系统，为获取网络信息资源提供了一个可行的方案。通过实际项目的应用，验证了系统的可行性和高效性。关键词：信息采集，服务，目录树，本体 a b s t r a c t i n t e r n e ti st h em o s ti m p o r t a n tc h a n n e lt ot r a n s m i ti n f o r m a t i o na st h el a r g e s t i n f o r m a t i o nd a t a b a s ei nt h ew o r l d h o w e v e r , t h ec h a r a c t e r i s t i c so fi n f o r m a t i o ns u c ha s t r e m e n d o u sv o l u m eo fd a t a , al o wd e g r e eo fi n t e g r a t i o n ，a n ds oo n ，r e s t r i c tu st of u l l y m i n i n gt h ev a l u eo ft h ei m p l i c a t i o no fi n f o r m a t i o n h o wt og a i nt h ev a l u a b l ei n f o r m a t i o n e f f e c t i v e l yh a sb e c o m et h eh o ti s s u ei nc o m p u t e ri n d u s t r y f u l l ys t u d y i n go nt h e o n t o l o g yt e c h n o l o g y , t h ep a p e rp u t sf o r w a r dac r a w l e ra l g o r i t h mb a s e do nd i r e c t o r y t r e ei nn e t w o r ki n f o r m a t i o nr e s o u r c e sa n dt h ef e t c hm o d e lb yv i s u a l i z a t i o nr u l e st o s o l v et h ep r o b l e m so nw e b - p a g el i n ka n dt e x te x t r a c t i o n a n dw i t ht h et e c h n i c a lp r o g r a m d e m a n do ft h e 刍r d je c to fr e s o u r c ei n t e g r a t ei ns c i e n c ea n dt e c h n o l o g y ( r i s t ) ， s e r v i c e o r i e n t e dn e t w o r ki n f o r m a t i o nc r a w l i n gs y s t e mi sd e s i g n e da n dr e a l i z e dt o i n t e g r a t et h en e t w o r kr e s o u r c e se f f e c t i v e l y t h i ss y s t e mh a sp r o v e dt h ef e a s i b i l i t ya n d p r a c t i c a l i t yb ya p p l i c a t i o ni nr i s t l i uz h o n g q i a n g ( c o m p u t e ra p p l i c a t i o nt e c h n o l o g y ) d i r e c t e db yp r o f l i uc h a n g a n k e yw o r d s ：i n f o r m a t i o nc r a w l i n g ，s e r v i c e ，d i r e c t o r yt r e e ，o n t o l o g y 华北电力大学硕士学位论文摘要互联网是当今世界上最大的信息库和传播信息的最主要渠道，但是由于信息数据量巨大、整合程度低等特点，限制了对其蕴涵价值的挖掘，如何高效地采集有价值的网络信息资源，成为当前研究的热点。针对采集系统中的难点，在对本体等相关技术深入研究的基础上，本文提出了基于目录树的网络资源采集算法与基于本体和可视化规则的抽取模型，结合网络科技资源应用集成环境建设项目的技术方案和需求说明，设计并实现了基于s o a 的网络信息资源采集系统，为获取网络信息资源提供了一个可行的方案。通过实际项目的应用，验证了系统的可行性和高效性。关键词：信息采集，服务，目录树，本体 a b s t r a c t i n t e r n e ti st h em o s ti m p o r t a n tc h a n n e lt ot r a n s m i ti n f o r m a t i o na st h el a r g e s t i n f o r m a t i o nd a t a b a s ei nt h ew o r l d h o w e v e r , t h ec h a r a c t e r i s t i c so fi n f o r m a t i o ns u c ha s t r e m e n d o u sv o l u m eo fd a t a , al o wd e g r e eo fi n t e g r a t i o n ，a n ds oo n ，r e s t r i c tu st of u l l y m i n i n gt h ev a l u eo ft h ei m p l i c a t i o no fi n f o r m a t i o n h o wt og a i nt h ev a l u a b l ei n f o r m a t i o n e f f e c t i v e l yh a sb e c o m et h eh o ti s s u ei nc o m p u t e ri n d u s t r y f u l l ys t u d y i n go nt h e o n t o l o g yt e c h n o l o g y , t h ep a p e rp u t sf o r w a r dac r a w l e ra l g o r i t h mb a s e do nd i r e c t o r y t r e ei nn e t w o r ki n f o r m a t i o nr e s o u r c e sa n dt h ef e t c hm o d e lb yv i s u a l i z a t i o nr u l e st o s o l v et h ep r o b l e m so nw e b - p a g el i n ka n dt e x te x t r a c t i o n a n dw i t ht h et e c h n i c a lp r o g r a m d e m a n do ft h e 刍r d je c to fr e s o u r c ei n t e g r a t ei ns c i e n c ea n dt e c h n o l o g y ( r i s t ) ， s e r v i c e o r i e n t e dn e t w o r ki n f o r m a t i o nc r a w l i n gs y s t e mi sd e s i g n e da n dr e a l i z e dt o i n t e g r a t et h en e t w o r kr e s o u r c e se f f e c t i v e l y t h i ss y s t e mh a sp r o v e dt h ef e a s i b i l i t ya n d p r a c t i c a l i t yb ya p p l i c a t i o ni nr i s t l i uz h o n g q i a n g ( c o m p u t e ra p p l i c a t i o nt e c h n o l o g y ) d i r e c t e db yp r o f l i uc h a n g a n k e yw o r d s ：i n f o r m a t i o nc r a w l i n g ，s e r v i c e ，d i r e c t o r yt r e e ，o n t o l o g y 声明尸明本人郑重声明：此处所提交的硕士学位论文基于s o a 的网络信息资源采集系统的研究与实现，是本人在华北电力大学攻读硕士学位期间，在导师指导下进行的研究工作和取得的研究成果。据本人所知，除了文中特别加以标注和致谢之处外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得华北电力大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文作者签名：刭生：强日关于学位论文使用授权的说明本人完全了解华北电力大学有关保留、使用学位论文的规定，即：学校有权保管、并向有关部门送交学位论文的原件与复印件；学校可以采用影印、缩印或其它复制手段复制并保存学位论文；学校可允许学位论文被查阅或借阅；学校可以学术交流为目的，复制赠送和交换学位论文；同意学校可以用不同方式在不同媒体上发表、传播学位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名：日期：迦鲤捆銎，4 导师签名：必整鲎华北电力大学硕士学位论文 1 1 研究背景及意义第一章引言在网络飞速发展的今天，w e b 提供了丰富的网络信息资源，人们通过i n t e r n e t 和w e b 技术可以很容易的访问世界上各个角落的数据。但现实是用户获取自己需要的信息并不是一件容易的事。用户需要在这个不断变化、开放的信息世界里面进行浏览、搜索、过滤、导航、收集、相关数据处理。各个数据源的数据模型、数据结构、内容表示以及使用的概念、词汇的不同，使得人们面对如此多的异构信息源时，很难准确找到自己所需信息。网络信息资源数量巨大，类型多样，形式丰富，且内容广泛，但它们具有分散性，缺乏一致性，整合程度低，信息关联不够等特点心1 ，科技工作者很难充分体现和挖掘出其中蕴涵的价值，也制约着更高层次应用的建立和实施。这也意味着要充分开发和利用网络信息资源，实现网络信息资源的共享并非易事。网络信息资源的分布和流通是非均衡性的，信息价值的实现也是有条件的；信息不会必然地、无条件地、自动地变成资源和财富口1 。网络信息资源的优势h 1 在于：它赋予了用户以强大的信息检索和获取能力。但在实际生活中，网络信息资源并不能将这个威力显示出来。人们在许多场合中并未感觉到使用它有很大便利。其中一个很重要的原因就在于日常生活中的网络信息资源缺乏整合性，从而使网络信息资源难以发挥强大作用。只有对网络信息资源进行积极有效的整合，才能真正实现网络信息资源的有序化，实现网络信息资源共享效用的最大化。在信息资源的整合过程中，数据采集是必不可少的、最重要的环节。设计开发一套功能高效的数据采集模式，保证数据获取的准确性，提高数据装载的效率，具有重大的现实意义。 1 2 发展现状一方面网络上的信息多种多样、丰富多彩，而另一方面用户却找不到他们所需要的信息。这样的矛盾促使一种以w e b 搜索引擎为主的，用于提取网络有效资源的信息检索技术应运而生了。g o o g l e 、a l t a v i s t a 、天网等国内外知名的搜索引擎啼1 正是人们为了解决网上信息检索的难题，而在信息检索领域进行大量研究后的成果。这些搜索引擎通常使用一个或多个资源采集器从i n t e r n e t 上收集各种数据，然后在华北电力大学硕士学位论文本地服务器上为这些数据建立索引，当用户检索时根据用户提交的检索条件从索引库中迅速查找到所需的信息。这些搜索引擎中常用的采集器有：s p i d e r s 、c r a w l e r s 、 w e br o b o t s 、w a n d e r e r s 等。目前许多国家和企业的情报部门通过情报采集系统来跟踪和调查对手的情况，收集相关信息并提出预警分析使自己立于不败之地1 。最近几年，信息采集技术在国内的应用越来越广泛。从某个领域的科技人员到一些大的图书馆和企业，都更多的借助于网络信息采集系统来获取自己需要的信息。特别是随着信息采集技术的发展，用户从网上获取信息的效率不断提高，获得信息的完整性得到了很好的保障。采集功能的完善促使许多提供信息服务的部门，纷纷建立了针对本部门的特点的网络信息采集系统。为了促进数字图书馆网络信息资源的共建共享而建立的数字图书馆信息采集系统口1 ；针对医学信息量大难以管理和获取的特点开发的医学信息采集系统呻3 ；政府部门根据其政府信息的特殊性而建立的政府信息采集系统等等。这些采集系统都极大地提高了本部门的工作效率。为了更好的满足用户的需求，一些新的技术在信息采集过程被广泛采用。特别是在国外，多线程技术、并发技术、信息挖掘技术等阳1 已经在信息采集领域得到了很好的应用和发展。新技术的应用和采集功能的不断完善，使得信息采集技术不仅仅用于知识信息的积累，也不断的向政治和军事领域扩展。随着w e b 服务种类和质量的不断提高，人们对信息采集系统的要求也越来越高。但是目前国内大多数的信息采集系统都是针对某一特定的部门( 如政府机构、图书馆等) 而专门设计的，功能单一，不能满足大多数用户的需求。s o a ( s e r v i c e o r i e n t e da r c h i t e c t u r e ，面向服务的架构) 思想的提出和技术的广泛应用n0 1 ，使得基于s o a 部署企业应用已经成为企业公认的发展趋势，越来越多的企业和组织机构开始考虑应用s o a 架构。所以在s o a 架构下进行网络信息的采集将具有普遍的实际意义。 1 一主要研究内容本文的研究工作在项目“网络科技资源应用集成环境建设的资助下进行。“网络科技资源应用集成环境建设项目来源于国家科技基础条件平台应用服务支撑系统。项目针对面向科技领域的资源信息，为整个国家科技基础条件平台的科技信息提供支撑环境。本文的工作主要实现网络信息资源的汇集等相关工作。根据项目需求，本文对网络信息资源的特点和信息采集的原理进行了调研和分析，重点研究了搜索引擎和爬虫中采集器的抓取算法和策略，提出了基于目录树的网络资源采集算法与基于本体和可视化规则的抽取模型；通过对面向服务的架构思 2 华北电力大学硕士学位论文想和o n t o l o g y 、正则表达式等技术的深入研究，提出了面向服务的采集体系架构，并设计实现了基于s o a 的网络信息资源采集系统。针对上面内容进行了以下方面的相关工作： 1 ) 广泛调研和分析网络信息的特点，对多种搜索引擎和开源爬虫的采集原理进行了深入的研究。最初的网络信息采集n 通常是借助各种搜索引擎来完成的，是从异构数据源收集信息进而转换为用户需要的信息的过程。作为一个概念，从其最初的查询、存储信息的简单能力逐渐上升为_ _ 个综合性的概念，包含了丰富的内在意义。 2 ) 深入的研究了s o a 和w e bs e r v i c e s 技术，重点对面向服务的体系架构进行分析，进而将面向服务的思想应用到信息采集系统中，提出了面向服务的网络信息资源采集架构，并对架构作了详细的分析和说明。 3 ) 针对网络科技资源的特点和资源网站的既定分类方式，提出一种目录树采集算法。通过对现有采集算法的深入研究，详细分析网站链接之间的层次关系，构建站内链接的目录层次结构和基于本体技术的分类目录树，按照目录树的结构有层次的采集网络信息资源。 4 ) 深入的研究了网页内容的抽取技术，结合本体和正则表达式等技术提出了一种基于本体和可视化规则的抽取模型。首先通过对页面内容的预处理及分析后，形成抽取过程中遵循的规则；同时，用o n t o l o g y 建立数据模型，把可能抽取的信息项映射到o n t o l o g y 中的元素上。将抽取规则与o n t o l o g y 中的对象进行对应，实现网页内容的抽取。 5 ) 采用面向服务的采集体系结构，结合目录树算法及基于本体和可视化规则的抽取模型，设计实现一个基于s o a 的网络信息采集系统，并对系统的总体结构进行了详细分析；通过在网络科技资源应用集成环境建设项目中的应用，验证了系统的可行性和高效性。 1 4 本文的组织结构本文主要研究如何实现基于s o a 的网络信息采集系统，全文共分六章。第一章首先介绍本课题的研究背景、意义和发展现状，然后阐述本文研究的主要内容及本文的组织结构。第二章首先研究面向服务的架构( s o a ) ，在深入研究和讨论其主要实现技术 w e bs e r v i c e s 的基础上，提出面向服务的采集体系架构，并对采集架构进行了分析和说明。第三章研究和分析现有的采集算法，结合项目需求提出了一种基于目录树的网 3 华北电力大学硕士学位论文络信息资源采集算法，对算法的结构进行详细分析；最后通过实验验证该算法的性能。第四章研究和设计网络科技领域本体，对本体的定义、构建、结构及可视化规则的形成过程进行深入分析的基础上，提出一种基于本体和可视化规则的抽取模型，最后进行模型的性能测试。第五章将目录树算法及基于本体和可视化规则的抽取模型与面向服务的体系机构相结合，设计并实现基于s o a 的网络信息资源采集系统，并对该系统在实际项目中的应用情况进行介绍。第六章对本论文的工作进行总结，同时也提出了下一步需要做的工作。 4 华北电力大学硕士学位论文第二章系统架构设计本章首先对面向服务的架构和w e bs e r v i c e s 技术进行研究，然后将面向服务的思想和网络信息资源采集相融合，提出面向服务的网络信息资源采集架构，并对架构进行分析和说明。 2 1 面向服务的体系结构面向服务的体系结构( s e r v i c e o r i e n t e da r c h i t e c t u r e ，s o a ) 是一种体系结构风格n 扣。它将应用程序的不同功能单元一服务( s e r v i c e ) ，通过服务间定义良好的接口和契约( c o n t r a c t ) 联系起来。接口采用中立的方式定义，独立于具体实现服务的硬件平台、操作系统和编程语言，使得构建的系统中的服务可以使用统一和标准的方式进行通信。 s o a 采用面向服务的软件封装技术，现( s e r v i c ei m p l e m e n t a t i o n ) 的方式呈现，它以服务接口( s e r v i c ei n t e r f a c e ) 和服务实它的三个基本要素是服务描述、服务发现和服务调用 1 3 9 如图2 1 所示。从技术角度讲，s o a 是一个组件模型，以x m l 技术为基础，通过使用w s d l 协议( w e bs e r v i c e sd e f i n i t i o nl a n g u a g e ，基于x m l 格式的w e bs e r v i c e s 描述语言) 来描述接口。s o a 不仅仅是一个软件开发框架而且还是一个业务开发框架。它能够将不同类别、不同平台的服务结合在一起，动态地、实时地更新维护一个跨区域的多功能的应用实体。图2 1 面向服务的体系结构组成 w e bs e r v i c e s 是一种实现s o a 的构架技术【1 4 1 ，是建立在开放标准和独立三一的协议基础之上的分布计算单元。w e bs e r v i c e s 通过w s d l 协议定义服务接口，使用u d d i 协议进行w e bs e r v i c e s 注册和查找。所有这些特性使得它是目前实现s o a 5 华北电力大学硕士学位论文的最好方式之一。基于w e bs e r v i c e s 的动态发现、配置和即时集成所提供的服务，已成为i n t e r n e t 上的应用主流。图2 2 是w e bs e r v i c e s 协议栈匹配s o a 的结构图。 ( s o a 功能元素) ( w e bs e r v i c e s 的协议栈) 业务流程 - i w s x l 、w s f l 服务 j i t 务- u d d i 注册服务描述w s d l 中服务通讯协议卜 s o a p ，x m l 心传输l h t t p 、f t p 、m q 图2 - 2w e b 服务到s o a 的映射 w e b 服务的体系结构是一种面向服务的体系结构n 引。它的主要思想就是未来的应用将由一组应用了网络的服务组合而成，所有东西都是服务，这些服务发布一个应用程序接口提供给网络中的其它服务使用，并且封装了实现细节。w e b 服务的体系结构如图2 3 所示。务；图2 - 3 面向服务的体系结构从图2 3 可以看出，这一体系结构有3 种角色： 1 ) s e r v i c ep r o v i d e r ：发布自己的服务，并且对使用自身服务的请求进行响应； 2 ) s e r v i c eb r o k e r ：注册已经发布的服务提供者，对其进行分类，并提供搜索服 3 ) s e r v i c er e q u e s t e r ：利用服务代理查找所需的服务，然后使用该服务绑定。在这些角色之间使用了以下3 种操作： 1 ) p u b l i s h 操作：使服务提供者可以向服务代理注册自己的功能及访问接1 ：3 ； 2 ) f i n d 操作：使服务请求者可以通过服务代理查找特定种类的服务； 6 华北电力大学硕士学位论文 3 ) b i n d 操作：使服务请求者能够真正使用服务提供者所发布的服务。为了支持这3 种操作，w e b 服务使用w s d l ( w e b 服务描述语言) 文档来对服务进行描述。w s d l 文档用于描述服务以及如何使用s o a p 来调用w e b 服务，比如服务的属性、它用来干什么、它的位置以及调用方法等。w s d l 是一种x m l 应用，它把w e b 服务描述定义为一组服务访问点，客户端可以通过这些服务的访问点对服务进行调用。它首先对访问的操作和访问时所使用的请求响应消息进行抽象，随后将其绑定到具体的传输协议和消息格式上，从而最终定义服务访问点。相关服务访问点的集合就构成了抽象的w e b 服务。 2 2 面向服务的采集架构设计与分析综合考虑以上因素，结合项目的实际需求，本文设计了基于s o a 的网络信息资源采集架构，图2 4 为系统整体架构。图2 _ 4 基于s o a 的网络信息资源采集架构架构采用面向服务的体系结构，通过资源封装工具，将需要封装的信息字段封装为服务，保存到系统的资源库中并对外发布。这些服务由w s d l 文件进行描述并对外提供服务访问点，客户端通过服务访问点对服务进行调用，通过服务的注册和调用实现网络科技资源的采集功能。架构中定义的服务分为功能服务和事务服务两种类型。事务服务包括用户注册服务、用户验证服务和系统安全性服务等，主要实现用户的登陆、注册、验证及系统 7 华北电力大学硕士学位论文的安全性和可操作性等操作；功能服务主要包括采集策略配置服务、链接抽取服务、正文抽取服务和信息过滤服务等。这些功能服务主要实现的功能如下。 2 2 1 采集策略配置采集配置即采集策略中的参数配置，实现对多个采集策略的配置管理，主要设定参数包括：策略名称、采集线程数、采集深度、相似度、链接文件地址、索引文件地址等。针对不同特性的网站采用不同的采集策略，将直接影响采集效率和采集内容的精确度。主要配置参数及说明包捕。 1 ) 线程数：采集线程个数； 2 ) 深度：采集层数，第一层为起始链接； 3 ) 相似度：抓取链接列表中链接数，对抓取大信息量的网站有效； 4 ) 链接文件地址：链接文件的存放路径； 5 ) 索引文件地址：索引库文件的存放路径。 2 2 2 采集算法研究信息采集主要借助于各种搜索引擎来完成，而采集算法程序则是搜索引擎中的核心部分。采集算法的效率对系统采集效率的影响将是巨大的。设计高效的采集算法，提高链接获取的速率和准确度，是本文第三章的研究重点。 2 2 3 正文抽取模型研究主要获取网页信息中除了链接之外的核心信息，即获取网页中有价值的内容。从w e b 网页上的信息中抽取用户所感兴趣的数据，并将这些数据转换成结构化的并且语义更加清晰的格式，方便用户以后的使用。准确有效地提取已爬行下来的网页的正文对采集系统来说是非常重要的。首先，虽然u r l 被预测为有效的，但实际爬行下来的页面内容可能杂乱不堪，这就需要对页面正文进行相关性识别。其次，在系统中需要对相关性高于设定值的文本加入到训练样本中进行再学习，网页提取得越精确，训练效果就越好。再则，可以给用户提供更直接、更精确的内容，以免广告或其他信息的干扰。本文第四章将针对这些问题展开研究。 8 华北电力大学硕士学位论文 2 2 4 网页查重处理互联网是当今世界上最大的信息库和传播信息的最主要渠道，为广大用户提供了一个巨大价值的、广阔的获取信息的渠道。但互联网中不乏许多转载、重复的信息，在这浩大的数据中寻找我们需要的信息无异于是大海捞针。虽然搜索引擎可以帮助我们在互联网上找到需要的信息，但现在的搜索引擎技术并不完善，存在一些亟待解决的问题，最主要的问题是当我们在网上使用搜索引擎寻找需要的内容时，得到的结果中存在着大量的重复链接和死链接，这使得用户处理起来很不方便，如果是死链接，不需要处理就直接关闭；但如果是重复的信息，还需要仔细分析才会发现已经看过了，这样既浪费时间又浪费精力。无效资源的存在对采集系统的采集结果和效率有着较大的影响，主要表现在检索的正确率和召回率较低等方面。所以，需要在采集过程中进行查重操作，只采集有效的信息资源。对于海量信息，若单单依靠人工处理，不仅耗费宝贵的人力资源，而且时效性也不能满足实际需要。如何有效的判断两个页面的相似度进而准确的识别重复页面，提高采集系统的采集效率和精确度，将是本节的研究重点。本文总结了互联网中网页的特点，文中主要分析网页在重复方面的特点，归纳如下。 1 ) 重复率高由于网页转载非常容易，因此网页的重复主要来自转载。受用户兴趣的驱动，许多网络资源，如经典的文章、新闻网页等信息在流通过程中很容易引起人们的关注。人们经常通过复制或转载的方式进行信息的共享。 2 ) 存在噪声转载时一般都原样照搬，保持文本内容和结构的一致，并尊重版权，在开头加入了引文信息。可是引文会导致复制的文本与原文不完全一致，这种造成转载文章与原文不同的情况一般称为网页噪声n 引。还有一些其它情况也可能引入噪声，如一般各个网站网页的生成环境和版面的风格各不相同，转载的文本有时还需要在h t m l 和x m l 语言内部格式之间进行转换，造成内部格式的不完全一致。另外，插入的广告图片也是噪声的主要来源。 3 ) 局部性明显主要表现在转载内容的局部性和转载时间的局部性。前者是指转载的内容主要偏向于人们关注的热点且权威网页，其他网页转载的相对较少；后者是指转载的时间比较集中，一般在几天内进行转载，十天以后再进行转载的几率则很少，即转载的概率受时间影响较大。针对以上特点，本文设计的系统主要从网页链接地址和网页正文内容两个方面 9 华北电力大学硕士学位论文进行重复网页的剔除操作，保证系统的采集效率。 1 ) u r l 查重分析方法通过分析u r l 来进行网页相似性的检测主要是对u r l 的结构n 刀进行分析，对 u r l 的构成进行深入的了解是非常必要，u r l 一般由三个部分构成：服务器标识符通过选择服务器标识符能够确定将要访问的服务器类型，u r l 中的服务器标识符可以有h t t p ：、f t p ：、t e l n e t ：h 等多种。信息资源地址信息资源地址由两部分构成。一是机器名称，如w w w n c e p u e d u c n 是用来指示资源所存在的机器；另一个是通信端口号，指连接时所使用的通信端口号，一般情况下使用的是标准端口号。路径名路径名是表示资源在机器上的完整文件名，一般情况下，只有用户知道所要找的资源在什么地方时才会给出这个选项。如h t t p ：w w w n c e p u e d u c n i n d e x x m l 等。对于一个采集系统来说，其u r l 库通常是百万到千万数据量级的，所以对u r l 的查重将是一项非常重要而繁重的任务。通常的做法是直接用u r l 作为数据库的 k e y 进行查重对比，查重的效率低下，极大的影响采集速度。通过分析研究，本文以u r l 算成后的3 2 位定长字符串作为k e y 来建索引。试验证明，该方法可以有效的加快查重的速度。 2 ) 网页内容查重分析方法内容分析方法一般都是基于摘要、基于关键词、基于主题等。本文采用的是基于摘要的内容分析方法一信息摘要算法u 引，即提取一个网页的特征，通常是一组词或者一组词权重，然后调用相关的算法，将这组词转化为一组代码，这组代码就成为标识这个信息的指纹。从理论上讲，每两个不同文本的特征信息是不同的，那么得到的代码也应该是不一样的，就像人的指纹，不同人的指纹是不同的。信息摘要算法的基本思想是：为每个文档计算出一组指纹，如果两个文档拥有一定数量的相同指纹，那么就认为这两个文档内容的重复度是比较高的，也就可以认为这两个文档是相似的。这种方法跟内容相关，准确性比较高。信息摘要算法主要分以下几个步骤：将页面内容分解成若干个组成文档的特征文档对象，由若干组成文档的特征集合表示，进行特征的相似度计算和比较。特征的压缩编码，通过h a s h 编码等文本向数字串映射方式，方便后续的特征存储以及特征比较。同时可以起到减少存储空间，加快比较速度的作用。文档相似度计算，根据文档特征重合比例来确定是否重复文档。 1 0 华北电力大学硕士学位论文 2 3 主要功能模块关系说明架构中的主要功能模块包括：采集策略配置模块、网页链接提取模块、网页内容提取模块和网页查重模块，各模块之间的关系如图2 5 所示。图2 5 主要功能模块关系图系统运行过程中，以起始链接为起点，每当访问一个页面就自动提取该页面中出现的所有新的链接，然后再以这些新的链接为起点，继续访问，直到没有出现满足条件为止，并且可以根据标题或者分析整个页面提取需要的信息。其中，采集策略和网页查重功能将贯穿整个采集过程。 2 4 小结本章在分析和研究了s o a 的基础上，将面向服务的架构思想与资源采集相融合，提出了面向服务的网络信息资源采集架构。架构将采集功能模块封装为服务，由服务描述语言对服务进行描述并对外提供服务访问点，采集客户端通过服务访问点对服务进行调用，实现网络科技资源的采集功能。华北电力大学硕士学位论文第三章基于目录树的采集算法研究本章首先对现有算法进行深入的研究，在分析网络科技领域资源分类方式多样化、数据量大等特点的基础上，提出了一种基于目录树的采集算法，最后通过实验验证该算法的性能。 3 1 目录树采集算法的提出当今互联网发展迅猛，科技领域信息资源异常丰富，充分利用网络，重视科技资源的开发利用是当前科研人员的重要工作之一。网络科技资源的开展和利用是科技创新的基础，科技人员的创新能力在很大程度上取决与科技信息资源的利用程度。挖掘网络科技资源不仅为科技人员研究开发提供可靠而丰富的信息，节省其大量查阅文献的时间，而且可以为科研立项和科技成果的鉴定、评估、验收等提供客观依据，针对网络科技资源的信息采集具有非常重要的意义。通常信息采集主要借助于各种搜索引擎来完成，而采集算法程序则是搜索引擎中的核心部分。随着网络资源的不断扩增和人们对专业领域信息检索服务需要的日益增长，被通用搜索引擎所广泛采用的遍历搜索策略( 如广度优先算法) 已经不再适用。面对网络科技资源分类复杂、数量巨大等特点，传统搜索引擎效率低下，这使得网络上的科技信息资源得不到充分地利用。网络科技资源的特点主要有： 1 ) 分类方式多样化。每个资源网站有各自的分类标准，但单个网站分类目录明确，层次较清晰，每个分类目录下的资源类别较为统一。 2 _ ) 数据量巨大，增长迅速。全互联网提供的科技信息总量成指数级增长n 明。 3 1 时效性强，科技资源通过超文本系统和h t m l 置标语言，将各种信息内容集中在统一易用的用户界面上，方便用户存取和利用。针对网络信息资源的特点，结合网络信息资源应用集成环境建设项目的任务需求，通过采集i n t e m e t 上的科技资源来汇集大量的科技类数据，经过加工处理，构建资源目录服务系统，将共享资源呈现给用户。本节提出的目录树采集算法，就是根据资源网站的既定分类方式，基于本体技术来构建分类目录树，并按照目录树的结构有层次的采集网络科技资源。 1 2 华北电力大学硕士学位论文 3 2 目录树采集算法设计与分析 3 2 1 采集算法优劣的评价标准网络上的采集系统数量众多、各具特色，要合理的评价一个采集体系结构的优劣不是一件容易的事，因为其涉及的因素很多。传统的方法主要从效果性和效率性来衡量，效果性能包括采集覆盖率、准确率等；效率性包括采集响应时间、系统稳定性等。准确的计算采集覆盖率和准确率是不可能的，而且采集的覆盖率和准确率是互相制约，一般采集覆盖率较高时，准确率会较低；采集覆盖率较低时，准确率便会提高。所以往往要在两个值之间进行平衡，以达到最优的采集效果。 3 2 2 目录树采集算法的结构分析互联网上科技资源网站的特点不难发现，相同或相似类别的数据资源往往会在同一个子栏目中展示，如果把网站主页看作是根目录，那么可以把网站中的各个栏目叫做子目录，把指向该栏目的链接称为子目录链接，当然不同的网站子目录中还可能嵌套多个子目录；栏目下的各个资源条目叫做叶子节点，把指向资源条目的链接称为节点链接，同一栏目下的节点链接互称兄弟节点链接。采集时，按照从根目录到子目录，再到叶子节点的顺序有层次性的进行采集工作。图3 1 为本文设计的基于本体的目录树采集体系结构。 i i 目举趸v 1 1 种子链接i 目录链接i! -录 l i 链 i 。提取 i 接 i fi 队 l 列用 l 领域 - i 有效目录链接f 中扣 l 更赴本体。 i i 知识识别l i 户 i库 ”“。i ； i 有效节点链接卜轴链 l i l 接 i 信【! ，息广二二问仕田页火删卫j 啾一一i i 逐凹结朱 i 库 l l 图3 1 基于目录树的采集体系架构 1 3 华北电力大学硕士学位论文 1 ) 针对该体系结构作以下说明：逐层过滤链接的策略，通过分析网站链接之间的层次关系，构建站内链接的目录层次结构，并以此为据进行网络资源的采集。链接信息库，保存u r l 链接之间的相互链接关系，u r l 字符串及链接周围的锚文本提示信息，以及采集过程中的切虬链接状态记录。链接信息库的结构设计如图3 2 所示。 t b l e l 总表序号种子链接表名 l 网址1 t a b l e l 2 网址2 t b l e 2 3 网址3 t j b l e 3 序号链接名称锚文本类别所属状态目录0待采集节点 1 已采集节点 4 已采集 1名称1i n f 0 l 2 名称2 i n f 0 2 3名称3i i 岍0 3 图3 - 2 链接信息库结构领域本体库，在明确某领域的共享概念及其概念间的关系的基础上，构建的本领域的概念树，主要包括类主题词表和主题词表。它可以根据在实际爬行过程中出现的高频率新概念进行更新与维护操作。 2 ) 算法部分数据结构及参数设定：构建一个目录链接队列a ，存放种子页面和目录链接页面提取的所有链接地址及锚文本信息。构建一个链接信息库，存放有效目录链接和节点链接及相关描述信息。设定对象个数n 和相似概率n ，用来描述目录链接的锚文本信息与领域本体库中对象的相似程度。设定相似度b j j ，网页i 指向网页j 的链接系数。 3 ) 算法过程描述：首先从资源网站的种子页面( 由系统给出) 出发，抽取所有链接和锚文本信息，并存入队列a 中。若队列a 为空，转入第步；否则，读取一条链接信息，判断该链接是否为目录链接，若不是，将该条记录从队列a 中删除。以领域本体知识库为依据，识别该链接是否为有效目录链接，若不是，将 1 4 华北电力大学硕士学位论文该条记录从队列a 中删除，转入第步。提取该目录链接指向页面中的所有链接，判断是否为目录链接，若是，转入第步；否则，判断节点链接与目录连接和兄弟结点链接的相关度，提取有效节点链接，按照目录链接与节点链接之间的层次关系，将所有节点链接存入链接信息库中。读取链接信息库中的信息，按目录层次抓取页面信息。结束。在采集过程中，根据用户提交的网站地址及参数信息，创建根目录，抽取首页的所有站内链接，然后进行链接分析确定该链接的类别，若为目录链接，则以领域本体知识库提供的本体知识作为评价依据创建目录树，并抽取页面内的所有站内链接进行链接分析；若为节点链接，则进行页面的抓取工作，并保证相同目录下的所有条目链接指向的页面内容保存于同一目录下。 3 2 3 目录链接的提取 w w w 上超链接结构是个非常丰富和重要的资源，如果能够充分利用的话，可以极大的提高检索结果的质量。有的基于这种超链分析的思想的算法已经在实际的系统中实现和使用，并且取得了良好的效果。本文将首先研究分析多种已有的链接算法，进而提出自己的链接提取方法。 1 ) 链接分析算法综述随机漫游模型的算法 p a g e r a n k 算法是随即漫游模型的典型算法n 盯之一。传统情报检索理论中的引文分析方法是确定学术文献权威性的重要方法之一，即根据引文的数量来确定文献的权威性。p a g e r a n k 对超链接结构和文献引文机制的相似性进行了综合研究，把引文分析思想借鉴到网络文档重要性的计算中来，利用网络自身的超链接结构给所有的网页确定一个重要性的等级数。其方法是，当从网页a 链接到网页b 时，就认为网页a 投了网页b 一票，增加了网页b 的重要性。简单地说，p a g e r a n k 就是要从链接结构中获取网页的重要性，而网页的重要性决定并依赖于其他网页的重要性。 p a g e r a n k 的基本思想是：一个页面被多次引用，则这个页面很可能是重要的；一个页面尽管没有被多次引用，但被一个重要页面引用，则这个页面很可能是重要的；一个页面的重要性被均分并被传递到它所引用的页面。基于h u b 和a u t h o r i t y 相互加强模型的算法 h i t s 算法是一种依赖于查询式的算法n 们。算法设定每个网页有两个级别：权威级别( a u t h o r i t y 网页，依赖于指向它的网页) 和中心级别( h u b 网页，依赖于它指向别人的网页) 。其基本思想是建立一个与查询式相关的图。相对于某一主题，a u t h o r i t y 1 5 华北电力大学硕士学位论文网页被认为有比较相关的内容，而h u b 网页被认为具有大量的链接指向相关内容。如果一个网页有大量的链接指向其他网页，则这个网页就可能是一个好的h u b 网页；一个网页如果被大量的链接所指，那么它就可能是一个好的a u t h o r i t y 网页。基于概率模型的算法 p a g e r a n k 算法是基于用户随机的向前浏览网页的直觉知识，h i t s 算法考虑的是a u t h o r i t i v e 网页和h u b 网页之间的加强关系。实际应用中，用户大多数情况下是向前浏览网页，但是很多时候也会回退浏览网页。基于上述知识，r l e m p e l 和s m o r a n 提出了s a l s a ( s t o c h a s t i ca p p r o a c hf o rl i n k s t r u c t u r ea n a l y s i s ) 算法，考虑了用户回退浏览网页的情况，保留了p a g e r a n k 的随机漫游和h i t s 中把网页分为 a u t h o r i t i v e 和h u b 的思想，取消了a u t h o r i t i v e 和h u b 之间的相互加强关系。 s a l s a 算法n 盯没有h i t s 中相互加强的迭代过程，计算量远小于h i t s 。s a l s a 算法只考虑直接相邻的网页对自身a h 的影响，而h i t s 是计算整个网页集合t 对自身a h 的影

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于soa的网络信息资源采集系统的研究与实现.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）基于soa的网络信息资源采集系统的研究与实现.pdf

文档简介

温馨提示

最新文档

评论

相关文档