(计算机应用技术专业论文)基于网格技术的主题爬虫算法优化的研究与实现.pdf_第1页
(计算机应用技术专业论文)基于网格技术的主题爬虫算法优化的研究与实现.pdf_第2页
(计算机应用技术专业论文)基于网格技术的主题爬虫算法优化的研究与实现.pdf_第3页
(计算机应用技术专业论文)基于网格技术的主题爬虫算法优化的研究与实现.pdf_第4页
(计算机应用技术专业论文)基于网格技术的主题爬虫算法优化的研究与实现.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机应用技术专业论文)基于网格技术的主题爬虫算法优化的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

沈阳工业大学硕士学位论文 摘要 网格技术是近年来得到广泛应用的技术,它解决了资源的真正共享,使各结点大量 资源得到统一支配和使用,信息网格是在计算网格的基础之上,利用数据挖掘、信息融 合和搜索引擎等技术而构建的,便于网格资源的搜集与共享,目标是创建一种构建在 o s 和w e b 之上的基于i n t e r n e t 的新一代信息平台,在这个平台上,信息的处理是分布 的、协作和智能化的。 主题爬虫是根据目标主题,以智能化的方式从w e b 上收集主题相关的页面集,然 后采用机器学习或信息检索的方法对收集到的信息进行智能处理和分析,最后以方便、 有效的检索方式满足用户的信息检索需求。 本文阐述了网格和主题爬虫的基本概念和国内外的发展现状,说明了研究基于网格 技术的主题爬虫算法的意义。 详细论述了网格技术以及网格的体系结构,同时阐述了g l o b u s 的积木式体系结构、 o g s a 体系结构和基于w e bs e r v i c e s 的o g s a 架构,进而介绍了开放式网格服务的基础 结构。 重点分析了主题爬虫的概念、体系结构以及存在的主要问题,提出一种主题爬虫算 法z t s p i d e r 算法,通过对超文本分类器和超链接评价器的研究,改进了现有主题爬 虫算法在线学习能力差的问题,同时应用反馈机制,优化了网页父子结点之间的信息传 递,增加爬行收获率。 设计并实现了主题爬虫z t s p i d e r 模拟系统,改进了现有的主题爬虫的体系结构, 该系统应用j a v a 语言开发,具有跨平台、高可扩展等特性,实现了w e b 信息的智能 化收集,通过该爬虫算法的收获率,验证了z t s p i d e r 算法的有效性。 设计并实现了基于服务网格的分布式主题爬虫系统,应用s o a p 、w s d l 、u d d i 完成了描述服务,定义消息服务和端口类型,在g l o b u st o o l k i t 中完成了主题爬虫 z t s p i d e r 的分布、协作和智能化工作。 关键词:网格服务,信息网格,主题爬虫,超文本分类,超链接评价 基于网格技术的主题爬虫算法优化的研究与实现 r e s e a r c ha n d i m p l e m e n t a t i o no no p t i m i z i n g t h ef o c u ss p i d e ra r i t h m e t i c b a s e do ng r i dt e c h n o l o g y a b s t r a c t i nr e c e n ty e a r s ,g r i dt e c h n o l o g yh a sb e e nw i d e l yu s e dt of u l f i l la u t h e n t i cs h a r i n go f r e s o u r c e sa n dt om a n e u v e ru n i f o r m l ya n du s el a r g ea m o u n to fr e s o u r c e si ne a c hn o d e i n f o r m a t i o ng r i di sb u i l to nc o m p u t i n g 鲥d ,u s i n gt e c h n o l o g i e ss u c h a sd a t am i n i n g , i n f o r m a t i o ni n f u s i o n ,s e a r c he n g i n ea n ds oo n i tf a c i l i t a t e ss e a r c h i n ga n ds h a r i n go fg r i d r e s o u r c e sa n di si n t e n d e dt ob u i l dan e w - g e n e r a t i o ni n f o r m a t i o np l a t f o r mb a s e do no sa n d w e b o nt h i sp l a t f o r m ,i n f o r m a t i o np r o c e s s i n gi sd i s t r i b u t e d ,c o r p o r a t e ,a n di n t e l l i g e n t i n f o r m a t i o nc a nb ea c c e s s e dt h r o u g ho n ee n t r a n c e f o c u ss p i d e rc o l l e c t sp a g e ss e ta c c o r d i n gt ot h e m eo ft h es u b j e c ti na ni n t e l l i g e n tw a y t h ep a g e ss e tc o l l e c t e da r et h e np r o c e s s e da n da n a l y z e du s i n gm e t h o d sl i k em a c h i n el e a r n i n g a n di n f o r m a t i o ns e a r c h i n g f i n a l l y ,r e q u e s t so fi n f o r m a t i o ns e a r c h i n gf r o mu s e r sa r ef u l f i l l e d i na ne f f i c i e n tw a yo fs e a r c h i n g b a s i cc o n c e p t sa n dc u r r e n td e v e l o p m e n to fg r i da n df o c u ss p i d e ri no u rc o u n t r ya n d a b o a r da r ed i s c u s s e d a l s o ,t h em e a n i n go fr e s e a r c hi nf o c u ss p i d e ra l g o r i t h mb a s e do ng r i d t e c h n o l o g ya n dm a i nw o r ko f t h i sp a p e ra l ef u l l yi l l u s t r a t e d g r i dt e c h n o l o g ya n da r c h i t e c t u r e a r ed i s c u s s e di nd e t a i l g l o b u sa r c h i t e c t u r e ,o g s a a r c h i t e c t u r ea n do g s aa r c h i t e c t u r eb a s e do nw e bs e r v i c e sa r ea l s oi l l u s t r a t e da n df u r t h e r b a s i ca r c h i t e c t u r eo f o p e ng r i ds e r v i c e sa r ea l s om e n t i o n e d t h ec o n c e p t ,a r c h i t e c t u r ea n dc u r r e n tp r o b l e m sc o n c e r n i n gf o c u ss p i d e ra r ea n a l y z e di n g r e a td e p t h af o c u ss p i d e ra l g o r i t h m z t s p i d e ra l g o r i t h mi sb r o u g h ta b o u t t h ea l g o r i t h m s e t t l e st h ep r o b l e m so fd e f i c i e n c yo fo n l i n e - l e a r n i n go fc u r r e n tf o c u ss p i d e ra l g o r i t h m s t h r o u g hr e s e a r c ho fh y p e r t e x tc a t e g o r i z a t i o na n dh y p e r l i n ka n a l y s i s ,a n d a tt h es a m eu s e s i n c r e m e n tf e e d b a c km e c h a n i s m s ,a n do p t i m i z e si n f o r m a t i o nd e l i v e r yb e t w e e np a r e n tn o d e a n dc h i l d r e nn o d e ,a n df u r t h e re n h a n c e dc r a w l i n ge f f i c i e n c y a z t s p i d e rs i m u l a t i n gs y s t e mi sd e v e l o p e da n di m p l e m e n t e d t h es y s t e mi m p r o v e d a r c h i t e c t u r eo fc u r r e n tf o c u ss p i d e r t h es y s t e mi sd e v e l o p e du s i n gj a v ap r o g r a m m i n g 沈阳t 业大学硕士学位论文 l a n g u a g ea n dp o s s e s sf e a t u r e sl i k ec r o s s p l a t f o r ma n dh i g he x t e n s i b i l i t y i ta l s of u l f i l l s i n t e l l i g e n tw e bi n f o r m a t i o nc o l l e c t i n ga n dv a l i d a t e st h ea v a i l a b i l i t yo fz t s p i d e ra l g o r i t h m t h r o u g hg a i nr a t eo f t h ea l g o r i t h m ad i s t r i b u t e df o c u s s p i d e rs y s t e mb a s e do ni n f o r m a t i o ng r i da l ea l s od e v i s e da n d i m p l e m e n t e d t h es y s t e mh a r n e s s e ss o a p ,w s d l ,a n du d d it oa c c o m p l i s hd e s c r i p t i o n s e r v i c e s ,i n t e r f a c ed e f i n i t i o n ,a n dr e l e a s i n gz t s p i d e rt og l o b u st o o l k i t i ta l s oa c c o m p l i s h e s d e s i g no fo g s aa r c h i t e c t u r ea n dd i s t r i b u t i o n ,a s s o c i a t i o na n di n t e l l i g e n tw o r ko ff o c u s s p i d e r k e yw o r d s :g r i ds e r v i c e s ,i n f o r m a t i o ng r i d ,f o c u ss p i d e r ,h y p e r t e x tc a t e g o r i z a t i o n , h y p e r l i n ka n a l y s i s 独创性说明 本人郑重声明:所呈交的论文是我个人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得 沈阳工业大学或其他教育机构的学位或证书所使用过的材料。与我一同 工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表 示了谢意。 关于论文使用授权的说明 本人完全了解沈阳工业大学有关保留、使用学位论文的规定,即: 学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公 布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论 文。 签名 ( 保密的论文在解密后应遵循此规定) 导师签名:i 玺笙兰 日期:坦z :! :, 沈阳: 业大学硕士学位论文 l 绪论 网格( g r i d ) 技术是近年来兴起的技术研究热点,它是应用需求牵动和技术发展驱 动的产物。以e m i n i 为主要应用的第一代m t e m c t 把遍布于世界各地的计算机用t c p i p 协议连接在一起;第二代h l t 黜t 通过w e b 信息浏览及电子商务应用等信息服务,实现 了全球网页的联通;第三代i n t e r n c t 将试图实现互联网上所有资源的全面联通,包括计 算资源、存储资源、通信资源、软件资源,信息资源及知识资源等,这就是网格【1 1 网格作为第三代h l t 咖c t ,在世界范围内引起了前所未有的关注和重视。网格是用 来解决资源的真正共享,使各结点大量闲置的计算资源和存储资源得到统一支配和使 用。网格还试图解决目前的信息孤岛问题,在所有w e b 服务器之上建立有机的联系, 不再需要用户自行游历、搜索、筛选和整理所需要的有用信息。网格不是重新架构,而 是在现有的网络基础之上的一个延伸。 搜索引擎是一种在w e b 上应用的软件系统,它以一定的策略在w e b 上搜集和发现 信息,在对信息进行处理和组织后,为用户提供w e b 信息查询服务,给用户提供了对 i n n 黜t 上所有信息资源进行检索的手段,给用户以最全面最广泛的搜索结果1 2 】。 主题爬虫搜索技术是一种有目的的爬行算法,避免盲目搜索的低效性,是目前广泛 应用的一种爬行算法它智能地搜索主题资源,摆脱对专家的依赖,提高主题资源建设 的效率和质量啊 1 。l 项目概述 1 1 1 网格技术概述 在国家信息化的过程中,一方面是信息基础设施不足,国家必须投入大量资金建设; 另一方面是随处可见资源浪费、信息孤岛、应用系统不能互连和互通的不合理现象。如 何充分利用网络中的丰富资源,方便协同工作,提高应用的质量,减低开发的难度,从 而降低信息化的整体成本,是急需解决的重大问题。网格技术就是应解决这些问题而产 生的新技术。网格以其支持资源共享、协同工作的固有能力和面向服务的基本特征,提 供了解决上述问题的新的技术手段,它本身也成为新代社会信息基础设施的雏形。 基于网格技术的主题爬虫算法优化的研究与实现 传统的基于软件的网格解决方案通常需要安装防火墙,它不仅依赖于平台,而且相 互之间还存在不兼容的通信协议,现在新的网格的标准开放网格服务体系提出把网格计 算与w e bs e r v i c e s 相结合,使得网格的商业化得到更大的发展1 4 j 。 现在,人们已经非常习惯于打开电源开关就获取照明,打开水龙头水就自动流出, 而完全不必考虑电力和自来水来自什么地方,它们只是在需要的时候自然地出现在人们 身边。网格思想一经提出,就以构建如同公共设施一样的共享、可靠的计算系统为最终 目的。网格的设计者们希望电脑能够完全摆脱高科技产物高深莫测的角色,用户并不需 要考虑如何保证系统正常运行,只需要使用即可。 网格计算研究的先导i a nf o s t e r 给网格计算下的定义是:网格计算是动态多机构虚 拟组织中的一个协调的共享资源和解决问题的过程。 因因因 p c 机工作站超级计算机 w e b 服务器 数据库 图1 1 网格体系的概念化模型 f i g1 1 i l l u s t r a t i o no f g r i ds t r u c t u r em o d e l 服务网格是重要产品方向,它采用w e bs e r v i c e 和网格计算技术,遵循o g s i ( o p e n g r i ds e r v i c ei n f r a s t r u c t u r e ,开放网格服务基础设施) 的g r i ds e r v i c e 的标准,面向企业 集成、支持服务连接、管理、集成优化和运行的服务网格将成为商业网格系统的一个重 沈阳工业大学硕士学位论文 要发展方向,它为实现多企业或部门之间广域分布业务应用的集成和协同提供了按需服 务、系统互操作和可监控等方面的有力支持 5 , 6 1 。 o g s i 规范是一项基于w e b 服务标准的、由企业和研究界通力合作而提出的实现网 格服务的基本标准。o g s i 是o g s a ( o p e ng r i ds e r v i c e sa r c h i t e c t u r e ,开放网格服务架 构) 所描述的概念的正式技术规范。o g s i 中包含如何管理任务、分配任务以及如何描 述服务提供者和网格服务的规范。w e b 服务是这个规范的重要部分,其中包括简单对象 访问协议( s o a p ,s i m p l eo b j e c ta c c e s sp r o t o c 0 1 ) 和w e b 服务描述语言( w s d l ,w e b s e r v i c e sd e s c r i p t i o nl a n g u a g e ) 1 1 2 主题爬虫概述 传统的搜索引擎页面采集面向整个w e b ,这种搜索引擎体系结构如图1 2 所示,它 主要分为三个部分川: 图1 2 搜索引擎体系结构 f i 9 1 2t h es t r u c t u r eo fs e a r c he n g i n e ( 1 ) 数据采集,即通过自动或人工的方式负责w e b 信息的搜集; 基于网格技术的主题爬虫算法优化的研究与实现 ( 2 ) 数据加工,即对采集到的信息进行分类,建立索引最终保存到索引数据库: ( 3 ) 查询接口,即根据用户的查询要求检索数据库,将结果按查询相关度反馈给用 户。 爬虫有时也称为蜘蛛( s p i d e r ) 、漫游者( w a n d e r e r ) 或蠕虫( w o r m ) ,它是搜索引擎的 核心部件,搜索引擎利用它从w e b 中采集网页,完成重要的第一步工作1 8 l 。 w e b 信息的急剧膨胀使搜索引擎专业化成为发展趋势,定向采集信息成为搜索引擎 一个重要研究方向,主题爬虫也应运而生,它根据限定的主题,在领域内进行定向的页 面采集。与一般w e b 爬虫不同,主题爬虫在爬行时仅对给定主题相关的网页文档进行 搜集,搜集算法在访问页面之前进行预测分析,从而识别出这些页面是否与主题相关, 决定是否采集和采集的优先顺序。 在很多应用领域,例如基于w e b 的行业分析、在线商业竞争分析和自动构建专题 数字图书馆等,主题搜索引擎系统都富有应用前景,与现有的综合型搜索引擎可以形成 良好的互补【3 , 8 1 。 1 2 国内外发展现状 1 2 1 网格技术国内外发展现状 网格技术在成为研究热点后,在众多企业的关注和努力下,逐步开始了商业化进程。 明确以实现网格计算这一目标而设计的产品o r a c l e1 0 9 的出现,标志着业界对网格技术 商业化的努力达到了一个新的高度,企业已经不再满足于仅仅在技术层面来讨论网格, 各种网格技术应用的解决方案也已经逐步推向市场。在全球范围内,以i b m 、o r a c l e 、 m i c r o s o f t 为代表的系统提供商,以s u n 、e m c 、h p 、l i n t e l 为代表的架构提供商,以p l a t f o r m 、 a v a k i 为代表的中间件及应用提供商,都已针对网格开发相应的软件 9 1 。 我国的网格技术研究主要集中在一些大学和中科院的相关研究所。中国科学院计算 技术研究所的“国家高性能计算环境”( n h p c e ) 、清华大学计算机系的机群系统 t h n p s c 2 和位于上海大学的超级计算机自强2 0 0 0 为服务结点实现了网格计算环境 9 1 。 “空间信息网格( s i g ) 框架体系和关键支撑技术”是国家“8 6 3 ”、基于g l o b u s 开 发了织女星网格( v e g ag o s4 o ) 平台,旨在从应用的角度推动网格技术的基础研究。 项目已于2 0 0 6 年年初通过验收,达到了预期目标。 沈阳工业大学硕士学位论文 2 0 0 3 年l o 月,教育部与m m 合作的中国教育科研网格项目正式启动,该项目计划 通过教育科研网,将全国l o o 所2 1 1 建设重点大学联网,实现资源的广泛共享。2 0 0 2 年1 2 月,上海信息网格正式立项,目的是研究符合国际标准的信息网格体系结构和关 键技术,开发具有自主知识产权和推广价值的信息网格系统软件、应用开发环境和虚拟 研究平台,通过对虚拟组织中的计算、数据、软件等各种信息的共享和协同,建立具有 上海特色的信息网格,并初步实现交通信息网格典型应用。 国外方面,网格技术的研究主要集中在美国、欧洲等国家,国家政府、跨国联盟、 一些大的计算机公司均参与了该项研究,从2 0 世纪9 0 年代中期开始相继启动了一系列 的基础和应用研究项目,主要解决大数据量的存储、管理和计算等技术问题。 网格计算技术典型的应用是美国的军事仿真项目s fe x p r e 豁,数据网格典型的应用 是欧洲原子能研究机构所开展的数据网格d a m g r i d 项目,仪器网格典型的应用是美国 能源部支持的x p o g 项目,虚拟现实网格广泛应用于交互式科学可视化、教育、训练、 艺术、娱乐、工业设计、信息可视化等许多领域。目前已经开发出虚拟历史博物馆、协 同学习环境等。 本课题中用到的是信息网格,它是要通过统一的信息交换架构和大量的中间件,它 的中心问题有:如何描述信息、存储信息、发布信息和查找信息;如何将异构平台、不 同格式、不同表述方式的信息进行转换,实现信息的无障碍交换;如何充分利用现有网 络技术,如h r r p 、x m l 、w s d l 、u d d i 、s o a p 等构成一个完整的服务链;信息的语 义表示,即如何赋予信息以内涵,以及如何避免信息的二义性;如何对信息加密,防止 信息泄露等等。 全球信息网格g i g ( g l o b a li n f o 加a l i 蛐g r i d ) 是信息网格在军事应用上的例子。信息 网格将更多地用在商业上。 1 2 2 主题爬虫国内外发展现状 自从第一个搜索引擎w w w w ( w o r l dw i d ew e bw o r m ) 在c o l o r a d o 大学开发成 功以来,搜索引擎技术碍到了迅速的发展。c n n i c2 0 0 1 年7 月的调查数据表明,网民 最常使用的网络服务中,搜索引擎占5 1 3 。在各种搜索引擎中,最常用的是各个通用 搜索引擎,如g o o g l e 、a l t a v i s m 、y a t l 0 01 等。 基于网格技术的主题爬虫算法优化的研究与实现 在1 9 9 4 年,出现了最早使用查询来指导爬虫爬行的系统f i s h 搜索系统( f i s h s e a r c hs y s t e m ) 。后来相继在1 9 9 8 年和1 9 9 9 年分别出现了s h a r k 搜索系统( s h a r ks e a r c h s y s t e m ) 和主题爬虫( f o c u s e dc r a w l e r ) 。如今,主题爬虫又有了新的发展,典型的系统有 c o r a i b mf o c u s e dc r a w l e r ,c o n t e x tg r a p h sf o c u s e dc r a w l e r 等p 一0 1 。 1 3 本文研究工作 本文主要研究主题爬虫算法优化的问题,通过分析现有算法的不足,设计一种主题 爬虫算法一z t s p i d e r ,它使爬虫的网页分类器能够在线学习,并且通过信息反馈方式 加强爬虫爬行智能化;之后搭建网格技术与w e b 服务相结合的网格平台,利用g l o b u s t o o l k i t 在开放网格服务体系( o g s a ,o p e ng r i ds e r v i c e sa r c h i t e c t u r e ) 上创建一个供开 放网格服务使用的平台,在这个平台上架设的分布式爬虫系统,实现基于网格的分布式 主题爬虫架构,加快爬行速度,增加爬行收获率。 主要工作包括以下三点: ( 1 ) 主题爬虫模块。这是课题的重点和难点,在实现爬虫算法的同时要对爬行策略 进行优化,其中包括超文本分类算法和超链接评价算法,使得主题爬虫的爬行能力和爬 行效率得到显著提高,完成一种具有自适应能力的爬虫系统。 ( 2 ) 网格容器模块。这部分主要把上面设计的爬虫算法部署到信息网格环境中,主 要用到g l o b u st o o l k i t s 4 0 工具包,而且用s o a p 、w s d l 、u d d i 完成接口调用与完善。 ( 3 ) 数据库管理层。因为网络爬虫爬行规模非常庞大,而且使用多线程方式运行, 内存存储方式远不能达至要求,因此必须使用数据库方式存储。这个模块主要负责对各 个表以及用到的队列的维护工作。 本文创新点主要包括以下两点: ( 1 ) 基于网格技术的主题爬虫系统。目前还没有把主题爬虫应用到信息网格环境当 中的应用,但是网格技术的应用越来越广泛,应用程序的网格化也是一个必然的趋势, 构建基于网格技术的主题爬虫系统,可以有效利用网格资源,使得爬虫更加高效。 ( 2 ) 超文本评价器学习类型和反馈机制。超文本的分类目前大多使用文本分类的方 式,但是超文本具有多特征特性,充分利用这些特性将大大提高超文本分类的精度和速 6 度。超文本的拓扑结构是一张有向图,图的每一个结点的指向关系蕴藏着对超文本分类 的影响,可充分利用这些结点的反馈机制来指导超文本评价器。 1 4 开发环境及工具介绍 z t s p i d e r 系统属于网络应用程序,采用j a v a 语言开发,程序的开发过程中,主要 用到的开发- r g 苇ye c l i p s e 、m y s q l 、g l o b u st o o l k i t 。其中e c l i p s e 是j a v a 的集成化开 发环境,m y s q l 是数据库服务器,而g l o b u st o o l k i t 是作为网格容器。 1 4 1e o ii d s e e c l i p s e 是流行的j a v a 集成开发环境( i d e ) ,如图1 3 所示。同时它还可以作为其它 语言的开发环境( 例如c + + 和r u b y ) ,并且作为开发桌面或服务器应用程序的富客户端开 发平台。e c l i p s e 开源社区拥有几十个开源项目,其范围从商务智能到社会网络等各个方 面。e c l i p s e 是非赢利性基金会的名字,由它全面负责这些工程。 图1 3 e c l i p s e 界面 f i g 1 3 i n t e r f a c eo f e c l i p s e 基于网格技术的主题爬虫算法优化的研究与实现 e c l i p s e 对j a v ai d e 的许多方面都是一次大的跃进,这使得开发工作更加便利。 1 4 2m y s o l 可以说m y s q l 是中小企业网站的首选自由数据库系统。它是一个跨平台数据库系 统,一个真正的多用户、多线程的关系型数据库管理系统,同时是具有客户机服务器体 系结构的分布式数据库管理系统。 m y s q l 服务器的运行界面如图1 4 所示,由于m y s q l 是命令行形式操作,为了直 观,这里应用i d e 形式管理工具m y s q lq u e r yb r o w s e r 显示。 图1 4m y s q l 服务器界面 f i g 1 4i n t e r f a c eo f m y s q ls e r v e r 同时,m y s q l 安装简单、使用简单、管理也简单。 因为这些特性,开发网络应用程序,数据库服务器广泛采用m y s q l 数据库。 沈阳工业大学硕士学位论文 1 4 3g i o b u sl i k i t s g 1 0 b l l s 是一个由美国的学院、政府机构和i b m 、m i c m s o r 以及c i s c o 发起的项目, 由美国a r g o n m 国家实验室进行研究。目前的g l o b m 可以认为是计算网格技术的典型 代表和事实上的规范。g l o b i l s 最核心的部分就是它的元计算工具包,其中定义了构建计 算网格最基础的服务。 o t 4 ( g l o b 璐1 协l k i 乜4 0 ) 是一种可以通过开放网格服务架构( o g s d 来实施的开放 资源。这种实施主要目的是为网格服务架构提供了依据,同时也可以为别的网格服务架 构实施提供参考。g t 4 中j a v a 的核心服务具备提供代管网格服务实时运行环境的能力, 这些网格服务都是由j a v a 写的。实时运行环境在网格服务的应用和网络承载之间和传 输协议引擎之间起到了协调的作用。 g l o b 懈t 0 o l 虹是一种基于社团的、开放结构、开放源码的服务集合,也是支持阿 格及其应用的软件库,它解决了安全、信息发现、资源管理、数据管理、通信、错误检 测以及可移植等问题。该软件包被世界上的许多网格项目,包括几百个地点所采用。 9 基于网格技术的主题爬虫算法优化的研究与实现 2 网格技术分析 2 1 网格体系结构 网格体系结构是关于如何建造网格技术的技术,包括对网格基本组成部分和各部分 功能的定义及描述、网格各部分功能的定义及描述、网格各部分相互关系与集成方法的 规定、网格有效运行机制的刻画。网格体系结构可以归结为4 种形式:抽象层次结构、 积木块结构、概念空间结构和混合模式结构【4 9 1 。 图2 1 描述了g l o b u s 的五层沙漏模型,并把它与i n t e r n e t 协议模型进行了比较。 图2 1 五层沙漏结构与i n t e m e t 协议的结构对比 f i g 2 1c o n t r a s tb e t w e e ng r i da n di n t e m e ta r c h i t e c t u r e 积木块结构实际上是一种组件结构,它强调的是计算网格中不同的功能模块相对独 立,又相互联系的关系。 与上面两种体系结构相比,概念空间体系结构的层次特征不够清晰,它强调的是各 个部分在概念上的关联,代理技术和面向对象技术是实现概念关联的主要方法。 混合模式结构就是以上各种结构的有机组合、开放网格服务结构( o g s a ) 就是一 种具有代表性的混合结构。 1 0 网格协议体系结构 沈阳工业大学硕士学位论文 五层沙漏结构的一个最重要的思想就是以协议为中心,同时强调服务和a p i 、s d k 等的重要性。它类似于传统的t c p i p 网络协议栈,将网格分成五个相互关联而不均等 的层次,在五个层次中,资源层和汇聚层大大地扩展了网络应用层的功能,对传统网络 中的应用层问题进行了封装,因而功能进一步强大,并为用户提供更加透明的使用手段。 2 2g l o b u s 的积木式体系结构 g i o b u s 作为一个网格软件,g l o b u s 的t o o l k i t 中包含一组实现了安全、资源定位、 资源管理、通信等的核心服务模块,这些模块以搭积木的形式构建网格计算系统【1 2 , 1 3 。 g l o b u st o o l k i t 的各个服务组件的关系如图2 2 所示。在五层沙漏中,每一层都对应 不同的组件,但层间的边界并不明显。 ( 1 ) 多方法通信系统。g l o b u s 工具包内的通信服务由多方法通信库( n e x u s ) 来提供。 n e x u s 是一个服务于并行语言编译器和更高层通信库的可移植的多线程通信库,可用它 来实现异构的并行与分布式环境下的高级语言编译器、高层通信库等。 ( 2 ) 全局资源定位管理器( g l o b u s r e s o u r c e a l l o c a t i o n m a n a g e r ,g r a m ) 。使用g l o b u s 搭建的计算网格通常包含许多g r a m ,每个g r a m 负责对服从某一特定分配策略的资 源集合进行管理和操作,具体的分配策略可从由本地的资源管理系统来决定,如l o a d s h a r i n gf a c i l i t y ( l s f ) 或c o n d o r 。有了g r a m 和r s l 就可以构建全局的资源管理体系 架构。 ( 3 ) 元数据目录服务。根据应用程序以及用户可能提供的其它参数,需要确认网络 中可用的和适合使用的资源,g l o b u s 提供基于l d a p ( l i g h td i r e c t o r ya c c e s sp r o t o c 0 1 ) 的信息服务。这个服务称为网格信息服务( g r i di n f o r m a t i o ns e r v i c e ,g i s ) 或称为监控 和发现服务( m o n i t o r i n ga n dd i s c o v e r ys e r v i c e ,m d s ) “) 心跳检测服务。心跳检测( h e a r t b e a tm o n i t o r ,t i b m ) 服务对分布进程的健在和 状态提供简单的监视机制。i - i b m 体系结构由客户端接口和数据收集a p i 组成,它被用 来监视核心的g l o b u s 服务的状态,例如g r a m 和m d s :也可以用来监视分布的应用 程序,实现对应用程序的错误发现策略。 ( 5 ) g l o b u st o o l k i t 包含了提供对辅助存储器的网格访问( g r i da c c e s st os e c o n d a r y s t o r a g e ,g a s s ) ,包含了诸如g r i d f t p 之类的工具。 基于网格技术的主题爬虫算法优化的研究与实现 图2 2g l o b u s 的主要服务组件问的逻辑关系图 f i g2 2t h el o g i cr e l a t i o no f c o r ec o m p o n e n ti ng l o b u s ( 6 ) 网格计算的主要需求之一是安全性。g l o b u st o o l k i t 的网格安全性基础结构( g r i d s e c u r i t yi n f r a s t r u c t u r e ,g s i ) 组件提供了健壮的安全性机制。 ( 7 ) 远程执行管理。远程执行管理( g l o b u se x e c u t a b l em a n a g e m e n t ,g e m ) 服务支 持在异构环境下对可执行文件的识别、定位、创建和执行。g e m 负责在运行时为不同 的机器找到匹配的可执行文件。 2 3 0 g s a 体系结构 网格的全部核心就是分布式计算与资源管理。一大批异构的资源组成了一个网格, 这些资源以众所周知并且一致的方式进行交互和运转。正是这种交互以及不同资源所提 供的组件之间的互操作性,才导致了开放标准的需要,并促进了o g s a 的出现【l ”。 o g s a 包括两个关键技术:网格技术和w e bs e r v i c e s 技术。以服务为中心是o g s a 的基本思想。在o g s a 框架中,将一切都抽象为服务,包括计算机、程序、数据、仪器 设备等。这种观念有利于通过统一的标准接口来管理和使用网格【l ”。 沈阳工业大学硕士学位论文 在o g s a 中,一切都看作是网格服务,因此网格就是可扩展的网格服务的集合,简 单的说:网格服务= 接口,行为+ 服务数据。 w e b 技术最初是为了科学计算而设计,但后来广泛用到商业领域中,o g s a 的重点 是商业应用,而不是最初那样侧重于科学计算。 一个w e bs e r v i c e s 就是一个可以被u i u 识别的软件应用,它的接口可以被x m l 描 述和发现,并且可以通过基于i n t 锄既的协议直接支持,与其它基于x m l 消息的软件 应用交互i 阍 w e bs e r v i c e s 描述了一种重要的分布式计算模型,更强调基于单个h t 黜t 标准来 解决异构的分布式计算问题。w e bs e r v i c e s 定义了一种技术,用来描述被访问的软件组 件、访问组件的方法以及找到相关服务提供的发现方法。w e bs e r v i c e s 并不倾向于特定 的编程语言和系统平台【m 。 2 4 开放式网格服务基础结构 开放网格服务基础结构( o g s i ) 规范是一项基于w e b 服务标准的、由企业和研究 界通力合作提出的网格服务的基本标准。o g s i 是o g s a 所描述的概念的正式技术规范。 o g s i 中包含如何管理任务、分配任务以及如何描述服务提供者和网格服务的规范。w e b 服务,尤其是简单对象访问协议( s o a p ) 和w e b 服务描述语言( w s d l ) 是这个规范 的重要部分【1 3 】。 因为o g s i 标准建立在许多其他标准( l 、w e b 服务、w s d l ) 之上,所以它是 一种开放的、基于标准的解决方案,无论网格服务基于何种语言和平台,都可以兼容 o g s i 标准。 网格服务是基于o g s i 规范的w e b 服务,是用w s d l 表达的服务接口、扩展和行 为的一组约定。网格服务组件有助于在整个网格内分配和管理任务。因为网格服务为主 机之间的通信提供了一种透明的方法,无论何种底层语言和平台,都可以使用网格服务 方便地传输任务、描述资源和培植信息、通信和分发网格信息,w s d l 为支持网格应用 的w e b 服务提供了一种简单的描述和发布方法。o g s i 成为各种网格实现的基础,g l o b u s t ( o l k n 就是基于o g s i 实现的。 基于网格技术的主题爬虫算法优化的研究与实现 3 主题爬虫算法分析 主题爬虫的目标是使爬行结果中主题相关的页面比例尽可能地大,同时使爬行到的 不相关的页面比例最小化 3 1 。本硕士学位论文设计了主题爬虫能够在爬行过程中学习的 z t s p i d e r 爬虫算法,其中包括超文本分类算法和超链接评价算法。这两个算法都要用到 w e b 页面相关度分析,后者还要做链路反馈计算。通过实验证明它的收获率,并对比现 在的主流算法,验证其爬行的查准率。 3 1 超链接结构特性分析 w e b 页面的相关性分析经常转化为文本相关性分析,这也是目前广泛使用的一种方 法,但是w e b 页面具有它自己的很多特征,充分利用这些特征对w e b 页面相关度分析 算法进行改进,可以大大加强分类器的有效性。 主题相关的网页 主题不相关的网页 已爬行的超链接 未爬行的超链接 页 图3 1 主题爬虫遍历w e b 的示意图 f i g u r e3 1i l l u s t r a t i o no f f o c u ss p i d e rt r a v e r s e st h ew e b 很显然w e b 页面之间存在指向关系,它的拓扑结构是有向刚1 9 , 2 0 。 , 卜 o o 一 一 沈阳工业大学硕士学位论文 w e b 页面之间的超链接是区别于自然语言文本的一个重要特征,这使得w e b 信息 领域中产生了许多与传统信息检索不同的理论和技术。如何有效利用w e b 超链接的特 性是提高w e b 信息检索性能是本硕士学位论文的重要研究内容1 1 9 , 2 1 捌。 由图3 1 可看出:整个w e b 逻辑上可以看作是一个有向图,每个页面相当于有向图 的一个结点,如果两个结点之间存在一条有向边,则说明这两个结点对应的页面之间存 在一个超链接。 超链接在图中的分布并不是随机的,它是有含义的。超链接一方面作为用户浏览 w e b 的导航信息,另一方面,如果两个网页之间存在超链接,那说明: ( 1 ) 如果存在页面a 指向页面b ,那么意味着页面a 推荐页面b ,也就是b 的质量 比较好; ( 2 ) 如果页面a 与页面b 之间存在超链接,那么很可能页面a 与页面b 是属于同 一个主题的; 通过这两个特性,还可以推导出: ( 3 ) 如果页面a 同时链接了页面b 和页面c ,那么b 和c 很可能属于同一主题, 而且像a 这样的网页越多,b 和c 属于同一主题的可能性越大; ( 4 ) 属于同一主题的网页之间链接趋向于更加紧密; 另外还有著名的h u b 与a u t h o r i t y 链接结构假设: ( 5 ) 它将w e b 分为h u b 页面和a u t h o r i t y 页面,其中a u t h o r i t y 页面表示那些高质量 的、具有权威性的页面,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论