已阅读5页,还剩70页未读, 继续免费阅读
(计算机应用技术专业论文)基于网格技术的web信息采集系统.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 互联网的迅速发展和广泛普及导致网上信息爆炸性增长。如何在庞大的互联 网上获得有价值的信息已成为网民日益关注的问题。 搜索引擎是一种用于帮助因特网用户查询信息的搜索工具。一个高效的采集 系统是一个好的搜索引擎的重要基础。大型搜索引擎都是采用基于集群的分布 式采集系统。但是随着信息量的爆炸式增长,搜索引擎需要越来越多的计算资 源、存储资源,并且维护一个庞大的集群系统是耗费巨大的。 本文提出把网格技术和搜索引擎技术结合起来,将互联网上大量闲置的资源 利用起来,以满足我们的需要。网格被视为2 1 世纪的新型网络基础架构以及未 来1 0 年中i t 商业应用的主流。网格利用互联网把分散在不同地理位置的计算 机组织成一台“虚拟的超级计算机”,实现计算资源、存储资源、信息资源、 软件资源、通信资源、知识资源、专家资源等的全面连通与共享。 本文首先论述了舱b 信息采集的基本原理,关键技术和系统结构,并分析和 研究了开源搜索引擎n u t c h 项目。接着简单介绍了网格概念,分析比较了五层 沙漏结构和0 g s a 架构;并详细介绍了主流的网格开发软件平台g 1 0 b u s 。随后提 出一个基于网格技术的w e b 信息采集系统,分析和研究了基于网格技术的w e b 信息采集系统的组成结构和各部分的主要功能,并详细地探讨了w e b 信息采集 几个关键技术阆题的解决方法。最后实现了一个具有服务发现和监视,数据可 靠传输,资源协同分配,分布式采集等功能的网格w e b 信息采集原型系统,并 阐明了w e b 服务资源的编程、通知机制和各服务模块的实现过程。该系统构建 在g 1 0 b u s 最新的技术规范w s r f 及其具体实现g t 4 基础上。 论文的研究和实现工作是当前网格技术研究的一个新课题,为相关研究提供 了一些新的思想和方案。 关键词:网格;w e b 信息采集;g l o b u s n u t c h 开放网格服务体系结构;w e b 服务资源框架 a b s c t a b s t r a c t t h er 丑p j dd e v e 】o p 蝴朗ta n dt 】1 ew j d 器p r dp 叩u 1 向五吐i 咖o fi n t 啪d u s ei h e w e bi l l 如m l a t i o ne x p l o s i v eg r o w l l l ,h o wt 0o b 面nt l l e 砌u a b l ei n f o n 州i o no nm e h u g e i n t 印1 d b e c 0 删嚣p e o p l e sd a i l y m a t 盯o f c o n c 锄 s 髓r c h g i n ei sas c a f c h 0 0 lw h i c l lh e l p sp e o p l ei 1 1 q u 时j l l f 0 加a t i 帆ah i g l l l y e 髓c t i v ew 曲c r a w l e ri s1 h ef o 岫d 撕o no fag o o ds e a r c he n g i 眦t kl a 咯e - s c a l e s c a r c h 锄g i n c sa l l 峭ed i 矧b u t e dc l u s t 髓s y s l a n 鼢w 曲渤w l 既b u t 州t l lw e b i n 如姗a t i 舢 咖t 助i 孽时埘i 培q u j c k 耻阳a r c he n g i n 嚣n dm o 船a n dm o 坤 c o m p u t 砌0 n sr e s 伽r c c sa n ds t o r a g c 脚u r c e s ni sa l s o 柏e x 锄n e 】y 唧髓s i v e 0 0 n s 唧t i 咖t om a i n t a i nah u 印d u s k t 1 1 l i sp 印c rp f 0 ”s e st oc 0 1 i i b i n et l l e 鲥dt e d u l o l o g y 锄dm es 觚h 即g i 眦 t e c l l i l o l o g y ,卸du t j l i z et t l o 辩m a s s i v er c s o u r c 嚣w h i c h 缸ei d ko nt l l ei n t 铷e tt o 鞠d s 白a 啊n e e d n e 鲥di sr e g a r d e d 嬲1 1 1 en e wn 咖o f l 【i n f 珀s 岫l c t i 】r eo ft l i e2 1 “ c a l t l l r y 猫w 硎嚣 i e m a i n s 吮a mo f t l l ei t m m c r c 饲u s c i nm ef l i t l i l oy c m 宣 1 1 1 e 鲥do r g a j l i z e sm o s ec o m p u t 懿,w t l i c h 揶r ei nt l l ed i 仃妇tg g r a p h i c a lp o s i t i o i l o nt l l eh i l e r n e t ,t of o m la ”v j 咖a l 洲p 甜c o m p u t e r ”t h eg i r d 啪a c h i e v et 0s h a r e c o m p u t 确o nr e s o u r c e s ,t b es t o r a g er e s o u r c e s m em 锄1 i i a t i o nr c s o u r c e ,t h es o r w a r e r e s o i h c s ,t h ec o m m u n i c a n o nr c s o u r o 嚣,t h ek n o w l e d g er e s o u r c e 8 ,趼dt h ee x p 甜 n 嚣o u r c e sa n ds oo n 1 葡sp a p e r 矗r 甜d i s c i l s 蝌t i l eb a s i c p r i n c i p i e s o ft h ew 曲c h w l k e y t e d i l i l 0 1 0 9 y 锄ds y s t e i t la r c h i t e c t i l 煽锄df e s e a r c ha n d 锄a i y s i st l l eo p s o u r c es e a r c h 酉n ep r o j e c tn u t c h t h e nab e f i n 枷u c 虹咖o f t l l eg i i dc 0 i l c q ,ti s 百v e na sw e n 勰 m 卸a l y s i sa n dc o m p a r i s o no f t t i ef i v e l 删ds a l l d 翊册sa r c l ,i t e c t l l r e 锄do p 锄0 m s 盯“a r c h i t e c h l 碱t h ep 印盯h 船ad c t 础。dd e s 嘶p 6 伽o fg 1 0 b u s ,w h i c hi st l l e m a i n s 仃e 锄鲥d f | w a r cd e v e l o p m tp l a t f 0 棚l a t e a 鲥d - b 嬲e dw 毫bc r a w l 盯i s o p o s e d ar 瞄e 砌卸da n a 王y s 西o fm es h l l c t u r ea i l dt l l em a i nf i l n “o n so ft l l e 鲥d - b a s e dw e bc r a w i e rj s m a d e t h es 0 1 u 6 0 nt ot h es 州e m lk e yt c c t i i l o l o g i c s p r o b l 锄,w h i c hm a yb eb o e dw h e nc o l l s t n l c “n gaw e bc r a w “gs y s t 锄,i sa l h a b s t r a c t d j 湖龉e d i n 曲t a i l f i n a i l y a p r o t o t y p e o f g 和w 曲c h l 玎i sa d _ l i e v e d t h e 州o t y p e s y s t e n lc a nm o m t o ra n dd i s c o v e rs e r v i c 鹧,仃蛐锄i td a 乜他“a b i “t y ,a l l o c a 上er e s o u r c e s s y l l e 哂龉,柚dc r a w ld i s 啊b u t o 正t h ep r o 睁勰i m i n gm o d e lo f w e bs 盯v i o 嚣r e s o u r c e s , n o t i 6 c a t i 蛐m e c b a i l i 锄a n dt l l es e 而c et n o d u l ei sa l s o 懿p l a i n e d 1 1 l ep r o 量o t ,p e s y s t 伽i sj m p l e m c l l t 。db yw s r f ,w h j c hi st i l el a t 嚣tg 1 0 b u st e c h l l i c a ls p e c i f i c a 吐o n m 硼r 4 t h er c s e 疵ha i l dn l ci m p l 锄e l n a i i o nw o r ko fi nt l l i sp a p e ra r ean 删rr c s e a r c h 飘l b j e 吐衄伽t 饥i 鲫dt e c l i l 0 1 0 移1 1 l e ys h e dn e wt h o u 曲忸鲫dp l a i l sf o rr c l e v 舭t m e a r c h k e yw o r d 罩:g r i d ;w 曲c m 州e r ;g 1 0 b u s ;n u t c h :o g s a ;w s r f 1 1 学位论文版权使用授权书 本人完全了解北京机械工业学院关于收集、保存、使用学位论文 的规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和 电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、 缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以 及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向 国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目 , 的的前提下,学校可以适当复制论文的部分或全部内容用于学术活 动。 学位论文作者签名: ,敬之驭 如习年3 月店日 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 年月日年月日 硕士学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、己公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。 签名: 寿、专双 刁年j 月厅日 第1 章绪论 1 1 课题背景 第1 章绪论 互联网的迅速发展和广泛普及导致网上信息爆炸性增长。据u n i v e r s i t yo f i o w a 最近一项调查显示,截至2 0 0 5 年1 月全球可以索引的网页( i n d e x a b l e 乳b ) 已经达到至少儿5 亿 1 。这次调查仅限丁- 搜索引擎覆盖的可索引页( o n l y c o v e r st h ei n d e x a b l e b ) ,据s e a r c he n g i n ew a t c h 相关专家估计,深层或 不可见的w e b ( i n v i s i b l eo rd e e p b ) 网页数冒有5 0 0 0 亿【2 。这一数字仍 然在不断的快速增长,因为互联网每天都会增加数以百万计的新网页。 如何在庞大的瓦联网上获得有价值的信息已成为网民目益关注的问题。搜 索技术 3 的出现为腭民快速找到所需信息带来了福音。搜索引擎是一种用于帮 助因特网用户查询信息的搜索工具,它以一定的策略在互联网中搜集、发现信 息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到 信息导航的目的。 搜索引擎一般有w e b 信息采集( c r a w l ) ,建立索引库( i n d e x ) ,检索查询 ( s e a r c h ) 这三个部分组成 4 。w e b 信息采集是利用w e b 页面之间的链接关系, 不断地从w 曲上自动的获取网页信息,然后把所获得的信息保存下来以备建立 索引库和用户检索。w e b 信息采集的速度、数量、质量是评价一个搜索引擎好坏 的重要指标。掘u n i v e r s i t yo f1 0 w a 最近一项调查显示,全球最大的搜索引擎 g o o g l e 5 索引了大约8 0 亿个网页。可见,目前的大型搜索引擎对整个w e b 的 覆盖率还是很低的。 因此,一个高效的采集系统是一个好的搜索引擎的重要基础。大型搜索引 擎都是采用基于集群的分布式采集系统,全部的网页信息更新需要大约一个月。 分布式采集系统采用多机并行工作,提高整个系统的工作效率,并具有良好的 可扩展性。但是随着信息量的爆炸式增长,搜索引擎需要越来越多的计算资源、 存储资源,并且维护一个庞大的集群系统是耗费巨大的。然而,分布在全球的 资源远远没有达到高负载,能否利用这些闲置的资源满足我们的需要呢? 在这 种背景下,人们提出了“网格计算 6 ”这个概念。 第1 章绪论 “日格计算( g r i dc o m p u t e ) ”出现于2 0 世纪g o 年代,它的目的是想利用 高速互联网把分布于不同地理位置的计算机、数据库、存储器和软件等资源连 成整体,在各企业、行业或工作组问得以虚拟地共享、管理及访问,使得用户 可以无缝、无干扰地访阀这些资源。就像一台超级计算机一样。为用户提供 体化信息服务,用户不需考虑计算力从什么地方来,只管用就行了。刚格被视为 2 l 世纪的新型网络基础架构以及未来1 0 年中i t 商业应用的主流。目前,科研、 气象、铁道、电信等行业已有诸多成功应用案例。 网格是一个动态的分布式的巨型系统。将网格技术应用于搜索引擎将面临 很多前所未遇的挑战。 1 ) 资源的异构性。从硬件方面讲,瓷源的体系结构,处理能力不同:从软 件方面讲,操作系统,局部的资源管理和调度软件也可能不同。 2 ) 资源的动态性。网格环境并不是一个静态系统,有各种各样不可预测的 因素存在,资源随时可能失效,一也随时可能有新的资源加入网格系统。一 3 ) 资源的安全性。安全性是网格系统中最重要的因素之一,在互联网上, 系统需要应对箨种可能的攻击,还要处理好虚拟组织间的信任关系、对资源的 访问控制等,因此局域网级的安全策路旱已经不能胜任。 1 2 课题内容 网格技术凭借其独特的计算力联合和分布式计算模式,在科学研究、企业 信息处理、电予政务、个人娱乐、教育领域等方面拥有广泛的应用前景。本文 主要研究网格技术在搜索引擎领域的应用。该课题建立了一个网格w e b 信息采 集系统的原型,它包括:1 、底层网格基础设施;2 、面向擅索引擎领域的中间 件技术应用;3 、安全基础与管理监控系统;4 、建立一个操作界面或平台。本 文将分布式w e b 信息采集技术纳入到网格应用体系内,并在网格原型上实现w e b 信息资源共享服务。 在课题中作者研究的主要工作包括: 1 ) 学习和研究w e b 信息采集的基本原理和关键技术,包括并行采集,动态 页面采集,页面刷新等。 2 ) 该课题的理论研究和应用开发主要基于g 1 0 b u st 0 0 l k i t4 ( g t 4 ) 进行, 网格的体系结构和编程模型是研究的重点。因此,要学习和研究网格信息服务 第1 章绪论 的概念、理论、体系结构和o g s a 体系结构及其最新规范w s r f ,并需要熟悉并掌 握g t 4 组件的构成以及功能。 3 ) 深入研究和分析w e b 信息采集系统的系统结构和运行流程,结合互联网 发展起来的x l l l 技术、网格技术和w s r f 规范技术,提出一种基于网格技术的w e b 信息采集系统,并详细分析和阐述了基于网格技术的w e b 信息采集系统的组成 结构和各部分的主要功能,包括w 曲信息采集流程,信息组织与存储、服务发 现和监视机制,调度机制以及安全机制。 4 ) 利用w e bs e r v i c e s 和网格技术的结合实现了原型系统,利用局域网内 配置的多个计算机和相关软件对本系统进行测试,以验证设计的可行性和正确 性。 网格和搜索引擎都是在国际范围内的计算机领域新热点,而网格技术在搜 索引擎领域的应用,尚处于初始阶段,因此本文重在尝试将网格技术和搜索技 术结合起来的可行性。 1 3 论文安排 本文根据其内容分为六章: 第一章是绪论。对课题背景进行简单的介绍,并对课题内容和论文安排进 行简要描述。 第二章是w e b 信息采集系统。首先简要介绍了w e b 信息采集系统利用网页 中超链接实现爬行的基本原理,以及w 曲信息采集系统的整体结构。接着介绍 了国内外对于w e b 信息聚集系统的研究现状。最后对开源搜索引擎项目n u t c h 做了论述,详细分析n u t c h 的捅件系统和采集程序。 第三章是网格技术。首先介绍网格技术的基本概念及其特点,然后阐述了 两种网格体系结构,五层沙漏结构和开放网格服务架构,并对两者的优缺点进 行了比较。随后对目前主流的网格中间件平台g 1 0 b u st 0 0 1 k i t 傲了详细介绍, 重点论述6 1 0 b u st 0 0 1 k i t4 的功能组件构成及最新的w s r f 架构。 第四章是网格w e b 信息采集系统设计。首先分析了设计一个w e b 信息采集 系统面临的核心问题和技术难题。针对这些难题,详细闸述基于网格技术的w e b 信息采集系统的组成结构和各部分主要功能。 第五章网格w e b 信息采集系统实现。按照第删章的设计内容,对w e b 信息 第1 章绪论 采集系统进行了原型实现,包括各种w e b 服务资源,网页采集功能模块。通过 安装g 1 0 b u st o o l k i t4 网格中间件,组建了一个网格环境,部署原型系统,以 验证本文提出的架构的有效性和可行性。 第六章是总结与展望。对论文内容进行概括,得出结论,并对进一步工作 的方向进行了简要的讨论。 4 第2 章w 曲信息采集系统 2 1 基本原理 第2 章w e b 信息采集系统 本文的w e b 信息主要指网页信息。网页是一个h t m l 文件。网页里可以包含 超级链接( h y p e rl i n k ) 。以网页为节点,超级链接引用为边,整个w e b 可以看 作一个有向图 7 ,如图2 1 所示: 图2 1 盹b 有向图 客户通过h t t p 8 ( 超文本传输协议,h y p e r t e x tt r a n s p o r tp r o t o c 0 1 ) 得到网页内容。h t t p 是一个简单的协议。客户进程建立一条同服务器进程的t c p 连接,然后发出请求并读取服务器进程的应答。服务器进程返回的内容包含两 个部分:一个是应答头( r e s p o n s eb e a d e r ) ,一个是应答体( r e s p o n s eb o d y ) , 后者通常就是一个h t m l 文件。 搜索引擎通过w e b 信息采集器自动发现、搜集w e b 上的网页信息。w e b 信息 采集器也称作网络机器人( r o b o t ) 或网络蜘蛛( s p i d e r ) 。w e b 信息采集器顺着 网页之间的链接关系在w e b 有向图中移动,自动地下载所经过的网页。w e b 信息 第2 章w 曲信息采集系统 采集器把所获得的信息保存下来以备建立索引库和用户检索。w e b 信息采集器的 工作流程如图2 2 所示; 围 2 2 系统结构 v - f 诵 、- 一 图2 2 e b 信息采集器的工作流程 搜索引擎一般有w e b 信息采集,建立索引库,检索查询这三个部分组成。 w e b 信息采集系统是从u r l 库( 初始时包含用户指定的起始种子u r l 集合,可以 是一个或多个) 获得输入,解析u r l 中标明的w e b 服务器地址、建立连接、发 送请求和接收数据,将获得的网页数据库存储在原始网页库,并从其中提取出 链接信息放入网页结构库,同时将待抓取的u r l 放入u r l 库,保证整个过程的 递归进行,直到u r l 库为空。搜索引擎为了提供检索服务,需要保存网页原文。 耳e b 信息采集系统不但要能够获取h t 皿】、h t m 、t x t 结尾的u 甩对应的冈页, 还应该能够获取不是以h t m l 结尾的u r l ,如p d f 、d o c 、,因为p d f 、d o c 等 文件可以通过转换程序生成为h t m l 或者t x t 文件,同样为搜索引擎提供检索 服务。作为搜索引擎的起始流程,采集的网页要按照一定的格式存储,便于后 续组织和提供服务。w e b 信息采集系统提取出网页包含的链接,将这些链接关系 第2 章w 曲信息采集系统 存储下来,以便下一步计算网页的入向链接( i r l i n k ) 数,从而对网页的重要 程度进行评估。w e b 信息采集系统的基本结构如图2 3 所示: 图2 3 :w e b 信息采集系统的基本结构 就目前互联网的规模来说,在单机上运行的w e b 信息采集系统己无法在一 个有效的时间范网内完成一次搜集整个w e b 的任务。大型搜索引擎都是采用分 布式采集系统。分布式采集系统采用多机并行工作,提高整个系统的工作效率, 并具有良好的町扩展性。 出于商业机密的考虑,目前各个搜索引擎使用的采集系统的技术内幕一般 都不公开。v l a d i s l 8 vs h k a p e n y u k 和t o r s t e ns u e l 设计和实现了一种分布式 w e b 信息采集系统 9 。他们把整个系统分为采集系统和应用程序。采集系统包 含许多专门组件,其中有一个调度器,一个或多个采集器,一个或多个域名解 析器。各种组件可以运行在不同的机器上( 不同的操作系统) 。为了提高系统性 能,还可以增加某些组件的数量。调度器负责从应用程序接收种子u r l 地址, 然后遵从r o b o t s t x t 排除规则和采集速度的限制,把u r l 地址分派给可用的采 集器和域名解析器。采集器是一个高性能的异步h t t p 客户端,它可以并行地下 载数百个网页。域名解析器是一个最优化的d n s 查询代理,它把域名查询请求 转发给本地的d n s 服务器。如图2 4 所示,该图是一种小型配置,它有3 个采 集器,需要3 5 台计算机,系统可以每秒下载约2 5 0 4 0 0 个h t m l 页面。这个 系统框架具有很高的收缩性。 第2 章w 曲信息采集系统 图2 4 :分布式w 曲信息采集系统 这种系统架构的特点是所有结点属于一个企业或组织,所有结点般在伺 一个局域网里。因此这种架构的优点是直接访问数据,系统的绝对控制,组件 之间通讯路径短,速度快,而它的缺点就是企业如果想拥有一个功能强大的采 集系统,费用是很高的。费用不仅包括硬件设备的投入,还包括日常维护费用。 企业需要大量的带宽,大量的存储介质,大量的计算资源。 根据调查,全世界的大型机平均有的时问是空阑的,而家用电脑更离 谱,有9 5 的时间是空闲着的。如果能把这些资源充分利用起来,统一调度到 最需要使用计算能力的地方,就可以提供高超的计算能力,完成更多更复杂的 任务,而且具有很高的性价比。 a l “e 抽d n o v s k y 在2 0 0 4 年底启动了j e s t i c 】2 f l o 分布式搜索引擎计 划,计划整合全球范围的计算机来采集_ e b 信息,然后把这些信息发传凹中央 服务器进行索引,存储。m a j e s t i c 1 2 的采集系统如图2 5 所示 第2 章w 曲信息采集系统 图2 5 :m a j e s t i c 1 2 的采集系统 和g o o g l e 的采集系统比起来,m a j e s t i c 一1 2 的采集系统明显降低了费用。 但妇j e s t i c 一1 2 中的中央服务器是系统的一个瓶颈,一旦它不能 作,系统中 的采集器将因为没有更多的任务而停止工作,并无法把已采集的两页内容返回。 该分布式采集系统仅仅利用了各参与结点的带宽。此外该系统不是基于开放结 构,因此系统的可扩展性不是很高。 2 3 研究现状 目前,b 信息采集技术的发展正如火如荼,依据不同的应用需要,w e b 信 息搜集可以采用不同的策略和方法。根据国内外流行的看法,把w e b 信息采集 的发展方向分为以下几种,实际系统往往是以上几个采集技术的结合。 l s i 曲l ew e bc r a w h g 对整个w e b 的信息进行采集。由于采集的范围和数量都非常巨大,所以对 采集速度和存储空间要求很高:需数周乃至数月的时间来刷新一次。g o o g l e c r w l e r 5 ,康柏系统研究中心m e r c a t o rw e bc r w l e r ,i n t e r n e ta r c h i v e 属 于这一类。 2 1 n c m m 乜iw e bc r a w l i n g 只需要采集新产生的或者已经发生变化的页面。增量式信息采集能极大地 减小数据采集量进而极大地减小采集时空开销,因此它成为实际采集系统的首 选。但是它增加了算法的复杂性和难度。前面所说的g 0 0 9 1 e 、m e r c a t o r 和 i n t e r n e ta r c h i v e 都是增量式信息采集系统。i b mw e bf 0 u n t a i n 是一个典型的 增量式系统。它采用了一种适应性的方法,根据先前采集周期里采集到的结果 的实际变化率进行调整。 3 f o c u 甜c 研l e r 选择性的搜寻那些与预先定义好的主题集相关页面,对它的研究现在比较 热门。印度理工大学( i i t ) 和i b m 研究中心的研究人员开发了个典型的基于主 题的w e b 信息采集器。它具有一个c l a s s i f i e r 用于评价采集文本是否与主题相 9 第2 章w 曲信息采集系统 关;还具有一个d i s t i l l e r ,用于识别能够在较少的链接内就连接到大量相关页 面的超文本节点。 4 c u g t o m k e dw 曲c n w 血喀 通过用户交互与用户兴趣制导等灵活手段来指导采集。s p h i n x 1 1 是一个 j “a 工具包组成的环境交互式信息采集器。k r a k a t o ac h r o n i c l e 1 2 介绍了一 种新闻的个性化采集,这是个性化和主题采集应用结合的一个实例。 5 a 辞n tb a j e dc h 岬n g 随着智能a g e n t 技术的发展, g e n t 与w e b 信息采集相结合的技术也逐渐热 门起来。它在面临诸如基于主题和用户个性化的采集时,更加方便灵活和适应 力强。比如说在基于用户个性化的采集中,它能像人一样感知用户的兴趣变化, 自主地灵活地智能地调整采集策略。 6 r e l o c 丑t a b l e w d h c r a w l e r 在采集时,将自己上载到它所要采集的服务器中,在当地进行采集,并将 采集结果压缩后,回传到本地。这大量的节省了w e b 资源,但明显的一个问题 是信任机制。s p h i n x 就是这种思路的尝试。 7 m n - s e a 柙h 对用户提交的查询请求通过多个领域或门户搜索引擎搜索,并将结果整合 后以统一的界面提交给用户。它一直是搜索引擎研究的一个热点。作为搜索引 擎先头部队的信息采集器,在元搜索引擎中有相当的退化,但仍为w e b 采集的 一个方向,叫做基于元搜索的信息采集( m e t a c r l e r ) 。 2 4n u t c h 项且 2 4 1n u t c h 项目简介 n u t c h 1 3 是一个刚刚诞生开放源代码( o p e n s o u r c e ) 的w e b 搜索引擎。说 起t c h ,不得不提l u c e n e n u t c h 的创造者是d o u gc u t t i n g ,他也是l u c e n e 的作者。l u c e n e 是一个用j a v a 写的全文索引引擎工具包,它实现了词法分析, 第2 章岫信息采集系统 全文索引和检索的功能,可以方便的嵌入到各种应用中实现针对应用的全文索 引检素功能。n u t c h 是采用l u c e n e 核心酌一个w e b 搜索引擎的完整实现,增加 了网页采集部分。 2 4 2n u t c h 系统结构 n i l t c ha 王d f l i t e c t l l f e 倒2 6 :n u t c h 的系统结构 n u t c h 的系统结构如图2 6 所示。总体上n u t c h 可以分为2 个部分:采集部 分和搜索部分。采集部分抓敢页面并把抓取回来的数据做成反向索引,檀索部 分则对反向索引搜索回答用户的请求。采集部分和搜索部分的接口是索引。两 者部使用索引中的字段。实际上采集部分和搜索部分可以分别位于不同的机器 上。 n u t c h 还有一套插侔( p l u g i n ) 系统,该插件系统是基于e c l i p s e 【1 4 2 x 中 对插件的使用。p l u g i n s 对n u t c h 的工作是很重要的。所有的n u t c h 中的p a r s i n g ( 分析) ,i n d e x i n g ( 索引) ,s e ”c h i n g ( 查询) 都是通过不同的p l u g i n s 来实 现的。在编写一个p l u g i n 的时候,你要为一个扩展点添加一个或者更多的扩展 项。这些n u t c h 的扩展点是n u t c h 在一个p l u g i n 中已经定义好了,这个p l u g i n 是n u t c h e x t e n s i o n p o i n t s ( 所有的扩展点都会在n u t c h e x t e n s i o n p o i n t s p l u g i n x m l 这个文件巾列出) 。每一个扩展点都定义了一个接口,这个接口在扩 展时必须被实现。这些扩展点如表2 1 : 表21 :n u t c h 插件系统的扩展点 第2 章w 曲信息采集系统 o n i i n e c l u s t e r e r 为在线的查询结果提供分组算法的扩展点的接口 i n d e x i n g f i l t e r i n g允许为所索引中的f i e l d 添加元数据。所有的宴现了这个接 口p l u g i n 会在分析的过程叶1 顺序的逐个运行 o n t o l o g y本体,主要是针对人工智能的 p a r s e r 实现这个接口的p a r s e r 读取所抓取的d o c u m e n t ,摘取将破 索引的数据。如果你要在n u t c h 中为扩展分析一个新内容类 型或者从现有韵可分析的内容摘取壁多的数据。 h t m i p a r s e p i1 t e o 为h t 1p a r s e r 添加额外的元数据 p r o t o c 0 1 实现p r o t o c o l 的p l u g i n 可以使得n u t c h 能使用更多的瞬络 协议( f t p h t t p ) 去抓取数据 。l 】e r y f i l t e o为查询转换的扩展点 u r l f i l e t e r 实现这个扩展点的p i u g i n 会对n u t c h 要抓取的网页的u r l s 进行限制,r p g e x u * l f l l t e r 提供了通过正则表达式来对 n u t c h 爬行网页的u r l s 的控制。如果你对u r l s 还有更加复 杂的控制要求,你可以编写对这个u r l “l t e r 的实现 n u t c h a n a l y s e r为许多语言特定的分析器提供了扩展点 。 如果要在n u t c h 使用一个给定的p l u g i n ,你需要对c o n f n u t c h s l t e x m l 进行编辑并且把p l u g i n 的名字添加到p l u g i n ,i n c l u d e s 中。 n u t c h 采用p l u g i n 系统,具有如下优点: 1 ) 可扩展性 通过p l u g i n ,n u t c h 允许任何人扩展它的功能,雨我们要做的只是对给定 的接口做简单的实现,举个例子:m s w o r d p a r s e r 这个插件是用来分析m r d 文档 的,它就是一个对p a r s e r 这个接口的实现。 2 ) 灵活性 因为每个人都可以根据自己的需求丽写自己的p l u g i n 这样p l u g i n 就会有 一个很强大的资源库。这样对与应用n u t c b 程序员来说,他可以在自己的搜索 引擎上安装符合自己需求的插件,而这些插件就在n u t c h 的p l u g i n s 中。这对 于正在应用n u t c h 的开发者来说应该是一个巨大的福音,因为你有了更多的关 于内容抽取的算法来选择,很容易就增如了p d f 的分析。 3 ) 可维护性 每个开发者只要关注自己的问题。对于内核的开发者在为引擎内核扩展的 同时,为一个p l u g 添加一个描述它的接口就可以了。一个p l u g i n 的开发者只 要关往这个p l n g i n 所要实现的功能,而不需要知道整个系统是怎么工作的。它 们仅仅需要知道的是p l u g i n 和p l u g 之问交换的数据类型。这使得内核更加简 2 第2 章w 曲信息采集系统 单,更容易维护。 2 4 3n u t c h 采集部分 n u t c h 的采集流程如图2 7 所示。 图2 7 in u t c h 的采集流程 n u t c h 的采集过程是被n u t c h 的抓取工具驱动的。这是一组工具,用来建立 和维护几个不同的数据结构。n u t c h 采集部分包含的工具主要有表2 2 所示,包 含的数据结构如表2 3 所示。 表2 2 :t c h 采集系统的t 具 莨”,工氧”: 一 。,描述 “ 。: c r a w l 一步至# 位地进行企业内刚采集 d e d u d 多个索引片段之| 司进行消重 f e t c h 抓取一个附址片段的州页 生成抓取列表 1 n j e c t注入u r l i n v e r t l i n k 3 从解析过的子段生成一个链接数据库( l j n k d b ) 第2 章w 曲信息采集系统 i n d e x对解析扁的内容建立全文索引 m e r g e 合并多个索引片段 多个子段合并成一个子段 m e r g e d b 新刚址合并到嗣址数据库( c r 甜l b ) m e r g e i i n k d b 合并链接数据库( l i k d b ) d 4 r s e解析网页内容 r e a d d b 读取嘲耻数据库 r e a d l i n k 曲读取链接数据库 r e a d s e g 读取子段数据 u d d a t e d b抓取完后对网址数据库进行更新 表2 3 : t c h 采集部分的数据结构 j一 数据结构_ ii 。 。攘罄“|一。一 采集数据库( c r w l d b )包含所有n u t c h 系统已知的u r l 信息。这些u r l 包括j :集 过的和未采集的。对于采集过的u r i ,还记录了栗集时间。 链接数据库( l i n k d b )包台每个u r l 的入向链接信息。信息包括源u r l 以及链接 的锚文本。 c r a _ l g e n e r a t e代表要被采集的一组u r l 5 c r w l f e t c h 包岔每个u r l 的采集状态 包含每个u r l 的内容 p a r s e t e x t 包含每个u r l 解析过的史本 p a r s e d a t a 包古每个u r l 的外向链接和解析出米的m e t a d a t a 包含外向链接,用来更新c r a w l d b 注 我1 仃把c r a w l g e e r a t e ,c r a l f e t c h ,c 叩t e n t ,p a r s e t e x t ,d a r s e _ d a t a ,c r a w l 卫a r s e 舍称做s e g m e n t 通过这些工具和数据结构,t c h 支持两种采集模式: 1 i n t 憎n e tc n 竹u n g 直接使用c r w l 工具。适合抓取网页预期总数在一百万,网站数量有限的 情况。这种采集模式对于垂直搜索领域已经足够。 2 w h o l e w e bc r a w l i n g 全网采集被设计为进行大规模采集,采集过程将持续数周才能完成,并运 行在多台机器。在这种模式下,允许对采集过程具有更多的控制,或者进行增 第2 章w e b 信息采集系统 量采集。但这并不意味着就是对整个互联网进行采集。我们可以限制全网采集 只采集我们想要的u r l s 。通过使用一个“l t e r ,我们可以做到这一点。全网采 集一般可按如图2 8 所示步骤进行: y 图2 8 :全羽采集步彝 n u t c h 的插件系统使得很容易对它进行扩充,进行定制。比如在采集新闻类 网页时,一般可以使用基于模板的信息提取技术将新闻网页的内容提取出来, 这可以通过写一个p a r s e r 插件,或者通过对现有h t m lp a r s e 插件进行扩充来 实现这样的功能扩充。本文要对n u t c b 的采集部分进行功能扩充,将其改造成 一个可用于网格环境下的分布式采集器。本文设计的网格w e b 信息采集系统采 用具有更加灵活性的第二种采集模式,通过插件机制实现只采集特定链接。这 些特定链接可以通过正则表达式的方式来匹配,凡不符合匹配的不进行采集。 2 5 小结 本章首先介绍w e b 信息采集的基本原理,接着介绍w e b 信息采集的系统结 构以及国内外研究现状,最后详细阐述开源搜索引擎t c h 项目,重点介绍u t c h 的p l u g i n 系统和采集部分。 第3 章网格技术 3 1 网格概念 第3 章网格技术 全球网格研究的领军人物、美国阿岗( a r g o n n e ) 国家实验室的资深科学家、 美国g 1 0 b u s 项目的领导人i a nf o s t e r 曾在1 9 9 8 年出版的网格:2 l 世纪信 息技术基础设施的蓝图 1 5 】一书中这样描述网格:“网格是构筑在互联网上的 一组新兴技术,它将高速互联网、高性能计算机、大型数据库、传感器、远程 设备等融为一体,为科技人员和普通老百姓提供更多的资源、功能和交互性。 互联网主要为人们提供电子邮件、网页浏览等通信功能,而网格功能则更多更 强,让人们透明地使用计算、存储等其他资源。” 2 0 0 0 年,i a nf o s t e r 在网格的剖析 1 6 这篇论文中把网格进一步描 述为“在动态变化的多个虚拟机构问共享资源和协同解决问题。”至此,人们仍 然就什么是网格而争论不体。2 0 0 2 年7 月,i a nf o s t e r 在什么是网格? 判 断是否网格的三个标准 1 7 一文中,限定网格必须同时满足三个条件:( 1 ) 在 非集中控制的环境中协同使用资源;( 2 ) 使用标准的、开放的和通用的协议和接 口:( 3 ) 提供非平凡的服务。这三个条件非常严格,象p 2 p 、s u ng r i de n g i n e 、 c o n d o r 、e n t r o p i a 、m u l t i c l u s t e r 等都被排除在网格之外。 至此,i a nf o s t e r 已经把他头脑中的网格概念描绘清楚了。但并小是所有 人都同意他的观点,例如,有许多人赞同广义的网格概念,它称作巨大全球网 格g g g ( g r e a tg 1 0 b a l g r i d ) ,它不仅包括计算阿格、数据网格,信息网格、知 识网格、商业网格还包括一些已有的网络计算模式,例如对等计算p 2 p ( p e e rt o p e e r ) 、寄生计算等。可以这样认为,i a nf o s t e r 赞成狭义的“网格观”,而g g g 是一种广义的“网格观”。 不管是狭义还是广义的网格其目的不外乎是要利用互联网把分散在不同 地理位置的电脑组织成一台“虚拟的超级计算机”,实现计算资源、存储资源、 数据资源、信息资源、软件资源、存储资源、通信资源、知识资源、专家资源 等的全面共享。传统互联网实现了计算机硬件的连通,w e b 实现了网页的连通, 而网
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高危妊娠健康教育要点
- 高值康复设备全生命周期管理标准
- 骨质疏松药物治疗的经济学评价
- 2026年湖北省武汉市2026届高三下学期4月供题 数学试题 含答案新版
- 高校考研英语历年真题总结
- 制造业人力资源管理制度详解
- 餐饮服务员工培训课程大纲
- 幼儿园环保教育课程方案设计
- 互联网企业数据隐私合规解析
- 钢筋混凝土挡土墙工程施工组织设计方案
- 车辆五一安全运行培训课件
- 邮政银行面试题型及答案
- 回力抖音旗舰店网络运营优化策略分析
- 高考誓师动员会上教师发言稿合集
- 2025年度跑步服装市场调研:吸湿排汗、轻量化及专业适配分析报告
- 建筑防水设计专项分析报告范文
- 2025年高考湖北卷物理真题(原卷版)
- 2026年中国铁路兰州局招聘1836人笔试考试参考试题及答案解析
- 危险化学品经营安全培训课件
- 喀什地区2025新疆维吾尔自治区喀什地区“才聚喀什智惠丝路”人才引进644人笔试历年参考题库附带答案详解
- 公司农产品配送管理制度
评论
0/150
提交评论