




已阅读5页,还剩48页未读, 继续免费阅读
(计算机应用技术专业论文)一个web本体的采集系统.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东南大学硕士学位论文 一个w e b 本体的采集系统 摘要 本体提供简单、统一和形式化的语义描述,并且由于学术研究和工业生产的需要正在得到越来 越多的重视。在我们的研究中,本体是描述一组概念及其关系的用语义w e b 语言写的文档。本体技 术的突破性发展需要有促进高效本体开发的方法帮助和工具支持,对此,一个关键的观点就是成功 地重用本体。 为促进本体重用,支持本体构建,一些组织已经开展研究,并建立起应用系统。本体库系统是 一种组织和管理本体的重要工具,它通过提供各种功能支持管理、查询和改编本体,促进本体重用。 s w o o g l e 是马里兰大学开发的语义w e b 文档索引和检索系统,它抽取本体元数据、计算文档关系,为 本体相关的应用提供各种检索服务。但是这些系统在采集本体的手段方面尚有欠缺,本体来源有限 因而其功能受到限制。针对现有系统存在的局限性,我们提出基于聚焦爬虫技术建立一个w e b 本体 采集系统的设想。 爬虫是搜索引擎等系统后台的信息采集工具,聚焦爬虫根据既定的搜索目标,采用最好优先的 搜索策略,有选择地访问w e b ,获取网页,进行更加有效的搜索和采集。 本文对基于聚焦爬虫采集w e b 本体的原理、技术和方法进行理论研究和实践探索,主要成果包 括:分析、总结了本体文档的w e b 分布特性;提出了适合w e b 本体搜索的链接评价综合方法;设计并 实现了一个称为1 r e b 0 i l t oc r a w l e r 的本体文档采集系统。 关键词:语义w e b ,本体重用,w e b 爬虫,聚焦搜索,多线程 奎堕盔兰堡主兰堡垒奎 二尘燮查堡堕墨叁至竺 a b s t r a c t o n t o l o 叠i 鸽w h i c hp r o v i d eac o f l c i s e , u n i f o r i l la n df o r m a l i z e dd e s c r i p t i o no f s e m a n t i c s ,a 阳g a i n i n g i n c r i s i n gs i g n i f i c a n c ed u et ot l l ed e m a n d si na c a d e m i aa n di n d u s t r y i no u rr e s e a r c h , a no n t o l o g yi sa d o c u m e n ti ns e m a n t i cw e bl a n g u a g ew h i c hr e p r e s e n t st h ec o n c e p t sa n dt h er e l a t i o n s h i p sh o l d a na m o n g t h e m ab r e a l v h t o n g hi no n t o l o g yt e c h n o l o g yw o u l dr e q u i r em c t h n d o l o 画c a la i d sa n dt o o l st h a te n a b l e e f f e c t i v ea n de f f i c i e n td e v e l o p m e n t ak e ya s p e c ti na c h i e v i n gt h i si ss u c c e s s f u ll e a s eo f o n t o l o g i e s t of a c i l i t a t el e a s e so f o n t o l n g i e sa n dt os u p p o r to n t o l o g yc o n s t r u c t i o n , af e wo f o r g a n i z a t i o n s h a v e m a d e r e s e a r c h e sa n d d e v e l o p e d s o l l l e a p p l i c a t i o ns y s t e m s a n o n t o l o g y l i b r a r ys y s t e m i s a n i m p o r t a a t t o o l i no r g a n i z i n ga n dm a n a g i n go n t o l o g i e s i tf a c i l i t a t e sr e u s e so f o n t o l o g i e sb yo f 佰e r i n gv a r i o u sf u n c t i o n sf o r m a n a g i n g , q u e r y i n ga n da d a p t i n go n t o l o g i e s s w o n g l ei sa ni n d e x i n ga n dr e t r i e v a ls y s t e md e v e l o p e db y u m b cf o rs e m a n t i cw e bd o c u m e n t s i te x t r a c t sm e t a d a t af o re a c hd i s c o v e r e dd o c u m e n t , a n dc o m p u t e s r e l a t i o n sb e t w e e nd o c u m e n t st op r o v i d ev a r i o u sr e t r i e v a ls e r v i c e sf o ro n t o l o g y - r e l a t e da p p l i c a t i o n s h o w e v e r ,t h el a c ko f o n t o l o g i e sh a sh a m m e r e dt h ef u n c t i o n so f t h e s es y s t e m sd u et ot h el a c ko f e f f i c i e n t m e t h o d sa n dp o w e rt o o l st oa c q u i r eo n t o l o g i e s t o a d d r e s s t h e p r o b l e m s o f e x i s t i n gs y s t e m s w e p r o p o s e t o d e v e l o pas y s t e m f o r g a t h e r i n g w 曲 o n t o l o g i e s b a s e d o n t h e t e c h n o l o g y o f f o c u s e d w 曲c r a w l i n g ac r a w l e ri sas o f t w a r ec o m p o n e n tf o rg a t h e r i n gi n f o r m a t i o nr e s o u r c e so nl l ww 曲w h i c h r u n si nt h e b a c k g r o u n do f as e a r c he n g i n eo ra n ds oo i laf o c u s e dw 曲c r a w l e rc r a w l s t l l ew e b s e l e c t i v e l ya n d g a t h e r sp a g e sa c c o r d i n gt ot h ee s t a b l i s h e di n t e r e s t sa n db e s t - f i r s ts e a r c hs t r a t a g e a n di t sc r a w li sm o r e e f n c i e a t t h i sp a p e rm a k e st h e o r e t i c a lr e s e a r c h e so np r i n c i p l e s , t e c h n o l o g i e sa n dm e t h o d sf o rg a t h e r i n gw e b o n t o l o g i e sb a s e do naf o c u s e dw e b c r a w l e r a n dt h a nw el n a k ee x p e r i m e n t a ls t u d i e so ni t t h em a i n c o n t r i b u t i o no f t h ep a p e ri n c l u d e st h ef o l l o w i n g :a n a l y s i n ga n dc o n c l u d i n gt h ed i s t r i b u t i o no f o n t o l c g i e s o nt h ew e b ;p r e s e n t i n ga l li n t e g r a t e dm e t h o do nl i n k a g ee v a l u a t i o nf o rs e a r c h i n go n t o l o g i e so nt h ew e b ; d e s i g n i n ga n di m p l e m e n t i n g as y s t e mf o rg a t h e r i n gw e bo n t o l o g yd o c u m e n t s ,c a l l e d “w e b o n t o c r a w l e r k e y w o r d s :s e m a n t i cw e b ,r e u s eo f o n t o l o g i e s , w e bc r a w l e r , f o c u s e dc r a w l i n g , m u l t i t h l e a d 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过 的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意。 研究生签名: 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内 容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可 以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研 究生院办理。 东南大学硕士学位论文一个w e b 本体的采集系统 1 1 研究背景 第一章前言 1 9 9 0 年,t i m b e m e r s - l e e 发明了万维网( w w w ,w e b ) ,其目的是让人们通过因特网( i n t e r a c t ) 来获得各种信息。十多年过去了,w e b 得到了飞速的发展,从最初仅用于获取各种信息到现在的电 子商务( e b u s i n e s s ) 、电子政务( e - g o v e r n m e n t ) 、电子学习( e - l e a r n i n g ) 、网格科学计算( e s c i e n c e ) 。 w e b 不仅用来发布各种信息,十多年来其功能也在发生着变化,最初仅仅是被动地获得发布数据, 然后是交互式地获取所需数据,今天则要求进行智能检索。 与此同时,w e b 的数据表达方式也发生了巨大变化。早期的h t m l 语言,仅仅用于数据显示, h t m l 页面信息的表达和组织方式,主要面向用户直接阅读,没有将信息的表现形式、内在结构和 表达内容相分离,因而非常不利于计算机直接阅读和处理。到了上世纪9 0 年代后期,尤其是x m l ( e x t e n s d l em a r k u pl a n g u a g e ,可扩展标记语言) 的出现,将数据的内容与布局区分开来,为语义 更丰富、更自然的w e b 内容表达打开了新的局面。 针对目前因特网在信息表达、检索等方面存在的缺陷,w w w 的缔造者t i mb e m e r s - l e e 于2 0 0 0 年1 2 月在x m l 2 0 0 0 会议上,提出了下一代因特网的概念语义网( s e m a n t i c w e b ,语义w e b ) , 并于2 0 0 1 年5 月在“s c i e n t i f i c a m e r i c a n ”杂志发表文章”h t h es e m a n t i cw e b ”,为人们勾勒出一幅 语义w e b 的美妙前景。应该说,语义w e b 概念的提出,为有效解决上述瓶颈问题提供了新的技术 思路。 目前因特网在信息表达和检索方面存在的缺陷,主要在于其设计目的是面向用户直接阅读与处 理,没有提供计算机可处理的语义信息,因此限制了计算机在信息检索中进一步智能化分析处理的 能力。随着计算机在社会生活中的广泛应用,人们对数字信息及其高效处理能力的需求越来越强烈, 信息技术开始面临种种新的挑战,如知识表示、信息组织、软件复用等。尤其是因特网的迅速发展, 使得如何组织、管理和维护海量信息并为用户提供有效的服务已成为一项重要而迫切的研究课题。 语义w e b 的思想试图利用元数据语言对w e b 信息资源进行语义上的描述,使计算机能够利用这些 语义信息对资源进行理解和处理。 t i m b c m e r s - l e e 提出的语义w b b 技术体系是一种分层式结构,自下而上分别为:u n i c o d e 和u r 、 x m l 、r d f 、o n t o l o g y 、l c 画c ,p r o o f t r u s t 。如图1 1 所示。 t r u s t p r o o f l o g i e 藿: o n t o l o g yv o c a b u l a r y 毳: r d f , r d fs c h e m a 石 ix m l ,x m ln a r n e s p a c e ,x m ls c h e m a lu l l i c o d eu r j l 图l - l 语义w e b 技术体系 第一层由u r i 和u n i c o d e 构成,是整个语义w e b 的基础,其中u n i c o d e 处理资源的编码,保证 使用的是国际通用字符集,实现网上信息的统一编码。u r l 支持语义w e b 上的对象和资源的精细标 东南大学硕士学位论文一个w e b 本体的采集系统 识,从而使精确信息检索成为可能。 第二层主要解决数据交换中的语法问题,由x m l 、x m ls c h e m a 等相关技术组成。通过x m l 标记语言将w e b 资源信息的结构、内容与数据的表现形式进行分离,并支持与其它基于x m l 的标 准进行无缝集成。 第三层是解决关于元数据的互操作性问题。主要是通过r d f 和r d fs c h e m a 为w e b 资源描述 提供一种通用框架和实现数据集成的元数据解决方案。 第四层为本体词汇层,目的是在于提供一个对元数据进行描述和表示的通用模型,以便对事物 以及他们的相互关系进行更深入的描述,这也就是本体的语言层,目前主要有d a m l + o i l 和o w l 。 第五层为逻辑层,在本体之上提供一个描述推理规则的互操作语言,通过所描述的事实和推理 规则对元数据和数据进行某种逻辑推理,从而得出一些潜在的结论。 第六层为证明层,主要是提供一个用来描述推理步骤的证明语言。通过该层,我们可以对所得 到的结论的正确性进行验证。 第七层为信任层,主要解决推理结论的可信性问题,以保证用户代理a g e n t 在w e b 上进行个性 化服务和彼此间合作时更安全可靠。 在以上层次结构中,x m l 、r d f 和o n t o l o g y 用于表示w e b 信息的语义,要在语义层次上实现 信息的互操作性,需要对信息的含义有一致的、共同的理解,为了适应这些需求,本体( o n t o l o g y ) 作为在语义和知识层次上对客观世界的概念建模,自打( 从哲学领域) 引入以来就引起了众多研究 人员的关注,并在许多领域得到了广泛应用,如知识工程、数字图书馆、软件复用和w e b 上异构信 息处理、语义w e b 等。在t i m 提出的语义w e b 体系结构中,本体层用于描述各种资源之间的关系, 是当前语义w e b 研究的热点,普遍认为本体层将为语义w e b 提供语义层的共享,是语义w e b 实现 的关键所在。 1 2 本文研究工作的缘起、意义及具体任务 本体在众多研究领域引起关注,相关的应用方兴未艾,但是,在形形色色的具体应用中,领域 本体的构建成为控制性环节,更加深入而广泛的本体应用呼唤更为有效的本体构建技术和丰富权威 的本体资源,为适应这些需要,服务于本体构建,基于w e b 的本体搜索与采集可以为本体重用提供 充足的选择余地。 1 2 1 本体的应用 目前在许多领域,本体相关的研究与应用方兴未艾,本体的应用主要涉及两个方面 2 1 :第一, 本体作为一种能在知识层提供知识共享和重用的工具在语义w e b 中的应用;第二,在信息系统中的 应用,主要包括处理信息组织、信息检索问题和异构信息系统互操作问题等。 语义w e b 不是一个新的、独立的w e b ,而是对现有w e b 的扩展,与当今的基于超文本的信息 表达不同的是,它基于本体和元数据的语义与知识表达。语义w e b 将会给有意义的网页内容提供结 构,从而为网络中代理用户复杂需求的智能主体( a g e n t ) 提供一个具有足够信息丰度的环境。引 入语义学的形式化表达体系和逻辑推理能力,w e b 的性质将从根本上得到改变,从一个仅仅是显示 信息的结构改变为一个可以对信息进行解释、交换和处理的结构。能够进行语义分析的搜索代理可 以从多种来源收集机器可读的数据,对它们进行处理并推理出新的事实,使得互不兼容的程序可以 共享原先不相容的数据。 语义w e b 中和本体相关的研究与应用主要包括以下几个方面: ( 1 ) 元数据和本体形式化语言的研究通过标记语言( r d f s 、d a m l 、o w l 等) 形式 2 东南大学硕士学位论文 一个w e b 本体的采集系统 化表达领域的元数据和本体。 ( 2 )基于逻辑的断言机制的研究。断言引擎根据本体的规则和公理以及本体内部概念关 系的逻辑表达进行推理,处理并得出符合用户语义查询的事实和知识。这包括语义 逻辑的研究和人工智能领域的相关研究工作。 ( 3 )查询语言的研究。定义满足基于本体形式化模型建立的语义查询语言,如r d q l 、 o w l - q l 等。 ( 4 )支持r d f 等元数据和本体表达语言的软件接口a p i 。 ( 5 ) 软件建设应用。包括本体编辑器的研究。 ( 6 ) 本体互操作的研究。着重研究不同本体之间共享和互操作的实现机制。 ( 7 ) 智能主体( a g e n t ) 研究。基于语义的智能主体将根据语义和逻辑动态地装配用户所 需的数据并提供对用户透明的服务机制。 ( 8 )语义服务。结合w e b 服务技术和标准,通过提供服务本体描述语言,试图为基于语 义的服务提供相应的机制。 在常规的信息系统中,直接基于关键词的信息检索技术已不能满足用户在语义和知识层次上的 需求,寻找新的方法成为研究热点。本体具有良好的概念层次结构和对逻辑推理的支持,因而在信 息检索特别是在基于知识的检索中得到了广泛的应用。基于本体的信息检索的基本思想可以总结如 下: ( 1 ) 在领域专家的帮助下,建立相关领域的本体。 ( 2 )收集信息源中的数据,并参照已建立的本体,把收集来的数据按规定的格式存储在 元数据库( 关系数据库、知识库等) 中。 ( 3 )对用户检索界面获取的查询请求,查询转换器能按照本体把查询请求转化成规定的 格式,在本体的帮助下从元数据库中匹配出符合条件的数据集合。 ( 4 )检索的结果经过格式定制处理后,返回给用户。 1 2 2 本文研究工作的意义及具体研究内容 在众多本体相关的研究与应用中,采集或者构建本体成为各类应用的重要前提。本体的构建需 要丰富的领域知识,是一项耗时费力、极富挑战性的工作,对于千差万别的实际应用而吉,由于所 用本体之问的差异或大或小,本体构建无疑会成为相关应用中的控制性环节。产生于面向对象思想 的本体重用为特定应用中本体的构建提供了捷径,但是本体的广泛运用和充分重用仍然需要一些条 件1 3 】,例如,考虑搜索和定位本体的需要,本体的注册机制将能提供许多便利:考虑为重用本体提 供更广泛的选择空间,主动的w e b 本体搜索和采集部件将为本体重用提供重要支持;考虑w e b 上 本体重用的效率,共享本体应当被分解为足够小的高聚合单元;等等。 面对众多研究与应用中对于本体的依赖和需求。改善本体构建中本体重用程度不高的实际状 况,提供丰富和权威的参考与重用资源,是进一步推进本体和语义w e b 技术发展、促进应用所迫切 需要解决的问题。 本文针对各类相关应用对于本体的依赖和需求,拟建立一个w e b 本体的采集系统,基于爬虫技 术对w e b 上分布的本体文档进行主动的搜索和采集,同时进行本体采集相关技术的研究,主要包括: w e b 爬虫( c r a w l e r ) 技术尤其是聚焦爬虫( f o c u s e dw e bc r a w l e r ) 技术; w e b 主题分布特性、本体分布特性及爬虫搜索策略; 采集系统的实现技术;多线程技术、h t m l 文档处理技术、数据库技术。 爬虫技术和主题分布特性的研究目的在于探索一种适应本体分布状况的w e b 本体搜索方法; 采集系统实现技术的研究,旨在建立和完善w e b 本体采集系统,提高采集效率。 本文研究工作中,w e b 本体采集系统搜索和采集的本体,指的是由本体描述语言1 4 1 ( r d f s 、 3 东南大学硕士学位论文一个w e b 本体的采集系统 o w l 、等等) 编写的语义w e b 文档,以x m l 文件或1 1 3 编码阁的文本文件形式被w e b 上的h t m l 文档所链接,这些x m l 文件的扩展名一般与所用的本体描述语言有关,比如。r d p 和“o w l ”等。 本系统作为进一步研究与应用的基础,进行本体的搜索和采集,后续的研究与应用将能为本体搜索 和采集提供重要的启发式信息,对于基于本体文档解析并获取启发式信息的有关内容,本文也将予 以分析、探讨。 1 3 相关领域的研究现状 已经有一些组织开发或收集了一定数量的本体,w 3 o r g 、d a m l o r g 和s c h e m a w e b i n f o 等网站上 就提供了不少可供下载的本体文件。一些组织还建立起本体库系统( o n t o l o g yl i b r a r ys y s t e m ) ,如: w e b o n t o 、o n t o l i n g u a 、d a m lo n t o l o g yl i b r a r ys y s t e m 、s h o e 和o n t o l o g ys e r v e r 以及i e e es t a n d a r d u p p e r o n t o l o g y 、o n t o s e v e r 等,从管理、改编、标准化等多角度为支持本体重用提供了有效的方法 和工具t 6 1 。 今天本体的研究与应用仍有待深入,w e b 上的本体主要分布在与本体应用关系密切的一些知名 网站的服务器中。这种分布的事实既为我们进行现存本体的总量估计提供了参考,也为确立本体搜 索爬虫的聚焦策略提供了依据。能够从w e b 上采集的、由目前的本体库系统所提供的大多数本体, 都来自一些知名学术组织或行业巨头的自主开发、人工收集或本体作者的提交,一般不涉及爬虫采 集。因而本体数量往往较少,有些收集仅仅针对个别种类。 s 删e 口1 是马里兰大学建立的i n t e m e t 上第一个语义w e b 文档索引和检索系统,它通过多种手 段采集本体等语义w e b 文档,基于j 锄a 【b 】解析文档、索引概念,提供w e b 检索。s w o o g l e 采集语义 w e b 文档的手段有三种: 一是调用g o o g l ew e b a p i ,通过组合关键字( 如“o n t o l o g y ”) 和文件类型( 如“r d f - 、。o w l ”) , 利用g o o g l e 搜索引擎取得各类语义w e b 文档的u r l ,进而采集有关文档; 二是邀请语义w e b 社团提交其网站的u r l ,通过聚焦爬虫在网站内部搜索采集语义w e b 文档; 三是基于j e n a 对语义w e b 文档的解析,根据解析得到的启发式信息产生u r l ,对其进行试探 性的访问以采集可能的语义w e b 文档。存在多种可用的启发式信息,比如:“u r l r e f 可能就是某 个语义w e b 文档的u r l ;“o w l :i m p o r t s ”链接到某个外部本体;在f o a f 本体中,对于“f o a f :p e r s o n ” 的实例,其属性“r d f s :s e e a i s o ”常常链接到另一个f o a f 文档。 s w o o g l e 调用g o o g l e w e b a p i 采集语义w e b 文档的手段,有效利用了g o o g l e 的优势,简化了 爬虫设计和实现的复杂度,但也存在一些问题。首先,g o o g l e 是一个通用搜索引擎,它不对某种特 定类型信息的搜索作专门优化和处理,因而也不提供与这些搜索对象相关的任何信息,而这些信息 对于本体重用常常十分重要;其次,g 0 0 9 k 返回结果限制在1 0 0 0 个以内,虽然通过关键字的某些 特殊组合,这一问题可以在一定程度上得到缓解,但对于规模庞大且动态变化的w e b 而吉,这一限 制所带来的问题还远未解决。s w o o g l e 用于站点内采集语义w e b 文档的聚焦爬虫,规模较小,只局 限在特定网站内进行搜索采集,因而功能较为单一。借助解析语义w e b 文档获得启发式信息,对于 常规方法的信息采集是一个重要补充。 1 4 本文的内容安排 从对本体和语义w e b 的简要分析,我们了解到本体的研究对于进一步发展语义w e b 的关键意 义:通过分析众多研究与应用对于本体的依赖和需求,我们认识到本体的构建需要更为有效的工具 和丰富权威的参考与重用资源:通过对当前本体库系统尤其是语义w e b 索引检索系统s w o o g l e 中本 体采集手段的分析,我们感觉到建立一个基于聚焦爬虫技术的w e b 本体采集系统,将能有效促进本 4 东南大学硕士学位论文一个w e b 本体的采集系统 体重用,降低本体构建问题的难度。 本文研究工作将充分考虑现有本体采集手段的成功经验,着重利用基于w e b 的聚焦爬虫技术及 有关的爬虫实现技术,扩大爬虫搜索的覆盖面,提高采集效率。本文将在后续章节详细阐述该系统 的分析、设计以及系统实现中的各项关键技术。 本文共分六章。其余各章的内容安排如下: 第二章介绍w e b 信息采集的基本原理及相关技术,着重介绍w e b 爬虫尤其是聚焦爬虫工作原 理、w e b 主题分布特性、搜索策略、各种网页分析算法以及搜索爬虫的典型结构,最后就向量空间 模型和h t t p 协议基础进行介绍。 第三章介绍基于聚焦爬虫的本体搜索技术,着重介绍本体采集系统的基本搜索过程和链接评价 综合方法,最后对用以扩大爬虫搜索覆盖面、提高搜索效率的聚焦搜索增强技术予以介绍。 第四章按照软件工程开发的一般方法和步骤,对本体采集系统w e b o n t oc r a w l e r 进行分析和设 计,着重介绍系统详细设计,给出了系统主要功能的逻辑流程。 第五章介绍系统实现,着重介绍实现阶段的关键技术细节,包括:h t m l 文档处理、链接评价 的实现、多线程的控制与实现等。 第六章对本体采集系统及后续的相关研究进行总结与展望。 5 东南大学硕士学位论文 一个w e b 本体的采集系统 第二章w e b 信息采集原理及相关技术 本体作为一种有特定格式的信息资源,当它被w e b 上的h t m l 文档所链接,信息检索技术、 尤其是基于爬虫的w e b 信息采集技术将能为w e b 本体的采集提供支持。搜索引擎是传统信息检索 技术的新发展,搜索引擎后台运行着的信息采集系统称为w e b 爬虫( w e b c r a w l e r ) 、w e b 机器人( w e b r o b o t ) 或w e b 蜘蛛( w e bs p i d e r ) 等等,而针对特定主题或目标的信息采集系统一般称为聚焦爬 虫( f o c u s e dw e bc m w l e r ) 。本章将从简单介绍信息检索开始,具体阐述搜索引擎尤其是w e b 爬虫 和聚焦爬虫的工作原理,分析w e b 主题分布特性和搜索策略,并就向量空间模型和h t i v 协议等基 础理论和规范进行探讨。 2 1 信息检索与搜索引擎概述 在i n t e r n e t 产生之前,信息检索( i n f o r m a t i o nr e t r i e v a l ) 就已成为一个备受关注的学术研究 领域了。广义的信息检索指的是根据用户的需求,在指定范围的信息载体( 文本、图像、声音、视 频等) 中查找用户感兴趣的信息。而狭义的信息检索又可称为文本检索( t e x tr e t r i e v a l ) 指的是文 本信息检索,即针对用户的查询请求,在给定的文本集合中搜索相关文档的过程。i n t e r n e t 上的 检索系统,也就是通常所说的搜索引擎,是对传统信息检索系统的改造与扩充。现在i n t e r n e t 上已 有很多搜索引擎可用,著名的如g o o g l e 、a l t a v i s t a 等,它们己经成为人们日常工作生活中获取和 利用i n t e r n e t 资源必不可少的工具。 2 1 1 信息检索 信息检索系统的目标在于,向用户提供一系列满足其信息需求的文档。因此,可将信息检索任 务看作为,在给定用户查询之后,从文档集中识别出最为匹配的文档。一般来说,每一种信息检索 方法都具有两个组成部分;一是表示文本的某种技术( 用于表示查询与文档) ;二是比较这些文本表 示的某种途径。其最终目的就是,通过比较查询表示与文档表示。实现信息自动检索。实际的信息 检索系统对于基本的检索模型往往加以扩展,以解决在查询与文档特征之间所存在的差异。例如, 查询通常很短( 甚至只包含一两个单词) ,而文档却可能很长;另一种差异称为“释义问题”:用 户经常采用显著不同于文档的词汇,而这些文档中却包含着用户所寻求的信息。信息检索系统调和 这些差异的一种途径,就是通过构造表示函数,以适当的方式处理查询与文档,达到一致表示的目 的。 信息检索的一般模型及检索过程如图2 1 所示。 上个世纪6 0 年代中期以来,人们提出了大量的检索模型。自最初的为一些较小的和较为结构化 的文档所设计的特殊模型( 如文献记录,包括题目、作者和主题码等) ,发展到现在具有较强理论基 础和能处理多种文档格式的模型。当前的模型能够处理具有复杂内部结构的文档,并且一般都具有 学习和利用相关反馈进行查询优化等功能,使得系统性能大大提高。当前应用中最主要的三个模型 是: 1 严格匹配模型是许多商业信息检索系统的理论基础。基本的严格匹配模型是布尔模型a 布尔检索将文档和查询视为索引词的集合,通过与、或、非等逻辑运算得出文档检索目标。 2 概率模型把检索看作是文档表示和查询之间匹配程度的概率估计问题。较为著名的基于 概率模型的检索系统有o k p i 等”。 6 东南大学硕士学位论文 一个w e b 本体的采集系统 3 向量空间模型“把文档和查询看作是多维向量空间中的向量,用相似度作为距离的一种 度量方式。基于向量空间的检索模型的检索系统有s l i a 盯等“。 实验表明,后两种模型的许多性能优于严格匹配模型,不同的模型有不同的理论基础和性能特 性,在检索效率和计算复杂性上也有所区别,但所有的模型都要计算查询和文档之间的距离或相似 度。 2 , 1 2 搜索引擎 图2 - 1 信息检索的一般模型及检索过程 和传统的信息检索系统相类似,w e b 搜索引擎的目标同样是向用户提供满足查询的文档,不过 这里用户希望获得w e b 上的网页文档。目前较为流行的搜索引擎有g o o g l e ,y a h o o ! 、a l t a v i s t a , 百度等。w e b 搜索引擎的系统结构比传统的检索系统要复杂一些,一般结构如图2 2 所示: 7 东南大学硕士学位论文 一个w e b 本体的采集系统 图2 - 2w e b 搜索引擎的一般结构 图中w e b 访问模块完成对w e b 上网页信息的请求和获取,所得到的w e b 页面通过页面存储模块存 放在数据库中。这些访问程序由w e b 访问控制模块进行控制,控制模块调节搜索采集过程的广度与 深度。面对各类用户的不同需求,典型的通用搜索引擎需要面向内容动态变化且页面数量巨大的整 个w e b ,所以采集任务通常由若干台电脑并行完成。页面存储模块利用数据库存放爬虫获得的原始 网页文档,同时为索引模块和分析模块处理网页提供相关接口。在设计w e b 搜索引擎的页面存储机 制时,通常会面临以下问题:系统需要有较短的反应时闻,能够大规模存储和访问数据,需要更新 大量网页文档、删除过期文档等。如何有效地解决这些问题是设计和实现搜索引擎的重点。 索引模块对存放在页面存储中的原始网页文档生成索引,结果通常是文本索引( 内容索引) 和结 构索引( 链接索引) 。使用这两种索引和原始的网页文档,分析模块生成其他的索引信息,如网站的 结构信息或页面的重要程度等。文本索引可以由传统信息检索中构建文档索引的方法来实现,如签 名文件( s i g n a t u r ef i l e s ) 、倒排文件( i n v e r t e df i l e s ) 、倒排索引( i n v e r t e di n d e x e s ) 和 后缀树( s u f f i xa r r a y s ) 等。倒排文件和索引是搜索引擎普遍使用的索引结构。除了使用文本内 容判断网页文档的相关性之外,链接结构信息也经常被用于链接索引。对于特定的w e b 页,从该页 链出的所有页面和所有链接到该页的页面,它们与该特定w e b 页之间的链接关系就是链接结构信息。 查询引擎根据用户提交的查询,利用已有的索引信息,返回相关的网页文档链接。查询引擎所 采用的算法与具体的索引结构以及索引模块的运行机制密切相关。可以采用传统信息检索的各种算 法来设计w e b 搜索引擎的查询引擎。所不同的是,传统检索系统的语料集大小通常在几个g b ,而w e b 搜索引擎需要处理规模在几十6 b 至, j 几百g b 的语料集。这就需要设计支持扩展和分布处理的索引系 统。排序模块将查询引擎的输出结果进行排序以进一步提高结果的精度。著名的p a g e r a n k 算法“ 和h i t s ( h y p e r t e x ti n d u c e dt o p i cs e a r c h ) 算法“3 3 都利用了链接结构信息对查询引擎的输出结果进 行排序。 8 东南大学硕士学位论文 一个w e b 本体的采集系统 2 2w e b 爬虫及聚焦爬虫概述 随着网络的迅速发展,w e b 成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨 大的挑战,传统的通用搜索引擎成为用户访问万维网的入口和指南。但是,这些通用搜索引擎也存 在着一定的局限性,如: ( 1 ) 不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结 果包含大量用户不关心的网页。 ( 2 ) 通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网 络数据资源之间的矛盾不断加深。 ( 3 ) w e b 数据形式的丰富和网络技术的不断发展,图片、数据库、音频视频多媒体等不同 数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好 地发现和采集。 ( 4 ) 通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。 为了解决上述问题,定向获取相关网页或其他形式数据资源的聚焦爬虫应运而生。聚焦爬虫是 一个自动下载网页的程序,它根据既定的抓取目标,有选择地访f 司w e b 上的网页与相关链接,采集 所需要的信息。与通用爬虫( g e n e r a lp u r p o s ew e bc r a w l e r ) 不同,聚焦爬虫并不追求大的覆盖,而 将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。 w e b 爬虫的一般结构如图2 - 3 所示: w e bf r o n t i e l 图2 - 3w e b 爬虫一般结构 爬虫程序循环地从一个链接队列( 称u r lf r o n t i e r ) 取得u r l ,f 1 3 w e b 访问部件下载页面,页面 处理部件索引和评价页面作为采集结果,同时提取链接,进行必要处理后添加到链接队列。通用爬 虫一般基于图的搜索算法( 如广度优先或深度优先) ,对整个w e b 进行爬行采集,对爬行结果的索引 和评价独立于爬行过程。聚焦爬虫一般基于领域知识分析,进行链接评价、指导搜索方向,选择性 地爬行主题相关、b 区域。无论对于通用爬虫还是聚焦爬虫,所有被爬虫爬行搜索的9 目页将被系统 存储,进行一定的分析、过滤,并建立索引,以备查询和检索,对于聚焦爬虫来说,这一过程所得 到的分析结果还可能为以后的抓取过程给出反馈和指导。 相对于通用w e b 爬虫,聚焦爬虫还需要解决三个主要问题: ( 1 ) 对搜索目标的描述或定义; ( 2 ) 对网页或数据的分析与过滤; ( 3 ) 链接评价。 搜索目标的描述和定义是决定网页分析算法、制订搜索策略的基础,而网页分析算法和候选 u r l 排序算法是决定搜索引擎所提供的服务形式和爬虫网页采集行为的关键所在。这两个部分的算 法又是紧密相关的。 9 东南大学硕士学位论文 一个w e b 本体的采集系统 2 3 聚焦爬虫搜索目标描述 现有的聚焦爬虫对搜索目标的描述或定义可以分为基于目标网页特征、基于目标数据模式和基 于领域概念三种。 基于目标网页特征的爬虫所采集、存储并索引的对象一般为网站或网页。根据种子样本的获取 方式,基于网页特征的搜索目标描述方法可以进一步分为:( 1 ) 预先给定初始抓取种子样本;( 2 ) 预先给定网页分类目录和与分类目录对应的种子样本,如y a h o o ! 分类结构等;( 3 ) 通过用户行为确 定抓取目标样例。这里所说的网页特征可以是网页的内容特征,也可以是网页的链接结构特征,等 等。 基于目标数据模式描述搜索目标的方法针对网页上的数据,所采集的数据一般要符合一定的模 式,或者可以转化或映射为目标数据模式。 另一种描述方式是建立目标领域的本体或词典,用于从语义角度分析不同特征在某一主题中的 重要程度。 2 4w e b 主题分布特性及聚焦爬虫搜索策略 w e b 主题分布特性指的是w e b 上与特定主题相关的信息在分布上表现出的规律性。w e b 主题 分布特性是确定爬虫尤其是聚焦爬虫搜索策略和搜索算法的关键依据。 聚焦爬虫的搜索策略可以分为深度优先、广度优先和最佳优先三种。深度优先在很多情况下会 引起爬虫的陷入( t r a p p e d ) 问题,目前常用的是广度优先和最佳优先方法。 2 4 1 主题分布特性 2 411h u b 特性 w e b 上存在大量的h u b 页面,这种页面含有许多指向其他页面的链接( 即出链接) ,并且这些 链接趋向相关于同一个主题。h u b 特性还和另外一个概念有关系,即权威页面。 被许多好的h u b 页面所指向的页面称为有关某一主题的权威页面。 好的h u b 页面常常指向多个权威页面,好的权威页面常常被多个h u b 页面所指向,互相加强。 2 4 1 2 l i n k a g el o c a l i t y 和s i b l i n gl o c a l i t y 特性n 铂 在h u b 特性的基础上,w e b 上页面间的邻接关系也表现出与主题信息分布的某些规律性: l i n k a g el o c a l 蚵:即w e b 页面趋向于与链接到它的页面拥有相同的主题。例如: a b ,则b 趋向于与a 拥有相同的主题。 s i b l i n gl o c a l i t y :对于链接到某主题页面的页面,它所链接到的其它页面也趋向于拥有这个主 题。例如: a b ,a c ,已知b 的主题,则c 的主题趋向于与b 相同。 1 0 东南大学硕士学位论文 一个w e b 本体的采集系统 2 4 1 3 站点主题特性 w e b 上,在一个站点内,主题信息分布具备这样一些特性: ( 1 ) 一个站点趋向于说明一个或数个主题; ( 2 ) 那些说明某个主题的页面较紧密地在此站点内部链接成团; ( 3 ) 各个主题团之间的链接相对较少。 2 4 1 4 隧道特性 w e b 上尽管存在很多的主题页面团,但是在这些页面团之间,往往需要经过较多的无关链接才 能够到达。连接着两个主题团的这些无关链接就像一条长长的隧道,因此也叫做“
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2025学年新教材高中物理 第3章 相互作用 第1节 重力说课稿 粤教版必修第一册
- 幼儿安全事故培训笔记课件
- 知到插花考试题库及答案
- 幼儿在园安全培训课件
- 电商商家活动策划方案
- 祭祀劳模活动方案
- 建筑模型制作培训课件
- 电脑地摊活动方案
- 美术活动热身活动方案
- 幼儿园电脑安全培训心得课件
- 盟史简介12.10.18课件
- 2023年04月湖北经济学院创新创业学院招聘1名孵化器日常管理专员笔试参考题库答案解析
- 法律方法阶梯
- GB/T 26081-2022排水工程用球墨铸铁管、管件和附件
- GB/T 26480-2011阀门的检验和试验
- 医院普通外科病史采集、查体及病历书写要点精讲课件
- 食品执行标准对照新版表
- 最新苏教牛津译林版英语五年级上册Unit 4《Hobbies》Grammar time 公开课课件
- 路面压浆施工方案
- 第8课时 主题阅读《雨的四季》-2022-2023学年七年级语文上册(部编版)
- Linux基础入门培训
评论
0/150
提交评论