(计算机应用技术专业论文)基于语义分析的网络信息采集算法研究与应用.pdf_第1页
(计算机应用技术专业论文)基于语义分析的网络信息采集算法研究与应用.pdf_第2页
(计算机应用技术专业论文)基于语义分析的网络信息采集算法研究与应用.pdf_第3页
(计算机应用技术专业论文)基于语义分析的网络信息采集算法研究与应用.pdf_第4页
(计算机应用技术专业论文)基于语义分析的网络信息采集算法研究与应用.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(计算机应用技术专业论文)基于语义分析的网络信息采集算法研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 近年来,随着w e b 信息多元化的增长,传统的信息采集系统( s c a l a b l ew e bc r a w l e r ) 已无法保证对信息的及时更新,并且由于其采集信息的主题范围过于广泛,较少考虑采 集的信息是否与查询主题相关,满足不了人们对个性化信息检索服务日益增长的需求。 主题信息采集系统( f o c u s e dw e bc r a w l e r ) 采集信息的内容只限于特定主题或专门领域, 在搜索过程中无须对整个w e b 进行遍历,只需选择与主题页面相关的页面进行访问, 基本回避了传统信息采集系统信息指数膨胀的危机,成为近年的研究热点。 本文以辽河油田科技部信息管理系统为研究背景。分析了网络蜘蛛的工作原理,按 照评价链接价值所采用方法的不同将现有的搜索策略进行了分类,分析、比较了它们的 特点和优缺点,并给出了一种基于语义链接分析的信息采集策略。结合该策略,设计了 一个面向主题搜索的信息采集模型,并对模型的组织结构及各模块的功能进行了详细阐 述。 词义消歧是主题语义相关度计算的基础,本文结合两种基于“知网”的词义消歧策 略:类别歧义消歧策略、基于语义相关度的消歧策略;给出一种基于“知网”的消歧算 法,该算法利用词语义原中所含的四种关系,计算词语之间的相关度和词语与其上下文 之间的相关度,进而达到词义消歧的目的。 在u r l 的主题相关性判别过程中,以“知网”为基础引入了词汇的语义计算,从 语义和概念层对文本进行主题相关性分析,将基于内容评价的搜索策略和基于w e b 链 接结构的搜索策略相结合,给出了一种改进算法s p a g e r a n k ( s e m a n t i cp a g e r a n k ) ,通过 对扩展元数据进行主题相关性判定来选择、预测与主题相关的u r l 。而对于网页的主题 相关性判定,则使用目前较为常用的向量空间模型进行计算。实验结果表明,基于 s p a g e r a n k 的信息采集系统具有较高的采集效率及精度。 关键词:主题信息采集;知网;搜索策略;扩展元数据 大连理工大学硕士学位论文 r e s e a r c ha n da p p l i c a t i o no fw e bc r a w l i n ga l g o r i t h mb a s e do ns e m a n t i c a n a l y s i s a b s tr a c t i nr e c e n ty e a r ,w i t hw e bi n f o r m a t i o nc o n t i n u i n gt oe x p l o d ei na l ld i r e c t i o n s ,t r a d i t i o n a l s e a l a b l ew e bc r a w l e rc a r l tk e e pu p 、v i t l lt h ei n f o r m a t i o nu p d a t ei nt i m e ,m e a n w h i l e ,f o ri t s w i d e l yc r a w l i n gr a n g e ,l e s sr e g a r dw h e t h e rt h eg a t h e r e di n f o r m a t i o ni sr e l e v a n tt ot h et o p i co r n o t c a n t “6 l lt h em o r ea n dm o r er i g o r o u sa n dp r o l i f i cs e a r c hr e q u i r e m e n t sf r o md i f f e r e n t u s e r s f o c u s e dw e bc r a w l e r ,w h i c hc o l l e c t si r e f o r m a t i o ni ns p e c i a l i z e df i e l d s ,d o e sn o tn e e dt o i n d e xt h ew e bc o m p l e t e l y j u s ta c c e s st h ew e bp a g e st h a ta r er e l e v a n tt ot h et o p i c ,a v o i dt h e c r i s i sc a u s e db yt h ei n f l a t i o no fi n f o n n a t i o n b e c o m eah o t s p o ti nr e c e n ty e a r sr e s e a r c h e s t h i sp a p e rt a k e si n f o r m a t i o nm a n a g e m e n ts y s t e mo fl i a o h ep e t r o l e u mt e c h n i q u e d e p a r t m e n ta sr e s e a r c hb a c k g r o u n d c a t e g o r i z e sw e bs p i d e r ss e a r c hs t r a t e g i e sb a s e do nt h e w a yt h e ye v a l u a t ea n dp r e d i c tt h el i n k so b t a i n e df r o mw e b t h ep r i n c i p l ea n dc h a r a c t e ro f e a c hc l a s so fs e a r c h i n gs t r a t e g yi sd e s c r i b e da n dt h ea d v a n t a g e sa n dd i s a d v a n t a g e sa r e d i s c u s s e d ,p r e s e n tac o m p r e h e n s i v ee v a l u a t i o ns e a r c hs t r a t e g yb a s e do ns e m a n t i ca n a l y s i s c o m b i n ew i t ht h es t r a t e g y ,g i v eas t r u c t u r ed e s i g nm o d e lo f t h et o p i c - o r i e n t e dw e bs p i d e ra n d t h e na n a l y z e si ti nd e t a i l w o r ds e n s ed i s a m b i g u a t i o ni st h eb a s i co ft o p i cs e m a n t i cr e l a t i v i t yc a l c u l a t i o n ,c o m b i n e w i t ht w ow o r ds e n s ed i s a m b i g u a t i o ns t r a t e g i e sb a s e do nh o w n e t :s t r a t e g yo fc a t e g o r y d i s a m b i g u a t i o n ,s t r a t e g yb a s e do ns e m a n t i ca n a l y s i s ;p r e s e n ta w o r ds e n s ed i s u m b i g u a t i o n a l g o r i t b a n ,w h i c hf o u rr e l a t i o n sa m o n gs e m d i c t sh a v eb e e nu s e dt oc a l c u l a t et h er e l e v a n c e b e t w e e nw o r d s ,a n dt h er e l e v a n c eb e t w e e nw o r da n dc o n t e x t t h e r e f o r et h ea i mo fw o r ds e n s e d i s a m b i g u a t i o ni sa c h i e v e d i nt h ep r o c e s so fr e l a t i v i t yj u d g i n gb e t w e e nu r la n dt o p i c ,s e m a n t i cc o m p u t a t i o nb a s e d o nh o w n e ti sp r e s e n t e dt oe x p l o r et h er e l a t i v i t y c o m b i n ew i t hc o n t e n tb a s e dc r a w l i n g s t r a t e g ya n dl i n k e ds t r u c t u r ec r a w l i n gs t r a t e g y ,p r e s e n ts p a g e r a n k ( s e m a n t i cp a g e r a n k ) a l g o r i t h mw h i c ha p p l i e de x t e n d e dm e t a d a t as e m a n t i cr e l e v a n c ea l g o r i t h mf o rc h o o s i n ga n d p r e d i c t i n gu r l t h a ti sr e l e v a n tt ot h et o p i c t h ep o p u l a rv e c t o rs p a c em o d e li su s e dt o c l a s s i f yh t m lp a g ef r o md i f f e r e n tt o p i c s t h er e s u l to fe x p e r i m e n t sh a ss h o w n t h a tt h ew e b c r a w l e rb a s e do ns p a g e r a n kh a sm o r ee f f i c i e n c ya n da c c u r a c yf o rw e bp a g e sr e l e v a n tt oa p r e d e f i n e ds e to f t o p i c s k e yw o r d s :f o c u s e dw e bc r w w l e r ;h o w n e t ;c r a w l i n gs t r a t e g y ;e x t e n d e dm e t a d a t a 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 作者签名:幺隆幽日期:趟:也:缝: 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用 规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子 版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论 文。 作者签名:叁压镩言 们,l1 ,7 l , 作者签名: o 2 岬b 导师签名: 丛年旦月目 大连理工大学硕士学位论文 1 绪论 1 1 背景 随着i n t e m e t 的快速发展,网络正在深刻地影响着我们的生活。而在网上发展最为 迅速的w w w ( w o r l dw i d ew e b ) 技术,以其直观、简单、高效的使用方式和丰富的表达 能力,已逐渐成为i n t e r n e t 上最重要的信息发布和交互方式。随着信息时代的到来和发 展,w e b 上的信息正在飞速地增长。截止到2 0 0 3 年7 月,i n t e m e t 上的网页数量就已经 超过3 0 亿,上网用户数量超过5 2 亿,而且网页还在以每天7 0 0 万的速度增加,这带给 了人们前所未有的丰富的信息资源。 然而,w e b 信息的急速增长,在给人们提供丰富信息的同时,却在w e b 信息的高 效便捷使用方面给人们带来巨大的挑战:一方面w e b 上的信息种类繁多、丰富多彩, 而另一方面却很难找到真正有用的信息。 1 1 1 搜索引擎概况 为此,人们发展了以w e b 搜索引擎为主的w e b 搜索服务。为了解决网上信息检索 的难题,人们在信息检索领域进行了大量的研究,开发出了各种搜索引擎( 如g o o g l e , a l t a v i s t a ) 。按搜索引擎所覆盖内容分,可分为通用型、专题型和特殊型搜索引擎。从 是否有人参与索引来分,可分为人工搜索引擎和智能搜索引擎。按检索的分布情况来分, 可分为集中式搜索引擎和分布式搜索引擎。按检索层次来分,可分为检索型、目录型、 元搜索引擎和信息检索代理型。 正如因特网上的信息资源的纷繁复杂一样,用一个统一的标准来定义和分类搜索引 擎是一件十分困难的事,下面将从不同的角度来对各类搜索引擎的特点、设计思想进行 分析介绍。 ( 1 ) 检索型搜索引擎( s e a r c he n g i n e ) 检索型搜索引擎就是为用户提供直接输入关键词查找信息的搜索引擎。它检索方便 直接,可以使用布尔逻辑查询、短语查询、邻近查询、模糊查询、自然语言查询等等检 索方式。h o t b o t ,i n f o s e e k ,g o o g l e 等就是这类检索型工具的典型代表。它们有着自己的 收集、组织资源的机制,通过对网页内容和特征的分析,建立自己的索引数据库,为用 户提供查询服务。 ( 2 ) 目录型搜索引擎( d i r e c t o r y ) 除了基于网页分析建立索引的网页搜索引擎外,还有一种以人工方式或半自动方式 搜集信息的搜索引擎一一目录型搜索引擎。目录型搜索引擎也称分类式搜索引擎,这种 基于语义分析的网络信息采集算法研究与应用 搜索引擎是由编辑人员根据信息资源的内容按一定的主题分类组织,并形成信息摘要, 将信息置于事先确定的分类框架中,组织成一层一层的分类目录,目录下面有更具体的 子目录。信息的类别也由大到小、由粗到细,整个搜索引擎形成了一个层次的分类目录。 这类搜索引擎的性能主要取决于对获取网页的人工分类,或自动分类算法的精确度如 何。其代表有:y a h o o 、l o o k s m a r t 、o p e n d i r e c t o r y 、l y c o s 等。 目录型搜索引擎的分类体系一般是根据所采集的资源范围来设计目录体系的,有的 采用图书馆分类法,有的采用主题词表进行分类,所以不同的搜索引擎其分类也各不相 同。目录型搜索引擎和检索型搜索引擎各自更适应于不同的搜索需求,两者可以相互补 充,但不可互相替代。当用户需要查找关于某类内容的资料或某个网站时,目录型搜索 引擎是最适用的。而查询一些比较具体的资料时,用检索型搜索引擎最好。 而现在的大多数搜索引擎都同时提供检索关键词和目录浏览两种检索方式,这称为 混合型搜索引擎,它可以借助于分类目录来缩小检索范围,达到更为精确和更高效的检 索结果。 ( 3 ) 元搜索引擎( m e t a s e a r c he n g i n e ) 由于单个搜索引擎的覆盖范围往往不会太广,为了找到自己所需信息,用户常常需 要使用多个搜索引擎,以期找到更多更全的信息。但由于不同的搜索引擎的查询法、接 口界面往往不同,需要用户重新学习和适应不同的检索方法,这给用户使用多个搜索引 擎带来极大的不便。为解决这个问题,研究人员开发了元搜索引擎。元搜索引擎是独立 于索引系统的查询工具,它统一了不同的搜索引擎的查询接口,用户面对的多个搜索引 擎的界面是一样的,由统一的元搜索引擎的接口对用户的查询进行处理,分别将其查询 转换为符合底层搜索引擎查询语法的子查询,同时向多个搜索引擎递交,由底层搜索引 擎在各自的索引数据库中进行查询。在各个搜索引擎返回检索结果后,元搜索引擎将子 查询结果进行汇总、去重、重新排序等处理,最后向用户返回最终的检索结果。元搜索 引擎一般都没有自己的数据库,而是利用其它的搜索引擎的数据库来进行服务。元搜索 引擎的优点是返回结果的信息量更大、更全,其查全率较高,缺点是不能够充分使用下 层搜索引擎的排序功能,用户需要做更多的筛选。这类搜索引擎的代表是:m e t c r a w l e r , s a w y s e a r c h ,i n f o m a r k e t 等。m e t c r a w l e r 可以同时检索九大搜索引擎,有y a h o o ,o p e n t e x t , l y c o s ,w e b s e a r c h ,i n f o s e e k ,e x c i t e ,i n k t o m i ,g a l a x y ,a l t a v i s t a 等,经过去重,并根 据自己的相关度排序算法结果重排。 ( 4 ) 信息检索代理a g e n t 信息检索代理a g e n t 是一种主动信息检索技术,它可以根据用户事先定义的信息检 索要求,甚至能从用户日常的检索行为、浏览行为中学习用户的兴趣,推理用户隐含的 大连理工大学硕士学位论文 需求,并利用已有的检索服务,主动从w e b 上检索相应的信息资源,实时监视信息源 的动态变化等,并将有关信息以电子邮件方式或频道定制方式,及时主动通知用户。如: w a s h i n g t o n 大学开发的s h o p b o t 。c a r n e g i em e l l o 大学开发的w e bw a t c h e r 等代理系统。 ( 5 ) 分布式搜索引擎( d i s t r i b u t e de n g i n e ) 分布式搜索引擎( d i s t r i b u t e de n g i n e ) 是和集中式搜索引擎相对而言的。集中式搜索引 擎所有功能都集中在一台服务器上,存在着数据库过大,维护困难,查询效率及可靠性 不高等不足。而分布式搜索引擎所具有的功能从体系结构上解决了这个难题,它主要根 据地域、主题或其它的划分标准建立分布的子检索服务器,索引数据库由分布的数据库 组成。因为扩充性较好,所以搜索引擎覆盖的范围可以变得很大,而且各子服务器能够 进行独立搜索,相互之间也可以交换信息。如果一个服务器上没有用户所需要的信息, 查询请求将重定向,被发送到别的子检索服务器上继续查询。分布式搜索引擎的优点在 于各子服务器能协同工作,共享它们所收集的信息,从而具有较高的整体吞吐能力,划 分之后的搜索引擎各自索引各自的区域,每个索引数据库减小,重复信息没有或减少, 这大大提高了查询的响应速度,各个子服务器同时进行收集工作,减少了获取信息的时 间。如w e b a n t s ,n w i 就是这类搜索引擎。 1 1 2 主题搜索引擎 ( 1 ) 产生背景 通用搜索引擎的出现很大程度上解决了人们在互联网上查找信息的困难,但是通用 搜索引擎也正面临巨大的挑战。挑战之一是w e b 信息资源呈指数级增长,搜索引擎无 法索引所有页面;挑战之二是w e b 信息资源动态变化,搜索引擎无法保证对信息的及 时更新;挑战之三是传统的搜索引擎提供的信息检索服务,不能满足人们日益增长的对 个性化服务的需要【,2 1 。 面对通用搜索引擎发展所遇到的困难和人们对信息的新需求,各类适应特定人群需 要的“主题搜索引擎”( t o p i c s p e c i f i cs e a r c he n g i n e ) 应运而生并引起了研究者的重视。 它负责为用户从因特网上搜索和查询某一特定领域的信息与知识。著名的专业搜索引擎 有专门用于收集医药信息的m e d i c a lm a t r i x ,收集化工信息的c h e m i c d e ,以及法律信息 的l a wc r a w l e r 等等。据调查,一半以上的因特网用户都认为目前的搜索引擎返回的信 息要么是无效链接太多,要么是不相关信息太多,而专业搜索引擎可解决以上问题,它 只针对某领域,可保证此领域信息的收录齐全和信息质量,而且更新非常及时,另外通 过调查也可了解到六成左右的因特网用户都认为面向某领域的搜索引擎非常或比较重 要。 基于语义分析的网络信息采集算法研究与应用 ( 2 ) 专业搜索引擎的特点 专业搜索引擎在提供专业信息方面有着大型综合引擎无法比拟的优势,它面向某一 特定专业领域,专注于自己的特长与核心技术,保证了对该领域信息的完全收录与及时 更新。因此,基于专业领域的搜索引擎开始成为搜索引擎发展的一个新趋势,同时,这 也正符合了因特网发展的一个趋势,因特网将更专业化、分工更细。与大型综合型搜索 引擎相比,专业搜索引擎具有以下几个特点: 服务目的不同 通用搜索引擎面向任何用户提供对任何信息的查询,而主题型搜索引擎则面向专业 用户向他们提供对特定专业的信息检索。 搜索方式不同 通用搜索引擎对网络进行逐页的爬行,试图遍历整个w e b 。而主题型搜索引擎则采 用一定的策略预测相关网页的位置,动态的调整网页爬行方向,使系统尽可能的在与主 题相关的网页集中的地方爬行,这节约了大量的网络资源。 对硬件和网络的要求不同 通用搜索引擎对硬件需求高,而主题型搜索引擎由于没有遍历整个w e b 节约了大 量的网络资源,而没有自己的大型索引数据库,所以硬件需求也比较低。 ( 3 ) 发展现状 目前在国外,主题型搜索引擎大都处于研究和试验阶段,但利用它搜索的结果再经 过专业人士的加工而形成的面向某一学科、领域的网络垂直门户网站己经出现。下面介 绍一些较具有代表性的系统。 e l s e v i e r 的s e i r u s 系纠3 】 s c i r u s 科学搜索引擎是一种专为搜索高度相关的科学信息而设计的搜索引擎,获得 2 0 0 1 搜索引擎观察授予的“最佳专业搜索引擎”奖。s c i r u s 是目前互联网上最全面、 综合性最强的科技文献门户网站之一。它只面向包含有科学内容的网站,如大学和作者 个人主页以及e l s e v i e r 自己的数据库。 b e r k e l e y 的f o c u s e dp r o j e c t l 3 1 这个系统由一个印度裔的科学家s c h a r k r a b a r t i 带头从事,他是最早从事这方面研究 的人之一。该系统通过两个程序来指导爬行器:一个是分类器c l a s s i f i e r ,用来计算下载 文档与预订主题的相关度:另一个程序是净化器d i s t i l l e r ,用来筛选那些指向很多相关 资源的页面( 也称中心网页) 。 n e c 研究院的c i t e s e e r 一4 大连理工大学硕士学位论文 c i t e s e e r 是一个非常有名的针对计算机科学领域论文的检索系统。c i t e s e e r 的核心 a c i ( a u t o m a t i c a l l yc i t a t i o ni n d e x ) ,它可以自动地对互联网上的电子文件( p o s t s c r i p t 和 p d f 等格式) 进行索引并分类。 美国国家科学数字图书馆的c o l l e c t i o n b u i l d i n g p r o g r a m ( c b p 、 这个项目旨在为科学、数学、工程和技术创建大规模的在线数字图书馆,试图研究 在某一主题上资源自动建设的可能性。c b p 具有自己的特点:因为c b p 是面向教育、面 向教学的,所以主题精确度比覆盖度更为重要;c b p 不存储资源原文,而只是提供u r l ; c b p 只需要用户最少量的输入,如关键词,系统就可以全自动的将有关该主题的最相关 的有限数量u r l 返回给用户。 1 ,1 3w e b 信息采集技术 作为搜索引擎的基础组成部分,w c b 信息采集起着举足轻重的作用,随着应用的深 化和技术的发展,w e b 信息采集越来越多的应用于站点结构分析、内容安全检测、页面 有效性分析、用户兴趣挖掘以及个性化信息获取等多种服务中。 w e b 信息采集,主要是指依赖w e b 页面之间的链接关系,从w c b 上自动地获取页 面信息,并且随着链接不断向所需要的w e b 页面进行扩展的过程。实现这一过程,主 要是由网络蜘蛛( w e b c r a w l e r ) 来完成的。根据应用习惯的不同,网络蜘蛛也常称作w e b s p i d e r , w e br o b o t 和w e bw o r m 。粗略地说它主要是指这样一个w e b 应用程序,从一 个初始的u r l 集合出发,将这些u r l 全部放入到一个有序的待提取u r l 队列里。而 w e b 信息提取器从这个队列里按顺序取出u r l ,通过w e b 上的协议,获取u r l 所指 向的页面,然后再从这些已获取的页面中分析提取出新u r l ,并将它们继续放入到待提 取u r l 队列里,然后重复上述过程,直到w e b 信息提取器根据自己的搜索策略停止采 集为止。 为了解决w e b 采集的关键问题,研究者们经过不断地研究与实践,将网络蜘蛛由 最早期单纯的基于整个w e b 的网络蜘蛛发展到可满足不同需要的多种采集技术的网络 蜘蛛。归纳起来,大致可以分为以下几种类型【6 1 : ( 1 ) 通用网络蜘蛛 基于整个w e b 的信息采集,是最早也是目前最主流的一种采集方式,它的目标是 尽可能多地获取w e b 上信息资源。它主要是作为通用搜索引擎和大型的w e b 服务提供 商的数据收集部分。随着采集规模的不断扩大,并行采集器数量的增加,整个系统能力 的提高的空问越来越小,新的性能瓶颈不断出现,系统的稳定性却越来越低。 基于语义分析的网络信息采集算法研究与应用 对整个w e b 的信息采集研究,主要集中在海量信息采集的各个关键环节以及并行 采集系统的架构设计上,目标也都集中在提高采集器的性能和稳定性上。主要的研究方 向有分布式并行采集研究,d n s 缓存与预取,u r l 排序,海量u r l 缓存,u r l 和网页 查询等。 此外,实际的系统还必须考虑到对已经采集过的信息进行更新,这是因为w c b 的 动态性和异构性决定了采集到的信息在相当短的时问内就可能发生变化,而且大量新的 信息也会不断产生。然而,由于采集规模的巨大,对整个w c b 进行一次完全刷新的代 价是非常惊人的。 ( 2 ) 增量式网络蜘蛛 传统的w e b 采集器根据自己的需要采集足量的信息后停止采集,当过一段时间这些 数据过时后,它会重新采集一遍来代替先前的信息,称为周期性w e b 采集器。而增量 式的网络蜘蛛对待旧的页面采用增量式更新,即采集器在需要的时候采集新产生的或己 经发生了变化的页面,而对没有变化的页面不进行采集。和周期性信息采集相比,增量 式信息采集能极大地见效数据采集量,从而极大地减少了采集的时空开销。但是,增量 式信息采集在减小时空开销的同时,却增加了算法的复杂性和技术难度。 ( 3 ) 主题网络蜘蛛 基于主题的网络蜘蛛,是指选择性地搜寻那些与预先定义好的主题相关的页面的采 集器。由于自然语言的歧义性,同一关键词在不同的专业领域可能会有不同的解释,而 检索返回的只是包含关键词的页面,即便是有p a g e r a n k 算法,也无法按专业区分开来。 为此,人们使用主题式w e b 信息采集只收集某一专题网络信息。近年来其应用已经覆 盖了化学、医药、生物、自然科学、法律、艺术、教育等多个领域,它不仅可以在专业 上划分,也涉及其他方面的划分,如论文、新闻、音乐、图片等。 和基于整个w e b 的网络蜘蛛相比,它并不采集那些与主题无关的页面,所以极大 地节省了硬件和网络资源,保存的页面也由于数量少而更新快。加之它可以很好地满足 一些特定人群对特定领域信息的需求,成为时下研究的热门重点。它使用页面矢量文档, 同一个能够代表主题相关文档的基准文档向量( r d v ) 的相似度模型来计算相关度,通过 阎值进行区分。简单的方式还包括提取超链接的a n c h o rt e x t 、网页的t i t l e 计算相关度; 复杂的则包括如模糊布尔模型( f u z z ya n de x t e n d e db o o l e a nm o d e l ) 、神经网络模型 ( n e u r a ln e t w o r km o d e l s ) 、概念网络模型( b e l i e f n e t w o r km o d e l s ) 等。 ( 4 ) 基于用户个性化的网络蜘蛛 由于用户的知识水平、专业、心里倾向、行为方式不同,出现了针对不同用户的不 同要求提供不同服务的个性化服务。个性化信息获取是一种双向沟通的过程,它需要获 一6 一 大连理工大学硕士学位论文 取用户的个性化特征,进而在更新数据的同时不断调整方向,力求尽最大可能满足用户 的要求。 目前个性化的获取方式包括两种:一是用户手工输入用户个性化特征,用户在注册 时将自己的个人爱好、知识侧重进行手工输入,为用户建立初级个性化模型,即将用户 输入的主题词、主题站点等信息加入到用户词典中,对其用户个性化模型数据库进行初 始化。二是跟踪用户的行为推测用户兴趣建立用户模型,对于不愿意定制的用户,通过 跟踪用户的上网行为,分析其偏好,存入数据库。此处的偏好分析涉及人工智f 1 ( a i ) 和 机器学习技术。为了提高推测的准确性,用户还可以对信息服务的效果提供反馈,根据 反馈再调整。例如为用户建立个人的网上数字图书馆,这是根据个性化数字信息资源组 织机制而形成的网上数字信息资源集合,能够根据用户的需求变化和网络信息的动态变 化实时更新,为用户提供尽可能符合其需求的准确信息。个性化将成为网络搜索行业当 中日益重要的一个组成部分。 ( 5 ) 基于a g e n t 的网络蜘蛛 随着软件系统服务能力要求的不断提高,在系统中引入智能因素己经成为必然。 a g e n t 作为人工智能研究重要而先进的分支,引起了科学、工程、技术界的高度重视。 斯坦福大学的b a r b a r ah a y e s r o t h 在i j c a i 。9 5 的特约报告中提及:智能的计算机主体既 是人工智能最初的目标,也是人工智能最终的目标。网络导致了网络计算这个概念的出 现。如今,并行和分布计算是网络计算的亮点。而a g e n t 作为并行、分布计算的因素、 合作者、目标自然的产生了m a s ( m u l t i a g e n ts y s t e m ) ,m a ( m o b i l ea g e n t ) 等研究方向。 a g e n t 是一个能在特定环境中连续和自主地运行的软件实体,具有自主性、反应性、 合作性、学习性,能够自我学习、自行推理,对外界环境做出反应,并自我调整以适应 环境。可以使用信息、收集m a s 加用户学习a g e m 优化旧有的s p i d e r 来遍历w e b ,通 过信息收集代理组成员a g e n t 之间以及和用户兴趣学习a g e n t 之间的合作,将异构w e b 上分布的信息有选择的下载到本地。尤其在基于专题及用户个性化采集时,它能够自主 灵活的调整采集策略,达到最佳效果。 ( 鄢迁移的网络蜘蛛 移动式信息采集是基于移动计算的基础设簏的一种信息获取方式,它与集中式计算 及分布式计算有所区别。首先,它将基础的s p i d e r 程序上传到目标站点,依赖远程主机 上的资源进行页面分析的工作,完成一个站点的收集后,转移到下一个目标站点继续运 行,一旦它成功的返回出发地,通过s p i d e r 的管理者,所有被它爬行过的页面都将传送 回本地。这种方式通过减少请求响应时间,压缩程序代码及压缩下载后的页面来节省网 络带宽及本地的硬件负担。 基于语义分析的网络信息采集算法研究与应用 但是,这种方式也面临着一些需要解决的问题,一是很多网站是否允许s p i d e r 上载 运行,因为一旦允许,就意味着要无偿提供自己的硬件资源,可能会影响到网站的正常 运行,而且程序上传也会给安全造成隐患,一旦有恶意的代码,将会造成很大损失;二 是s p i d e r 程序的运行环境问题,服务器的操作系统等软件环境各异,很可能不满足s p i d e r 程序运行的需要。以j a v a 为例,如果对方服务器没有j a v a 运行时环境,程序就无法运 行,而在目标服务器上安装j a v a 的运行环境,需要时间,需要占用资源,这么做是否 合算就成为一个需要考虑的问题。 ( 7 ) 基于元搜索的网络蜘蛛 它对用户的提交的查询请求通过多个领域或门户搜索引擎搜索,并将结果整合后返 回给用户。一般元搜索引擎并不保存w e b 页面的索引文件,但对于一些负载的元搜索 引擎,它要保存为它服务的每个搜索引擎的信息特征,一般以后根据用户请求做出选择。 作为搜索引擎首要部件的采集器在元搜索引擎中功能有所退化,但仍作为w e b 采 集的一个研究方向,叫做基于元搜索的信息采集。 1 2 论文的组织 第一章,对搜索引擎的起源、发展现状和趋势进行了全面的介绍。指出了通用搜索 引擎的缺陷,概述了主题搜索引擎的产生背景以及它的优势和当前的研究状况。论述了 w e b 信息采集系统的历史、现状及发展,并对现有的信息采集系统进行了分类比较。 第二章,按照评价链接价值所采用方法的不同对主题信息采集系统的采集策略行了 分类,分析、比较。并在在分析网络蜘蛛的工作原理的基础上,结合现有的搜索策略, 给出了一种基于语义的综合信息采集策略。设计出了一个基于语义的主题信息采集系统 并对该主题信息采集系统的结构及模块功能进行了详细的阐述。 第三章,主要讲解词义消歧算法,首先对中文分词及本文用到的分词技术进行了简 单的介绍。然后分析了本文所用到的词义消歧策略及相关度计算方法。在已有研究基础 上结合现有的数据集特征,给出一种基于“知网”的词义消歧算法。 第四章,对p a g e r a n k 算法进行了分析,指出了p a g e r a n k 算法中存在的不足。然后 介绍分析了一些针对p a g e r a n k 的改进算法。最后结合词义消歧及词语相似度计算原理, 给出一种基于语义的扩展元主题相关性判定算法s p a g e r a n k 。 第五章,结合实际项目对本文的s p a g e r a n k 算法进行了测试与分析。 最后,对本文作了总结,并就进一步需要研究的问题和研究方向进行了展望。 一8 大连理工大学硕士学位论文 2 主题信息采集研究 主题信息采集是本文研究的重点,所谓主题,是指用户所需搜集信息的特征。主题信 息采集的任务是在尽可能短的时间内,搜集尽可能多的主题相关信息,尽可能少的无关 信息。搜索进行过程中,路径选择是最为关键的问题,直接影响搜索的质量和速度。它 通常从一个“种子集”( 如用户查询、种子链接或种子页面) 出发,根据给定的搜索深度 条件以迭代的方式通过h r r p 协议请求并下载w e b 页面,分析页面并提取链接。搜索 过程中,未访问的链接被暂存在一个称为“搜索前沿”( c r a w lf r o n t i e r ) 的队列中,网络 蜘蛛按照某种策略选择下一个要访问的链接。 2 1 主题信息采集策略分析 网络蜘蛛的搜索策略与搜索引擎的性质和任务密切相关。为了获得较高的w e b 覆 盖率,通用搜索引擎网络蜘蛛通常采用图的遍历算法( 如广度或深度优先策略) 搜索w e b ; 专业搜索引擎搜索的内容只限于特定主题或专门领域,因而在搜索过程中无须对整个 w e b 进行遍历,只需选择与主题页面相关的页面进行访问。对专业搜索引擎而言,决定 网络蜘蛛搜索策略的关键是如何评价链接的价值,即链接价值的计算方法。不同的价值 评价方法计算出的链接的价值不同,由此决定的链接访问顺序也不刚”。 2 1 1 基于内容评价的搜索策略 由于w e b 检索类似于传统信息检索中的文本检索,有些学者考虑利用文本相似度 的计算方法评价页面文本与主题集之间的相似程度。d e b r a l 8 1 等将这一思想引入网络蜘 蛛的搜索策略,提出f i s h s e a r c h 算法。它将用户输入的查询关键词或短语作为主题, 将包含查询串的页面看作与主题相关,且仅搜索主题相关页面。这种方法的局限性在于 不能评价页面与主题相关程度的高低;h e r s e o v i d 【9 】对f i s h - s e a r c h 算法进行了改进,采 用基于连续值的相似度函数计算链接价值,这样不但可以计算出哪些页面与主题相关, 还可得出相关性的大小。类似地,c h o t 1 0 】提出了b e s t f i r s t 算法,利用向量空间模型计 算页面与主题的相似度,相似度评价计算如公式( 2 1 ) 所示。 s i m ( q ,p ) - - ( 2 1 ) 其中,g 代表主题关键词集合,p 代表页面链接文本集合,m 0 代表集合d 中单词k 对某 一主题的重要程度,0 通常采用矿此圹公式计算。 一9 一 基于语义分析的网络信息采集算法研究与应用 以b e s t f i r s t 为代表的上述算法都是根据主题( 如关键词、主题相关文档) 与链接文本 内容的相似度来评价链接价值的高低,以此决定其搜索策略,称为基于内容评价的搜索 策略。最近的研究表明,这类网络蜘蛛在距离相关页面集较近的地方搜索时表现出良好 的性能1 1 1 1 。但由于页面中的文本信息缺乏“全局性”,很难反映w e b 的整体情,使得 这类网络蜘蛛普遍存在“近视”的缺点。 2 1 2 基于链接结构的评价策略 考虑到w c b 页面是一种半结构化的文档,其中包含许多结构信息,有些学者尝试 利用这些结构特征来评价链接的重要性。p a g e r a n k 方法最初用于搜索引擎信息检索中 对查询结果的排序过程,近年来被应用于网络蜘蛛对链接重要性的评价1 1 2 ,1 3 】。p a g e r a n k 方法中,页面的价值通常用页面的p a g e r a n k 值表示,若设页面p 的p a g e r a n k 值为 p r ( p ) ,则e r ( p ) 采用公式( 2 2 ) 计算。 p r ( p ) 一,扣_ ,) 磊,踹, ( 2 z ) 其中,r 为计算中的页面总量,r l 是阻尼常数因子,加( p ) 为所有指向p 的页面的集合, o u t ( r 1 为页面,出链的集合。基于p a g e r a n k 方法的网络蜘蛛在搜索过程中,通过计算 每个已访问页面的p a g e r a n k 值来确定页面的价值,并每次选择p a g e r a n k 值大的页面中 的链接进行访问。 另一种利用w e b 结构特征评价链接价值的方法是h i t s 1 4 ,”1 方法。该方法定义了两 个重要概念:a u t h o r i t y 权重和h u b 权重。a u t h o r i t y 表示一个权威页面被其它页面引用 的数量,即该权威页面的入度值。网页被引用的数量越大,则该网页的a u t h o r i t y 值越 大;h u b 表示一个w e b 页面指向其它页面的数量,即该页面的出度值。网页的出度值 越大,其h u b 值越高。由于h u b 值高的页面通常都提供了指向权威页面的链接,因而 起到了隐含说明某主题页面权威性的作用。h i t s 方法对每个已访问页面计算其 a u t h o r i t y 权重和h u b 权重,并以此决定链接的访问顺序。设页面p 的a u t h o r i t y 权重和 h u b 权重分别为a m 和h 渊,它们分别按迭代公式( 2 3 ) 、( 2 4 ) 计算。 州p 】- t p 】, ( 2 3 ) g i q ,) e 耳 州p 】= 4 p 】, ( 2 4 ) g 抽,) e e 其中,e 为所有指向页面p 的页面集合,为被页面p 中的链接指向的页面集合。 大连理工大学硕士学位论文 两类策略的优点是利用页面之间的引用关系确定链接的重要性,但也存在一些缺 陷:忽略了页面与主题的相关性,在某些情况下,会出现搜索偏离主题的“主题漂移” 问题;在搜索过程中需要重复计算p a g e r a n k 值或a u t h o r i t y 及h u b 权重,计算复杂度 随访问页面和链接数量的增长呈指数级增长。 2 1 3 基于未来回报价值评价的搜索策略 近年来对w e b 信息资源的分布特点的研究表明【1 6 , 】,w e b 上信息资源的分布存在 某种程度“相似性”,如同一类型w e b 站点在构建方式上存在一定相似性;同一主题 的相关页面在组织方式也存一定相似。因此,有些学者考虑利用这种相似性,先对网络 蜘蛛进行一些训练,使起具备一些“经验信息”。由于这些经验信息通常用于预测较远 的回报,因此这种链接价值评价方式的搜索策略称为基于未来回报价值的搜索策略。代 表性的方法有基于巩固学习的搜索策略和基于语境图的搜索策略。 ( 1 ) 基于巩固学习的搜索策略 考虑到巩固学习( r e i n f o r c e m e n tl e a r n i n g ) 在预测远期回报方面具有优势,r e n n i e 和 m c c a l l u m 【l8 】将其引入网络蜘蛛的学习过程。在其提出的模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论