(计算机应用技术专业论文)基于语义分析的主题信息采集技术的研究.pdf_第1页
(计算机应用技术专业论文)基于语义分析的主题信息采集技术的研究.pdf_第2页
(计算机应用技术专业论文)基于语义分析的主题信息采集技术的研究.pdf_第3页
(计算机应用技术专业论文)基于语义分析的主题信息采集技术的研究.pdf_第4页
(计算机应用技术专业论文)基于语义分析的主题信息采集技术的研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机应用技术专业论文)基于语义分析的主题信息采集技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉攥工大学磺士学袋论文 摘要 现今随着w e b 信息指数化的增长,传统的基予整个w e b 的信息采集技术由 于其采集的主题范潮过予广泛,譬致无法保诞对信息的及时更新,并飘较少考 虑慕集镶患是餐与蜜诲主题横芙,已经满是不了天翻对个憔纯信患检索暇务霾 益增长的需求。面向主题的信息采集技术由于其采集信息的内容只限予特定主 题或专门领域,在搜索过程中无须对整个w e b 进行遍历,只需选择与主题相关 懿燹西进行谤阌,基本匿避了传统信息采集系统信息指数膨胀的薤橇,艘建近 年的研究热点。 本文对国内外基于主题的信息采集领域的发展状况进锤了详细的研究,分 辑了信息采集的工作爨理,铮对传统道鬟信息采集囊身固鸯的缺陷,根据主题 页面在w e b 上蕊分靠特征,结合本俸酶耱关理论及语义分橱穗关翔谈,在对链 接、贰蕊与主题相关性判定技术的深入研究纂础上,提出了一种基于语义分析 的主题信息采集的朔美模型,该模型以本体构建领域知识概念集,结仓语义计 算,预测与主题摇关靛u r l 势对采集赞页蘸进行进一步熬过滤,霹黠缝合现毒 开潦技零对该功麓模型进行了详绷的设计与实现。 语义分析是本文的重点,它魁预测u r l 链接,采集主题相关页面,过滤无 关页西鳃核心技术。本文在对“知瓣”遴行详缨研究的基硪上,分横诗算词语之海 麴樱关凄及鞠觳瘦,并着重奔缨了秘瘸翔礴进行多义诞谣义消歧,获彀链接扩 展元数撼、主题及蕊掰内容的义蹶集及义原繁的相关算法。 本文剽用词汇的语义计算,从语义和概念层对文本及链接进行主避捆关性 分析,将基于囊容评价煎援索案醛积基于w e b 链接结拣懿搜索策臻耀结含,在 对传统p a g e r a n k 算法分析研究的基础上加黻淑进,提礁了种基予语义计算臆 k p a g e r a n k ( k n o w l e d g e - b a s e dp g a er a n k ) 算法,利用链接扩展元数据进行主题 糍关性粼寇来选择、颈溅与主题糯关麓u r l 。嚣对于瓣贾的主题相美性判定, 赠在罄莉较为常粥麴商量空麓模型瀚基穗上,褥进行语义分轿,戳进步提高 信息采榘的准确率教效率。实验结果表明,该模型同传统的嘲络爬虫模型相比 具有较离鳃信怠抓敬准确率。 关键谪:信息采集;主题;相关性;k p a g e r a r & ;知阙 武汉理工大学硕士学位论文 a b s t r a c t i nr e c e n ty e a r s ,w i t hw e bi n f o r m a t i o nc o n t i n u i n gt o e x p l o d ee x p o n e n t i a l l y , t r a d i t i o n a ls c a l a b l ew e bc r a w l e rw h i c hc a n t u p d a t et h ei n f o r m a t i o ni nt i m e , m e a n w h i l e , f o ri t sm u c hm o r ew i d e rc r a w l i n gr a n g e , w i t h o u tr e g a r d i n gw h e t h e rt h e g a t h e r e di n f o r m a t i o ni sr e l e v a n tt ot h et o p i co rn o t ,c a nn o tf u l f i l lt h em o r er i g o r o u s a n dp r o l i f i cs e a r c h i n gr e q u i r e m e n t sf r o md i f f e r e n tu s e r s f o c u s e dw e bc r a w l e ra l s o n a m e da st o p i c o r i e n t e dw e b c r a w l e r , w h i c hc o l l e c t si n f o r m a t i o ni ns p e c i a l i z e df i e l d s , d o e sn o tn e e dt oi n d e xt h ew e bc o m p l e t e l y i ta c c e s st h ew e bp a g e st h a ta l er e l e v a n t t ot h et o p i c ,a v o i d i n gt h ec r i s i sc a u s e db yt h ee x p a n s i o no ft h en e t w o r ki n f o r m a t i o n a n db e c o m i n gah o t s p o ti nr e c e n ty e a r sr e s e a r c h e s 。 t h i st h e s i st a k e sg r e a te f f o r to nt h ei n v e s t i g a t i o no nt h en e w l yf o c u s e dc r a w l e r t e c h n o l o g i e si nt h ew o r l d t og e tr i do ft h ei n b o r ns e t u p sw h i c hc a u s e db yt r a d i t i o n a l i n f o r m a t i o ng a t h e r i n g s y s t e m ,an e wt o p i c o r i e n t e d c r a w l e rm o d e lh a v eb e e n p r e s e n t e da c c o r d i n gt ot h ed i s t r i b u t i n gc h a r a c t e r i s t i c so ft h et o p i cp a g ei nt h ew e b a n dt h ew o r k i n gp r i n c i p l e so ft h ei n f o r m a t i o ng a t h e r i n gt e c h n o l o g y t h em o d e lw h i c h b a s e do nt h es e m a n t i ca n a l y s i sa n do n t o l o g yt h e o r yb r i n g sf o r w a r dm a n ya d v a n c e d m e t h o d s i n c l u d i n gu s i n go n t o l o g yt og e tf i e l dk n o w l e d g e i no r d e rt ob em o r ee f f i c i e n t a n da c c u r a t et ot h et o p i c ,t h em o d e lm a k e sf u l lu s eo ft h es e m a n t i cc o m p u t a t i o nt o f i l t r a t et h eu r l sa n dp a g e so b t a i n e df r o mw e b m o r e p r e s e n t a t i o n o nt h e , p i e o r i e n t e dc r a w l e rh a v eb e e nd i s c u s s e dw i t ht h eh e l po ff a m o u sa n dp o p u l a ro p e n s o u r c e t e c h n o l o g i e ss u c ha sh e r i t r i x t h es e m a n t i cc o m p u t a t i o ni st h ek e y p o i n ta n db a s i so ff o r e c a s t i n gu r l sa n d p a g e s f i l t r a t i o na c c o r d i n gt ot h ed e s c r i b e dt o p i c si nt h i sp a p e r i nt h i sp a p e r , t h en e w m o d e lu s e st h eh o w n e tt oc o m p u t et h er e l e v a n c ea m o n gw o r d s ,d i s a m b i g u a t et h e m u l t i v o c a lw o r d s ,g e tt h em e a n i n gc o l l e c t i o no ft h ee x t e n d e dm e t a d a t ao fu r ll i n k s a n dt o p i c sa n dh t m l p a g e s m o r ed e t a i l sh a v eb e e nd i s c u s s e dw i t ht h i ss e m a n t i c t e c h n o l o g y an e wk p a g e r a n ka l g o r i t h mh a v eb e e nd e v i s e do nt h ec a r e f u la n a l y s i so ft h e t r a d i t i o n a lp a g e r a n k t h en e w a l g o r i t h mi n t e g r a t e st h ec o n t e n tr a n k i n gs t r a t e g ya n d l l 武汉理工- 犬学碛学位论文 t h el i n ks t r u c t u r er a n k i n gs t r a t e g yb a s e do nt h es e m a n t i cc o m p u t a t i o no fu r l sa n d p a g et e x tt oc h o o s ea n df o r e c a s tm u c hm o r eu r l sw h i c ha r er e l e v a n tt ot h et o p i c s f r o mt h ew e b t h et r a d i t i o n a lp o p u l a rv e c t o rs p a c em o d e li sa l s oa d o p t e di na n a l y z i n g t h er e l e v a n c eb e t w e e np a g e sa n dt o p i c st oc l a s s i f ya n dd i s t i l lr e l e v a n th t m lp a g e f r o md i f f e r e n tf i e l d s i no r d e rt og e tm a n ym o r er e l e v a n tp a g e s ,s e m a n t i cc o m p u t a t i o n w h i c hc o m p u t et h er e l e v a n c eb e t w e e np a g ea n dt o p i c sa l s oc o m e 南越a f t e rt h ef i r s t c l a s s i f i c a t i o nw i t ht h ev e c t o rs p a c em o d e l t h ek p a g e r a n ka l g o r i t h ma n dt h e s e m a n t i c c o m p u t a t i o no nt h er e l e v a n c eb e t w e e np a g e s a n dt o p i c sa r et h ec o r e d e p a r t m e n t so f t h ew h o l ep a p e r i nt h ee n d ,t h er e s u l to fe x p e r i t m e n t sh a ss h o w nt h a tt h ef o c u s e dw e bc r a w l e r b a s e do nk p a g e r a n ka n ds e m a n t i cc o m p u t a t i o no nt h ep a g et e x t s ,i sm o r ee f f i c i e n t a n da c c u r a t ei nf e t c h i n gw e bp a g e sr e l e v a n tt oap r e d e f i n e ds e to ft o p i c s 。 k e yw o r d s :t o p i c s ;w e bc r a w l e r ;r e l e v a n c e ;k p a g e r a n k ;h o w n e t l l l 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工侔及 取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他入已经发表或撰写过的研究成果,也不包含为获得 武汉理工大学和其它教育机构的学位和证书丽使用过的材料。与我一 同工作的同志对本研究所作的任俺贡献均已在论文中作了明确的说 甓并表示了感谢。 签名:二毯坐恕一圈期:皇笃衄 l 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即 学校有权保留交向国家有关部门或机构送交论文的复印件和电子舨, 允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的 全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制 手段保存或汇编本学位论文。同时授权经武汉理工大学认可的潮家有 关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息 服务。 ( 保密的论文在解密后应遵守此规定) 研究生( 签名 :司膨争 导师(尽期 武汉理下大学硕士学位论文 第1 章绪论 随着互联网的迅速发展,万维网包含有海量的多元化信息。根据c n n i c 于 2 0 0 9 年1 月发布的中国互联网发展状况统计报告中的数据指出,截止到2 0 0 8 年底,i n t e r n e t 上仅中国的网页数量就已经超过1 6 0 亿,较2 0 0 7 年增长9 0 ,上 网用户数量超过2 9 8 亿【l 】。w e b 信息的急速膨胀,在给人们提供丰富信息的同 时,又使人们在对w e b 信息的有效使用方面面临一个巨大的挑战【2 】。幽于互联 网上的信息多种多样、丰富多彩,用户往往很难定位找到他们所需要的特定信 息。因此基于w w w 信息的采集、发布和相关的信息处理日益成为人们关注的 焦点,为此人们发展了以w e b 搜索引擎为主的检索服务。而作为搜索引擎的基 础组成部分,w e b 信息采集在信息检索服务中起着举足轻重的作用。 1 1 论文研究背景 1 1 iw e b 信息采集的研究现状 w e b 信息采集,主要是指依赖w e b 页面之间的链接关系,从互联网上自动 地获取页面信息,并且随着链接不断向所需要的页面进行扩展的过程。 目前,w e b 信息采集技术的发展正如火如荼,在传统的w e b 信息采集技术 的基础上,又出现了许多轻型的各具特色的采集技术。国内学者根据w e b 信息 采集的发展方向将其主要分为以下几种: l 。1 1 1 基于整个w 曲的信息采集( s c a i 曲l ew 曲c r a w l i n g ) 这是一种较传统也是使用最广的采集思想,主要用于门户搜索引擎和大型 的w e b 服务提供商的数据收集部分。其原理是将采集目标从种子u r l 集扩充到 整个w e b 的信息采集。这类信息采集由于目标是整个w e b ,因此通常采集的范 围和数量非常巨大,对采集速度和存储空间要求很高,需数周乃至数月的时间 来刷新页面。由这类w e b 信息采集器构建的搜索引擎,只适合搜索广泛的主题。 目前,这类信息采集具有很强的应用需求,在实际应用中占有主流地位。g o o g l e 、 百度等就是这类信息采集技术的代表。 武汉理工人学硕士学位论文 1 1 1 2 增量式w e b 信息采集( i n c r e m e n t a lw e bc r a w l i n g ) 传统w e b 采集器根据鲁己的需要会周期性的重薪采集一遍w e b 信患来代替 原有的过时信息。这种更新方式显然更新效率不高。增量式信息采集思想就是 对待旧的页面采用增量式更新,采集器只采集新产生的或者已经发生变化的页 面,丽对没有更新修改的页面不进行采集。同周期性信息采集相比,增量式信 息采集能极大地减小数据采集量进而极大地减小采集时空开销,因此它成为实 际采集系统的首选。现今的g o o g l e 、m e r c a t o r 和i n t e m e ta r c h i v e 都是增量式信 息采集系统。 1 1 1 3 基于主题的w 曲信息采集( t o p i c - o r i e n t e dc r a w l e r ) 基于主题的信息采集器只选择性的搜寻那些与预先定义好的主题集合相关 的页面,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定 价值的信息和褶关服务。相对通用搜索引擎的海量信息无序化、查询穗度和深 度不够等缺陷,其特点就是专注于具体、深入的纵向服务,致力于某一特定领 域内信息的全面和内容的深入,具有行业色彩,是一种新的搜索服务模式,其 数据倾向予结构化和格式化,譬翁这个方面昭研究比较热门。它也是本文新要 讨论的重点,将在本文后续章节里详细论述。印度理工大学( i i t ) 和i b m 研究 中心的研究人员曾经成功开发了一个典型的基于主题的w e b 信息采集器【3 1 。福 布斯在2 0 0 9 年3 月份评出的全球1 0 大新型搜索弓| 擎中,绝大多数都是基于某 一领域的主题搜索引擎其中包括专注于社会搜索的a a r d v a r 及专注于房地产搜 索的z i l l o w 等。 1 1 1 4 基于用户个性化的w e b 信息采集( c u s t o m i z e dw e bc r a w l i n g ) 不同的用户对一个搜索引擎提交同一个检索词所期望的返回结果是不同 的,但是通用的搜索引擎却只能返回相同的检索结果,这显然不能完全满足用 户的需要。为此,出现了基于用户个性化的w e b 信息采集( c u s t o m i z e dw e b c r a w l i n g ) 思想。这是种轻量级的采集,其西标就是通过用户兴趣制导或与用 户交互等灵话手段来采集信息。系统根据实际需要可以直接把采集结果提供给 用户,也可以先存储起来等到以后再提供。这种个性化信息一般有两个来源, 是用户手工在系统提供的个性化设置页面翠设置,二是系统自动获取,通过 跟踪用户的浏览习惯和兴趣等。 2 武汉理r 大学硕士学位论文 1 1 1 5 基于a g e n t 的信息采集( a g e n tb a s e dc r a w l i n g ) 这种采集技术是将a g e n t 技术与信息采集技术相结合。a g e n t 是一个能在特 定环境中连续和自主地运行的软件实体,具有自主性、反应性、合作性、学习 性,能够自我学习、自行推理,对外界环境做出反应,并囱我调整以适应环境。 可以通过信息收集代理组成员a g e n t 之间以及鄹用户兴趣学习a g e n t 之闻的合 作,将异构w e b 上分布的信息有选择的下载到本地。尤其在基于专题及用户个 性化采集时,它能够自主灵活的调整采集策略,达到最佳效果。因此,在基于 主题和用户个性化的采集时可以结合方便灵活和适应力强的a g e n t 技术。美国 s t a n f o r d 大学研究了一种基于学习a g e n t 的主题信息采集系统攀l 。它使用向量空 间模型v s m 和t f i d f 来给发现的文本评分排序,并使用机器学习策略和用户 反馈来修改启发式搜索。 1 1 。1 6 迂移的信息采集( r e l o c a t a b l ew 两c r a w l e r ) 这种信息采集器在采集时,不是向w e b 站点服务器发页面请求,而是将自 己上载到它所要采集的服务器中,在本机进行采集,并将采集结果压缩后,回 传到本缝。这样徽的一个臻曼优点是大量的节省了w e b 资源,大量的剪裁工作 将在被采集对象的服务器上完成。s p h i n x 信息采集器就是这类信息采集思想的 尝试【5 1 。 l 。1 1 7 基于元搜索的信息采集( m e t ac r a w l i n g ) 元搜索引擎系统将用户提交的查询请求通过多个领域或门户搜索引擎搜 索,并将结果整合后以统一的界面形式提交给用户。通常它并不保存w e b 页面 的索弓l 文件,但对予一些复杂的结构,它会保存走它服务的每令搜索弓l 擎的信 息特征,以便能够在用户查询到来后做出更加方便的搜索引擎选择。基于元搜 索引擎的信息采集技术,目前是个研究热门方向,美国b i n g h a m t o n 大学的研 究者嗣绕元搜索引擎技术数据库选择问题进行了详细深入的研究【6 】。 1 1 2 传统w e b 信息采集存在的问题 正如前面所述,传统基于整个w e b 的信息采集技术的目标就是尽可能多地 采集信息页面,甚至是整个w e b 上的资源,丽在这一过程中它并不关注采集的 顺序和被采集页面的相关主题。盟然,这种采集方法在实际应用中存在着很多 3 武汉理工大学硕十学能论文 缺陷。 随着互联网信息的爆炸性增长,传统信息采集的速度已经越来越不麓满足 实际应用的需要。即使是大型的商业化信息采集系统,它也不能实现对整个w e b 的覆盖。此外,互联网上信息的存储分布比较分散并且还时刻在动态变化,因 此信息采集器必须时常地刷新页西数据,但仍无法避免采集到的页面失效的情 况。对予传统的信息采集来说,待刷薪页面数量的巨大使得很多采集系统刷新 一遍需要数周到一个月的时间【7 】,这使得页面的失效率非常地巨大。s e l b e r g 和 e t z i o n i 在1 9 9 5 年的调查发现,通过i n t e m e t 中最常用的一些搜索引擎查询到的结 采u r l 中,1 4 。9 的匿标夏面已经失效了同。 由此可以看出,传统的基于整个w e b 的信息采集需要采集的页面数量十分 浩大,这需要消耗非常大的系统资源和网络资源,同时由于不同领域、不同背 景的用户往往具有不同的检索嚣的和需求,他们往往只涉及到其中极少量的集 中在一个主题或几个主题内的页面,而采集到的大部分页面是没有相对利用价 值的,因此采集到资源的页面总体利用率很低。 因此,对整个w e b 页面进行分类,按领域行业等类别分类采集思想即基于 主题的信息采集方案应运磊生。基于主题的信息采集出于只采集与主题相关领 域内的页面信息,屏蔽任何与主题无关的页面,因此能够有效的减少了采集页 面的数量,增加了采集页面的规整程度,进而有效的提高页面的利用率。 1 1 。3 基于主题的w e b 信息采集的优点 和传统的基于整个w e b 的信息采集相比,基于主题的w e b 信息采集是一个 新兴的领域,它主要有以下几个优点: 第一,从很大程度上,它笺缓解信息采集刷新问题所带来的弊端。对于基 于主题的信息采集,随着采集页面数量的极大降低,页面的刷新周期极大的变 短,因此数据过时的风险也就极大的减小了。 第二,极大的节省了资源和提高了资源的利用率。与对w e b 整个采集或完 全镜像的方式不同,基于主题的w e b 信息采集就是在采集过程中对u r l 根据需 要有所剪枝【9 】。这种采集剪枝,不仅使剪枝掉的u r l 数目远大于被采集的u r l 数目,甚至差别是几个量级的,还使得剪枝后采集到的页颟有较高的利用率。 因此,能够极大的节省硬件和网络等资源以及提高资源的利用率。 第三,更灵活,更利于为用户服务。采集的目的就是为了服务于用户,基 4 武汉理上大学硕士学位论文 于主题的w e b 信息采集由于采集的页面数量少,页面内容更有针对性,所以能 够更好的针对需要为用户提供服务,系统也更加灵活。 第四,通过各个基于主题的w e b 信息采集器的协作和共同努力,它可以提 高整个w 曲的页面采集覆盖率。基于主题的采集,由于采集的页面总数少,并 且对予这个主题内的页面挖掘能力更强,所以和传统的基于整个w e b 的信息采 集器相比,它在这个主题内往往采集至l 更多更全面质量更好的页面。当多个主 题采集器按照主题分类目录对主题页面进行分类采集和协同工作后,他们的综 合采集页面对w e b 的覆盖率也就更高了。 1 2 研究内容 相对于通用网络爬虫,主题网络爬虫的基本思路就是按照预先定义的主题, 分析超链接和已经下载的圈页内容,预测下一个待抓取的u r l 以及当前网页的 主题相关度,保证尽可能多地下载抓取与主题相关的网页,尽可能少地下载无关 网页以提高主题资源的覆盖度。基于此,主题信息采集的关键技术分析如下: 确定及定义所要抓取的主题。 面向主题信息采集区别于其他信息采集的最本质东西就是要求获得与主题 相关的结构化的数据信息。因此,在面向主题的w e b 信息采集中,首要解决的 问题就是如何描述或定义感兴趣的主题也就是确定抓取目标。必须有效的进彳亍 主题选择,这样才能采集到宾正需要的主题页面。 对链接的预测即链接判定策略的研究。 信息采集的链接预测策略与搜索引擎的性质和任务密切相关。为了获得较 高的w e b 覆盖率,通用基于整个w e b 信息采集通常采用豳遍历算法搜索w e b ; 而基于主题信息采集的内容只限于特定主题或专门领域,因而在采集过程中无 须对整个w e b 进行遍历,只需选择与主题页面相关的页面进行访问。对主题信 息采集两言,决定链接访问策略的关键是如何评价链接的价值,即链接价值的 计算方法。不同的价值评挽方法计算出的链接的价值不同,由此决定的链接访 问顺序也不同i l o 】。 许多主题信息采集系统根据已下载网页的相关度,按照一定原则将相关度进 行衰减,分配给该两页中的子网页,而后将其插入铡优先级队列中。此时的链接访 闯次序就不是简单地以深度优先或广度优先顺序,而是按照相关度大小排序,优 5 武汉理工大学硕十学位论文 先访问相关度大的u r l 。 对判断网页与主题褶关即页面判定策略的研究。 为了进一步提商主题采集覆盖率及准确率,仅仅对链接进行主题相关性预 测并不能完全保证采集的页面与主题相关,因此,还需要对采集的页面也进行 主题相关性的判断,对采集的页巍也进行主题过滤。 锋对面向主题的信息采集技术特点,结合当今现有的面向主题的w e b 信息 采集技术的相关理论,本文对面向主题的信息采集技术进行深入地研究,充分 利用本体在表达领域知识和语义上的优势】,并结合语义计算的相关知识,采 用链接扩展元数据,在 霉的语义层次,提出了一种薪的基予u r l 扩展元数据诗 算的u r l 链接与主题相关性判定算法- k p a g e r a n k 算法来预测与主题相关的 u r l 链接,并将传统的优秀的页面判定算法一向量空间模型与语义计算相结合, 通过获玻页面标题来判断抓取页蕊与主题的语义相关性,对抓取的页面进行主 题相关性判定,保存与主题楣关的页面,以迸一步提高网络资源信息采集准确 率及运行效率i l2 1 。同时,为验证设计模型算法的有效性,本文采用国外优秀的 开源技术一h e r i t r i x ,力求设计一个扩展性好、修改方便的离效实用的基于语义的 面向主题信息采集系统。 1 3 本文结构 第l 章:绪论。概述本文的主要工作,指如了w 两信息采集的研究现状, 详细指出传统信息采集存在的问题,介绍了基于主题的信息采集的优点,对实 现基于主题的信息采集需要的关键技术进行解析,提出了基于语义分析的面向 主题的信息采集技术模型。 第2 章:基于语义分析的信息采集模型介绍。介绍了基于主题的信息采集 的基本原理,并给出了主题页面在w e b 上的分布特征,详细的介绍了基于语义 分析的信息采集的模型及各个组成模块的功能,研究了本体的相关概念及定义, 指出本体在主题信息采集中的巨大优势,提邀利用本体获取领域主题的解决方 案。并简单介绍了主题信息采集的核心技术链接判定策略及页面判定策略。 第3 章:语义分析计算理论阐述。介绍中囡知网的相关理论,并结合知网, 提毒了语义相关度及语义相似度的计算方法,并利用该方法实现谲义消岐,主 题、页面及链接扩展元数据的义项集和义原集的获取。 6 武汉理t 大学硕士学位论文 第4 章:链接与主题相关性判定算法的设计。对链接与主题相关性判定的 现有算法进行深入的研究,并结合现有的p a g e r a n k 算法进李亍扩展,提患了基于 语义分析的k p a g e r a n k 算法进行链接判定。 第5 章:页面与主题相关性的判定理论的研究。介绍了传统的向量空间模 型,页面标题的获取,提出将传统的向量空闻模型同页面标题与主题语义相关 算法结合在一起,对采集的页面作进一步的过滤的解决方案。 第6 章:系统实现与算法测试,利用h e r i t r i x 开源技术实现本文提出的主题 信息采集模型,并对k p a g e r a n k 算法进行了具体的测试与性能比较分析。 第7 章:结论与进一步工佟,对全文进行总结,点明本文的主要王作及创 新点,并指出需要改善及进一步开展研究的方向。 本文最后是参考文献和致谢。 7 武汉理t 大学硕士学位论文 第2 章基于语义分析的主题w e b 信息采集模型 针对基于主题的w e b 信息采集的关键技术,本文进行了一些相关探索研究, 根据主题页蟊在w e b 上的分布特征,提出了种基于语义分橱於主题信息采集 模型,稠震领域本体对主题领域撅念及概念闻关系的甓确定义来提高判定精度, 同时从词语语义的角度分别对u r l 、页面与主题相关性进行判定计算,以提高 信息采集的准确率及运行效率。下面本章将针对基于主题傣息采集模型的核心 功麓及采用鲍褶关技术进行详细的公缨。 2 1 基于主题的w e b 信息采集的基本原理 实现信息采集过程主要是虫w e b 信息采集器( 餮曲c r a w l e r ) 来完成的。它 主要是从一个初始的u r l 集出发,将这些链接全部放入到一个有序的待采集队 列里,而采集器从这个队列里根据设定的顺序取出u r l ,通过指定的w e b 页匠 访阎协议,获取u r l 所搔自的页面,然后从跫获取的页西中麴取出薪的u r l , 并将箕继续放入到待采集队列摹,然后重复上面的过程,矗到采集器搬据鸯己 的策略停止采集。 传统基于整个w e b 信息采集就是根据上述原理,从个或若干初始网页的 u r l 拜戆,获褥初始溺页上的u r l ,在操取鼹页麓过程中,不断默当翦页面上 抽取新的u r l 放入队列,直到满足系统的一定停止条件。其采集原理如图2 1 左侧所示。 衙面向主题信息采集是在瑟霹麓短的时闻内,搜集尽露麓多的主题穗关信 患,与整个w e b 的信息采集相比,只是选择性的获取跟既定主题最褶关韵网页1 1 3 】。 因此,熟工作流程较为复杂,需要根据一定的分析算法评价采集的链接及网页, 过滤与主题无关的链接,保留有髑酶链接并将其放入等待抓取的u r l 队列或者 只是提敬符合要求的耨毽接,翻入到待撩取u r l 跌列中去。然后,它将根据设 定的搜索策略从待抓取u r l 队列中选择下一步要抓取的网页u r l ,并煎复上述 过程,戡到达到系统的某一条件时停止,其原理如图2 1 右侧所示。另外,所有 被抓取的鼹页将会被系统存贮,进行一定酶分析、过滤【| 4 l 。 8 武汉理工大学硕+ 学能论文 是 是 图2 1传统网络爬虫与主题网络爬虫工作流程对比 2 2 主题页面在w e b 上的分布特征 尽管整个w e b 上的页面分布是无序的,但同一个主题的相关页面在w e b 上 分布存在一定规律。中科院研究所的李盛韬等人将这些分森规律总结为四个特 性:集线器权威特性、l i n k a g e s i b l i n gl o c a l i t y 特性、站点主题特性及隧道特 性【1 5 l 。 1 ) 集线器权威特性 互联网上存在大量的h u b 页面和权威页谣( a u t h o r i t y ) 。h u b 页面是指向相 关主题页面的一个中心,这种页面含有许多链出链接,并且这些链接趋向于相 9 甲 囱。,;,;。,乙 武汉理工大学硕士学位论文 关同一个主题。权威页面指的是其它许多页面都认为该页面是相关于这一主题 有价值的好页面。好的h u b 页西一般指向多今a u t h o r i t y 的页面,并且所指向的 a u t h o r i t y 页面越权威h u b 页面的质量也越好;反过来,h u b 页面的质量越好, 它所指向的每个页面也趋向于越权威。 2 ) l i n k a g e s i b l i n gl o c a l i t y 特性 在h u b 特性的基础上,又有学者提出l i n k a g e s i b l i n gl o c a l i t y 特性。 l i n k a g el o c a l i t y :即页面趋向于捌有链接到它的页面的页面主题; s i b l i n gl o c a l i t y :对于链接到某主题页面的页面,它所链接到的其它页面 也趋向于拥有这个主题。 3 ) 站点主题特性 幽于每个网站在设计时往往就集中在一个或几个主题中,并且网站的浏览 者往往也有一定的豳的性即趋向予浏览圆一主题的页面,所以网站设计者需要 将褶关内容紧密地链接在起。因此,一个站点趋向予说明一个或几个主题, 并且那些说明每个主题的页面较紧密地在此站点内部链接成团。为了发现和研 究站点内页面的主题团特性,余锢华对站点结构进行了详细的分析【1 6 】。大量的 试验也涯骧了站点中存在着许多主题页面团。 4 ) t u n n e l 特性 隧道特性指的是在主题页面团之间,往往需要经过较多的无关链接才能够 到达。在基于主题的页面采集过程中,t u n n e l 特性极大地影响着采集的质量。 为了提高采集页面的准确率,需簧提高u r l 与主题相关性判定以及页面与主题 相关性判定的闽值,而闽值的提高将过滤掉大量的t u n n e l 链接,使得采集系统 很可能丢失t u n n e l 另一端的主题团,进而影响了主题页面瓷源发现率。但为了 提高资源发现率,减少隧道特性的影响,就必须降低u r l 与主题相关饿判定以 及页面与主题相关性判定的阈值,而阈值的降低使得在得到t u n n e l 的同时,也 采集了大量的主题无关页面,从而降低了主题页面采集的准确率。为此,李盛 韬提凄了一个自动提升的相关判断算法:判断某个链接和夏面与主题的相关性 低予阂值时,给它一个概率p 不被剪枝;另方面,对链接和页面相关性判定 的阈值进行动态的调整,当目前采集页面的准确率较高时,将阈值变低,而当 目前采集页面的准确率较低时,将阙值变高,以使得能够有效的在查全率和查 准率之闽有一个有效的折衷。本文将对该算法进行扩展,提出基于语义分析计 算的相关性判定算法,详细的算法在本文第4 章中将给予介绍。 1 0 武汉理r 大学硕士学位论文 2 3 基于语义分析的主题信息采集系统模型 引对主题信息采集的核心技术问题,结合主题页皿的分布特征,本文提出 了一种新的面向语义分析的主题w e b 信息采集系统模型,其基本原理如下: 利用相关领域的已知领域知识本体,准确获取到较为全面的陵领域的相关 概念集合( 士题集) ,同时利用知网相关技术生成主题义原集,然后在信息采集 时,根据提供的初始u r l 集开始抓取网页,并先对成功抓取的网页进行相关预 处理及过滤,利用w e b 信息抽取技术,提取山页面标题内容和u r l 链接扩展元 数批的概念集,分别同主题义原集进行语义相关度计算,并根掘设定的阀值存 留语义相关度较高的页面及链接,并将链接放入到u r l 队列中去,直到符合 定条件后结束w e b 信息采集过程。这样,每次只需要从那些与主题语义帽关较 南的网络链接丌始,搜索的范围比通用网络爬虫的搜索范围要小很多,极人的 提高搜索的查全率和查准率。其系统模型及各功能模块描述如图2 - 2 所示: 图2 - 2 基十语义分析的主题信息采集模型图 武汉理t 大学硕士学位论文 ( 1 ) 初始u r l 种子集 主题信息采集是基于选定的主题的,所以初始种子应该来自主题穗关的领域。 ( 2 ) u r l 解析 u r l 解析器这个部件主要功能是对u r l 队列提供的待采集u r l 队列进行 重复内容检测。对待采集的u r l 进行d i n s 解析,获得其璎地址,然后检测该 页面是否己经被下载,并根据一定的策略向协议处理器分配u r l 。 ( 3 ) c r a w l e r w c b 信息资源采集工具,通过遵循各种网络协议来自动采集w e b 上的有效 信息,包括文本、圈像、声音、视频、压缩等各类文档,并定期自动更新站点 内信息。 ( 4 ) 页面预处理 页面预处理的圈的是把网络爬虫抓取下来的w 曲文本进行规范亿,便于进 行后续处理,主要包括以下内容:去除w 曲文本中的噪声,如广告条、导航条、 书签等;同时对英文文本进行词法分析,把变形后的词恢复原型,包括名词的 复数去除、动词的时态转换、动词第三人称转换、词于抽取等。 ( 5 ) 夏面分析 在页面预处理完成后,需要从中提取出链接、扩展元数据、正文、标题、 摘要,同时过滤掉不能继续搜索的超链接,如到图像、音频、视频的链接,以 便进行葳续的过滤和处理。 ( 6 ) 主题集 在面向主题的w e b 信息采集中,描述或定义主题,确定信息采集目标是进 行主题采集的前提。主题集的获取及基于语义的主题描述义原集的获墩是进行 链接主题摆关预测、过滤主题页面的基础。本文在对传统的主题获取策略的基 础上,针对主题信息采集的领域化行业化特征,利用行业领域本体的表达优势, 提出了一种基于领域本体的主题获取策略。同时,由于要对链接及页面进行基 于语义的判定过滤,因此,利用知网,本文也提出了获取主题义原集、义顼集 的算法。 ( 7 ) 页面过滤 对提取的页面内容需要进行分词及词义消岐,然后还需要判断其与主题的 相关度以过滤与主题无关的页面。页面分词邸根据分词词典,对中文进行分词, 对英文进行词组辨认,去掉文本中不含有分类信息的词,如介词或带从句的副 1 2 武汉联工大学硕十学侥论文 词、冠词、连词、代词、情态动词、语气助词等虚词。对页面进行主题相关度 计算的翁提就是要确保每个词语的词义,由予w 曲文本具有词语同义性、词语 多义性、对短语的依赖性、对上下文的依赖性等特点,根据全信息理论,可以利 用词的语用信息,确定词在文本中所表达的概念【1 7 】,词义消岐就是建立在该理论 基础之上的。然后采用结合向量空间模型的语义相关度算法,对已采集的页面 进行主题相关性评价,通过剔除评价结果小予设定阀值的页面,保存语义度较 大的主题页面。 ( 8 ) 链接预测 主题信息采集就是只采集与主题桶关的页面,可以再采集之前先利用采集 的页谢中的链接对待采集的页面进行主题相关的预测即链接预测。本文首先对 采集页面内提取出来的链接,提出一种全新的基于语义分析的扩展元数据相关 性判定算法,来计算u r l 链接的主题相关度;然后根据事先设定的阀值剪枝处 理不相关链接以减少无关页面的数量,提高主题信息采集的速度和效率。 由前面主题信息采集原理技术分析可知,基于主题的信息采集其核心就是 定义描述采集的主题,并对采集的页面及链接进行与主题相关的过滤。因此, 在本文提出的模型中,主要针对的就是主题获取策略及链接、页面楣关性的判 定策略开展详细的研究。本章着重介绍主题获取策略,并简单的概述链接、主 题过滤策略,第四章、第五章将对链接与主题相关判定,页面与主题相关判定 作详细会绍。 2 4 主题选择策略 在面向主题的w e b 信息采集中,首要解决的闻题就是如何描述或定义感兴 趣的主题也就是确定抓取目标。出于本体在表达领域知识和语义上的优势,因 此,本文采用将本体相关理论与面向主题的信息采集结合起来。 2 4 。l 本体的定义 本体主要作为一种能在语义和知识层次上描述信息系统的概念模型建模工 具。s t u d e r 等人对子本体的特点给出了一个较为明确的解释:“知识本体是对概 念体系的明确的、形式化、可共享的规范说骧 【嘲。“装确指的是所采用概 念的类型及它们应用的约束实行明确的定义,“形式化 指知识本体是能被计 1 3 武汉理工大学硕士学位论文 算机处理的;“共摩 反映知识本体应捕捉该领域中一致公认的知识,构建的 是相关领域中公认的概念集。通常可以把知识本体看成是“领域知识规范的抽 象和描述,表达、共享、重用知识的方法i 1 9 1 。 知识本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解, 确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇和 词汇闻相互关系的瞬确定义。如采把每一个知识领域抽象成一套概念体系,再 具体化为一个词表来表示,包括每一个词的明确定义、词与词之间的关系以及 该领域的一些公理性知识的陈述等,并且能够在这个知识领域的专家之间达成 某静共识,帮能够共享这套词表,所有这些就构成了该知识领域的一个“知识 本体。 2 4 2 本体的作用与分类 总的来说,构造本体的目的是为了实现某种程度的知识共享和重用。 本体的分类目前还没有一个统一的标准,从不同的角度

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论