(计算机科学与技术专业论文)基于领域的主题信息采集技术的研究.pdf_第1页
(计算机科学与技术专业论文)基于领域的主题信息采集技术的研究.pdf_第2页
(计算机科学与技术专业论文)基于领域的主题信息采集技术的研究.pdf_第3页
(计算机科学与技术专业论文)基于领域的主题信息采集技术的研究.pdf_第4页
(计算机科学与技术专业论文)基于领域的主题信息采集技术的研究.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(计算机科学与技术专业论文)基于领域的主题信息采集技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

独创性声明 yiilll1 1 i i1811117 1 l i l t 9 1 1 11 8 l l l l l l 6 1 1 1 t 4 l l l l ly 1 8 7 9 8 6 4 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 武汉理工大学或其他教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示了谢意。 签名:壶丕出日期:趋! 厶兰 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的 全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制 手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有 关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息 服务。 ( 保密的论文在解密后应遵守此规定) 研究生( 签名) :产承山导师( 签名) :请妨哦日期矽f 八岁 武汉理工大学硕士学位论文 摘要 随着互联网的飞速发展,互联网已成为全世界最大的信息载体。人们对网络 信息的需求量越来越大,越来越个性化,如何从海量的网络数据源中找到用户 关心的数据,已成为当前w e b 信息检索领域研究的热点问题。2 0 1 1 年1 月1 9 日,c n n i c 发布了第2 7 次中国互联网络发展状况统计报告,指出互联网上的信 息量呈爆炸式的增长,2 0 1 0 年网页数量达到6 0 0 亿个,年增长率达7 8 6 。 w e b 中包含的信息量如此巨大,通用搜索引擎正面临信息采集,存储,及时 等方面的巨大挑战。而且,通用搜索引擎是面向所有的用户的,抓取尽可能多 的网页来满足所有用户可能的查询请求;这样必然大大降低了网页抓取的效率 和准确率。为了提高抓取效率和查询效率,主题爬虫就应运而生。 主题爬虫是限定爬虫在一定主题领域范围内下载网页的爬虫。它在爬行过 程中会避开大量的与主题领域无关的信息,显然主题搜索引擎在查询的准确率 和网页采集的效率上都有显著的提高。因此,以何种策略来选择网络爬虫的爬 取路径,是决定能否采集到与领域相关信息的关键问题。目前,主流的主题爬 虫的爬行策略主要分为两种:基于网页链接结构的搜索策略和基于内容评价的 搜索策略。前者通过分析网页之间的相互链接关系,来确定网页的重要性,进 而决定链接的访问顺序。该方法考虑链接结构和网页之间的链接关系,的确能 够避免采集一些与主题无关的网页,但是,忽略了网页内容与主题的相关性, 会出现搜索上的主题漂移问题。后者起源与文本检索中对文本相似度的评价, 能够准确的评价网页内容与主题是否相关,然而却忽略了链接之间存在的结构 信息的特点,因而在预测链接的网页价值方面还存在一些不足。 综合考虑以上两种策略的具体情况,本文结合以上两方面的优点,多粒度 来对网页与主题的相关性做出评价。一方面预测分析链接的相关度,另一方面 在链接无法确定的情况下,对网页的内容与主题相关性进行分析。在传统检索 模型的基础上,结合本体的概念,提出一种基于本体语义树的主题网络爬行模 型。该模型能够用语义概念树描述一个主题,与传统基于关键词描述主题的方 法不同,它能够描述概念之间的简单语义关系。在此基础上,给出h t m l 页面 内容与主题相关度的计算方法。在分析u r l 的相关度时,不仅分析链接锚文本 与主题相关度,还结合了改进的p a g e r a n k 算法来分析链接的相关度。只有当链 武汉理工大学硕士学位论文 接相关度小于给定的阀值时才会去下载链接对应的页面。这样的u r l 相关度计 算方法可以大大减少不必要的计算开销,又可以充分地利用锚文本和链接重要 度信息。最后还对那些不确定是否与主题相关的网页进行内容相关度计算,进 而最终确定是否应该采集此网页。 关键词:本体,概念树,主题网络,锚文本,主题相关度 i l 武汉理工大学硕士学位论文 a b s t r a c t w i t hi t sr a p i dd e v e l o p m e n t ,t h ei n t e r n e th a sb e c o m et h el a r g e s tc a r d e ro f i n f o r m a t i o ni nt h ew o r l d t h eg r o w i n gd e m a n do ft h en e t w o r ki n f o r m a t i o ni sm o r e a n dm o r ep e r s o n a l i z e d h o wt of i n dt h ed a t ao fu s e r sc o n c e r n e df r o mt h em a s s i v e d a t as o u r c eh a sb e c o m eah o tr e s e a r c ht o p i eo nc u r r e n tw e bi n f o r m a t i o nr e t r i e v a l t e c h n o l o g y a st h eg r o w t he x p l o s i o no fi n f o r m a t i o no nt h ei n t e r n e t ,t h en u m b e ro f p a g e si s6 0b i l l i o nw i t ha na n n u a lg r o w t hr a t eo f7 8 6p e r c e n ti n2 0 1 0 ,w h i c hi s r e p o r t e di nt h e2 7 t hc h i n ai n t e m e td e v e l o p m e n ts t a t i s t i c sr e p o r tp u b l i s h e db y c n n i ci nj a n u a r y1 9 t h ,2 0 11 t h eg e n e r a ls e a r c he n g i n e sa r ef a c i n ge n o r m o u sc h a l l e n g e so ni n f o r m a t i o n c o l l e c t i o n ,s t o r a g e ,r e a l t i m ea n ds oo n ,w i t ht h eh u g ea m o u n to fi n f o r m a t i o no nw e b t h eg e n e r a ls e a r c he n g i n e sa r eo p e nt oa l lu s e r s a n dt r yt os a t i s f yt h ep o s s i b l eq u e r i e s o fu s e r sb yc r a w l i n gw e bp a g e sa sm a n ya sp o s s i b l e t h i s g r e a t l yr e d u c e st h e e f f i c i e n c ya n da c c u r a c yo fw e bc r a w l i n g t h et h e m ec r a w l e rw a sb o mb yi m p r o v i n g t h ee f f i c i e n c ya n dp r e c i s i o no nc r a w la n dq u e r y at h e m ec r a w l e rd o w n l o a d st h ep a g e sw h i c ha r er e s t r i c t e di nc e r t a i ns u b j e c ta r e a w i t h i nag i v e nc e r t a i nt h e m e i ta v o i d sm a s s i v ei r r e l e v a n ti n f o r m a t i o nw i t ht h et h e m e a r e a si nt h ep r o c e s so fc r a w l i n g o b v i o u s l y , t h e m es e a r c hh a si m p r o v e ds i g n i f i c a n t l y o nt h eq u e r ya c c u r a c ya n dc r a w le f f i c i e n c y t h e r e f o r e ,t h ek e yi s s u e so fw h e t h e ri t c r a w l i n gt h ei n f o r m a t i o ni nc e r t a i nt h e m eo rn o ta r ew h a ts t r a t e g i e st os e l e c tt h e n e t w o r kp a t hc r a w l i n gs h o u l dt a k e c u r r e n t l y , t h em a i nt h e m ec r a w l i n gs t r a t e g i e sc a n b ed i v i d e di n t ot w ok i n d s ,w h i c ha r et h es e a r c hs t r a t e g yo nw e b b a s e dl i n ks t r u c t u r e a n do nc o n t e n t - b a s e de v a l u a t i o n t h es e a r c hs t r a t e g yo nw e b b a s e dl i n ks t r u c t u r e d e t e r m i n e st h ei m p o r t a n c eo fw e bp a g e sa n dt h eo r d e ro fl i n k sv i s i t i n gb ya n a l y z i n g l i n kr e l a t i o n s h i p sb e t w e e nw e bp a g e s t h em e t h o dt a k e st h el i n ks t r u c t u r ea n dl i n k r e l a t i o n s h i pb e t w e e np a g e s ,w h i c hi si n d e e da b l et oa v o i dc r a w l i n gs o m ei r r e l e v a n t p a g e si n t oc o n s i d e r a t i o n h o w e v e r , i ti g n o r e st h ec o n t e n ta n dt h er e l e v a n c eo ft h e t h e m et h a tw i l lc a u s et h et h e m eo fs e a r c hd r i f t t h el a t t e r , o r i g i n a t e di nt e x ts i m i l a r i t y e v a l u a t i o no ft e x tr e t r i e v a li sa b l et oe v a l u a t ea c c u r a t e l yo ft h er e l e v a n c eo fw e b i i i 武汉理工大学硕士学位论文 c o n t e n t sa n dt h e m e s h o w e v e r , i ti g n o r e st h ec h a r a c t e r i s t i c so fs t r u c t u r a li n f o r m a t i o n i nl i n k s ,a n dt h u st h e r ea r es t i l ls o m ed e f i c i e n c i e si nf o r e c a s t i n gt h ev a l u eo ft h e l i n k e dp a g e s t a k i n gt h ea d v a n t a g e so ft h ea b o v et w ok i n d so fs t r a t e g i e s ,t h i st h e s i se v a l u a t e s m u l t i g r a n u l a r i t yt ot h ec o r r e l a t i o no fw e bp a g e sa n dt h e m e sb a s e do nt h es p e c i f i c c i r c u m s t a n c e so fb o t hs i d e s o nt h eo n eh a n d ,i tf o r e c a s t st h ea n a l y s i so fc o r r e l a t i o n o ft h el i n k s o nt h eo t h e rh a n di ta n a l y z e so nt h ec o r r e l a t i o no fc o n t e n t so ft h ep a g e s a n dt h et h e m ei nt h ec a s e so fl i n k sc a n tb ec o n f i r m e d o nt h eb a s i so ft r a d i t i o n a l i n f o r m a t i o nr e t r i e v a lm o d e l ,t h i st h e s i sp u t sf o r w a r dat h e m en e t w o r kc r a w l i n gm o d e l b a s e do ns e m a n t i ct r e ec o m b i n i n gt h ec o n c e p to fo n t o l o g y t h em o d e lc a l ld e s c r i b ea t h e m ew i t hs e m a n t i cc o n c e p tt r e e i ti sd i f f e r e n tf r o mt h et r a d i t i o n a lm e t h o d so f d e s c r i b i n gt h e m eb a s e do nk e y w o r d s i tc a nd e s c r i b et h es i m p l es e m a n t i cr e l a t i o n s b e t w e e nc o n c e p t s o nt h i sb a s i s ,t h ec a l c u l a t i o no fc o r r e l a t i o nb e t w e e nt h eh t m l p a g ec o n t e n ta n dt h et h e m ei sg i v e n o nt h ea n a l y s i so fc o r r e l a t i o no fu r l , i t a n a l y z e sn o to n l yt h ec o r r e l a t i o nb e t w e e nl i n k sw i t ha n c h o rt e x ta n dt h e m e ,b u ta l s o t h ec o r r e l a t i o nb e t w e e nl i n k sb yc o m b i n i n gi m p r o v e dp a g e r a n ka l g o r i t h m i t d o w n l o a d st h ep a g e s ,w h i c hl i n ki sc o r r e s p o n d i n go n l yw h e nt h el i n kc o r r e l a t i o n d o e s n tr e a c hag i v e nt h r e s h o l d t h eu r lc o r r e l a t i o nc a l c u l a t i o nm e t h o dc a nn o to n l y g r e a t l yr e d u c eu n n e c e s s a r yc o m p u t a t i o n ,b u t a l s om a k ef u l lu s eo fi m p o r t a n c e i n f o r m a t i o no nt h ea n c h o rt e x ta n dl i n k f i n a l l y , i tc a l c u l a t e st h ec o n t e n tc o r r e l a t i o n f o rt h o s ep a g e sw h i c hd o n te n s u r er e l e v a n c et ot h et h e m e ,a n du l t i m a t e l yd e t e r m i n e s w h e t h e rt h i sp a g es h o u l db ec r a w l e do rn o t k e y w o r d s :o n t o l o g y , c o n c e p tt r e e ,t h e m en e t w o r k ,a n c h o rt e x t ,t h e m ec o r r e l a t i o n 武汉理工大学硕士学位论文 目录 第l 章绪论1 1 1 课题的研究背景和意义1 1 2 信息采集概述2 1 2 1 信息采集的基本原理2 1 2 2 信息采集的结构3 1 3 信息采集的发展现状5 1 3 1 信息采集的分类5 1 3 2 面向主题的信息采集的发展。7 1 4 信息采集面临的主要问题和解决策略7 1 4 本文的主要工作9 1 5 论文组织结构9 第2 章相关理论与技术1 1 2 1 中文分词11 2 2 本体与本体描述语言1 2 2 2 1 本体描述语言l2 2 2 2 本体构建规则l4 2 2 3 本体构建工具14 2 2 4 本体解析。15 2 3b e r k e l e yd b 实现链接存储技术l7 2 4 本章小结18 第3 章基于领域本体的主题信息抽取1 9 3 1 网页的预处理1 9 3 1 1 建立d o m 树l9 3 1 2 网页标题的提取2 0 3 1 3 网页正文内容的提取2 0 3 2 本体构建2l 3 3 本体解析2 3 v 武汉理工大学硕十学位论文 3 3 1 基于j e n a 的本体解析2 3 3 4 主题描述2 5 3 3 1 主题描述方法2 6 3 3 2 基于本体的主题领域描述方法2 7 3 5 基于知网的语义分析技术2 8 3 4 1 知网简介2 8 3 4 2 知网对词语的描述2 8 3 4 3 义原相似度计算2 9 3 4 4 词语相似度的计算3 0 3 6 本章小结3 0 第4 章页面与主题领域相关性判断算法3 1 4 1 基于本体的领域知识集的构建3 l 4 1 1 构建本体概念树3 l 4 1 2 获得本体中的概念和权值3 2 4 1 3 语义消歧3 3 4 1 4 生成领域义原集3 5 4 2 链接与主题相似度计算3 5 4 2 1 页面间链接分析3 6 4 2 2p a g e r a n k 算法3 6 4 2 3p a g e r a n k 算法的不足和改进3 7 4 2 4 链接信息的分析3 8 4 2 5 链接与主题相似度计算3 9 4 3 网页与主题相似度计算4 0 4 3 1 空间向量模型4 0 4 3 2 基于w e b 页面分析的文本空间向量4 2 4 3 3 基于语义分析的网页内容与主题相关度的计算4 4 第5 章系统实现及其结果分析4 6 5 1 实验环境4 6 5 2 h e r i t r i x 简介4 6 5 2 1 h e r i t f i x 架构分析4 6 5 2 2h e r i t r i x 在主题信息采集中的应用4 8 v i 武汉理工大学硕士学位论文 5 3 实验51 5 3 1 评估指标5 1 5 3 2 种子u r l 5 2 5 3 3 实验结果及分析5 2 第6 章总结与展望5 4 6 1 总结5 4 6 2 进一步研究5 5 参考文献5 6 致谢5 9 攻读硕士学位期间发表的论文和参研项目情况6 0 v l i 武汉理工大学硕士学位论文 第1 章绪论 随着i n t e r n e t 上的网页数量的急剧增长,w w w 已经成为全球重要信息共享 的平台。据美国权威公司i t ms t r a t e g i e s 最新调查报道,发现新网站有效途径中 搜索引擎占8 5 嘣。据调查报告 2 0 0 9 年中国搜索引擎用户行为研究报告显 示,中国搜索引擎用户量已突破2 3 5 亿,在全国网民中,使用搜索引擎来获取 信息的比率已经达到6 9 4 。据全国最大的网络调查公司c y b e r a t l a s 调查表明, 网络7 5 的访问量都来自于搜索引擎推荐。搜索引擎的异军突起已成为不争的 事实。 传统的搜索引擎已经不能满足人们对搜索的专业性、准确性、高效性、时效 性等要求,人们对专业化、语义化的搜索更加迫切。为满足用户搜索的专业化, 个性化,基于领域的主题搜索引擎开始成为搜索领域的研究热点,它为特定人 群使用领域检索提供了有效的检索工具。而作为主题搜索引擎的信息采集部分, 基于领域的信息采集也有着重要的研究意义和价值。 1 1 课题的研究背景和意义 互联网上的信息每天都在不断地增长,面对如此浩瀚的资源,搜索引擎为所 有网上冲浪的用户提供了一个人性化接口。毫不夸张的说,我们可以通过搜索 引擎找到任何网上我们想去的地方,找到我们需要的绝大多数信息。 传统通用搜索引擎已经很成熟,能满足大部分用户的需求,但同时,通用搜 索引擎要及时更新以得到互联网上全面的信息是不太可能的。针对这种情况, 需要开发一种针对特定用户,特定主题的专业化搜索引擎,当前已经出现了一 些面向特定学科,特定专业的搜索引擎,如论文搜索引擎、图书搜索引擎、网 上商城搜索引擎等,这些搜索引擎都各具特色,基本都能满足特定用户的需求, 垂直搜索引擎越来越被人们所运用,它的要求也越来越迫切。它与传统搜索引 擎相比,有以下一些优势: 传统的通用搜索引擎每次搜索的结果有成千上万条,而在这些庞大的搜索结 果中,真正对用户有价值的信息只是其中极少的一部分,这就使用户需求和搜 索结果产生巨大反差,这些不是用户需要的结果就形成所谓的“搜索噪音”。而 武汉理工大学硕士学位论文 垂直搜索引擎则不同,它是有针对性的搜索引擎,它只搜索特定领域的信息。 由于覆盖的学科领域少,信息量相对较少,而且这些信息都是与领域相关的, 这就大大降低了采集信息的难度,提高了信息检索的质量。 垂直搜索引擎针对特定的领域或者行业的内容做了专业和深入的分析和挖 掘,精细的分类,过滤和筛选等。由于信息量相对比较少,网页周期比较短, 能更好的保证信息的时效性,信息定位更加精确,因此在此垂直领域或者行业 提供的搜索服务势必更好更强,更受广大用户的欢迎。 本课题研究的目的在于,针对传统搜索引擎涉及领域过于广泛,在特定领 域上查询不够深入和专业化,整个采集过程中主题信息不够突出,本课题提出 了面向领域的搜索引擎,它可以在某一领域内的某一范围内取得比综合搜索引 擎更加满意的结果,满足某些特定用户群体的使用和需要。并对主题对象确立 算法,主题相关度分析算法,链接重要度算法做了改进。 本课题研究的意义在于,针对传统的搜索引擎搜索的广而不精,垂直搜索引 擎更好的明确用户需求,从而更好的为用户提供精确搜索服务。通过对主题对 象确立算法,主题相关性分析算法,链接重要性算法的改进,使面向主题的搜 索更加精确,范围更加专业化,命中率高,效率高。 1 2 信息采集概述 本节主要讲述信息采集的基本原理和信息采集的结构,主要对通用的网络爬 虫进行介绍,因为它是信息采集中最具代表,也是最基础的。对于其它类型的 信息采集会在下一节中介绍。 1 2 1 信息采集的基本原理 w e b 信息采集也叫网络爬虫,网络爬虫也称s p i d e r ,网络蜘蛛,又叫网络机 器人,它是搜索引擎的主要模块【2 j 。它是自动提取网页的程序,它为搜索引擎提 供万维网上下载网页,是搜索引擎中网络资源的提供者。 网络爬虫的基本原理:从一个或者若干个初始页面的u r l 开始,获得此初 始页面的u r l ,在抓取网页信息的过程中,获得当前网页的内容,不断从当前 页面中抽取新的u r l 放到待抽取的队列中,然后此页面保存,然后再从待抽取 队列中取出未抽取的链接,这样一直循环下去,直到把这个网站上所有的网页 都抓取完或者有其他停止条件为止,从而搜集网络上的数据信息。网络爬虫的 2 武汉理工大学硕士学位论文 基本流程图如图1 1 所示。 图1 1 通用网络爬虫基本流程图 通用的网络爬虫为了尽可能的搜集网络上所有的信息资源,尽量覆盖整个 w e b 资源,通常是采用广度优先策略和深度优先来遍历整个w e b ,这两种遍历 方式都盲目的没选择性的抓取网页。在爬取的过程中对爬取的顺序和页面的语 义没有要求,不对链接和网页内容进行相关分析,而是将所有的页面都保存下 来,不会对页面进行筛选过滤处理,这样难免会采集到一些无用或者没有意义 的页面,使得采集的页面利用率降低的同时还会浪费网络宽带和存储空间等资 源,爬虫的采集效率得不到提高【3 】。主题爬虫则会在采集页面之前对链接进行相 关度的判断,以及对采集的页面进行语义分析,判断是否是与主题相关,进行 主题相关性的筛选【4 】,保留那些满足条件的链接和页面,这种网络爬虫的主要特 点和优势在下面章节中会主要讲解。 1 2 2 信息采集的结构 网络爬虫模块是搜索引擎搜索资源的提供者,是信息的来源,网络爬虫的性 3 武汉理工大学硕士学位论文 能直接影响着搜索引擎搜索的搜索的质量。 根据通用网络爬虫的工作流程,可以将通用网络爬虫系统的结构主要分为链 接分析模块、页面采集模块、页面分析模块、链接过滤模块、原始页面数据库、 u r l 队列、初始种子u r l 集合,其系统结构如图1 2 所示。 图1 2 通用爬虫器体系结构 ( 1 ) 链接分析模块:它主要是分析超链接的所用的是何种协议( 如:h t t p 和 邱) ,获取主机名或i p 地址和它在服务器上的完整路径,供页面采集模块与w e b 服务器建立通信连接。 ( 2 ) 页面采集模块:它主要是下载w e b 上的信息资源,主要作用是通过各 种w e b 协议( 一般为h t t p 和邱为主) 编写协议请求,利用s o c k e t 网络通信首先从应用 服务器请求获取网页主体部分,然后将采集到的页面交由后续模块做进一步处 理。主要功能是下载页面并保存页面的信息,并没有对页面的信息进行过滤等 处理。 ( 3 ) 页面分析模块:页面分析模块主要功能是将页面采集模块采集到的页 面进行分析和处理,提取网页文档中的链接,并对其进行相应的处理,主要是 规范化u r l ,页面链接的u r l 一般是多种格式的,可能是完整的包括协议( 如: h t t p :) 、主机名( w w w 1 i b w h u t e d u c n ) 、路径( 如:d o w n l o a d m o v i e ) ,也可能是 相对路径( 一d o w n l o a d m o v i e ) ,必须对它们进行处理转换得到统一的标准格式, 包含完整协议、主机名或i p 地址和绝对路径p j 。 4 武汉理工大学硕士学位论文 ( 4 ) 链接过滤模块:它主要功能是过滤那些不符合u r l 规范的超链接,并 且维护和处理未访问的u r l 集合、已访问的u r l 集合、不能访问的u r l 集合【6 1 。 ( 5 ) 原始页面数据库:它主要是存放已经爬下来的原始文档,以备预处理 阶段建立索引使用,为检索操作提供资源。 ( 6 ) u r l 队列:用来存放采集到的页面经过分析后抽取出来的新的u r l 。 首先将提供的u r l 种子放入u r l 队列;然后网络爬虫系统分析下载的页面获取 新的u r l ,将未访问的u r l 放入未访问u r l 集合,再不断选择优先级高的u r l 放入u r l 队列,直至i u r l 队列为空或者采集策略满足停止条件,爬虫停止采集。 ( 7 ) 初始u r l :提供u r l 种子,爬虫初始期最先访问的u r l 。最初提供的 这些种子u r l 都是很权威质量高的综合性网站的导航页,它们不光自身含有大 量的信息资源,也会引用大量别的权威网站中的重要信息资源,从这些种子开 始能获得很好的搜索宽度。 1 3 信息采集的发展现状 w e b 信息采集技术已经广泛应用于搜索引擎、w e b 数据挖掘,电子商务、个 性化信息获取等多种服务中。因所应用的领域和目的不同,w e b 信息采集的方 式各有差异。对于搜索引擎领域来说,信息采集的主要任务是通过获取网页的 h t m l 代码,通过分析h t m l 结构,获取其中的超链接,使用各种算法,实现 自动连续的采集页面和分析链接,抓取网页,处理页面,最终保存页面重要信 息。 国内外对w e b 信息采集的研究主要分两部分:一些学者主要研究网页的采 集,即如何用高效的计算机程序实现从w e b 上寻找并下载用户感兴趣的页面, 研究的方向是网页的搜集策略,能够更好的为信息检索服务。另一部分学者则 假设已经获得了感兴趣的页面,他们主要分析网页的结构特点,信息的分布, 然后将自己需要的信息从网页中抽取出来,最后将信息保存,然后将这些信息 索引为搜索引擎提供检索资源。 1 3 1 信息采集的分类 ( 1 ) 面向整个w e b 的采集 这是最早出现的网络爬虫,目前仍占信息采集的主流地位,这种信息采集主 要是为通用搜索引擎搜集网页。它采集的范围和数量非常巨大,需要处理亿以 武汉理工大学硕士学位论文 上级别的网页,因此对于采集的速度、性能以及存储空问要求极高。而近几年, 随着w e b 信息量的剧增,网络资源膨胀,段时间内信息不断产生,导致采集规 模非常巨大,系统的开销和复杂程度也随之增大,对全网进行一次完全的刷新 的时间代价巨大而且周期增长,系统提升的空间越来越有限,性能瓶颈不断出 现 7 1 。 ( 2 ) 面向主题的采集 有时候,我们并不需要抓取整个w e b 上的网页,而是想抓取每个领域或者 特定类别的网页。不同领域、不同需求的用户往往具有不同的采集目的和需求, 于是出现了主题爬虫,与通用爬虫不同,面向主题的爬虫针对某一特定领域或 者特定人群定制的采集方式。它只选择那些与特定主题相关的页面,而丢弃与 主题无关的页面,采集页面的数量大大减少,采集的效率显著提高,所以大大 节省了存储资源和网络资源,而且这些页面由于具有主题相关性,利用率也大 大的提高,满足了特定领域的特定人群的需要,成为近年来学者研究的热点, 也是本文要研究的重点。 ( 3 ) 面向用户个性化的采集 面向用户的采集方式主要是根据用户的行为( 包括兴趣,浏览页面的习惯) 来引导采集的进行m j 。它与基于主题的采集方式不同在于它针对的是某个用户而 不是主题。每个用户都有自己的浏览习惯,兴趣爱好,各个用户的需求也不一 样。个性化信息采集主要是尽量将w e b 上最能符合用户需求的,最相关的信息 推荐给用户。类似于现在的很多推荐引擎,同一个词,对于不同的用户,它想 的到的结果是不一样的。 个性化的信息采集的目标是通过用户兴趣制导,通过与用户进行人机交互等 途径来采集页面信息。获得用户兴趣主要有两种途径:一种是通过系统跟踪用 户的浏览习惯,记录用户的操作,通过分析用户的各种操作之间的关系,有效 的获得用户的个性化信息。另一种是提供一种设置界面,让用户自己来设置页 面中的信息,通过简单的设置能够捕获用户的兴趣爱好。他们的主要目的是判 断用户对那些信息感兴趣,对那些信息不感兴趣。 ( 4 ) 面向深层网络( d e e p w e b ) 的采集 深层网络采集是指采集那些存储在网络服务器的数据库中的信息,不能通过 超链接访问,需要通过动态网页技术访问的资源。它是由d r j i l le l l s w o r t h 于1 9 9 4 年提出的,定义为普通搜索引擎难以发现其信息内容的页面【9 】。d e e p w e b 主要通 过四种方式来采集深层网络信息。填写表单对后台数据查询得到动态页面;需 6 武汉理工大学硕士学位论文 要注册或者有访问限制的页面;对非网页文件的访问;缺乏链接指向的页面。 这些深层网络中的信息可能是用户需要的,价值比较高的信息,当前对深层网 络信息采集技术的研究主要是针对表单,图形图像、视频音频等多媒体等信息 的提取。 近年来,随着用户对搜索要求的提高,许多信息采集技术也不断被提出,如 基于a g e n t 的网络爬虫、迁移的网络爬虫、基于元搜索的网络爬虫等。对于不同 的应用需求,采集的方式也不同,因此采集的策略也各有差异。 1 3 2 面向主题的信息采集的发展 国外对主题爬虫的研究技术比较靠前,1 9 9 4 年就出现了最早的主题网络爬 虫f i s h 系纠1 0 l ,它主要是提出了网络爬虫一个主要研究方向,即如何对u r l 进 行评分、预测u r l 与主题的相关性【l 。1 9 8 8 年出现了对f i s h 系统的改进 s h a r k 搜索系统【1 2 】。后来s t a n f o r d 大学c h o 等人提出了经典的p a g e r a n k 算法【1 3 】, 它给搜索引擎带来了一个崭新的思路,并被运用到搜索引擎中,在主题爬虫中 发挥了巨大的作用。后来也有不少学这提出了其他的搜索策略。 2 0 0 1 年m e n c z e 提出了三种搜索策略来对主题爬虫进行评估:b e s t f i r s t 通过 对要抓取的u r l 与主题的相关度来对u r l 访问优先级进行设置;p a g e r a n k 、 i n f o s p i d e r s 利用查询向量和神经网络的思想判断u r l 的访问优先级。实验得到 了良好的效果,搜索的范围都限定在主题的周围。 2 0 0 2 年,s c h a k r a b a r t i 提出了加速聚焦爬虫,它的主要思想是在将发聚焦 爬虫的分类器进行了细分,分为c r i t i c 分类器和a p p r e n t i c e 分类器。前者是用于 计算网页页面与主题的相关度,为a p p r e n t i c e 提供反馈信息,对爬虫策略进行优 化,后者用于给链接打分。这个思想有效的提高了爬虫采集的精确性。 1 4 信息采集面i 晦的主要问题和解决策略 w e b 信息与传统的信息媒介有着很大的区别,w e b 信息量巨大,增长速度快、 页面信息和结构变化快、这使得网络爬虫会面临以下问题: ( 1 ) 系统稳定。抓取网页是一个繁重的工作,不像一个普通的工程,几分 钟甚至几秒钟就可以运行完,一个比较健壮的爬虫抓取一次可能需要一个月。 而在这一个月内又有很多网页在更新,例如一些门户网站如新浪,网易,搜狐 等。所以爬虫要长期不间断的工作。那么要保证系统正常运行可能要注意避免 7 武汉理工大学硕士学位论文 内存的泄漏,长期的内存泄漏会导致主机资源的匮乏,最终主机崩溃。还要注 意一些边界值的判定和突发事件的处理,如断电等。 ( 2 ) 抓取效率。近几年w e b 页面数量呈指数级增长,如此巨大的信息量要 在短时间内抓取并将所有的信息保存,网络爬虫的抓取速度没有这么快,存储 空间没有这么大,在如此大的信息量中的检索效率必然也很低。这样必然导致 了大量的页面抓取不到,搜集的信息不够全面,覆盖率底,最终检错出来的结 果也不尽让人满意。所以在段时间内抓取到高质量的网页是网络爬虫主要的目 标。 ( 3 ) 后期维护。为了保证采集到的页面是最新的,最有价值的,系统必须 对采集的页面定期更新,对页面质量做分析,减少那些价值不高的页面进入索 引库,否则随着数据量的增大,维护代价更高。 ( 4 ) 用户的个性化需求。不同的人在搜索引擎中输入同一个关键词,不同 的用户可能想得到的信息是不同的,因为每个用户的兴趣爱好不同。网络爬虫 需要根据每个用户的需求和兴趣爱好来采集网页,抓取过程中还要对用户查询 的内容进行语义分析,才能保证保证检索的结果是符合用户的需求。 对于以上出现的四个问题,归根结底是要解决网络爬虫如何在尽量短的时间 内尽可能抓取符合用户需求的高质量的页面。通用爬虫是为了解决所有用户的 需求,尽可能的抓取整个网络上的页面信息,采用大而广的原则,不考虑页面 抓取的优先级,这样最终采集的页面库中存在大量没有参考价值的页面,这些 页面就会浪费大量的网络和存储资源,那么通用爬虫就无法解决抓取效率低, 抓取信息不全,节省存储空间和网络资源的问题。基于主题的网络爬虫的出现 解决了以上瓶颈问题。 主题网络爬虫在抓取页面的过程中对页面进行主题相关度的评分,通过预测 已采集页面上的u r l 与主题的相关度,根据相关度的大小采集页面,优先采集 那些与主题相似度大的页面,那么主题爬虫就会朝着主题相关的方向采集,就 会尽量减少对与主题不相关页面的遍历,保证采集的范围在主题的附近,这样 就减少了不必要的采集,提高了资源的利用率。主题爬虫针对一个领域进行采 集,对页面的采集具有更强的目的性,集中深入的对某个领域进行全面的采集, 更容易发掘主题区域,提高采集的准确率和覆盖率,同时可以缩小搜集的范围, 从而降低存储空间和采集周期,节约系统资源,提高页面的时效性。 8 武汉理工大学硕士学位论文 1 4 本文的主要工作 根据以上分析和现有的设备和技术条件,本课题将研究如何抽取w e b 信息, 如何提取网页中的链接和锚文件,如果过滤一些无用的链接,如何

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论