(计算机应用技术专业论文)基于领域关键词自动扩展的变量主题hopfield聚焦爬虫的研究.pdf_第1页
(计算机应用技术专业论文)基于领域关键词自动扩展的变量主题hopfield聚焦爬虫的研究.pdf_第2页
(计算机应用技术专业论文)基于领域关键词自动扩展的变量主题hopfield聚焦爬虫的研究.pdf_第3页
(计算机应用技术专业论文)基于领域关键词自动扩展的变量主题hopfield聚焦爬虫的研究.pdf_第4页
(计算机应用技术专业论文)基于领域关键词自动扩展的变量主题hopfield聚焦爬虫的研究.pdf_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 近些年随着互联网信息量的快速增长,如何准确、快速、高效地 从互联网上获取信息的问题变得越来越突出,面向主题的聚焦爬虫技 术应运而生。现有的面向主题的聚焦爬虫系统均不同程度地存在领域 或主题依赖,即主题受限的不足。为了节约资源、提高建立的快速性、 增加适应的广泛性,研究一种面向多领域的、具有主题可移植性的聚 焦爬虫系统是互联网应用快速发展的需要。 本文在分析总结了现有主题聚焦爬虫技术的基础上,提出了常量 与变量主题聚焦爬虫的概念。针对变量主题聚焦爬虫中主题特征的动 态生成以及网页抓取准确性下降这两个核心问题,提出了一个基于领 域关键词自动扩展的变量主题h o p f i e l d 聚焦爬虫参考模型,并就其中 的关键技术进行了研究。 首先,提出了一个改进的网页结构化表示模型d o c v i e w - a ,在量 化表示中,它考虑了节点影响因子对节点权值的重要影响,以及节点 类型对节点权值的不同影响,使得网页的量化表示更加准确,基于此, 提出网页关键词自动提取改进算法h t t e a 成功地增强了算法抗主题 噪声的能力,在性能上优于现有算法h t t e b ,为实现领域关键词自 动扩展,提供关键的技术基础;接着,提出了一个面向h o p f i e l dw e b 理论模型的综合结构预测相关性分析模型,成功克服了现有模型的计 算不稳定问题;最后,提出了一个基于h o p f i e l d 人工神经网络的u r l 搜索算法h n c r a w l ,它在搜索u r l 的同时,通过神经元的相关性传 播、增强与弱化,结合神经元筛选与剪技策略,不断清晰w e b 社区 的主题边界。 本文还给出了变量主题聚焦爬虫系统的一个性能评测标准,并实 现了变量主题聚焦爬虫参考模型。实验证明,系统的准确率、效率等 主要指标均优于经典的聚焦爬虫,达到了应用的基本要求,本文提出 的参考模型是可行的、关键技术是有效的。 关键词:变量主题聚焦爬虫,领域关键词自动扩展,u r l 搜索算法, 结构预测,相关性分析,h o p f i e l d 神经网络 a bs t r a c t w i t ht h er a p i di n c r e a s eo fw e bi n f o r m a t i o n ,t o p i c s p e c i f i cf o c u s c r a w l e r sh a v eb e e np r o p o s e db e c a u s eo ft h e p r o b l e m h o wt og e t i n f o r m a t i o nc o r r e d t l y ,q u i c k l ya n de f f i c i e n t l y ,b u tn o ws o m eo ft h i sk i n d o ft e c h n o l o g yc o u l dn o ts a t i s f yt h ea p p l i c a t i o nd e m a n d ,s oi no r d e rt o c o n s e r v er e s o u r c e s ,t oi n c r e a s et h ee s t a b l i s h m e n tr a p i d l y ,a n dt oa d a p t c o m p r e h e n s i v e l y ,i t sn e c e s s a r yt or e s e a r c ht h et o p i cp o r t a b l ef o c u s e d c r a w l e r s ,w h i c hc a nb ea d o p t e di nv a r i o u sf i e l d s t h i sp a p e rp r o d u c e dt w od e f i n i t i o n ss u c ha sc o n s t a n tt o p i c - s p e c i f i c c r a w l e ra n dv a r i a b l et o p i c - s p e c i f i cc r a w l e rb a s e do nc u r r e n tt o p i cf o c u s e d c r a w l e r st e c h n o l o g y ,a n da l s op r o d u c e da n dr e s e a r c h e dv a r i a b l et o p i c f o c u s e d h o p f i e l d c r a w l e rr e f e r e n c em o d e lb a s e do n k e y w o r d s a u t o m a t i c a l l ye x p a n d ,w h i c hf o c u s e do nt w ok e yp r o b l e m s :t o p i c f e a t u r e sd y n a m i cg e n e r a t i o na n dt h ed e c l i n eo fw e b c r a w l i n g sa c c u r a c y f i r s t ,a ni m p r o v e dw e bp a g es t r u c t u r em o d e ln a m e dd o c v i e w - ai s p r o p o s e di nt h i sp a p e r ,i nw h i c ht h en o d ef a c t o r sa n dt h en o d et y p e s d i f f e r e n ti n f l u e n c eo nn o d ew e i g h t si sd i s c u s s e d ,s ot h a tt h eq u a n t i f yo f w e bc a nb em o r ee x a c t b e s i d e s ,h t t e aw h i c hi sp r e s e n t e dh e r ew i l lb e b e r e ra ta n t i t o p i cn o i s e ,a n di t sq u a l i t yw i l lb eb e r e rt h a nh t t e - b ,s o i t sp o s s i b l et or e a l i z ea u t o m a t i c a l l ye x p a n do fk e y w o r d s s e c o n d l y ,w ep r o p o s e d an e w i n t e g r a t e ds t r u c t u r ep r e d i c t i o nc o r r e l a t i o n a n a l y z em o d e l w h i c ho v e r c o m et h ef a u l to fi n s t a b i l i t yo fc a l c u l a t i o n a tl a s t ,w ep r o p o s e dan e wu r ls e a r c ha l g o r i t h mh n c r a w lb a s e do n h o p f i e l da r t i f i c i a ln e u r a ln e t w o r k w h i l es e a r c h i n gu r l ,i tc a nd i s t i n g u i s h t h ed i f f e r e n tt o p l cb o r d e ro fw e bs o c i e t yb yr e l e v a n tt r a v e l i n g ,i n c r e a s i n g a n dd e c r e a s i n go fn e u r o n s ,c o m b i n i n gt h es e l e c t i o no fn e u r o n sw i t ht h e p r u n i n gs t r a t e g y a tt h ee n d ,w ea l s op r o p o s e dap e r f o r m a n c ec r i t e r i ao fv a r i a b l et o p i c f o c u s e dh o p f i e l dc r a w l e r ,a n dr e a l i z e dv a r i a b l et o p i cf o c u s e dc r a w l e r s r e l e v a n tm o d e l i th a sb e e nt e s t e dt h a tt h ea c c u r a c y ,e f f i c i e n c yo ft h e s y s t e ma r e a l lb e r e rt h a nt r a d i t i o n a l c r a w l e r s ,r e a c h i n g t h eb a s i c a l d e m a n d a b o v ea l l ,t h er e f e r e n c em o d e li nt h i sp a p e ri sf e a s i b l e ,a n dt h e k e yt e c h n o l o g yi se f f i c i e n t i v k e yw o r d s :v a r i a b l et o p i c s p e c i f i cc r a w l e r ;a u t o m a t i c a l l ye x p a n do f k e y w o r d ;u r ls e a r c ha l g o r i t h m ;s t r u c t u r ep r e d i c t i o n ;r e l e v a n c ea n a l y z e ; h o p f i e l dn e u r a ln e t v 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作者签名:日期:皇进年上月立日 学位论文版权使用授权书 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文并根据国家或湖南省有关部门规定送交学位论文, 允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内 容,可以采用复印、缩印或其它手段保存学位论文。同时授权中国科 学技术信息研究所将本学位论文收录到中国学位论文全文数据库, 并通过网络向社会公众提供信息服务。 作者签名:导师签名数日期:越年上月冱日 硕士学位论文第一章绪论 1 1 研究背景与意义 第一章绪论 现在的w e b 信息空间中可以索引的w e b 网页数量已经达到数百亿的数量级 u j ,而且,这只是s u r f a c ew e b 的规模,d e e pw e b 中的可用数据量估计达到它的 4 0 0 5 0 0 倍【2 】。因此,要想有效获取这巨大空间中的有用信息变得非常困难。互 联网的迅速发展对w w w 信息的查找与发现提出了巨大的挑战。对于大多数用 户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人 满意的结果网页。 由于“无限”w e b 信息空间与有限资源之间的矛盾、w e b 信息空间的网页 数量与质量之间的矛盾、通用搜索引擎的服务目标广泛性( 或者普适性) 与用户 兴趣独特性之间的矛盾、通用搜索引擎的服务单一性与网络信息服务需求的多样 化之间的矛盾,等等诸多矛盾的出现,提出了面向主题的聚焦爬虫【3 7 1 ( f o c u s e d c r a w l e r ,o rf o c u s e ds p i d e r ) 的方法,聚焦爬虫的研究越来越成为一个重要的方向。 因为实践证明,聚焦爬虫可以为这些矛盾的缓解或解决提供一个可行解决方案的 重要基础。至今,聚焦爬虫已成为有关万维网的一个研究热点。 近年来,以垂直搜索引擎为代表的专业化、智能化、多元化网络信息服务如 雨后春笋般大量涌现出来。主要包括如下几个方面:( 1 ) 经济( 商务推广、渠 道建设、b 2 b 电子商务、企业质量评估等) ;( 2 ) 科教( 科研信息服务、网络 教育、图书搜索、社会学研究实验等) ;( 3 ) 文化娱乐( m p 3 搜索、写作资源 集成与共享、文化推广) ;( 4 ) 生活( 找人、找工作、找路、搜房、住宿、地 图等) ; ( 5 ) 社会( 社会关系、服务科学等) 。据专业人士和专业机构预测, 这样的服务会继续大量出现,并保持高速增长势头。因此,对于垂直信息搜集服 务来说,需求将会进一步扩大。如果,对于这几乎无限多的领域( 加上它们的组 合) ,都要为每一个领域建立一个相应的系统的话,那将是时间、精力、财力和 资源上的巨大浪费。为了给包括通用搜索引擎在内的信息搜索服务提供更加个性 化、更加贴近用户需求的搜索结果,这些服务系统需要面向多领域的垂直信息搜 集系统。 另外,现有研究和实践表明,网络特别是互联网搜索可能会为人工智能研究 开劈一条新的道路1 8 】,同时不论是计算机科学领域,还是计算机工业领域都急切 地需要各种各样的互联网创新研究0 1 。这些商业实践和学术研究领域需要专 业、深入、广泛( 指领域多样) 的大规模互联网信息搜集服务。 硕士学位论文 第一章绪论 因此,大量新涌现的互联网垂直信息搜集与搜索服务和互联网创新研究等应 用,对面向主题的聚焦爬虫提出了强烈的主题可移植性需求。 现有的面向主题的聚焦爬虫系统均不同程度地存在领域或主题依赖,即主题 受限的不足。为了节约资源、提高建立的快速性、增加适应的广泛性,有必要研 究一种具有主题可移植性的聚焦爬虫是快速发展的互联网应用所需要的,它的领 域将会非常广泛,可以预见的至少有: ( 1 ) 为通用搜索引擎搜集高质量的网页; ( 2 ) 为形式多样的专业搜索引擎或垂直搜索引擎提供信息搜集服务; ( 3 ) 为各种互联网或基于互联网的科学研究提供强大的专业数据搜集服务, 比如:互联网理论建模,互联网上的人类社会关系的研究,等等; ( 4 ) 为电子商务和网络营销提供强大的情报信息搜集服务; ( 5 ) 可以搜集网络上的异常数据信息,比如:网络上的非法经营和非法组 织活动等; ( 6 ) 网络数据挖掘提供数据搜集服务; ( 7 ) 为媒体搜集网络上的专题信息等等。 面向多领域的、具有主题可移植性的聚焦爬虫不仅具有重要的经济与社会价 值,还具有较高的学术价值。它的学术价值主要体现在w w w 理论建模,w w w 网页表示与分析模型,高精度、高效率的w w w 搜索方法,w w w 网页的主题 特征描述与自动提取,w w w 网页信息抽取,等等几个方面。要实现变量主题聚 焦爬虫,必须解决这几个方面,特别是建立更为抽象的w w w 网页表示模型和 主题特征描述模型,以及新的w w w 搜索策略问题。这些问题的有效解决可以 大大促进w w w 信息检索与挖掘领域的进步。 1 2 国内外研究现状 w e b 搜索引擎技术自1 9 9 4 年以来,有了长足的进步。w e b 爬虫技术与之同 时出现。而聚焦爬虫技术也几乎同时诞生。准确地讲,聚焦爬虫技术起源于s c h a k r a b a r t i 等人发表于1 9 9 9 年的文献【1 1 】,它第一次系统地论述了相对于通用搜 索引擎的爬虫技术的聚焦爬虫系统。在此之后不长的时间里,w e b 领域相继出 现了大量研究这类系统的文献。归纳起来,主要有如下几项工作值得重视。 s c h a k r a b a r t i 等人的f o c u s e dc r a w l e r 系统。文献【l1 】首次提出了聚焦爬虫的 概念,并对聚焦爬虫系统进行了全面的系统论述,完成了一个完整的聚焦爬虫系 统,它成功解决了传统爬虫系统的不足。它主要包括三个部分:主题定义 ( c a n o n i c a lt a x o n o m yc r e a t i o n ) 、网页分类( c l a s s i f i c a t i o n ) 和主题提取( d i s t i l l a t i o n ) 。它 的性能达到了6 0 0 0u r l s h o u r 。s c h a k r a b a r t i 等人在文献【1 1 】中的贡献主要体 硕士学位论文 第一章绪论 现在这样几个方面:一是给出了一个聚焦爬虫的概念,为解决传统爬虫系统存在 的问题提供了一个新的思路;二是给出了一个聚焦爬虫系统的基本框架;三是论 述了聚焦爬虫系统的关键技术。在文献 1 1 】之后,以g o o g l e 、微软亚洲研究院 和欧美一些著名高校为代表的许多大公司和学术机构纷纷开始了该项技术的研 究和开发。这个时期的系统主要以开放目录分类为主题定义,这是它们最显著的 特点,同时它们也首先成功研究了各种u r l 搜索算法。 以文献 1 2 】为代表的智能聚焦爬虫系统首次引入了机器学习等人工智能技 术,使得系统在u r l 搜索时更具有智能,同时也摆脱了对开放目录分类的依赖, 甚至可以用一个关键字来定义主题了。同样,文献【1 3 】在搜索算法中引入了增强 学习方法。这类成功引入了机器学习技术的智能聚焦爬虫系统,为进一步的相关 研究提供了新的思路,使得人们从基本抓取能力的关注转移到了挖掘这种新技术 的潜能的方向上来,从而推动了该领域的学术研究与商业开发。 文献 5 ,1 4 】中的h o p f i e l d 神经网络聚焦爬虫系统,首次引入了人工神经网 络的方法。这项成果主要由亚利桑那大学人工智能实验室的华人科学家们完成。 它为聚焦爬虫技术的研究进一步开阔了视野,从而进一步推动了该领域的研究与 开发工作。他q g , j 造性地将w e b 视为一个h o p f i e l d 神经网络,针对w e b 具有主 题社区结构、可用少量的种子u r l 来表示主题社区、知识分布存储、异步并行 性、链接非对称性等特点,用h o p f i e l d 神经网络来模拟w e b 的物理和逻辑结构, 从而,利用人工神经网络的自学习能力来强化聚焦爬虫的主题边界确定能力,另 外,神经网络的快速收敛特性使得聚焦爬虫能够收敛于用户确定的主题。这个方 法进一步增强了聚焦爬虫的智能,使得它的主题搜集能力更强大。 文献【1 5 】之前的所有工作都是平面的网页级的聚焦爬虫系统,而它却提出了 一个两层结构的站点级的主题聚焦爬虫系统框架。它的主要思路是:系统同时工 作在两个不同的层次上,一个是外部爬虫工作所在w e b 空间的站点层;另一则 是内部爬虫工作的网页层。外部爬虫到w w w 上去找到主题相关的站点,然后, 内部去这些站点内部实际抓取网页。据文献【1 5 】称,这类系统的效率更高。这个 方法的提出,进一步打开了该领域的研究思路。在此之前的聚焦爬虫系统均将 w e b 简单地看作一个由网页连接起来的有向图。事实上,w e b 的物理结构至少 有这样三个层次:站点、网页、网页块,而且,它的逻辑层次将更多样。从不同 的层次来看w e b ,就会产生不同的w e b 结构视图,也就会找到不同的主题搜索 策略和聚焦爬虫模型。这就为只盯在网页层这一个角度的聚焦爬虫研究领域打开 一扇窗:从多个层次的视角来看w e b ,会发现新的、更有效的主题搜索策略。 根据文献报道的情况看,2 0 0 4 年左右以来,该领域的集中研究从欧美地区 开始转移到了中国地区。特别是0 6 年以来,中国大地上掀起了一股垂直搜索的 硕士学位论文 第章绪论 热潮。这股热潮持续至今,还没有减缓的迹象。同时,以北京大学和清华大学为 首的几所著名大学和科研机构( 主要是中科院和微软亚洲研究院) 在进行不断深 入的研究。 这里值得一提的是,微软亚洲研究院的互联网搜索与挖掘研究小组在该领域 进行了出色的研究,首次提出对象级的垂直搜索引擎 7 1 ,取得了初步的成功。这 个思路给聚焦爬虫技术的进一步研究提供了新的思路。因为,从一开始,对互联 网搜索系统的查询期望,正是我们需要的那条数据或信息,而不是那些数据或信 息的载体一网页。该领域的研究终于进入了直接思维的新阶段。 上述研究主要集中在系统的实现上,还有一部分研究者的工作主要集中于 w e b 理论模型的研究【l 9 1 ,这些模型精确地描述了w e b 的数学性质。它们为聚 焦爬虫技术提供重要的理论基础。 聚焦爬虫技术已经取得了相当的成功,在许多领域得到了广泛应用。但是, 随着互联网信息检索、搜索与数据挖掘领域的不断发展,以及不断涌现的专业化、 多样化互联网信息服务的应用需求,对聚焦爬虫技术提出了更大的挑战。 现有聚焦爬虫系统面向主题的信息搜集技术,尽管已经基本解决了w e b 信 息空间迅速膨胀与准确获取有用信息之间的矛盾。但是,另一方面,因为聚焦爬 虫系统的广泛应用需要它自己具有较强的主题可移植能力,以进一步满足各种各 样的大量信息搜集需求。而目前的聚焦爬虫系统的主题可移植性差,甚至大部分 系统严重依赖于内置的领域定义,这就严重限制了它的应用领域。因此,主题可 移植性问题是聚焦爬虫技术发展到现阶段的主要挑战之一。 正是基于此,本文对聚焦爬虫系统的主题可移植性问题进行了研究。 1 3 论文主要研究内容 本文针对聚焦爬虫系统的主题可移植性问题,进行了研究。研究的内容是一 个抓取主题可以是一个变量的聚焦爬虫系统。通过实验证明变量的聚焦爬虫系统 的主题可移植能力较现有的系统,有了明显的提高,实现了聚焦爬虫系统的主题 可移植性。 为了实现抓取主题的变量化,主题特征的动态自动生成以及由它导致的抓取 准确性下降的问题,是必须解决的两个核心问题。因此,紧紧围绕这两个问题展 开了研究,提出了一个基于领域关键词自动扩展的变量主题h o p f i e l d 聚焦爬虫参 考模型,并对其关键技术作了研究,主要体现在如下几个方面: ( 1 ) 在深入分析现有主题聚焦爬虫技术的基础上,得出了变量主题聚焦爬 虫面临的关键问题,围绕主题特征的动态生成以及由它导致的网页抓取准确性下 降这两个核心问题,并提出了一个基于领域关键词自动扩展的变量主题h o p f i e l d 硕士学位论文 第一章绪论 聚焦爬虫参考模型; ( 2 ) 在北大提出的d o c v i e w 表示模型的基础上,提出了一个改进的网页结 构化表示模型d o c v i e w a ,在量化表示中,它考虑了节点影响因子对节点权值的 重要影响,以及节点类型对节点权值的不同影响,使得网页的量化表示更加准确, 基于此,本文提出了一个网页关键词自动提取改进算法h t t e a ,它成功地增强 了算法抗主题噪声的能力,在性能上优于现有算法h t t e - b ,为实现领域关键词 自动扩展,从而为解决第一个核心问题提供关键的技术基础; ( 3 ) 因为人工神经网络天然的自学习能力和h o p f i e l d 神经网络与w e b 的天 然相似性,本文提出了一个基于h o p f i e l d 人工神经网络的u r l 搜索算法,它在 搜索u r l 的同时,通过神经元的相关性传播、增强与弱化,结合神经元筛选与 剪技策略,不断清晰w e b 社区的主题边界,从而解决变量主题聚焦爬虫的第二 个核心问题; ( 4 ) 本文提出的u r l 搜索策略要求网页分析模型的相关性计算( 相对计算 顺序而言) 必须是稳定的,本文提出了一个面向h o p f i e l dw e b 理论模型、综合 结构预测的网页相关性分析模型,新模型综合了网页内容和链接结构的相关性, 通过一个两阶段的结构相关性预测计算策略:迭代过程中,基于局部信息的稳定 部分和上一次迭代结果进行相关性预测,迭代结束时,再利用全局结构信息对预 测值进行修正,成功克服了现有模型的计算不稳定问题。 ( 5 ) 最后,本文还给出了变量主题聚焦爬虫系统的一个性能评测标准。 1 4 论文结构 本文共分6 章,结构如下: 第一章介绍本文的研究背景、意义,相关研究的历史与现状,以及本文的研 究目标、内容; 第二章主要介绍了主题聚焦爬虫现有技术的基本方面,包括:基本概念、基 本原理和主要系统框架,其中提出了常量与变量主题聚焦爬虫的概念; 第三章分析了变量主题聚焦爬虫面临的核心问题,在些基础上详细论述了本 文提出的基于领域关键词自动扩展的变量主题h o p f i e l d 聚焦爬虫参考模型,包括 它的体系结构; 第四章详细论述了参考模型的关键技术,包括三个方面:领域关键词自动扩 展技术、u r l 搜索算法和相关性分析模型; 第五章首先分析了模型实现的相关问题,然后介绍本文提出的一个变量主题 聚焦爬虫模型综合能力的评估模型,以及提出的新系统的实验; 第六章对全文进行了总结和展望。 硕士学位论文 第二章聚焦爬虫技术 第二章聚焦爬虫技术 万维网的规模持续快速增长,正在并继续形成一个巨大的信息空间,给通用 爬虫( g e n e r a l p u r p o s ec r a w l e r ) 和通用搜索引擎( g e n e r a l - p u r p o s es e a r c he n g i n e ) 带来 了巨大的挑战。要想有效获取这巨大空间中的有用信息变得非常困难。对于大多 数用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供 令人满意的结果网页。 由于“无限w e b 信息空间与有限资源之间的矛盾、w e b 信息空间的网页 数量与质量之间的矛盾、通用搜索引擎的服务目标广泛性( 或者普适性) 与用户 兴趣独特性之间的矛盾、通用搜索引擎的服务单一性与网络信息服务需求的多样 化之间的矛盾等等诸多矛盾的出现,提出了面向主题的聚焦爬虫( f o c u s e dc r a w l e r , o rf o c u s e ds p i d e r ) 的方法,聚焦爬虫的研究越来越成为一个重要的方向。实践证 明,聚焦爬虫可以为这些矛盾的缓解或解决提供一个可行解决方案的重要基础。 2 1聚焦爬虫的基本概念 网络爬虫有时也称作网络蜘蛛、蜘蛛、漫步者或网络机器人等。关于网络爬 虫,文献中有多种定义。文献 3 】给出的定义是:一个自动提取网页的程序,它 为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分。文献1 - 4 是这 样定义的:网络爬虫被定义为这样一个软件程序,它根据标准h t t p 协议,顺着 超链接在w e b 信息空间中漫游,同时获取w e b 文档。文献1 - 5 给出了一个更 广义的定义:网络爬虫是,根据标准h t t p 协议、通过超链接或其它方法自动获 取w e b 文档的任何程序。 文献 3 的定义仅局限于搜索引擎,这是不全面的。事实上,现在的w e b 信息搜集不再只局限于搜索引擎,除此之外,还为许多的相关领域提供信息获取 服务,比如w e b 信息挖掘、w e b 信息服务( 商业情报分析,电子商务,网络营 销) 等。而且,现有的一些网络爬虫的目标不再是w e b 文档,而是w e b 对象, 比如文献 6 ,7 】搜集的目标都是w e b 对象,文献 6 的目标是查询接口,文献 7 的目标则是商品对象或学术论文对象。 基于这样的认识,本文对万维网爬虫( w e bc r a w l e r ) 定义如下:它是一个根 据标准h t t p 协议,在w e b 信息空间中自动获取w e b 文档或信息的计算机程序。 根据抓取的范围,这样的爬虫程序可以分为通用爬虫( g e n e r a lc r a w l e r ) 和聚焦 爬虫( f o c u s e dc r a w l e r ) 。前者的抓取范围是全w e b 信息空间,后者只是其中的 一个子空间,且这个子空间依某个事先定义好的领域或主题来确定子空间的边 硕士学位论文 第二章聚焦爬虫技术 界。通用爬虫的服务对象以通用搜索引擎为主,而聚焦爬虫以垂直搜索引擎和个 性化、专业化信息服务,数据挖掘与知识获取等为主要服务对象。 通用爬虫与聚焦爬虫的区别主要表现在如下几个方面: ( 1 ) 前者的抓取范围是整个w e b ,而后者则是一个或几个表达同一主题的 w e b 社区。 ( 2 ) 前者仅仅抓取w e b 的静态页面,而后者包含动态网页。 ( 3 ) 前者只活动在w e b 的浅层即s u r f a c ew e b ,后者包含各层。 ( 4 ) 前者主要为万维网通用搜索引擎服务,后者主要为垂直搜索、主题信 息搜集等专业化万维网信息检索和挖掘服务。 对聚焦爬虫而言,如果搜集主题是固定不变的,称之为常量主题聚焦爬虫系 统;反之,如果聚焦爬虫系统的抓取主题是一个变量,即系统可以对任意一个主 题的信息进行准确抓取,这样的系统称为变量主题聚焦爬虫系统。它们之间的主 要区别在于主题的可移植性。所谓主题可移植性,是指聚焦爬虫系统的抓取主题 能够从主题a 转移到主题b 的能力,或者说能够从主题a 转移到主题b 的方便 性。从定义可以看出,常量主题聚焦爬虫的主题可移植性很弱或者说没有主题可 移植性,而后者具有很好的主题可移植性。因此,这就导致前者只是面向单个领 域或主题,不能对主题进行低成本、快速的主题定制;后者则面向多领域或主题, 可以实现低成本、快速的主题定制。因此,前者的应用领域是有限的,而后者的 应用领域非常广泛。 从上面的定义可以看出,变量主题聚焦爬虫的主要目的在于主题可移植性。 2 2 聚焦爬虫的基本原理 聚焦爬虫系统,它的主要特点就是,根据预定义的主题特征,到万维网上去 抓取与主题相关的网页,在本地进行存储。根据这个描述,我们给出一个主题聚 焦爬虫系统的一个一般模型,如图2 1 所示。可以看出,它有四个必要的基本部 分:种子u r l ,主题特征,u r l 搜索算法和相关性分析。种子u r l 是系统在万 维网上爬行的起始点;u r l 搜索算法则是指导系统的爬行方向;因为聚焦爬虫 抓取的是用户关心的万维网的一个子集,所以相关性分析模块需要根据主题特征 定义来判断一个待抓取和已抓取对象是否是用户需要的,这个抓取对象通常是网 页,网页块,或者网页中一张表,等等。于是,一个聚焦爬虫的主题信息抓取过 程大致是这样的:从若干个种子u r l 出发,顺着已抓取网页的超链接结构,根 据u r l 搜索算法的指导策略,在万维网上不断分析一个个新发现的u r l 及其对 应的网页或对象是否与主题相关,如果相关,就抓取下来并保存到本地;否则, 放弃。如此不断重复直到结束条件满足。 硕士学位论文第二章聚焦爬虫技术 图2 - 1 主题聚焦爬虫系统一般模型 根据聚焦爬虫的基本模型可知,聚焦爬虫系统的关键技术主要包括:主题定 义、u r l 搜索和网页分析技术,核心是u r l 搜索算法。为了有效提高搜索算法 的准确性,需要对已经搜集的网页内容或对象进行相关性分析。而为了对内容或 对象进行分析,还需要两个基本的技术:主题特征的表示( 即主题定义) ,以及 网页内容或对象特征表示。其中,这两个方面是紧密相连的,为进行相关性计算, 主题定义方法与网页内容或对象特征表示必须在形式上是一致的。 2 3 聚焦爬虫的基本框架 针对现在的万维网给通用爬虫和通用搜索引擎带来的巨大挑战,聚焦爬虫技 术为解决这个问题找到了一个可行的方向。这个方向就是对w e b 不是全部抓取, 而是有选择地抓取,这种选择的依据是一个个主题或者领域。为了实现面向主题 的w e b 对象( 包括网页等) 聚焦抓取,研究者们自1 9 9 9 年以来提出了各种各样 的聚焦爬虫系统,归纳起来,有下面这样几个具有代表性的经典聚焦爬虫系统, 它们可以为聚焦爬虫系统的研究提供重要的参考和启示,而且,它们也是聚焦爬 虫研究领域的基本参考系统,因此,称它们为聚焦爬虫的基本框架。 2 3 1 基本系统f o c u s e dc r a w l e r f o c u s e dc r a w l e r 系统i l l l 是c h a k r a b a r t i 等人在1 9 9 9 年提出的一个称作聚焦爬 虫( f o c u s e dc m w l e r ) 的万维网超文本资源发现系统。它的抓取对象是网页,过程如 下:首先,由用户从某一开放的分类目录体系如y a h o o ! 中选取若干个子类节点 ( 这种目录体系的组织结构是一颗树,子类节点就是这颗分类树的子节点) 作为 主题信息,这些节点所包含的一些页面( 每个叶子节点都对应了一些网页) 作为 训练集,构造一个分类器。当抓取到一个新的页面, 时,首先提交到分类器进行 相关性预测分析,如果页面u 是一个正例( 页面与主题信息的相关性超过某一个 阀值) ,则由“指向的超链放入工作池( w o r kp 0 0 1 ) 作为待抓取的超链;否则, “被剪枝,其所指向的超链也不作进一步的抓取。 硕士学位论文第二章聚焦爬虫技术 f o c u s e dc r a w l e r 系统主要由三部分组成: ( 1 ) 分类器( c l a s s i f i e r ) ,用于 判定所抓取网页的相关性,进一步可确定是否对该网页所包含的超链进行扩展; ( 2 ) 提取器( d i s t i l l e r ) ,用于找到已抓取网页集的权威性值h u b ,并确定待抓取 u r l 的优先级;( 3 ) 抓取器( c r a w l e r ) ,在分类器和提取器指导下、基于具有 动态可配置的优先控制策略下抓取网页。它的体系结构如图2 2 所示。 图2 - 2f o c u s e dc r a w l e r 的体系结构 ; ; ! 鱼 ; i s i ; ; 基本抓取思想如下:整个w e b 可以看作一个有向图g ,确定一个层次分类 目录体系c ,如y a h o o ! 等,则每一个主题ce c 可以看作由g 中一些样例网页 构成,记这些样例网页的集合为d 俐。这些页面可以被系统进行预处理,用户的 兴趣是c 的一个子集c ,用于表示用户定义的主题信息。对任意一个网页q ,q 关于c 的相似度即为g 与主题信息的相关程度,规定:父节点与主题信息的相 关度定义为各子节点相关度之和。系统开始运行时,优先抓取d 心勺中的页面, 之后,按与d 心的距离及各页面相关度的大小次序进行抓取。系统的目标是抓 取尽量多的相关网页,亦即追求尺仰1 的最大化,其中y 表示系统搜集到的网 页集( 显然,d 佑是y 的子集) ,尺仰表示矿中与主题相关( 大于某一阀值) 的网页数量,或矿中各网页相关度之和。 2 3 2 基于机器学习的i n t e l l i g e n tc r a w l e r c h a r uc a g g a r w a l 等在文献 1 2 】中提出了一个基于机器学习的主题聚焦爬虫 模型i n t e l l i g e n tc r a w l e r 。j a s o nr e n n i e 和a n d r e wm a c h a u u m 在文献【1 3 】中提出了 一个利用增强学习的策略来改善聚焦爬虫的性能。i n t e l l i g e n tc r a w l e r 的输入称为 断言( p r e d i c a t e ) ,它由分类、关键词,以及它们的组合构成,一般的形式就是 一个语句,比如,“包含关键词p a r i s 的t r a v e l 类网站”。系统从些通用的种 硕士学位论文第二章聚焦爬虫技术 子u r l ( 一般是一些著名的网站首页) 开始,运行初期的行为与通用爬虫一样, 完全随机地在w e b 上搜索;当它遇到了第一张满足主题的网页后,就不再是纯 粹的随机游走了,而是从此开始自动聚焦( a u t o f o c u s i n g ) 至u 用户定义的p r e d i c a t e 。 在聚焦的过程中,系统逐步积累w e b 超链接结构的知识k ,并在后续的抓取行 动中运用这些知识k 。也就是说,它一边抓取主题相关网页,一边统计网页的链 接结构关键信息k ,在分析下一张候选的u r l 时,就会根据这些关键信息来进 行预测。一个候选u r l 与主题相关的可能性计算包括内容、u r l 标志符( u r l t o k e n ) 、链入结构和s i b l i n g 结构这四个方面。 i n t e l l i g e n tc r a w l e r 没有基本系统中的分类器,这也说明:聚焦爬虫系统基本 结构中的分类器不是必须的。原因在于,f o c u s e dc r a w l e r 的相关性分析是基于文 本分类技术的,而i n t e l l i g e n tc r a w l e r 的相关性分析是基于结构预测的,而且内容 相关性计算是基于词典中关键词是否出现来判断的。 i n t e l l i g e n tc r a w l e r 的基本思想:用尺表示聚焦爬虫到时刻f 为止,已经抓取的 满足主题的网页对应的u r l 的集合,候选u r l 是指那些被r ,中u r l 链接的u r l 。 设c 表示一张网页矽满足主题的事件。对于一张待抓取网页,尸( c ) 等于这张网页 满足主题的概率,即可能性。骧示“对一个候选u r l ,己知它的主题相关性 这样一个事实。这个贿多种类型,比如,一张链入候选u r l 对应的网页内容, 或者u r l 字符串的特征标记集合,或者u r l 链接结构等与主题的相关性,这样的 一些事实。于是,对于一个候选u r l 来说,系统就要根据已经“知道 的u r l 的相关性情况,以及它与用户定义的主题相关性,来计算它的抓取优先级。这个 优先级用一个兴趣率( i n t e r e s tr a t i o ) i ( c ,d = p ( cle ) p ( c ) 来度量,它包括这样 四个方面:( 1 ) 基于内容的兴趣率l ( c ) ,它等于预先定义的关键词词典l e x i c o n 中所有关键词的兴趣率之积;( 2 ) u r l 标志符t ,( c ) ,它等于预先定义的标志符 集合中所有标志的兴趣率之积;( 3 ) 链入结构,( c ) ,它等于链入网页中所有主 题相关和不相关网页的兴趣率之积;( 4 ) s i b l i n g 结构,。( c ) ,它等- 于s i b l i n g 集合 中满足主题的网页数与纯随机假设下的相关网页数量之商。其中,用 h a r v e s t = l r ( v ) f l 阳( 障示已经抓取到的网页集合,尺仰为呻与主题相关的网页子 集1 用来近似表达一张网页满足主题的概率( 可能性) a p p ( c ) 。最后,候选u r l 的综合优先级是它们的一个加权和。系统将对优先级最高的u r l 进行立即抓取。 然后,将新抓取到的网页进行超链接提取,并加入到候选u r l 集合中去。 2 3 3 基于神经网络的h o p f i e l d n e ts p i d e r m i c h a e lc h a u 等人在文献 5 ,1 4 】中提出了一个基于神经网络的聚焦爬虫 h o p f i e l dn e ts p i d e r 。它把w e b 看作一个由分布的知识构成的超大规模的网络结 构。这个结构可以用神经网络来描述,网页恰好对应了神经网络的一个个神经元, 硕士学位论文第二章聚焦爬虫技术 超链接正是结点之问连接,连接权即为超链接反映出的主题相关性。因此,它用 一个带权的单层h o p f i e l d 神经网络来描述w e b 。h o p f i e l d 神经网络( h n n : h o p f i e l dn e u r a ln e t w o r k ) 的连接权是固定的,是事先设计好的,设计h n n 就是 要设计这些连接权。文献 5 ,1 4 认为,在聚焦爬虫在进行主题信息的抓取时, 整个w e b 的链接结构是相对稳定的,这与w e b 在整个发展进程的时间轴来说的 动态性是不矛盾的。 h o p f i e l dn e ts p i d e r 把整个w e b 看作一个h o p f i e l d 神经网络i - i n n ( h n n : h o p f i e l dn e u r a ln e t w o r k ) ,每个神经元f 代表一张网页p f 。在开始进行抓取的时 刻t - - 0 时,每个神经元的初始状态定义为甜,俐髫函) ,g 俐是一个网页内容相关 性计算函数。 网页p ,与乃之间的超链接结构就是神经元i 与- ,之间的连接权,用乃表示, 有 f 0 ,如果i 口i 与p ,之间不存在链接 t i , j 一- - - 沌触) ,否i 。 ( 2 1 ) 其中,办似力是一个计算网页超链接结构反映出的主题相关性函数。 那么时刻t o 时,每个神经元的状态用下式: 麒( ,) = 正( 乃川a ( r 一1 ) ) ( 2 - 2 ) 来计算,其中f ( x ) = 2 【( 1 + p 一。) - 1 一o 5 ) 是一个变种s i g m o i d 函数,这主要是为了使 它的值落在区间l o ,1 ) 。 模型的激发函数定义如下: 形:j 1 i f z i ( 啦口( 2 - 3 ) 10 ,e l s e 其中0 为一个阀值。如果形= o ,则忽略;否则,神经元被激发,h o p f i e l dn e t s p i d e r 就去抓取相应的网页,同时更新节点的输出如下: ,o ) = ,( ,o ) g ( p 。) )( 2 - 4 ) 显然,这是一个迭代过程,h n n 收敛于吸引子。对于

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论