（通信与信息系统专业论文）web信息获取技术的研究.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-17 格式：PDF 页数：46 大小：1.40MB 积分：10.8 举报 版权申诉

已阅读5页，还剩41页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要随着互联网的普及与发展，信息获取已经从通过手工获取信息、通过计算机获取信息，发展到通过网络获取信息。如今的网页数以亿计，要在浩如烟海的网络世界寻找需要的信息，作为现代信息获取技术的主要应用一搜索引擎是必不可少的。论文研究的目的是希望通过对基于超链分析的采集策略进行研究，探索提高搜索引擎中网页采集器采集性能的方法。网页采集器是一种能够自动从互联网上采集网页的软件，它决定着搜索引擎的数据是否丰富，信息是否能够得到及时更新。论文系统地介绍了搜索引擎中网页采集器的工作原理。r o b o t 主要由h t t p 下载模块、爬行策略控制器和u r l 解析器三个部分组成。在r o b o t 系统实现中采用了非递归的构造方式，给出了队列状态转换关系、r o b o t 的典型流程图和详细的算法思想，运用了数据库和多线程编程技术。 r o b o t 软件的采集策略是指当r o b o t 搜索到一个文档后，下步应该转移到哪一个文档的方法问题，它决定着r o b o t 软件的采集性能。论文讨论了i p 地址采集策略、深度优先采集策略、广度优先采集策略、深度一广度结合采集策略四种基于有向图的遍历算法并分析了各自的优缺点。w e b 上的超链结构是一个非常丰富和重要的资源，它独立于网页的谮言和内容。论文研究了基于超链分析的算法中的b a c k l i n k 算法、h i t s 算法和p a g e r a n k 算法的原理、实现和存在的问题，并提出了一种对p a g e r a n k 的改进算法。基于超链分析的算法能够有效地提高r o b o t 的采集性能，减少获取网页的重复性，并对垃圾网页有较好的过滤性。对分别采用b a c k l i n k 算法和改进前后的p u g e r a n k 算法作为采集策略的r o b o t 的性能做了实验比较，通过实验验证了改进后的p a g e r a n k 算法能够更加准确地判断网页的重要性，有效地提高r o b o t 的爬行效率。关键词：w w w 技术搜索引擎u r l 采集策略o d b c a b s t r a o t w i t ht h ep o p u l a r i z a t i o na n d d e v e l o p m e n to fi n t e r n e t i n f o r m a t i o nw a s o b t a i n e db yh a n da n db yc o m p u t e r ，a n dn o wi ti so b t a i n e db yw e b n o w d a y s ，t h en u m b e r o fh t m lp a g e si sv e r yh u g e ，i no r d e rt os e a r c hv a l u a b i ei n f o r m a t i o ni nt h ew e b ，t h e s e a r c he n g i n ei sn e c e s s a r y t h ea i mo ft h i sd i s s e r t a t i o ni st oe x p l o i th o wt o i m p r o v et h ec o l l e c t i o no fp a g e s - - r o b o t ，a c c o r d i n gt ot h es t u d yo nt h ea p p l i c a t i o n o ft h es e a r c hs t r a t e g yb a s e do nt h ea n a l y s i so fh y p e r l i n k t h er o b o tc a na u t o m a t i c a ll yo b t a i np a g e sf r o mi n t e r n e t ，t h ea b u n d a n c eo fd a t a a n dt h es p e e do fu p d a t i n gi n f o r m a t i o ni nt h es e a r c he n g i n el i eo ni t t h i s d i s s e r t a t i o ni n t r o d u c e ss y s t e m a t i c a l l yt h ep r i n c i p l eo fr o b o ti nt h es e a r c h e n g i n e i tm a i n l yc o n s i s t sh t t pd o w n l o a d i n gm o d e l t h ec o n t r o lo ft h es e a r c h s t r a t e g ya n d u r lp a r s e r t h er o b o ti sn o tr e c u r s i v e l yc o n s t r u c t e d ，a n dt h e r e l a t i o no ff o u rq u e u e s ，t h ef l o wc h a r ta n dt h ed e t a il e da l g o r i t h mo ft h er o b o t a r es h o w n u s i n gd a t a b a s ea n dm u l t i t h r e a dt e c h n i q u e ，t h ep e r f o r m a n c eo ft h e r o b o lh a sb e e ni m p r o v e d t h es e a r c hs t r a t e g yo ft h er o b o tish o wt od iv e r tt ot h en e x tp a g ew h e nt h e r o b o ts e a r c ha n yp a g e ，w h i c hi st h ek e yo fp e r f o r m a n c eo ft h er o b o t t h i s d i s s e r t a t i o nd i s c u s s e sf o u rs e a r c h s t r a t e g i e s b a s e d o n d i g r a p h ：i p a d d r e s s ，d f s ，b f sa n d t h ec o m b i n a t i o no fd f s a n d b f sa n da n a l y s e st h e i r a d v a n t a g e sa n dd is a d v a n t a g e s t h e s t r u c t u r eo fh y p e r lin ko nw e bisav e r y a b u n d a n ta n di m p o r t a n tr e s o u r s e ，w h i c hi si n d e p e n d e n tw i t hl a n g u a g ea n dc o n t e n t o fp a g e s t h i sd i s s e r t a t i o nr e s e a r c h e st h r e ea l g o r i t h m sb a s e do nt h ea n a l y s i s o fh y p e r l i n k ：b a c k l i n k ，h i t sa n dp a g e r a n k t h e i rt h e o r i e s ，i m p l e m e n t sa n d q u e s t i o n sh a v eb e e nd e t a i l e d l yr e s e a r c h e d ，a n da ni m p r o v e dp a g e r a n ka l g o r i t h m i sg i v e n u s i n gt h e s ea l g o r i t h m s ，t h ep e r f o r m a n c eo ft h er o b o tc a nb ei m p r o v e d e f f i c i e n t l y ，t h er e p e t i t i o no ft h ep a g e so b t a i n e db yt h er o b o tc a nb ed e c r e a s e d a n dt h e p e r f o r m a n c eo ff i l t e r o fi n v a l u a b i ep a g e sc a nb eb e t t e r i nt h e e x p e r i m e n t ，t h ep e r f o r m a n c e so ft h er o b o t sw h i c ha d o p tr e s p e c t i v e l yb a c k l i n k ， p a g e r a n ka n di m p r o v e d p a g e r a n ka l g o r i t h ma r ec o m p a r e d u s i n g t h ei m p r o v e d p a g e r a n ka l g o r i t h s ，i m p o r t a n tp a g e sw i l l b ep r e f e r e n t i a l l y o b t a i n e da n dt h e p e r f o r m a n c eo ft h er o b o tw i l lb ei m p r o v e d ，w h i c hh a v eb e e nv a l i d a t e dt h r o u g ht h e e x p e r i m e n t k e y w o r d ：w w w ，t e c h n i q u es e a r c he n g i n e ，u r l ，s e a r c hs t r a t e g y ，o d b c i i 原创性声明本人声明所呈交的学位论文是在导师的指导下独立完成的。论文中取得的研究成果除加以标注的地方外，不包含其他人已经发表的研究成果，也不包含本人为获得其他学位而使用过的成果。与我一起工作的同志对本研究所作的任何贡献均已在论文中进行了说明并表示谢意。本人声明法律后果由本人承担。授权人：王潇犯亭一f 年f 月p 日使用授权说明为保障学位论文的著作权，授权学校“有权保留送交学位论文的原件，允许学位论文被查阅和借阅，学校可以公布学位论文的全部或部分内容，可以影印、缩印或其他复制手段保存学位论文”，学校必须严格按照授权对论文进行处理，不得超越授权对毕业论文进行任意处置。授权人：王潇犯亭”万年f 月，口日 1 1 研究背景第1 章绪论随着网络的普及与发展，信息获取已经从通过手工获取信息、通过计算机获取信息，发展到通过网络获取信息。网络最大的优点就是共享海量的信息。i n t e r n e t 上的信息资源随着i n t e r n e t 的发展具有如下特点“1 ：信息量非常大，增长速度快：内容丰富，形式多样；传播速度快，查询方便，交互功能强大；资源分散无序，缺乏管理：质量良莠不齐，稳定性差； w e b 文档是分布的、异构的、无结构或者半结构的。利用互联网，用户一方面可以快速、方便地接触到各种信息，但是另一方面通过普通的浏览方式很难在信息的海洋中找到真正需要的信息。网络时代的信息量每8 个月就翻一倍，如今的网页数以亿计，要在浩如烟海的网络世界快速寻找需要的信息，作为现代信息获取技术的主要应用一搜索引擎是必不可少的0 1 。信息的顺畅流动是激活互联网应用并推动其发展的关键。现代信息获取技术的主要应用一搜索引擎，不但是实现信息顺畅流动最重要的方式，也是互联网技术与应用的基础与核心。虽然目前搜索引擎的数量有上千种，如y a h o o 、g o o g l e 、e x c i t e 、a l t a v i s t a 、 l y c o s 、i n f o s e e k 、w e b c r a w l e r 、h o t b o t 等，但是它们还存在一些缺陷：如查询结果中存在着大量的重复信息和无关信息；使用简单的关键字匹配查询，检准率低：没有考虑人的地域、性别和年龄等方面的差异，缺乏个性化服务等。因此，如何有效她提高搜索引擎的性能是一个迫切需要解决的问题。 1 2 b 中文搜索弓l 擎的研究现状 1 2 1 中文搜索引擎简介“”“。3 在浩如烟海的互联网上找到自己所需要的中文信息不是一件容易的事，各种中文搜索引擎应运而生。下面列出目前比较流行的几种中文搜索引擎： g o o g l e 搜索引擎( h t t p ：w , m g o o g l e t o m ) 目前最优秀的支持多语种的搜索引擎之一，约搜索4 亿张网页。提供网站、图像、新闻组等多种资源的查询。支持包括中文简体、繁体、英语等3 5 个国家和地区的语言。百度中文搜索引擎( h t t p ：w w w b a i d u c o m ) 全球最大的中文搜索引擎。提供网页快照、网页预览预览全部网页、相关搜索词、错别字纠正提示、新闻搜索、f l a s h 搜索、信息快递搜索、百度搜霸、搜索援助中心等。北大天网中英文搜索引擎( h t t p ：e p k u e d u c n ) 由北京大学开发，具有简体中文、繁体中文和英文三个版本。提供全文检索、新闻组检索、f t p 检索( 北京大学、中科院等f t p 站点) 。目前大约收集了1 0 0 万个w 聊页面 ( 国内) 和1 4 万篇n e w s g r o u p ( 新闻组) 文章。支持简体中文、繁体中文、英文关键词搜索，不支持数字关键词和u r l 地址检索新浪搜索引擎( h t t p ：s e a r c h s i n a c o m c n ) 互联网上规模最大的中文搜索引擎之一。设大类目录1 8 个，子目1 万多个，收录网站2 0 余万。提供网站、中文网页、英文网页、新闻、汉英辞典、软件、沪深行情、游戏等多种资源的查询。雅虎中国搜索引擎( h t t p ：e n y a h o o c o m ) y a h o o ! 是世界上最著名的目录搜索引擎。雅虎中国于1 9 9 9 年9 月正式开通，是雅虎在全球的第2 0 个网站。y a h o o ! 目录是一个w e b 资源的导航指南，包括1 4 个主题大类的内容。搜狐搜索引擎( h t t p ：w w w s o h u t o m ) 搜狐于1 9 9 8 年推出中国首家大型分类查询搜索引擎，到现在已经发展成为中国影响力最大的分类搜索引擎。每日页面浏览量超过8 0 0 万，可以查找网站、网页、新闻、网址、软件、黄页等信息。网易搜索引擎( h t t p ：s e a r c h 1 6 3 t o m ) 网易新一代开放式目录管理系统。拥有近万名义务目录管理员；为广大网民创建了一个拥有超过一万个类目，超过2 5 万条活跃站点信息，日增加新站点信息5 0 0 到1 0 0 0 条，日访问量超过5 0 0 万次的专业权威的目录查询体系。 1 2 2 中文搜索引擎的研究现状在我国，随着中文环境下的网络用户数量的爆炸性增长，网络上的中文信息也越来越丰富，因此中文信息处理具有广阔的市场前景，同时也促使中文信息处理系统方面的智能中文搜索引擎、网上实时机器翻译等技术的发展。如果失去了中文搜索引擎强大的信息导航作用，网络必然处于低效、无序和混乱的状态，大量有用的中文信息将“偏居一隅”而无人知晓，同时限制了中文信息的进一步传播和互联网在中国的应用普及。由于技术上的难题一直未能得到解决，迟迟没有一个性能良好、功能强大的中文搜索引擎出现。用户常常在互联网上搜索一个主题，却传回来数以万计的结果以及大量包含着与实际检索完全无关的网页。因此，有必要研究提高中文搜索引擎性能的关键技术，从根本上解决目前众多中文搜索引擎存在的问题。 1 3 论文研究的意义、内容及组织 1 3 1 论文的研究意义目前搜索引擎数据库中信息的来源一般有两种：一种是由w e b 站点及页面的创建者在搜索引擎的站点上登记其页面上的u r l 地址，以便搜索引擎发现并加入数据库：另一种是由r o b o t 软件自动收集w e b 上的信息。其中，r o b o t 软件对信息进行自动采集是搜索引擎数据库信息的主要来源。但是，由于w e b 上网页数量巨大，并且更新的速度非常快，利用r o b o t 软件完成对整个w e b 上信息的采集显然是不可能。”。从目前中文搜索引擎的现状来看，采集回来的网页中存在着大量的重复网页和垃圾网页，而如何合理地运用r o b o t 软件的采集策略是解决这问题的关键，因此，对于信息获取技术中r o b o t 软件的采集策略的研究具有重要意义。 1 3 2 论文的研究内容论文的主要研究工作主要包含以下四个方面： ( 1 ) 搜索引擎中网页采集器的工作原理。搜索引擎中的网页采集器通常也被称为 r o b o t 软件，是一种能够自动从互联网上采集网页的软件。r o b o t 主要由h t t p 下载模块、爬行策略控制器和u r l 解析器三个部分组成。其中h t t p 下载模块以未访问过的u r l 作为爬行地址，通过h t t p 协议去访问相应的w e b 服务器，获取h t m l 页面。爬行策略控制器主要功能是提供网页采集器的采集策略，目前应用最广泛的是深度优先算法或广度优先算法。u r l 解析器用来解析所爬回来的h t m l 页面并提取页面中的超链接和文本内容。 ( 2 ) 对采集器的采集策略的探讨和改进。r o b o t 软件的采集策略是指当r o b o t 搜索到一个网页后，下一步应该转移到哪一个网页的方法问题。在遍历w e b 的过程中，r o b o t 软件通常将w e b 作为一个有向图来处理，使用有向图的遍历算法来对w e b 进行遍历。论文主要讨论了以下几种采集策略：i p 地址采集策略、深度优先采集策略、广度优先采集策略、深度一广度结合采集策略，并对不同的采集策略分析了各自的优缺点。超链分析的思想起源于文献检索中的引文索引法，主要基于两条基本假设。在超链接分析算法中， b a c k l i n k 算法就是统计页面被链接的次数以作为这个页面的b a c k l i n k 值，页面被链接的次数越多，那么就可能越重要；p a g e r a n k 算法通过计算每一个页面的p a g e r a n k 值来对页面的重要性进行衡量，p a g e r a n k 越高，则页面的重要性越大；h i t s 算法的目标是针对某个查询得出最有价值的页面。论文重点研究了衡量网页重要性的超链接分析算法的原理、实现和存在的问题，指出基于超链分析的算法能够有效地提高r o b o t 的性能，减少获取网页的重复性，并对垃圾网页有较好的过滤性。在这个基础上，针对超链分析算法偏重旧网页的问题，提出了一种改进的p a g e r a n k 算法。 ( 3 ) 运用v c + + 实现r o b o t 软件。r o b o t 软件主要有递归和非递归两种构造方式，在实现中采用了非递归的构造方式，给出了队列状态转换关系、r o b o t 程序的典型流程图和详细的算法思想。通过运用数据库和多线程编程提高了r o b o t 软件的性能。在数据库编程中，介绍了m f co d b c 的编程方法，并对数据源的配置过程、数据库中数据表的构成和数据源的存储过程进行了详细的说明。在多线程编程中，介绍了m f c 中用户界面线程和工作者线程的创建和终止方式，并对c s p i d e r t h r e a d 类的创建、对象指针* p t h r e a d 和工作线程函数的定义以及线程对象的执行加以详细的说明。最后通过线程同步的方法解决了线程间的同步资源访问的问题。 ( 4 ) 运用v c + + 实现了相应的基于超链分析的爬行策略控制器并进行比较分析。基于超链分析的的策略控制器的实现中主要应用了b a c k l i n k 、p a g e r a n k 和改进后的 p a g e r a n k 算法。对基于超链分析的r o b o t 软件结构和算法进行了详细说明。通过实验验证了改进后的p a g e r a n k 算法能够更加准确地判断网页的重要性，有效地提高r o b o t 的爬行效率，减少获取网页的重复性，并对垃圾网页有较好的过滤性。 4 第2 章w e b 页面采集器的基本原理 2 1w e b 的发展和相关知识众所周知，w e b 这个i n t e r n e t 上最热门的应用架构是由t i mb e r n e r s - l e e 发明的。 w e b 的前身是1 9 8 0 年t i m b e r n e r s l e e 负责的e n q u i r e ( e n q u i r ew i t h i nu p o ne v e r y t h i n g 的简称) 项目。1 9 9 0 年1 1 月，第一个w e b 服务器n x o c 0 1 c e r n o h 开始运行，t i m b e r n e r s l e e 在自己编写的图形化w e b 浏览器”w o r l dw i d ew e b ”上看到了最早的w e b 页面。1 9 9 1 年，c e r n ( e u r o p e a np a r t i c l ep h y s i c sl a b o r a t o r y ) 正式发布了w e b 技术标准。目前，与w e b 相关的各种技术标准都由著名的w 3 c 组织( w o r l dw i d ew e bc o n s o r t i u m ) 管理和维护。 w e b 是一种典型的分布式应用架构。w e b 应用中的每一次信息交换都要涉及到客户端和服务端两个层面。从技术层面看，w e b 架构的精华有三处：用超文本技术( h t m l ) 实现信息与信息的连接；用统一资源定位技术( u r i ) 实现全球信息的精确定位：用新的应用层协议( h t t p ) 实现分布式的信息共享。这三个特点无一不与信息的分发、获取和利用有关。 2 1 1 客户端和服务器端 w e b 客户端的主要任务是展现信息内容，而h t m l 语言则是信息展现的最有效载体之一。w e b 上的文档通常以页面( p a g e ) 的形式展现。每一页面又可以包含到世界上任何地方的其他页面的链接。通过这些链接，用户可以访问所链接的页面，并且这一过程可被无限重复，通过这种方式就可以浏览到数以亿计的页面。页面通过一个称作浏览器 ( b r o w s e r ) 的程序来观察，浏览器取来所需的页面，并以适当的格式在屏幕上显示该页面。 w e b 服务器端监听t c p 8 0 端口，以检测从客户端过来的连接请求。连接建立以后，服务器对客户端发出的请求给予应答，发送构成该站点的h t m l ( h y p e r t e x tm a k e u p l a n g u a g e ，超文本标记语言) ，然后释放连接。在w e b 中使用最多的请求与应答协议叫 h t t p ( h y p e r t e x tt r a n s f e rp r o t o c o l ，超文本传输协议) 。 2 1 2u r l ( 统一资源定位符) i n t e r n e t 上的位置是通过u r l ( u n i f o r mr e s o u r c el o c a t e r ，统一资源定位符) 来指定的。这就唯一标识了具体资源在i n t e r n e t 上的地址。一个u r l 就是一个定位器或指针，指向环球网上的某个资源。u r l 可以用下面两种方式来表示： s c h e m e ：h o s t n a m e ：p o r t p a t h ? q u e r y 或 s c h e m e ：h o s t n a m e ：p o r t p a t h # a n c h o r u r l 一般由下面表2 1 所示的几个部分组成： u r l 组成部分作用 s c h e m e ( 模式)u r l 中指定协议的部分 h o s t n a m e ( 主机名)真正存储文档的服务器，可以是域名或者是i p 地址 p o r t ( 端口)u r l 可以选择指定一个端口。h t t p 的默认端口是8 0 p a t h ( 路径)指定真正向服务器请求的文件 a n c h o r ( 锚点) 指定文档中的某个位置，只是一个短字符串，起标注作用 u r l 中指定协议目前有以下几种：表2 1u r l 的组成 h t t p ： h t t p 服务器。主要用于提供超文本信息服务的 w e b 服务器。 t e l n e t ：t e l n e t 服务器。提供用户远程登录使用的服务器。 f t p ：f t p 服务器。提供各种普通文件和二进制代码文件的服务器。 g o p h e r ： g o p h e r 服务器。 w a i s ： w a i s 服务器。 n e w ：网络新闻u s e n e t 服务器。 u r l 可以是绝对的，也可以是相对的。绝对u r l 指定一个准确的、无歧义的i n t e r n e t 资源的位置。绝对u r l 包宙主机名和文件名。相对u r l 仅指定绝对u r l 的一部分。通常，相对u r l 只是一个文件名。相对u r l 也可以指定子目录和父目录，使用u r l 指定子目录，需要指定一个不带前导符的目录名。 2 1 3h t t p ( 超文本传输协议) h t t p 是h y p e r t e x tt r a n s f e rp r o t o c o l 的缩写，即超文本传输协议，是w e b 浏览器和w e b 服务器之间所遵守的格式约定。h t t p 基于客户机朋艮务器模型，采用请求应答模式，如图2 1 所示。 ( c i l e n t ) 圈2 1 请求膻答模式 h t t p 协议由两组命令组成，一组为请求，另一组为应答。浏览器向w e b 服务器发送请求，w e b 服务器作出应答。一旦建立了连接，一些描述请求的文本将被传输到服务器。服务器以少量的标题回应请求，标题后面跟随着所请求的数据。h t t p 标题包含一些有用 6 的信息，如页面的最近修改时间、正在运行的w e b 服务器的类型等。表2 2 给出了h t t p 的主要请求方法。请求方法描述 g e t 请求一个页面，并向w e b 服务器发送有限的数据，然后传回所请求的全部资源 h e a d 请求一个页面的描述资源，以检验资源的存在 p o s t 将数据发送给w e b 服务器，并允许w e b 服务器将数据返回 p u t 请求存储页面表2 2h t t p 的主要请求方式 2 1 4h t m l ( 超文本标记语言) 从w e b 站点找到的资源，大部分都存储在h t m l 文档中。h t m l 文档有五种定义好的组件：文本注释简单标签起始标签结束标签文本就是在h t m l 页面上看到的词句。除了脚本代码，h t i d l 文档中的所有数据，只要不是标签的组成部分，都被认为是文本。文本是格式化的，并且受包围它的标签控制。注释表示h t i d l 文档中不会显示给用户的那部分内容。通常是由h t l d l 程序员留下来的说明。注释以结束。简单标签是指完全由单个表示的h t i d l 标签，没有相应的结束标签。开始标签和结束标签用来控制其所包含的h t m l 代码的功能。 2 2w e b 页面采集器的作用早期开发出来的r o b o t 软件主要用来发现和统计分析w e b 服务器的数量，调查服务器中特定文件的比例，主页的平均规模和网络互连的程度。作为互联网搜索引擎中的 r o b o t 软件，主要有两个方面的功能”1 ：第一，发现网络资源。在全球性、分布式、动态增长和多样化的网络环境中采集、标引和检索网络信息资源。r o b o t 软件一般存储在计算机主机上。有些检索系统开发出若干个r o b o t 软件，共同承担采集和标引信息的工作。它遵循着超文本传输协议( h t t p ) ，根据h t m l 文件中提供的u r l 指针，自动追寻超文本的链接，从一个主页跳到另一个主页，在这一过程中，不断采集新出现的信息，并对主页的标题和内容进行标引。为了发的信息，如页面的最近修改时间、正在运行的w e b 服务器的类型等。表2 2 给出了h t t p 的主要请求方法。请求方法描述 g e t 请求一个页面，并向w e b 服务器发送有限的数据，然后传回所请求的全部资源 h e a d 请求一个页面的描述资源，以检验资源的存在 p o s t将数据发送给w e b 服务器，并允许w e b 服务器将数据返回 p u t 请求存储页面表2 2i i t t p 的主要请求方式 2 1 _ 4h t n i l ( 超文本标记语言) 从w e b 站点找到的资源，大部分都存储在h t m l 文档中。h t m i 。文档有五种定义好的组件：文本注释简单标签起始标签结束标签文本就是在h t m l 页面上看到的词句。除了脚本代码，h t m l 文档中的所有数据，只要不是标签的组成部分，都被认为是文本。文本是格式化的，并且受包围它的标签控制。注释表示h t m l 文档中不会显示给用户的那部分内容。通常是由h t m l 程序员留下来的说明。注释以结束。简单标签是指完全由单个表示的h t m l 标签，没有相应的结束标签。开始标签和结束标签用来控制其所包含的h t m l 代码的功能。 2 2w e b 页面采集器的作用早期开发出来的r o b o t 软件主要用来发现和统计分析w e b 服务器的数量，调查服务器中特定文件的比例，主页的平均规模和网络互连的程度。作为互联网搜索引擎中的 r o b o t 软件，主要有两个方面的功能“1 ：第一，发现网络资源。在全球性、分布式、动态增长和多样化的网络环境中采集、标引和检索网络信息资源。r o b o 。c 软件一般存储在计算机主机上。有些检索系统开发出若干个r o b o t 软件，共同承担采集和标引信息的工作。它遵循着超文本传输协议( h t t p ) ，根据t t t m l 文件中提供的u r l 指针，自动追寻超文本的链接，从一个主页跳到另一个主页，在这一过程中，不断采集新出现的信息，并对主页的标题和内容进行标引。为了发页，在这一过程中，不断采集新出现的信息，并对主页的标题和内容进行标引。为了发现新的资源，r o b o t 软件先检索已知的页面，发现其中的超链接，然后追寻这些超链接去寻找尚未访问过的页面。搜索算法使它去访问尽可能多的w e b 服务器。第二，万维网的维护。万维网链接的变动是影响网络信息质量的一个重要因素。 r o b o t 软件要定期巡查超文本链接的状态，确认主页之间的链接是否仍然有效，剔除已经名存实亡的链接。在网页之间的链接发生变化的情况下，发现这些变化并及时更新数据库内容。在可能的情况下，向网络管理人员报告网络中出现的断链并进行修复，这项工作依靠人工是难以完成的。 2 。3w e b 页面采集器的工作原理 r o b o t 通常也被称为“网络蜘蛛”( s p i d e r ) 、“漫游者”( w a n d e r e r ) 、“爬虫”( c r a w l e r ) 等。是一种能够自动从互联网上采集网页的软件o ”。它按一定的网络协议与网站建立通信，自动采集一个网页并遍历其包含的超链接，从而获得被链接的所有的网页。以r o b o t 作为信息采集的手段，一方面大大加强了搜索引擎信息采集的能力，可以在较短的时间内，在较大的范围搜集网页信息。另一方面，由于r o b o t 能够快速对w e b 服务器进行不断地访问，因此会给w e b 服务器带来较大的冲击。 r o b o t 的主要功能是自动从i n t e r n e t 上的各个w e b 站点抓取w e b 文档并从w e b 文档中提取一些信息来描述该w e b 文档，为搜索引擎站点的数据库服务器追加和更新数据提供原始数据，这些数据包括h t 札、标题、长度、文件建立时间、超链接数目等。在自动加载方式下，它首先以一个或一组u r l 为搜索起点，对相应的w 唧文档进行访问。当文档被取走后，它所包含的信息将被搜索引擎用于建立文档索引，同时它所包含的超链按将被r o b o t 作为访问新文档的起点，如此循环反复，从而实现了对i n t e r n e t 上w w w 文档信息的收集。r o b o t 包含三个模块：文档访问代理模块、路径选择引擎模块、访问控制引擎模块0 2 “咖”，具体关系如图2 2 所示：图2 2r o b o t 系统结构圈 ( 1 ) 文档访问代理模块：它从访问控制引擎那里取得u r l ，通过h t t p 协议去访问相应的w w w 文挡。作为系统与外界交互的接口，在r o b o t 中起着重要的作用。 ( 2 ) 路径选择引擎模块：路径选择引擎主要负责提取w w w 文档内的超链接信息，以选择访问路径。它主要实现以下功能：一是排除掉那些在目标u r l 中的已被访问过的u r l ；二是避免搜索引擎搜得太深，从而出现回不到原处的情况发生，因此必须对搜索的深度进行限定；三是确定u r l 的访问顺序，否则将导致重复劳动，加重网络负担：四是图像、音频、视频等无法索引的文档作为超链接时，这些u r l 也要被剔除掉；五是将所取得的超链接信息内容通过访问控制引擎模块传给文档访问代理模块。 ( 3 ) 访问控制引擎模块：它的主要功能是控制文档访问代理对w w w 资源的访问，主要出于两个方面的考虑：一方面，启动多个文档访问代理并行运行能够加快系统采集信息的速度：另一个方面，启动太多的文挡访问代理，会加重服务器负担并容易引起网络堵塞，必须控制文挡访问代理对服务器的访问频率，这个频率由w e b 站点的处理能力和网络通信能力来确定。 2 4 采集程序专用协议很多情况下，w e b 服务器的管理员限制r o b o t 软件采集某些特定的内容。一方面，有些站点的内容上经常变化的，比如一些新闻网站，在很短的时间内这些页面就要更新，并且有些页面本身不是文本文件，所以不希望被r o b o t 软件所采集。另一个方面，很多采集程序由于设计的缺陷往往频繁地访问某个网站的w e b 服务器，加重了服务器的负载，从而影响了正常用户的访问。为了方便网站管理员的管理，制定了采集程序专用协议。当然这些协议还要依靠采集程序的合作，因为不是每个采集程序都遵守这些协议的，所以如果要进一步限制对内容的访问，就需要通过口令或限制访问的i p 地址等措施加以实现。 2 4 1r o b o te x c l u s i o n 标准网站管理员利用r o b o te x c l u s i o n 标准来管理网站的内容是否能被r o b o t 软件所遍历。采用的方法是在服务器上创建一个r o b o t s t x t 文件，并且应具有 h t t p ：s i t e n a m e r o b o t s t x t 的u r l ，其中s i t e n a m e 是网站的名字。这个文件分别存放对各个采集程序的访问控制指令，格式如下： u s e r a g e n t ： d i s a l l o w ：其中，u s e r a g e n t 是用来指定要限制的采集程序的名称，d i s a l l o w 指定被限制网站的某个部分的u r l 。如果一行的开始是# ，那么表示这一行是注释内容。当一个采集程序在访问这个网站时，首先要取得r o b o t s t x t 文件，然后按照里面的访问限制来进行相应的访问。采集程序在设计时都应考虑支持这个标准。 2 4 2r o b o tm e t a 标记除了网站管理员可以限制采集程序对网页的访问权限外，网站用户也可以限制采集程序对自己主页的访问权限。为了限制采集程序的访问权限，用户可以在自己的主页上加入一个m e t a 标记。r o b o tm e t a 标记允许一个页面的所有者可以在页面中指定是否允许采集程序来访问自己的页面，或者从本页面中提取链接。例如：上面的例子表明，任何采集程序都不能索引该页面，并且不能从中提取链接。但是目前还只有很少的采集程序支持这个规定。另外。网页制作者还可以在网页中加入d e s c r i p t i o nm e t a 和k e y w o r dm e t a 标记以描述该网页的内容和关键词，便于采集程序提取关键词。 2 5r o b o t 软件设计中的主要问题 r o b o t 软件在遍历w e b 的过程有以下几个主要问题：确定下载的页面。理论上，如果为r o b o t 建立一个适当的初始u r l 集合，由这个 u r l 集合出发，就可以遍历所有w e b 页面以完成对整个w e b 资源的采集。但实际中即使是最大的搜索引擎也不可能下载w e b 上的所有页面，并且w e b 空间上许多页面是动态的，它们是根据用户表单的输入而动态生成，r o b o t 即使可以找到这样的页面也无法确定它存放的信息，r o b o t 本身也不能访问采用c o o k i e 、j a v a s c r i p t 或j a v a 技术制作的网页内容。因此，r o b o t 软件必须应用合适的遍历算法对队列中的u r l 访问顺序加以选择。确定要更新的页面。r o b o t 在下载了一定数量的页面之后需要重新访问这些页面以检测页面是否发生变化。并下载已更新的页面。由于网页更新频率差别很大，所以 r o b o t 需要决定哪些网页需要重新访问，而哪些网页应该跳过，这样才能保证首先重新访问那些更新频率高的网页。使被访问的w e b 站点的负载最小。当r o b o t 从w e b 上搜索网页时需要消耗一定资源。从站点下载网页时需要站点从其文档系统中对网页进行检索，这必然消耗了服务器的资源，同时将网页通过网络从站点传回r o b o t 本地服务器，这也必然占用网络资源。因此，r o b o t 软件应该尽量使得这种消耗最少，否则可能导致w e b 管理员或其他网站拒绝r o b o t 软件的访问。 r o b o t 软件的并行访问。由于w e b 规模巨大，r o b o t 通常需要多个进程并行地从 w e b 上下载网页，这就需要很好地协调这种并行访问，避免不同r o b o t 重复访问同一个站点等情况的发生。 r o b o t 所实现的数据搜索功能是整个搜索引擎系统的数据来源。r o b o t 通常将w e b 作为一个有向图来处理，将每一个页面看作是图中的一个节点，将页面中的超链按看作图中的有向边。r o b o t 就是要完成对整个有向图的遍历。为保证搜索引擎内容的丰富和实时更新，必须研制高性能的r o b o t 。考虑到互联网网络传输的复杂性，r o b o t 本身的稳定性和健壮性必须得到加强。为了适应通用和专有搜索的需要，r o b o t 的激活时间、起始搜索地址、搜索方式和搜索深度，对有问题的主机或网页的处理方法都需要一定的灵活性和可配置性。为了保证r o b o t 的高速运行，除了必须有一个高速和可靠的网络环境以外，r o b o t 在设计上应该能充分利用网络的带宽。 11 第3 章采集策略的探讨与改进 3 1r o b o t 软件的基本采集策略 r o b o t 软件的采集策略是指当r o b o t 搜索到一个网页后，下一步应该转移到哪一个网页的方法问题。在遍历w e b 的过程中，r o b o t 通常将w e b 作为一个有向图来处理，将每一个页面看作是图中的一个节点，将页面中的超链接看作图中的有向边。因此，可以使用有向图的遍历算法来对w e b 进行遍历。具体而言，主要有以下几种采集策略，并各有优缺点。 1 ) i p 地址采集策略。3 儿踮：r o b o t 从一个给定的起始i p 地址开始，根据i p 地址递增的方式搜索本i p 地址段后的每一个w w w 地址中的网页，它完全不考虑各网页中指向其他w e b 站点的超链接地址。这种采集策略的优点是接索全面，能够发现没有被其他网页链接的新的信息源，但是效率较低，不适合大规模搜索。 2 ) 深度优先采集策略”m ”：从起始页面出发，沿着起始页面的某一个超链接一直搜索到某个不包含任何超链接的页面为止，这样形成一个完整的链。再返回起始页面继续选择其他链接进行相似的访问。访问结束的标志是不再有其他超链接可以搜索。这种策略的优点是在理论上能够遍历一个w e b 站点下所有深层嵌套的页面，但是如果w e b 结构相当深。应用这种采集策略，r o b o t 有陷入一个分支当中或者进入循环状态的危险，因而该策略不具备有完备性和最优性。 3 ) 广度优先采集策略。”啡

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）web信息获取技术的研究.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）web信息获取技术的研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档