已阅读5页,还剩52页未读, 继续免费阅读
(计算机应用技术专业论文)网络信息监控分析系统的研究与设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着w w w 技术的日益成熟和互联网应用的逐渐普及,互联网已经发展成为了 一个巨大的分布式信息空间。从w e b 中获取信息己成为个人获取知识的主要方法 和重要手段,也成为当前企业获取情报的重要途径。但是,面对浩如烟海的网络 信息,传统的人工搜集和处理等方法都已难以胜任。而且由于w e b 的组织格式主 要以h t m l 页面这种半结构化的形式为主,其本身具有无结构性、超链接的自由 无序、以及内容的海量性、多样性和动态变化等特点。采用普通的搜索引擎,在 某种程度上提高了检索的效率和速度,但针对特定领域信息的搜索,仍然存在着 有效性( 指如何滤除相关度较低的信息) 和命中率( 指如何降低漏掉的有用) 太 低的问题。 本文根据现今应用最广泛的h t m l 网页信息的特点,在对现有信息搜集、预 处理和自动分类等网络信息处理技术进行深入的分析与研究的基础上,针对目前 信息搜集技术的不足,设计开发了一个基于汽车信息领域的网络信息监控分析系 统,实现了通过互联网实时定向地自动捕捉多个门户网站以及专门网站关于汽车 领域的“有用”信息的功能。 本文重点研究了该系统中网络信息收集子系统、智能分析预归类子系统的设 计与实现,这两个子系统成功地实现了网络信息的采集、预处理和自动分类等功 能,是系统的核心部分。本文研究的重要创新点是在网络信息收集子系统的设计 中引入了多线程非递归方式、并行结构技术,有效地提高了系统的速度和效率; 在并行结构技术的实现中,应用了并行采集的交换模式,有效地解决了网页重抓、 漏抓的问题;并在网页采集过程中采用了u r l 过滤技术,在网页分类过程中利用 阀值方法过滤无用信息,较大地提高了信息的有效性。 此外,网络信息监控分析系统经过某汽车信息咨询有限公司的多次测试,验 证了其可行性和有效性,在实际应用中,该系统也取得了良好的效果,较好地满 足了客户的业务需求。 关键字:网络信息;监控;分析;网页采集;网页清洗;网页分类 a b s t r a c t a l o n gw i t hw w v vt e c h n o l o g y sg e t t i n gi n c r e a s i n g l ym a t u r e a n di n t e r n e t a p p l i c a t i o n sb e c o m i n gm o r ea n dm o r ep o p u l a r , i n t e m e th a sb e c o m eah u g e d i s t r i b u t e di n f o r m a t i o ns p a c e a c c e s s i n gt ow e bh a sb e c o m ea l li m p o r t a n tc h a n n e lt o g e ti n f o r m a t i o nf o re n t e r p r i s e sa sw e l la si n d i v i d u a l s h o w e v e r , i ti sd i f f i c u l tt oh a n d l e s u c hah u g ea m o u n to fi n f o r m a t i o nb yt h et r a d i t i o n a lm a n u a lc o l l e c t i o na n d p r o c e s s i n gm e t h o d s b e s i d e s ,w e bi sm a i n l yc o m p o s e do fh t m ls c r i p t s ,w h i c ha r e n o ts t r u c t u r a l ,a n dw e bi t s e l ff e a t u r e sd i s o r d e ro fh y p e r l i n k s ,m a s s e so fc o n t e n t s , d i v e r s i t ya n dd y n a m i c a u t o m a t e ds e a r c ht e c h n o l o g y , t h o u g hg r e a t l ye n h a n c e dt h e e f f i c i e n c ya n ds p e e do fs e a r c h i n g ,s t i l lh a st h ep r o b l e mo fb e i n gl a c ko fe f f i c i e n c y ( h o wt o f i l t e ri r r e l e v a n ti n f o r m a t i o n ) a n dal o wh i tr a t e ( h o wt or e d u c eu s e f u l i n f o r m a t i o nl o s t ) w h e nu s e di ns p e c i f i cf i e l d t h i sp a p e r , f o l l o w i n gt h ef e a t u r e so fm o s tw i d e l yu s e dh t m l p a g e sa tp r e s e n t , s t u d i e dt h e e x i s t i n gt e c h n o l o g i e s s u c ha sa u t o m a t i ci n f o r m a t i o n c o l l e c t i o n , p r e t r e a t m e n t ,a n da u t o m a t i cc l a s s i f i c a t i o no fn e t w o r ki n f o r m a t i o np r o c e s s i n g a s p e c i f i cn e t w o r ki n f o r m a t i o nm o n i t o r i n gs y s t e mf o ra u t o m o b i l ei n f o r m a t i o nf i e l di s d e s i g n e da n dd e v e l o p e d ,a i m i n gt oo v e r c o m et h o s ei n s u f f i c i e n to fp r e s e n ti n f o r m a t i o n s e a r c h i n gt e c h n o l o g i e s i tc a l la u t o m a t i c a l l ys e a r c ha n dc o l l e c tu s e f u li n f o r m a t i o n f r o ms e v e r a 1s p e c i f i ca u t o m o b i l er e l a t e dw e b s i t e t h es y s t e mi st e s t e da n du s e db ya n a u t o m o b i l ei n f o r m a t i o nc o n s u l t i n gc o m p a n y , f r o mw h i c hv e r yp o s i t i v ef e e d b a c kh a s b e e nr e c e i v e d t h i sp a p e rf o c u s e so nt h ed e s i g na n di m p l e m e n t a t i o no fn e t w o r ki n f o r m a t i o n c o l l e c t i o n s u b s y s t e ma n di n t e l l i g e n ta n a l y s i sp r e - c l a s s i f ys u b s y s t e m ,w h i c ha r e r e s p o n s i b l e f o rn e t w o r ki n f o r m a t i o n c o l l e c t i o n ,p r e p r o c e s s a n da u t o m a t i c c l a s s i f i c a t i o n ,a n da r et h ec o r ep a r t so ft h e s y s t e m s e v e r a lt e c h n o l o g i e s a r e i n t r o d u c e da n dh i g h l i g h t e d ,s u c ha sn o n - r e c u r s i v em e t h o dw i t hm u l t i t h r e a d i n g , p a r a l l e lt e c h n o l o g y , b yw h i c he f f i c i e n c ya n ds p e e di si m p r o v e de f f e c t i v e l y e x c h a n g e m o d ei np a r a l l e lc r a w l i n gi su s e di nt h ei m p l e m e n t a t i o no fp a r a l l e lt e c h n o l o g y ,w h i c h r e s o l v e dt h er e p e a t e dc r a w l i n ga n dm i s s e dc r a w l i n gp r o b l e m se f f e c t i v e l y u r lf i l t e r t e c h n o l o g yi si n t r o d u c e di nw e bp a g ec o l l e c t i o np r o c e s s ,a n dt h r e s h o l dm e t h o di su s e d i nw e bp a g ec l a s s i f i c a t i o np r o c e s s ,g r e a t l yi m p r o v e dt h ee f f e c t i v e n e s so fi n f o r m a t i o n t h et e s tg r o u po fa l la u t o m o b i l ec o n s u l t i n gc o m p a n yh a st e s t e dt h i sn e t w o r k i n f o r m a t i o nm o n i t o r i n gs y s t e m t h ea v a i l a b i l i t ya n de f f e c t i v e n e s sh a v eb e e nv e r if i e d i i g o o dr e s u l t sa r ea l s oa c h i e v e di np r a c t i c a lu s ea l o n gw i t hc u s t o m s s a t i s f a c t i o n k e yw o r d s :i n t e m e ti n f o r m a t i o n ;m o n i t o r i n g ;a n a l y z e ;w e b p a g ec o l l e c t i o n ; w e b p a g ec l e a n i n g ;w e b p a g ec l a s s i f i c a t i o n i i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得或其他教育机构的学位或证书而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表 示谢意。 学位论文作者签名:签字日期:年月 日 学位论文版权使用授权书 本学位论文作者完全了解江西师范大学研究生院有关保留、使用 学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印 件和磁盘,允许论文被查阅和借阅。本人授权江西师范大学研究生院 可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 签字日期:年月 日 导师签名: 签字日期:年 月 日 网络信息监控分析系统的研究与设计 第一章引言 1 1 研究背景 自互联网诞生以来,i n t e r n e t 已经发展成为拥有近亿用户和数亿页面的巨 大的全球化信息仓库,而且其信息容量仍在以指数形式飞速地增长。从互联网中 获取信息已成为个人获取知识的主要方法和重要手段,也成为当前企业获取情报 的重要途径,但是,面对浩如烟海的网络信息,传统的人工搜集和处理等方法都 已难以胜任。 为此,国内外在信息搜索领域做了大量研究,并开发了多种搜索引擎,如 b a i d u 、g o o g l e 、y a h o o 、l y c o s 等。从某种程度上这些搜索引擎提高了搜索的效 率和速度,但仍然存在着很大的局限性,最突出表现在以下几个方面:首先,由 于采用的是全文检索或关键词检索的方式,基于字面的检索机制造成实际检索结 果与用户需求之间的偏差,即检索返回“有用 信息太少,“垃圾 信息太多, 称之为r i c hd a t ap o o ri n f o r m a t i o n 的问题;其次,网络搜索引擎需面对广泛 的知识领域,而针对某一特殊领域因没有足够的背景知识,导致搜索到大量无关 的网页,具有较大相关性的网页却很少:最后,检索的速度和效率太低,并且不 能保证信息的时效性和权威性,以上这些的不足,是信息搜集的非常严重、甚至 是致命的弱点。 针对以上问题,各类基于特定领域的互联网信息搜集工具应运而生。基于特 定领域的高度目标化、专业化、针对性以及对对特定范围的网络信息的覆盖率高 等优点,有效地弥补了以往通用型搜索工具的缺点,因此专注于某个特殊领域的 信息的获取技术就犹如专业网站一样,愈加受到各界的重视,在整个信息搜索领 域所占的地位也越来越重要。 而随着汽车行业的飞速发展,无论是个人还是企业对汽车领域信息的需求越 来越多,越来越专业。首先,竞争情报系统与互联网的发展,已经使得互联网汽 车信息的搜集技术成为汽车行业竞争情报系统的一部分,公司企业迫切需要有一 个功能强大的网络信息搜索系统来完成互联网情报的搜集,以供企业专门情报分 析员利用收集回的信息,经分析、筛选、提炼后,为企业决策者提供全面、准确、 高质量的情报;其次,新起的网络公关、网络包装等行业越来越受到各商家的重 视,各大汽车厂商以及4 s 店希望能够定向对某些专门网站新闻与论坛进行实时 监控,及时地采取措施解决一匡要的问题,并为各大汽车品牌提供完善的网络公关、 硕士学位论文 网络包装等服务。传统的监控方法只能是一个人专门负责一个网站或论坛,虽然 能够解决实时监控网站的问题,但是,国内基于汽车领域的网站很多,这样则很 大程度上消耗了人力资源。所以迫切需要有一种技术,能够及时地从各个指定的 网站上搜集不断更新的内容,聚集在一起提供给监控人员快速地处理数个网站的 信息。 专注于汽车领域的信息获取技术吸引了研究者的关注。如何定向实时地监控 分析汽车网站信息,并快速地从网站中收集每天更新的汽车信息成为了本文研究 的主要目的,为此本文建立了一个网络信息监控分析系统。该系统是一个以信息 技术为手段、获取商业信息为目标的智能化w e b 信息搜集系统,并实时地将系统 中搜集到的信息进行自动分类,从而为汽车企业和汽车消费群体提供高质量的信 息资源和信息服务。 1 2 研究意义 随着信息商业化以及信息搜集技术的行业化的发展,专注于某个特定领域的 信息搜集技术愈加受到商家和信息技术人员的重视,在信息搜集领域所占的地位 也更为重要。目前各大专业网站、企业专门的信息收集系统在搜集、整理和利用 w e b 信息资源时,迫切需要有一种工具或技术来代替或辅助工作人员进行信息的 搜集、处理等繁琐的工作。 汽车行业的迅猛发展,网上汽车信息资源日益丰富,用户对“有用”信息资 源迫切需要,使得单用户或商家搜索信息的方式极为重要。而传统的人工搜索不 仅繁琐,且效率低,因而,智能化的网络信息搜集技术也因此越来越受到企业和 商家的重视。目前针对汽车领域的自动化、智能化的互联网信息搜集研究还停留 在初始阶段,因此,针对汽车领域网络信息设计一种自动搜集系统则显得尤为重 要。 本文设计的网络信息监控分析系统成功地将智能化网络信息搜集技术应用 于汽车领域,将工作人员从简单的人工收集的简单劳动中解脱出来,极大地提高 了网络信息搜集的速度、效率和质量;通过互联网定向自动搜集多个门户网站、 专门网站关于汽车领域方面的“有用 信息,利用中文分词、文本分类等技术, 自动将系统信息分类存储,并设计了系统内部检索和自动汇总功能,从而为各大 型汽车品牌企业提供优质的信息资源,并根据企业不同的应用需求,提供专业的 信息咨询、网络公关等服务。 2 网络信息监控分析系统的研究与设计 1 3 国内外现状 1 3 1 国外现状 国外进行基于特定领域的信息搜集的研究要比国内早一些,也开发出了一 些比较成熟的产品。1 9 9 4 年出现的f i s h 搜索系统( f i s hs e a r c hs y s t e m ) ,文 献口1 中1 9 9 8 年的s h a r ks e r a c h ,文献乜h 3 3 中主题爬行( f o c u s e dc r a w i n g ) ,印度 理工学院学者s c h a r k r a b a r t i h h 朝的一些相关研究与理论。随之,在计算机界掀 起了一场关于特定领域信息搜索的热潮。 美国国家科学数字图书馆( n a t i o n a ls c i e n c ed i g i t a ll i b r a r y ,n s d l ) 支 持下的c o l l e c t i o nb u i l d i n g 项目,简称c b p 一个子项目1 ,旨在为科学、技术、 工程和数学教育创建大规模的在线数字图书馆,研究专门领域资源自动建设的可 能性。 印度i i t 的学者s c h a k r a b a r t 在f o c u sp r o j e c t 项目提出一种新的w e b 资 源爬行系统,即主题爬行器( f o c u s e dc r a w l e r ,简称f o c ) 。它对主题的定义既 不采用关键词也不加权词矢量,而是一组具有相同主题的网页,是一整套关于特 定资源的自动建设方法,实现在w e b 上查找、获取、索引和维护与特定主题相关 的网页,以建设w e b 主题资源。 c o r a h 砌是美国卡内基木麦隆大学的a k m c c a l l u m 和k n i g a m 等人于1 9 9 9 年 针对计算机科学设计了一个主题型搜索引擎。它利用机器学习( m a c h i n e l e a r n i n g ) 技术,在w e b 上搜索与计算机科学相关的论文。 另外,还有n e c 公司为提高员工利用科学文献的效率而开发的c i t e s e e r & e b u s i s e a r c h 系统,1 9 9 4 年资源发现国际互联网研究任务组( i r t f r d ) 开发的 h a r v e s t 系统,1 9 9 9 年立项的开放结构信息搜索和传递服务器项目( o p e n a r c h i t e c t u r es e r v e rf o ri n f o r m a t i o ns e a r c ha n dd e l i v e r y ,o a s i s ) 等。这 些系统和项目在专门领域信息搜索方面都取得了一些成绩。 1 3 2 国内现状 国内在这方面的研究起步较晚,目前处于一个初步发展阶段,主要侧重于 整个系统功能的实现,在特定领域搜索上研究的层次还比较少。 中科院文献情报中心研究的i n t e r n e t 科技信息门户网站s t i p 田1 ( s c i e n c e a n dt e c h n o l o g yi n f o r m a t i o np o r t a l ) 中科院文献信息共享系统,旨在开发和 利用i n t e r n e t 上的科技信息资源,通过搜索、发现、组织、加工整理i n t e r n e t 上的科技信息资源并借助i n t e r n e t 网络向用户提供网络资源导航、检索等信息 服务。 网络智能知识服务系统i k n o w n 们是一个完整的网络智能知识服务系统、资 3 硕十学位论文 源管理子系统、用户服务子系统以及信息处理独立模块。随后在i k n o w 的基础 上,进一步发展为万方数据竞争情报计算机系统( w f i s ) ,该系统旨在综合采集 各种可以获取( 网络资源、电子文档、印本文档等) 的信息资源并进行统一的组 织、整理加工,最终服务用户。该系统服务于专业人员的情报加工工作,可以为 最终用户提供情报相关产品。 南京大学软件新技术国家重点实验室张福炎、潘金贵教授等一直从事 i n t e r n e t 上的信息挖掘技术研究“1 2 儿”1 ,设计了一个互联网数据采集系统 ( i n t e r n e td a t ag a t h e rs y s t e m ,i d g s ) 。该系统旨在对w e b 上中英文技术资料 进行自动搜集。i d g s 根据用户提交的挖掘目标样本,在w e b 上自动查找用户所 需的信息,它采用向量空间模型和基于词频统计的权重评价技术,由特征提取、 源站点查询、文档采集、模式匹配等4 个部分组成。该系统的关键技术在于它的 一个模型匹配模块,其实搜索的深度很有限,更多地强调准确度,在一定程序上 忽视了覆盖度等问题。 北京大学计算机科学技术系统计算机网络与分布系统实验室一直在从事搜 索引擎研究,他们研制开发的“天网 中英文搜索引擎系统是国家“九五 重点 科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,它是继“天网 目录”服务推出之后才推出了“天网主题”服务,他们解决的关键技术是网页分 类技术1 。 综上所述,w e b 信息收集处理技术成为了国内外研究的一个热点,但是目前 国内对w e b 信息收集与处理的研究还处于较初级阶段,仍然有许多方面需要进一 步研究和探索。需要国内研究人员在信息收集、处理的各个领域不断深入研究, 不断寻找各种行之有效的方法,以期更完善地实现系统的“智能化”,在信息抓 全率与准确率上更加有效地满足用户的需求。 1 4 本文主要工作及创新点 本文针对现今网络信息资源和应用最广的h t m l 网页信息的特点,以及现有 网页信息自动搜集、预处理和自动分类等网络信息处理技术进行了深入的学习和 研究,设计并实现了一个网络信息监控分析系统。本文主要工作及创新点有: 1 研究分析了w e b 信息搜集的系统需求,提出了智能化自动信息搜集的设 计方案,成功地设计了一个实际、可靠的网络监控分析系统,作为本文具体实现 的研究实例。 2 研究分析了系统的设计与实现,开发了网络信息收集子系统、智能分析 预归类子系统、自动汇总检索子系统,实现了网页采集、清洗、分类等功能。 3 研究分析了网络信息收集子系统,提出了并行结构新概念,并在并行结 构的基础上建立了交换模式,有效地提高了信息采集速度,减缓了网站服务器的 4 网络信息监控分析系统的研究与设计 压力,同时有效地解决了并行采集结构中跨区链接导致的重复采集或不采集造成 的信息遗漏等问题。 4 深入地研究了网页采集技术,在抓取算法实现中采用了非递归多线程方 式的抓取算法,较大地提高了抓取的效率,改进了网页收集子系统性能;并在此 基础上增加了利用锚文本等方法过滤u r l ,有效地提高了网页采集的准确率和 信息的有效性。 5 深入研究了网页清洗技术,探讨了网页清洗存在的问题,提出了基于 d o m 树的网页清洗算法,在系统实践过程中取得了满意的效果。 6 研究了文本分类技术,在提取文本特征项时,增加提取了相应网页的锚 文本,实现了网页分类技术的改进。 1 5 本文结构 本文由五章组成,各章主要内容如下: 第一章为引言。主要阐述了课题的研究背景;提出了课题研究的目的和意义; 简单介绍了本文的主要工作内容和结构。 第二章为系统基本原理。简单介绍了网络信息监控分析系统的一些基本概念 原理。 第三章为系统的设计与实现。分析了网络信息监控分析功能、性能、数据库 等需求,详细介绍了本文网络信息监控分析系统的设计与实现。 第四章为网络信息收集子系统设计与实现。简单介绍了该子系统的工作流 程,主要研究了该子系统实现的主要算法,并提出了几点改进。 第五章为智能分析预归类子系统设计与实现。简单介绍了该子系统设计的功 能模块和工作流程,主要研究了该子系统实现的主要算法及其改进。 第六章为总结。总结了论文的全部工作,并对未来工作进行了展望。 5 硕十学位论文 第二章网络信息监控分析系统基本原理 网络信息监控分析系统是一个智能化信息搜集系统,该系统的实现涉及到比 较多的技术,其中较重要的概念和技术有:监控分析、网页采集、网页清洗、网 页分类,在本章将做详细介绍。 2 1 相关概念介绍 2 1 1 监控分析 1 监控分析的定义 监控即对某些网站信息内容进行实时监控,及时跟踪收集本行业最新的重 要信息。分析即对收集回的元数据加工、处理,获取有价值的信息。 2 监控分析的对象 监控的对象为专门人员搜集返回的较大型汽车领域的专门网站和企业门户 网站,如新浪的汽车频道、太平洋汽车网等。分析的对象为系统中收集的信息。 其中包括汽车降价信息、性能比较、安全系数等。 3 监控分析的目标 监控的基本目标是监控各大专门网站、企业门户网站中汽车各类信息的最 新动态;分析的目标是对系统收集回的信息,加工、处理,并提炼出有价值的信 息。 4 监控分析的意义 监控的实质意义是通过实时跟踪采集互联网上的最新汽车信息,实时掌握竞 争对手的最新情报,为企业竞争情报系统提供互联网公开情报收集的功能;通过 对本企业各类信息的实时监控,为企业提供网络公关服务,维护本企业在互联网 中的形象,以及提供一个完善的产品网络市场推广平台。 分析的实质意义是对收集回的实时信息加工提炼,挖掘出有用的信息,提供 给决策层利用,以及定制为个人提供专业的汽车信息咨询服务。 2 1 2 网络信息监控分析系统 1 网络信息监控分析系统的定义 网络信息监控分析系统是由人和计算机等组成的,能进行实时定向地监控 网站信息,并快速不断地收集、预处理、分类和使用网站汽车信息的系统。从管 理学来说,这是一个信息管理、竞争情报收集系统;从信息技术的角度来说,这 6 网络信息监控分析系统的研究与设计 实质上是一个智能化的信息搜索系统。 2 网络信息监控分析系统的服务对象 网络信息监控分析系统在汽车行业目前是较为新兴的产品。其服务对象主要 有两个方面: ( 1 ) 从b t b ( b u s i n e s st ob u s i n e s s ) 的角度来考虑,可以为各大汽车品牌产商、 汽车4 s 店服务。其主要业务有通过网络信息监控分析系统的实时信息收集、预 处理、分类等功能,为各大汽车品牌产商、汽车4 s 店的互联网公开情报的收集、 品牌网络公关、以及企业形象维护等服务等。 ( 2 ) 从b t c ( b u s i n e s st oc l i e n t ) 的角度来考虑,可以利用网络信息监控分析 系统通过对汽车信息元数据的筛选提炼,为个人定制提供高质量的汽车信息。 2 2 网页采集技术介绍 网页采集是系统的入口。主要功能是通过w e b 页面之间的链接关系,从w e b 上自动地获取页面信息,并且随着链接不断向所需要的w e b 页面扩展的过程。 网页采集它主要是指这样一个程序,从一个初始的u r l 或者u r l 集出发,将这 些u r l 全部放入到一个有序的待采集队列里,而采集器从这个队列里按顺序取 出u r l ,通过w e b 上的协议,获取u r l 所指向的页面,然后从这些已获取的页 中提取新的u r l ,并将它们继续加入到待采集队列里,然后重复上面的过程, 直到采集器根据自己的策略停止采集,算法流程如图2 1 所示。 采集程序从一个网页或多个网页出发,逐步遍历网上的文档。设计这种程序 的主要目的是自动浏览网页并将符合要求的网页采集下来,存储到本地的数据库 中。采集程序首先要做的是解析网页的h t m l 代码,查找该页面内的超连接, 然后通过递归和非递归两种方面来实现采集程序: 1 递归方式,是在一个方法中调用自己本身的程序方式。这种方式在遍历的 过程中,在没有处理完一个网页对应的u r l 情况下处理该网页中某个u r l 。这种程 序虽然简单,但是当一个u r l 本身的链接较多时,递归每次要将本次未完成的代 码压进程序代码栈,这样程序在执行时要耗费大量计算机资源。另外这种程序不 能使用多线程技术。因此在高效的采集程序中不采用此方式。 2 非递归方式,这种方法使用队列的数据结构,当采集程序发现超链接后 并不调用自己本身,而是把超链接加入到等待队列中当采集程序扫描完当前页 面后,会根据制定的策略访问队列中的下一个超链接地址。 7 硕十学位论文 图2 1 网页采集算法流程图 2 2 1 主要问题 从工作角度上来说,主要存在的问题是: 1 网站的内容更新频繁,获取的信息有时效性要求。 2 w e b 的动态性,每天w e b 中的内容和w e b 的结构都在变化着。 3 w e b 的异构性,w e b 中包含的文件类型各式各样,包括图像、图片、声 音、文本以及s c r i p t 等。 4 w e b 页面的重复性,最近的研究表明,将近3 0 的页面是转载重复的。 5 目前网站的网页源代码的代码量都十分庞大,直接下载后,有效信息只 占很少一部分,整个网页下载,增加了存储空间和后续处理量。 从技术角度看,网页采集面临的主要困难有: 1 如何高效稳定地以较小的代价获取网络信息,提高信息采集的速度与效 率。网页采集是系统的核心部分,网页采集速度也一直是影响系统性能的重要原 因。如何在单位时间内采集到尽可能多的高质量网页,是网页采集技术的一个重 要研究。 2 如何解决链接信息的相关性与准确性问题。由于现在网站的商业性,链 接到的地址都是由商家自由定义的,因此会出现许多泛滥的链接信息,导致搜集 到的信息不相关或不准确。如何解决链接信息的准确性与相关性问题也是网页采 集的一个重大挑战。 2 2 2 网页采集方法 目前信息技术在网页采集方面有了较大的进步。网页采集方法也较多。 网页采集【1 5 】【1 6 】【1 7 】【1 跚主要分为主动采集和被动采集,被动获取通常是将设备 介入到网络的特定部位进行采集的,主动采集主要是基于w e b 的信息采集( w e b 8 网络信息监控分析系统的研究与设计 c r a w l i n g ,简称w c ) 。主动采集的w e b 信息采集技术可以分成:基于整个w e b 的 信息采集( s c a l a b l ew c ) 、增量式w e b 信息采集( i n c r e m e n t a lw c ) 、基于主题 的w e b 信息采集( f o c u s e dw c ) 、基于用户个性化的w e b 信息采集( c u s t o m i z e d w c ) 、基于a g e n t 的信息采集( a g e n t b a s e dw c ) 、迁移的信息采集( r e l o c a t a b l e w c ) 等等。在这,简单介绍一个基于整个w e b 的信息采集和基于主题的w e b 信息采集两种。 根据网页采集的不同应用,采集程序主要有面向整个w e b 的网页采集、面向 主题的网页采集。 1 面向整个w e b 网页采集 面向整个w e b 的网页采集程序是从一个或多个u r l 开始,然后遍历整个 w e b 。这种网页采集主要是作为门户搜索引擎和大型的w e b 服务提供商的数据收 集部分。对于这类网页采集来说,存在以下几个特点j ( 1 ) 采集的范围和数量非常巨大,对采集速度和存储空间要求很高; ( 2 ) 由于目标是采集整个w e b ,所以对采集页的顺序要求相对较低; ( 3 ) 当页面需要更新时,尽量多个采集程序并行处理,仍需要数周甚至数月 的时间才能更新一次。 2 面向主题的网页采集 面向主题的网页采集程序是指有选择性的搜寻那些与预先定义好的主题相 关的信息。和面向整个w e b 的网页采集相比,面向主题的网页采集是近几年来 比较热门的研究领域,目前流行的信息图书馆、专业网站中都有较深的研究,甚 至不少企业自建的企业情报收集系统中也必需应用到。面向主题的网页采集主要 存在以下几个特点: ( 1 ) 信息更新较快。面向整个w e b 的网页采集的实时性使得数据在采集到的 同时就面临着过时的危险。面面向主题的网页采集,采集的数据只是某个方面的, 相对来说,数据量少得多,因此信息的更新周期大大变短; ( 2 ) 极大的节省了硬件资源,提高了网络资源的利用率; ( 3 ) 有利于为用户服务。采集的目的是为了服务于用户,对于每个用户来说, 他们并不关心整个w e b 上的数据,而只是其中的一小部分。面向主题的网页采 集恰恰可以满足这些用户的需求。 2 3 网页清洗技术介绍 浏览w e b 上的网页,会发现并不是所有的内容都是我们所需要的。网页信息 通常包含两方面的内容,一部分体现的足网页的主题信息,比如一篇新闻网页中 的新闻部分,这部分称为“主题”内容,通常也是网页的核心内容,也是用户最 9 硕十学位论文 感兴趣的内容;另一部分则是一些与丰题内容无关的导航信息、广告信息、版权 信息以及调查问卷等内容,我们常称之为“噪音”,如图22 所示网贝( 截图) 这些噪音信息往往以链接文字的形式出现,并且和主题没有相关性。这些网 页中的噪音不是用户所需的信息,同样对于确定网页的类别属性并没有任何贡 献,这些噪音内容不仅给w e b 上基于网页内容的应用系统带来困难,如网页分类 系统、聚类系统、网页信息抽取系统;也给基于网页超链指向的应用系统带来困 难如网负评级系统。因此,如何快速准确地识别并清除网页内的噪音是提高 w e b 应用程序处理结果准确性的一项关键技术,我们将眩项技术称之为网页清洗。 p 题 h i 十r * t t m h - ,- 一e ,hh * , m b 慨z 一 一”“目n 自“* t 十q ,t a ,l 一h t 一i d一“e o o 鲤昔产 盛麓如 噪自 图22 网页中的土题信息与噪音 m 贝清洗”,首先,。u 以剔除掉m 页叶1 噪音内容的干扰,叫贞分类系统只把 网负的主题内容作为处理对象,提高了处理结粜的准确性:其次,网页清洗可以 显著简化州负内标签结构的复杂性并减少刚页的大小,从m 竹省后续处理过程的 时间和空f i j 丌销。冈此,网页清洗己成为w e b 信息预处理环节中一个必不可少的 工作。 在网页清洗巾为了区州一个网页巾的信息是噪爵还足主题内容,占要的工作 足将整个网页划分成多个不同的块,当前存在多种网页分块力法,比较流行的有 基于i ) o k l 的划分方法”1 ,基于位置的划分方法,还有基j u j 视化的划分方法 ”“。其中应用的最多的足基于d o , i 的划分方法,本文也是采用了基于d o m 的分 块方法。 网络信息监控分析系统的研究与设计 2 3 1 基于d o m 的分块方法 网页中包含了大量的h t m l 标签,h t m l 是一种表示语言,其中定义了一套标 签来刻画网页显示时的页面布局。对于h t m l 网页而言,最常用的结果表示方法 是构造网页的标签树。d o m 树就是一个常用的标签树构造工具,它可以将网页中 的标签按照嵌套关系整理成一颗树状结构,这样就可以根据标签结果将网页内容 分块。d o m 树结构是研究网页布局结构的主要依据,把半结构化的h t m l 页面转 化为结构化的d o m 树结构,可以更好地对网页进行分析研究,且易于理解,容易 实现,所以应用于许多网页处理系统中,如网页清洗、网页信息抽取等。本文在 研究w e b 页面的相关技术的基础上,研究了基于d o m 树的网页清洗方法,通过把 半结构化的h t m l 页面解析成一个结构化的d o m 树结构,从而在清洗页面内容的 时候,可以很好地进行控制,并且对绝大多数页面都产生了很好的清洗效果。 1 d o m d o m 全称是d o c u m e n to b j e c tm o d e l 。w 3 c ( 万维网联盟) 开发了一级独立于 语言和平台的接口,叫做文档对象模型( d o m ) 口。按照w 3 c 的定义,d o m 是一 个允许程序或者脚本动态地存取和更新h t m l ) ( m l 文件内容、结构以及风格的接 口和平台。d o m 可以将h t m l ) ( m l 文本转换成树状的树状数据结构,而不是一串 带标记的h t m l ) 【m l 文本,进行访问和操作。文档中的所有内容,包括字、段落 和标题都可以作为树节点来描述和访问。显然,结构化的w e b 页面d o m 树比流式 的w e b 页面数据更易于访问和操作。 d o m 目前主要由两部分组成:d o m 核和d o m 扩展。d o m 核主要定义了处理x m l 文件所需的功能;d o m 扩展定义了处理h t m l 文件所需的功能。d o m 的核心是将面 向对象的概念引入到h t m l ) 【m l 文件的处理中,在d o m 以前,无论是h t m l 还是 x m l ,均被看作是包含各种组件的数据集合,以面向数据的方式管理文件。引入 对象后,在d o m 看来,h t m l x m l 的组件不仅仅包含数据本身,每一个h t m l ) 【m l 中的组件( e l e m e n t ) 还包含有方法( m e t h o d ) 和属性( a t t r i b u t e ) 。d o m 定义 了使用这些方法和属性的a p i ,通过方法和属性来存取和管理组件。 2 d o m 树型结构设计 一般来说,h t m l 文件由标题( t i t l e ) 、头( h e a d ) 、段落( p a r a g r a p h ) 、超 链( h y p e r l i n k ) 以及其它各种组件组成,并且组件在文件中的顺序与显示顺序相 同。d o m 通过对h t m l 文件的再解释,生成一个文件的树型内部结构,称为文件的 树型逻辑结构或逻辑结构。 d o m 在进行了文件解释时,将h t m l 文件看成一棵树, 作为树的根而h t m l 文件的其它组件被看作树中的结点( n o d e ) ;结点可以作为父结点包含结点,也可 以作为其它结点的子结点。同一层的结点成为兄弟结点。 利用d o m ,程序员可以建立文档,遍历文档的结构,增加、删除以及修改文 硕士学位论文 档的元素和内容。从d o m 的观点来看,文档的逻辑结构通常是树状,它通过读一 个h t m l 或x m l 文档,并根据文档内容创建一个节点的逻辑结构,即根据文档生成 一棵d o m 树,文档中的元素便转化为d o m 文档中的节点对象。h t m l 文档中的标签转 化为d o m 树中的内部节点,文档中的文本、图像、超链接转化为d o m 树中的叶节点。 如图2 3 所示,是一个下列简单h t m l 文档及其对应的d o m 树结构: s h a d yg r o v e a e olia n o v e rt h er iv e r ,c h a r lie d o ria n 图2 - 3d o m 树型逻辑结构 这个h t m l 代码片断有一个 标记,其中它包含了 标记、 标记。而 标记又包含了 标记, 中又有 标记, 贝j j 包含了 文本。在d o m 树中可以看出,原来的h t m l 文档被转化为了一个树型结构。其中 是转化成的d o m 树的根结点; , 都是 的子节点,同时也 互为兄弟节点。 3 s t 树 虽然d o m 树对于描述单个网页的布局或表达风格很有效,但很难用来研究同 1 2 网络信息监控分析系统的研究与设计 一个网站中一组网页的表达风格和内容。为了更好的进行网页清洗工作,需要有 一种更好的方法来研究同一个网站中所有网页的共同风格。因此,一些学者提出 的s t ( s t y l et r e e ) 应运而生了,它可以用来描述一组相关网页的共同表达风格。 其实,它就是将多个网页的d o m 树合并成为一棵s t 树,在清洗过种这些网页属于 同一个网站,因此s t 树又称之为s s t ( s i t es t y l et r e e ) 。 例如,如下图所示,假如这是同一网站中两个网页转化而成的d o m 树1 ( 图2 4 ) 和d o m 树2 ( 图2 - 5 ) 。而s t 树就是要将d o m 树l 和d o m 树2 合并起来,如图2 6 。 图2 4d o m 树l图2 5d o m 树2 图2 - 6s t 树 从这个例子中我们可以看至u d o m l 和d o m 2 除了阴影节点的子节点不同外,其实 它节点一样,这样d o m l 和d o m 2 便能够合并
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 未来五年人造奶油(人造黄油)企业数字化转型与智慧升级战略分析研究报告
- 未来五年锦鲤鱼企业县域市场拓展与下沉战略分析研究报告
- 未来五年用品产品销售企业数字化转型与智慧升级战略分析研究报告
- 2026广东省惠州市龙门县教育局赴高校招聘急需紧缺学科教师招聘60人备考题库(江西师范大学场)完整参考答案详解
- 2026年班玛县面向社会公开招聘临聘教师备考题库参考答案详解
- 2026中国人民人寿保险股份有限公司霍城县支公司招聘7人备考题库及答案详解(夺冠系列)
- 2026年武汉市光谷第二小学校聘教师招聘备考题库及答案详解(新)
- 2025河北唐山市滦州市公立二级医院自主招聘卫生专业技术人员30人备考题库(含答案详解)
- 2025年甘肃省平凉市崇信县专职社区工作者拟补录人员备考题库及答案详解1套
- 聊城培文五年级科学期末测试及答案
- 《人间充质基质细胞来源细胞外囊泡冻干粉质量要求》(征求意见稿)
- 中润盛和(孝义)新能源科技 孝义市杜村乡分散式微风发电项目可行性研究报告
- 入团申请书教学课件
- 2026年中国农业银行秋季校园招聘即将开始考试笔试试题(含答案)
- 2025年江苏省招聘警务辅助人员考试真题及答案
- 山东济南2019-2024年中考满分作文87篇
- (2025年标准)sm调教协议书
- 医院急救应急体系构建与实施
- TCES 109-2022 舌诊仪 第一部分:一般要求
- (2025标准)厂房托管协议书
- 玉门集装箱储能装备制造基地项目环境影响报告书
评论
0/150
提交评论