网络舆情采集系统的设计.doc_第1页
网络舆情采集系统的设计.doc_第2页
网络舆情采集系统的设计.doc_第3页
网络舆情采集系统的设计.doc_第4页
网络舆情采集系统的设计.doc_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络舆情采集系统的设计D e s ig n o f N e tw o rk Pu b lie O Pin io n A e q u is itio n S ys te m Yo n g LIA N G , W e n Z H A N G A e ad e my o f E q u iPm e n t Co m m an d & T e eh n o lo gy A b stra c t : Ae e o rd in g to the lo w e fi e ie n e y a n d lo w stru e tu r e d e o n te n t o f 罗n e ra l n e tw o r k p ub lie info rm a tio n e o lle e tio n sys - te m , this p 叩e r p u ts fo rw ard n e tw o rk p u b lie in fo rm a tio n a e q u isitio n se he m e b a se d o n the d ire e tio n al s e a rc h o f m 己ti - pro e e s s . Im p ro v e s the D O M 一b a se d w e b info rm a tio n e x tr a e tio n thro u gh e o m b in e d D OM 一b as e d wi th R e 邵lar e x pr e s sio n s b a s e d m e th o d . T hro u g h te s tin g , this syste m e a n e fe e riv e ly e x tr a e t stru e tu re d n e tw o rk info rm at io n . Th e mu lti 一Pro e e ss 15 m o r e e fi e ie n e y. K eyw o r d s : Ne tw o r k p ub lie in fo rm a tio n ; In fo rm at io n ex rrac tio n ; Par a le l e ra w le r : T e x t e x tra e tio n : D O M tr e e 网络舆情采集系统的设计梁勇, 张文装备指挥技术学院, 北京10 1 4 1 6 【摘要 针对通用网络典情采集系统的效率低、内容结构化程度不够等不足, 设计了基于定向搜索的多进程网络典情采集系统, 采用构建D OM 树与正则表达式结合的方式, 改善了基于D OM 的网页内容提取。通过测试, 系统可以有效的提取结构化网络信息, 多进程并发采集的效率有较大提高。【关键词】网络典情; 信息采集; 并行爬虫; 正文抽取;D OM 树的关键。1 引言随着信息技术的迅速发展, 网络成为人们获取信息的重要途径和当今社会重要的舆情载体。网络资源的迅速膨胀对社会的影响巨大, 不论是国内外重大事件还是社会生活中的敏感话题, 都能迅速的形成网络舆论, 在社会中产生强大的影响力。因此, 网络舆情越来越受到政府、军队和企事业单位等机构的密切关注。由于网络开放性和虚拟性, 网络舆情具有自由性、突发性等特点l , 对网络舆情的监控显得十分重要。网络舆情采集主要基于网络爬虫实现, 如全文的网络爬虫 , 主题网络爬虫a 等。文章4 提出网络信息采集系统, 文章L 一J提出了对网页正文信息的提取方法。然而, 在海量的网络信息中, 存在着大量用户不关心的信息, 用户关注的舆情信息只占整个互联网中很小的一部分。如何高效、准确的采集用户关心的信息成为网络舆情采集系统设计通用的网络信息采集存在一定的局限性, 如采集的信息非结构化、采集目标局限性强、采集效率不高等。针对以上问题, 本文研究r 定向的网络舆情采集系统, 采用多进程并发采集的方式对目标网站进行信息采集, 较大的提高了采集效率。在内容抽取上改进了基于D OM 的网页信息抽取, 提高了网络信息抽取的结构化程度。2 系统概述2 . 1 采集内容的选取面对数量巨大、形式多样的网络资源, 并非所有信息都有采集价镇。对于采集内容的选择主要有两个方面: 一是选择范围, 二是采集频率。网络舆情采集范围的确定主要包括全面采集、选择采集和混合方式三种L吕。全面采集的模式对系统资源的消耗比较大, 所以网络对网络舆情的采集通常采用选择采集的模式。选择采集要求用户首先遴选出某行业重点关注第四篇通信理论与技术1 20 1的一些网站作为信息源, 以信息源网站为人口点进行信息采集。页。为完成实时对特定目标的信息搜集与更新, 必须使用并行爬虫系统。 。2 . 2 网络爬虫原理2 . 3 网页正文抽取w eb 爬虫是可以自动收集网页的程序, 是搜索引擎的重要组成部分。利用网络爬虫可以方便的在互联网中收集信息, 从而进行进一步的处理。从结构上看互联网是一个网状的信息空间, 可以用一个有向图来表示, 将网页中看作节点, 网页中的链接看作有向边, 如图1 所示。网络爬虫就是按照有向图遍历的算法(深度优先和广度优先) , 从人口网页开始对整个网络进行遍历, 直到满足一定的条件而停止。互联网是一个巨大的、分布广泛的、半结构化的信息资源, 网页上的信息经常包含大量的噪声, 如广告链接、导航条、版权信息等非网页主题信息的内容, 页面所要表达的主要信息经常被隐藏在无关的内容和结构中, 限制了w eb 信息的可利用性 川。所以, 对网页上的这些噪声进行滤除并进行信息抽取是进一步对网页进行的分析的必要前提。W eb 信息抽取就是从无结构或半结构化的HT ML 网页中提取出用户关注的, 结构化的信息。文献中提出了一些智能正文提取的方法, 如基于内容相似度川, 基于网页分块l” , 基于n o M 仁” ! 等。但是对于实时性与稳定性要求较高的系统而言, 这些方法或是开销太大, 或是无法提取出完整的结构化信息。3 系统设计FigU re 1 V e e to r d i塔am ()fW e b 图1 Web 有向图一个完整的网络爬虫包括下载模块、链接分析、网页解析、任务调度等部分, 另外还需要具有动态可配置的功能, 如人口地址、爬取范围、爬取深度、更新策略、进程数量等, 以便适用于不同的需求。基本的爬虫模型如图2 所示。3 . 1 系统总体结构Fi即re 2 Bas ie eraw le r m o d e l 图2 基本爬虫模型网络爬虫在抓取网页的时有宽度优先和广度优先两种搜索策略。由于深度优先是一个递归的过程, 爬虫在执行的时候就要大量消耗计算机内在资源, 很多情况下会导致爬虫的陷人(tra p ped ) 问题, 甚至死机Lg l 。而宽度优先策略实现相对简单被大多数网络爬虫采用。如今网络规模不断增大, 网页数量呈爆炸式增长, 而与此形成鲜明对比的是网页的寿命非常的短暂, 单个爬虫已难以及时抓取互联网中数以亿记的网面对海量的网络信息, 通用搜索引擎可以提供很高的查全率, 但难以准确提供用户真正需求的信息, 并且通用搜索引擎的数据更新十分漫长, 难以满足实时性的要求。传统的智能主题网络爬虫可以针对某一主题只采集与主题相关的信息, 但是并不能有效的抽取结构化网页信息。本文设计了一种基于站点的定向采集方案, 系统结构如图3 所示, 分为五个模块: 任务定制、任务调度、网页抓取与维护、网页内容抽取与存储管理。任务定制需要使用人员筛选出行业中权威网站作为采集目标, 然后对目标网站进行分析, 确定采集内容, 设置采集规则并存人数据库。任务调度从数据库中提取采集任务进行分配调度。网页抓取与维护和内容抽取模块是整个系统的核心, 通过多进程并发执行的网络爬虫抓取需要的网页并对网页进行结构化内容抽取。存储管理模块以结构化的方式把采集到的网络信息存人数据库, 这些结构化网页信息可以应用到垂直搜索、网络内容监管、网络舆情分析及竞争情报分析等方面。3 . 2 页面抓取与维护页面抓取基于网络爬虫, 采用广度优先的搜索策2 02 1 20 n 通信安全学术会议论文集应决垂舆用策直情层支搜监持索控结构化网贞信息圆圈 . 弓万. 任务调度固固囚u ri 列表设定采集规则1ll te m e t Fi邵re 3 A e q u is itio n syste m m o d e l 图3 采集系统模型略, 以站点为单位以实现定向采集。由于最新的网页和重要程度高的网页往往会在站点的首页或较浅的层数, 所以合理的选择采集深度可以实现对重要程度高的网页优先采集, 本系统设置最大采集层数不超过三层。采集时首先设定初始站点为第0 层, 从初始站点出发, 通过H TT P 协议下载页面进行解析, 将页面中的链接存人U R L 队列中, 将抽取到的结构化网页信息存入内容数据库中。然后依次采集下一层网页, 直到满足结束条件或所设层数全部采集完毕而结束。采集流程如图4 所示。系统运行时采用多个采集进程并行工作的模式, 每一个采集进程负责一个具体的任务, 这样可以有效的提高效率, 并发的进程数量可以根据具体的硬件条件进行配置。由于CPU 、内存和网络带宽等因素的影响, 服务器的并发进程数并不是越多越好, 所以应该在采集速度与服务器配置之间寻求最佳平衡点。3 . 2 . 1 链接过滤一个完整的U R L 由以下几部分组成的: Sch e m e (通信协议) 、ho st (域名) 、po rt (端口号) 、p a th (路径) 、qu e ry (查询) 、fr ag m en t( 信息片断, 也称为锚点. ) 等部分组成。如u il : http : / / n e w s . s in a . C o m . 。记以20 1 1 一0 3 一0 3 /0 54 5 2 2 0 4 33 2 1 . s htlnl 中, s e he m e 为: http ho s t 为: n e w s . s in a . e o m . e n p a th 为: / e/ 2 0 1 1 一0 3 一0 3/ 取出任务站点: slt e _ ld 插入ur l 队列re m p 表: (tir 1 . 第0 层, $ slt e _ , d ) 取站点r l触t . tx t 规则$ le ve l = O $ Ie ve l+ l 取规则提取页面内容与链接删除re m P表中sit处id = $s it叼d 的项结束Figu r e 4 图4 We b a e q u isitio n Pr o e e ss 网页采集流程05 4 5 2 20 4 3 3 2 1. s htlnl 。为了实现有选择的采集网页, 做到垂直采集, 必须对得到的U R L 进行筛选。由于在同一域名下的网页基本会有相同的网页风格与布局, 并且它们属于同一个网站或一个网站的同一个栏目, 所以本系统设定每一个爬虫只采集同一域名下的网页, 这样有两个好处: 系统从以下三方面进行链接过滤: (l) 过滤掉不采集的链接类型, 如图像、视频、音频等。这些URL 通常包括jp g 、g if、*ar 、a v i 等后缀。(2) 手工设置U R L 中必须包含或不包含的字符串。(3) 设置只允许采集本域名下的网页。3 . 2 . 2 网页维护和更新要实现网络采集的实时性, 必须定期对采集下的第四篇通信理论与技术, 2 0 3内容进行更新。对于采集内容的更新有两种基本的方法: 一种是定期更新, 另一种是增量更新。本文结合系统需求采用增量更新的方法, 从以下二方面判断网页是否需要更新: (l) 建立表存放已采集过的URL 和其页面m d s 码。(2 ) 对于采集过的UR L 比较其采集时间与其HT ML 头文件中的最近更新时间, 如果其最近更新时间晚于采集时间, 则更新此页面, 否则不必下载和更新此页面。(3 ) 一些页面的头文件中并没有最近更新时间, 这时候下载此页面, 然后计算出m ds 码, 如果m ds 码没有变化说明页面没有更新, 不用对此页面进行采集和更新, 否则需要更新页面。3 . 2 . 3 多进程并发工作通常清况下In te m e t 的延迟在l0() m s 一so o m s , 带宽为0 . ol 0 Mb /s 一Z Mb/ s , 所以利用多进程并发的抓取网页可以降低In te m et 高延迟的副作用, 提高下载速度。多进程在提高下载速度的同时也增加了系统开销, 所以并不是进程越多越好, 设计多进程的时候一定要注意尽量的减少并行开销。另外, 在多进程工作的时候还要合理的对任务进行调度, 避免多个进程对同一页面重复下载。本系统设计一种管理进程对应多个采集进程的模式, 管理进程负责任务调度, 采集进程负责下载并抽取结构化网页信息。在采集的过程中每个采集进程负责采集同一域名下的链接, 这样可以有效的控制采集的方向, 实现行业网站的垂直搜索, 避免了进程间网页的重复采集, 而且不会对采集目标网站带来太大的压力形成制造拒绝服务攻击。的嵌套关系整理成一棵树状结构。它还可以通过CS 选择器快速查找盯ML 元素, 使用非常方便。正则表达式可以检索和/ 或替换那些符合某个模式的文本内容。它被各种文本编辑软件、类库和脚本工具广泛的支持。正则表达式的优点是速度快, 匹配功能强, 它可以匹配出任两个字符之间的文本; 缺点是规则太复杂, 不易操作。针对现有的正文抽取方法对结构化网页内容抽取不准确, 本系统改进传统的止文抽取方法, 采用正则表达式和构造D O M 树结合的方式, 首先通过CS 选择器选择内容节点, 然后通过正则表达式匹配没有单独在D O M 树叶子节点的内容。这样以正则表达式强大的匹配功能弥补D OM 树的不足, 从而实现以简单的采集规则对网页结构化信息的准确采集。内容抽取算法如下: (1 ) 读人HT ML 文档: (2) 读取网页抽取规则; (3 ) 删除无用节点如se hp t 区、HT M L 注释区、CSS 样式表区等(提取任意两字符串之间内容的正则表达式为: “ $ s tr l(一? ) $ s trZ ” ) ; (4 ) 删除规则中设置的内容区域; (5 ) 构建H TM L 文档标签树; (6) fo r (每一条删除规则) 通过CS 选择器找出对应节点, 进行内容清理 (7) fo r (每一条取内容规则) 通过CSS 选择器找出对应节点, 取其内容3 . 3 结构化网页内容抽取(8 ) (9 ) 以止则表达式辅助取出其它内容; 结束, 释放内存空间。W eb 上的网页模板不计其数, 类型多种多样, 结构也越来越复杂。目前虽然有很多抽取网页信息的方法, 但是没有哪种方法可以通用于整个互联网。然而, 同一个网站往往都有自己统一的模板和设计风格, 所以当前有效的解决方案还是以手工的方式针对特定站点设定特定的采集规则来进行网页结构化信息的提取。这样虽然消耗了一定的人力, 但是可以提高采集的准确性和系统的伸展性。将HT M L 网页转换成DO M 树进行内容的抽取是目前常用的抽取网页正文的方法L” , ” l 。构造D o M 树的方法很多, 而且有许多常用的构建D OM 树的工具, 如适用于p hp 的si mP le 一t而一o m , 它可以把HT ML 文档按标签4 系统测试根据实际需要, 系统采用PH P 语言实现, 运行于L INUX 操作系统, 以H TML 、PHP 和CSS 等技术结合的方式设计了友好的用户界面, 后台数据库采用MySQ L , 可以处理中大型数据业务。测试硬件环境为Int el 双核处理器、ZG B 内存, 经过长时间的运行, 表现稳定正常, 测试结果如下: l) 内容抽取效果测试为测试内容提取效果, 实验以新浪新闻, 搜狐新闻, 新华网和天涯论坛为人口站点, 各采集10 0 个页面其准确性见表1 。么抖! 20 n 通信安全学术会议论文集T a b le 1 T h e re s ul t of e x tr acti o n co n te n t 表1 抽取内容效果站点总网页准确准确率新浪新闻l(X) 0 9 83 9 8 . 3 % 搜狐新闻1兀旧97 2 9 7 . 2 % 新华网10 以97 5 9 7 . 5 % 天涯论坛1(叉X ) 9 18 9 1 . 8 % 实验结果表明, 在硬件条件确定的条件下, 适当的增加采集进程数, 可以在一定程度上提高内容采集的效率。原因是多进程并发工作可以有效降低网络高延迟的不利影响。然而, 但当进程数达到一定数量之后, 由于CPU 、内存、独占资源等条件的限制, 采集速度反而会下降。5 结语测试过程中一些网页的采集效果不太好有以下两个原因: 1 一些网页本身就没有所需要采集的信息, 如网站首页, 导航页等。o 由于一些比较老的网页, 采用与现在不同的网页布局形式, 以致于所设采集规则不适用于这些网页。2 ) 不同进程数对采集效率影响测试以不同的进程数对某校园网进行信息采集, 在采集过程中, 把校园网以栏目为单位分为不同部分, 每个进程针对一个栏目进行采集, 每一分钟统计一次采集数目, 结果如图5 所示。本文对网络舆情采集进行了研究, 设计了一种多进程并发执行的网络舆情采集系统, 有如下特点: ( l) 基于站点的方式垂直采集; (2) 多进程并发执行提高效率; (3 ) 结合使用D O M 树与正则表达式提取网页内容; ( 4 ) 存储结构化网页信息。通过测试, 系统运行稳定、效率良好, 可直接应用于W eb 数据挖掘、垂直搜索和网络舆情分析等。以后将进一步完善网页更新策略、实现智能化信息抽取、支持分布式采集等。Fi四re 5 T h e p ag e e o lle e te d Of d族re n t n u lnb e r o f proc e s s e s 图5 不同进程数采集网页个数求其平均采集速度, 不同进程数的采集速度见表2 。T a ble 2 S P吧e d o f d in 陇ren t n um be r o f Pr oc es ses 表2 不同进程数的采集速度进程数采集速度/( 个/s ) l 7 . 6 5 2 10 . 5 3 12. 3 5 12. 6 10 7 . 2 R e fe r e n c e s ( 参考文献) l z e n g R u 而. Chi n a l 5 oril in e p u bli e o p in io n re s e arc h an d d e - v e lo p m e n t p re s e n t s it u at io n a n aly s i s J , Li bra 叮& ie 二e R es e a rc h , 20( ) 9 ( 8 ) : 2 一6 . 曾润喜. 我国网络舆情研究与发展现状分析J. 图书馆学研究, 20 9 ( 8 ) : 2 一6 . 2 U x iao 而n g , Ya n H o n 沙i , W an g Ji m in . Se arc h E n gi ne 一p ri n e iple , te e hn i卿e a n d sys t e m M , Be ijin g , C hin a : Se i- e n c e Pre s s , 20() 5 . 李晓明, 闺宏飞, 王继民. 搜索引擎原理、技术与系统M . 北京: 科学出版社, 20 5 . 3 Chak rab ari . S , M . V . Be 吧, B . D o m . Fo e u s e d e raw li雌: a n e w 即p ro a e h to to p i e 一s哪e 访e W e b re s o urc e d i s e o v e 叮 J . I n : E ls e v i e r Se ie n e e B . V . 19 9 9 : 54 5 一56 2. 4 Chan g . C . H , M . K 叮e d , M . R . G i r g is , K . S hal an . A Su rv e y o f W e b 11正rm at io n E x tra e t io n Sys te m s . IE E E Tran s a e ti o n s o n kn o w le d ge an d d a t a e n g in e e ri n g. 5 Sh i . S , F. X in g , M . Zh u , 2 . N ie , J. R . We n . Ps e u d o 一A u e ho r Te x t E x tra e ti o n fo r V e rt i e al Se a rc h , M ie ro s oft te e hn iq u e re - po rt , 20 0 6 ( 8 ) . 6 Zh ai . Y . H , B . Liu . W e b D a ta E x trac ti o n Bas e d o n Paxt i a l T r e e A lig n ln e n t , I n t e rn at io n W o rl d W id e We b C o ll 几r e n e e Co m m i tte e ( IW 3C2) . Ma y 10 一14 , 20() 5 , Chi ba , Ja Pa 几第四篇通信理论与技术1 2057 eh a k汕a rt i. s , Min in g th e * b 一D isv o v eri n g Kn o w le d g e fro m Hy伴rt e x t D a ta M , Sa n Fra n e ise o : E lse v ie r Se ie n e e , 2(X) 3 . 8 Z ha n g W e i, Z h a n g W e nj in g , A n a lysis o f the Cu re n t R e - se arc h Situ a tio n o f W e b 1nf( r n la tio n Co llec tio n in Ch in a J. 瓜b ra 叮CO o truc tio n , 20() 8 (7 ): 4 3 一4 6 . 张炜, 张文静. 中国网络信息采集工作研究现状分析J_ . 图书馆建设, 20 08 (7 ): 43 一4 6. 9 Ya n g D in 邵ho n g , Z ha o G a n g , W a 嗯Ta i. A pplie a tio n o f W e bCr aw le : in info rm at io n se arc h an d dat a m ini n g J , Co 呷u te r E n g ine eri ng a nd De s呀n , 20 9 , 3 0 (24 ) : 5 6 5 8 一5 662 . 杨定中, 赵刚, 王泰. 网络爬虫在w eb 信息搜索与数据挖掘中应用J . 计算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论