侵略者网页数据采集系统技术白皮书.doc_第1页
侵略者网页数据采集系统技术白皮书.doc_第2页
侵略者网页数据采集系统技术白皮书.doc_第3页
侵略者网页数据采集系统技术白皮书.doc_第4页
侵略者网页数据采集系统技术白皮书.doc_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

侵略者侵略者 WEBWEB 数据采集系统数据采集系统 V3.0.1V3.0.1 技技 术术 白白 皮皮 书书 Copyright 2005-2010 All Rights Reserved 侵略者软件 目目 录录 目目 录录.2 一一.概述概述3 二二.典型应用典型应用3 1.政府机关3 2.企业4 3.新闻媒体4 4.应用系统5 三三. .系统构架系统构架5 1.工作过程描述5 2.采集管理服务器5 3.采集服务器群组6 四四.系统功能系统功能9 五五.技术特点技术特点10 六六.系统优势系统优势11 1.精确度高11 2.易用性好12 3.灵活性强12 4.实施部署容易12 5.采集内容全面12 6.抓取速度快12 7.性能指标13 七七.维护管理监控维护管理监控13 八八.名词解释名词解释14 九九.系统环境系统环境要求要求15 一一. 概述概述 面对互联网海量的信息,政府机关、企事业单位和研究机构都迫切希望获取 与自身工作相关的有价值信息,如何方便快捷地获取这些信息就变得至关重要 了。如果采用原始的手工收集方式,费时费力且毫无效率,面对越来越多的信息 资源,劳动强度和难度可想而知。因此,现代的政府和企业都迫切需要一种能够 提供高质量和高效运作的信息采集解决方案。 本系统针对不同行业用户的应用需求,以抓取互联网或者内部网信息为目 的,实现在用户自定义规则下,自动从互联网中抓取指定信息。抓取的信息可存 入独立数据库或通过接口发送至其他系统,用于内部使用或外网发布,实现信息 及时全面的共享。 随着用户对信息获取速度的要求,很多网站开始做面向各行各业的垂直搜 索引擎,垂直搜索引擎最核心的就是准确及时的获取数据源。本系统的设计目 标就是为了满足这个需求。给垂直搜索引擎提供准确及时是数据采集服务。 本系统同样能够给信息类网站提供内容采集服务,以快速提高网站的信息 量。 二二. 典型应用典型应用 1.政府机关政府机关 实时跟踪、采集与业务工作相关的信息来源。 全面满足内部工作人员对互联网信息的全局观测需求。 及时解决政务外网、政务内网的信息源问题,实现动态发布。 快速解决政府主网站对各地级子网站的信息获取需求。 全面整合信息,实现政府内部跨地区、跨部门的信息资源共享与有 效沟通。 节约信息采集的人力、物力、时间,提高办公效率。 2.企业企业 实时准确地监控、追踪竞争对手动态,是企业获取竞争情报的利器。 及时获取竞争对手的公开信息以便研究同行业的发展与市场需求。 为企业决策部门和管理层提供便捷、多途径的企业战略决策工具。 大幅度地提高企业获取、利用情报的效率,节省情报信息收集、存 储、挖掘的相关费用,是提高企业核心竞争力的关键。 提高企业整体分析研究能力、市场快速反应能力,建立起以知识管 理为核心的“竞争情报数据仓库” ,是提高企业核心竞争力的神经中 枢。 3.新闻媒体新闻媒体 快速准确地自动跟踪、采集数千家网络媒体信息,扩大新闻线索, 提高采集速度。 支持每天对数万条新闻进行有效抓取。监控范围的深度、广度可以 自行设定。 支持对所需内容的智能提取、审核。 实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。 4.应用系统应用系统 垂直搜索应用 网络舆情监控 竞争情报系统 行业知识库 其它需要互联网海量信息作为数据源的应用系统 三三. .系统构架系统构架 1.工作过程描述工作过程描述 采集的目的就是把对方网站上网页中的某块文字或者图片等资源下 载到自己的数据库或其他的存储形式,这个过程需要做如下配置工作:下 载网页配置,解析网页配置,修正结果配置,数据输出配置。如果数据符 合自己要求,修正结果这步可省略。配置完毕后,把配置形成任务(任务以 XML格式描述),发布到采集服务器群组,采集爬虫按照任务的描述开始工 作,最终把采集到的结果存储到结果存储服务器。然后用户自己的信息处 理系统就可以到结果存储服务器上取到数据,作为自己的数据源。 2.采集管理服务器采集管理服务器 运行采集管理平台,负责其他所有采集服务器的管理,监控,统计, 分析和任务分配。 与其他采集服务器采用HTTP协议发送查询命令,然后返 回要查询的相关信息。 3.采集服务器群组采集服务器群组 运行采集爬虫,每台服务器运行10个采集爬虫。每个爬虫负责多个 采集任务,任务越多,数据更新的频率就越低。 所以服务器越多,分配给 每个进程的任务就越少,数据更新的频率就越高。数据采集的效率就越 高。 系统部署图如下: 工作流程图如下: 数据处理逻辑图: 四四. 系统功能系统功能 本系统提供对互联网数据进行采集的服务。 根据用户事先配置好的规则(网页下载规则,网页解析规则等),进行数据采 集。 当对方网站数据进行了更新,或者添加新数据时,系统自动会进行检测,并 进行采集,然后更新到自己的数据库(或者别的存储方式),这个过程不再需要人 工干涉。 对需要登录的网站可以根据设定好的帐号密码进行自动登录,以便采集登录 后才能获取的数据 本系统采用分布式处理,可以通过采集管理平台把采集任务发布到不同的服 务器,能够进行对大量数据源网站进行高频率的并行监控采集。 对服务器群管理方便快捷,通过采集管理平台进行统一管理,监控,统计, 分析。 本系统主要适合于对数据量要求大的行业垂直搜索引擎和情报分析系统的数 据采集,也适合于一些对数据量要求不高的信息发布网站。 本系统采用插件方式,对采集来的数据可以进行修正。对输出方式可以通过 插件自由定制。可扩展性高。 五五. 技术特点技术特点 1. 跨平台,支持当前多数操作系统,Windows / Unix / Linux。 2. 自动识别网页的编码格式,也可以人工设置编码格式。支持各国语言的网 站。 3. 支持图片,软件,音乐,视频,flash等多种格式资源的下载。 4. 支持用户名与密码自动登录。 5. 支持采集结果输出的多样性,可以使用不同输出插件进行输出,也可以自 己开发输出插件。 6. 采集配置分为三个部分:网页爬虫配置,网页解析配置,采集任务配置。 以上三者可以自由搭配,便于重复利用已设置完毕的配置。 7. 可定制的数据解析和抽取。可以自由配置要采集的网络元数据,并可以对 每个网络元数据自定义字段名。便于后续信息处理。 8. 海量信息采集和存储支持,分布式管理,多服务器集群和协作。 9. 采集爬虫采用多任务、多数据源管理,同一个采集服务器下可以进行多个 采集任务的运行。 10. 每个任务下可以指定多个采集入口网站。 11. 采集条件设置,可以针对不同任务下的入口网站设置采集路径、重点页面、 采集网址过滤等控制条件。控制条件采用正则表达式。 12. 运行配置,采集运行过程中使用的爬虫名称、个数、数据更新频度等均可 以由用户进行配置。 13. 信息自动维护,被抓取网址数据发生变化时,系统会自动发现并更新已抓 取的信息。 14. 多用户,分权限进行管理。采集服务器跟管理控制台之间采用严格的权限 管理,保证采集服务器的安全。 15. 自动识别文本中的图片信息,并且自动下载到本地,并替换文本中的图片 URL为本地URL。 16. 管理控制台可以监控每台采集服务器详细的系统资源使用情况,并总结出 运行是否正常的运行报告。 六六. 系统优势系统优势 1.精确度高精确度高 用户可以按照自身需要自行选择、设定监测的目标网站和特定信息源, 实施24 小时不间断监测和采集,信息动态始终处于掌握之中。系统支持将网 页中的 信息内容按日期、标题、作者、栏目进行提取,过滤网页中的无用信息。 扩展抓 取采集范围可以精确到特定网站、特定栏目、特定页面、特定区域。 2.易用性好易用性好 系统参数设置简单,一次设置多次使用。采用精确抓取时针对不同用户应 用 要求,可设定“所见即所得”的拖拽选取信息内容方式。设置过程直观、便 捷。系统插件丰富,可以对信息进行不同的修正,输出到不同数据格式,多种 数据库。 3.灵活性强灵活性强 系统具有很强的灵活性,可按需选择目标站点,并根据形势的变化,随时 更 换目标站点。用户可直接到某一网站抓取用户想要的特定栏目下的信息,它 仅仅 要求用户设定特定的抓取条件,用户需要的内容就会自动被抓取和保存下 来,从 而实现由用户上网找信息转变为信息自动流向用户的方式。 4.实施部署容易实施部署容易 系统用户界面友好, 抓取服务器在任意平台下运行, 实施部署过程简单, 即 装即用。 系统稳定性很高, 可以在 “7 天24 小时” 运行模式下长时间地运行。 5.采集内容全面采集内容全面 适应网站内容格式的多变性,能完整地获取需要采集的页面,遗漏少,网 页 采集内容的完整性在 99% 以上。 6.抓取速度快抓取速度快 系统支持多线程处理技术,支持运行多条线程的同时抓取。可快速高效地 对 目标站点或栏目进行信息采集,大大加快了信息的抓取速度,保证在同等单 位时间内信息的抓取量成倍数增长。 7.性能指标性能指标 如果以每台服务器运行10个采集进程,带宽在1M为准。在数据源网站 不存在带宽瓶颈的情况下,每小时采集大概7万个网页。对于大量的数据, 建议采用分布式的服务器群进行采集。 七七. 维护管理监控维护管理监控 系统安装完毕后,维护主要通过基于 WEB 的采集管理平台。可以通过管 理平台创建分配采集任务,监控每台服务器的运行状态,采集数据的统计, 以及性能分析。根据分析结果可以调整服务器的运行配置,以便于更充分的 利用硬件资源。 数据源网站的采集配置采用分用户的管理方式,用户分三种角色: 采集配 置角色,任务分配角色,系统管理角色。 采集配置角色采集配置角色 用户可以配置管理自己的采集工程,配置完成的工程才可以提交给任务 分配角色。 任务分配角色任务分配角色 对采集配置角色提交上来的工程进行测试,测试成功后分配给采集服务 器处理,否则驳回,另外具有服务器运行状态, 数据统计,性能分析等权限,可以根据分析结果进行采集任务分配。 系统管理角色系统管理角色 具有以上两者所有权限,并具有用户帐号管理,系统参数数据管理等所 有权限。 另外对系统的稳定性和准确性采取如下措施: 进程监控:进程监控: 对采集进程和管理进程的监控,采取在管理服务器定期对每个服务器进 行检查的方式, 发送一个检查指令,判断某台采集服务器上这两个进程的运行状态,出 现异常则报警。 采集监控:采集监控: 为了防止目标网站的网页模板变化,采取对采集结果进行监控的方式, 如果长时间没有数据采集成功,则进行报警。 也可以通过命令服务进程检查每个采集任务的状态。 八八. 名词解释名词解释 爬虫配置爬虫配置 - 爬虫使用的规则配置。 解析配置解析配置 - 解析使用的规则配置。 网页爬虫网页爬虫 - 把指定网站的网页按爬虫配置下载到本地的程序。 网页解析网页解析 - 对下载到本地的网页按解析配置进行解析的程序。 采集任务采集任务 - 由爬虫配置和解析配置组合成的采集规则。 管理进程管理进程 - 运行在各个采集服务器,接收采集管理平台命令,进行采集任 务的管理和状态反馈。 采集进程采集进程 - 运行在各个采集服务器提供的采集服务的进程,通过管理进程 与管理平台进行交互。 采集管理平台采集管理平台 - 负责其他所有采集进程的管理和任务分配,采集任务的创 建管理。与其他采集进程通过管理进程进行通讯。 采集服务器采集服务器

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论