侵略者WEB数据采集系统_介绍.doc_第1页
侵略者WEB数据采集系统_介绍.doc_第2页
侵略者WEB数据采集系统_介绍.doc_第3页
侵略者WEB数据采集系统_介绍.doc_第4页
侵略者WEB数据采集系统_介绍.doc_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

致力于打造适用于海量信息采集的专业级网页采集系统 侵略者WEB数据采集系统介 绍目 录一. 开发背景二. 功能介绍三. 模块组成四. 运行部署 五. 维护管理监控 六. 软硬件要求七. 性能分析八. 名词解释一. 开发背景 随着用户对信息获取速度的要求,很多公司开始做面向各行各业的垂直搜索引擎,垂直搜索引擎最核心的就是准确及时的获取数据源。本系统的设计目标就是为了满足这个需求。给垂直搜索引擎提供准确及时是数据采集服务。二. 功能介绍 本系统提供对互联网数据进行采集的服务。 根据用户事先配置好的规则(网页下载规则,数据块解析规则等),进行数据采集。 当对方网站数据进行了更新,或者添加新数据时,系统自动会进行检测,并进行采集,然后更新到自己的数据库(或者别的存储方式),这个过程不再需要人工干涉。 本系统采用分布式处理,可以通过采集管理平台把采集任务发布到不同的服务器,能够进行对大量数据源网站进行高频率的并行监控采集。 对服务器群管理方便快捷,通过采集管理平台进行统一管理,监控,统计,分析。 本系统主要适合于对数据量要求大的行业垂直搜索引擎和情报分析系统的数据采集,也适合于一些对数据量要求不高的信息发布网站。 本系统采用插件方式,对采集来的数据可以进行修正。对输出方式可以通过插件自由定制。可扩展性高。三. 模块组成1. 网页下载配置负责制定网页下载规则,登录设置,下载策略设置。主要供网页下载进程使用。2. 网页下载进程 根据网页下载配置的规则进行网页下载。等待网页解析进程进行解析3. 网页解析配置负责制定网页解析规则,选择结果修正方法,并进行采集测试。4. 网页解析进程根据网页解析配置对下载到的网页进行解析修正,然后通过插件输出到指定存储方式。5. 采集任务配置把网页下载配置和网页解析配置(多选)组合起来,然后设置输出方式(多选)。6. 采集任务测试和分配可以对采集配置角色提交的任务进行测试检验,合格后发布到采集服务器上(通过XML格式配置文件)。7. 角色管理对采集配置角色,任务分配角色,系统管理角色三种角色的帐号管理。8. 采集服务器的管理,监控,统计,分析等通过对服务进程发命令的方式,获取采集服务器的信息,进行管理,监控,统计,分析。9 数据的导入,导出,备份等对已经配置好的采集任务以及其他数据进行数据库备份,对任务进行导入导出,以便发布到其他采集管理平台。10. 插件管理发布对不断新增的插件进行上传,发布,管理。11. 服务进程运行在每台采集服务器,响应采集管理平台的命令,负责对采集服务器的管理和状态反馈。四. 运行部署 采集管理平台:运行在一台服务器,负责其他所有采集服务器的管理,监控,统计,分析和任务分配。与其他采集服务器采用HTTP协议发送查询命令,然后返回要查询的相关信息。 采集进程:每台服务器运行10个采集进程。每个进程负责多个采集任务,任务越多,数据更新的频率就越低。所以服务器越多,分配给每个进程的任务就越少,数据更新的频率就越高。数据采集的效率就越高。五. 维护管理监控系统安装完毕后,维护主要通过基于WEB的采集管理平台。可以通过管理平台创建分配采集任务,监控每台服务器的运行状态,采集数据的统计,以及性能分析。根据分析结果可以调整服务器的运行配置,以便于更充分的利用硬件资源。 数据源网站的采集配置采用分用户的管理方式,用户分三种角色:采集配置角色,任务分配角色,系统管理角色。 1采集配置角色用户可以配置管理自己的采集工程,配置完成的工程才可以提交给任务分配角色。 2任务分配角色对采集配置角色提交上来的工程进行测试,测试成功后分配给采集服务器处理,否则驳回,另外具有服务器运行状态,数据统计,性能分析等权限,可以根据分析结果进行采集任务分配。 3系统管理角色具有以上两者所有权限,并具有用户帐号管理,系统参数数据管理等所有权限。 另外对系统的稳定性和准确性采取如下措施:1进程监控: 对采集进程和管理进程的监控,采取在管理服务器定期对每个服务器进行检查的方式,发送一个检查指令,判断某台采集服务器上这两个进程的运行状态,出现异常则报警。2采集监控:为了防止目标网站的网页模板变化,采取对采集结果进行监控的方式,如果长时间没有数据采集成功,则进行报警。也可以通过命令服务进程检查每个采集任务的状态。六. 软硬件要求 软件: 跨平台,对操作系统无要求,建议使用unix操作系统,安全稳定可靠。JVM 5.0或以上。 硬件: 硬件要求低,能运行java虚拟机即可。建议高带宽,内存512以上,硬盘70G(根据采集站点的大小决定)以上。随数据抓取源网站数量的增加,可以不断添加新的采集服务器。七. 性能分析采集的速度,主要受以下几个因素影响:采集服务器性能采集服务器网络带宽要采集网站的带宽(即访问速度)要采集网页的平均大小常规情况下: 如果以每台服务器运行10个采集进程,带宽在独享1M为准。在数据源网站不存在带宽瓶颈的情况下,每小时采集大概7万个网页。 对于大量的数据,建议采用分布式的服务器集群进行采集。八. 名词解释爬虫配置 爬虫使用的规则配置解析配置 解析使用的规则配置网页爬虫 把指定网站的网页按爬虫配置下载到本地的程序网页解析 对下载到本地的网页按解析配置进行解析的程序采集任务 由爬虫配置和解析配置组合成的采集规则管理进程 运行在各个采集服务器,接收采集管理平台命令,进行采集任务的管理和状态反馈采集进程 运行在各个采集服务器提供的采集服务的进程,通过管理进程与管理平台进行交互采集管理平台负责其他所有采集进程的管理和任务分配,采集任务的创建管理。与其他采集进程通过管理进程进行通讯

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论