




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
致力于打造适用于海量信息采集的专业级网页采集系统 第 1 页 侵略者侵略者 WEB 数据采集系统数据采集系统 V3 0 1 介介 绍绍 Copyright 2005 2010 All Rights Reserved 侵略者软件 致力于打造适用于海量信息采集的专业级网页采集系统 第 2 页 目目 录录 目目 录录 2 2 一一 开发背景开发背景 3 3 二二 功能介绍功能介绍 3 3 三三 模块组成模块组成 3 3 1 网页下载配置 3 2 网页下载进程 4 3 网页解析配置 4 4 网页解析进程 4 5 采集任务配置 4 6 采集任务测试和分配 4 7 角色管理 4 8 采集服务器的管理 监控 统计 分析等 5 9 数据的导入 导出 备份等 5 10 插件管理发布 5 11 服务进程 5 四四 运行部署运行部署 5 5 五五 维护管理监控维护管理监控 6 6 六六 软硬件要求软硬件要求 7 7 七七 性能分析性能分析 7 7 八八 名词解释名词解释 7 7 致力于打造适用于海量信息采集的专业级网页采集系统 第 3 页 一一 开发背景开发背景 随着用户对信息获取速度的要求 很多公司开始做面向各行各业的垂直搜索引擎 垂 直搜索引擎最核心的就是准确及时的获取数据源 本系统的设计目标就是为了满足这个需求 给垂直搜索引擎提供准确及时是数据采集 服务 二二 功能介绍功能介绍 本系统提供对互联网数据进行采集的服务 根据用户事先配置好的规则 网页下载规则 数据块解析规则等 进行数据采集 当对方网站数据进行了更新 或者添加新数据时 系统自动会进行检测 并进行采集 然后更新到自己的数据库 或者别的存储方式 这个过程不再需要人工干涉 本系统采用分布式处理 可以通过采集管理平台把采集任务发布到不同的服务器 能 够进行对大量数据源网站进行高频率的并行监控采集 对服务器群管理方便快捷 通过采集管理平台进行统一管理 监控 统计 分析 本系统主要适合于对数据量要求大的行业垂直搜索引擎和情报分析系统的数据采集 也适合于一些对数据量要求不高的信息发布网站 本系统采用插件方式 对采集来的数据可以进行修正 对输出方式可以通过插件自由 定制 可扩展性高 三三 模块组成模块组成 1 网页下载配置网页下载配置 负责制定网页下载规则 登录设置 下载策略设置 主要供网页下载进程使用 致力于打造适用于海量信息采集的专业级网页采集系统 第 4 页 2 网页下载进程网页下载进程 根据网页下载配置的规则进行网页下载 等待网页解析进程进行解析 3 网页解析配置网页解析配置 负责制定网页解析规则 选择结果修正方法 并进行采集测试 4 网页解析进程网页解析进程 根据网页解析配置对下载到的网页进行解析修正 然后通过插件输出到指定存储 方式 5 采集任务配置采集任务配置 把网页下载配置和网页解析配置 多选 组合起来 然后设置输出方式 多选 6 采集任务测试和分配采集任务测试和分配 可以对采集配置角色提交的任务进行测试检验 合格后发布到采集服务器上 通过 XML 格式配置文件 7 角色管理角色管理 对采集配置角色 任务分配角色 系统管理角色三种角色的帐号管理 致力于打造适用于海量信息采集的专业级网页采集系统 第 5 页 8 采集服务器的管理 监控 统计 分析等采集服务器的管理 监控 统计 分析等 通过对服务进程发命令的方式 获取采集服务器的信息 进行管理 监控 统计 分析 9 数据的导入 导出 备份等数据的导入 导出 备份等 对已经配置好的采集任务以及其他数据进行数据库备份 对任务进行导入导出 以便发布到其他采集管理平台 10 插件管理发布插件管理发布 对不断新增的插件进行上传 发布 管理 11 服务进程服务进程 运行在每台采集服务器 响应采集管理平台的命令 负责对采集服务器的管理和 状态反馈 四四 运行部署运行部署 采集管理平台 运行在一台服务器 负责其他所有采集服务器的管理 监控 统计 分析和任务分配 与其他采集服务器采用 HTTP 协议发送查询命令 然后返回要查询的相关信息 采集进程 每台服务器运行 10 个采集进程 每个进程负责多个采集任务 任务越多 数据更新的 频率就越低 致力于打造适用于海量信息采集的专业级网页采集系统 第 6 页 所以服务器越多 分配给每个进程的任务就越少 数据更新的频率就越高 数据采集 的效率就越高 五五 维护管理监控维护管理监控 系统安装完毕后 维护主要通过基于 WEB 的采集管理平台 可以通过管理平台 创建分配采集任务 监控每台服务器的运行状态 采集数据的统计 以及性能分析 根据分析结果可以调整服务器的运行配置 以 便于更充分的利用硬件资源 数据源网站的采集配置采用分用户的管理方式 用户分三种角色 采集配置角色 任务分配角色 系统管理角色 1 采集配置角色 用户可以配置管理自己的采集工程 配置完成的工程才可以提交给任务 分配角色 2 任务分配角色 对采集配置角色提交上来的工程进行测试 测试成功后分配给采集服务 器处理 否则驳回 另外具有服务器运行状态 数据统计 性能分析等权限 可以根据分析结果进行采集任务分配 3 系统管理角色 具有以上两者所有权限 并具有用户帐号管理 系统参数数据管理等所 有权限 另外对系统的稳定性和准确性采取如下措施 1 进程监控 对采集进程和管理进程的监控 采取在管理服务器定期对每个服务器进 行检查的方式 发送一个检查指令 判断某台采集服务器上这两个进程的运行状态 出现异 常则报警 致力于打造适用于海量信息采集的专业级网页采集系统 第 7 页 2 采集监控 为了防止目标网站的网页模板变化 采取对采集结果进行监控的方式 如果长时间没有数据采集成功 则进行报警 也可以通过命令服务进程检查 每个采集任务的状态 六六 软硬件要求软硬件要求 软件 跨平台 对操作系统无要求 建议使用 unix 操作系统 安全稳定可靠 JVM 5 0 或以上 硬件 硬件要求低 能运行 java 虚拟机即可 建议高带宽 内存 512 以上 硬盘 70G 根据采集站点的大小决定 以上 随数据抓取源网站数量的增加 可以不断添加新的采集服务器 七七 性能分析性能分析 采集的速度 主要受以下几个因素影响采集的速度 主要受以下几个因素影响 采集服务器性能 采集服务器网络带宽 要采集网站的带宽 即访问速度 要采集网页的平均大小 常规情况下常规情况下 如果以每台服务器运行 10 个采集进程 带宽在独享 1M 为准 在数据源网站 不存在带宽瓶颈的情况下 每小时采集大概 7 万个网页 对于大量的数据 建议采用分布式的服务器集群进行采集 八八 名词解释名词解释 爬虫配置 爬虫使用的规则配置 解析配置 致力于打造适用于海量信息采集的专业级网页采集系统 第 8 页 解析使用的规则配置 网页爬虫 把指定网站的网页按爬虫配置下载到本地的程序 网页解析 对下载到本地的网页按解析配置进行解析的程序 采集任务 由爬虫配置和解析配置组合成的采集规则 管理进程 运行在各个采集服务器 接收采集管理平台命令 进行采集任务的管理和状态反 馈 采集进程 运行在各个采集服务器提供的采集服务的进程 通过管理进程与管理平台进行交 互 采集管理平台 负责其他所有采集进程的管理和任务分配 采集任务的创建管理 与其他采集
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 课件显示备注
- 2025年中国双层炉排立式蒸汽锅炉数据监测研究报告
- 口语内容考试题及答案
- 植物检疫工岗位操作技能考核试卷及答案
- 溶剂油装置操作工操作考核试卷及答案
- 酒吧经理考试题及答案
- 景泰蓝点蓝工异常处理考核试卷及答案
- 禁止超车考试题及答案
- 2025年中国复盖件数据监测报告
- 偏钨酸铵制备工岗前考核试卷及答案
- 2024年上海市行政执法类公务员招聘笔试参考题库附带答案详解
- (高清版)DZT 0208-2020 矿产地质勘查规范 金属砂矿类
- 建设项目安全设施“三同时”(直接使用版)课件
- 《食安南京品牌建设指南》
- 2024年湖南交通职业技术学院高职单招(英语/数学/语文)笔试历年参考题库含答案解析
- 媒介文化与休闲异化
- 精神障碍社区康复服务投标方案技术标
- 初级电工技能培训一-电工常用工具
- 婚姻家庭咨询师(三级)电子教材
- 平凉市崆峒区大寨乡柳沟村地热水矿产资源开发利用方案
- 隧道安全质量培训课件
评论
0/150
提交评论