科研大数据平台项目.doc_第1页
科研大数据平台项目.doc_第2页
科研大数据平台项目.doc_第3页
科研大数据平台项目.doc_第4页
科研大数据平台项目.doc_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

科研大数据平台项目科研大数据平台项目 技术建议书技术建议书 目目 录录 1 概述概述 1 1 1 项目背景 1 1 2 需求分析 1 1 3 方案简述 1 1 4 方案价值 2 2 设计方案设计方案 4 2 1 设计原则 4 2 2 系统架构 5 2 3 分布式数据库系统 5 2 3 1 MPP Share Nothing 架构 5 2 3 2 核心组件 6 2 3 3 高可用 6 2 3 4 高性能在线扩展 7 2 3 5 高性能数据加载 8 2 3 6 OLAP 函数 9 2 4 HADOOP集群 9 2 4 1 Hadoop 企业版 9 2 4 2 HIVE 分布式内存分析引擎 10 2 4 3 HBASE 分布式实时在线数据处理引擎 10 2 4 4 Stream 流处理引擎 11 2 5 服务器虚拟化 11 2 5 1 设计理念 12 2 5 2 系统结构 13 2 5 3 服务器虚拟化系统组成 14 2 6 云管理平台 15 2 6 1 浪潮云海 OS 架构图 15 2 6 2 浪潮云海 OS 实现的功能 15 2 7 爬虫软件 18 2 7 1 建设网络爬虫私有云 18 2 7 2 高效的分布式 协同化数据采集模式 20 2 7 3 爬虫路线规划能力 21 2 7 4 爬虫调度和负荷规划能力 21 2 7 5 极致的开放兼容平台 22 2 7 5 1 为什么需要开放的可集成的网页抓取软件 22 2 7 5 2 集搜客网络爬虫的开放接口 22 3 方案优势方案优势 23 3 1 浪潮 MPP 数据库优势 23 3 1 1 高性能 23 3 1 2 高性价比 23 3 1 3 高易用性 23 3 2 浪潮 HADOOP优势 23 3 3 浪潮云计算优势 23 3 3 1 运营效率提升 23 3 3 2 服务水平提高 24 3 3 3 实现数据中心的绿色节能 24 3 3 4 分工细化使得终端用户只需专注自身业务 24 3 3 5 降低总体拥有成本 TCO 24 3 3 6 可靠性提高 25 3 3 7 性能强大 25 3 3 8 扩展性好 25 3 3 9 可管理性 25 4 推荐配置推荐配置 26 1 概述概述 1 1 项目背景项目背景 通过本项目的实施与建设 在以服务科研工作为主导的原则下 基于高性能大 数据软硬件设施 构建多样化 专业化 柔性化的科研数据服务应用平台 利用大 数据技术 满足不同层级用户的需求 达到改善我校的科学研究环境与学科建设 提升我校的科研管理水平 提升我校针对物流行业的科研服务能力等目标 本项目分阶段实施 初期重点在于建立一个能满足业务需求的基于大数据的计 算 存储以及通讯的硬件环境平台和数据管理架构 1 2 需求分析需求分析 要构建多样化 专业化 柔性化的科研数据服务应用平台 现有架构很难承担 日益增长的数据分析需求 迫切需要寻求一种全新的系统架构帮助我校满足日常业 务及数据分析 并有效利用数据的价值 提高系统安全 系统高可用等 需求分析 如下 寻求新的系统架构 从物理架构 数据架构 业务模型架构及应用架构等几 方面满足业务需求 从全局及用户长远利益考虑 规划先进的大数据平台底层架构 满足大数据 时代的业务需求 保护用户现有资源 考虑系统现状以及现有资源利用等 在系统建设中 充 分考虑现有资源利旧 系统多平台整合 建设统一的底层平台 提高系统安全等保级别 规避系统 单点风险 1 3 方案简述方案简述 根据对背景及需求的分析 为了帮助我校能够更好地在大数据时代支撑大规模 数据的应用 分别从物理架构及数据架构建设科研大数据平台系统 物理架构 采用虚拟化技术 为客户打造 IaaS 底层系统架构 数据架构 采用与客户习惯使用的 SQL 这种更易于理解的 交互性更好的 访问接口 架构需要以 MPP 数据库及计算框架为核心 将 MPP 运算调度引擎完全 融入非关系型运算调度框架 实现可以同时调度关系运算和非关系运算的调度引擎 构建统一的结构化信息提取和数据类型转换框架 将非结构化数据映射为关系模型 实现面向关系模型的全数据统一视图 从而平滑的实现 MPP 数据库和 Hadoop 的统 一调度和处理 为新型的基础软件平台和上层应用提供数据服务 1 4 方案价值方案价值 弹性扩展 采用虚拟化技术做为底层资源抽象技术 为科研大数据平台动态提供基础计算 存储 网络资源 同时运用云平台计算技术为云数据中心提供统一的管理和运维平 台 实现资源弹性服务 流转和管理 动态资源分配 云计算被认为是分布式处理 并行处理以及网络计算的进一步发展 其使用虚 拟机力度方式 根据应用的动态对资源进行增删 快速响应 以并行计算为核心 按需调度计算任务分配和计算资源 并提供从数据导入整合 处理 计算模型设定到计算结果输出 多形式展现 应用 API 等完整的数据处理服 务 高可用 采用分布式存储系统 数据互备 快速备份和恢复 支持各种数据处理 计算 模型 满足不同领域 不同特点的计算需求 多副本容错 数据安全无忧 数据分析 构建大数据存储应用平台 围绕大数据应用构建大数据处理基础软件平台的关 键问题是如何解决结构化和非结构化不同类型的数据融合 以及实现不同类型数据 处理模式的整合 单一的 MPP 数据库或 Hadoop 产品已经很难满足研究所对结构化 和非结构化数据融合的业务需求 应用云 云计算并不是一个突兀全新的理念 云计算的快速发展 是需求驱动 技术进 步和商业模式转变共同发展和促进的结果 随着我校大规模计算和海量数据存储需 求的出现 使得科研大数据平台对 IT 基础设施的需求也随之增长 云计算技术的 应用能够给我校在节约投资 节省空间 简化管理 数据高度共享和系统高度可靠 等方面提供帮助 因此 本方案的核心价值在于将这两种方式的界限在实际应用部署中打破 形 成以全数据处理为核心 垂直整合操作系统 MPP 数据库 Hadoop 统一数据服务 的基础软件平台解决方案 2 设计方案设计方案 2 1 设计原则设计原则 为保证科研大数据平台项目建设的成功 在技术方案中我们主要遵循了以下几 个原则 先进性与成熟技术的集合 在设备选型设计中 我们要考虑采用当今业界的主流技术 同时要选用在众多 关键领域中已经得到充分验证的产品 以保证系统的更高的可靠性和可用性 高效的可管理性 对于日益复杂的 IT 系统架构 对系统的管理要求越来越重 浪潮所推荐的解决 方案整体的设计思想是利于以后的管理 性能价格比 保证充分满足用户的性能的同时 考虑最优的性价比 坚持系统建设投资经济 合理性的原则 高可靠性 全冗余设计 避免任何的单点故障 以保证系统的可靠性 同时便于维护 减 少计划内停机次数 高安全性 保证系统数据的安全 做到重要数据冗余存储 提供备份 容灾及应急设计 平滑扩展性 基于统一标准设计的硬件平台架构 具有平滑扩展的能力 可在未来方便的根 据客户需求增添新的硬件 开放性与标准化 采用标准的技术以保证与其他厂家的产品相兼容 产品利用率 考虑现有设备的使用情况 提高产品的利用率 降低总体拥有成本 提升服务水平 管理系统风险是整个硬件平台方案的设计 战略思想 本次设计满足当前阶段应用需求的同时 具备升级扩容能力 继续满足 下一阶段的应用需求 2 2 系统架构系统架构 2 3 分布式数据库系统分布式数据库系统 2 3 1 MPP Share Nothing 架构架构 分布式数据库采用完全并行的 MPP Share Nothing 的分布式扁平架构 这种 架构中的每一个节点 Node 都是独立的 自给的 节点之间对等 而且整个系 统中不存在单点瓶颈 具有非常强的扩展性 2 3 2 核心组件核心组件 分布式数据库产品总共包含三大核心组件 即 GCluster GCware 和 GNode GCWare 用于各节点 GCluster 和 GNode 实例间共享信息 GCluster 负责集群调 度 每个 GNode 就是最基本的存储和计算单元 GCluster GCluster 负责 SQL 的解析 SQL 优化 分布式执行计划生成 执行调度 GCWare GCWare 用于各节点 GCluster 和 GNode 实例间共享信息 包括集群结构 节点 状态 节点资源状态等信息 以及控制多副本数据操作时 提供可操作节点 并在 多副本操作中 控制各节点数据一致性状态 GCWare 对于集群的管理工作是以节点为基本单位的 GNode GNode 是 GCluster 中最基本的存储和计算单元 GNode 是由 GCWare 管理的一个 8a 实例 每个 GCluster 节点上有一个 GNode 实例运行 GNode 负责集群数据在节点上的实际存储 并从 GCluster 接收和执行经分解的 SQL 执行计划 执行结果返回给 GCluster 数据加载时 GNode 直接从集群加载服务接收数据 写入本地存储空间 2 3 3 高可用高可用 分布式数据库通过 SafeGroup 组内冗余机制来保证集群的高可用特性 每个 SafeGroup 可提供 1 个或 2 个副本数据冗余 SafeGroup 内数据副本自动同步 复制引擎自动管理数据同步 采用扁平架构 每一个节点都可以充当主控节点 避免了 Master 节点产生 的瓶颈以及当 Master 与 Stand by 宕机产生的整个集群不可用 2 3 4 高性能在线扩展高性能在线扩展 分布式数据库具备在线扩展技术 通过 SafeGroup 动态扩展集群节点 实际可扩展到 64 3 192 个节点 每个节点可以处理 100 TB 有效数据 同时提供计算和存储能力 GCware 负责新节点的数据同步 因为浪潮分布式数据库采用高性能单节点的 MPP 扁平架构 因此进行集群扩展 时 可以保证平滑扩展和性能的线性增长特性 2 3 5 高性能数据加载高性能数据加载 数据加载功能作为浪潮分布式数据库的一部分而存在 目的是将用户从其他数 据源得到的原始数据文件 按照某种加载规则分发至集群节点 集群各节点接收数 据入库保存到本地磁盘 分布式数据库支持数据高效并行加载 数据加载速度随节点的扩展而呈现线性 增加 集群加载采用 C S 架构 包括数据分发服务器和数据分发客户端两个应用程 序 数据分发服务器接收到客户端的数据加载请求后 服务器端负责原始数据文件 切分和数据文件的下发 各节点调用本地的集群加载服务接收数据入库并保存到本 地磁盘 2 3 6 OLAP 函数函数 分布式数据库提供 OLAP 函数 用于支持复杂的分析操作 侧重对决策人员和 高层管理人员的决策支持 可根据分析人员的要求 快速灵活地进行大数据量的复杂查询处理 以便他们 准确掌握企业的经营状况 了解被服务对象的需求 制定正确的方案 2 4 Hadoop 集群集群 Hadoop 技术给客户提供稳定的 可靠的 易用的大数据设计架构 其组件包括 Hadoop 企业版 HIVE 分布式内存分析引擎 HBASE 分布式实时在线数据处理引 擎和 Stream 流处理引擎 其特点如下 2 4 1 Hadoop 企业版企业版 Hadoop 企业版具有高模块化和松耦合的五层架构 针对不同的应用领域通过组 件之间的灵活组合与高效协作来提供定制化的支撑 数据存储层 基于 HDFS 2 2 的大数据存储和在线服务体系 支持 Erasure Code 在副本数 降低至 1 5 倍的情况下 提高了可靠性 可同时容忍四个数据块丢失 支持可靠存 储 TB 级到数十 PB 级的数据量 资源管理层 缺省采用下一代资源管理框架 YARN 进行资源的分配和调度 支持同时运行多 个计算框架 计算引擎层 采用 Map Reduce 2 完成大部分离线批处理计算任务 数据分析与挖掘层 支持离线批量 SQL 统计 支持 R 语言以及机器学习算法库 Mahout 数据集成层 Sqoop 支持从 DB 到 Hadoop 的数据迁移 Flume 支持从日志系统采集数据 2 4 2 HIVE 分布式内存分析引擎分布式内存分析引擎 HIVE 内存分析引擎提供大数据的交互式 SQL 统计和 R 语言挖掘能力 它具有 以下一些特点 高性能 HIVE 支持将二维数据表缓存入独立的分布式内存 或 SSD 中 建立列式存 储 分区 分块和索引 采用改进后的 Apache Spark 作为执行引擎 SQL 执行性能比 Apache Hadoop Hive 快 10 100 倍左右 更强的 SQL 支持 HIVE 同时兼容 Oracle PL SQL 和 HiveQL 语法 自动识别不同语法 支持存储 过程和函数 支持常用 Oracle 扩展函数 完整的 SQL 支持帮助用户平滑地从原有关 系数据库迁移到大数据平台 更强的统计分析能力 用户可以通过 RStudio 或者 R 命令行访问存储在分布式内存中的数据 R 语言 中数千个统计算法可以和浪潮 HIVE 提供的分布式并行数据挖掘算法交替混合使用 为各行业进行大数据挖掘提供了易用而强大的分析工具 支持广泛的 BI 和报表工具 HIVE 可以和常用的 BI 工具对接 包括 Tableau SAP Business Objects Oracle OBIEE 等 用户无需编程就可以方便地为大数据创建美丽的报表 通过浪潮 HIVE 提供的高速大数据统计分析能力提高决策效率 高扩展能力 Inceptor 可以随着集群规模的扩展 线性扩展处理能力 可以支持从 GB 到数百 TB 的数据处理 2 4 3 HBASE 分布式实时在线数据处理引擎分布式实时在线数据处理引擎 HBASE 实时在线数据处理引擎以 Apache HBase 为基础 是企业建立高并发的 在线业务系统的最佳选择 它有以下特点 多种数据类型支持 HBASE 支持从 GB 到数十 PB 数据的处理 支持广泛的数据类型 包括对结构 化记录 半结构化文本 图数据 非结构化数据 图片 音频 二进制文档等 的 存储 搜索 统计和分析 高速数据处理能力 HBASE 支持高速的数据检索 搜索和统计 根据索引进行检索的延时在数毫秒 到数百毫秒量级 支持上亿的并发用户同时进行数据插入 修改 查询和检索 支 持对文本建立增量全文索引并且支持秒级的全文关键字搜索 高效 OLAP 和批量统计 HBASE 为 HIVE 引擎提供高效数据扫描接口 通过 HIVE 的扩展 SQL 语法 充分利用浪潮 HBASE 的内部数据结构以及全局 辅助索引进行 SQL 执行加速 可以 满足高速的 OLAP 数据分析应用需求 同时也支持高速的 SQL 离线批处理 性能接 近于存储在 HDFS 上的相同数据的统计 高效图计算 HBASE 提供构造图形的 API 帮助用户构造由上亿顶点组成的复杂大图 同 时提供专有的高效图算法 包括关联网络的高速分析 2 4 4 Stream 流处理引擎流处理引擎 Stream 实时流处理引擎以 Spark Streaming 为基础 Spark Streaming 提供了强大 的流计算 Streaming 表达能力 支持 DAG 有向无环图 计算模型 而 Hadoop 类的批处理系统只能通过外围组件连接多个批次的作业完成复杂多阶段作业处理 系统复杂而低效 Streaming 中的复杂应用逻辑以 DAG 形式的服务常驻在集群内存中 生产系统 的消息通过实时消息队列进入计算集群 在集群内以 Pipeline 方式被依次处理 完 成 ETL 特征提取 策略检查 分析告警等复杂服务计算 最终输出到 HBase 等存 储集群 告警页面 实时展示页面等 系统具备强扩展性 强容错 低延迟 高吞吐等特点 成熟应用于传感器网络 数据处理 服务监控 反作弊 实时报表系统等业务 Streaming 支持 Kafka Flume 等常见消息队列或采集工具 2 5 服务器虚拟化服务器虚拟化 2 5 1 设计理念设计理念 浪潮云海 服务器虚拟化系统是浪潮云计算解决方案的核心基础 主要负责完成 底层物理资源的虚拟融合 按需分配与高效管理 可以显著提高资源交付的敏捷性 和灵活性 提升资源的使用效率 为上层业务提供不间断地资源保障与可伸缩的资 源供给 浪潮云海 服务器虚拟化系统为计算 存储和网络提供了完整的虚拟化解决方案 支持资源的灵活分配 动态组合 在线调整与智能调度 并以虚拟机或虚拟集群的 形式将最终资源呈现给用户 该系统既可以单独使用 也可以配合浪潮云计算管理 平台来构建更大范围的云数据中心或者 IaaS 系统 同时本系统还提供了开放接口 支持二次开发 方便与其他管理平台整合 在设计理念上 整个系统遵循了以下几 个原则 命令查询职责分离 CQRS CQRS 原则基于一个简单的事实 资源 对象 的行为只有两种 即命令 Command 和查询 Query 命令可以改变资源的状态 而查询不会 基于这一 原则 系统可以分为两个部分 命令部分和查询部分 并采用不同的技术加以实现 和优化 简化整个系统的设计 提升整个系统的性能和可维护性 独立的认证服务 服务器虚拟化是一个复杂的软件系统 由多个不同功能的模块组合而成 安全 认证是每个模块必须的逻辑 独立的认证服务从系统层面划分出来一个切面 实现 集中式的认证管理 其他模块只需与认证服务交互 将复杂的认证过程交由认证服 务处理 这一过程对模块而言是透明的 独立的认证服务对于实现 SSO 和系统集成 具有重要的意义 独立的监控服务 系统状态是进行决策的数据基础 这些数据多数是由监控服务提供的 监控服 务几乎存在于任何大型的软件系统之中 浪潮服务器虚拟化系统将监控服务剥离出 来 以易复用 易扩展 轻量级为目标独立发展 使其可以在不同的系统中提供监 控服务 监控服务为服务器虚拟化系统监控资源状态提供了极高的灵活性和扩展性 大大缩短了系统故障的排查时间 业务数据与监控数据分离 业务数据与监控数据的分离 主要体现在存储 UI 显示以及持久化三个方面 从存储方面来说 业务数据和监控数据的分离主要体现在存储方式 前者存到关系 数据库 后者存到 NOSQL 数据库 从 UI 显示来说 UI 显示的主要是业务数据 通过查询关系数据库获取 而对于监控数据 则通过查询 NOSQL 数据库中获取告 警信息 从持久化方面的讲 业务数据具有关系性强和逻辑紧密 体现用户的业务 需求 需要较高的可靠性和稳定性 因此需要持久化到关系型数据库中较为合适 这样既保证了业务关系又确保了数据的稳定性 而监控数据强调实时性 体现被监 控对象的当前状况 数据关系性不强 结构单一 而且不需要进行持久化 因此使 用易扩展 可用性高的内存型数据库来存储这类数据比较合适 以最大程度保证数 据的实时性 资源操作与资源状态维护分离 资源操作与资源状态维护分离主要体现在虚拟机的管理上 资源操作基于业务 流程 而资源状态维护基于事务的原子操作实现 例如通过监控数据更新虚拟机状 态 并维护数据的一致性 这种机制在虚拟机管理中体现最为明显 主要包括状态 切换和虚拟机并发操作处理 首先 对于状态切换失败处理 如果当前存在其他工 作流正在处理当前虚拟机 将终止整个工作流并记录失败原因 否则强制同步业务 状态 使之与监控状态相同 然后终止整个工作流并记录失败原因 其次 阻止对 同一个虚拟机的并发操作 以避免上述的第一个可能分支出现 2 5 2 系统结构系统结构 服务器虚拟化系统可分为四个层次 分别为虚拟层 应用层 展示层 运维层 虚拟层是整个系统的基础 在虚拟层之上构建了应用层 实现高级的业务逻辑 展 示层用于对外交互 为了便于系统运维 专门划分了运维层 涵盖系统的安装 部 署和安全管理 虚拟层直接构建在物理硬件之上 在功能上主要是完成物理资源的池化与重新 组合 基于 Hypervisor 实现计算资源的池化 基于分布式存储 集中式存储实现存储 资源的池化 基于虚拟交换机和虚拟路由器实现网络资源的池化 经由这几种技术 形成了统一的计算池 存储池和网络池 在此基础之上通过按需组合构建虚拟主机 和虚拟集群对外提供服务 虚拟层同时提供了资源调度 DRS DPM HA 镜像管理 和资源管理等功能 为上层实现高级功能提供支持 应用层基于虚拟层构建高级功能 通过组合虚拟层的功能模块支撑系统的业务 逻辑实现 这些主要的业务逻辑包括系统任务管理 物理资源管理 主机 存储 网络 系统配置 虚机 模板管理以及容灾备份等 这些高级功能全部封装在应用 层实现 展示层是系统对外的交互接口 提供 WEB GUI 界面和 API 接口两种形式 方 便系统集成和二次开发 在运维层 提供资源访问控制 PXE 安装和在线升级等功 能 简化系统运维 2 5 3 服务器虚拟化系统组成服务器虚拟化系统组成 管理员 管理节点 计算节点 SAN 光纤通道 以太网 用户 V VM M V VM M V VM M V VM M V VM M 控制网 数据网 业务网 iSCSI 一级存储 本地 二级存储 一级存储 共享 服服务务器器虚虚 拟拟化化系系统统 上图中计算资源和存储资源均由控制中心统一控制与管理 服务器虚拟化系统 包括三条通信链路 控制网 用于控制中心与各计算节点 存储节点及文件系统主 控间传输资源信息与控制指令 数据网 连接计算节点与存储系统 用于传输虚拟 机正常所需的存储数据 业务网 资源租户及云业务用户通过此网访问虚拟机及部 署在虚拟机里的业务 业务网通过 VLAN 等技术实现隔离 2 6 云管理平台云管理平台 浪潮云海 OS 是浪潮自主设计的系统架构 自主研发的国产云资源管理平台 支持底层 VMWare vSphere 平台及浪潮自研虚拟化产品 iVirtual 的异构虚拟资源池 对已部署的 vSphere 环境无需停机即可被云海 OS 接管 实现对现有 vSphere 环境的 无缝兼容 实现安全可控 浪潮云海 OS 的架构秉承模块化设计理念 结合浪潮对云数据中心客户需求的 理解 以超越用户所想 提供超值的用户体验而完成的系统设计 2 6 1 浪潮云海浪潮云海 OS 架构图架构图 2 6 2 浪潮云海浪潮云海 OS 实现的功能实现的功能 云资源管理 1 资源池管理 通过添加 vCenter iVirtual 将多个异构资源池整合成一个更 大的资源池 进行统一管理和资源分配 资源池管理包括对资源池的扩充和缩减 暂停使用某些资源等操作 2 资源池集群管理 集群是云资源的载体 是资源池分配的组成单位 通 过集群管理功能实现为不同用户提供不同等级的资源服务 扩充资源池容量 可重 新导入资源池的新增集群 也可暂停在某些集群上新建虚拟数据中心及应用服务 3 虚拟数据中心管理 虚拟数据中心 vdc 界定了组织能够使用资源的范围 组织管理员可将 vdc 资源分配给组织内用户 虚拟数据中心管理包括创建 导入 暂停使用 重新启用等操作 4 虚拟网络管理 虚拟网络允许组织及组织用户像定义物理网络一样定义 组织自己内部的网络 以及与组织外网络的连接方式 包括直连 NAT 等 组织内 部网络的地址分配 VLAN 划分等 5 应用服务管理 应用服务 vApp 是指提供某种服务的一个或多个通过特 定网络连接在一起的虚拟机集合 可通过服务模板 新建虚拟机 2 种方式创建应用 服务 操作包括开启 关闭 重启 删除 复制 更改所有者 导出为模板等操作 6 虚拟机管理 单独对组成 vApp 的虚拟机操作 功能包括虚拟机控制台 开启 关闭 重启 挂起 恢复 删除 快照 复制 移动至其他应用服务中 导 出为模板等操作 7 模板 镜像管理 通过 FTP 方式将应用服务模板或操作系统安装镜像上传 至组织存储空间下 用于部署应用服务和安装操作系统 也可将服务模板和镜像文 件共享给其他组织使用 业务管理 1 业务审批 审批系统用户提交的虚拟数据中心 vdc 虚拟网络 虚拟应 用 vApp 申请 2 业务流程管理 审批流程引擎实现虚拟数据中心 虚拟网络 虚拟应用 服务审批流程的自定义 3 审批历史查询 查询每个订单的详细信息 包括订单内容 审批流程上 的各节点的审批情况 包括审批人 审批时间和是否通过等 计费管理 1 计费设置 设置用户帐户余额的提醒周期及提醒方式 邮件 短信 定义资源单价 元 资源度量单位 小时 2 计费等级 资源按一定标准分为不同的等级 各等级的资源计费系数不 同 组织分为不同的等级 不同等级的组织计费系数也不同 系统可自行设置资源 等级 组织等级对应的折扣率 从而为不同的用户提供不同的等级的服务 3 组织账户充值 为组织账户充值 并可查询充值历史 4 查询组织账户余额 查询各组织的帐户余额 5 查询组织账单 查询组织每月的消费金额及费用明细 管理监控 1 监控视图 显示服务器 网络设备 数据库 操作系统 web 服务 虚 拟化资源组及组内各节点的状态统计信息 2 资源管理 开启 关闭 重启服务器组内所有机器或某些服务器 配置 服务器 BMC 信息 获取并显示网络设备 数据库 web 服务 操作系统 虚拟化 资源的相关状态参数信息 3 节能管理 节能管理在不影响正常业务的情况下 通过降低服务器 CPU 频率来降低服务器组或服务器的能耗 功能包括节能策略制定及服务器组或服务器 的能耗曲线显示 4 告警分析 分时段显示服务器 网络设备 数据库 操作系统 web 服 务 虚拟化资源等的各监测器返回的异常告警信息 5 报表中心 图表显示服务器 网络设备 数据库 操作系统 web 服务 虚拟化资源等的资源状态统计 各监测项状态 6 系统配置 监控管理功能模块的基础性配置 如添加资源 服务器 网 络设备 操作系统 web 服务 数据库 虚拟化资源 为资源选择添加监测项 通知时间表设置 告警通知联系人设置 备份与恢复当前的监控管理配置信息 系统管理 1 组织管理 组织是用户的集合 是虚拟数据中心 VDC 及 vApp 的所 有者 也是资源使用费用的承担者 组织管理功能包括添加组织 编辑 启用 禁 用 删除等操作 2 用户管理 系统管理员管理各组织的组织管理员 各组织管理员管理其 组织内部的组织用户 用户管理操作包括 添加 删除 修改基础信息 重置密码 启用 禁用等操作 3 角色管理 角色是系统操作的集合 界定了相同角色的用户拥有的操作 权限范围 角色管理包括 添加 编辑 删除等操作 4 日志查询 根据时间 组织 用户 操作对象等条件查询相关联的操作记 录 5 系统设置 配置系统发送提醒 告警类信息的邮件 短信信息 导出 删除日志 设置日志停留时长 6 序列号管理 系统序列号分为正式序列号和试用期序列号 序列号到期 后 系统将无法使用 需重新注册 7 LDAP 管理 云管理平台可与用户现有的 LDAP 系统集成 实现基于 LDAP 的身份验证访问机制 LDAP 的用户可作为云平台的用户来管理或使用云资 源 云管理平台为客户带来的收益 使用浪潮云海 云数据中心操作系统 客户可以获得以下收益 节约软件采购及服务成本 浪潮提供云数据中心整体解决方案 减少项目集成费用 全国产的云管理平台 相对于国外产品价格相对较低 相对于基于开源的云管理平台 浪潮云海云数据中 心管理平台更加安全 稳定 管理运营效率提升 云数据中心管理平台集成虚拟化管理及服务器 网络设备等硬件设备和操作系 统 web 服务 数据库等中间件的监控与管理功能 几乎涵盖了数据中心所有的可 管理对象范畴 一套系统即可运营整个云数据中心 云数据中心管理平台能够实现对多虚拟化平台的统一管理 通过将多虚拟化平 台集中到统一管理门户 形成一个大的资源池 有效解决异构资源池管理问题 服务水平提高 浪潮云海云数据中心管理平台实现基础设施资源的服务化 IaaS 以应用服务形 式对外提供服务 利用服务模板可实现业务的快速部署 显著缩短应用系统上线时 间 帮助客户快速实现自身价值 2 7 爬虫软件爬虫软件 2 7 1 建设网络爬虫私有云 GooSeeker 网络爬虫软件由两部分组成 网络爬虫云服务器 网络爬虫执行单 元 2 7 2 高效的分布式 协同化数据采集模式 集搜客 GooSeeker 用户无论分布在哪里 都可以享受集搜客网络爬虫的服务 在线版用户可以创立一个工作组 邀请其他在线版用户加入工作组 为相同的采集 目的协同完成数据采集任务 企业版将这个能力完全开放 可以完全控制和管理分布式和协同化数据采集模 式 在企业内部可以划分成多个工作组 工作组可以用后台管理程序随时根据工作目标直接创建 工作组大小不受限制 工作组的划分和管理完全受控 GooSeeker 网络爬虫可以由服务器统一调度 企业版可以用定制开发的更周密 的负荷分担算法控制每个网络爬虫的运行 而且根据网络爬虫的运行状态合理调配 工作量 对于失败的网络爬虫可以及时予以隔离 甚至在其他网管系统的辅助下 监控网络爬虫计算机各个层面的运行状况 2 7 3 爬虫路线规划能力 集搜客 GooSeeker 网络爬虫沿着线索扩展爬行范围 而且不限广度和深度 免 费在线版用户在 MS 谋数台的爬虫路线爬虫路线工作台上规划爬虫路线 主要能力就是 从 抓取到的网址上建立下一级线索 这是深度方向 同时抓取到的下级线索不只一个 那么就是在广度方向进行扩展 总之 网络爬虫抓取网页数据的时候 把一些网址作为广度或者深度方向扩展 的线索 免费在线版只能在定义抓取规则的时候规划爬虫路线 而企业版可以有更 多规划爬虫路线的选择 在抓取结果清洗和入库的时候在深度和广度方向生成线索 这是企业版常用的 方式 此时 企业版 GooSeeker 具有最大的灵活性和控制力 比如 可以用入库脚 本程序任意控制爬虫路线的生成 可以替换 URL 中的参数 可以根据 URL 地址规 律批量生成网址 可以在一批网址中根据一定规则进行筛选等等 最大的灵活性在于爬虫路线的生成时间 当网页抓取用于探索性研究的时候 可以根据需要随时延伸爬虫深度和广度范围 不必在第一次数据清洗过程就把所有 线索都生成好了 其实那时可能还不知道是否有必要做爬行范围延展 而且也容易 实现同一个网址用于多个抓取主题 分别为不同的研究目的服务 2 7 4 爬虫调度和负荷规划能力 集搜客 GooSeeker 网络爬虫是一款高性能网络爬虫软件 多台计算机可为同一 目标协同工作 同一台计算机上能运行多个线程并行抓取网页 那么就需要规划每 个网络爬虫线程的工作内容和工作负荷 以及启动和停止时间等等 免费在线版 GooSeeker 网络爬虫主要依赖周期性网页抓取调度文件 crontab xml 管理网络爬虫 比如 一台计算机上启动多少个线程 每个线程在什么时间启动 每一批包含多少网页 抓取什么主题 按照什么顺序等等 crontab xml 文件是预先 生成好的 比如 使用 crontab xml 生成器 预先生成的缺点是调度爬虫不够灵活 如果爬几十个网站 这个缺点并不显著 如果要爬几百上千个网站 要把所有的网 站目标都编制到 crontab 文件 将是十分繁琐的 企业版 GooSeeker 网络爬虫可以接受服务器下发的任务安排 也就是 crontab 文 件中的每个 step 都可以通过云服务器下发下来 那么在云服务器上可以实现一个复 杂的调度和负荷规划程序 配以爬虫管理程序 能够细致地为每个爬虫安排合适的 抓取任务 2 7 5 极致的开放兼容平台 2 7 5 1 为什么需要开放的可集成的网页抓取软件 如果网络爬虫只是大型 IT 系统的一个模块 集搜客 GooSeeker 网络爬虫能否无 缝地集成到各种 IT 系统中 此类 IT 系统对网络爬虫的需求主要包括 IT 系统可以控制网络爬虫的爬行范围 IT 系统可以控制网络爬虫什么时候启动 每次抓取的批次大小等 IT 系统需要及时获得爬取结果 由 IT 系统负责内容管理 数据挖掘等信息处理过程 IT 系统能够监控爬虫的成功率 可及时修正失败状态 比如 重新启动抓取失败的线 索 2 7 5 2 集搜客网络爬虫的开放接口 显然 一个封闭的网络爬虫软件不能满足上述需求 而集搜客网络爬虫提供标 准的开放的 API 接口 也可以直接从数据库层面进行对接 完美解决无缝集成问题 3 方案优势方案优势 3 1 浪潮浪潮 MPP 数据库优势数据库优势 3 1 1 高性能高性能 列存储技术在大大减少 I O 的同时 能显著提高查询性能 智能索引大幅提高查询性能 高速的数据加载性能 高效的并行 SQL 执行计划 3 1 2 高性价比高性价比 采用多种压缩技术 减少存储数据所需的空间 可以将所用空间减少 1 20 倍 并相应地提高了 I O 性能 采用高压缩技术 能显著减少存储开销 从而帮助 客户减少了数据库整体投入成本 3 1 3 高易用性高易用性 易于实施和管理 只需要传统数据库 1 10 的管理成本 与主要商业智能工具 兼容 如 Cognos SAP BO BIEE SAS SPSS 3 2 浪潮浪潮 Hadoop 优势优势 支持高性能交互式数据分析 无需等待 实时生成统计结果 性能比开源 Hadoop 产品快 10 到 100 倍 提供 PL SQL 以及 R 语言 支持更强的统计分析能力 应用迁移非常方便 支持广泛的 BI 和报表工具 无需编程 方便应用迁移 3 3 浪潮云计算优势浪潮云计算优势 方案中虚拟化软件采用浪潮云海 Incloud Sphere 国产自主研发 并具备当下最 主流先进的虚拟化功能 云管理平台部分采用浪潮云海 Incloud Manager 全自主知 识产权 突破了云数据中心资源管理 调度 多资源池融合等多项核心技术 实现 了真正的安全可控 3 3 1 运营效率提升运营效率提升 通过云海实现系统的搭建与部署 大大提高运营效率 其工作效率的提升不是 以百分之多少来衡量的 而是几倍甚至数十倍的提升 传统的一个操作系统的准备物理环境可能需要几个小时甚至几天 而虚拟化的 环境只需要十几分钟 事实上 只需要人工的几个鼠标点击 其余的时间都是系统 自动工作而不需要人工的干预 最快的时候 搭建一个数百操作系统的应用人工也 只需要配置十几分钟 虚拟层会自动的根据模版生成你需要的工作环境 3 3 2 服务水平提高服务水平提高 云计算环境可以很容易的帮助企业建立业务和 IT 资源之间的关系 使各种应用 和企业的苛刻的业务条件能一一对应 从整个数据中心的视图来看 云数据中心管理平台可以将所有的物理服务器作 为一个大的资源池进行统一的管理 并可以按需的自动进行所有运算资源的人工或 自动调度 因为所有的硬件资源与客户的应用及操作系统隔离 今后不论是物理主机的更 换还是存储的升级 均可以实现应用的零宕机 也许以前的维护需要几天甚至几周 的时间变更管理准备 但现在这个时间被大大的缩减甚至不需要了 我们所有的资 源都可以无中断的按需扩容 3 3 3 实现数据中心的绿色节能实现数据中心的绿色节能 云海的节能控制功能 能够根据业务负载 自动调整虚拟资源在物理资源上的 分布 实现物理资源的动态伸缩 有效降低数据中心的能耗 实现数据中心的绿色 低碳和节能环保 3 3 4 分工细化使得终端用户只需专注自身业务分工细化使得终端用户只需专注自身业务 云海使得普通用户无需自行构建数据中心 即可在线申请并使用数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论