大数据方案介绍_第1页
大数据方案介绍_第2页
大数据方案介绍_第3页
大数据方案介绍_第4页
大数据方案介绍_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

典型云计算平台架构典型云计算平台架构 开源成熟的开源成熟的 hadoop 生态体系生态体系 从企业的技术选型角度 hadoop 能满足大数据场景下绝打多数需求 同时在技术可行 性与成本上 具有无可比拟额优势 1 Hadoop 是架构在廉价的硬件服务器上 不需要非常昂贵的硬件做支撑 2 开源的产 品 免费的 基于开源协议 可以自由修改 可控性更大 3 因为属于二次开发 同时因为 有非常活跃的社区讨论 对开发人员的能力要求相对不高 工程师的学习成本也并不高 4 当集群规模非常大时 开发成本和维护成本会凸显出来 但是相对于自研系统来说的话 还是 便宜的很多 hadoop 的整个生态体系 涵盖了系统数据存储 数据收集 数据导入导出到关系数据 库 并行计算框架 数据序列化处理与任务调度 数据挖掘和机器学习 列式存储在线数 据库 元数据中心 工作流控制 系统部署配置监控 可视化处理等等方方面面 大数据分析平台大数据分析平台 一 海量数据存储及扩展能力 基于分布式 HDFS 文件系统存储 HA 高可用配置 数据多副本 异地备份容灾能力 以最经济的硬件成本支持海量数据存储和扩容 二 高负载和海量数据处理能力 基于 yarn 之上的资源管控与调度模型 支持资源的动态配置与热启动 公平科学的任 务调度算法 达到资源利用的最大化 合理化 优先分配就近的运算节点 尽可能降低网 络带宽 高容错能力 支持任务重试和资源预估 不受个别越算节点故障影响 支持动态 扩充运算资源 能在海量的服务器集群中执行高复杂度 高资源需求 高运算密集型的任 务 三 灵活快速的平台搭建及全面运营监控指标体系 一键式的平台搭建 支持快速搭建集群环境 灵活方便的配置界面 可针对集群 单 机进行系统配置及调优 提供自定义的服务模块安装 资源分配 权限管理 指标体系全 面的监控管理 良好的可视化界面 提供自定义脚本的预警与处理 四 多平台 多结构的数据接入与处理 支持各种格式 多数据源的数据导入 从系统日志 数据库 第三方数据源等导入数据 到集群环境 进行快速地数据清洗 转化 建模 固化 提供各业务模块进行运算处理 良好的模板配置 支持多 ETL 任务自动生成 运行 代码规范统一 五 体验良好的交互式展示界面及报表工具 除了展示各个常规指标及运算记过 通过专业的统计数据分析系统设计方法 理清海量 数据指标与维度 按主题 成体系呈现复杂数据背后的联系 将多个视图整合 展示同一数 据在不同维度下呈现的数据背后的规律 帮助用户从不同角度分析数据 缩小答案的范围 展示数据的不同影响 具备显示结果的形象化和使用过程的互动性 便于用户及时捕捉其 关注的数据信息 Hadoop 大数据分析平台解决方案说明大数据分析平台解决方案说明 简介简介 本文档描述本公司 Hadoop 大数据分析平台解决方案的具体实现细节 本平台采用开源 Hadoop 组件搭建为一个通用目的的大数据分析平台 可用于各领域 包括 教育 医疗 电信 银行等大数据应用客户 平台具备如下特点 1 一键安装 2 可视化运行维护 3 自由的扩展性 4 完全开源 并于最新的稳定版本同步 5 无缝集成 Hadoop 生态领域的各个数据分析组件 6 可视化大数据实验环境 方案采用的方案采用的 Hadoop 模块列表模块列表 HDFS 用于大规模数据存储 Yarn 系统资源管理 Hive 基于 Mapreduce 的 SQL 数据访问 Pig 脚本式数据处理 Storm 流式数据处理 Spark Spark Streaming 内存计算框架 HBase Key Value 数据存储 MapReduce 离线批处理计算框架 Kafka 消息队列式流失数据接入 HCatlog 元数据管理 Ambari Hadoop 平台监控 管理界面 ZooKeeper 保证系统无单点运行 Oozie 工作流式任务调度 方案的硬件方案方案的硬件方案 本方案对于硬件没用特别要求 平台可以部署在 Amazon 等云服务上 可以部署在实体物 理 PC 服务器构成的集群上 也可以部署在基于 OpenStack 等其他虚拟节点上 大数据平台功能列表大数据平台功能列表 在开源 Hadoop 模块的基础上 本公司的 hadoop 大数据平台对各模块做了整合 从而形成 一个通用的 企业级的数据平台 系统结构图系统结构图 平台功能模块平台功能模块 系统管理系统管理 系统管理模块提供如下功能 1 节点管理 负责集群节点控制 可以增加 停用 启用或者移除节点 2 服务管理 对节点上每个服务进行管理 如 HDFS Yarn HBase 等 包括停止 启动 重启 3 对象管理 Hive HBase HDFS 数据对象的增删改查 4 日志审计 操作日志记录了所有改变系统配置的操作 通过日志的查询审计 发现不 当操作 保证系统安全稳定运行 多租户管理多租户管理 多租户管理模块提供如下功能 1 用户管理 负责用户的增删改查 2 角色管理 负责角色的增删改查 3 权限管理 负责授权和取消授权 4 队列管理 负责 Yarn 队列管理 5 资源使用规则管理 负责资源使用规则的增删改查 系统监控系统监控 系统监控提供如下功能 1 集群监控 显示集群 cpu 内存 网络 IO 使用情况 2 节点监控 显示节点上每个组件服务的状态及运行情况 显示节点 cpu 内存 网络 IO 使用情况 3 任务监控 监控节点上每个作业的完成情况 调度管理调度管理 Prospector 大数据平台提供所有类型的任务调度管理 Prospector 大数据平台的任务类型包 括 数据集成任务 数据预处理任务和数据分析任务三类 Prospector 大数据平台可以对所有类型任务实线以下类型调度 一次性执行 定期执行 条件执行 数据集成数据集成 Data Integrator 数据集成理模块负责将外部数据源导入到 Prospector 大数据平台 同时也负责将数据分享 到其他的外部数据存储 睿帆 Data Integrator 用于将外部数据源的数据集成到 Hadoop 大数据平台 Data Integrator 支持三大类数据源 1 数据库 NoSQL 系统 2 文件系统 FTP HDFS 3 消息队列 Kafka ActiveMQ 数据库 数据库 NoSQL 系统数据源系统数据源 DB2 Oracle Teradata MySQL Netezza PostgreSQL Sybase IQ Vertica Greenplum Hive HBase 文件系统与文件格式文件系统与文件格式 Apache Log CSV TSV HTML XML JSON AVRO Parquet Binary Key Value ORC 消息队列数据源消息队列数据源 Kafka ActiveMQ 数据治理 数据治理 Data Governor 数据治理模块负责对导入到大数据平台中的数据进行处理 对数据进行清洗 转换 过滤 聚合 脱敏等 将数据转化成有意义的数据供分析人员使用 数据治理模块同时负责数据质量管理 数据质量数据质量 1 数据质量评估 提供全方位数据质量评估能力 如数据的重复性 关联性 正确性 完全性 一致性 合规性等 对数据进行全面体检 2 数据质量检核和执行 提供配置化的度量规则和检核方法生成能力 提供检核脚本的 定时调度执行和第三方调度工具的调度执行功能 3 数据质量监控 系统提供报警机制 对检核规则或方法进行阀值设置 对超出阀值的 规则进行不同级别的告警和通知 4 定制化数据质量报告 系统提供了丰富的 API 可进行定制化数据质量包括开发 另外 系统内置了常用质量报告 5 强大的数据质量问题分析能力 提供多种问题分析能力 包括血统分析 影响分析 全链分析 定位问题产生的根源 数据整理与转换数据整理与转换 1 数据整理 包括数据过滤 数据合并 数据拆分 数据复制 数据排序等数据预处理 功能 2 数据转换 计算产生新变量 重新赋值 统计汇总 Rank 生成随机数 替换缺失值 空值处理 Lookup 等数据转换功能 数据分析 数据分析 Data Analyzer 数据分析模块提供应用开发环境 集成简化机器学习算法 提供图形化的拖拽界面供数据 分析使用 应用开发用户通过可视化方式定义工作流完成下数据分析 统计报表 数据挖掘 机器学 习 文本挖掘 拖拽式可视化开发环境拖拽式可视化开发环境 企业数据分析用户通过可视化开发环境定义数据分析的逻辑 Data Analyzer 将其转化成对 底层数据分析算法的调用 并提供任务执行 任务调度和任务管理功能 Data Analyzer 样例样例 企业数据分析师可以同过 Data Analyzer 完成一系列数据分析 聚类聚类 通过聚类算法 Data Analyzer 可以把企业客户分成相似但不相同的 又无直接关联关系的 客户群体 显而易见是聚类结果可以帮企业客户分群 决策树决策树 通过决策树算法 Data Analyzer 可以把客户根据不同属性的取值划分到固定的类别 例如 高收入 高潜力 高风险等 而这些通过属性的分类规律很可能隐藏在数据中而从未被发 现 属性关联属性关联 通过属性关联算法 Data Analyzer 可以发现客户年龄 学历等属性与收入 信用记录之间 的潜在关联关系 从而帮助企业制定有针对性的客户发展计划 预测推荐预测推荐 通过关联算法 Data Analyzer 可以根据客户信息预测他 她在某方面 音乐 电影 的兴趣 度 从而协助企业的精准营销 数据可视化 数据可视化 Data Viewer Prospector 采用 Graph Viz D3 Javascripts 和 Google Charts 的技术框架实现如下数据的可 视化 结构化数据 柱状图 非结构化数据 网络图 序列图等 平台运维平台运维 本公司对于 Hadoop 大数据分析平台方案提供升级服务和 Hadoop

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论