




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、精选优质文档-倾情为你奉上浪潮云海大数据一体机解决方案高端服务器研发部高端容错计算机产品部2013.1目录一 产品简介为应对大数据时代的到来,浪潮集团适时推出浪潮云海大数据一体机,重点面向行业大数据应用,是一体化数据处理的解决方案。采用新型技术体系架构,整合软硬件系统,涵盖数据存储、数据处理、数据呈现等全环节。浪潮云海大数据一体机是公安、金融、电信、交通、医疗、企业等各个行业用户的大数据解决方案理想之选。1.1 浪潮云海大数据一体机总体架构1.2 系列化产品SDA-1:l 满配:CPU:480Core;内存:12TB;存储容量: 144TB;网络:1Gbps、10Gbps或者40Gbpsl 支
2、持线性扩展l 适合数据处理应用:模式计算,商业智能,医疗数据挖掘等。计算能力、I/O能力、存储能力均衡。SDA-2:l 满配: CPU:288Core;内存:6912GB;存储容量: 540TB;网络: 1Gbps、 10Gbps或者40Gbpsl 支持线性扩展l 适合处理密集型的重载应用: 视频处理,图片处理分析,图像渲染,在线交易等。可重构加速器件或众核处理器,硬件加速。二 关键模块介绍HDFS分布式存储解决数据如何存储的问题,Map/Reduce解决数据如何处理问题,HBase解决实时数据库问题,Hive解决基于SQL的数据分析和挖掘。2.1 Hadoop分布式文件系统:使用低成本存储和
3、服务器构建 存放PB级别的海量数据 高可扩展性,实际生产环境扩展至4000个节点 高可靠性和容错性,数据自动复制 ,可自我修复 高带宽,高并发访问 2.2 Hadoop MapReduce计算框架:为离线数据分析而设计,基本上是个利用数据并行性进行分布运算而后汇总结果的计算框架。通用的计算框架,松耦合,非常利于线性扩展。与HDFS一起使用,具有容错特性,数据本地化处理,通过移动计算,而非移动数据来实现高效数据处理。分析问题能够被并行化,且输入数据集可以被切分 一个Map函数,在第一阶段计算<Key,Value>对 一个Reduce函数,在第二阶段用于汇总Map函数的结果 2.3 H
4、Base 分布式数据库HBase是一个分布式的、按列存储的、多维表结构的实时数据库, 为高速在线数据服务而设计 NoSQL 面向列、可压缩,有效降低磁盘I/O,提高利用率。 多维表,四个维度,其中三个维度可变,适合描述复杂嵌套关系。 灵活的表结构,可动态改变和增加(包括行、列和时间戳)。 支持单行的ACID事务处理 分布式系统 高性能,支持高速并发写入和高并发查询; 可扩展,数据自动切分和分布,可动态扩容,无需停机; 高可用性,建立在HDFS分布式文件系统之上。 2.4 Hive数据仓库Hive是一个建立在hadoop之上的数据仓库,用于查询和分析结构化海量数据 采用HDFS进行数据存储 采用
5、Map/Reduce进行数据操作 基本特点: 提供类似于SQL的查询语言 高扩展性(scale-out),动态扩容无须停机 针对海量数据的高性能查询和分析系统 提供灵活的扩展性 复杂数据类型,扩展函数和脚本等 三 浪潮云海大数据一体机解决方案优势3.1 高性能l 专用的大数据存储服务器:针对大数据的应用特点,浪潮凭借在服务器及存储方面的领先优势,自主开发了大数据存储服务器,具备高密度、大容量存储特性。l 胖节点加速方案:胖节点拥有英特尔至强平台的最强性能、最大内存、最高RAS特性保障。l 闪存加速技术:将闪存盘放在整个计算缓存里面做高速缓存,针对不同应用类型,实现全局的算法,降低冗余率,使整个
6、平台的计算节点、存储节点大大提高运行效率。l 高速通信网络:通信网络选用性能领先的万兆网络或者IB网络,实现一体机内部的高速互联,消除网络瓶颈。l 软件性能优化ü IO瓶颈易于解决 ü 可以发挥大规模并行运算优势 ü 支持大规模并行装载,装载前无需数据格式化,节点越多装载速度越快 ü 优化系统任务调度策略,对任务实现实时监控,ü 动态调整任务执行资源,减少慢任务数量,提高整体性能 3.2 高可靠性l 服务器本身冗余特性:节点的硬盘、风扇、电源等关键部件都是冗余设计,保障了节点本身的可靠性。l 链路冗余:网络可实现物理冗余设计,避免单点故障对系统
7、的影响。l 采用Reed-Solomon算法,优化分布式散列数据布局,满足文件高并发和高带宽双重需求同时平衡数据冗余度。采用两副本加编码的方式相对三副本最大可实现30%空间节省 。l 智能失败任务识别:自动将任务转移到备份数据节点执行,单个节点的故障不影响整个任务的执行,有效应对计算单元失效。3.3 高性价比l Hadoop的诞生本身就是为了在低成本的通用硬件集群上运行分布式计算框架。l 浪潮云海大数据一体机具备优异的线性可扩展,满足了未来业务量增长的需求,有效保护了现有投资,降低总体CTO。3.4 易管理l 本地管理平台:每套大数据一体机中都配有本地管理平台,使系统管理人员方便集中控管一体机
8、。l 远程集中管理平台:HDFS配置界面HBase配置界面监控管理界面3.5 专业化服务l 实施服务:云海大数据一体机会在出厂前进行产品预装及严格的可靠性测试,保障产品的品质。产品实施实现客户现场的一体化交付,真正做到插电即用,极大地降低了客户利用大数据的门槛。l 售后服务:浪潮建立了以山东济南客户服务总部为中心、其他各省、直辖市设立服务分中心的覆盖全国的完备售后体系,所有客服工程师都是原厂经验丰富的服务工程师。浪潮已经连续九年获得售后服务满意度金奖。四 竞争性分析4.1 跟传统关系型数据库对比分析机型浪潮云海大数据一体机Oracle Exadata一体机类型新型的Hadoop解决方案传统关系
9、型数据库(RDBMS)适用场景 数据规模10TBEB规模 结构化,半结构化,非结构化混合存储和处理 海量数据的ETL和数据挖掘分析应用 海量数据的高并发随机访问 数据规模TB以下 结构化数据的存储和处理 联机交易应用 GB级别的数据分析和ETL架构 无共享MPP架构 单一实例 Share-all架构可用性 默认三份数据冗余,用户可依据需求进行调整 备用元数据节点,故障后自动切换 数据损失后,可以在剩余机器上自愈 故障节点作业可以转移到其它节点 无需第三方支持,HBase提供基于日志的容灾解决方案 大部分产品依赖RAID技术进行数据冗余 大部分产品不具备数据自愈能力,需要数据备份 节点故障后,S
10、QL任务中断,不能自动转移 部分主流商业数据库,无需第三方支持提供基于日志的容灾解决方案性能 IO瓶颈易于解决 可以发挥大规模并行运算优势 支持大规模并行装载,节点越多装载速度越快 IO瓶颈难以解决 难以发挥大规模并行运算优势 装载性能有限,数据需要格式化可扩展性 存储能力,性能,并发访问,既可纵向扩展硬件得到提升,也可横向增加节点进行线性扩展 国内外均有大量数百,上千节点的部署案例 海量数据环境中,可联机改变数据结构 存储能力,性能,并发访问能力主要通过硬件纵向扩展提升,难以进行线性扩展 Share-all集群架构规模难以突破40节点 海量数据环境下,改变数据结构代价大,且影响业务访问接口
11、标准文件访问接口(FTP,NFS等) 部分兼容SQL92(ODBC/JDBC) Native JAVA访问接口 Rest访问接口 Thrift访问接口 完整的SQL访问接口(ODBC/JDBC,专有客户端等) 丰富的开发,集成,管理工具其它 低廉的软硬件成本,完全开放架构 无字符集选择问题 支持基本权限管理和透明数据加密解密 以开源文档为基础,提供新增特性接口和使用说明 高昂的软硬件成本 需要事先确定字符集 部分产品支持完善权限管理和透明数据加密解密 完整的文档4.2 跟开源Hadoop对比分析浪潮云海大数据一体机直接使用开源Hadoop新型的Hadoop解决方案开源Hadoop 一体化交付方
12、案型产品,经过系统优化,实现了软件、硬件的最优性能 全面测试的企业级发行版,保证长期稳定运行,集成最新开源的和自行开发的补丁,用户可以及时修正漏洞保证各个部件之间的一致性,使应用顺滑运行 无相关经验,单纯地进行硬件和软件环境的搭建 针对HDFS数据节点的读写选取提供高级均衡算法,提高系统扩展性,适合不同配置服务器组成的集群 简单均衡算法,容易在慢速服务器或热点服务器上产生读写瓶颈,最慢服务器成为系统性能瓶颈 根据读请求并发程度动态增加热点数据的复制倍数,提高Map/Reduce任务扩展性 无法自动扩充倍数功能,在集中读取时扩展性不强,存在性能瓶颈 为HDFS的NameNode提供双机热备方案,
13、提高可靠性 主NameNode节点失效时,自动切换到备用NameNode NameNode是系统的单点破损点,一旦失效系统将无法读写 实现跨区域数据中心的HBase超级大表,用户应用可实现位置透明的数据读写访问和全局汇总统计 允许跨多个物理数据中心建立分布式大表,突破单一数据中心由于空间和供电限制无法建立超大集群的限制 无此功能,无法进行跨数据中心部署 可将HBase表复制到异地集群,并提供单向、双向复制功能,实现异地容灾 没有成熟的复制方案 在HBase中,根据数据局部性、服务器Region数、表的Region数来实现负载均衡,适合多用户共享集群创建多张大表的应用 只根据Region数量进行
14、负载均衡,容易产生系统不均衡 基于HBase的分布式聚合函数,比传统方式提高10倍以上效率 无成熟方案 提供独有的基于浏览器的集群安装和管理界面,解决开源版本管理困难的问题,提供网页、邮件方式的系统异常报警 无图形化管理界面 完善的售后服务体系 无售后服务五 成功案例5.1 某城市智能交通系统项目背景l 年过车信息数据量达数百亿级记录规模l 市局和区县的数据中心两级架构,分布式存储,集中管理。 l 支持多条件组合快速查询:卡口名称、车道名称、车辆类型、车牌类型、车牌号码、车身颜色、车牌颜色、车速范围、车长范围、号牌段范围、时间范围。 l 支持海量过车信息的模糊匹配检索。l 支持各种统计分析、数
15、据挖掘:车辆违章率统计、过车识别率统计、套牌分析、关联性分析、黑名单等系统需求l 数据量(过车记录+违章图片+数据冗余+异地容灾): 6PBl 数据采集终端: 12000个,写入性能 >24000记录/秒l 用户数: >1000过车记录单个区数据中心全市数据总和每秒钟 6MB/s1200 条记录/s120MB/s24000条记录/秒每小时20GB/hour432万条/小时400GB/hour8640万条/小时每天480GB/day1亿条/天9.6TB/day20亿条/天每月14.4TB/month30亿条/月288TB/month600亿条/月三个月43.2TB/3months90
16、亿条/三个月0.8PB/3months1800亿条/三个月违章车辆图片数据单个区数据中心全市数据总和每小时 1.8GB/h36GB/h每天43.2GB/day864GB/day每月1.2TB/month24TB/month三个月3.6TB/3months72TB/3months难点分析传统数据库方案潜在问题:l 初始投入和后期维护,扩展成本巨大 l 人为分库,灵活性差。l 混合数据类型支持 l 规模仅能支持单个区域中心l 应用可靠性差,难以保证业务连续性l 代码复杂l 系统可维护性浪潮云海大数据一体机解决方案拓扑图智能交通应用技术方案规模、指标、特点l 该方案使用SDA-1、SDA-2,共计5
17、80节点l 集群性能:写入条记录/秒,20000主键查询/秒l 系统特点:ü 解决了海量过车信息(结构文本+图片)存储问题ü 解决了分布式数据查询问题,应用系统可以接入任何一个本地数据中心,并访问全库数据ü 系统提供了易于使用的API,方便进行二次开发ü 系统做了较多优化,性能很好的满足了项目的实时性要求ü 系统稳定性强,建立在X86服务器平台,自动进行数据迁移和数据恢复5.2 某省级运营商清帐单查询系统原有方案:小型机+存储+Oraclel 成本高、扩展性差ü 服务器采用P595的两个分区(48CPU),部署不同的地市,互为主备;存
18、储使用2台DS8300,RAID5方式,有效容量54TBü 数据量大,增长迅速,但数据库的扩容工程施工风险高l 数据风险高ü 灾难恢复依赖磁带,业务中断时间长l 效率低ü 关系数据库处理困难,查询慢(超过15秒)ü 关系数据库入库慢,常有清单文件积压,不能实时入库,从而不能实时查询新清账单中心方案l 底层为浪潮提供的大数据解决方案平台,上层由应用开发商开发业务程序,对入库和查询进行业务处理。l 这种架构有效的屏蔽了底层的功能,对上层来说,只需要调研相关接口即可。数据的分发、复制、任务调度、容错都是由系统软件来控制。大规模的PC具备强大的处理能力和网络带宽,同时具备线性的横向扩展能力。3份冗余的数据保证对硬件的容错和读处理的支持。l 存储使用69台PC机身硬盘作分布式存储DataNode,每台PC配置6TB磁盘容量,按每份数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 数字化展厅运营监控方案
- 高质量数字化展品呈现技术
- 股权投资合作协议范本及解析指南
- 智慧城市交通管理技术方案
- 季节性安全施工方案试卷教案(2025-2026学年)
- 米面食品成型技术创新企业制定与实施新质生产力项目商业计划书
- 老年人生活记录摄影创新创业项目商业计划书
- 木材初级加工国际认证获取创新创业项目商业计划书
- 消防队员技能培训教材汇编
- 二下错题公开课案例试卷教案(2025-2026学年)
- 地下车库安全知识培训课件
- 医院营养评估课件
- 恒丰银行笔试题库及答案
- 诺如病毒感染防控知识培训
- 2025版CSCO胰腺癌指南精要
- 水稳试验段施工总结与质量控制报告
- 《中国急性缺血性卒中诊治指南2023》解读
- 《生产许可证企业实地核查检查办法》现场评审指引
- 初三班主任班级管理课件
- 统编版2025二年级语文上册第二单元综合素质达标卷(含答案)
- 2025年保密知识竞赛题库及答案(共80题)
评论
0/150
提交评论