版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据分析一体机目录1大数据概述2一体机概述3研发思路4应用分析2大数据的4V特征“4V”是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。大数据将有新型的展现方式:大型控制中心和移动终端,实现数据的实时处理和快速决策。体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs
2、传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效大数据的特征大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大量化(volumes)、多类别(variety)的数据中提取价值(value),属于IT 领域新一代的技术与架构 用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合数据分析的价值分析技术:数据处理:自然语言处理技术统计和分析:A/B test; top N排行榜;地域占比;文本情感分
3、析数据挖掘:关联规则分析;分类;聚类模型预测:预测模型;机器学习;建模仿真大数据技术:数据采集:ETL工具数据存取:关系数据库;NoSQL;SQL等基础架构支持:云存储;分布式文件系统等计算结果展现:云计算;标签云;关系图等存储结构化数据:海量数据的查询、统计、更新等操作效率低非结构化数据图片、视频、word、pdf、ppt等文件存储不利于检索、查询和存储半结构化数据转换为结构化存储按照非结构化存储解决方案:Hadoop(MapReduce技术)流计算(twitter的storm和yahoo的S4)一些相关技术1、对现有数据库管理技术的挑战传统的数据库部署不能处理数TB 级别的数据,也不能很好
4、的支持高级别的数据分析。急速膨胀的数据体量即将超越传统数据库的管理能力。2、经典数据库技术并没有考虑数据的多类别(variety)SQL(结构化数据查询语言),在设计的一开始是没有考虑非结构化数据的。3、实时性的技术挑战:一般而言,像数据仓库系统、BI应用,对处理时间的要求并不高。因此这类应用往往运行1、2天获得结果依然可行的。但实时处理的要求,是区别大数据应用和传统数据仓库技术、BI技术的关键差别之一。网络架构、数据中心、运维的挑战:技术架构的挑战:人们每天创建的数据量正呈爆炸式增长,但就数据保存来说,目前的技术改进不大,而数据丢失的可能性却不断增加。如此庞大的数据量首先在存储上就会是一个非
5、常严重的问题,硬件的更新速度将是大数据发展的基石。领域共性问题大数据处理技术手段String ConvertCountFilterString TruncateSortIndexingJoinSequenceExtractAggregateSocial MediaMachine&Sensor DataMediaWeb ClickstreamMobile AppsCall LogSplunkBI/ ReportingCustomizedSolutionsDatabase /Data Warehouse较常见的解决方案大数据储存大数据处理数据分享数据检索数据分析数据展现分布式软件架构并行计算框架分
6、布式存储横向扩容(Scale-out) 架构存储与运算合一Big Data 运算与存储,单一架构解决9传统并行计算架构并行计算 + 分布式存储运算存储传统存储架构计算与存储一体,计算向数据靠拢,高效专用存储模式为程序员屏蔽通性、并发、同步与一致性等问题任务之间无依赖(share-nothing),具有高系统延展性 (scale-out)利用Hadoop 的特性目录1大数据概述2一体机概述3研发思路4应用分析10一体机概念和分类一体机是软件与硬件相结合的集成系统产品,其一般集数据处理、数据传输、数据存储三方面于一体。一体机通过预先集成、测试、优化,能够实现快速部署、简化IT基础架构,节省资源,提
7、升系统高可用性和可扩展性。类型产品数据仓库一体机Oracle Exadata、Teradata、IBM PureData System(for nzsql)、EMC Greenplum数据库一体机Oracle Exadata、IBM PureData System(for DB2)、华为FusionCube(for Oracle)中间件一体机Oracle Exalogic、IBM Pure Application System内存数据库一体机SAP HANA、Oracle Exalytics其他IBM Pure Flex System、HP VirtualSystem、思科 FlexPod等服
8、务器软件存储网络管理11从IT基础设施发展角度看,复杂的系统集成模式已经成为业务创新的“绊脚石”简化(预集成)、优化的基础设施才能为业务应用“云化”提供更好的保障大型机一体化、预集成系统集成一体化预集成专有技术标准运行专有软件运维成本极高分层(服务器、网络、存储)现场集成通用平台,缺乏对平台软件优化开放的技术标准集成及运维成本高简化,将平台软件需要的基础设施预集成优化,针对平台软件非功能需求进行优化沿用开放的技术标准运维成本低平台即服务软件即服务数据即服务云Gartner Data Center Conference presentationGartner数据中心大会专题讲座Will Fabr
9、ic Computing Change the Concept of the Traditional Server?”, December 2011光纤运算是否会颠覆传统服务器的概念 2011年12月“By 2015, 35% of total server shipped value will be as integrated systems.” “到2015年,35%的服务器都将以集成系统方式交付”Unified Computing System (UCS)2012.42012.9FusionCubeExadata数据库一体机Exalogic中间件一体机Exalytics内存分析机Big
10、Data 大数据机从2008年开始,基于开放的技术标准,国内外厂商纷纷开始研制一体机。Oracle率先推出数据库、中间件、数据分析以及大数据等多款一体机产品一体机架构负载均衡中间件数据库服务器存储单机,集群单实例,多实例横向、纵向扩展能力CPU/内存比高I/O配置单机HA,群集高随机,高顺序读写性能存储单机,多机串行,并行交易应用数据应用管理应用其他系统高端中端PC服务器刀片存储传统架构一体机架构一体机通过把传统架构中的主机、存储、网络、管理软件、数据仓库或数据库或中间件或虚拟化软件进行集成打包,形成一体化解决方案,降低总拥有成本(TCO),提升整体性能。一体机不是简单的将软硬件进行堆砌,而是
11、在软硬件架构上对硬件性能、软件性能进行平衡优化,以克服传统解决方案在数据管理、I/O读写等方面的瓶颈,针对性的增强系统整体处理能力。15一体机发展背景(一)-海量数据分析驱动 随着信息技术在人类各项生产生活中的应用不断拓展,可分析的数据呈现出爆炸式增长。高效、迅速地从海量数据中挖掘出潜在价值并转化为决策依据已经成为各行业信息化面临的重大挑战。16一体机发展背景(二)-大并发承载能力驱动随着信息系统的深入应用以及企业对信息系统的依赖程度增加,对软硬件平台的并发处理能力、海量数据处理能力、系统响应速度、软硬件平台稳定性、软硬件平台可扩展性等方面的能力有了更高的要求,且呈上升趋势。并发处理能力海量数
12、据处理能力系统响应速度软硬件平台稳定性软硬件平台可扩展性17一体机发展背景(三)-简化IT需求驱动由于前期IT技术与理念的局限性,信息化发展过程中形成了许多复杂的“竖井式”应用,对信息化管理带来极大挑战。通过简化IT基础架构,提高硬件资源利用率,减少投资采购成本、降低设备能耗和运维成本等措施提升信息化水平已成为共识。设备品牌型号繁杂集成复杂度高资源利用率低运维管理难度大面临挑战设备型号标准化工业化预集成负载动态均衡统一管理平台解决思路机房空间不足电力能耗大运维成本高面临挑战简化IT架构提升软硬件集成度减少设备数量选用绿色节能设备解决思路18软硬件资源池应对简化IT架构需求,目前业界有软硬件资源
13、池与专业化一体机两种主流技术路线可供选择,相比较一体机产品适用于单一化(数据库、中间件、虚拟化之一)的场景,软硬件资源池适用于多用途的通用场景。海量数据分析简化IT适用于专业性要求低的通用场景开放性强耦合度低可采购软硬件自行集成搭建适用于专业性强的场景开放性弱耦合度高由专业厂商预集成封装专业化一体机一体机发展背景(四)-技术路线19目录1大数据概述2一体机概述3研发思路4应用分析20存储管理分析可视化软硬件一体的创新数据处理平台针对不同应用的系列化产品业务支持团队提供全国产的自主可控方案数据获取重新设计软件体系结构研发思路:基于开源软件和国产硬件构建应用级一体机采用浪潮的设备做一体机的硬件支撑
14、适用于大数据处理的计算单元有针对性设计和开发的适用于大数据处理的通用计算单元、轻量计算单元和重载计算单元。计算随数据分布弹性可扩展业务连续性保证在Hadoop上有一定拓展JobTrackerDataNodeCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUDataNodeDataNodeDataNodeNameNode主备备主备备主备备主备备数据本地化(计算随数据分布)是指并行计算框架智能地将计算任务指派到存储着该任务所需数据的节点,从而避免传统分布式计算中严重的数据传输瓶颈。Job MapCPU计算和存储合一DataNodeCPUCPUCPUCPUCP
15、UCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUDataNodeDataNodeDataNode主备备主备备主备备主备备CPU业务连续性保证 是传统分布式计算中最为复杂的开发目标。通常当系统规模扩展至百节点以上时,就必须应对计算单元失效,显式地保存和恢复失败任务。浪潮大数据一体机能够智能识别失败任务,自动将其转移到备份数据节点。使用浪潮的底层保障优化系统任务调度策略,对任务实现实时监控,并动态调整任务执行资源,减少慢任务数量,提高整体性能专注性能提升和优化目标:数据分析一体机(业务级)全环节覆盖存储、管理、展现、分析处理密集型的重载应用可重构加速器件或众核处理器,硬件加速P-1数
16、据处理应用计算能力、I/O能力、存储能力均衡P-2视频处理等行业关键数据处理系统研发工作组织实施(建议)设备到位基础环境搭建 概念规划2013.11.1-12.31一体机规划研究思路确定一体机0.1版2014.3.1-5.31一体机产品工艺完善10.1-12.312015.1一体机批量生产6.1-9.30软件平台测试、提升一体机整体设计概念验证2013.12-2014. 2熟悉、掌握一体机研发组织实施包含测试环境搭建、技术验证、产品规划、一体机原型详细设计、一体机试生产、一体机规模生产等六个阶段。目前以人数上以学生主体,如果有应急需要,则以社会招聘为主体。28目录1大数据概述2一体机概述3研发
17、思路4应用分析29应用分析-案例Exadata具有业内普遍认同的最强OLTP处理能力、产品成熟度较高、采用shared-nothing+shared-disk的混合架构, IO吞吐能力强、存储智能化扫描、存储索引; 适用于OLTP与OLAP两种系统、与公司信息系统数据对接程度高;性能扩展方面介于线性扩展与非线性扩展之间,最多可扩展至8个满配机柜(64台计算服务器);OLTP场景测试表现良好,高传输性能,业界成功案例丰富,产品开放性较低,兼容性有待测评,整体拥有成本(TCO)相对较高。华为FusionCube遵循开放架构标准,于12U机框中融合刀片服务器、分布式存储及网络交换机. 并预集成了虚拟化平台及云管理软件;实现了一站式交付、家电化安装;资源可按需调配、线性扩展;合作伙伴:SAP,TRS等。案例:拓尔思-华为信息采集一体机是一款软件与硬件集成并优化整合的产品,可实时监控、采集Internet网站内容,自动对信息进行过滤、分类、排重等智能化处理,全方位信息查询等功能。一体机软硬件进行了优化整合,在空间占用、采集性能、能耗、成本、管理等多方面具有优势。该信息采集
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建立并规范各项制度
- 配电间制度规范要求
- 酒店餐厅制度大全规范
- 会议室管理规范制度
- 墓区安全制度规范
- 餐饮公司制度规范要求
- 燃气服务规范制度
- 非规范性文件公示制度
- 餐厅餐具使用规范制度
- 学业教授制度规范
- 2025年物业管理中心工作总结及2026年工作计划
- 雨课堂学堂在线学堂云军事理论国防大学单元测试考核答案
- 马路切割承包协议书
- 多源医疗数据融合的联邦学习策略研究
- 2025至2030中国工业边缘控制器行业运营态势与投资前景调查研究报告
- 磁电感应式传感器课件
- 学校控辍保学工作流程及四书一表一单
- 2026届湖南省常德市石门一中生物高二第一学期期末统考试题含解析
- 20052-2024电力变压器能效限定值及能效等级
- 冷渣机调整课件
- 地埋式生活污水处理工艺技术方案
评论
0/150
提交评论