软件项目开发与设计大数据平台工程技术方案建议

上传人：无*** IP属地：河北上传时间：2024-07-22 格式：PDF 页数：48 大小：8.56MB 积分：12 举报 版权申诉

已阅读5页，还剩43页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

软件项目开发与设计大数据平台工程技术方案建议

1.1概述

1.1.1项目整体概述

随着信息化程度的加深，以及移动互联网、物联网的崛

起，人们产生的数据急剧膨胀，传统的数据处理技术难以支

撑数据大量的增长和处理能力。经过近几年的发展，大数据

技术逐步成熟，可以帮助企业整合更多的数据，从海量数据

中挖掘出隐藏价值。大数据已经从“概念”走向“价值”，

逐步进入实施验证阶段。人们越来越期望能实现海量数据的

处理，从数据中发现价值。

**平台是为监控基站告警信息、管理基站用户设备和运

行情况、合理调度各地市维护人员、准确掌握基站备用电源

各阶段数据、保障用户设备在线及减少维护成本、并且支持

内部用户和外部用户的自动派单功能而建设的IT服务平台。

该平台包括以每个行业用户为单位的智能推送点播应答/

报表智能推送、基站资源/电源数据的业务建模分析、天气环

保等相关数据、对内外自动派单、辖区邮政运维状态的大屏

展示等主要功能模块。**邮政服务平台对前述功能的支撑，

提供基站备用电池的监控管理，进行断电保障、使用效能等

方面的应用分析，为备电时长提供修正依据。

**公司已深刻认识到数据战略对企业运营以及企业未来

发展方向的重要性。基站行业的本质是邮政信息管理管理与

挖掘，核心是数据，载体是平台，关键是用户体验，发展趋

势是互联网与**的深度融合，要提升大数据处理基站数据贡

献度。因此，要深化互联网思维理念，稳步推进互联网金融

产品和服务模式创新，积极利用移动互联网、大数据等新技

术新手段，沉着应对冲击和挑战，实现传统基站与互联网融

合发展。做好海量异构数据的专业化整合集成、关联共享、

安全防护和维护管理，深度挖掘数据内含的巨大价值，探索

**业务创新，实现数据资源的综合应用、深度应用，已成为

提升企业核心竞争力，实现企业信息化可持续发展的关键途

径。以大数据项目建设作为契机，凝聚中国**优势力量，全

面梳理数据资源，完善数据体系架构，自主掌握大数据分析

邮政信息关键技术，加速大数据邮政信息资源的开发利用,

将数据决策化贯穿到经营管理全流程，建设智慧基站，提升

核心竞争力。

（一）对XX运行设备的集中监测管理

提供基站监控告警、合理调度；提供基站备用电池的监

控管理、进行断电保障等。。

（二）开发大数据资源，支撑全行经营管理创新

构建基站大数据平台，实现更广泛的半结构化、非结构

化数据集中采集、存储、加工、分析和应用，极大地丰富中

国**的信息资源，同现有的企业级数据仓库和历史数据存储

系统一起，形成基础数据体系，提供支撑经营管理的各类数

据应用。

（三）对XX整体设备运行周期内的统计分析

建设XX基站离线数据分析、实时数据/流数据分析集群和

各类数据分析集群，提供高性能可扩展的分布式计算引擎，

通过数据挖掘、计量分析和机器学习等手段，对丰富的基站

大数据资源进行开发使用，并将数据决策化过程结合到风

控、营销、营运等经营管理活动。

（四）对内部和外部运维人员系统派单管理

结合基站大数据项目的落地实施，建立起一支基站大数

据技术和分析人员队伍，具备自主运营和开发基站大数据分

析的能力，以更好推动业务创新，提升中国**核心竞争力。

（五）邮政信息服务平台及后台分权分域管理能力

通过统一权限管理，从后台分权分域进行信息化建设。

另外可视化角度进行操作，方便查看和管理。

（六）支持在微信、PC端不同入口下业务处理及系统间

数据交互

实现同一数据存储中心，确保微信、PC端与系统服务器

之间的数据交互能力。提升在微信、PC端业务处理中的用

户体验度。

近年来，中国**大力发展面向用户的新一代核心业务系

统，信息系统建设日趋完备，提升用户体验和风险管控能力、

满足监管各项要求的同时，形成并储存了庞大的可用数据资

源。

大数据技术在通信基站行业的应用范围包括：业务信息

稽核、查询、分析、预警等、用户洞察、营销支撑、风险管

控和营运优化等领域。

・基本业务功能

满足业务部门在监控基站告警信息管理、智能推送点播

应答/报表智能推送管理、基站资源/电源数据的业务建模分

析管理、重点业务、重点基站管理的需要，为各级领导、职

能部门及专业人员管理提供支撑。

・用户洞察

分析用户的各种数据，包括电话语音、网络的监控录像、

点播应答信息、基站资源、电源数据以及相关的基站数据信

息，从而实现对用户进行分类和服务。对现有基站数据系统

中的用户分层的数据要素进行延伸。

•营销支撑

实时营销：是根据用户的使用平台的实时状态来进行营

销，如用户点播时段内容等信息来有针对地进行营销。

事件式营销：将改变工作方式的事件视为营销机会，如

换人工服务变成智能提醒或者操作、改变工作方式等。

•风险管控

信用评级：运用时间、故障概率、区域、设备质量等多

个维度对基站综合评级，运用大量的指标构建多重模型，以

识别基站故障信用风险。

•营运优化

改善用户体验：运用大数据能够处理海量基站信息数据

的能力，将传统数据统计分析等业务切换到数据处理能力更

强的平台，来解决查询历史数据的困难，提升用户体验。

降低运营成本：运用综合分析结果，优化**运输资源的

配置，降低企业运营成本，提升整体竞争力。

1.1.2平台建设原则

平台是大数据的基础实施，其建设、设计和系统实现过

程中，应遵循如下指导原则：

•经济性：基于现有场景分析，对三到五年内的数据

量进行合理评估，确定大数据平台规模，后续根据实际情况

再逐步优化扩容。

•可扩展性：架构设计与功能划分模块化，考虑各接

口的开放性、可扩展性，便于系统的快速扩展与维护，便于

第三方系统的快速接入。

•可靠性：系统采用的系统结构、技术措施、开发手

段都应建立在已经相当成熟的应用基础上，在技术服务和维

护响应上同用户积极配合，确保系统的可靠；对数据指标要

保证完整性，准确性。

•安全性：针对系统级、应用级、网络级，均提供合

理的安全手段和措施，为系统提供全方位的安全实施方案，

确保企业内部信息的安全。大数据技术必须自主可控。

•先进性：涵盖结构化，半结构化和非结构化数据存

储和分析的特点。借鉴互联网大数据存储及分析的实践，使

平台具有良好的先进性和弹性。支撑当前及未来数据应用需

求，引入对应大数据相关技术。

•平台性：归纳整理大数据需求，形成统一的大数据

存储服务和大数据分析服务。利用多租户，实现计算负荷和

数据访问负荷隔离。多集群统一管理。

•分层解耦：大数据平台提供开放的、标准的接口，

实现与各应用产品的无缝对接。

1.2系统技术架构

1.2.1数据来源说明

数据来源主要有应用系统数据源（如ERP、CRM等），具

体数据包括基站设备、维护人员、备用电池等数据。绝大部

分数据可以加载到mysql数据库中。

经过数据源及其质量分析后，分别从各业务应用系统及一

些外部数据源中获取数据。然后将系统从源系统采集业务源

数据进行数据校验、清洗、计算、汇总、分类。

对于**邮政外部数据源，需要综合考虑数据获取的方式、

频率、内容等多方面因素，可以适当考虑选择开源的工具。

如网页数据，可以参考使用数据网页爬取器把互联网上有价

值的网页都抓取下来。

1.2.2系统架构设计

对于用户提出邮政大数据平台主要分成六大部分，因为从

功能上有部分的重叠，我们建议在系统解决放案在结构上分

为数据获取层、数据存储层、数据分析层（含数据集市、经

营分析、决策支持、数据分析与挖掘）、数据管控以及数据

可视化层五个层次架构。如下图所示：

数据可视化

图表展示肯理员驾驶舱可视化交互地图展示移动展示大屏展示

数据仓库

经营分析与决策支持

数据集市

数据分析与臃量收系统功能历史报表OLAP即席查询

中

国结构化窈理

邮数磔市耳缪2合财务M丽稗其它

政

系统数据管控平台

大ClouderaHadoop

SAPHANA内存计埼

热

数HBASEHIVESPARK

高并发处理

数

据实时常询枇彩淅交互式Voc»

据

后台^实时分析

平

台MAPREDUCETfARN

结构化数据非结构实时数据

HDFS文件系统

数据标度管理

采集加工DataServices清洗爬取

数据安全管遑

各业务18

三।三匚亘□受k号酷外部数据

上图中每个层次的主要功能和使用的产品如下:

■数据获取层：通过ETL工具一SAPDataServices将

原有业务系统或者功能性平台的数据抽取到大数据

平台。

■数据存储层：由Hadoop厂商Cloudera的CDH和SAP

HANA共同构成，其中CDH用于存储全量数据。在

HadoopHDFS存储之上，运用HABSE、HIVE、

SPARK等组件，满足用户不同分析场景的需求，这

些组件将通过数据分析层调用。基于内存的关系型

数据库一HANA作为热数据管理，主要用于实时和

大规模、高并发的复杂分析场景。

・数据分析层：数据分析层构建在数据存储层之上，

主要利用Hadoop生态系统的组件以及HANA提供

的数据分析能力实现邮政业务分析场景，如量收系

统等。数据分析层即包含用户的业务应用也包含具

体的分析类型，如实时查询、数据挖掘等。

・数据管控：在用户原有的主数据、元数据平台上进

行扩展，与大数据平台进行对接，并通过建立数据

安全管理策略、梳理数据标准等方式逐步完善大数

据平台的数据管控功能。

・数据可视化层：本方案均采用业界主流的通用产品，

如ClouderaCDH>HANA等，这些产品支持通用的

数据标准以及应用接口，为了降低成本、减少工作

量，推荐用户利用原有Cognos软件，通过开发部分

前端界面满足大数据平台对分析结果展现的要求。

1.2.3故障派单设计

邮政网点或服务基站的设备故障自动派单是通过平台监

控，对指定故障种类的故障自动生成系统维护工单或者问题

工单，提交相关运维负责人或者接口人，并发送相关通知；

相应的接口人对系统自动派发的工单进行判断并进行后续

处理，处理后直接关闭工单即可；自动派单功能支持派发人

对工单的转派和回退处理，并填写相关处理意见。

总体业务流程图如下：

1.2.4系统硬件和软件配置方案

1.2.4.1软件配置方案

产品名称产品功能描述用途单数

位量

ClouderaCloudera一个提供全面**大数据平台

Hadoop发的数据存储和处理引擎核心数据存储

行版的发行版。它包括了：与处理引擎

HDFS、HBASE、Spark、

YARN、MapReduce、

Hive等处理引擎以及工

具组件

SAPHANASAP基于内存的数据库实时数据分析

企业版引擎，并集成了数据集成（可用于大规

工具，高级数据分析、数模交互式查

据挖掘等功能询）

SAPHANA构建在HANA之上基于实现HANA与

VoraSpark/Hadoop的内存查Spark之间的

询引擎联邦数据处理

1.2.4.2硬件配置方案

>Hadoop部分

Hadoop集群服务器按照节点承担的任务分为管理节点和

工作节点。管理节点上一般部署各组件的管理角色，工作节

点一般部署有各角色的存储、容器或计算角色。

中国**的大数据平台属于在线分析业务集群：在线分析业

务一般基于Spark等MPPSQL引擎，复杂的SQL计算对内

存容量有较高要求，因此需要配置128G甚至更多的内存。

管理节点工作节点

处理器两路Intel®至强处理两路Intel®至强处理

器，可选用E5-2630处器，可选用E5-2650处理

理器器

内核数6核/CPU（或者可选用86核/CPU（或者可选

核/CPU）,主频2.3GHz用8核/CPU）,主频

或以上2.0GHz或以上

内存64GBECCDDR3128GB-256GBECC

DDR3

硬盘2个2TB的SAS硬盘（3.512个4TB的SAS硬盘

寸），7200RPM,RAID1（3.5寸），7200RPM,不

使用RAID

网络至少两个lGbE以太网至少两个lGbE以太

电口，推荐使用光口提网电口，推荐使用光口提

高性能。高性能。

可以两个网口链路聚合可以两个网口链路聚

提供更高带宽。合提供更高带宽。

硬件尺1U或2U2U

寸

接入交48口千兆交换机，要求全千兆，可堆叠

换机

聚合交4口SFP+万兆光纤核心交换机，一般用于50节点

换机(可以上大规模集群

选)

1.3关键技术

1.3.1大数据平台的核心数据存储与处理

分布式文件系统一HDFS

HDFS(HadoopDistributedFileSystem),是一个分布式

文件系统。它具有高容错性的特点，可以被广泛的部署于廉

价的PC之上。它以流式访问模式访问应用程序的数据，这

大大提高了整个系统的数据吞吐量，能够满足多来源、多类

型、海量的数据存储要求，因而非常适用于日志详单类非结

构化数据的存储。

HDFS架构采用主从架构(master/slave)。一个典型的

HDFS集群包含一个NameNode节点和多个DataNode节点。

NameNode节点负责整个HDFS文件系统中的文件的元数据

保管和管理，集群中通常只有一台机器上运行NameNode实

例，DataNode节点保存文件中的数据，集群中的机器分别运

行一个DataNode实例。在HDFS中，NameNode节点被称为

名字节点，DataNode节点被称为数据节点，DataNode节点

通过心跳机制与NameNode节点进行定时的通信。

HDFS可以实现大规模数据可靠的分布式读写。HDFS针

对的使用场景是数据读写具有“一次写，多次读”的特征，

而数据“写”操作是顺序写，也就是在文件创建时的写入或

者在现有文件之后的添加操作。HDFS保证一个文件在一个

时刻只被一个调用者执行写操作，而可以被多个调用者执行

读操作。其主要特性如下：

•灵活：统一的存储可以存放结构化，半结构化及非结构

化数据

•可扩展：根据业务需要增加PC服务器实现存储扩容

•容错：数据有多个副本以保障数据的可靠性

•开放：基于开源的存储格式，避免厂商锁定

分布式数据库-HBase

HBase是一个高可靠性、高性能、面向列、可伸缩的分布

式存储系统，它利用HadoopHDFS作为其文件存储系统，

利用HadoopMapReduce来处理HBase中的海量数据，利用

Zookeeper作为协同服务。HBase不是一个关系型数据库，

其设计目标是用来解决关系型数据库在处理海量数据时的

理论和实现上的局限性。HBase从一开始就是为Terabyte

到Petabyte级别的海量数据存储和高速读写而设计,这些数

据要求能够被分布在数千台普通服务器上，并且能够被大量

并发用户高速访问。

存储在HBase中的表的典型特征：

•大表（BigTable）：一个表可以有上亿行，上百万列

•面向列：面向列（族）的存储、检索与权限控制

•稀疏：表中为空（null）的列不占用存储空间

>SQL-on-HBase的支持

ClouderaCDH企业版支持SQLonHBase特性，支持对数

据表建立LocalIndex和GlobalIndex,执行速度远远超过原

生HBaseAPI,同时提供完善的SQL接口供用户端使用。

>HBase对象存储

ClouderaCDH支持HBase的大对象存储（LOB）功能，

将HBase进化为文档数据库，特别适合存储单个大小数十K

至数十M的非结构化文档，即使对于十亿级别的LOB文档

数据表仍能做到毫秒级增删改查操作，同时支持所有HBase

原生特性，与上层HBase应用100%兼容。

集群协调服务Zookeeper

ZooKeeper是一个分布式的，开放源码的分布式应用程序

协调服务，是Google的Chubby一个开源的实现，是Hadoop

和Hbase的重要组件。它是一个为分布式应用提供一致性服

务的软件，提供的功能包括：配置维护、名字服务、分布式

同步、组服务等。ZooKeeper的目标就是封装好复杂易出错

的关键服务，将简单易用的接口和性能高效、功能稳定的系

统提供给用户。ZooKeeper包含一个简单的原语集，提供Java

和C的接口。

分布式批处理引擎-MapReduce

MapReduce是Hadoop的核心，是Google提出的一个软

件架构，用于大规模数据集（大于1TB）的并行运算。概念

“Map（映射）”和“Reduce（化简）”，及他们的主要思想，

都是从函数式编程语言借来的，还有从矢量编程语言借来的

特性。

当前的软件实现是指定一个Map（映射）函数，用来把一

组键值对映射成一组新的键值对，指定并发的Reduce（化简）

函数，用来保证所有映射的键值对中的每一个共享相同的键

组。

Update

JobStatus

JobTracker

ssigns

HDFS

RPCRead

MapBlocks

Data

Reduce

Datanode

Write

Reduce]1jOutput

、\**\—^RPCReadDatanodefiles

♦|…°M

HDFS

Datanode

Blocks

SplitsLocalWnte

MapReduce是用于并行处理大数据集的软件框架。

MapReduce的根源是函数性编程中的imp和reduce函

数。Map函数接受一组数据并将其转换为一个键/值对列表,

输入域中的每个元素对应一个键/值对。Reduce函数接受

Map函数生成的列表，然后根据它们的键缩小键/值对列表。

M叩Reduce起到了将大事务分散到不同设备处理的能力，这

样原本必须用单台较强服务器才能运行的任务，在分布式环

境下也能完成了。

数据仓库组件-Hive

Hive是建立在Hadoop上的数据仓库基础构架。它提供

了一系列的工具，可以用来进行数据提取转化加载(ETL),

这是一种可以存储、查询和分析存储在Hadoop中的大规模

数据的机制。Hive定义了简单的类SQL查询语言，称为

HQL,它允许熟悉SQL的用户查询数据。同时，这个语言

也允许熟悉MapReduce开发者的开发自定义的mapper和

reducer来处理内建的mapper和reducer无法完成的复杂

的分析工作。

Hive体系结构：

•用户接口：用户接口主要有三个：CLLClient和WUL

其中最常用的是CLLCli启动的时候，会同时启动一

个Hive副本。Client是Hive的用户端，用户连接

至HiveServero在启动Client模式的时候，需要指

出HiveServer所在节点，并且在该节点启动Hive

ServeroWUI是通过浏览器访问Hive。

•元数据存储：Hive将元数据存储在数据库中，如

mysql、derby。Hive中的元数据包括表的名字，表的列

和分区及其属性，表的属性（是否为外部表等），表的

数据所在目录等。

分布式内存计算框架-ApacheSpark

ApacheSpark是一个开源的，通用的分布式集群计算引

擎。Spark发展历程:

ClouderaSpark是一个开源的，并行数据处理框架，能够

帮助用户简单的开发快速，统一的大数据应用，对数据进行,

协处理，流式处理，交互式分析等等。Spark具有如下特点:

•快速：数据处理能力，比Mapreduce快10-100倍。

•易用：可以通过Java,Scala,Python,简单快速的编写

并行的应用处理大数据量，Spark提供了超过80种高层

的操作符来帮助用户组件并行程序。

•普遍性：Spark提供了众多高层的工具，例如Spark

SQL,MLib,GraphX,SparkStreaming,可以在一个应

用中，方便的将这些工具进行组合。

•与Hadoop集成：Spark能够直接运行于Hadoop2.0以

上的集群，并且能够直接读取现存的Hadoop数据。尤

其,Spark和CDH紧密结合，可以通过ClouderaManager

部署安装Spark,并有效管理监控Spark集群。

Spark提供了一个快速的计算，写入，以及交互式查询的

框架。相比于Hadoop,Spark拥有明显的性能优势。Spark

使用in-memory的计算方式，通过这种方式来避免一个

M叩reduce工作流中的多个任务对同一个数据集进行计算时

的10瓶颈。Spark利用Scala语言实现，Scala能够使得处理

分布式数据集时，能够像处理本地化数据一样。

除了交互式的数据分析，Spark还能够支持交互式的数

据挖掘，由于Spark是基于内存的计算，很方便处理迭代计

算，而数据挖掘的问题通常都是对同一份数据进行迭代计

算。除此之外，Spark能够运行于安装Hadoop2.0Yarn的

集群。之所以Spark能够在保留Mapreduce容错性，数据本

地化，可扩展性等特性的同时，能够保证性能的高效，并且

避免繁忙的磁盘IO,主要原因是因为Spark创建了一种叫做

RDD(ResilientDistributedDataset)的内存抽象结构。

原有的分布式内存抽象，例如key-valuestore以及数据

库，支持对于可变状态的细粒度更新，这一点要求集群需要

对数据或者日志的更新进行备份来保障容错性。这样就会给

数据密集型的工作流带来大量的IO开销。而对于RDD来说,

它只有一套受限制的接口，仅仅支持粗粒度的更新，例如

map,join等等。通过这种方式，Spark只需要简单的记录建

立数据的转换操作的日志，而不是完整的数据集，就能够提

供容错性。这种数据的转换链记录就是数据集的溯源。由于

并行程序，通常是对一个大数据集应用相同的计算过程，因

此之前提到的粗粒度的更新限制并没有想象总的大。事实

上，Spark论文中天阐述了RDD完全可以作为多种不同计算

框架，例如Mapreduce,Pregel等的编程模型。

并且，Spark同时提供了操作允许用户显示的将数据转

换过程持久化到硬盘。对于数据本地化，是通过允许用户能

够基于每条记录的键值，控制数据分区实现的。(采用这种

方式的一个明显好处是，能够保证两份需要进行关联的数据

将会被同样的方式进行哈希)。如果内存的使用超过了物理

限制，Spark将会把这些比较大的分区写入到硬盘，由此来

保证可扩展性。

Spark首先是一个批处理的引擎，下图给出了一个

Spark批处理的例子，阐述了多个RDD以及操作如何被分组

到不同的转换步骤。

1.3.2基于内存计算的关系型数据库一SAPHANA

1.3.2.1大数据量存储特性

SAPHANA是一个基于行存储和列存储，以及对象存储

的最先进的数据库技术的混合应用，这样设计的主要目的是

用来充分挖掘和使用现代多核CPU架构设计所带来的并发

处理能力，毫无疑问，企业应用程序能从中受益颇多，SAP

内存数据库是整个HANA应用的核心组件。

HANA单机服务器目前支持最大12TB内存的单台服务

器，当用户需要分析更多的数据时，使用多台服务器横向扩

展的方式，目前测试通过的集群达到100台总共100TB的内

存，支持的原始数据量达到PB级别，而且因为HANA采用

的是Sharenothing的体系架构，理论上是集群没有上限，所

以HANA对于大数据的存储支持将会非常好，企业可以根据

自身的数据量将HANA整体可用容量做到按需扩展。

基于列式数据库的天然优势,HANA具有极高的数据压缩

比，取决于用户实际数据的不同，HANA数据表具有高达

7-20倍的压缩率。而且列式存储基本上可以不用在数据库表

上建索引，这样可以去掉很大的索引空间。HANA通过先进

的数据压缩功能和列式去索引化特点，可以很好的做到对大

数据的有效地存储。

1.3.2.2性能特性

SAPHANA使用的是内存计算技术，数据的主要的存储

和运算都在内存中完成，去掉了一直困扰数据库性能的I/O

问题，所以相对传统的磁盘数据库，天然具备高效计算的优

势。HANA数据库提供灵活的存储方式，可以针对不同业务

符合的类型，采用最适合的存储方式，例如，在OLTP场景

采用行式存储，在OLAP场景采用列式存储。在数据仓库系

统中使用列存储方式，数据列可以按查询的需要被任意检

索，避免行式数据库必须一次读取表中所有列带来的无谓开

销。

HANA数据库引擎可以利用服务器多核处理器的特点，并

行执行查询语句。同样，在多台服务器架构下，HANA可以

将查询语句在多个服务器上同时运行，以提高系统整体利用

率，加速业务响应。

1.3.2.3负载均衡特性

SAPHANA在多机运行的情况下，采用的是分布式计算

的理论，有着比较经典的MapReduce的特点，可以将大数

据块以非常智能的算法拆分成小数据块，分布在不同的机器

上进行负载均衡，充分发挥多机和多核的特点，并行计算来

达到一个很好的计算性能。

目前，SAPHANA的研发过程中和硬件合作伙伴保存了

非常紧密的协作，整体的体系架构基于IntelX处理器平台支

持多服务器、多处理器的高效并行处理。首先在底层开发中,

Intel为SAP提供专门的开发包，让HANA的应用能够最高

效、充分的利用多处理器的并发能力。HANA在应用层的架

构设计上也能够将数据处理和运算拆分并部署到多个处理

器。例如计算引擎可以将数据模型拆解，将一些SQL脚本拆

分成可以并行执行的步骤。这些操作将递交给数据库优化器

来决定最佳的访问行存储和列存储的方案。

高可靠性

SAPHANA支持带有failover节点的高可用性解决方案。

当集群中有一台机器节点因为硬件故障或其他原因不能工

作的时候，系统中的主节点会监测到故障节点发生的位置并

指定另一台备用(Standby)节点来接替故障节点的工作，来达

到集群系统的稳定运行。如下图所示，节点A,B,C都为

系统中的工作节点，而A节点充当了主节点的功能，三个节

点都是共享的数据区，只有工作节点A和B有自己的数据区,

当B节点出现故障的时候，主节点A会监测到B节点的故

障，然后启用C节点来工作并接替B节点的数据区，来达到

系统的稳定运行的目的。

当然，目前在HANA的集群系统中，可以有多个主节点,

所以如果在下图场景中如果A节点出现故障的时候，B节点

也可以接替主节点的功能并完成如下一系列的系统的调度

工作，最终使整个系统能一直稳定地处于运行状态，给企业

提供一个企业级的应用和服务。

目前SAPHANA已认证通过的节点有56个(每台机器最

多1TB内存)，测试通过的节点达到100个，这样通过大比

率的数据压缩比，HANA能支撑的原始数据量将会非常大。

而且目前SAPHANA中的工作节点和备节点的数量是可以

自由调配的，这样可以不满足不同的企业对高性能的需求。

1.3.2.5可扩展性

SAPHANA支持纵向和横向的扩展，灵活的满足由于数

据量，并发用户数查询负荷增加带来的扩展性需求。

在服务器硬件配置不能满足业务需要的情况下，可以通过

增加服务器CPU,内存的方式实现纵向扩展。

在单台服务器硬件无法继续扩展的情况下，可以通过多台

服务器组成一个大的服务器集群的方式，实现系统横向扩

展。

1.4技术方案优势

1.4.1方案整体优势

全球领先的技术产品

Cloudera成立于2008年，由来自如于Google、Yahoo>

Oracle和Facebook的技术高管联手创立。Cloudera是全球第

一个企业级ApacheHadoop产品和服务提供商，无论在产品、

专业服务、技术支持和培训方面都处于明显的业界领袖地

位。Cloudera自2008年成立以来，专注于Hadoop全球生态

系统的建设，主导了最多Hadoop模块的开发工作，代码贡

献量，bug修复数量，Hadoopcommitter数量稳居全球首位,

Cloudera对Hadoop开放社区的代码贡献度高达40%以上，

是无可争议的Hadoop开源领导厂商。

CDH(ClouderaDistributedHadoop)是Cloudera基于

ApacheHadoop的发行版本版本。除了提供Hadoop的核心

组件以外，CDH是唯一一个提供全面的数据存储和处理引擎

的发行版。

在整个商业化的Hadoop领域，Cloudera无论是从产品的

更新速度、技术支持、周边生态系统等方面都由于其它

Hadoop产品。选择ClouderaCDH对**项目最终能够成功提

供了极大的保障。

SAPHANA是一个内存数据库，将数据处理、分析数据

处理以及业务逻辑处理功能组合至内存中，突破了传统关系

型数据库诸多性能限制，同时通过高度可扩展的MPP架构，

HANA可以轻松支持大数据场景。

TheForresterWave：《2015年第三季度大数据预测分析解

决方案》报告中，SAP被评为该领域的领军企业。此次评

选活动中，SAP凭借强大的架构和战略被誉为市场领导者。

据相关消息称，SAP将SAPHANA内存计算平台作为产品

的核心平台，这使其在众多竞争对手中脱颖而出、拔得头筹

Forrester研究中的亮点

・“SAP内存数据库技术开始得到市场的认可-

NoelYuhanna,Forrester

・SAPHANA平台在策略和现阶段能力的评分都得

到了最高

■SAP是唯一一个在远见得到满分的公司

■SAP是唯一一个在数据管理和交易能力方面得到

满分的公司

・SAP还在其他方面得到了满分，其中包括执行,

市场表现，合作伙伴，分析能力等

Strong

ChallengersContendersPerformersLeaders

Forrester2015年第三季度内存计算平台内存wave报告

在平台集成工具方面，除了可以利用Cloudera的Sqoop外，

与HANA集成到一起的还包括了SAPBusinessobjectsData

Services工具,DataServices是当今市场上效率和扩展性最高

的数据集成平台之一。它使企业能够方便地、随时随地抽取、

清洗、转换和装载数据。DataServices有利于确保BI最终用

户总是能掌握及时、准确、可靠的信息。

Hadoop与关系型数据库的完美结合

随着**原有数据仓库数据的格式也越来越多越来越复杂。

单一依靠传统数据库很将趋于瓶颈。而综合使用Hadoop生

态系统组件产品能够很好的解决这一问题。其底层的分布式

文件系统具有高拓展性，通过数据冗余保证数据不丢失和提

交计算效率，同时可以存储各种格式的数据。同时其还支持

多种计算框架，既可以进行离线计算也可以进行在线实时计

算。

Hadoop生态系统环境提供了一系列组件支持大数据平台

应用场景，其中，数据存储方面主要提供三种存储和应用方

式，即Hbase,Hive,Sparko其中三者都是基于底层的hdfs

分布式文件系统。hive重点是sql-batch查询，海量数据的统

计类查询分析，而Spark的重点是ad-hoc和交互式查询。hive

和Spark都可以看作是基于OLAP模式的。而Hbase库是支

撑业务的CRUD操作，各种业务操作下的处理和查询。

Hadoop在大数据平台场景的优势是在超大规模数据集

里,Hadoop及其生态组件非常适用于批量操作（如数据处理、

汇总等）、明细查询（利用Hbase）＞OLAP查询（在并发不

高的情况下）、统计分析（如各种业务指标的计算）。但是，

通过对**业务的了解，无论在**邮政服务信息平台还是在综

合分析平台中都存在着大量大规模复杂的实时查询需求，而

这些场景恰恰是传统关系型数据库擅长的。结合数据仓库业

务迁移的需求，我们认为应该综合利用Hadoop与关系型数

据库的技术，发挥二者优势。在关系型数据库中，我们推荐

使用基于最新内存计算技术的产品一SAPHANA。

SAPHANA是一个软硬件结合体，提供高性能的数据查

询功能，用户可以直接对大量实时业务数据进行查询和分

析，而不需要对业务数据进行建模、聚合等。

为了解决HANA中存储数据有限的问题,我们弓I入了SAP

HANAVora,SAPHANAVora是一款全新的内存查询引擎，

通过利用并延展ApacheSpark运行框架，在Hadoop上提供

更丰富的交互式分析功能。

SAPHANAVora运用在**大数据平台主要的优势在于：

SAPHANAVora横跨Hadoop、SAPHANA>Spark等多个平

台，将成为HANA与Hadoop的桥梁，把HANA的分析能力

搬到Hadoop上，而不再需要在Hadoop和HANA之间不停

地移动数据。基于Map-Reduce模式的Hadoop擅长数据批处

理，但不是特别符合即时查询的场景。通过联机分析处理

(OLAP)方法，SAPHANAVora可以帮助开源框架更好地

理解商业语言，将SAP在内存计算上的经验带给Hadoop生

态圈。借助SAPHANAVora,SAP将在Hadoop领域拓展新

生态。而SAP大数据生态圈的扩大也将为合作伙伴带来新的

发展机会，帮助他们打造更具竞争力的差异化解决方案。

更高的性能

Hadoop性能提升

Hadoop使用专门为分布式计算设计的文件系统HDFS,

计算的时候只需要将计算代码推送到存储节点上，即可在存

储节点上完成数据本地化计算，Hadoop中的集群存储节点

也是计算节点。通过在架构方面的精心设计以及利用适合的

工具满足各个业务场景,Hadoop的部署能够取得非常好的性

能

•高性能：具有和目前领先的MPP数据库有匹配的性能,

比Apahcehive/Stinger快10T00倍

•Spark提供了一个快速的计算，写入，以及交互式查询

的框架。相比于Hadoop,Spark拥有明显的性能优势。

Spark使用in-memory的计算方式，通过这种方式来避

免一个Mapreduce工作流中的多个任务对同一个数据

集进行计算时的10瓶颈。Spark利用Scala语言实现,

Scala能够使得处理分布式数据集时，能够像处理本地

化数据一样。

HANA的高性能

HANA代表着下一代企业级运算，这一点在数据库技术

上尤为突出。它是针对实时分析和应用的现代数据平台。它

能让组织实时分析大量而又冗杂的数据，同时在真正意义上

实时避免延时和减少OLTP和OLAP之间的层次交流。

HANA的优势在于它是一套紧密集成的系统，实现了不同组

成部份之间的良好交互和系统整合优化。无论向上还是向外

扩展，HANA对所有部份，如OLTP,OLAP(业务以及存储业

务)，文字，计划和纯应用开发都能实现良好的承接。通过

HANA,简易的部署不再是梦想，没有主机动物园(虚拟主

机)，没有内部同步，没有物化聚集，更没有一堆的引擎！

SAPHANA能向外扩展无限的内核/节点，并减少硬件开

销。HANA是建立在新架构典范上的纯内存数据库。考虑到

所有的数据库都是在内存中，所以HANA不缓存数据。具备

世界级的查询优化器，能轻易实现大规模并行查询的操作，

包括运算符内部和运算符之间的并行查询(interand

intra-operatorparallelism)。

SAPHANA将所有数据以整体形式存储在列中。另外还

采取了发展中的向量运算处理器(CPUdevelopmentsin

vectoroperations)这类英特尔最新的优势技术进行了优化。

SAPHANA的前瞻性架构(next-generationarchitecture)和

芯片级创新(chiplevelinnovations)使它远远超越了市场上

的任何竞争对手。

**公司早在2012年就运用SAPHANA技术进行了一系

列性能测试，当时基于**邮政服务信息平台中的网运和报刊

中出现性能瓶颈的报表在SAPHANA中进行了加速，在两个

场景中HANA的运算能力较目前正在使用的Teradata以及

Oracle查询性能分别提升了400多倍和千倍以上。此测试结

果得到了**相关技术负责人的高度认可。

1.4.1.4系统的开放性

传统单一软件供应商、单一硬件平台的组合方式以不再

适用于大型国有化集团的大数据平台。大数据平台在设计时

应充分考虑到平台的开放性与可移植性。

Cloudera自2008年成立以来，专注于Hadoop全球生态

系统的建设，主导了最多Hadoop模块的开发工作，代码贡

献量，bug修复数量，Hadoopcommitter数量稳居全球首位,

是无可争议的Hadoop开源领导厂商。

Cloudera的CDH是100%的开源解决方案，并且完全和

Hadoop开源社区保持一致,CDH可以算是Hadoop领域事实

上的标准版，其他任何国内外厂商的Hadoop发行版就算要

增加一些私有特性，首先也需要保证和CDH的100%兼容，

因此用户使用CDH不会担心被特定厂商绑架，随时拥有自

由选择的能力。

SAPHANA作为通用的关系型数据库软件产品，具有很

强的硬件兼容能力，能够搭建在业界主流十余家主流厂商的

PC服务器平台之上。而且，为了保证系统的性能，SAP与

这些硬件厂商采用联合认证的模式，推荐使用固定的配置以

为用户提供更高的品质。

1.4.1.5丰富的用户案例

作为开源Hadoop技术，以及内存技术的最主流品牌，

ClouderaCDH与SAPHANA在国内外都有着广泛的大型用

户案例。

Cloudera在国内大型企业的项目案例包括：银联大数据平

台、湖南移动CDR平台、北京联通CDR平台、上海电信等。

SAPHANA从2011年发布以来在全球范围内积累了上万

家用户，仅在中国就有近千家用户在使用SAPHANA,其中

不乏大型企业的数据仓库系统和大数据平台：如中国石油、

中石化、华能集团、海关总署、中国核工业集团公司、联想、

福建电力等。

值口Aptargroup/Zubx*YPS<i>MEOnidlstniun'<MSIG

MOKIARAINBOW“MUKA'&也心

BMDnGIVAICONKg.Monen*

B^*~，JABIL-CHEMCHINA

.,j—■■，—■R—m—»>一ITERGO

UICRNHUxtataMS

FaC乜'rtfood,V9rtzan,\ITImBstueiHANIELa?

1tMm,ff------JX”provimi

，一==adidas.皿.^fLi—6J：TRO'MW

DEEB""'

万cszaOBi2篇”,mexichem

G囱KARSTADT.de

以jpernoeitASLSI-jow>c$c第力Q

®/MTTBUI•CO.ITO

什

HunlerDouglas^GOLDCORP骐一回驷烟9

voest<iioineTRIM、F

人MiMitNiiCnpcntin

Kubota停壬LTA&'.】3ABHIJe=T

帆盛Pan也

G33•EKIWueVo^coSfornio

TRr^ergy史南节..PUIG

。JOHNDEERE巨o-fCOMHra瞰”“

，

MICROS,AAW1AV/V,ILf.r*wf*—*■"/fConce-9"'~侬空3E^

ESSAR1"3cCODdDGi中

1.4.2产品优势

领先的Hadoop品牌一ClouderaCDH

＞完全开源开放，避免被私有闭源平台绑架

Cloudera自2008年成立以来，专注于Hadoop全球生态系

统的建设，主导了最多Hadoop模块的开发工作，代码贡献

量，bug修复数量，Hadoopcommitter数量稳居全球首位，

是无可争议的Hadoop开源领导厂商。

Cloudera的CDH是100%的开源解决方案，并且完全和

Hadoop开源社区保持一致,CDH可以算是Hadoop领域事实

上的标准版，其他任何国内外厂商的Hadoop发行版就算要

增加一些私有特性，首先也需要保证和CDH的100%兼容，

因此用户使用CDH不会担心被特定厂商绑架，随时拥有自

由选择的能力。

＞业内最完整的Hadoop堆栈

ClouderaCDH企业版包括分布式存储、数据库、SQL引

擎、机器学习引擎、全文检索、实时流处理、分布式数据总

线服务、ETL工作流引擎、内存计算引擎、元数据生命周期

管理、统一多层次安全模块、平台管理、云平台自动部署等

企业级Hadoop软件模块，在企业级解决方案完整性方面已

超越其他Hadoop厂商，向传统数据库巨头看齐。

ClouderaCDH采用周期性更新升级的方式，以最快的速

度整合开源社区的最新成果，一般最新的开源Hadoop版本

发布后，CDH会在2至3个月内提供新版本整合，这一速度

超过全球绝大多数Hadoop厂商。

＞业内最广泛的合作伙伴生态圈

Cloudera作为Hadoop生态环境的领导者，拥有业内最广

泛的生态环境支持，大多第三方工具首先会提供对CDH的

兼容，然后才会扩展到其他Hadoop发行版，CDH与各个主

流的数据库厂商，包括Oracle,TeraData,IBM,MongoDB

等，各个主流的ETL工具，Informatica,Pentahoo,各种可

视化工具，如Tableau,ZoomData等都具有官方的双向全面

认证支持，这种官方认证支持意味着这些软件的新功能都能

保证和CDH兼容，如果只是单方面宣称支持Tableau等工具,

不能保证100%的兼容性。

数百家与ClQudera官方互相认证的第三方合作伙伴

informatica撵+ableau-

Access,ingest,transform,andQuicklyconnecttoHadoopforEnablingnewbusiness

cleansealldataonHadoopad-hocvisualizationsofyourinsightsfromenterprise

withavisualdevelopmentdatatofindpatternsand

environmentoutliers

DEVOLUTION

§sasIK.ANALYTICS

RunleadinganalyticalsystemsDeliverRpoweredadvanced

nativelyonHadooptogetpredictiveanalyticstoHadoop

insightsfromalldataforbetterdatamodeling

＞国内外最多商业部署案例

Cloudera拥有超过1000家大型用户和1000多家合作伙

伴，业务遍及全球，大部分用户都是全球500强的大型企业,

同时CDH也是目前全球最流行的Hadoop发行版，具有最广

泛的影响力和各行各业广泛的实施案例。

Cloudera在国内也拥有许多大型的实施案例，包括农行，

中国银联，广东移动，招商银行等利用CDH部署了数百个

节点的大型集群，Cloudera中国团队的前身为IntelHadoop

中国团队，在国内拥有丰富的Hadoop项目实施经验。

AllstateEQfjiFAxMorganStanleyFICOOS

金融Experianstripeepsilon

AlcatelLucent中etaMyMOKIA

电1口Q)*«******■"QMortwocAMGM/rvQUALCOMMAMDn

卓越的实时计算引擎一SAPHANA

中国**大数据平台主要运用Hadoop技术以及外围的组

件实现企业内部信息的分析、预测和挖掘等功能，但对于兼

具大规模并发、复杂的实时分析场景，Hadoop方案效率并不

能满足用户需求，这种场景下，我们建议使用基于内存计算

技术的关系型数据库一SAPHANAo

SAPHANA平台实现了数据处理中新的业务途径。事实

上，它远远超过了数据库的传统定义，并且其性质远不只是

内存中磁盘数据结构上的本地缓存。SAPHANA概念图如下

图所示：

AnyAppsSAPBusinessSuite

AnyAppServerandBWABAPAppServer

SQLMDXRJSONOpenConnectivity

SupportsanyDevice

SAPHANA平台集成了数据库、数据处理、应用平台功能，并且提

供预测分析、计划、文本处理、地理空间信息处理和业务分析函数库，

帮助企业和机构实时营运业务

SAPHANA,首先也是最重要的是，它集成了一个完整的

数据库管理系统（DBMS）：使用标准的SQL接口、事务的

隔离和恢复（ACID［原子性，一致性，隔离性，耐久性D性

能和高可用性。SAPHANA支持ANSISQL92。使用Open

SQL的SAP应用程序可以在SAPHANA平台上运行，而不

用改变。HANA的开放性使得其比较适合于大数据平台场

景。

＞纯内存计算

内存作为主存储，不再仅作为数据库的缓存。与Hadoop

的Spark将中间结果集缓存至内存不同，HANA的数据全部

存储在内存中，完全不受磁盘交换的限制。另外HANA所有

的计算基于内存中的明细数据，不需要再存放冗余的汇总数

据，数据库性能较传统数据库有本质提升。

而且HANA采用的是基于内存计算的关系型数据库技术,

其在大规模并发查询和复杂的分析计算时性能方面较开源

技术有一定优势。可以与Hadoop产品结合使用，发挥各自

优势。

＞并行数据流计算模型

为了直接利用大规模并行多核处理器,SAPHANA对SQL

的处理指令进行管理，使之成为一个优化的模型，从而允许

并行执行，并极大地扩展了内核的数量。这种优化包括分区

中的数据部分，在这些分区中计算可以并行执行。SAPHANA

支持不同主机上的分布。为了由多个主机并行处理，大表可

能进行分区。

下图总结了英特尔团队与SAP合作执行的规模测试结果o

测试表明了规模是接近线性的。使用双核的处理时间为16.8

秒，使用32内核提高到了1.4秒。超线程增加了一个额外的

20%的改善。

在64核的SAPHANA™on4SNelialem-EX(2.26GHz)联接TPC-H数据集(120.000.000.000条记录)

1248163264

线程数

＞应用逻辑扩展

特定应用程序的逻辑延伸了并行数据流的

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

软件项目开发与设计大数据平台工程技术方案建议

文档简介

温馨提示

最新文档

评论

软件项目开发与设计大数据平台工程技术方案建议

文档简介

温馨提示

最新文档

评论

相关文档