大数据平台技术框架选型资料

上传人：微*** IP属地：河北上传时间：2025-11-27 格式：PDF 页数：12 大小：3.15MB 积分：12 举报 版权申诉

已阅读5页，还剩7页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据平台框架选型分析

一、需求

二、都市大数据平台，一方面是作为一种数据管理平台，核心需求是数据的

存和取，然后由于海量数据、多数据类型的信息需要有丰富的数据接入能力和数

据原则化解决能力，有了技术能力就需要纵深挖掘附加价值更好的服务，如信息

记录、分析挖掘、全文检索等，考虑到面向的客户对象有的是上层的应用集成商,

因此要考虑灵活的数据接口服务来支撑。

三、平台产品业务流程

城市大依据平台

依据仓修平台曾・决量支抻

四、选型思路

必要技术组件服务:

ETL>非/关系数据仓储>大数据解决引擎>服务协调>分析BI>平台监管

t]]ITt_

DE，》""*》f?TIC)…0》》■…》

五、选型规定

1.需要满足我们平台的几大核心功能需求，子功能不设局限性。如不满足所有，需

要对未满足的其他核心功能的开放使用服务支持

2.国内外资料及社区尽量丰富，涉及组件服务的成熟度流行度较高

3.需要对选型平台自身所涉及的核心功能有较为进•步的理解，易用其API或基

于源码开发

4.商业服务性价比高，并有空间脱离第三方商业技术服务

六、某些非功能性需求的条件原则清晰，如承载的集群节点、解决数据量及安全机

制等

七、选型需要考虑

简朴性：亲自试用大数据套件。这也就意味着：安装它，将它连接到你的Hadoop安装,

集成你的不同接口（文献、数据库、B2B等等），并最后建模、部署、执行某些大数据作

业。自己来理解使用大数据套件的容易限度一仅让某个提供商的顾问来为你展示它是如

何工作是远远不够的。亲自做一种概念验证。

广泛性：与否该大数据套件支持广泛使用的开源原则一一不只是Hadoop和它的生态

系统，尚有通过SOAP和RESTweb服务的数据集成等等。它与否开源，并能根据你的特

定问题易于变化或扩展？与否存在一种具有文档、论坛、博客和交流会的大社区？

特性：与否支持所有需要的特性？Hadoop的发行版本（如果你已经使用了某一种）？

你想要使用的Hadoop生态系统的所有部分？你想要集成的所有接口、技术、产品？请

注意过多的特性也许会大大增长复杂性和费用。因此请查证你与否真正需要一种非常重量

级的解决方案。与否你真的需要它的所有特性？

陷阱：请注意某些陷阱。某些大数据套件采用数据驱动的讨费方式（“数据税”）,也

就是说，你得为自己解决的每个数据行付费。由于我们是在谈论大数据，因此这会变得非常

昂贵。并不是所有的大数据套件都会生成本地ApacheHadoop代码，一般要在每个

Hadoop集群的服务器上安装一种私有引擎，而这样就会解除对于软件提供商的独立性。还

要考虑你使用大数据套件真正想做的事情。某些解决方案仅支持将Hadoop用于ETL来填

充数据至数据仓库，而其她某些解决方案还提供了诸如后解决、转换或Hadoop集群上的

大数据分析。ETL仅是ApacheHadoop和其生态系统的一种使用情形。

八、方案分析

自建套件hortonworks国内类exadoopTDW+fineBI

成本100%开源

培训服务3k/人

授权支持100K

性能单集群最大规

模达到5600

台，解决数据

量可达百P级

功能按需整合HDFS和YARN数据管理

从多种引擎访问数据

根据方略加载和管理数据

身份验证、授权和数据保护

大规模配备、管理、监控和

运营Hadoop群集

与您的数据分析工具集成

跨平台配备部署

易操安装复杂，操作需图形设计界面，参数配备，

作性要专业培训。易上手。

应用国外天客尸较多

成熟

度

文档文档较多，社区一官方社区比较活跃（英文）文档较少，无

/社般，有关专业培训中文社区有1个文档较少，商用服务，无

区支较多。多为英文文档任何技术支持

持

扩展开源开放开源开放开源开放

性

移植支持多操作系统支持多操作系统支持多操作系支持多操作系

性统统

监控监控功能强大Armbri元无

优势1、跟随产品阶段逐1、开源强大支持的开源套1、国产套件1.开源中文支

渐完善整合自定义件2、交流支持以持

套件2、配套商业服务支持便2、基于大数据

2、自选流行组件，3、商业服务较解决核心，灵

资料丰富灵活活组合其他组

3、自选流行组件，件来适应不同

资料丰富产品阶段及项

2.基于大数据

解决核心，灵

活组合其他组

件来适应不同

产品阶段及项

目

2、基于大数据

解决核心，灵

活组合其他组

件来适应不同

产品阶段及项

目

劣势整合周期不可控商业成本较高依赖于打包服半定制套件，

务公司的支持预学现用

九、有关资料

HDP(hortonworks)

ACompleteEnterpriseHadoop[)ataPlatform

安全於

脚本SQLJava/Sc...NoSQL速提案内存其也.

数据工作玄、生命闾缴和PigHiveCascadingHBaseStormSolrSparkEngines

管治HCatalo9AccumuloAuthentication.舀舌、管理和益控

_______________Phoenix__________Authorization,Audit&

FalconAmbari

DataProtection

ZooKeepec

WebHDFS

YARN：数据操作系统存储：HDFS

NFS费涯：YARN

计划

Flume访问：Hive

Sqoop

ttl：FalconOozie

Kafka群柒：

HDFSKnox

ClusterRanger

Hadoop分布式文件系统

我除w

TDW-基于Hadoop/Hive的深度定制

•TDW—TencentdistributedDataWarehouse

•腾讯分布式数据仓库，支持百PB级的数据存怖am,为公司产品提供海量、高效

、稳定的大数据平台支撑和决策支持。

开源工具汇总整顿

类别名称备注

Salesforce公司出品，ApacheHBase之上的一种SQL中间层,完全使

Phoenix用Java编写

原叫Tez,下一代Hive,Hortonworks主导开发,运营在YARN上的DAG

Stinger计算框架

查询引擎

PivslvFucebuukJF源

SharkSpark上的SQL执行引擎

Pig基于HadoopMapReduce的脚本语言

参照GoogleDremel实现，能运营在HDFS或HBase上，使用C++开发

ClouderaImpala

ApacheDrill参照GoogleDrome1实现

ApacheTajo一种运苕在YARN上支持SQL的分布式数据仓库

Hive基THadoopMapReduce的SQL查询引擎

FacebookPuma实时数据流分析

分布式实时记录系统，如网站的点击记录

TwitterRainbird

*sW*

Java开发的一种通用的、分布式的、可扩展的、分区容错的、可插拔的

YahooS4

无主架构的流式系统

TwitterStorm使用Java和Clojure实现

建立在Hadoop上基于BSP(BulkSynchronousParallel)的计算框架,

ApacheHama模仿7Google的Pregelo

建立在Hadoop上的可伸缩的分布式迭代图解决系统，灵感来自BSP

迭代计算ApacheGiraph（bulksynchronousparallel）和Google的Pregel

HaLoop迭代的MapReduce

Twister迭代的MapReduce

HadoopMapReduce典型的人数据批解决系统

使用Scala语言实现，和MapReduce有较大的竞争关系，性能强于

BerkeleySparkMapReduce

离线计算

基于Hadoop2.X构建的实时流式解决和分析平台，每秒可.以解决超过10

DataTorrent亿个实时事件

Google开源的高效KV编程库，注意它只是个库

LevelDB

Facebook开源的，基于Google的LevelDB,但提高了扩展性可以运营

RocksDB在多核解决器上

下一代KV,存储系统，支持strings、integerssfloats、lists、maps

IlyperDex和sets等丰富的数据类型

键值存储日本人MikioHirabayashi（平林干雄）开发的一款DBM数据库,注意

它只是个库（大名鼎鼎的DBM数据库qdbm就是MikioHirabayashi开

TokyoCabinet

发的），读写非常快

一种分布式键值存储系统，是AmazonDynamo的一种开源克隆，

VoldemortLinkedln开源

亚马逊的KV模式的存储平台，无主架构

AmazonDynamo

淘宝出品的高性能、分布式、可扩展、高可靠的KV构造存储系统，专

为小文献优化，并提供简朴易用的接口（类似Map）,Tair支持」ava

Tair

和C版本的客户端

一种可能的、可伸缩的、高性能的排序分布式的KV存储系统，参照

ApacheAccumuloGoogleBigtable而设计,建立在Hadoop、Thrift和Zookeeper之上。

使用ANSIC语言编写、支持网络、可基于内存亦可持久化的H记型、

Redis单机版KV数据库。从3月15日起，Redis的开发工作由VMware主持

支持海量数据的高性能分布式数据库系统，实现「数千亿条记录、数百

OceanBaseTB数据上的跨行跨表事务

AmazonSimpleDB•种可大规模伸缩、用Erlang编写的高可用数据存储

惠普收购Vertica,Vert收a是老式的关系型数据库,基于列存储,同

Vcrtica步支持MPP,使用原则的SQL查询,可以和Hadoop/MapRcducc进行集成

Hadoop成员，Facebook于将Cassandra开源，基于O（1）DHT的完全P2P

Cassandra架构

IlyperTable搜索引擎公司Zvents针对Big;able的C++开源实现

支持ACID事务解决的NoSQL数据库，提供非常好的性能、数据一致性

FoundationDB和操作弹性

Bigtable在Hadoop中的实现，最初是Powerset公司为理解决自然语言

UBase搜索产生的海量数据而开展的项目

CouchDB面向文档的数据存储

MongoDB文档数据库

加州大学伯克利分校的AMPLab基于Hadoop的核心组件开发出一种更快

文献存储Tachyon的版本Tachyon,它从底层重构了Hadoop平台。

KFSGFS的C++开源版本

HDFSGFS在Hadoop中的实现

TwitterMesosGoogleBorg的翻版

资源管理

HadoopYarn类似于Mesos

Facebook开源的日记收集系统，可以从多种日记源上收集日记，存储

到一种中央存储系统（可以是RFS,分布式文献系统等）匕以便于进

H记收集系FacebookScribe行集中记录分析解决，常与Hadoop结合使用，Scribe用于向HDFS中

统Push日记

ClouderaFlumeCloudera提供的日记收集系统，支持对日记的实时性收集

日记管理、分析和传播匚具,可配合理bana、ElasticSearch组建成日

logstash记查询系统

kibana为日记提供和谐的Web查询页面

StornAIQ

ZeroMQ很底层的高性能网络库

在AMQP基本上完整的，可复用的公司消息系统

RabbitMQ

ApacheActiveMQ能力强劲的开源消息总线

消息系统开源的、高性能的、跨语言分布式消息系统，最早是山Apache孵化的

JafkaKafka(由Linkedln捐助给Apache)克隆而来

Linkedin于12月份开源的分布式消息系统，它重要用于解决活班的流

ApacheKafka式数据，由Scala写成

分布式锁服务，PoxOS算法的实现，相应Google的Chubby

分布式服务ZooKeeper

ApacheAvroHadoop中的RPC

RPCRPC,支持C++/Java/PHP等众多语言

FacebookThrift

Nagios监视系统运营状态和网络信息的监视系统

UCBerkeley发起的一种开源集群监视项目，设计用于测量数以千计的

Ganglia节点。

集群管理

Hadoop成员，管理和监视ApacheHadoop集群的开源框架

ApacheAmbari

Google顶级大牛开发的单机版要值数据库，具有非常高的写性能

LcvclDB

源于Google,ortedStringTable

SSTable

Record10源于Google

针对游戏开发的，高效的跨平台序列化库，相比Prol。Buffers开销更

FlatBuffers小，由于FlatBuffers没有解析过程

基本设施

Google公司开发的一种数据描述语言，类似于XML可以将构造化数据序

列化，可用于数据存储、通信合同等方面。它不依赖于语言和平台并且

ProtocolBuffers

可扩展性极强。

1997年由麻省理工学院提出，目的是为理解决因特网中的热点(Hot

ConsistentHashing

spot)问题，初衷和CARP十分类似，基本解决了在P2P环境中最为核

心的问题如何在动态的网络拓扑中分布存储和路由。

JBOSS提供的一种java开源框架，提供异步的、事件驱动的网络应用程

Netty序框架，用以迅速开发高性能、高可靠性的网络服务器和客户端程序。

布隆过滤器，1970年由布隆提巴，是一种很长的二进制矢量和一系列随

机映射函数，可以用于检索一种元素与否在一种集合中，长处是个间

BloomFiIter效率和查询时间都远远超过•般的算法，缺陷是有•定的误辨认系和

删除困难。

开源Java实现的搜索引擎，诞生Hadoop的地方。

Nutch

一套信息检索工具包，但并不涉及搜索引擎系统，它涉及了索引构造、

Lucene读写索引工具、有关性工具、排序等功能。

基于Solr和Zookccpcr的分布式搜索

人人文库> 全部分类> 办公材料 > 演讲稿件

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据平台技术框架选型资料

文档简介

温馨提示

最新文档

评论

大数据平台技术框架选型资料

文档简介

温馨提示

最新文档

评论

相关文档