大数据平台技术框架选型资料 (一)_第1页
大数据平台技术框架选型资料 (一)_第2页
大数据平台技术框架选型资料 (一)_第3页
大数据平台技术框架选型资料 (一)_第4页
大数据平台技术框架选型资料 (一)_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据平台框架选型分析

一、需求

城市大数据平台,苜先是作为一个数据管理平台,核心需求是数据的存和取,然

后因为海量数据、多数据类型的信息需要有丰富的数据接入能力和数据标准化处理

能力,有了技术能力就需要纵深挖掘附加价值更好的服务,如信息统计、分析挖掘、

全文检索等,考虑到面向的客户对象有的是上层的应用集成商,所以要考虑灵便的数

据接II服务来支撑。

二、平台产品业务流程

城市大数据平台

数据集成数据仓库平台管理决策支持

数据清洗

一一元数据

加工

Start数据接入

标隹化入库」

统n■分析、

分次数据仓底挖

爬虫

S<M・k<U文

件导入

朋务监莒

权限级数据接

□F

上层应用集成

三、选型思路

必要技术组件服务:

ETL>非/关系数据仓储>大数据处理引擎〉服务协调>分析BI>平台监管

XesArea:城6X威若迭震驾检患急

四、选型要求

1.需要满足我们平台的几大核心功能需求,子功能不设局限性。如不满足全部,

需要对未满足的其它核心功能的开放使用服务支持

2.国内外资料及社区尽量丰富,包括组件服务的成熟度流行度较高

3.需要对选型平台自身所包含的核心功能有较为深入的理解,易用其API或者基于

源码开辟

4.商业服务性价比高,并有空间脱离第三方商业技术服务

5.一些非功能性需求的条件标准清晰,如承载的集群式点、处理数据量及安全机制

五、选型需要考虑

简单性:亲自试用大数据套件。这也就意味着:安装它,将它连接到你的Hadoop安

装,集成你的不同接口(文件、数据库、B2B等等),并最终建模、部署、执行一些大数

据作业。自己来了解使用大数据套件的容易程度一仅让某个提供商的顾问来为你展示它是

如何工作是远远不够的。亲自做一个概念验证。

广泛性:是否该大数据套件支持广泛使用的开源标准一不只是Hadoop和它的生态系

统,还有通过SOAP和RESTweb服务的数据集成等等。它是否开源,并能根据你的特定

问题易于改变或者扩展?是否存在一个含有文档、论坛、博客和交流会的大社区?

特性是否支持所有需要口勺特性?Hadoop的发行版本(如果你已经使用了某一个)?

你想要使用的Hadoop生态系统的所有部份?你想要集成的所有接口、技术、产品?请注

意过多的特性可能会大大增加复杂性和费用。所以请查证你是否真正需要一个非常分量级

的解决方案。是否你真的需要它的所有特性?

陷阱:请注意某些陷阱。某些大数据套件采用数据驱动的付费方式(“数据税”),也

就曷说,你得为自己处理的每一个数据行付涉。因为我们停在谈论大数据,所以议会变得

非常昂贵。并非所有的大数据套件都会生成本地ApacheHadoop代码,通常要在每一个

Hadoop集群的服务器上安装一个私有引擎,而这样就会解除对于软件提供商的独立性。还

要考虑你使用大数据套件真工想做的事情。某些解决方案仅支持将Hadoop用于ETL来

填充数据至数据仓库,而其他一些解决方案还提供了诸如后处理、转换或者Hadoop集群

上的大数据分析。ETL仅是ApacheHadoop和其生态系统的一种使用情形。

六、方案分析

自建套件hortonworks国内类exadoopTDW+fineBI

成木

100%开源培训服务3k/人

授权支持100K

性能单集群最大规

模达到台,处

理数据量可达

百级

功能按需整合HDFS和YARN数据管理从

各种引擎访问数据根据策

稍加戴利管理数据身份验

证、授权和数据保护大规

模配置、管理、监控和运

营Hadoop群集与您的数

据分析工具集成跨平台配

置部署

易操安装复杂,操作需图形设计界面,参数配置,

作性要专业培训。易上手。

应用国外大客户较多

成熟

文档较多,社区一官方社区比较活跃(英文)文档较少,无

文档/般,相关专业培训中文社区有1个文档较少,商用服务,无

社区较多。多为英文文档任何技术支持

支持

扩展开源开放开源开放开源开放

移植支持多操作系统支持多操作系统支持多操作系支持多操作系

性统统

监控监控功能强大Armbri元无

优势1、万源强大支持的开源套1、国产套件

1、尾随产品阶段逐1、开源中文支

步完善整合自定义件2、交流支持方持

、配套商业服务支持便

套件22、基于人数据

2、自选流行组件,3、商业服务较处理核心,灵

资料丰富灵便活组合其它组

件来适应不同

产品阶段及项

商业成本较图依赖于打包服半定制套件,

劣势整合周期不可控务公司的支持福苧nsin

七、相关资料

https:〃prestodb.io/http://www.thinksaas.cn/group/topic/233669/HDP

(hortonworks)

ACompleteEnterpriseHadoopDataPlatform

MB蚯《

WZSOLJovVSc…NoSOL遭存零内存

RgHiveCascadingHBas«SkxmSotSpa依Engms

HCauiogAccumuloAutFwnllcdtion,

PhO4H|YAuthorization,AuditQ

Falcon1A

K3|KUJK3jBZ21miR£K3LMaProtectionArnbari

wwwwZooKeeper

WcbHD

YARN,数掂操作系统存像HOFS

FS吴源:YARN

计划

NFS11访同:rtve

Hums置点:FalconOoz

SquD哥里:Knox

HDFSie

Kafkadust*Ranger

Hadoop分布式文件系笠

火相“

________________________TES明混Lml.g

TDW-基于Hadoop/Hive的深度定制

-TDW-TencentdistributedDataWarehouse

•腾讯分布式数据仓库,支持百PB级的数据存微口计真.为公司产品提供海量、高效、稳定的大数据平

台支撑ffl决策支持.

开源工具汇总整理

类别名称备注

Salesforce公司出品,ApacheHBase之上的一个SQL中间层,彻底使

Jhoenix

用Java编写

原叫Tez,下代Hive,Hortonworks主导开辟,运行在YA下上的DAG计

Stinger

算框架

>restoFacebook开源

查询引擎

SharkSpark上的SQL执行引擎

>ig基于HadoopMapReduce的脚本语言

参照GoogleDrcmcl实现,能运行在HDFS或者HBasc上,使用C++开

ClouderaTmpala

ApacheDrill参照GoogleDrcmel实现

ApacheTajo一个运行在YARN上支持SQL的分布式数据仓库

Hive基于HadoopMapKeducc的S(L盒询引擎

:acebookPuma实时数据流分析

「witterKainbird分布式实时统计系统,如网站的点击统计

流式计算Java开辟的一个通用的、分布式的、可扩展的、分区容错的、可插拔

YahooS4

的无主架构的流式系统

「witterStorm使用Java和Clojure实现

建立在Hadoop上基于BSP(BulkSynchronousParallel)的计算框

ApacheHama

架,摹仿了Google的Pregel»

建立在Hadoop上的可伸缩的分布式迭代图处理系统,灵感来自RSP

(MilU

迭代计算ApacheGiraphsynchronousparallei)和Coogle的Pregel

HaLoop迭代的MapReduce

Pwistcr迭代的MapReduce

ladoopMapReduce经典的大数据批处理系统

使用Scala语言实现,和MapReduce有较大的竞争关系,性能胆于

BerkeleySpark

离线计算MapReduce

基于Hadoop2.X构建的实时流式处理和分析平台,每秒可以处理超过

)ataTorrent

10亿个实时事件

.evelDBGoogle开源的高效KV编程库,注意它只是个库

Facebook开源的,基于Google的LevelDB,但提图了扩展性可以运行

RocksDB

在多核处理器上

下一代KV存储系统,支持strings、integers、floats、lists、

lyperDex

maps和sets等丰富的数据类型

日本人MikioHirabayashi:平林千雄)开辟的一款DBM数据库,注

PokyoCabinet意、它只是个库(大名鼎鼎的)BM数据库qdbm就是MikioHirabayashi

开发的),读写非常快

一个分布式键值存储系统,是AmazonDynamo的一个开源克隆,

Voldcmort

键值存储LinkedIn开源

AmazonDynamo亚马逊的KV模式的存储平台,无主架构

淘宝出品的图性能、分布式、可扩展、局可靠的KV,结构存储系统,专

Tair为小文件优化,并提供简单易用的接口(类似Map),Tair支持Java

和C版本的客户端

•个可靠的、可伸缩的、局性能的排序分布式的KV•存储系统,参照

ApacheAccumulcGoogle

使用ANSIC语言编与、支持网络、可基于内存亦可持久化的日志型、

《cdis单机版KV数据库。从2022年3月15FI起,Rcdis的开辟工作由

VMware主持

支持海量数据的图性能分布式数据库系统,实现了数千亿条记录、数百

OccanBase

TB数据上的跨行踏表事务

\mazonSimpleDE一个可大规模伸缩、用Erlang编写的图可用数据存储

惠普2022收购Verlica,Vcrlica是传统的关系型数据库,基于列存储,

Vertica同时支持MPP,使用标准的S乳查询,可以和Hadoop/MapRcducc进行

隹成

Hadoop成员,Facebook于2022将Cassandra开源,基于0(DDHT

Cassandra

的完全P2P架构

lyperTable搜索引擎公司Zvents针对Bistable的C++开源实现

支持ACID事务处理的NoSQL数据库,提供非常好的性能、数据一致性

:oundationDB

和操作弹性

Bigtable在Hadoop中的实现,最初是Powerset公司为了处理自然语

{Base

营搜索产生的海量数据而开展的项目

CouchDB面向文档的数据存储

MongoDB文档数据库

加州大学伯克利分校的AMPLa)基于Hadoop的核心组件开辟出一个更快

文件存储Tachyon

的版本Tachyon,它从底层重构(Hadoop平台。

KFSGFS的C++开源版本

IDFSGFS在Hadoop中的实现

TwitterMesosGoogleBorg的翻版

资源管理

ladoopYarn类似于Mesos

Facebook开源的日志采集系统,能够从各种日志源上采集日志,存储

到一个中央存储系统(可以是\FS,分布式文件系统等)上,以便于进

FacebookScribe

行集中统计分析处理,常与」adoop结合使用,Scribe用于向HDFS中

Push日志

日志采集系

ClouderaFlumeCloudera提供的日志采集系统,支持对日志的实时性采集

日志管理、分析和传输工具,可配合kibana、旧asticSearch组建成日

logstash

志查询系统

kibana为日志提供友好的Web查询页面

StormMQ

ZcroMQ很底层的高性能网络库

出bbitMQ在AMQP基础上完整的,可复用的企业消息系统

能力强劲的开源消息总线

消息系统ApacheActiveMQ

开源的、高性能的、跨语言分布式消息系统,最早是由Apache孵化的

Jafka

Kafka(由Linkcdln捐助给Apache)克隆而来

Linkedin于2022年12月份开源的分布式消息系统,它主要用于处理

ApacheKafka

活跃的流式数据,由Scala与成

分布式服务ZooKeeper分布式锁服务,PoxOS算法的实现,对应Google的Chubby

ApacheAvroHadoop中的RPC

RPC

:acebookThriftRPC,支持C++/Java/PHP等众多语言

Nagios监视系统运行状态和网络信息的监视系统

集群管理UCBerkeley发起的个开源集群监视项目,设计用于测量数以千计的

Ganglia

节点。

ApacheAmbariHadoop成员,管理和监视ApwcheHadoop集群的开源框架

,evelDBGoogle顶级大牛开辟的单机版键值数据库,具有非常高的与性能源于

SSTableGoogle,ortedSiringTable

Accord10源于Google

针对游戏开辟的,局效的跨平台序列化库,相比ProtoBuffers开消更

'latBuffers

小,因为FlatBuffers没有解析过程

Google公司开辟的一种数据描述语言,类似于XML能够将结构化数据

ProtocolBuffers序列化,可用于数据存储、通信协议等方面。它不依赖于语言和平台

并且可扩展性极强。

基础设施1997年由麻省理工学院提出,目标是为了解决因特网中的热点(Hot

ConsistentHashingspol)问题,初衷和CARP十分类似,基本解决了在P2P环境中最为关

键的问题一一如何在动态的网络拓扑中分布存储和路由。

JBOSS提供的个java开源框架,提供异步的、事件驱动的网络应用程

\etty序框架,用以快速开辟图性能、高可靠性的网络服务器和客户端程序。

布隆过滤器,197。年由布隆提出,是一个很长的一进制矢量和一系列

随机映射函数,可以用于检索个元素是否在个集合中,优点是空间效

HoomEilter率和查询时间都远远超过普逋的算法,缺点是有一定的误识别率和删除

艰难。

Nutch开源Java实现的搜索引擎,诞生Hadoop的地方。

一套信息检索工具包,但并不包含搜索引擎系统,它包含了索引结构、

Lucene

读与索引工具、相关性工具、排序等功能。

基于Solr和Zookeeper的分布式搜索,Solr4.0的核心组件之一,主

SolrCloud

要思想是使用Zookccpcr作为集群的配置信息中心

SolrSolr是基于Lucene的搜索。

搜索引擎开源的(Apache2协议),分布式的,RESTful的,构

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论