集团大数据平台系统功能设计方案_第1页
集团大数据平台系统功能设计方案_第2页
集团大数据平台系统功能设计方案_第3页
集团大数据平台系统功能设计方案_第4页
集团大数据平台系统功能设计方案_第5页
已阅读5页,还剩90页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

集团系统功能设计

1概述

平台管理

多租户管理多应用管理]作业调度管逋统T维监控

1J

数据ETL数据分析与挖掘数据展现

数据管理

结构化数据管理I半/非结构化数据管理

百强jI数据交换数据存储管理

I数据加工清洗I数据廿算一数据查询

参见上图,系统功能设计主要包括:平台管理(多租户管理、多应用管理、作业调

度管理、统一运维监控\数据管理(结构化数据管理、半/非结构化结构数据管理、数

据采集、数据交换、数据存储管理、数据加工清洗、数据计算、数据查询)、数据管控

(元数据、主数据管理、数据质量管理\数据ETL、数据分析与挖掘、数据展现等。

2平台管理功能

2.1多应用管理

星环TranswarpDataHub大数据平台对企业级用户提供多应用场景的支持,例

如:通过TranswarpStream提供实时甥g计算场景支持,通过TranswarpInceptor

提供批处理场景支持,通过TranswarpHyperbase提供在线数据服务场景支持,通过

TranswarpDiscover提供数据分析、挖掘场景支持。

星环大数据平台通过TranswarpOperatingSystem云平台系统(以下简称TOS)

实现大数据平台多应用管理,支持对应用的服务级别管理(SLA),实现应用的访问资源

控制,支持资源隔离。

TOS基于Docker容器技术,支持一键部署TDH各个组件,支持优先级的抢占式

资源调度和细粒度资源分配,让大数据应用轻松拥抱云服务,满足企业对于构建统一的

企业大数据平台来驱动各种业务的强烈需求。

TOS主要由4部分组成,底层由基于Docker的容器技术作为所有应用服务的承

载,通过将应用服务装载在Docker容器中,能够实现应用环境和底层环境的解耦合;

通过优化过的Kurbernetes对整个集群的资源进行管理与调度;在此之上,内置了丰富

的系统级服务应用,如完整Docker化的TranswarpDataHub集群各个组件等;对于

其他应用服务的接入,提供了完整的DockerImagesRepository集中服务管理库,用

户可以通过TOS提供的接口,将应用服务制作为DockerImage,加载入TOS

Repository,通过定义调度规则,在TOS统一管理与调度。

TranswarpOperatingSystemdl^^;分

Trans*arpOperatinQS>a?rn田以下咬部分组成

•RIOQ0:Dodier/Contairwr

•Ring1:ResourtrscfiedM

•Ring2:Su**asternteivK£s

•Rina3:CentraserviceteposAcry(dodwImaaes)

图5-2大数据云平台架构图

便捷部署:基于TOS,用户可以通过WebULRESTAPI或者命令行一键瞬间安

装和部署TDH集群,能自动根据服务的依赖性安装所需的其他服务组件。在虚拟技术

之前,部翻件资源满足新的应用需求需要几天时间,ffiM拟化技术把这个时间降到

了分钟级别,而目前基于Docker的TOS云平台把时间降到了秒级别。Docker作为装

载进程的容器,不必重新启动操作系统,几秒内能关闭,可以在数据中心创建或销毁,

没有额外消耗。典型的数据中心利用率是30%,通过更积极的资源分配,以低成本方式

对新的实例实现更合理的资源分配,从而提高数据中心的利用效率。

完整的斐源隔离:TOS通过优化Kubernetes资源管理框架实现了基于Docker容

器对CPU,内存,硬篇口网络更好的隔离。TOS中Docker容器的隔离目前是由Linux

内磁供的六项P的,刨舌主机S与域名的E的,信整、消息队弼哄享内存的隔离,

进程编号的隔离,网络设备、网络栈、端口的隔离,挂载点(文件系统)的隔离,用户

和用户组的隔离。这些隔离保证了不同容器的运行环境是基本不受影响的,比如挂载点

的隔离,就保证了一个容器中的进程不能随意访问另外一个容器中的文件。

TOS平台相比于传统的ApacheYarn管理框架和开源Kubernetes的资源管理框

架而言,在资源粒度方面可以管控磁盘和网络,而传统资源调度框架只能管理到CPU

和内存;在隔离性方面,容器技术有天然的优势;在依赖性和通用性方面,不依赖于

Hadoop组件以及技术,这意味着可以实现所有上层应用的云化开发、测试、升级以及管

理调度。容器的隔离目前是由Linux内核提供的六项隔离,包括主机名与域名的隔离,信

号量、消息队列和共享内存的隔离,进程编号的隔离,网络设备、网络栈、端口的隔离

,挂载点(文件系统)的隔离,用户和用户组的隔离。这些隔离保证了不同容器的运行

环境是基本不受影响的,比如挂载点的隔离,就保证了一个容器中的进程不能随意访问

另外一个容器中的文件。

表5-1Yarn管理

■依赖单个

YARNCPU/MEM进程级别、不精确支持少量计算引擎

HDFS

不依赖

KubernetesCPU/MEMContainer支持通用Linux负载

Hadoop

CPU/MEM,

Container+Quota不依赖

TOSDISK,支持大数据及通用应用

+VLANHadoop

NETWORK

灵活资源调度:TOS支持对TDH组件自动扩容或者缩容,同时也允许其他应用服

务和大数据服务共享集群,从而提高资源的使用率。TOS创新的支持抢占式资源调度模

型,能在保障实时业务的同时,提高集群空闲时的资源占用,让批量作业和实时业务在

互不干扰的情况下分时共享计算资源。通过支持动态扩容和收缩集群,从何实现了资源

的动态分配与调度,整个过程热插拔业务、服务无需重启。

自动修复:TOS的Replicator模块负责检测集群规模,当集群中服务发生问题时

可以另起一个服务实例实现集群的自我修复功能。举例而言,某个HyperbaseRegion

Server由于硬件原因服务停止,TOS平台能够实时感知,并在管理的资源范围内另起

一个RegionServer的Docker容器接替因故停止的容器,动态的保证了服务集群的整

体稳定性。

应用隔离:在TOS上运行的TDH以及应用服务还引入微服务的架构,显著降低用

户部署环境对TDH以及应用服务稳定性的影响,提高了部署的可用性,并且能让用户

在不停业务以及服务的前提下,享受到快捷的TDH以及应用服务更新版本滚动升级。

2.2多租户管理

对于各个部门以及下级单位的不同应用需求,通过统一的集群管理,结合星环的

YARN资源调度框架,可以动态创建和销毁集群,灵活部署业务,适合对非7x24不间

断业务(例如周期性统计业务)动态部署。

此外,在资源隔离方面,TranswarpYARN支持对计算资源和内存资源的管理能

力,避免占用内存资源多的Spark或Map/Reduce集群之间争抢内存资源。缺省模式

下集群就是创建在YARN上,可以非常方便的动态创建和销毁Spark或者M叩/Reduce

集群。同时,通过YARN的资源隔离和配额管理,可以避免使用同一个Map/Reduce

集群时出现的计算资源争抢现象,保证每项业务都能顺利完成。

与此同时,为了更好的利用平台计算资源,在申请资源配额后,如果当前用户的资源

紧张或受限,可以动态调配其他用户的闲置资源加入,当其他用户使用时再归还。

同时,结合Kerberos实现TranswarpYARN的资源申请,作业提交以及队列使用

的权限管控,管理员通过管控界面,定义YARN中用户能够在哪些队列中提交作业,能

申请资源的额度以及能提交作业的最大个数等,实现计算资源的用户权限管控。

S此,对于分析类应用,可以充分使用星环YARN的特性,实现分析集群的按需创

建与销毁,从而实现数据、资源、计算能力的统一调度和规划。

对不同的租户的操作员进行分组分类分级管理,利用Kerberos以及LDAP对租户

应用授权,支持对计算资源和内存资源的管理能力,避免占用内存资源多的Spark或

Map/Reduce集群之间争抢内存资源,对租户的数据访问能力进行设置,实现数据隔

离。

2.3统一运维监控

本方案提供统一的运维监控^务,主要通过TOS实现,TOS的核心是Docker和

本方案涉及到的所有软件的部署都通过打包成镜像文件,以便非

Kubernetes0Docker

常快捷的部署实施。内部系统通过镜像数据接口交互层进行交互。通过外酣妾口层纳入集

团运维平台进行统一监控。

卡勰鹘统一监控平台

控外部接口层(API.URL嵌入,底层数据,XMI等)

层安仝监控应用监控数据监拄|性策监控费源/阻务词度

镜像数据接11交互层

ry“大救躯平台、

镜TDHTrinityiRechartsiNLPElasticsearch

像Hadoop平台依据金型平台报表平台自然语言控盒引擎管理框架

k/

DTranswarpTOS

o

c

kContainerSchedulerSystemService

e

sccordinatioorchestratiauto-

公rCPU/MEMDiskNetworkdiscovery

nonscaling

Containerpnonty-basedstore呼loadname

端珍挣I台etcdreplicator

Pluginsschedulermanagi15-3balancerservice

本方案提供统一的运维监控^务,主要通过TOS实现,TOS的核心是Docker和

本方案涉及到的所有软件的吾曙都通过打包成镜像文件,以便非

KubernetesoDocker

常快部署。

整个架构通过Docker打包,并提供服务接口,这种服务接口分为两层:

1)镜像层

a)提供接口文件

b)提供数据接口

2)外部接口层

a)提供API

b)提供URL嵌入

c)提供数据接口

d)提供XML接口(包括定制XML,JSON等)

e)ESB接口

整个接口层的设计便于产品之间,系统之间的交换,也便于整个架构对接IBM

Tivoli,BMCControlM等监控平台,引入监控或者外推监控,更好的融入到整个集

团集团的监控体系,便于统一监控。

2.3.1Hadoop集群自动化部署

一站式大数据平台提供集群自动化部署服务。用户只需要安装Transwarp

Manager管理平台软件,就可以在友好的图形化界面上安装、部署、配置所需要的服

务。整个安装过程不需要用户使用任何终端命令或者代码。

.Ol

图5-4TDH节点管理界面1

平台提供了强大的在线扩容功能,不需要宕机停库,不需要停止业务,就可以添加新

的节点,实现扩容。节点添加完成之后可以立即对新添加的节点进行角色的分配,一旦配

置成功,则新加的节点就会马上投入运算。扩容之后的数据节点也不需要停机进行数据

重分布,系统自动选择空闲的时间进行数据的重新分布。同时,扩容的操作可以方便的在

界面进行操作。

1.S*«CtCUtofRK*kA*OC«MlNCOM4.0*wS««rcp

totfWGtaarvaucaxvmnetwrfnratmrytannaOBi«oMMamdccrMQjRttjn*Rx*Mtomar<(uti>itMitEBQr

IN00«tPAMfMBCMVWVMBftnQOCSSMCOfAguTM刖&

)HU^UUOI172.ia»J1tayriYKS©«4iMi,3

0awHxCff1?21S97?wyhYfS

I11Buzraxo172.iaaJ9synYE8.,de«ut«vc*

lUtfciXM17)104ttfyhYESXBUkd

图5-5TDH节点管理界面2

2.3.2Hadoop集群性能监控

平台通过专门的监控服务对集群的状态进行监控,包括服务器CPU、内存、网络

和磁盘的利用率和健康状态,以及分布式应用系统的状态,并在故障发生或者某项指标

超过预设阀值时期是供告警功能。管理员可通过浏览器访问集群的监控和管理界面进行日

常的用空和绸P,系名磁供图标信息展示。管理员可以便捷了解到集群的计算资源是否处于

空闲状态、明陶员务器的负载过高,甚至判断霸的组网及机架安排是否合理等。管理员也

可通过对各个节点的各个角色的日志信息进行检索,获得更加精确的信息。

Web界面

8

平台集成Ganglia集群监控系统,能够从上千台服务器上收集系统信息,能够保障

当集群规模扩展至上百台上千台服务器时,监控程序都能够高效的获取每台服务器的状

态信息。Ganglia由Gmetad与Gmond组成,其中集群中每一台机器上都有一个

Gmond服务进程,Gmetad收集所有节点metrics信息并在Web前端界面上展现出

来。集群中的每台服务器上都运行监控守护进程,守护进程能够将这些数据的精简传递,

这使得Ganglia的运行对集群的资源消耗极少。所有的指标数据都存储在一个RRD

(RoundRobinDatabase)数据库中,为了防止Gmetad频繁写磁盘造成I/O瓶颈,

通过rrdcache缓存指标辘,定量写入RRD。

存储资源监控,包括获取存储量、剩余存储量以及存储系统整体情况信息。

通过Ganglia集群翱繇统向集团运维将空平台发送监控消息,提供对接接口,实

现大雌平台与集团逼蝴空平台的,实理充一雌

图5-7TDH性能监控界面

运算资源监控,包括监控工作负载、CPU、内存资源、性能、组件性能(Kafka处

理性能)等情况

提供全局日志和任务级日志。

G

日志

•»ta

AT'ixritimrrMr*VMvyMM*anman,,NC

R,kX^lfrH笳CMutfuXXT*wori>^rt,:MX«tS>•rwnIKfC01Stwv,*Mcr««4(bxM

2tftmRM•naat.

Acr^tKMailrtfSM•unuCQntrc39Aat-RB««»,GQ34WnMr

neixMT,rv)oM««*X2iux«<£Sean,IWC

<rttMim/WtMO

D1-r«cu«itO«v)9*«**Q»M«•••

(imifn1*KJ

-tOBSUBLIfRMRM__WMH1Hwrri«mniinwTiTf

EA2阿”

日志

2.1ZHUM44”(

l*a«aK<4ir*<7Ki-NM'Xrwa

fIC.XU3XC

*^_cunxe

图5-10TDH任务日志查看界面

在故障发生时提供告警功能。

"♦m**:,gi

■JJFUSQ":"aLofiotJcrKMrMw»vrfrac<ar

?t>,!V0S6IT17fl?LopofvtwliftrRic»*MrTnKC>vTmiawwvpJo

0M«V«riMU

ncutO]

WTT«Log5.KTMmrRaoxTrocvr

25M>57«4n4«deriveLo^alrairotoErdpcnAAMa*ImasterMVK

•rfMWiOII

2tf&VV17M»49U>9ofrvirtMaEniporiMMatIma0crMr(

?msv“17MN48LogofnroteEndpcrMMs"Ka0Oraar(

0T|>2MBQ1)

231SW17'4?44BUJQatmrcrt*EpcHMrtm

2.3.3Hadoop集群资源管理

TDH提供计算任务管理和作业管理,包括作业的上传、配置、启动、停止、删除

和状态查看等功能。

,IlfllglY,,,:E”:,CTUMWITrtUflSHi^/(wt1l'RH(XSIRTVXCLVlU*rn>.to<crTCM'WTUtillC

nJUMinoiTUi

rrtetcmuxaaKr

tuoio•«netUM«

KTACVHiVC.

,―,C««VM

*nt:1

图5-12TDH作业管理界面

Q!1*

***«

1wreK

aim'WFTKIF”«gc

t,lAffi<93

作哂IVK«(.4pu

01111Jam«go

q.c-v^n>cIwcet.Jd3<*:«40

。♦仲FneM1M*tl*Y54fT

mmTw*t<>>lrn*QC

I»<gp

Iw«e*.)>^rs中

存储资源管理,浏览数据、更改回收存储资源。

2M»

HOFSM电H

图5-14TDH斐源管理界面

在TDH平台中,资源可以从多个方面进行管理。从资源管理模块YARN的层面,

用户通过配置不同的Scheduler来定义不一样的资源使用策略,目前支持FIFO

Scheduler,FairScheduler以及(OpacityScheduler,实现作业动态调整,支持对任

务系统资源占用进行实时调配,改变作业调度优先级等操作。

YARN•dx

U-i

B

图5-16优先级管理界面2

2.3.4图形界面方式多租户管理

用户可以使用图形化界面来配置多租户的用户、组的权限。管理员用户可以新建、

编辑用户的信息。

/.AAd>wiM(n

Users

*More

图5-17多租户管理界面1

teonrUvnnt

图5-18多租户管理界面2

图5-19管理员编辑界面

同时,管理员用户也可以编辑、维护角色的信息。

Rotes

r.

9

»*r(tfAO.»£MM<39CtNS.UP2ATE.P0«M«$0H9

9-«

图5-20角色信息编辑界面

同时用户可以可以按需创建,按需销毁计算集群,并且创建集群时只需要指定所需

计算资源,无需指定具体物理机器

0adnn

I*

图5-21角色资源管理界面1

(D

图5-22角色资源管理界面2

2.3.5系统巡检信息收集

整个系统的软硬件状态都可以方便的从图形界面中进行监控。用户可以实时的浏览

集群中CPU、内存、网络与磁盘等的状态。

®Situ*

图5-23系统巡检界面

TDH平台从各环节层次以及组件抽取巡检信息,按照管理平台的要求对其进行重

新过滤和格式化整理,并最终进行日志信息入库。整个过程需实现处理的流程化及自动

调度机制,以保证管理平台能够及时的获取日志数据。

系统管理模块对Hadoop平台各层次所产生的日志记录进行获取并整理。其中包

括访问层日志记录、应用层日志记录、数据存储层日志记录、数据获取层日志记录以及

元数据管理的日志记录。提供一键式的图形化巡检工具,直观反映关键部件状态,并提

供一键式的信息收集工具,收集系统日志、配置信息以便于快速定位。

\8*f0!M«c**r«4m-3(«MU>3t«wrrV

2K.JCC

4.<Ktmd.T'UOE

2•KaarvMTUV

•«M«Wotnar01mMiti

看热;oumi

M«••»•・•«**M<W■**'••4•4)»4»rwIe4T

»»•«024»«*>t|

T».jna*0CA5T

»a>w.;a,,,*J»rv

**«»MJttMJIIa*O0»a*M*«»«Xti-Ai<MOwMAamw

■:wt>joau<jkrfBeat

2XVUNMMU&;.MM0M

图5-24信息收集界面1

ThBM^

*rat2K:Pi"t,*>«*ynaa

2.3.6系统性能跟踪

平台提供了友好的界面,方便用户跟踪当前的任务进度与资源使用情况。用户可以

通过以下页面监控正在运行的任务与已经完成任务。同时界面也^常简单明了的展示了每

个查询的资源消耗。

TR/IZ&W八RPSpari^

3URC«Stixag*HotodMkEnvKmmcntExccutoe*

CompletedStages(3)

8t3«!

MDMOlp«on

4NUrefcevmnuqpbJCW?D154H,

njn.EM9:ga,“1,.11.63

2Mi»cfM七EMPMfr2015-C4.1511friruS34.534

run«nveoaIO*K,40toecaBirx&a

0m»cf'Mtpjkxfcvrtmr,02。1加4心

3eb・36rgNratcrwai«20iKM*ahlK*rO8

ledSt*9M|0)

图5-26性能跟踪界面

也可以直接通过选择时间范围来查询指定的SQL。

2.3.7与集团运维监控平台对接

通过Ganglia集群监控系统向集团运维1触平台发送监擀肖息,提供对?凿妾口,实

现大辘平台与集团运维蜡空平台的互通,实现统一将空。

平台通过专门的监控服务对集群的状态进行监控,包括服务器CPU、内存、网络

和磁盘的利用率和健康状态,以及分布式应用系统的状态,并在故障发生或者某项指标

超过预设阀值时提供告警功能。管理员可通过浏览器访问集群的雌和管理界面进行日常

的监控和维护,系统提供图表信息展示。管理员可以便捷的了解到集群的计算资源是否处

于空闲状态、明陛服务器的负载过高,甚至判断集群的组网及搬骸排是否合理等。管理员

也可通过对各个节点的各个角色的日志信息进行检索,获得更加精确的信息。

Web界面

平台集成Ganglia集群监控系统,能够从上千台服务器上收集系统信息,能够保障

当集群规模扩展至上百台上千台服务器时,监控程序都能够高效

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论