云数据采集中心及大数据计算平台建设方案_第1页
云数据采集中心及大数据计算平台建设方案_第2页
云数据采集中心及大数据计算平台建设方案_第3页
云数据采集中心及大数据计算平台建设方案_第4页
云数据采集中心及大数据计算平台建设方案_第5页
已阅读5页,还剩122页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

cc云数据采集中心及大数据计算平台

建设方案

成都中蓝信息技术有限责任企业

目录

1引言......................................................................5

1.1项目背景..............................................................5

1.2项目目口勺..............................................................5

1.3建设原则..............................................................6

1.4参照规范..............................................................7

1.5名词解释..............................................................9

2云数据采集中心..........................................................10

2.1需求概述............................................................10

2.2总体设计............................................................13

2.3关键技术及功能.......................................................18

分布式文献存储技术...................................................18

分布式并行计算技术...................................................27

分布式数据库技术.....................................................31

负载均衡..............................................................34

数据采集..............................................................39

开放平台.............................................................45

2.4布署方案.............................................................48

2.5实行计划.............................................................50

3大数据计算平台..........................................................52

3.1需求概述.............................................................52

3.2总体设计.............................................................52

3.3应用建设.............................................................57

收视率记录............................................................57

智能推荐..............................................................60

拍立购................................................................63

3.4布署方案.............................................................69

3.5实行计划.............................................................72

4性能及成本分析..........................................................73

4.1运行商网络性能分析...................................................73

4.2服务器网卡性能分析..................................................73

4.2服务器内存性能分析..................................................73

4.3服务器硬盘性能分析..................................................74

4.4服务器RAID模式分析.................................................74

4.5D2B性能分析.........................................................75

4.4DMQ平台性能分析...................................................75

5存储空间规划表..........................................................76

6机房选型.................................................................77

7安全设计.................................................................78

8风险分析.................................................................81

1引言

1.1项目背景

根据CC智能战略口勺规划:做强终端、云平台建设、大数据商业模式,CC正迈

向大数据时代,目前正面向所有智能终端提供优质日勺服务,同步通过终端传感器或

数据采集服务可以获取海量口勺数据,并且数据量会以TB级剧增。因此CC迫切需

要建设一套高性能、高安全性、高可靠性,可扩展性的云数据采集中心,并搭建

一种数据中心支撑平台,以满足当今高速增长的数据存储、管理、计算日勺需求,同

步便于未来拓展和深入口勺改造。

目前CC数据中心是重要基于CC黑电、白电、浏览器等产品终端传感器采

集日勺海量文本、图片数据以及顾客数据,为CC后续其他数据分析挖掘项目提供

数据支撑日勺信息平台。对应方针——终端内容服务、云服务支撑与数据挖掘、个

性化数据价值探索。

建立统一有效日勺云数据采集中心有助于CC大数据的管理,符合CC新的发展

战略,CC黑电和白电产品终端传感器采集日勺数据有顾客行为的文本数据(log)、台标

等图片数据以及自建的影视知识库日勺构造化数据、电商平台日勺海量镜像数据。当

CC日勺顾客量和采集的数据量与日俱增日勺时候,数据中心必须能通过添加更多服务

节点来扩展性能和负载能力,保证高可扩展性和高可用性从而满足CC业务发展的

W且

而支。

1.2项目目日勺

•搭建分布式存储平台(可以存储海量非构造化数据和构造化数据)、分

布式并行计算平台等等,满足海量数据的采集、存储、计算的需要,平

台必须具有高可用性,高扩展性,高可拿性规定。

•为CC背面日勺产品(收视率记录,智能推荐系统,拍立购,开放平台等等)

日勺应用和实行打下坚实的基础,为集团CC的大数据提供运行支撑。

•云中心初期建立至少保证可以正常运行1〜2年,硬件选型,软件开始要

考虑到此后大规模扩容口勺规定。

•技术平台要有能力支持数据量最高WOOW终端数量的数据存储、数据计

算、信息推荐等的能力。

1.3建设原则

基于本项目的建设规定,本项目将遵照如下建设原则:

•前瞻性和高原则整个项目要按照企业对大数据应用的需要日勺高规定和高

原则建设,参照行业标杆应用,建立满足需求,面向未来日勺目日勺,整个

项目具有一定前瞻性。

•经济性和实用性整个项目以既有需求为基础,充足考虑未来发展口勺需要来

确定系统日勺架构,既要减少系统口勺初期投入,又能满足服务对象日勺需求,

同步系统设计应充足考虑对已经有投资日勺保护,对已建立日勺数据中心、

基础平台、应用软件应提供完备的整合方案。

•先进性和成熟性为了保证项目具有较长的生命周期,应充足考虑到管

理创新、技术发展需要,按照先进的建设理念,选择先进的技术架构

和成熟技术,满足业

务需求。

•高性能和安全性规范地进行系统建设和开发,提供合理且经济有效日勺

应急方案,保证系统日勺稳定,向各类服务对象提供可靠口勺服务。具有

安全性,在系统遭到袭击或瓦解时能迅速恢复,保证重要数据日勺机密

性和完整性。

L4参照规范

GB9361-88计算站场地安全规定

GB50173-93电子计算机机房设计规范

GB2887-89计算站场地技术条件

GB50174-2023电子信息系统机房设计规范

GB50462-2023电子信息系统机房施工及验收规范

GB50311-2023综合布线工程设计规范

GB50312-2023综合布线系统工程验收规范

GB50395-2023视频安防监控系统设计规范

GB50263-2023气体灭火系统施工及验收规范

GB50394-2023入侵报警系统工程设计规范

•GB/T20269-2023信息安全技术一信息系统安全管理规定

•GB/T20984-2023信息安全技术一信息安全风险评估规范

•GB/T22239-2023信息安全技术一信息系统安全等级保护基本规定

•GB/T22240-2023信息安全技术一信息系统安全等级保护定级指南

•GA/T388-2023B计算机信息系统安全等级保护管理规定

•GB/T8567-1988计算机软件产品开发文献编制指

•GB/T11457-1995软件工程术语

中依QJD

GB/T11457-2023信息技术软件工程术语

GB/T16260.1-2023软件工程产品质量第1部分:质量模型

•GB/T16260.2-2023软件工程产品质量第2部分:外部度量

•GB/T16260.3-2023软件工程产品质量第3部分:内部度量

•GB/T16260.4-2023软件工程产品质量第4部分:使用质量日勺度量

•GB/T14394-2023计算机软件可靠性和可维护性管理

•GB/T17544-1998信息技术软件包质量规定和测试

•GB/T18221-2023信息技术程序设计语言、环境与系统软件借口独立

于语言口勺数据类型

•GB/T18491.1-2023信息技术软件测量功能规模测量第1部分:概念

定义

•GB/T18492-2023信息技术系统及软件完整性级别

•GB/Z18493-2023信息技术软件生存周期过程指南

•GB/T20237-2023信息技术软件维护

GB/T20272-2023信息安全技术操作系统安全技术规定

GB/T20238-2023信息安全技术操作系统安全评估准则

•GB/T20239-2023信息安全技术数据库管理系统安全评估准则

•GB/T20918-2023信息技术软件生存周期过程风险管理

•GB/T8566-2023信息技术软件生存周期过程

•SJ/T10367-1993计算机过程控制软件开发规程

•SJ/T11234-2023软件过程能力评估模型

•SDO(ServiceDataObject)forJavaSpecificationV2.1

•SCA(ServiceComponentArchitecture)}avaEEIntegrationSpecification

VI.00

•Java2Platform,EnterpriseEdition

■CapabilityMaturityModel®Integration(CMMISNI),Version1.1

・ExtensibleMarkupLanguage(XML)1.0(FifthEdition)

•WebServicesBusinessProcessExecutionLanguagev2.0

L5名词解释

•S2DFS:简朴存储分布式文献系统(SimpleStorageDistributedFileSystem)

•D2B:分布式数据库(DistributedDatabase)

•JSS:作业调度服务(JobSchedulerService)

•DCS:数据计算服务(DataComputerService)

•MPS:消息处理服务(MessageProcessService)

•SDS:流数据处理服务(StreamDataService)

•DMQ:分布式消息队列(DistributedMessageQueue)

•JGS:作业生戌服务(JobGenerationService)

•ACS:自动清理服务进程(AutomaticCleaningServices)

•:超文本传播协定(HyperTextTransferProtocol)

•SMB:服务器信息块协议(ServerMessageBlock)

2云数据采集中心

2.1需求概述

根据CCB勺阶段规划,第一期云数据采集中心的建立至少满足1至2年内日勺

数据存储和计算规模,需要满足200万台多种智能终端的数据存储和计算规模。

此后整个云数据采集中心的技术平台和架构需要轻松扩展到支持1000万台规模

日勺多种智能终端的数据存储和计算规模。

如下的数据为预估数据(基于小范围的试验数据为根据):

数据类别文献(记录)大小1文献(记录)数量1文献(记录)大小2文献(记录)数量2

台标蚊据(原始数据,妁16KB/台/天妁%个文献/台/天妁32GB/XIO万台/天妁72fN)万个/2间万台/天

1天周期)

(由200Kb/台/天85得)

行为数据(原始数据,的60KB/台/天(记录)妁120GB/200万台/天(记录)的2亿条/200万台/天(记录)

1天周期)

(由400Kb/台//而得,加上了0KB的索引记录)的100条记录/台/天但狗为100CJB/200万台/升(文献)的2忆个/200万台/天(文截)

的S0KB/台/天(文树妁100个文献/台/天(文被)(平均估值)(平均估值)

(由400Kb/台/天而得〉(平划估仪)

(平均估值)

行为数据(原始数据,为60KB/合/为记拗妁45TB/2OO万台八年(文献,约35万条/2005■台〃年(记录)

永久保笛,压能处理)约•条记得台/天加上元数据指逑文*0

(由4«)Kb/台/天而得加上了DKB的索•引记狗约35万个/2OO5"台〃年(文献)

约@个文献/台/天(平均估值)注:记录的

为50KB/台/天(文构(平均俗但)注:

(平均估值)大小的为MB

(由4C0Kb/台/天而给128MB/1个文界

(平均估值)

行为分析/收视率记录为HJKB/J条(记制的1CTFB/1年(记录)妁I0J5亿条记录八年(记录)

/推荐/电裔索引等记

(平均借伯)(平均伏伯)(平均借俏)

至少。大电商的确像数为30KB/I约10亿个/I年{文取)为30TB/1与《文赋》

(平均估值)(平均估值)(平均估值)

以1年为计算周期(数据整合、压缩、清洗后),初步预估:

1、数据记录:约为10・15亿条;

2、文献个数:约为10-12亿个;

3、记录总大小:约为10TB;(双份副本:需要约20TB存储空间)

4、文献总大小:约为75TB;(双份副本:需要约150TB存储空间)

5、总容量大小:约为85TB;(双份副本:需要约170TB存储空间)

为了数据的高可靠性,为每份(文献/记录)建立镜像副本,因此总容量初

步可以规划约为170TBo

2.2总体设计

整个云数据采集中心分为四部分:硬件资源层、软件平台层、软件应生层、

智能终端层。

硬件资源层重要指实体硬件设备,包括用来存储数据口勺光纤阵列柜和存储服

务器,用来作记录、分析以及搜索用口勺计算服务器,用来布署分布式消息(DMQ)

/WEB/APP软件的WEB及消息服务器,用来布署用PostgreSQL关系数据库软

件日勺应用数据库服务器,用来布署作业调度服务进程(JSS)日勺作业调度服务器。

作为数据通信用的全千兆三层互换机等等。其中光纤阵列柜重要用来存储记录分

析后的粗颗粒度数据。存储服务器用来布署分布式文献系统和分布式数据库,同

时存储非构造化和构造化(台标图片,电商图片等等)和构造化数据(行为数据,

索引数据,log数据,清理后口勺细颗粒度数据等等)。计算服务器重要用来完毕数

据日勺清理、记录、搜索等计算任务。为了节省成本和减少通信代价,提议存储服

务器和计算服务器合二为一,因此该服务器同步具有计算和存储数据的功能,前

期也可以考虑把作业调度服务进程(JSS)进程布署在存储/计算服务器上。由于

云数据采集中心需要面对多种宽带顾客(电信、移动、联通),因此,数据中心

的对外日勺网络需要直连上电信、移动、联通三家全业的网络,保证以上三家企业

间日勺通信性能高速和可靠。

软件平台层是云数据采集中心的关键支撑层,也是我们这次方案设计和实行

的主体部分,在关键技术章节会对“分布式文献系统(S2DFS)"、“分布式数据

库(D2B)”」分布式消息服务(DMQ)作业调度服务进程(JSS入数据

计算服务进程(DCS)〃重要部分加以详细的描述。软件平台层日勺所有服务器

都统一布署的64位操作系统CentOS6.5(也可以选择RHEL6.5x64);其关键软

件或者进程有:分布式文献系统(S2DFS)、分布式数据库(D2B)、作业调度服

务进程(JSS)、数据计算服务进程(DCS)、作业生成服务进程(JGS)、消息处

理服务进程(MPS)、流数据处理进程(SDS)等等。WEB及应用服务器软件

Apache&Tomcat,消息队列软件分布式消息(DNIQ)。还要实现整个云数据采集

中心日勺资源管理及监控管理系统。

软件应用层是云数据采集中心日勺功能实现及UI体现层,功能实现需要基于

软件平台层的支撑,后期设计和实行的主体。该层口勺重要功能应用有:数据采集

应用、收视率记录应用、智能推荐应用、拍立购应用,云数据采集中心日勺资源监

控及调度,通过提供原则API,在CC的云平台上集成第三方APP应用,使我们

的云平台成为一种开放口勺平台,围绕CCR勺多种智能终端或者第三方口勺终端,都

纳入到平台上来,建立一种完备而丰富日勺运行生态圈,使CC在互联网时代日勺竞

争中占得先机。

过公共数据网(电信、联通、移动)和协议,把终端传感器采集的海量文本、

图片数据以及顾客行为数据存储在云数据采集中心里,以供后期分析计算用。第

一期是单向交互,重要是终端提供数据,云数据采集中心负责计算,并作推荐。第

二期会引入终端与云教据采集中心口勺实时双向交互功能。

收视率记录应用智能推荐应用■拍立购应用■云中心监控

JSS0csMPSSDS

PostgreSQLApache开放

S2DFSDMQ

1阳1平台

CentOS6.5x64

云数据采集中心网络构造图

2.3关键技术及功能

分布式文献存储技术

(1)老式存储技术面临的问题:

■构建成本高:大容量及高网络带宽日勺高端存储系统架构昂贵。

■文献系统功能和性能差强人意:难以实现全局命名空间日勺文献共享、

文献系统性以扩展,轻易形成瓶颈。

■扩展性困建:技术存在瓶颈(Scale-up架构决定日勺)、扩展成本无法

控制。

■可用性问题:潜在日勺单点故障,数据恢复困难,代价高。

■应用目日勺差异:重要面临运行商、金融行业日勺OLTP应用、很少针

对海量日勺流数据,或者非构造化数据进行设计和优化。

■异构设备鳌杂:不一样步期、不一样企业、不一样操作系统的异构

设备纷繁复杂,无法整合,资源运用率极低。

分布式文献系统重要为处理以上问题而出现日勺一种新型大规模数据存储技

术架构。重要为非构造化数据(视频/文献/文档/图像/音频等非构造化数据)提

供海量的存储平台,以集群日勺方式提供线性横向扩展能力。

分布式文献系统是一种构建于通用x86部件之上日勺高可用、高可靠、高可扩

展的新型分布式文献系统。应用分布式文献系统,顾客可以采用廉价可靠的通用

服务器、SATA/SAS硬盘以及以太网络来构建媲美企业级存储产品日勺存储系统。

(2)分布式文献系统应对口勺数据特性和访问特性:

■数据量巨大,数百TB或PB级,增长迅速;

■类型多样化,包括图像、文本、语音、视频等文献数据;

■准时间有序生成,数据均带有时间标志;

■前端数据写入速度很高,每秒钟写入数据可达几万甚至几十万条记

录或者上GB量数据;

■更新操作很少:追加方式写入,一旦写入,几乎没有数据修改,查

询波及大量日勺磁盘读操作,查询处理产生大量日勺临时成果,不一样

类型日勺数据存在联合分析查询;

分布式文献系统日勺基本原理是采用集群方式来整合物理上独立日勺多种存储资

源,以软件方式提供单一口勺名字空间;采用多副本的方式保证数据口勺高可用性,任

意单一节点失效均不会导致数据丢失和数据服务口勺正常运行;同步,分布式文件系

统通过良好设计的系统构造和数据分布方略,可保证系统性能的高可扩展性,并支

持存储容量/性能口勺在炭扩展。

相比较于DAS(直连存储)、SAN(存储区域网络)和NAS(网络存储),

应用分布式文献系统构建日勺网络存储系统更像是一种NAS,提供类似于老式NAS

的文献级访问接口(SAN和DAS都是块设备级别的访问接口)。

(3)分布式文献系统与老式NAS/SAN设备口勺比较:

比较项|高端NASIFC-SAN»布式文献系统

性能一般双端口,性能受机头一般双端口,性能受性能随节点数的增长成线

影响,难以扩展,出口带机头影响,难以扩展,性增长

宽是瓶颈IOPS很好

扩展能力性能及容量元法扩展,或能很好扩展,但成本性能及容量按需扩展,动

者有限扩展高昂态均衡

可用性RAID方式保护,双机保RAID方式保护,双机基于灵活的多副本机制,

护,停机RAIDRebuid,耗保护,停机RAID自动检测,自动故障恢复,

时Rcbuid,耗时无需停机

数据管理企业级功能需要单独购置企业级功能需要单独内嵌多种企业级应用:快

购置(还需要单独日勺照、镜像、回收站

文献系统,100多万一

套)

成本专有口勺硬件平台,软件拥专有的硬件平台,软开发通用日勺硬件平台,一

有成本高,扩展成本高件拥有成本高,扩展体化的软件,成本低,扩

成本高展成本低

可维护性专门的技术支持服务,需构造异常复杂,需要内嵌多种自动化的故障检

要培训大量培训,厂商服务测和恢复功能,国内开发,

昂贵技术支持迅速

顾客使用分布式文献系统如同使用当地文献系统。所不一样口勺是,老式NAS

一般以单一节点的方式实现,容量和性能的扩展能力有限,易于成为性能瓶颈和单

一故障点。而分布式文献系统则有多种节点集合地提供服务,由于其构造特性,分

布式文献系统日勺性能和容量均可在线线性扩展,并且系统内不存在单一故障点。对

比参看下面两幅示意图:

老式存储架构图

分布式文献系统架构图分布式文献系统的设计应用

尤其适合海量非构造化数据存储,大量客户端并

发曰勺I/O密集型应用。目前,分布式文献系统已经被应用于政府、医疗影像、

勘查数据计算、视频服务以及动画制作等领域。这些领域的数据访问特性均为:

数据量巨大,I/O吞吐率高,数据增长迅速以及数据可用性规定高。通过长时间

日勺实际生产环境使用,分布式文献系统已被证明是该类型应用的有效处理方案。

①」

s

窿设备卷设备卷设备卷设备卷设备卷

M仪

6

分布式文献系统逻辑卷

C

&C瞪分布式文献系经客户端

ONFS/Sambo

球分布式文献系统网关

M旦

分布式文献系统架构图分布式文献系统日勺服务器端

程序运行于Linuxx64系统之上,支持多种Linux

64位发行版,包括Redhat、CentOS等。分布式文献系统客户端则支持Linux和

Windows,同步分布式文献系统还可以通过第三方软件输出CIFS和NFS接口,

可以兼容大多数应用。

(4)分布式文献系统曰勺关键技术及特性:

■扩展性和高性能:分布式文献系统运用双重特性来提供几TB至数

PB日勺高扩展存储处理方案。Scalc-Qu:架构容许通过简朴地增长资源

来提高存储容量和性能,磁盘、计算和I/O资源都可以独立增长,

支持10GhR和InRniBnnd等高速网络互联。分布式文献系统弹性哈

希(ElasticHash)解除了分布式文献系统对元数据服务器的需求,

消除了单点故障和性能瓶颈,真正实现了并行化数据访问。

■高可用性:分布式文献系统可以对文献进行自动复制,如镜像或多

次复制,从而保证数据总是可以访同,甚至是在硬件故障0勺状况下

也能正常访问。自我修复功能可以把数据恢复到对日勺日勺状态,并且

修复是以增量日勺方式在后台执行,几乎不会产生性能负载。分布式

文献系统没有设计自己的私有数据文献格式,而是采用操作系统中

主流原则的磁盘文献系统(如XFS/EXT4/ZFS)来存储文献,因此

数据可以使用多种原则工具进行复制和访问。

■全局统一命名空间:全局统一命名空间将磁盘和内存资源汇集成一

个单一日勺虚拟存储池,对上层顾客和应用屏蔽了底层日勺物理硬件。

存储资源可以根据需要在虚拟存储池中进行弹性扩展,例如扩容或

收缩。当存储虚拟机映像时,存储时虚拟映像文献没有数量限制,

成千虚拟机均通过单一挂载点进行数据共享。虚拟机I/O可在命名

空间内日勺所有服务器上自动进行负载均衡,消除了SAN环境中常常

发生日勺访问热点和性能瓶颈问题。

■弹性哈希算法:分布式文献系统采用弹性哈希算法在存储池中定位

数据,而不是采用集中式或分布式元数据服务器索引。在其他的

Scale-Out存储系统中,元数据服务器一般会导致I/。性能瓶颈和单

点故障问题。分布式文献系统中,所有在Scale-。"存储配置中日勺存

储系统都可以智能地定位任意数据分片,不需要查看索引或者句其

他服务器查询。这种设计机制完全并行化了数据访问,实现了真正

口勺线性性能扩展。

■弹性卷管理:数据储存在逻辑卷中,逻辑卷可以从虚拟化R勺物理存

除,不会导致应用中断。逻辑卷可以在所有配置服务器中增长和缩

减,可以在不一样服务器迁移进行容量均衡,或者增长和移除系统,

这些操作都可在线进行。文献系统配置更改也可以实时在线进行并

应用,从而可以适应工作负载条件变化或在线性能调优。

■完全软件实现(SoftwareOnly):分布式文献系统认为存储是软件问

题,不可以把顾客局限于使用特定的供应商或硬件配置来处理。分

布式文献系统采用开放式设计,广泛支持工业原则的存储、网络和

计算机设备,而非与定制化口勺专用硬件设备捆绑。对于商业客户,

分布式文献系统可以以虚拟装置日勺形式交付,也可以与虚拟机容器

打包,或者是公有云中布署口勺映像。开源小区中,分布式文献系统

被大量布署在基于廉价闲置硬件日勺多种操作系统上,构成集中统一

日勺虚拟存储资源池。简而言之,分布式文献系统是开放日勺全软件实

现,完全独立于硬件和操作系统。

■完整日勺存储操作系统栈(CompleteStorageOperatingSystemStack:分

布式文献系统不仅提供了一种分布式文献系统,并且还提供了许多

其他重要的分布式功能,例如分布式内存管理、I/。调度、软RAID

和自我修复等。分布式文献系统汲取了微内核架构日勺经验教训,借

鉴了GNU/Hurd操作系统口勺设计思想,在顾客空间实现了完整曰勺存

储操作系统栈。

■顾客空间实现(UserSpace):与老式日勺文献系统不一样,分布式文献

系统在顾客空间实现,这使得其安装和升级尤其简便。此外,这

也极

通用口勺C程序设计技能,而不需要尤其日勺内核编程经验。

■模块化堆栈式架构(ModularStackableArchitecture):分布式文献系统

采用模块化、熔栈式的架构,可通过灵活B勺配置支持高度定制化的

应用环境,例如大文献存储、海量小文献存储、分布式文献系统、

多传播协议应用等。每个功能以模块形式实现,然后以积木方式进

行简朴日勺组合,即可实现复杂的功能。例如,Replicate模块可实现

RAID1,Stripe模块可实现RAID0,通过两者日勺组合同实现RAID10

和RAID01,同步获得高性能和高可靠性。

■原始数据格式存储(DataStoredinNativeFormats):分布式文献系统

以原始数据格式(如EXT3、EXT4、XFS、ZFS)储存数据,并实现

多种数据自动修复机制。因此,系统极具弹性,虽然离线情形下文

件也可以通过其他原则工具进行访问。假如顾客需要从分布式文献

系统中迁移数据,不需要作任何修改仍然可以完全使用这些数据。

■无元数据服务设计(NoMetadatawiththeElasticHashAlgorithm):对

Scale-Out存储系统而言,最大的挑战之一就是记录数据逻辑与物理

位置日勺映像关系,即数据元数据,也许还包括诸如属性和访问权限

等信息。老式分布式存储系统使用集中式或分布式元数据服务来维

护元数据,集中式元数据服务会导致单点故障和性能瓶颈问题,而

分布式元数据服务存在性能负载和元数据同步一致性问题。尤其是

对于海量小文献日勺应用,元数据问题是个非常大日勺挑战。分布式文

件系统独特地采用无元数据服务日勺设计,取而代之使用算法来定位

统服务器都可以智能地对文献数据分片进行定位,仅仅根据文献名

和途径并运用算法即可,而不需要查询索引或者其他服务器。这使

得数据访问完全并行化,从而实现真正日勺线性性能扩展。无元数据

服务器极大提高了分布式文献系统0勺性能、可靠性和稳定性。

■基于原则协议:分布式文献系统存储服务支持NFS,CIFS,,FTP以

及分布式文献系统原生协议,完全与PQSIX原则兼容。

(5)分布式文献系统技术及性能指标:

■支持设备数量:最大百万台以上

■支持存储容量:最大1024PB以上

■客户端日勺数量:最大支持上亿并发

■网络支持:以太网:IGbps、WGbps/INFINIBAND:WGbps^40Gbps

■文献副本数量:任意(缺省1份)

■协议:NFS/CIFS//FIT/WEBDAV,及原生协议,兼容POSIX原

■支持文献数量:最大上亿个文献

■最大单个文献:16TB

(6)S2DFS与HDFS日勺比较

对比项HDFS(GFS)S2DFS

架构类型带元数据库中心架构全分布式去中心架构

(瓶颈及故障易发生点)

存在方式分布式文献系统软件,基于x86平台

使用方式CLI/RESTAPINATIVECLIENT/CIFS/NFS原则

协议

(应用代码与平台无关性,便于移

植和维护)

系统可用性低高

数据可用性复制类RAID

数据定位方式INodeHash

同步方式异步同步

负载均衡自动自动

支持网络千兆以太网千兆/万兆以太网,IB网

网络写:读(万兆/单流)约lOOMB/s:160MB/s约800MB/S:lOOOMB/s

读(l*20GB)(万兆)约125s约25s

写(l*20GB)(万兆)约200s约20s

读/写(千兆)差距不大

分布式并行计算技术

(1)概述并行计算技术真正将老式运算转化为并行运算,从而愈加充足

的运用广泛部

署日勺一般计算资源实现大规模B勺运算和应用口勺目的,在此基础上为第三方开发者

提供通用平台,为客户提供并行服务。这里重要为门户网站提供作业调度平台,

实现日志分析,性能优化,全文检索,视频处理,用为分析等等口勺支撑平台。

顾客通过统一计算平台把任务分派给系统内的多种节点,调度节点资源执行

任务,发挥多核并行处理优势,提高运算效率,充足运用网络内日勺计算资源到达

处理大规模计算问题的目日勺。

(2)分布式并行计算架构图

结构化敏抠/*结构化敝制

分专式文件系统/分♦式微据奉

分布式并行计算架构图

(3)作业调度及计算过程

早令黄成樗身力于任多遗度.白3的从事或中分■.计算麦―

(4)分布式并行计算技术特点

■池化资源管理

运用池化技术,任何一台联在互联网上口勺一般PC机从硬件到软件,

可通过池化技术加入服务器池中,等待任务分派,系统能充足运用现

有服务器资源,将所有运算子任务分派给节点服务器,有效防止计

算资源闲置现象0勺发生。

KTV洋低对单节点计第健力要求,是并祭体资总性能和利用率

/\

1网络:[服务赛I,储设色[进程][线程)[…

■无中心系统架构在平台管理下的单节点能力一致,使节点在布署

上和使用上具有无差异性,任一节点功能可由其他节点替代或强

化,可以最大程度确保平台资源使用日勺灵活性以及在灾备环境下

口勺可靠性系统架构。

■通道式工作机制平台为顾客提供一种并行任务处理通道,处理过

程对顾客来说完全透明,由平台自动进行负载均衡、资源匹配、

任务传播等,使顾客专注于自身任务管理,将执行过程交由平台

H

fi分

分布式数据库技术

D2B是一种具有高性能日勺高性能,可扩展,无模式,面向文档

(documcnt-oricntcd)日勺数据库,其内存储日勺是一种JSON-like构造化数据日勺分布式

数据库软件,尤其具有高扩展性和高可靠性,支持大表水平折分,以及分区镜像。

提供内存缓存数据,因此数据存取速度非常快,重要是由于它处理写入日勺方式:

它们存储在内存中,然后通过后台线程写入磁盘。

该软件支持日勺数据构造非常松散,是类似jsonH勺bjson格式,因此可以存储

比较复杂的数据类型。D2B此外日勺最大的特点是他支持口勺查询语言非常强大,其

语法有点类似于面向来象日勺查询语言,几乎可以实现类似关系数据库单表查询日勺

绝大部分功能,并且还支持对数据建立索引。它的特点是高性能、易布署、易使

用,存储数据非常以便。

重要功能特性:

•面向集合存储,易存储对象类型日勺数据

“面向集合"(CQUenction-Oricnted),意思是数据被分组存储在数据集

中,被称为一种集合(CoUenction)o每个集合在数据库中均有一种唯一

口勺标识名,并且可以包括无限数目的文档。集合的概念类似关系型数据

库(RDBMS)旦日勺表(tabic),不一样日勺是它不需要定义任何模式(schema)o

•模式自由

模式自由(schema-free),意味着对于存储在D2B数据库中日勺文献,我们

不需要懂得它日勺任何构造定义。假如需要日勺话,你完全可以把不一样构

造日勺文献存储在同一种数据库里。

•自动分片以支持云级别日勺伸缩性:自动分片功能支持水平日勺数据库集群,

可动态添加额外日勺机器。

•支持动态查询

•支持完全索引,包括内部对象。

•自动处理碎片,以支持云计算层次日勺扩展性。

•可通过网络访问

•可用于Windows®、MacOSX、Linux®和Solaris日勺官方二进制版本。

•可用于C、C#、C++、Haskell、Java™、JavaScript^PerkPHP>Python、

Ruby和Scala日勺官方驱动程序,以及广泛可用于其他语言的小区支持

的驱动程序。

•Ad-hocJavaScript查询让您可以使用基于任何文档属性日勺任何条件来查

找数据。这些查询对应于SQL查询日勺功能,使SQL开发人员可以很

直观地编写D2B查询。

•支持查询中的正则体现式。

•D2B查询成果存储在提供过滤、聚合和排序等一系列功能日勺游标中,包

括limit。、skip。、sort。、count()sdistinct。和group。等等高级特性。

•高级聚合日勺map/reduce实现。

•类似于RDBMS的属性索引支持,可以直接在文档日勺选定属性上创立索

引。

•使用提醒、解释计划和分析P勺查询优化特性。

•类似于MySQL日勺主/从复制,支持复制和故障恢复。

•基于集合日勺对象存储,在需要规范化数据时容许参照查询。

•通过自动分片功能水平扩展。

•高性能无争用并发机制的即时更新。

D2B服务端可运行在Linux、Windows或OSX平台,支持32位和64位应

用。推荐运行在64位平台,由于D2B在32位模式运行时支持日勺最大文献尺寸

为2GBo

分布式数据库(D2B)集群示例图

D2B与关系型数据库日勺逻辑构造对比:

D2B关系型数据库

数据库(database)数据库(database)

集合(collection)表(table)

文档(document)行(row)

D2B的性能指标:

10亿约600GB以上(与每条记录大小有关系,这

里口勺数据:1Kb/条)

写(1亿,无索引)约15000-20230条/s

写(1亿,有索引)约10000条/s

写(1亿:ReplicaSets1Sharding模式)约6000-8000条/s

读(1亿)约80MB-120MB/S

读(1亿)8000-10000个查询/s

记录一种值(10亿)<3s(复杂查询)

最大节点数量>1024(理论上)

测试环境的硬件配置:IntelXeonE7-88372路76关键,256GB内存,75kSAS16*600GB

硬盘,RAID50;总共72台设备;D2B的架构模式:ReplicaSets+Shardin^0

负载均衡

这里选择日勺国产设备是北京太一星晨信息技术有限企业日勺设备作为参照对

比设备。。

1)国产硬件与F5对比

对比项国产F5重要功能

负我均衡算法支持8种支持12#是

会话保持笄法文拉6种支持8稗是

健眼检查算法支控M珅支拘28种是

内容互帙支挣最常用4种支挥(物性丰X)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论