版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1 大型数据仓库建设面临的挑战 随着市场竞争加剧,电信运营商需要挖掘更多的经营商机,同时全面掌握企业运营成本,这使得对数据分析系统的重视程度大大提高。数据分析系统在电信运营商中已经有多年的建设历程,早期被称为经营分析系统,主要面向地(市)级、省级公司进行业务运营数据的加工、处理,向各级人员提供数据报表、查询等功能。随着近年移动用户的规模高速增长,话务量大幅增加,对经营分析系统提出了更为广泛和精细的服务要求。系统所分析的数据范围从初期只有业务支撑系统的数据源,向管理信息系统、用户上网行为日志等其他领域扩展,所承载的业务功能亦更加复杂,实质上系统已逐步具备企业级数据中心的能力雏形。图1是典型数据分
2、析系统的基本体系架构。 从图1中可以看出,数据仓库平台作为整个系统的基础性平台,主要实现对源数据的收集、加工、处理、重构、存储,并对外提供数据服务、数据管控等工作。在现阶段数据仓库的工作量占据了整个系统工作量的70%,现有集中化建设的数据分析系统,其数据范围已经涵盖了业务支撑域、管理信息域的核心数据以及部分运营支撑域数据。随着系统互联的源系统逐步增多、数据范围增大,现有数据仓库所承载的数据规模由最初的TB级向PB级发展,在可预见的未来还将有更大的扩展。 而现有数据仓库还有许多是采用主流的联机事务处理(OLTP)平台所使用的数据库产品,该类产品使用的是面向交易的处理机制,其基本特征是顾客的原始数
3、据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,库表规模一般不会超过TB级,主要用于客户关系管理系统、计费系统的建设。 数据分析系统要对多张表中数亿条记录数据进行加工处理、数据分析和信息综合处理,是典型的联机分析处理(OLAP)平台,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果,其库表规模从TB级到PB级不等。 电信运营商现有的数据分析系统每天从各层生产系统收集数亿条明细记录,加载到数据仓库中,采用传统数据库平台时仅入库1个环节就需要近5 h,如果稽核出数据质量问题就需要重传,则时间更长,为后面的数据加工处理留出的时间更少,形成结果的时间较长,如第一天的日报时间
4、几乎到第二天下午下班前才能够提供,这与管理层的需求相差甚远。单从技术层面究其深层的原因,是盘阵的I/O速率在海量数据处理过程中形成了瓶颈,I/O并发处理能力不足。目前数据仓库平台硬件架构如图2所示。 该硬件平台主机系统为高端UNIX主机,主机之间共享外部存储设备,为典型的对称多处理(SMP)架构。当能力不足时,扩容主机、增加CPU数量可以提高计算能力,但提高磁盘I/O就需要采用多台高端磁盘阵列分担读写操作,而主机扩容、增加存储的费用高昂,并且会造成数据库表的重构迁移,将会长时间暂停业务,这些都是使用者难以承受的因素。2 云计算技术的引入 目前云计算技术方兴未艾,在电信运营商内部信息化建设方面已
5、经形成对应的引入策略,其基本特征包括:形成私有云平台,满足资源的池化,能力可以快速伸缩。根据电信运营商对信息化系统的云化策略,适时引入x86分布式集群的大规模并行处理(MPP)架构,可以解决数据分析系统基础设施目前面临的主要困惑。2.1 SMP与MPP架构比较 SMP架构是指在一台主机上汇集了一组处理器(多CPU),各CPU之间共享内存、总线(见图3)。在这种架构中,1台主机同时由多个处理器运行操作系统的单一复本,并共享内存和其他资源。虽然同时使用多个CPU,但是从管理的角度来看,它们的表现就像1台单机一样。管理系统将任务队列对称地分布于多个CPU上,从而极大地提高了整个系统的数据处理能力。所
6、有的处理器都可以平等地访问内存、I/O和外部中断等资源。在对称多处理系统中,系统资源被系统中所有CPU共享,工作负载能够均匀地分配到所有可用处理器之上。 MPP 系统由许多松耦合的处理单元组成,要注意的是这里指的是处理单元而不是处理器。每个处理单元内的CPU都有自己私有的资源,如总线、内存、硬盘等(见图4)。在每个单元内都有操作系统和管理数据库的实例复本。这种结构最大的特点在于不共享资源。x86的PC服务器集群就是MPP架构的典型实例。 SMP架构的优势和劣势都在于它的内存、总线等共享资源,当程序的处理能力在资源能力范围内时效率很高,当处理需求大于资源承受能力时,瓶颈就出现了,而SMP的扩展是
7、有限制的,并且扩展费用较高。 MPP系统不共享资源,相对资源总数一般比SMP系统要多,当需要处理的事务达到一定规模时,MPP的表现要比SMP好。所以对于OTLP应用,如用户访问一个中心数据库,采用SMP系统架构,它的效率要比采用MPP架构快得多,而MPP系统在OLAP的大数据量分析和挖掘方面有很大优势。 如上所述,MPP系统更适合于大型数据综合分析与处理环境,MPP的x86架构一般采用2台服务器作为主管理(master)节点,负责任务调度;若干台计算(segment)节点,负责数据加工处理。当然,它需要借助支持MPP技术的云计算数据库系统来屏蔽节点之间负载平衡与调度的复杂性。另外,这种并行处理
8、能力也与节点互联的网络有很大的关系。显然,适应于数据仓库环境的MPP服务器,其节点之间互联网络的I/O性能应该非常高,才能充分发挥整个系统的性能。2.2 云计算数据库 目前,在国内支持基于x86集群MPP架构的云技术数据库产品主要有2种技术路线:一种是软硬件一体化路线,主要包括Teradata的一体机、IBM 一体机Netezza、ORACLE的Exadata,该类产品在硬件层面做了大量优化,性能很高,但采购、开发费用昂贵;另一种是软件数据库管理系统产品,主要有EMC Greenplum、IBM DB2、Hadoop架构下的HIVE/HBASE工具,该类产品没有捆绑硬件,可采用较通用的硬件产品
9、来组建集群,相对采购费用适中。 从数据仓库系统的需求角度出发,对云计算数据库产品的比较一览表如表1所示。表1 云计算数据库产品一览表2.3 MPP云化数据仓库基本架构 图5为一个典型MPP云化数据仓库平台建设方案。 a) MPP能力层:由2个以上的高性能x86主机构成高可用的主控节点,承载云计算数据库管理职责,负责对数据节点的调度和任务管理;由多台x86存储服务器构成数据节点集群,提供计算能力池、存储能力池;由2台以上的高性能局域网交换机形成网络通信平台。 b) 云计算数据库管理层:具备通用的关系型数据库管理系统功能,并实现对底层数据的分布式存储的管理,对外支持标准SQL语言及主流API接口,
10、实现对底层节点设备的负载分担、容错策略管理,承载ETL调度功能。 c) 应用层:具备KPI、多维分析、即席查询、报表分析等基础功能,结合需求形成各类实际的分析应用功能。2.4 业务数据加载验证比对 MPP+云计算数据库的解决方案能否在海量加工处理方面提高处理效率、节省时间,需要有实际的验证试验(POC,Proof of Concept)来进一步证实。表2利用MPP+云计算数据库对部分数据仓库的真实数据进行加工处理,并与传统数据库在SMP架构下的处理性能做了对比。 从表2测试结果看,MPP+云计算数据库的方案比SMP+传统数据库方式在海量数据加工处理方面性能高出很多,同时硬件配置所付出的代价更小
11、。3 云计算架构对于海量数据仓库的优势分析3.1 并发机制 云计算数据库按照既定算法将业务数据均匀地分布在每个MPP节点的磁盘上 ,尽量发挥每个MPP节点的每一块磁盘的性能,在这种分布式算法和调度方式下,系统的I/O能力不再局限于少数几台主机的能力,而是与数据节点的数量呈正相关,实现了从根本上解决I/O瓶颈问题。随着数据需求加大,节点可以横向扩展,经过主管理节点的调度,所有已存储的数据在系统非忙时,自动重现再分布到原有和新增的节点中,业务处理过程不中断,无需宕机,实现系统的在线扩容(见图6)。3.2 列存储技术 目前主流的云计算数据库管理系统都支持列存储技术。传统数据库将所有记录中的每一行数据
12、进行聚合存储,而列存储是将表中的每一列字段的数据进行聚合存储,如果有一个1万行的表,取其中3个字段,行存储需要每行都读取出来,而列存储只需要读3次,大幅节省I/O操作,该特征非常适合于OLAP应用,对于大数据量频繁访问,性能有很大提升(见图7)。由于每列数据的格式是一致的,数据库列存储技术在表的行数巨大(数千万行以上)的前提下,还提供很好的压缩比,能达到101甚至更高的效果,这也为硬件资源效率发挥带来很好的效益。3.3 高扩展性 在各节点之间网络带宽充裕(如10 GE)的前提下,对于数据处理能力可以随着MPP节点的增加呈线性增加。主流云计算数据库产品可支持的MPP架构可扩展的规模可达到1 00
13、0个节点以上,存储数据能力达到50 PB以上,能够在一个较长时期内支撑各类业务数据的加工存储。 云计算数据库产品一般都屏蔽了MPP层管理调度的细节信息,支持所有的SQL语法,使得开发者可以兼容原有开发的代码,无需关心底层实现技术和使用其他开发语言。这一特征符合云计算技术平台即服务(PaaS)的基本特征。3.4 容错机制 云计算技术使用了数据多副本容错机制,各计算节点的同构、可互换等措施提供了服务的高可靠性,MPP里多个节点的计算能力、存储数据内容是互备的,单点的可靠性要求大大降低。数据在底层存储了多份,并分布在不同的节点上,如果某个节点宕机,其所处理的数据在其他节点有镜像,在主节点调度下业务处
14、理过程是不受影响的,但性能会有所下降。MPP里的节点越多,容错能力越强,性能下降越缓。同时主控节点采用多机热备,消除单点故障隐患。 这使得计算节点可以采用大量廉价的x86服务器集群提供高性能、高可靠的计算能力。4 应用的前景及待探讨的问题 如前所述,采用云计算技术的数据仓库容量规模可以发展得非常巨大,而随着基础设施系统能力的提升,系统可以采用虚拟化技术,根据数据仓库的忙闲时、MPP节点的负荷程度,制定相应的调度策略,形成计算能力和存储的资源池,为其他业务需求提供资源,尤其是可以提供高速的存储资源池,为云计算平台PaaS提供物质基础。特别指出的是,数据仓库的MPP节点采用的是x86存储服务器的集群,与Hadoop的硬件平台架构是同构的,可以与Hadoop技术有很好的兼容性。 参考国外及互联网公司在MPP架构的实际案例,大规模的节点设备会提出很高的管理需求,作为云计算平台的重要特征,能力可快速伸缩,弹性化管理是必须实现的,如何实现对上千个节点的高效管理,将整个系统的能力发挥最大化,采用何种虚拟化技术,是一个重大挑战。 采用MPP+云计算数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理安全事件预防体系
- 护理信息系统的项目管理和实施
- 护理基本护理经济学
- 北京病人护理老年护理
- 旅游公司策划部经理面试手册
- 零售业面俱到:如何准备熟食部招聘面试
- 旅游行业酒店管理岗位求职全解析
- 快速消费品公司高层管理面试解析
- 联想集团财务岗位面试要点解析
- 旅游公司客户服务经理面试要点
- 一例肺炎患者的个案护理
- 文明实践健康义诊活动策划
- 2025年内蒙古自治区中考物理试题(原卷版)
- 2024司法考试试题及答案
- 2025年山西省中考英语试卷真题(含答案详解)
- 《肾功能及尿液检查》课件
- 中国石油企业文化课件
- 电力工程建设资源投入计划
- 生物批签发管理办法
- 《酒店法律与法规实务》全套教学课件
- 高分子化学教材第七章逐步聚合反应
评论
0/150
提交评论