




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 基于云计算的BI系统混合架构研究【摘要】随着中国移动用户数、业务的迅猛发展和市场竞争的加剧,bi系统要能具备实时和非实时、结构化和非结构化、低成本等特性。文章在分析了传统数据仓库技术在支持bi系统新特性上遇到的难题之后,提出了基于云计算的bi系统混合架构,对其中的云硬件架构与云软件架构中用到的关键技术作了研究。【关键词】bi数据仓库虚拟化分布式计算sharenothing列存储引言中国移动从2002年开始着手建设bi系统(移动内部简称“经营分析系统”),该系统是以客户为中心,面向企业内部各层面对象,将企业决策支持、市场经营分析和一线营销服务支撑作为服务目标,以数据仓库为基础数据平台的智能支撑
2、信息系统。从技术上讲,该系统涉及到数据仓库、联机分析处理、数据挖掘、人工智能和统计学等多种学科与技术的交叉。其中,数据仓库技术为bi系统核心技术。在bi系统十年的建设过程中,随着中国移动用户数、业务的迅猛发展和市场竞争的加剧,公司决策人员、市场经营分析人员和一线生产人员对bi系统需求越来越多,要求也越来越高。传统数据仓库技术在满足现在的bi系统架构设计、工程实施方面,遇到了一系列难题:(1)数据持续爆炸性增长,系统处理的数据量越来越大,架构设计上传统的隔夜批量处理已无法支撑,进而要求系统支持准实时方式处理。如话单数据的处理,要求每15分钟甚至更短时间就必须处理一次;对于信令数据来说,处理周期要
3、求更短;(2)随着业务的多样化,在支持传统结构化数据之外,要求能支持非结构化和半结构化数据,非结构化数据如视频数据、图像数据和文档数据等,半结构化如xml数据;(3)对于混合的数据负载和用户多变的访问方式,同一份表需要适应不同应用负载需要,如话单表除满足大数据量装载需求,还要满足后续的汇总处理以及业务人员的前台在线查询等需求;(4)成本增长太快,扩容压力加大。数据仓库采用小型机+磁盘阵列的方式,构建在高端硬件平台上,高性能带来了高成本。同时未将数据处理功能和数据存储功能分散考虑,导致架构单一,扩容时需要综合考虑处理性能和磁盘容量并取最大值。这一系列难题所带来的问题,就是单一的数据仓库架构无法灵
4、活满足各类需求。云计算架构体系作为一种新兴的共享基础架构方法,虽然各方表述不太一样,但从技术上讲,其本质都是通过将企业计算动态分布到集群计算机上,根据业务发展和应用使用情况对软硬件资源进行灵活的调配,以实现按需访问,对内对外提供各种应用服务。云计算其主要特性包括虚拟化和多租户、自动部署和统一管理、低成本海量存储能力、大规模横向扩展,而这些特性正好能解决传统数据仓库技术所不能解决的问题。为适应市场对bi系统的新需求,本文旨在研究如何构建云计算环境下的新一代bi系统混合架构,从而更有效地为企业领导决策支持、市场经营分析和一线营销服务。2 基于云计算的bi混合架构2.1bi混合架构针对以上变化,本文
5、在传统bi系统数据仓库架构基础上,结合云计算新特性,综合虚拟化、分布式文件系统、soa等技术,提出了新的基于云计算环境下的bi昆合架构。其架构如图1所示:基于云计算的bi系统混合架构由云硬件架构、云软件架构、云应用架构和云管理架构组成,每层结构分述如下:(1)云硬件架构,其重点为基础设施建设,使用虚拟化技术,将物理服务器、存储和网络组成虚拟集群,以供上层软件平台调用;(2)云软件架构,由数据中心、服务中心和访问中心组成;数据中心,作为整个系统架构的核心,根据企业内部应用的特点,进行统一数据建模。该中心存储了整个企业的全部数据,不仅包含基础数据,而且也包括经过不同应用深加工后的信息数据。数据中心
6、可根据不同的应用计算方式,混合采用分布式文件系统、内存数据库和数据仓库;服务中心,根据内部应用和外部应用的需要,将基础数据和经过加工后的信息数据以服务的形式进行封装,对企业内部不同人员、不同应用提供所需服务;访问中心,提供内部应用的访问方式,通过对应用的适配,灵活适应应用的需求,并辅以访问控制、接入管理、展现管理和第三方应用的嵌入管理等。(3)云应用架构,主要为企业内部应用,如业务支撑网系统bosscrm、业务网系统飞信平台手机邮箱、位置服务应用等。该系统架构每部分层次清楚,并都能够被单独管理,这使得企业能够快速升级各部分。以下就每层架构进行详细分析,重点介绍每层所引入的新关键技术。限于篇幅,
7、云应用架构和云管理架构将不作讨论。2.2云硬件架构在云硬件架构中,引入低成本的通用运算和存储设备,如pc服务器,降低系统建设成本;通过自动化实现系统快速部署,从而满足海量计算性能要求;保留unix小型机和刀片服务器等,充分保证原有系统特点和历史投资;采用虚拟化技术,更好地满足资源的动态调配。(1)虚拟化基础设施将各种物理单元如服务器、存储、网络等作为统一的整体进行考虑,同时综合考虑各种应用系统的重要程度,以及应用系统所需的计算性能、系统空间和安全性等因素,通过构建分布式并行环境,采用虚拟化技术,屏蔽各种处理单元的异构性(不管这些物理单元是来自不同的厂商,还是采用不同的内核,都对其进行集中管理)
8、,实时监控系统性能、配置、告警等相关数据,并做到物理设备的自动发现添加、退出和维护,从而构成灵活组装、自适应的虚拟集群。(2)分布式计算节点和分布式存储系统每一个节点都拥有独立处理能力,数据平均分布到系统的所有节点服务器上,所有数据加载、处理和查询都是自动在各个节点服务器上并行运行的,节点间可通过高速网络通讯传输数据,以协同完成跨节点的处理任务。理论上这种架构能支持扩展到上万个节点,如图2所示:采用这种架构可以让系统同时运行在众多节点上,具有非常强的并行处理能力;同时,该架构具有非常好的线性扩展能力,可以很容易地通过增加或更换不同的物理单元来扩充新的计算结点,并由此获得巨大的计算能力;另外,它
9、具有相当强的容错能力,集群中的节点失效时,可以灵活快速地将任务切换到其他节点。(3)infiniband网络技术网络互联技术也是决定海量计算能力的重要部分,而新的基于云计算的bi系统混合架构需要部署大量计算节点,这就需要采用高速的互连网络结构,如infiniband架构。infninband架构是一种支持多并发链接的“转换线缆”技术,它主要是针对服务器端的连接问题的。因此,infiniband技术将会被应用于服务器与服务器、服务器和存储设备以及服务器和网络之间的通信。lnfiniband理论上可以提供48gbps的传输速度,在实际测试中可以达到800mbps的速度,这个速度在大规模集群环境下可
10、以解决由于网络带宽带来的性能问题。2.3云软件架构为了更好地支持新bi系统的新特性,在软件架构层面,新技术主要包括share-nothing、列存储、分布式文件系统、分布式计算模型和流处理。(1)share-nothing并行数据仓库要求所有节点都尽可能地参与并执行数据仓库操作,从而整体提高处理性能。并行计算体系结构主要有share-disk和share-nothing这两种:sha redisk:每一个cpu使用自己的私有内存区域,而磁盘系统则是为所有节点所共有,节点均通过内部通讯机制直接访问所有磁盘系统。sharenothing:每一个cpu都有私有内存区域和私有磁盘空间,而a2个cpu不
11、能访问相同磁盘空间,节点间的通讯通过网络连接。在数据仓库领域,sharenothjng架构较sharedisk为优。对于share-disk架构而言,当系统处理性能无法满足业务的需要时,添加更多的cpu,并不会带来系统处理性能的线性增加,因为所有节点需共享磁盘系统,这时与磁盘系统的连接将成为系统性能提高的瓶颈,且增加了对内存访问和网络带宽的竞争。而share-nothing架构则不然,每个节点拥有自己的cpu、内存和磁盘空间,不为其他节点所共享;这样当处理性能需要增加时,只需增加节点,就可以带来整体处理性能线性增加。这也就是为什么share-nothing体系架构得到了广泛的推广。(2)列存储
12、列数据仓库是对应并区分于行数据仓库的概念。行数据仓库就是我们熟知的传统关系型数据仓库,即数据按记录存储,每一条记录的所有属性都存储在一起,如果要查询一条记录的一个属性值,需要读取整条记录的数据。而列存储数据仓库则是将记录的每个属性字段按照列的形式来组织和存放,数据仓库中每个表由一组页链的集合组成,每条页链对应表中的一个存储列,而该页链中每一页存储的是该列的一个值。列存储数据存放形式如图3所示:列存储数据仓库在商务智能领域应用中有着先天性的优势,其独特的存储方式使之能够迅速地执行复杂的查询;列存储数据仓库的压缩技术,更是能为数据仓库、商务智能应用中巨大的数据量节约存储成本;其先进的索引技术也大大
13、提高了数据仓库的管理效率。(3)分布式计算模型分布式编程模型,是运行于大规模集群上的分布式并行编程框架。目前开源的环境主要有hadoop框架,其核心计算模型为mapreduce,它将复杂的运行于大规模集群上的并行计算过程高度地抽象到了两个函数,map和reduce。其计算过程就是将待处理的数据集分解成许多小的数据集,数据集分别由集群中的一个节点进行处理并生成中间结果,这些中间结果又由大量的节点进行合并,形成最终结果。除此之外还有一个主控的任务节点,负责调度各数据节点,分发计算任务,并负责监控任务的运行情况,当某一数据节点存在异常时,主控节点将该节点上的任务转移到新的节点,并由新的节点继续完成任
14、务。一般来说,数据在哪个节点上,就由哪个节点完成数据的计算;这样可以减少数据在网络上的传输,降低对网络带宽的需求。(4)分布式文件系统为了满足迅速增长的数据处理需求,可采用分布式文件系统。该文件系统包括文件数据块节点和文件管理节点,数据文件将被拆分成不同的数据块或作为一个完整的数据块,这些数据块将作为存储的基本单元,存放在文件数据块节点中;同时为了容灾等目的,每份数据块将被复制存储在不同的数据节点上。文件管理节点作为分布式文件系统的核心,需维护整个文件系统的元数据,准确描述数据文件与数据块之间的分解和映射关系、数据块所在节点信息以及当前状态、访问控制等信息。另外由于数据文件包含大量数目的小文件,所以需着重考虑io操作和块尺寸。分布式文件系统在文件创建、删除和访问等控制方面,同目前使用的文件系统在使用方法上是一致的。(5)流处理原先的bi系统偏重于批量数据的处理,即使是短周期数据,例如每分钟和每小时的数据,也是按照批量处理即先全部装载、再批量分析的方式进行的。而流处理能在复杂的环境中快速对某一些信息进行处理,可广泛应用在实时分析中,在流数据不断变化的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 心脑血管病的防治课件
- 心肺复苏护理说课课件
- 心肺复苏健康讲座课件
- 心肌梗死防治知识讲座课件
- 竹石说课课件英语
- 2025年激光切割和薄钢板拼焊成套设备合作协议书
- 筹划股权转让协议书范本
- 宠物医院协议书范本
- 兼职班主任协议书范本
- 竞选大队委宣传课件
- 《自相矛盾》的说课课件
- 2023年山东省聊城市临清市招聘征集部分高校本科毕业生入伍14人高频笔试、历年难易点考题(共500题含答案解析)模拟试卷
- 清镇工投铝诚资源有限责任公司铝土矿破碎加工生产线(扩建)建设项目环评报告
- 1-6年级成语大全(带解释)
- 经营指标培训PPT
- 郑州铁路职业技术学院教师招聘考试历年真题
- 第十四讲 建设巩固国防和强大人民军队PPT习概论2023优化版教学课件
- 电外科安全课件
- 证券从业资格证模拟题
- 《园林工程技术专业教学标准》调研报告 全市获奖
- 《上帝掷骰子吗:量子物理史话》【超星尔雅学习通】章节答案
评论
0/150
提交评论