版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Big Data1大数据时时代在科学研研究(天天文学、生物学学、高能能物理等等)计算机仿仿真互联网应应用电子商务务等领域域数据量呈呈现快速速增长的的趋势2大数据时时代在科学研研究方面面:大型强子子对撞机机每年积积累的新新数据量量为15PB左左右在电子商商务领域域:沃尔玛公公司每天天通过6000多多个商店店,向全全球客户户销售超超过2.67 亿件件商品为了对这这些数据据进行分分析,HP公公司为沃沃尔玛公公司建造造了大型型数据仓仓库系统统,数据据规模达达到4PB,并且仍仍在不断断扩大3大数据时时代大规模数数据主要要来源1:传传感器器数据分布在不不同地理理位置上上的传感感器,对对所处环环境进行行感知
2、,不断生生成数据据.即便便对这些些数据进进行过滤滤,仅保保留部分分有效数数据,长长时间累累积的数数据量也也是非常常惊人的的4大数据时时代大规模数数据主要要来源2:网网站点击击流数据据为了进行行有效的的市场营营销和推推广,用用户在网网上的每每个点击击及其时时间都被被记录下下来;利利用这些些数据,服务提提供商可可以对用用户存取取模式进进行仔细细的分析析,从而而提供更更加具有有针对性性的服务务5大数据时时代大规模数数据主要要来源3:移移动设备备数据通过移动动电子设设备包括括移动电电话和PDA、导航设设备等,我们可可以获得得设备和和人员的的位置、移动、用户行行为等信信息,对对这些信信息进行行及时的的分
3、析,可以帮帮助我们们进行有有效的决决策,比比如交通通监控和和疏导系系统6大数据时时代大规模数数据主要要来源4:射射频ID数数据RFID 可以以嵌入到到产品中中,实现现物体的的跟踪.一旦RFID得得到广泛泛的应用用,将是是大量数数据的主主要来源源之一7数据分析析的新趋趋势:超超越常规规报表的的深度分分析需求求的增长长为了从数数据中发发现知识识并加以以利用,指导人人们的决决策,必必须对数数据进行行深入的的分析,而不是是仅仅生生成简单单的报表表.这些复杂杂的分析析必须依依赖于复复杂的分分析模型型,很难难用SQL来来进行表表达,统统称为深深度分析析(deepanalysis).8人们不仅仅需要通通过数
4、据据了解现现在发生生了什么么,更需需要利用用数据对对将要发发生什么么进行预预测,以以便在行行动上做做出一些些主动的的准备比如,通通过预测测客户的的流失预预先采取取行动,对客户户进行挽挽留.910这里,典典型的OLAP 数据据分析操操作(对对数据进进行聚集集、汇总总、切片片和旋转转等)已已经不够够用,还还需要路路径分析析、时间间序列分分析、图图分析、What-if分分析以及及由于硬硬件/软软件限制制而未曾曾尝试过过的复杂杂统计分分析模型型11时间序列列分析商业组织织积累了了大量的的交易历历史信息息,企业业的各级级管理人人员希望望从这些些数据中中分析出出一些模模式,以以便从中中发现商商业机会会,通
5、过过趋势分分析,甚甚至预先先发现一一些正在在涌现出出来的机机会.12时间序列列分析比如在金金融服务务行业,分析人人员可以以开发针针对性的的分析软软件,对对时间序序列数据据进行分分析,寻寻找有利利可图的的交易模模式(profitable tradingpattern),经过进进一步验验证之后后,操作作人员可可以使用用这些交交易模式式进行实实际的交交易,获获得利润润13大规模图图分析和和网络分分析社会网络络虚拟环环境本质质上是对对实体连连接性的的描述.在社会会网络中中,每个个独立的的实体表表示为图图中的一一个节点点,实体体之间的的联系表表示为一一条边.14大规模图图分析和和网络分分析通过社会会网络
6、分分析,可可以从中中发现一一些有用用的知识识比如发现现某种类类型的实实体(有有一种类类型的实实体把各各个小组组连接在在一起,称为网网络中的的关键实实体).这些信息息可以用用于产品品直销、组织和和个体行行为分析析、潜在在安全威威胁分析析等领域域.15一种处理理大数据据的方法法是使用用采样技技术通过采样样,可以以把数据据规模变变小,以以便利用用现有的的技术手手段(关关系数据据库系统统)进行行数据管管理和分分析.然而在某某些应用用领域,采样将将导致信信息的丢丢失,比比如DNA分分析等.在明细数数据上进进行分析析,意味味着需要要分析的的数据量量将急剧剧膨胀和和增长.16数据分析析的趋势势和挑战战1)数
7、数据量的的膨胀;2)数数据深度度分析需需求的增增长3)数据据类型多多样化包括各种种非结构构化、半半结构化化数据,对这些些类型多多样的数数据进行行管理和和分析也也是数据据处理技技术所面面临的挑挑战.1718以MapReduce为为代表表的非关系数数据管理理技术的的兴起19关系数据据库技术术关系数据据库技术术经过了了将近40年年的发发展,成成为一门门成熟的的、同时时仍在不不断演进进的主流流数据管管理和分分析技术术.关系数据据管理技技术的主主流应用用包括OLTP 应用用、OLAP应应用以以及数据据仓库等等.SQL语语言作作为存取取关系数数据库系系统的语语言得到到了标准准化,经经过不断断扩充,其功能能
8、和表达达能力不不断增强强.20关系数据据库技术术但是,关关系数据据管理技技术在大大数据时时代丧失失了互联网搜搜索这个机会会其主要原原因是关关系数据据管理系系统(并并行数据据库)的的扩展性遇到了前前所未有有的障碍碍,不能能胜任大大数据分分析的要要求21关系数据据库技术术关系数据据管理模模型追求求的是高高度的一致性和正确性.面向超超大数据据的分析析需求纵向扩展展(scale up)系统统,即通通过增加加或者更更换CPU、内内存、硬硬盘以扩扩展单个个节点的的能力,终将遇遇到瓶颈颈横向扩展展(scale out)系系统,即即通过增增加计算算节点连连接成集集群,并并且改写写软件,使之在在集群上上并行执执
9、行,才才是经济济的解决决办法.22关系数据据库技术术使用大规规模集群群实现大大数据的的管理和和分析,需要应应对的挑挑战很多多,其中中,系统统的可用性摆到了重重要的位位置23关系数据据库技术术根据CAP(consistency,availability,tolerancetonetworkpartitions)理论论(TowardsRobustDistributedSystems.PODC2004Keynote)(对该理理论尚存存争议),在分分布式系系统中,一致性性、可用用性、容容错性三三者不可可兼得,追求其其中两个个目标必必将损害害另外一一个目标标24关系数据据库技术术并行数据据库系统统追求高
10、高度的一一致性和和容错性性(通过过分布式式事务、分布式式锁等机机制),无法获获得良好好的扩展展性和系系统可用用性,而而系统的的扩展性是大数据据分析的的重要前前提.25MapReduce2004 年,Google 公司司最先提提出MapReduce技术术,作为为面向大大数据分分析和处处理的并并行计算算模型,引起了了工业界界和学术术界的广广泛关注注.MapReduce在在设计计之初,致力于于通过大大规模廉廉价服务务器集群群实现大大数据的的并行处处理,它它把扩展性和和系统可可用性放在了优优先考虑虑的位置置.26MapReduce技技术框框架分布式文文件系统统并行编程程模型并行执行行引擎27分布式文文
11、件系统统(Googlefilesystem)分布式文文件系统统运行于于大规模模集群之之上,集集群使用用廉价的的机器构构建.数据采用用键/值值对(key/value)模式进进行存储储.整个文件件系统采采用元数数据集中中管理、数据块块分散存存储的模模式,通通过数据据的复制制(每份份数据至至少3个个备份份)实现现高度容容错.数据采用用大块存存储(64MB 或者者128MB为为1块块)的的办法,可方便便地对数数据进行行压缩,节省存存储空间间和传输输带宽.28MapReduce并并行编编程模型型并行编程程模型把把计算过过程分解解为两个个主要阶阶段,即即Map 阶段段和Reduce阶阶段.Map函函数处处
12、理Key/Value对对,产生生一系列列的中间间Key/Value 对Reduce函函数用用来合并并所有具具有相同同Key 值的的中间键键值对,计算最最终结果果.29MapReduce并并行编编程模型型MapReduce技技术是是一种简简洁的并并行计算算模型,它在系系统层面面解决了了扩展性、容错性性等问题通过接受受用户编编写的Map函函数和和Reduce 函数数,自动动地在可可伸缩的的大规模模集群上上并行执执行,从从而可以以处理和和分析大大规模的的数据30MapReduce并并行编编程模型型MapReduce技技术是是非关系系数据管管理和分分析技术术的典型型代表.在Google 公司司内部,通
13、过大大规模集集群和MapReduce软软件,每天有有超过20PB 的数数据得到到处理,每个月月处理的的数据量量超过400PB31MapReduce并并行编编程模型型在数据分分析的基基础上,Google 提供供了围绕绕互联网网搜索的的一系列列服务(包括地地图服务务、定向向广告服服务等).如此此大规模模的数据据管理和和分析,是传统统的关系系数据管管理技术术所无法法完成的的32MapReduce技技术的的发展一经推出出,立即即遭到关关系数据据管理技技术阵营营(以著著名的数数据库技技术专家家Stonebraker为为代表表)的猛猛烈抨击击.Stonebraker认认为,MapReduce技技术是是一个
14、巨巨大的倒倒退,并并指出了了MapReduce 技术术的众多多缺点,包括不支持Schema没有存取取优化依靠蛮力力(brute force)进行行数据处处理等33MapReduce技技术的的发展Stonebraker等等人在100个个节点点的集群群上对Hadoop技技术(MapReduce 的开开源实现现)Vertica 数据据库(一一种基于于列存储储的关系系数据库库管理系系统)DBMS-X数数据库库(某厂厂商提供供的商用用数据库库)进行了数数据装载载和数据据分析的的性能比比较,发发现MapReduce 的性性能远远远低于Vertica 和DBMS-X.但Stonebraker的的批判并并没有
15、阻阻挡住以以MapReduce技技术为为代表的的大数据据分析新新技术的的发展洪流流.34MapReduce技技术的的发展近几年来来,MapReduce技技术获得得了广泛泛的关注注,研究究人员围围绕MapReduce开开展了深深入的研研究,包包括MapReduce应应用领领域的扩扩展MapReduce性性能的的提升MapReduce易易用性性的改进进等同时,MapReduce技技术和和RDBMS也也出现现了相互互借鉴相互互渗透的的趋势35MapReduce应应用领域域的扩展展MapReduce技技术已已经从围围绕搜索索的数据据分析扩扩展到数数据挖掘掘、机器器学习、信息检检索、计计算机仿仿真、科科
16、学实验验数据处处理(生生物、物物理)等众多多的领域域36MapReduce应应用领域域的扩展展针对传统统分析软软件扩展展性差以以及Hadoop分分析功能能薄弱的的特点,IBM 公司司的研究究人员致致力于对对R和和Hadoop的集成成.R 是开开源的统统计分析析软件,通过R 和Hadoop的的深度度集成,把计算算推向数数据并且且并行处处理,使使Hadoop 获得得了强大大的深度度分析能能力37MapReduce应应用领域域的扩展展Purdue大大学的的RHIPE项项目(http:/ml.stat./rhipe/index.html)也致致力于R 和Hadoop的的集成成,为大大数据分分析提供供开
17、发环环境的支支持38MapReduce应应用领域域的扩展展Wegener 等人人则实现现了Weka(类似于于R的的开源的的机器学学习和数数据挖掘掘工具软软件)和和MapReduce 的集集成.39MapReduce应应用领域域的扩展展标准版Weka 工具具只能在在单机上上运行,并且不不能超越越1GB 内存存的限制制.经过算法法的并行行化,在在MapReduce 集群群上,Weka 不仅仅突破了了原有的的可处理理数据量量的限制制,轻松松地对超超过100GB 的数数据进行行分析,同时利利用并行行计算提提高了性性能.经过改造造的Weka,赋予MapReduce技技术深深度分析析的能力力40MapRe
18、duce应应用领域域的扩展展若干开发发者发起起了ApacheMahout项项目的的研究,该项目目是基于于Hadoop 平台台的大规规模数据据集上的的机器学学习和数数据挖掘掘开源程程序库,为应用用开发者者提供了了丰富的的数据分分析功能能41MapReduce性性能提升升的研究究多核硬件件与GPU上上的性能能改进索引技术术与连接接技术的的优化调度技术术优化其他优化化技术42多核硬件件与GPU上上的性能能改进MIT和和Manchester大大学的研研究人员员研究了了多核硬硬件上的的MapReduce 性能能改进研究了Cell BroadbandEngine上上的MapReduce性性能优优化技术术,
19、其中中,Wisconsin大大学的研研究人员员利用Cell Sort算算法,充分发发挥硬件件能力,极大地地提高了了排序的的性能43多核硬件件与GPU上上的性能能改进GPU的的核心心数量和和工作频频率不断断提高,Texas大大学Austin分分校等等科研机机构的研研究人员员,就如如何利用用GPU 提高高MapReduce 的执执行性能能展开了了研究清华大学学和IBM实实验室的的研究人人员提出出了MapCG,在在源代码码级提供供CPU 编程程和GPU编编程的可可移植性性,大大大提高了了MapReduce 程序序编写的的容易程程度.44Ohio 州立立大学的的研究人人员面向向多核环环境,提提出MAT
20、E编编程接接口与环环境,不不仅减小小了内存存占用,同时,性能也也大大超超越Hadoop和和Phoenix(Phoenix是是一种MapReduce的的C+实现现,http:/MapR/).45索引技术术与连接接技术的的优化中国科学学院计算算技术研研究所围围绕MapReduce开开展了了索引优优化、利利用分布布式内存存Cache提提高性性能等研研究46索引技术术与连接接技术的的优化有人提出出事实表表上的虚虚拟视图图(virtualviewover facttable)、事实实表和维维表连接接的优化化、基于于列存储储的压缩缩等技术术,提高高了MapReduce环
21、环境下星星型模型型上的OLAP 类应应用的执执行性能能.47索引技术术与连接接技术的的优化也有人通通过对MapReduce执执行函函数的分分析,对对MapReduce 查询询进行改改写,充充分利用用SQL 数据据库的索索引、聚聚集函数数等功能能,提高高MapReduce 函数数的执行行效率48索引技术术与连接接技术的的优化有人研究究MapReduce 架构构下面向向日志处处理的连连接操作作的性能能,在100个个节点点组成的的Hadoop 集群群上进行行若干连连接技术术的性能能研究,包括标标准的重重新分区区连接方方法、改改进的重重新分区区连接方方法、直直接连接接方法、广播连连接方法法、半连连接、
22、基基于分片片的半连连接等,为不同同应用场场景下使使用不同同的连接接技术提提供了参参考49索引技术术与连接接技术的的优化周傲英等等人提出出基于MapReduce的的列存存储数据据的连接接优化方方法,极极大地加加快了连连接的速速度.有人研究究了星型型模型上上特大事事实表和和特小维维表之间间的连接接优化方方法和图图数据上上的路径径连接(chainjoin)优优化方法法.50调度技术术优化有人试图图利用基基于优先先级的调调度策略略提高MapReduce的的运行行效率.有人提出出了基于于MPI 的MapReduce优优化实实现,利利用MPI-3 的新新特性,比如MPIReduce Local 等,在12
23、7个个节点的的集群上上获得25%的的性能提提升51调度技术术优化Toronto 大学学和Boston大大学的研研究人员员尝试在在多个MapReduceJob 之间间进行查查询处理理工作的的共享,以此提提高系统统的总体体吞吐能能力.Purdue大大学的的研究人人员通过过放松同同步要求求和饥渴渴式调度度方法,提高MapReduce任任务的的执行效效率52调度技术术优化Barcelona超超级计计算中心心和IBMWatson实实验室室的研究究人员研研究了任任务联合合调度策策略,以以期提高高性能.有人研究究了异构构处理器器和异构构集群环环境下新新的任务务调度算算法,保保证并行行任务执执行的性性能不受受
24、异构环环境的负负面影响响53其他优化化技术使用基于于指纹的的分组方方法、直直接存取取文件系系统、在在数据解解析中使使用可变变的Java对对象、使用索索引以及及数据块块感知的的调度方方法等,一举提提高Hadoop系系统的数数据分析析性能,大幅度度逼近传传统关系系数据库库的性能能.有人指出出,在大大规模数数据分析析领域,基于Hadoop的的数据据分析系系统具有有比传统统数据库库更好的的扩展性性,足以以使得Hadoop系系统成成为和并并行数据据库正面面竞争的的一支力力量54其他优化化技术Berthold等等人基于于Eden平平台,使使用延迟迟数据流流处理、动态应应答通道道、数据据流合并并等技术术优化
25、MapReduce的的实现现有文献提提出利用用生产者者和消费费者的共共享缓冲冲区,消消除MapReduce两两个计算算阶段(Map 阶段段和Reduce阶阶段)的的传输瓶瓶颈.有文献提提出在MapReduce两两个计计算阶段段的基础础上增加加一个Merge阶阶段,以以更好地地支持集集合合并并、Join等等操作作,同时时提出了了合并Reduce和和Merge 操作作以改进进性能的的办法55其他优化化技术韩国科学学技术院院以及三三星公司司、Yahoo 公司司的研究究人员,利用预预取技术术和预Shuffle 技术术提高MapReduce的的执行行性能Duke 大学学的研究究人员进进行了MapRedu
26、ce执执行系系统的自自调优研研究,以以减轻运运行时系系统的手手工配置置要求56MapReduce易易用性的的改进针对MapReduce技技术缺缺乏类似似SQL 的标标准存取取语言、依靠底底层语言言编程的的弱点,研究人人员研究究更为高高层的、表达能能力更强强的语言言和系统统,包括括Yahoo的的Pig、Microsoft的的LINQ、Hive等等.57MapReduce易易用性的的改进Pig是是编写写MapReduce程序的的脚本语语言Yahoo不不仅致力力于提高高MapReduce 的易易用性,同时还还不断提提高Pig的的性能,采用包包括操作作符间的的Pipeline等等技术术避免物物化中间间
27、结果,从而提提高性能能,并且且支持数数据流的的处理58MapReduce易易用性的的改进此外,Microsoft的Dryad 系统统通过有有向无环环图表达达基于串串行程序序的并行行计算,进而在在大规模模集群上上并行执执行.虽然与MapReduce技技术在在概念上上有些区区别,但但从渊源源来看,可以把把它看成成是MapReduce技技术的变变种,同同属非关关系数据据管理和和分析技技术阵营营59MapReduce易易用性的的改进Hive是基于于Hadoop 的大大型数据据仓库系系统,实实现了Schema,SQL 查询询等类关关系数据据库的功功能Facebook在在Hive上上实现了了例行性性报表、
28、即席(adhoc)查询询、机器器学习以以及其他他复杂的的数据分分析;通通过SQL接口口,改善善了MapReduce技技术的易易用性和和接受度度60MapReduce易易用性的的改进有文献提提出Hadoop-ML,利利用该语语言环境境,开发发人员可可以很方方便地在在程序块块的基础础上构建建任务并并行或数数据并行行的机器器学习和和数据挖挖掘算法法61MapReduce易易用性的的改进开源软件件Cascading 是基基于Hadoop的的一个Java 库,包含查查询API(queryAPI)、查询询计划器器(query planner)和进程程调度器器(processscheduler),是是Had
29、oop 上的的工作流流软件,开发者者可以在在Cascading 的基基础上快快速地组组装并行行数据处处理程序序62RDBMS和和MapReduce 技术术的竞争争与相互互渗透MapReduce技技术在在广泛用用于搜索索相关的的数据分分析工作作之后,随着其其性能的的不断提提升和应应用领域域的扩展展,迅速速成为RDBMS的的年轻的的竞争者者,两者者的竞争争也促进进了其相相互学习习和渗透透63RDBMS和和MapReduce 技术术的竞争争与相互互渗透RDBMS与与MapReduce 的特特点比较较64RDBMS和和MapReduce 技术术的竞争争与相互互渗透MIT的的研究究人员借借鉴MapRed
30、uce的的容错思思想,试试图在SharedNothing架架构的并并行数据据库系统统上实现现更高的的容错性性能,取取得良好好的容错错和负载载均衡效效果.65RDBMS和和MapReduce 技术术的竞争争与相互互渗透HadoopDB是试试图混合合MapReduce 和RDBMS技技术的一一项重要要工作在HadoopDB中中,系系统清晰晰地分成成两层,上层使使用Hadoop进进行任务务的分解解和调度度,下层层用RDBMS(Postgresql)进行数数据的查查询和处处理66RDBMS和和MapReduce 技术术的竞争争与相互互渗透HadoopDB的创创新之处处是:试图利用用Hadoop 的任任
31、务调度度机制提提高系统统的扩展性和和容错性性,以解决决大数据据分析的的横向扩扩展问题题;利用RDBMS 实现现数据存存储和查查询处理理,以解解决性能问题.在在其性能能实验中中,HadoopDB 的性性能仍然然落后于于关系数数据库系系统.67RDBMS和和MapReduce 技术术的竞争争与相互互渗透Yale 大学学Abadi领领导的的小组正正在使用用包括列列存储、持续装装载和分分析等技技术,以以改进HadoopDB的的性能68RDBMS和和MapReduce 技术术的竞争争与相互互渗透Greenplum(已被EMC收收购)和和AsterData(已已被TERADATA收购)是两家家新兴的的面向
32、大大数据分分析的公公司,他他们采用用的策略略是在MPP架架构的的并行数数据库里里内置地地支持MapReduce,其核心心引擎同同时作为为MapReduce 作业业的执行行引擎69RDBMS和和MapReduce 技术术的竞争争与相互互渗透两家公司司正在进进行一项项重要的的工作,即对分分析函数数进行MapReduce风风格的的并行化化.通过过并行化化,数据据分析函函数的执执行性能能大幅提提升.通过引进进MapReduce 计算算模型的的思想,对传统统的并行行数据库库进行改改造,两两家公司司的MPP架架构的并并行数据据库系统统可以轻轻松扩展展到几百百个节点点的规模模.70RDBMS和和MapRed
33、uce 技术术的竞争争与相互互渗透AsterData 更是是在2010年年中发发布了超超过30 个的的分析软软件包,提供上上千个可可以定制制的分析析函数,这些函函数都将将以并行行的方式式运行在在MPP 平台台上,从从而在性性能上大大大超越越传统的的RDBMS用用户自自定义函函数(UDF).71RDBMS和和MapReduce 技术术的竞争争与相互互渗透随着MapReduce技技术性能能的提升升、应用用领域的的扩展,关系数数据管理理技术和和MapReduce 技术术的争论论一直持持续着.72RDBMS和和MapReduce 技术术的竞争争与相互互渗透2010 年初初,ACM通通讯杂志志同时向向S
34、tonebraker以以及Google的的Dean进进行约稿稿Dean 指出出,MapReduce是进进行大规规模数据据分析处处理的灵灵活而有有效的工工具;而Stonebraker则则从最最初的对对MapReduce 技术术的彻底底否定,转为肯肯定MapReduce的的良好扩扩展性,并且指指出,MapReduce非非常适适合做ETL这这样的的工作73RDBMS和和MapReduce 技术术的竞争争与相互互渗透目前,越越来越多多的数据据库研究究人员(包括Stonebraker在在内)逐逐渐意识识到,MapReduce和和关系系数据库库可以互互相学习习,并且且走向集集成MapReduce可可以从从
35、RDBMS学学习查查询优化化、Schema支支持、外外围工具具(ETL工工具、可可视化工工具等)支持等等而RDBMS可可以从从MapReduce 学习习得到高高度的扩扩展性和和容错性性、快速速装载、易于使使用等特特点.74RDBMS和和MapReduce 技术术的竞争争与相互互渗透除了Greenplum,AsterData 等新新兴公司司以外,Oracle,Teradata,IBM,Vertica 等传传统数据据库厂商商也致力力于MapReduce和和RDBMS的的集成成它们所采采用的策策略基本本类似,即在RDBMS引引擎内支支持MapReduce作作业的运运行.75RDBMS和和MapRed
36、uce 技术术的竞争争与相互互渗透与Greenplum 和AsterData 的分分析函数数并行化化改写技技术方案案相比,Teradata的的工作相相对简单单,仅仅仅实现了了数据装装载的加加速、数数据库表表和HDFS(Hadoop filesystem)的互互相转换换等功能能76RDBMS和和MapReduce 技术术的竞争争与相互互渗透Vertica 数据据库系统统在2009年年底开开始了MapReduce技技术的的集成,通过集集成,使使得Vertica数数据库库不仅能能够处理理结构化化数据,而且能能够处理理非结构构化数据据和半结结构化数数据Vertica 数据据库的前前身是C-Store
37、数据据库原型型,C-Store数数据库库是在Stonebraker的的领导下下开发的的基于列列存储、大内存存、压缩缩等技术术,面向向数据分分析应用用的数据据库系统统,Stonebraker本本人为Vertica 的CTO.77把分析推推向数据据以及数数据分析析新生态态系统的的浮现把分析推推向数据据新生态系系统的浮浮现78把分析推推向数据据随着数据据量的增增长,对对大数据据进行分分析的基基本策略略是把计算推推向数据据,而不不是移动动大量的的数据79把分析推推向数据据围绕关系系数据库库管理系系统,衍衍生出了了传统的的数据分分析生态态系统(eco-system,生生态系统统是指多多种生物物共存共共生
38、的自自然系统统,在这这里用来来表达围围绕数据据分析的的共存的的各类系系统和工工具)8081把分析推推向数据据关系数据据库作为为核心的的数据引引擎,各各种来源源的数据据通过ETL工工具导导入关系系数据库库系统,客户端端工具通通过SQL语语言实现现例行性性的报表表生成.针对复杂杂的分析析,SQL的的表达能能力就暴暴露出了了其局限限性,无无法胜任任.这时时,必须须把数据据从数据据库中提提取出来来,导入入前端分分析工具具(SAS,SPSS)以以进行后后续分析析82把分析推推向数据据这种模式式的主要要缺点是是,由于于SQL 分析析能力的的局限,需要借借助于统统计分析析软件进进行数据据的深度度建模和和分析
39、,导致了了大量数数据的移移动需要指出出的是,当分析析人员从从关系数数据库中中利用SQL查查询把把数据提提取到分分析软件件中(比比如SAS)进进行后续续分析时时,SQL退退化成为为数据提提取的接接口.83把分析推推向数据据最为致命命的是,大量数数据的移移动导致致性能下下降,这这是大规规模数据据分析所所应该极极力避免免的值得指出出的是,SAS 等数数据分析析厂商正正在致力力于把分分析能力力下压到到数据库库系统执执行,但但是进行行得不是是很彻底底,分析析函数的的并行化化以及系系统的扩扩展性仍仍然是有有待解决决的问题题.84把分析推推向数据据相对于RDBMS,MapReduce技技术从从存储模模型和计
40、计算模型型上支持持更高的的容错性性、更强强的扩展展性,为为大数据据分析提提供了很很好的运运行平台台保障.同时,难难以用SQL进进行表表达的分分析任务务更容易易用MapReduce计计算函数数表达(如图分分析、各各种数据据挖掘算算法等).可见见,MapReduce技技术在数数据的深深度分析析上比RDBMS更更胜一筹筹.85新生态系系统的浮浮现随着MapReduce技技术的的兴起, 数据据分析的的生态系系统正在在发生变变化Facebook的的系统就就是一个个典型的的范例Facebook系系统的数数据量是是15PB(压压缩以后后为2.5PB),每每天增加加的数据据量是60TB(压缩缩以后是是10TB
41、).如此庞大大的数据据量迫使使Facebook采采用新新的数据据处理架架构.86新生态系系统的浮浮现87新生态系系统的浮浮现在Facebook数数据分分析系统统中,关关系数据据库系统统处在系系统的边边缘(挂挂接在Webserver farm上上),负责进进行OLTP类类的事事务处理理.交易数据据通过定定时的装装载,导导入核心心生产用用Hive系系统(production Hive-Hadoop cluster),重要要的分析析功能在在Hive系系统里面面完成.88新生态系系统的浮浮现经过分析析和聚集集的结果果,可以以重新注注入关系系数据库库系统(包括OracleRAC,federatedMyS
42、QL等等),接接受用户户的查询询.为了减轻轻即席查查询对核核心Hive系系统的的压力,数据被被复制到到一个备备份的Hive 系统统(ad hocHive-Hadoopcluster),进进行用户户即席查查询的处处理,隔隔离未经经优化的的查询有有可能给给核心Hive 系统统造成的的性能冲冲击,保保证核心心数据分分析系统统的性能能.89新生态系系统的浮浮现在这个生生态系统统里,RDBMS负负责其擅擅长的OLTP 类应应用,为为大数据据分析平平台提供供数据源源数据深度度分析之之后的汇汇总数据据和分析析结果重重新导入入RDBMS,供用户户观察(包括可可视化)和使用用90新生态系系统的浮浮现前端工具具不再承承担分析析功能,仅仅实实现数据据的可视视化;RDBMS担担任数据据集市(datamart)的角角色;真真正的的复杂深深度的分分析,依依靠高度度可扩展展的Hadoo
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年北京协和医院内分泌科于淼课题组合同制科研助理招聘备考题库参考答案详解
- 土地及房屋买卖合同
- 2026年医疗法律顾问协议
- 2026年生活共享文化合同
- 2025年眉山市青神县人民法院公开招聘劳务派遣司法警察的备考题库完整答案详解
- 2026年药品分销合同
- 2026年快餐加盟合同
- 2025年昭觉县应急管理局关于公开招聘综合应急救援队伍人员的备考题库及1套参考答案详解
- 2025年北京林业大学自聘劳动合同制人员招聘备考题库参考答案详解
- 2025年株洲市炎陵县财政局、县审计局公开招聘专业人才备考题库及完整答案详解一套
- 2025年葫芦岛市总工会面向社会公开招聘工会社会工作者5人备考题库及参考答案详解
- 2026班级马年元旦主题联欢晚会 教学课件
- 2025年沈阳华晨专用车有限公司公开招聘备考笔试题库及答案解析
- 2025年云南省人民检察院聘用制书记员招聘(22人)笔试考试参考试题及答案解析
- 2025年乐山市商业银行社会招聘笔试题库及答案解析(夺冠系列)
- 见证取样手册(燃气工程分部)
- 2025新疆和田和康县、和安县面向社会招聘事业单位工作人员108人(公共基础知识)测试题附答案解析
- 暖通设备运行调试方案
- 综合管理部经理述职报告
- 施工现场的安全沟通与应急响应方案
- 扎兰屯护理单招题库及答案解析
评论
0/150
提交评论