




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据计算平台主讲教师:贺宁《大数据导论》课程Introductiontobigdata浅谈大数据开源平台的演变开源大数据的过去现在大数据处理模型01021开源大数据的过去2003年,谷歌发布了一篇GoogleGFS论文,论文介绍了如何将GFS系统用于大型的、分布式的、对大量数据进行访问的应用。2004年,谷歌公布了另外一篇关于MapReduce的介绍,这是一种用于大规模数据集(大于1TB)的并行运算编程模型,即MapReduce编程模型。HadoopHadoop的历史2005年初,雅虎启动了Nutch项目,同时,Nutch项目的开发者在Nutch上有了一个可工作的MapReduce应用,到当年年中,所有主要的Nutch算法被移植到使用MapReduce和HDFS来运行。在2006年2月,他们从Nutch转移出来成为一个独立的Lucene子项目,称为Hadoop。大约在同一时间,DougCutting加入雅虎。Yahoo提供一个专门的团队和资源将Hadoop发展成一个可在网络上运行的系统。2008年1月,Hadoop已成为Apache顶级项目,证明它是成功的,是一个多样化、活跃的社区。通过这次机会,Hadoop成功地被雅虎之外的很多公司应用。HadoopHadoop的历史早期的应用都是直接现将数据存储到数据库中,应用/用户
直接/间接
从数据库中获取所需数据。
早期的开源堆栈
数据
Data
数据库
Database
应用/用户
ApplicationsUsers随着数据量的增大,人们开始关注
Hadoop
进一步替代他们使用的传统方法。Hadoop有两个重要的组成部分,一个是存储引擎,这都是以谷歌
HDFS作为依据,一个是数据处理模型
MapReduce。Hadoop
是一套很灵活的解决方案,它也是最常用的一种数据处理方式。但是它在某些方面表现的比较乏力。Hadoop开源大数据框架的发展
数据
Data
应用/用户
ApplicationsUsersHDFSMapReduce快速查询事件传递流处理内存计算01030204快速查询流处理流式事件的传递内存计算开源大数据框架的不足2当今大数据处理模型的形态传输数据加工数据存储数据问询或分析数据现今的开源堆栈谢谢观看数大义之方,论万物之据。受益终身!传输数据第一类技术是数据传输系统,数据传输系统主要负责把事件从一个位置进一步运输到另外一个位置,数据传输系统会专注于短期储存,这些系统通常会和数据流来打交道。这些系统可以分为不同的类别,每个系统都有不同的框架和不同的关键点传输数据。现在Kafka逐步变成了这个领域的标准。Kafka
数据产生者
数据传输数据使用者分布式数据存储系统数据提供系统通常把数据提供到其它地方进行进一步的处理,首先可以把数据提供到存储的机制当中,存储机制只是数据库,会存储数据,也可以从这里调用数据。然而现在更普遍的情况是一种专门的储存数据库,可以看到很多的专门的存储数据的系统。现在最普遍的存储方式是分布式数据存储系统,也就是说把这些数据无限制地放到
HDFS系统当中,随时进行提取数据。
数据
数据传输数据存储数据处理数据处理过程是把数据进行变形,输出的数据和输入的数据量是一样大的,查询系统的输出数据比输入数据比较小一些,这在很多的系统里都是这样的。在大数据系统方面可以看到某些系统会不断增强处理的性能。流处理流处理是一种重要的大数据处理手段,其主要特点是其处理的数据是源源不断且实时到来的。分布式流处理是一种面向动态数据的细粒度处理模式,基于分布式内存,对不断产生的动态数据进行处理。其对数据处理的快速,高效,低延迟等特性,在大数据处理中发挥越来越重要的作用。分布式队列消息流式处理系统流处理结果批处理
数据
数据传输数据存储
批处理
批处理方式在流处理方面当中不是一种真正的流处理的方式,它只是以批的方式来收集数据,然后把它放到一种特定的构架下面,然后来进行批处理。问询
数据
Data
应用/用户
ApplicationsUsers传输数据加工数据问询/分析
数据
Data
应用/用户
ApplicationsUsers传输数据加工数据问询/分析存储数据SQLonHadoop数据的操作语言是SQL,因此很多工具的开发目标自然就是能够在Hadoop上使用SQL。这些工具有些只是在MapReduce之上做了简单的包装,有些则是在HDFS之上实现了完整的数据仓库,而有些则介于这两者之间。SQL-on-Hadoop
工作的原理就是从某些地方提取数据,提取数据可能是分布式处理,把数据放到自己引擎当中,这样就可以控制数据,改变数据,并且创造数据。所以SQL是非常灵活的一种过程,这是它的主要的特点。例如Hive是原始的SQL-on-Hadoop解决方案。它是一个开源的Java项目,能够将SQL转换成一系列可以在标准的HadoopTaskTrackers上运行的MapReduce任务。Hive通过一个metastore(本身就是一个数据库)存储表模式、分区和位置以期提供像MySQL一样的功能。它支持大部分MySQL语法,同时使用相似的database/table/view约定组织数据集。键值对存储键值数据库是一种非关系数据库,它使用简单的键值方法来存储数据。键值数据库将数据存储为键值对集合,其中键作为唯一标识符。键和值都可以是从简单对象到复杂复合对象的任何内容。键值数据库是高度可分区的,并且允许以其他类型的数据库无法实现的规模进行水平扩展。例如,如果现有分区填满了容量,并且需要更多的存储空间,AmazonDynamoDB就会将额外的分区分配给表。产品客户供应商仓库地点XXXXXXXXXXXXXXXXXXXXXXXX键值键值数据库列存储随着企业数据量急速增长,为了满足业务需求,大数据统计早已成为迫切的需求。在引擎排行榜上MySQL已经长期处于第二,但大数据统计并没有明显突破。MySQL解决方案包括Infobright、Greenplum、Spark*等,与之更为密切的是Infobright,但是多表连接场景下,性能会大幅下降(且特殊功能需要付费)。而列存储的出现则弥补了此处的空缺,是MariaDB在OLAP领域解决方案的突破。列存储是InfiniDB与MariaDB10.1的结合体,目前已经GA,拥有计算能力及存储线性扩展、高压缩比、MySQL协议兼容、自动水平和垂直分区、扩展窗口函数等特点。谢谢观看数大义之方,论
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025混凝土承包施工合同书 混凝土合同范本
- 2025深度探讨股权转让合同
- 2025企业商业机密保密合同书
- 2025生鲜物流合作协议合同范本
- 2025商业大厦管理服务合同
- 2025年租赁合同登记备案指南
- 2025兼职从业人员劳动合同书模板
- 2025石嘴山房屋出租合同
- 2025茶叶购销合同模板
- 2025购置期房买卖合同样本
- JJF(黔) 84-2024 便携式制动性能测试仪校准装置校准规范
- 装饰装修工程施工机械、物资材料、劳动力的配备及总体计划
- 足浴店卫生管理规章制度模版(3篇)
- 衡重式及重力式挡土墙自动计算表
- 广告制作投诉处理规则
- 2024年官方兽医考试题库及参考答案
- 针刺伤护理文献分享
- 《名片设计教程》课件
- 社区工作职业道德培训
- 手机支架供货合同模板
- 2024年高考化学真题完全解读(全国甲卷)
评论
0/150
提交评论