版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《大数据导论》开源技术的商业支援Cloudera创建人:来自Facebook、谷歌和雅虎的前工程师杰夫·哈默巴切、克里斯托弗·比塞格利亚、埃姆·阿瓦达拉以及现任CEO、甲骨文前高管迈克·奥尔森。Cloudera一、Cloudera领衔大数据基础设施Cloudera成立于2008年,在企业和大型机构在寻求解决棘手的大数据问题时,往往会使用开源软件基础架构Hadoop的服务。2018年10月,均为开源平台的Cloudera与Hortonworks公司宣布他们以52亿美元的价格合并。一、Cloudera领衔大数据基础设施二、开源技术的商业支援Linux已经成为主流操作系统,并与低成本的服务器硬件系统相结合。MySQL开源数据库、Apache开源网络服务器以及PHP开源脚本语言搭配起来的实用性也推动了Linux的普及。红帽子Linux(RedHat)脱颖而出,成为Linux商业支持及服务的市场领导者。(1)ApacheHadoop是一个开源分布式计算平台,通过Hadoop分布式文件系统HDFS存储大量数据,再通过名为MapReduce的编程模型将这些数据的操作分成小片段。ApacheHadoop源自谷歌的原始创建技术,随后,开发了一系列围绕Hadoop的开源技术。(2)ApacheHive提供数据仓库功能,包括数据抽取、转换、装载,即将数据从各种来源中抽取出来,再实行转换以满足操作需要,然后装载到目标数据库。(3)ApacheHBase则提供处于Hadoop顶部的海量结构化表的实时读写访问功能,它仿照了谷歌的BigTable。(4)ApacheCassandra通过复制数据来提供容错数据存储功能。二、开源技术的商业支援吸引力:开源软件在开始使用时是免费的,从而使一些商用运营商采用免费增值的商业模式参与到竞争当中。免费前提:产品在个人使用或有限数据的前提下是免费的,但顾客需要在之后为部分或大量数据的使用付费。趋势:采用开源技术的这些企业往往需要商业支援,一如当初使用Linux碰到的情形。二、开源技术的商业支援谢谢聆听!《大数据导论》大数据的技术架构大数据的技术架构4层堆栈式大数据技术架构(1)基础层:第一层作为整个大数据技术架构基础的最底层,也是基础层。要实现大数据规模的应用,企业需要一个高度自动化的、可横向扩展的存储和计算平台。这个基础设施需要从以前的存储孤岛发展为具有共享能力的高容量存储池。容量、性能和吞吐量必须可以线性扩展。云模型鼓励访问数据并提供弹性资源池来应对大规模问题,解决了如何存储大量数据,以及如何积聚所需的计算资源来操作数据的问题。在云中,数据跨多个节点调配和分布,使得数据更接近需要它的用户,从而缩短响应时间并提高生产率。大数据的技术架构(2)管理层:要支持在多源数据上做深层次的分析,大数据技术架构中需要一个管理平台,使结构化和非结构化数据管理融为一体,具备实时传送和查询、计算功能。本层既包括数据的存储和管理,也涉及数据的计算。并行化和分布式是大数据管理平台所必须考虑的要素。大数据的技术架构(3)分析层:大数据应用需要大数据分析。分析层提供基于统计学的数据挖掘和机器学习算法,用于分析和解释数据集,帮助企业获得对数据价值深入的领悟。可扩展性强、使用灵活的大数据分析平台更可成为数据科学家的利器,起到事半功倍的效果。大数据的技术架构(4)应用层:大数据的价值体现在帮助企业进行决策和为终端用户提供服务的应用。不同的新型商业需求驱动了大数据的应用。另一方面,大数据应用为企业提供的竞争优势使得企业更加重视大数据的价值。新型大数据应用对大数据技术不断提出新的要求,大数据技术也因此在不断地发展变化中日趋成熟。大数据的技术架构大数据的技术架构4层堆栈式大数据技术架构感谢聆听!《大数据导论》Hadoop数据处理基础第一:大数据重预测,小数据重决定。第二:大数据重感知,小数据重精准。第三:大数据重相关,小数据重因果。第四:大数据重群体,小数据重个体。
从应用的角度来说,大数据和小数据具有以下几个主要的区别:一、Hadoop的起源Google的低成本之道:(1)不使用超级计算机,不使用存储(淘宝的去i,去e,去o之路)
大量使用普通的pc服务器(去掉机箱,外设,硬盘),提供有冗余的集群服务。(2)全世界多个数据中心,有些附带发电厂。(3)运营商向Google倒付费。一、Hadoop的起源搜索引擎面临的几个难题:(1)大量的网页怎么存储?(2)搜索算法(3)Rank计算问题google的解决方案:1.针对网页存储,Google采用了分布式文件存储和倒排索引(也就是后来Haoop的核心HDFS
)。参考:《搜索引擎-倒排索引基础知识》和《倒排索引-搜索引擎的基石》两篇文章。2.针对网站的搜索算法,Google发明了Rank算法。这个算法就是后来hadoop的另一个核心Map-Redure。参考:《PageRank算法》。一、Hadoop的起源Google带给我们的关键技术和思想包括:HDFS、Map-Reduce。Hadoop名字来源于DougCutting儿子的玩具大象一、Hadoop的起源Hadoop的思想来源:Google目前Hadoop达到的高度:(1)实现云计算的事实标准开源软件(2)包含数十个具有强大生命力的子项目(3)已经能在数千节点上运行,处理数据量和排序时间不断打破世界纪录一、Hadoop的起源HDFS:Hadoop分布式文件系统。MapReduce:并行计算框架。Hbase:类似于GoogleBigTable分布式NoSql数据库。Hive:数据仓库工具,由Facebook贡献。Zookeeper:分布式锁设施,提供类似Googlechubby的功能,由Facebook贡献。Avro:数据序列化与格式传输工具。Pig:大数据分析工具,为用户提供多种接口。Ambari:Hadoop管理工具,可以快捷的监控、部署、管理集群。Sqoop:在HADOOP与传统的数据库间进行数据的传递。Hadoop子项目家族一、Hadoop的起源一、Hadoop的起源Google与开源基础技术的对应关系一、Hadoop的起源(1)高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。(2)高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。(3)高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。(4)高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。此外:Hadoop带有用Java语言编写的框架,因此运行在Linux平台上是非常理想的。Hadoop上的应用程序也可以使用其他语言编写,比如C++。二、Hadoop的优势Cloudera公司的Hadoop发行版三、Hadoop的发行版本(1)Apache版本(最原始的版本,所有发行版均基于这个版本进行改进)(2)Cloudera版本(Cloudera’sDistributionIncludingApacheHadoop,简称CDH)(3)Hortonworks版本(HortonworksDataPlatform,简称“HDP”)
NoSQL数据库:支撑大数据的基础技术,和Hadoop一样受到越来越多关注的。在大数据处理的基础平台中,需要由Hadoop和NoSQL数据库来担任核心角色。
Hadoop的子项目:数据仓库Hive和数据挖掘库Mahout等也可以完成数据分析的所有工作。
延续性:Hadoop和NoSQL数据库,是在现有关系型数据库和SQL等数据处理技术很难有效处理非结构化数据这一背景下,由谷歌、亚马逊、脸书等企业因自身迫切的需求而开发的。因此,作为一般企业不必非要推翻和替换现有的技术,在销售数据和客户数据等结构化数据的存储和处理上,只要使用传统的关系型数据库和数据仓库就可以了。
成本:由于Hadoop和NoSQL数据库是开源的,因此和商用软件相比,其软件授权费用十分低廉,但另一方面,想招募到精通这些技术的人才却可能需要付出很高的成本。四、Hadoop与NoSQL感谢聆听!《大数据导论》大数据的处理模式一、处理工作量大数据的处理工作量:被定义为一定时间内处理数据的性质与数量。处理工作量主要分为批处理和事务两种类型。(1)批处理型。也称为脱机处理,这种方式通常成批地处理数据,因而会导致较大的延迟。通常我们采用批处理完成大数据有序的读/写操作,这些读/写查询通常是成批的。(2)事务型。也称为在线处理,这种处理方式通过无延迟的交互式处理使得整个回应延迟很小。事务型处理一般适用于少量数据的随机读/写操作。二、批处理模式特征:批处理模式中,数据总是成批地脱机处理,响应时长从几分钟到几小时不等。在这种情况下,数据被处理前必须在磁盘上保存。批处理模式适用于庞大的数据集,无论这个数据集是单个的还是由几个数据集组合而成的,该模式可以本质上解决大数据数据量大和数据特性不同的问题。优势:批处理是大数据处理的主要方式,相较于实时模式,它比较简单,易于建立,开销也比较小。像商务智能、预测性分析与规范性分析、ETL操作,一般都采用批处理模式。二、批处理模式——1.MapReduce批处理MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。
当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。MapReduce提供了以下的主要功能:1)数据划分和计算任务调度2)数据/代码互定位3)系统优化4)出错检测和恢复二、批处理模式——1.MapReduce批处理MapReduce设计上具有以下主要的技术特征:1)向“外”横向扩展,而非向“上”纵向扩展2)失效被认为是常态3)把处理向数据迁移4)顺序处理数据、避免随机访问数据5)为应用开发者隐藏系统层细节6)平滑无缝的可扩展性执行步骤二、批处理模式——1.MapReduce批处理MapReduce是面向大数据并行处理的计算模型、框架和平台。它隐含了三层含义:二、批处理模式——1.MapReduce批处理1)MapReduce是一个基于集群的高性能并行计算平台。2)MapReduce是一个并行计算与运行软件框架。3)MapReduce是一个并行程序设计模型与方法。
一次MapReduce处理引擎的运行被称为MapReduce作业,它由映射(Map)和归约(Reduce)两部分任务组成,这两部分任务又被分为多个阶段。
一个作业=映射+归约
其中映射任务被分为映射(map)、合并(combine)和分区(partition)三个阶段,合并阶段是可选的;归约任务被分为洗牌和排序(shuffleandsort)与归约(reduce)两个阶段。
映射=映射+合并+分区
归约=洗牌和排序+归约二、批处理模式——2.Map和Reduce任务(1)映射。MapReduce的第一个阶段称为映射。映射阶段首先把大的数据文件分割成多个小数据文件。每个较小的数据文件的每条记录都被解析为一组键-值对,通常键表示其对应记录的序号,值则表示该记录的实际值。数据在映射阶段的变化二、批处理模式——1.MapReduce批处理(2)合并。在MapReduce模型中,映射任务与归约任务分别在不同的节点上进行,而映射模块的输出需要被送到归约模块处理,这就要求把数据由映射任务节点传输到归约任务节点,这个过程往往会消耗大量的带宽,并直接导致处理延时。因此就要对大量的键-值对进行合并,以减少这些消耗。数据在合并阶段的变化二、批处理模式——2.Map和Reduce任务(3)分区。在这个阶段,当使用多个归约模块时,MapReduce模型就需要把映射模块或合并模块(如果该MapReduce引擎指明调用合并功能)的输出分配给各个归约模块。在此我们把分配到每个归约模块的数据叫做一个分区,也就是说,分区数与归约模块数是相等的。图中描述了数据在分区阶段的变化。数据在分区阶段的变化二、批处理模式——2.Map和Reduce任务(4)洗牌和排序。洗牌包括由分区模块将数据传输到归约模块的整个过程,是归约任务的第一个阶段。由分区模块传输来的数据可能存在多条记录对应同一个键。这个模块将把对应同一个键的记录进行组合,形成一个唯一键对应一组值的键-值对列表。随后该模块对所有的键-值对进行排序。组合与排序的方式在此可由用户自定义。数据在洗牌和排序阶段的变化二、批处理模式——2.Map和Reduce任务(5)归约。这是归约任务的最后一个阶段,该模块的逻辑由用户自定义,它可能对输入的记录进行进一步分析归纳,也可能对输入不作任何改变。在任何情形下,这个模块都在处理当条记录的同时将其他处理过的记录输出。数据在归约阶段的变化二、批处理模式——3.MapReduce简单实例二、批处理模式——3.MapReduce简单实例MapReduce采用了“分治”的原则:(1)任务并行:任务并行指的是将一个任务分为多个子任务在不同节点上并行进行,通常并行的子任务采用不同的算法,每个子任务的输入数据可以相同也可不同,最后多个子任务的结果组成最终结果。(2)数据并行:数据并行指的是将一个数据集分为多个子数据集在多个节点上并行地处
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026广西南宁隆安县城管大队招聘城管协管员1人备考题库含答案详解(综合卷)
- 2026贵州黔东南州麻江县谷硐镇中心卫生院招聘1人备考题库附答案详解(夺分金卷)
- 2026绵阳科达人才安居有限责任公司员工招聘1人备考题库带答案详解(达标题)
- 2026上半年四川中医药高等专科学校招才引智招聘5人备考题库(上海场)及参考答案详解ab卷
- 2026山东济南市第一人民医院招聘卫生高级人才和博士(控制总量)18人备考题库附答案详解(综合题)
- 2026西藏拉萨发展集团有限公司招聘46人备考题库及参考答案详解(a卷)
- 2026云南昆明市晋宁区双河乡中心幼儿园编外教师招聘1人备考题库附参考答案详解(b卷)
- 2026广东百万英才汇南粤东莞市樟木头医院招聘纳入岗位管理的编制外人员37人备考题库附答案详解(精练)
- 2026西藏拉萨发展集团有限公司招聘46人备考题库及参考答案详解(模拟题)
- 2026海南琼海市就业局公益性岗位招聘备考题库及答案详解【历年真题】
- 5.2《从小爱劳动》课件 统编版道德与法治三年级下册
- 中青旅内部制度
- 军用关键软硬件自主可控产品名录(2025年v1版)
- 雷诺现象诊断与综合治疗方案
- (正式版)DB51∕T 2875-2022 《彩灯(自贡)工艺灯规范》
- 2026年乌海职业技术学院单招职业技能考试题库带答案详解(精练)
- 2025年凤阳市事业单位考试真题及答案
- 【道法】权利与义务相统一教学课件-2025-2026学年统编版道德与法治八年级下册
- 2026年初级社会工作者综合能力全国考试题库(含答案)
- 2025-2030中国网络创意营销市场发展研发创新及投资前景研究研究报告
- 展厅管理制度规范
评论
0/150
提交评论