《Hadoop批处理技术与应用》课件-第一章 Hadoop的理论基础_第1页
《Hadoop批处理技术与应用》课件-第一章 Hadoop的理论基础_第2页
《Hadoop批处理技术与应用》课件-第一章 Hadoop的理论基础_第3页
《Hadoop批处理技术与应用》课件-第一章 Hadoop的理论基础_第4页
《Hadoop批处理技术与应用》课件-第一章 Hadoop的理论基础_第5页
已阅读5页,还剩35页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章Hadoop的理论基础12什么是大数据?数据仓库的基本概念3OLTP和OLAP的基本概念4Google的三大论文5Hadoop的起源什么是大数据第一章Hadoop的理论基础01大数据(BigData),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。什么是大数据第一章Hadoop的理论基础大数据的5个特征(IBM提出):Volume(大量)Velocity(高速)Variety(多样)Value(价值)Veracity(真实性)大数据的特征第一章Hadoop的理论基础需求:如何把过去一个月卖的好的商品找到?核心问题(1):订单如何存储?核心问题(2):订单如何计算?大数据的典型案例一:商品推荐第一章Hadoop的理论基础Page

7需求:如何进行天气预报?核心问题(1):天气数据如何存储?核心问题(2):天气数据如何计算?大数据的典型案例二:天气预报第一章Hadoop的理论基础Page

8大数据所研究的核心问题第一章Hadoop的理论基础数据的存储采用分布式文件系统来解决数据的计算采用分布式计算来解决什么是分布式文件系统第一章Hadoop的理论基础分布式文件系统(DistributedFileSystem)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。一个典型的网络可能包括多个供多用户访问的服务器。另外,对等特性允许一些系统扮演客户机和服务器的双重角色。例如,用户可以“发表”一个允许其他客户机访问的目录,一旦被访问,这个目录对客户机来说就像使用本地驱动器一样。什么是分布式计算第一章Hadoop的理论基础分布式计算是一种计算方法,和集中式计算是相对的。随着计算技术的发展,有些应用需要非常巨大的计算能力才能完成,如果采用集中式计算,需要耗费相当长的时间来完成。分布式计算将该应用分解成许多小的部分,分配给多台计算机进行处理。这样可以节约整体计算时间,大大提高计算效率。数据仓库的基本概念第一章Hadoop的理论基础02数据仓库的基本概念第一章Hadoop的理论基础数据仓库,英文名称为DataWarehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。大数据和数据仓库的关系第一章Hadoop的理论基础大数据的Hadoop可以看成是数据仓库的一种实现方式。我们可以利用Hadoop来实现数据仓库的应用。数据存储采用HDFS、计算采用MapReduce数据仓库又是一种OLAP应用系统。数据仓库和Hadoop大数据平台特性比较第一章Hadoop的理论基础搭建数据仓库的过程第一章Hadoop的理论基础什么是ETL第一章Hadoop的理论基础ETL是数据抽取(Extract)、转换(Transform)、加载(Load)的简写,它是将OLTP系统中的数据经过抽取,并将不同数据源的数据进行转换、整合,得出一致性的数据,然后加载到数据仓库中。简而言之ETL是完成从OLTP系统到OLAP系统的过程。OLTP与OLAP第一章Hadoop的理论基础03OLTP的基本概念第一章Hadoop的理论基础OLTP:On-LineTransactionProcessing联机事务处理过程也称为面向交易的处理过程,其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。

OLTP的典型案例第一章Hadoop的理论基础典型案例:银行转账OLAP的基本概念第一章Hadoop的理论基础OLAP:On-LineAnalyticProcessing联机分析处理过程OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。OLAP的典型案例第一章Hadoop的理论基础典型案例:商品推荐Google的三大论文(Hadoop的理论基础)第一章Hadoop的理论基础04Google引爆大数据时代的三篇论文第一章Hadoop的理论基础谈到Hadoop的起源,就不得不提Google的三驾马车:GoogleFS、MapReduce、BigTable。虽然Google没有公布这三个产品的源码,但是他发布了这三个产品的详细设计论文,奠定了风靡全球的大数据算法的基础!Google的三大论文之一:GFS第一章Hadoop的理论基础GFS(GoogleFileSystem:Google的文件系统)GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。Google的低成本思想第一章Hadoop的理论基础不使用超级计算机,不使用存储(淘宝的去ibm,去emc,去oracle之路)大量使用普通的pc服务器(去掉机箱,外设,硬盘),提供有冗余的集群服务Page

26分布式文件系统的基本原理第一章Hadoop的理论基础目前比较主流的一种分布式文件系统架构,如图所示,通常包括主控服务器(或称元数据服务器、名字服务器等,通常会配置备用主控服务器以便在故障时接管服务,也可以两个都为主的模式),多个数据服务器(或称存储服务器,存储节点等),以及多个客户端,客户端可以是各种应用服务器,也可以是终端用户。Page

27分布式文件系统HDFS的架构第一章Hadoop的理论基础主节点:NameNode(名称节点)数据节点:DataNode第二名称节点:SecondaryNameNode什么是倒排索引第一章Hadoop的理论基础倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引。建立倒排索引示例第一章Hadoop的理论基础Google的三大论文之二:MapReduce第一章Hadoop的理论基础MapReduce是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于key/valuepair的数据集合,输出中间的基于key/valuepair的数据集合;然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。现实世界中有很多满足上述处理模型的例子,本论文将详细描述这个模型。什么是PageRank?第一章Hadoop的理论基础Yarn的系统架构组成第一章Hadoop的理论基础主节点:ResourceManager接收客户端的任务请求资源和任务的分配从节点:NodeManager接收并执行任务Google的三大论文之三:BigTable第一章Hadoop的理论基础Bigtable是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通服务器上的PB级的数据。Google的很多项目使用Bigtable存储数据,包括Web索引、GoogleEarth、GoogleFinance。这些应用对Bigtable提出的要求差异非常大,无论是在数据量上(从URL到网页到卫星图像)还是在响应速度上(从后端的批量处理到实时数据服务)。尽管应用需求差异很大,但是,针对Google的这些产品,Bigtable还是成功的提供了一个灵活的、高性能的解决方案。HBase的体系架构第一章Hadoop的理论基础主从结构:主节点:HMaster从节点:RegionServer底层存储:HDFSHBase表结构的组成第一章Hadoop的理论基础表列族列行键:rowkey

常见的NoSQL数据库第一章Hadoop的理论基础RedisMongoDBHBaseCassandraOLAP的基本概念第一章Hadoop的理论基础OLAP:On-LineAnalyticProcessing联机分析处理过程OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。Hadoop的起源第一章Hadoop的理论基础05从lucene到nutch,从nutch到hadoop第一章Hadoop的理论基础2003-2004年,Google公开了部分GFS和Mapreduce思想的细节,以此为基础DougCutting等人用了2年业余时间实现了DFS和Map

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论