Hadoop原理介绍

上传人：5*** IP属地：湖北上传时间：2022-05-18 格式：PPTX 页数：38 大小：2MB 积分：30 举报 版权申诉

已阅读5页，还剩33页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、Hadoop原理介绍 Hadoop概述 Hadoop介绍 Hadoop原理 Hadoop编程提纲 Hadoop是一个开源的、可靠的、可扩展的分布式并行计算框架主要组成:分布式文件系统HDFS和MapReduce算法执行作者:Doug Cutting 语言:Java，支持多种编程语言，如:Python、C+Hadoop概述 Hadoop是Google的集群系统的开源实现Google集群系统：GFS(Google File System)、MapReduce、BigTableHadoop主要由HDFS(Hadoop Distributed File System Hadoop分布式文件系统)、

2、MapReduce和HBase组成 Hadoop的初衷是为解决 Nutch 的海量数据爬取和存储的需要 Hadoop于2005年秋天作为 Lucene的子项目Nutch的一部分正式引入Apache基金会。名称起源: Doug Cutting儿子的黄色大象玩具的名字Hadoop起源 Hadoop概述 Hadoop介绍 Hadoop原理 Hadoop编程提纲什么是大数据数据集主要特点数据集主要特点 Volume: 数量量从TB到PB级别 Variety: 数据类型复杂，超过80%的数据是非结构化的 Velocity:数据量在持续增加(两位数的年增长率) 其他特征其他特征数据来自大量源,需要做

3、相关性分析需要实时或者准实时的流式采集,有些应用90%写vs.10%读数据需要长时间存储,非热点数据也会被随机访问大数据处理的需求和特点大数据VS传统数据并行关系数据库vs MPP/Hadoopl 多个独立的关系数据库服务器，访问共享的存储资源池l 优势采用多个关系数据库服务器，多个存储，与原有的架构相比，扩展了存储容量和计算能力l 劣势: 计算与存储分离，数据访问存在竞争和带宽瓶颈支持的关系数据库服务器数量有限只能向上扩展，不能横向扩展l 适合复杂的需要事务处理的应用l 由大量独立的服务器通过网络互连形成集群，每个服务器带存储。l 优势:计算与存储融合，支持横向扩展，更好的扩展性l

4、劣势:解决数据冲突时需要节点间协作l 适用范围: 数据仓库和离线数据分析(MPP, Hadoop/HBase) 大规模在线实时应用(单行事务处理能满足的场景)(HBase)MPP vs. Hadoop/Hive/HBaseHadoop生态圈Core：一套分布式文件系统以及支持Map-Reduce的计算框架Avro：定义了一种用于支持大数据应用的数据格式，并为这种格式提供了不同的编程语言的支持HDFS：Hadoop分布式文件系统Map/Reduce：是一个使用简易的软件框架，基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上，并以一种可靠容错的方式并行处理上T级别的数据集ZooK

5、eeper：是高可用的和可靠的分布式协同系统Pig：建立于 Hadoop Core之上为并行计算环境提供了一套数据工作流语言和执行框架Hive：是为提供简单的数据操作而设计的下一代分布式数据仓库。它提供了简单的类似SQL的语法的HiveQL语言进行数据查询HBase：建立于 Hadoop Core之上提供一个可扩展的数据库系统Flume：一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据Mahout：是一套具有可扩充能力的机器学习类库Sqoop：是Apache下用于RDBMS和HDFS互相导数据的工具Hadoop子项目 Hadoop概述 Hadoop介

6、绍 Hadoop原理 Hadoop编程提纲设计目标设计目标错误检测和快速自动恢复硬件故障是常态而非异常为流式数据访问优化针对支持大数据集单个文件大小有数GB或者TB 可提供高聚合带宽访问可能够扩展至数千个节点简化“一致性”模型一次写入、多次读，写入过程可能并发移动“计算”比移动“数据”更便宜主要特点主要特点使用低成本存储和服务器构建存放PB级别的海量数据高可扩展性,实际生产环境扩展至4000个节点高可靠性和容错性，数据自动复制，可自我修复高带宽，高并发访问，对于延迟不敏感面向批处理HDFS-分布式文件系统数据分布与复制数据分布与复制HDFS基本设计数据块：文件被划分为固定大小的数据

7、块进行存储数据块缺省为64M，远大于一般文件系统数据块大小减少元数据的量有利于顺序读写（在磁盘上顺序存放）可靠性：数据通过副本的方式保存在多个数据节点上默认3个副本副本选择会考虑机架信息以防止整个机架同时掉电系统设计优化：用单个管理节点来保存文件系统元数据和管理/协调HDFS基本设计数据缓存：DataNode没有数据缓存由于文件的访问是扫描式的，不具有局部性访问方式读、写、文件改名、删除等文件内容不允许覆盖更新提供一个特殊的访问接口：追加appendHDFS体系结构中心目录服务器 (NameNode) 管理大量数据服务器(DataNode) NameNode 管理元数

8、据 (文件目录树, 文件-块映射,块-数据服务器映射表, etc.) DataNode 负责存储数据、以及响应数据读写请求客户端与NameNode交互进行文件创建/删除/寻址等操作, 之后直接与DataNodes交互进行文件I/O什么是MapReduce编程模型？l Map(映射):对一些独立元素组成的列表的每一个元素进行指定的操作,可以高度并行。l Reduce(化简):对一个列表的元素进行合并。l 一个简单的MapReduce程序只需要指定map()、reduce()、输入和输出,剩下的事由框架帮你搞定。MapReduce计算框架为离线数据分析而设计,基本上是个利用数据并行性进行分布运算

9、而后汇总结果的计算框架分析问题能够被并行化,且输入数据集可以被切分一个Map函数,在第一阶段计算对一个Reduce函数,在第二阶段用于汇总Map函数的结果MapReduce举例代码举例MapReduce 应用场景视频分析和检索推荐引擎数据分析手段全文挖掘建立索引图形创建和分析模式识别协同过滤情感分析风险评估HBase分布式数据库HBase是一个按列存储的、多维表结构的实时分布数据库, 为高速在线数据服务而设计表: (行，列族，列名，版本名) 值主要特点主要特点 NoSQL 面向列、可压缩,有效降低磁盘I/O，提高利用率多维表，四个维度，其中三个维度可变，适合描述复

10、杂嵌套关系灵活的表结构，可动态改变和增加(包括行、列和时间戳)，为多列族设置不同复制因子支持单行的ACID事务处理分布式系统高性能，支持高速并发写入和高并发查询可扩展，数据自动切分和分布，可动态扩容,无需停机高可用性，建立在HDFS分布式文件系统之上HBase软件架构HBase组件交互一个管理服务器(HBase Master) 控制多个数据服务器(RegionServer)HMaster负责表的创建、删除和维护,以及region的分配和负载平衡Region Server负责管理维护region、以及响应读写请求客户端与HMaster进行有关表的元数据的操作, 之后直接读写Regio

11、n ServersHBase特性Hadoop Hbase：NoSql databse 基本的数据库操作CRUD 强一致性无SQL语言支持稀疏的多维映射表列存储只用rowkey来定位每行可以有不同列数据有多个版本非常高的读写数度，为写特别优化高效随机读取对于数据的某一个子集能够进行有效扫面HBase特性2 分布式的多层次映射表结构具有容错性，能够将数据持久化到非易失存储中使用HDFS做底层存储，可以用Hadoop的压缩codec减少空间占用自动水平扩展只需要新加入的节点即可提高存储容量和吞吐量服务器能够被动态加入或者删除（用以维护和升级）服务器自动调整负载均衡Hiv

12、e数据仓库 Hive是一个建立在hadoop/hbase之上的数据仓库,用于分析结构化海量数据采用HDFS或HBase进行数据存储采用Map/Reduce进行数据操作基本特点: 提供类似于SQL的查询语言针对海量数据的高性能查询和分析系统命令行接口，JDBC/ODBC 提供灵活的扩展性复杂数据类型,扩展函数和脚本等Hive应用范围举例日志分析：日志分析可以优化系统，获知用户行为，也可以获知数据的统计信息数据挖掘：通过结构化数据的挖掘，能够获得原先使用者没有意识的信息文档索引：可以对一系列文档进行分析，并形成文档的索引结构，不一定是完整的排序表，可能是关联信息的索引商业智能信

13、息处理：可以对商业信息进行查询分析，从中可以获得一些只能决策的信息及时查询以及数据验证：数据分析人员可能临时需要验证数据的特性，需要查询引擎迅速进行数据分析Hive QL 类SQL，和SQL有80%以上的相似度有大量扩展不支持DELETE，UPDATE 不支持TRANSACTION 目前不支持in操作，但支持join Inner join，outer join，left semi join（in的替代品） Join实现：普通join，Map join，Bucket Map joinHive分区和桶Partitions：数据表可以按照某一个字段的值划分Partitions 例如，通过日期的

14、方式将数据表进行划分；如果需要查询某天的数据，那么只需要读取相应的Partitions就可以了分区数量不固定每个分区是一个目录Buckets：数据存储的桶建表时指定桶个数，每个桶是一个文件，桶内可以排序数据按照某个字段的hash值后放入某个桶中对于数据的抽样、特定join的优化很有意义Hive分区举例以日志为例，按日期和国家分区：CREATE TABLE logs(timestamp BIGINT,line STRING) PARTITIONED BY (date STRING, country STRING)获取分区表：Hiveshow partitions log;date=20

15、13-02-26/country=China查询分区：SELECT timestamp, date, line FROM logs where country=China这时候，将只扫面country=China的分区的文件，而不用扫面其他的文件，提高查询效率hive支持动态分区Hive及时查询将hive Ql利用Hbase的coprocessor执行支持的语言特性：简单select Group by汇总 Order by及top N 字符串，数字，算术，逻辑运算符 Rowkey自动过滤机制（包括模糊查询）比MapReduce方式快310XZookeeper分布式协作服务一个高可用的分布式数

16、据管理与系统协调框架基于对Paxos算法的实现强一致性设计目标接口简单，允许多个分布的进程基于一个共享的，类似标准文件系统的树状名称空间进行协作高效可靠ZooKeeper提供的保证序列一致性: 数据更新会依照client发送的次序来进行。原子性: 更新要么成功,要么失败.不存在部分结果。唯一系统镜像: client总是会看到一致的视图，而不管它是连接到具体哪个zookeeper server。可靠性: 一旦更新完成, 它会持续保存直到有另外的client重写。及时: 客户端视图会在一定的时间间隔内进行更新。ZooKeeper典型应用场景数据发布与订阅（配置中心）负载均衡命名服务(N

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Hadoop原理介绍

文档简介

温馨提示

最新文档

评论

Hadoop原理介绍

文档简介

温馨提示

最新文档

评论

相关文档