大数据技术原理与应用PPT幻灯片课件_第1页
大数据技术原理与应用PPT幻灯片课件_第2页
大数据技术原理与应用PPT幻灯片课件_第3页
大数据技术原理与应用PPT幻灯片课件_第4页
大数据技术原理与应用PPT幻灯片课件_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Chap02分散处理软件体系结构Hadoop,概要,2.1概要2.2Hadoop项目结构2.3Hadoop的导入和使用,2.2Hadoop项目结构,Hadoop项目结构发展得很丰富,已经是丰富的Hadoop生态系统, 2.2构成Hadoop项目结构的HDFS是什么,分布式文件系统冗馀存储是针对大型文件存储设计的批量插入设计提供了基于业务设备的可靠数据存储容许节点故障的一部分,5.HDFS、 refer ce :3358 Hadoop.A/docs/r1.0.4/HDFS _ design.html,6.HDFS系统架构图,7.HDFS相关术语,8.HDFS核心功能,9.读取文件的流程,1.HDFS 对远程Namenode发起RPC请求的2.Namenode根据需要返回部分或全部文件块列表,对于每个块,Namenode返回包含该块副本的datanode地址3-4, hdf客户端选择最接近客户端的datanode来读取块5 .读取列表中的块后,如果尚未完成文件读取,客户端开发库将继续向Namenode获取以下块列表6 .导入当前block数据后,关闭与当前datanode的连接并查找最适合导入下一个block的datanode注意事项:导入块时checksum将被验证,如果导入datanode时出错,则客户端在、10、写文件流、11、hdf客户端或远程命令节点上发起RPC请求的Namenode将检查要创建的文件是否已经存在,作者是否具有操作权限,如果成功,则创建文件记录否则,客户端会引发异常。客户端开始写入文件时,开发库会将文件分割为多个packets,在内部以“数据队列”的形式管理这些packets,并向Namenode申请新的blocks 列表大小取决于Namenode中的复制设置。 packet开始作为管线写入所有replicas。 开发库将packet以流的形式写入最初的datanode,datanode在存储packet后,传递给该管线的下一个datanode,将数据写入最后的datanode,这种方式形成了管线的形式。 如果成功存储最后一个datanode,则返回ackpacket,在管线中传递给客户端,在客户端开发库中保留“ackqueue”,如果成功从datanode接收到ackpacket,则从“ackqueue”返回相应的pack queue 在传输过程中,如果某个datanode出现故障,则当前管线关闭,出现故障的datanode从当前管线中删除,其馀块继续作为管线从其馀datanode中传输,Namenode是新的datanode对于不擅长、12、HDFS的多数据中心,低延迟数据访问需求(10ms )较多的小文件中的多个数据写入者、13、HadoopMapReduce、14、HadoopMapReduce是什么? HadoopMapReduce、15、MapReduce并行处理的基本过程、citefromdeanandghemawat (oso di 2004 )、 1 .具有大量数据要处理的相同大小的数据块(例如,64MB )及其相应的用户工作程序,2 .在系统中有负责调度的主节点(主节点)、数据映射和返回工作节点(工作器)、16、映射citefromdeanandghemawat (oso di 2004 ), 3 .将用户工作程序提交到主节点,4 .主节点查找和部署可用于工作程序的Map节点,将程序传递到Map节点,5 .主节点也查找和部署可用于工作程序的Reduce节点,将程序部署到Reduce节点,17, citefromdeanandghemawat (oso di 2004 ), 6 .主节点可以激活每个Map节点以执行程序并且计算每个Map节点尽可能读取本地或本机架中的数据;7 .每个Map节点处理所读取的块在完成主节点计算任务、中间结果数据存储位置、18、MapReduce并行处理的基本过程、citefromdeanandghemawat (oso di 2004 )、8 .主节点等所有Map节点计算完成后, Reduce节点开始运行并且从主节点所把握的中间结果数据的位置信息远程地读取这些数据,将9.Reduce节点的计算结果汇总输出至一个结果文件,则可获得整个处理结果19, MapReduce并行处理的基本过程,citefromdeanandghemawat (oso di 2004 ),完全计算过程,20, 生成MR简单示例(WordCount )、21、HadoopYARN、22、hadoop1.0vshadoop2.0、23、背景, 数据共享困难Mr :离线计算框架Storm :实时计算框架Spark :存储器计算框架,24, Hadoop1.0MR调度、25、MapReduce1.0缺点、JobTracker是Map-reduce的集中处理点,存在单点故障。 作业跟踪器完成许多任务,消耗大量资源,并且如果map-reduce作业非常多,则会发生大的内存溢出。 在TaskTracker方面,将map/reducetask的数据作为资源的表现过于简单,不考虑cpu/存储器的占有。 MapReduce框架在存在重要或不重要的更改(错误修复、性能改进、特征化等)时强制执行系统级升级更新。 强制同时更新分布式群集系统中的每个客户端。、26、hadoopyarmrscheduling、27、yarnvsmr1.0Mr1. 0作业跟踪器资源管理任务调度、监视YarnResourceManager调度、每个作业所属的应用程序主机另外,applicationmasterrapplicationmaster的监视负责作业生命周期内的所有工作,旧框架的作业跟踪器,28, 由HadoopYARN模块配置的资源管理器处理客户机请求的启动/监视ApplicationMaster监视NodeManager资源分配和调度NodeManager的单节点资源管理处理来自资源管理器的命令处理来自ApplicationMaster的命令分成应用程序申请资源,内部任务监视和弹性,29,HadoopYARN执行过程,30,HBASE,31,需求,Google结构化数据存储需求,成本低且可扩展的亿位数据表(卷)列数众多并非所有列都有数据,而且频繁访问的列很少(稀疏)高吞吐量和高并发(高速) HBase原型-GoogleBigtable,32、传统RDBMS、并行Cache的高访问复杂且难以解决、33、mapre Map/ReduceMapReduce程序能满足高并发性要求吗? 全文件扫描的效率好吗? 34、答案是,由于RDBMS和MapReduce不能满足对大容量结构化数据存储的需求很大的列,因此不是所有列都有数据,而是只能经常访问很少的列(稀疏),可以以低成本扩展为十亿单位的数据表(大容量) 方案: BigtableHBase、35、什么是HBase是面向列(稀疏)的基于HDFS (大容量),高性能(高速)分布式数据库系统使用HadoopHDFS作为文件存储系统,具有可靠性、高性能、列存储、存储利用HadoopMapReduce处理HBase大量数据的Zookeeper作为协作服务。 36、Hbase的特征、水平扩展、面向列的范围检索、可靠性、高性能随机读取/写入、Hadoop与无缝集成、37、HbasevsRDBMS、38、水平扩展、数据量过大,读写性能降低了吗? 传统方案:数据库表(迁移数据,中间层) HBase :只要添加机器,性能就会稳定。 HDFS、Hbase存储结构、39、水平扩展,如何实现? storeFile越多,HBase就会自动变成compact。rows越多,HBase就会自动剥离region。home base会定期平衡RegionServer的region数主机将负责的Region重新分配给其他RegionServer。当RegionServer联机时,当主机运行平衡时,一些Region将迁移到新的RegionServer。 40、向列动态添加架构吗? 传统方案:可以动态添加和删除停机维护HBase:No否,ColumnQualifier。 41、对着队伍,你是怎么做到的? 以ColumnFamily为存储单元的K/V方式进行存储。 42、高性能随机读取/写入,如何实现? 随机读取K/V存储器Cache; Split; 平衡。 随机写(相对) Cache WAL; Compact; Split; 馀额;43、数据的可靠性、通过HDFS保证数据的可靠性的HLogFile; 恢复机制。44、Hadoop的其他组件、45、Zookeeper、Zookeeper是一个在Apache软件基金会下为大型分布式计算提供开源分布式配置服务、同步服务和命名注册的项目。 曾经是Hadoop项目的一部分,但是独立了。 项目地址: /,46,Pig和Pig是基于Hadoop的大型数据分析平台,SQL-LIKE语言称为PigLatin,该语言的编译器优化了类SQL的数据分析请求Pig为复杂的大容量数据的并行计算提供了简单的操作和编程界面。Pig大大简化了Hadoop的使用: http:/P/,47,Pig Pig可以加载数据、转换数据或保存最终结果pig语句。使用LOAD语句从文件系统读取数据,使用一系列“转换”语句处理数据,使用STORE语句将处理结果输出到文件系统,或者使用DUMP语句将处理结果输出到画面。 Pig是企业数据分析系统中的角色,Hive Hive是基于Hadoop的数据仓库工具,提供了将结构化数据文件映射到数据库表并将sql语句转换为MapReduce任务来执行的简单sql查询功能。 其优点在于学习成本低,能够在类SQL语句中快速实现简单的MapReduce统计信息,无需开发专用的MapReduce应用程序,非常适合数据仓库统计分析。 Hive项目地址:,49,QQoop,QQoop是用于在Hadoop和关系数据库之间传输数据的工具,它们是关系数据库(例如MySQL、Oracle、Postgres等) 某些NoSQL数据库也有连接器。 与其他ETL工具一样,Sqoop使用元数据模型确定数据类型,并在将数据从数据源传输到Hadoop时确保类型的安全数据处理。 Sqoop专为大容量数据传输而设计,能够分割数据集合,制作Hadoop任务

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论