大数据平台介绍_第1页
大数据平台介绍_第2页
大数据平台介绍_第3页
大数据平台介绍_第4页
大数据平台介绍_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据平台介绍,大数据2015年7月,二,目录,Hadoop大数据生态圈介绍,大数据应用介绍,三,Cloudera Manager介绍,Hadoop大数据生态圈,Hadoop介绍用户不知道分散基础的详细情况就可以开发分散程序。 利用集群的威力,实现高速运算和存储。 简单地说,Hadoop是能更简单地开发和执行大规模数据的软件平台。 Hadoop框架的最中心设计是HDFS和MapReduce。 HDFS向大量数据提供存储,而MapReduce向大量数据提供计算。 Hadoop能解决哪些问题,需要及时分析和处理大量数据。 大量的数据需要深入分析和挖掘。 需要长期存储数据的问题:磁盘IO成为瓶颈,而

2、不是CPU资源。 网络带宽是稀缺资源硬件故障影响稳定的重大因素,HDFS是适应于条件的并被设计用于存储流数据访问模式中的大规模文件的文件系统。 所谓流式传输数据的访问,根据已建立了数百MB、数百GB、数百TB、甚至数百PB的流式传输数据的访问的HDFS的思想,一次写入、多次读取模式是最有效的。 商业硬件hadoop不需要在昂贵、可靠的硬件上运行。 此外,不满足条件,低等待时间数据接入HDFS被优化以实现高数据吞吐量。 这是以时延为代价的,可以使用Hbase(hadoop子项目)来访问低时延。 大量小文档多用户写入、任意修改、HDFS基本单元、Block (块):HDFS基本存储单元、逻辑单元。

3、 一个文件中可以包含多个块,一个块中可以包含多个文件。 由文件的大小和块大小的参数决定。 dfs.block.size参数。 Hdfs中的Block的大小默认为64MB,设定越大,则Map的执行越慢,设定越小,则Map的数量越多,必须全部适当地设定。 (现在主流设备的推荐设定为128 m )设定Block 64m b,如果上传的文件小于该值,则仍然占用block的名称空间(NameNode metadata )。 不占用物理存储64mb的Block的大小和拷贝数在从客户端上传到HDFS时设定,其拷贝数可变更,Block不能上传而变更的HDFS处理机构,客户端:访问将文件分割的HDFS Name

4、Node :管理主节点、HDFS的名称空间和块映射信息、配置复制策略和处理客户端请求。 DataNode:Slave节点,存储实际数据,向NameNode报告存储的信息。 二次NameNode :二次NameNode定期整合分担工作量的fsimage和fsedits,在推至NameNode的紧急情况下,可以辅助NameNode的恢复,而二次NameNode则是NameNode HDFS文件读取、MapReduce概要、MapReduce概要是一种高性能的批处理分布式计算框架,用于大量数据的并行分析和处理。 MapReduce将分析任务分类为很多并行Map任务和Reduce任务。 与传统的数据仓

5、库和分析技术相比,MapReduce更适合处理结构化、半结构化、非结构化等各种类型的数据。 结构化、半结构化、非结构化数据结构化数据(即,行数据、存储在数据库中,可以用二维表结构逻辑表现的数据)难以用数据库的二维逻辑表表现的数据,即非结构化数据(所有形式的办公室文件、文本、图像、XML、HTML 在所谓的半结构化数据(包括视频信息等)完全结构化数据(例如,关系数据库、面向对象数据库等)与完全非结构化数据(例如,语音、图像文件等)之间,HTML文档是半结构化数据。 这一般是自我描述性的,数据结构和内容混合,没有明确的区别。MapReduce的介绍、处理合适的任务不能将“行”作为处理单位,追溯到处

6、理过的“行”,所以每行必须是独立的语义单位,行和行之间没有意义上的关联。 与传统的关系数据库管理系统相比,MapReduce计算模型更适合处理半结构化和非结构化数据。 不适合处理的任务不适合一般web应用程序不适合实时响应的任务不适合小数据集的处理不适合需要很多临时空间的任务的CPU密集,不适合具有很多交叉调用的任务作业跟踪器:初始化作业,分配作业,与TaskTracker通信,并协调整个作业。 tas kracker保持作业跟踪器通信并在分配的数据段上执行MapReduce任务。 任务的分配通过心跳机构进行TaskTracker和JobTracker之间的通信和任务的分配。 TaskTrac

7、ker积极询问JobTracker是否有作业,如果自己能做的话,可以申请作业任务,Map也有可能成为Reduce任务。 MapReduce的工作原理,任务的执行申请到达任务时,taskracker会本地启动代码本地复制任务的信息,在执行JVM执行任务的状态和任务更新任务的过程中,首先将自己的状态转换为taskracker 作业完成作业跟踪器在收到最后一个作业的执行完成之前,不会将作业标记为成功。 此时,会进行删除中间结果等的善后处理。MapReduce工作原理、Hadoop实例、按URL的顶级域名进行分类统计输入、输出格式:文件源的格式为统计目标:Hadoop实例、1.MapReduce函数、

8、客户端作业map函数、h reduce函数Job设置,编译Hadoop实例jar文件,打包3 .源文件提交到HDFS文件系统,文件从本地提交到HDFS文件系统put命令,提交到HDFS文件系统使用Hadoop命令提交作业提交作业的作业http:/localhost:50030,显示Hadoop实例执行结果显示根据执行结果生成的文件HDFS文件系统的结果本地复制HDFS文件并显示结果Hive是一种基于Hadoop的数据仓库工具,它提供了完整的sql查询功能,可以将结构化数据文件映射到数据库表,并将sql语句转换为MapReduce任务并执行该任务。 其优点是学习成本低,可以在类SQL语句中快速实

9、现简单的MapReduce统计,因此无需开发专用的MapReduce应用程序,非常适合于数据仓库的统计分析。 Hive是在Hadoop上构建的数据仓库基础结构。 提供数据提取和转换加载(ETL )的一系列工具,它是一种存储、查询和分析Hadoop中存储的大数据的机制。 Hive定义了一种称为HQL的简单类SQL查询语言,以便精通SQL的用户可以查询数据。 同时,该语言还可以熟悉MapReduce开发人员开发的定制映射器和reducer,处理内置映射器和reducer无法完成的复杂分析工作。 创建Hive实例和管理表1 .在Hive命令行上执行表语句2 .元数据数据库的表信息、字段信息sds、c

10、olumns_v2, 显示Hive实例3 .将数据从本地导入net_addr_1表4 .显示导入数据的Hive实例, 按URL的顶级域名分类统计-Hive是1 .将源数据放入表中而生成的net_addr_1 2 .使用源数据加工转换,生成中间表insertoverwritetablenet _ addr _3select net _ id 3 .基于中间表数据进行统计,Hbase概述,Hbase是结构化数据的可扩展、可靠、性能高、面向分布式和列的动态模型数据库。与传统的关系数据库不同,homebase采用了BigTable的数据模型。 在增强的稀疏排序映射表(Key/Value )中,关键帧由

11、行键、列键和时间戳组成。 HBase提供对大型数据的随机实时读写访问,同时存储在HBase中的数据可以使用MapReduce进行处理,从而将数据存储与并行计算完美地结合在一起。 利用HBase技术,在廉价的PC服务器上配置大型结构化存储集群、HBase体系结构、HBase实例、1、HBase表h base _ testhbasecreatehbase _ test、id01 2、 可以构建hive外观hive_test的homebase_test表createexternaltablehive _ test (id 01 string ) 的storedbyorg.Apache.Hadoop.

12、hive.hh base.hbasestoragehandlerwithserdeproperties (Hg base.columns.mapping=: key, id01 ) TBL属性(Hg =Hg base _ test )3.数据通过hive_test导入到hbase_test表中,insertoverwritetablehive 、Hbase实例、大数据应用介绍、用户网络行为分析系统、用户行为分析系统的数据处理流程图、唯品会日志处理框架介绍、唯品会日志处理框架介绍、全国重点车辆网络连接平台、cloud Cloudera Manager介绍,CDH (

13、Clouderas distribution ) including Apache Hadoop )是Hadoop的许多分支之一,由cloud era维护,稳定版本的Apache Hadoop Cloudera Manager是一种便于在集群中安装和监视管理与数据处理相关的服务(如Hadoop )的组件,可以配置集群中的主机、Hadoop、Hive、Hbase、Spark等服务的安装配置Cloudera Manager具有四种功能(1)管理(2)监视(3)诊断(4)集成,根据Cloudera Manager,ClouderaFlume是cloudera提供的日志收集系统。 flume支持自定义

14、日志系统中的数据源来收集数据,flume是Cloudera提供的高可用性、可靠、分布式、大量的日志收集、聚合和传输系统。 Flume支持定制日志系统中的数据发件人以收集数据,而Flume则提供了轻松处理数据并向各种数据收件人(可定制)写入的能力。 根据Cloudera Manager的数据,Cloudera Impala Cloudera Impala提供了一种SQL,用于直接查询存储在Apache Hadoop中的HDFS和HBase数据并进行交互。 除了使用与Hive相同的统一存储平台外,Impala也使用相同的元数据、SQL语法(Hive SQL )、ODBC驱动程序和用户界面(Hue

15、Beeswax )。 Impala还提供了常见的批量或实时查询和集成平台。 Impala使用的分布式查询引擎与由Query Planner、Query Coordinator和Query Exec Engine三部分组成的业务并行关系数据库相似,而不是使用低速的Hive MapReduce批处理根据Cloudera Manager的数据,cloud era hue是cdh专用的web管理器,包括hue ui、hue服务器和hue db三部分。 hue提供了所有cdh组件的壳接口的接口。 可以用hue写mr、修改hdfs文件、管理hive元数据、执行Sqoop、写Oozie工作流等大量的工作。

16、根据Cloudera Manager,Spark Spark与Hadoop一样,正在使用它来构建大型、低延迟的数据分析应用程序。 Spark用Scala语言实现,把Scala作为应用框架使用。 Spark使用基于内存的分布式数据集来优化重复工作负载和交互查询。 与Hadoop不同,Spark和Scala紧密集成,Scala管理分布式数据集以管理本地collective对象。Spark支持分布式数据集上的重复任务,实际上,Spark可以在Hadoop文件系统上执行基于map reduce算法实现的分布式计算。 与Hadoop MapReduce具有的优点的MapReduce不同的是,可以将作业中间输出和结果

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论