已阅读5页,还剩7页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Hadoop以及在大数据应用,马健馨北京语言大学,大纲,Hadoop简介,Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰富,包括ZooKeeper,Pig,Chukwa,Hive,Hbase,Mahout,flume等.,Hadoop处理流程,编程接口-streaming,管道传输数据任何可以操作标准输入输出的语言都可以写streaming并行处理程序。,hive数据仓库,Hive是为提供简单的数据操作而设计的下一代分布式数据仓库。它提供了简单的类似SQL的语法的HiveQL语言进行数据查询。同时,HiveQL语言能力不足时,它也能允许使用Map/reduce并行计算模型进行复杂数据分析。HIVE可以将存储在Hadoop中的数据文件映射为一张数据库表,并提供了一套查询语言HQL。HQL以SQL为基础,自动转换为MapReduce任务进行运行,使用起来非常方便。,Hive架构,Hive特点以及典型应用,1.特点不能保证处理的低迟延(lowlatency)问题。批处理大规模数据2.典型应用ETL处理OLAP系统BI系统日志分析,Hive日志分析架构,Hive支持的数据类型以及操作,数据类型:简单类型:INT,STRING,boolean复杂类型:Struct、Map和Array操作:SELECTDISTINCT,JOINS,WHERE,GROUPBY,Hive程序开发,Java:hive-JDBCClientC/C+:ODBCclientPython,ThriftHivephp,流程,Hive序列化反序列化,HIVE里面的数据及其结构以类的形式储存,并提供了串行器和反串行器来实现HIVE内部的类和普通编程语言的类之间的转换。有了串行器和反串行器,我们就能在HIVE中对输入文
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 咖啡师理论考试题目题型大全
- 国考行测真题与答案解析
- 四史应知应会竞赛试题库及答案
- 主管中药师试题及答案
- 2018年天津市公务员考试申论真题及答案(联考)
- 人工智能复习试题和参考答案及解析
- 2025年国考申论副省级历年真题汇编全套资料
- 公路水运三类人员考试题型分值
- 2025年山西省大同市保安员证考试题库及答案统编版
- 国企计算机考试试题
- 滚动轴承装拆课件
- 2025年MRO工业品行业研究报告及未来行业发展趋势预测
- 斗罗大陆课件
- 光伏发电土建项目监理实施细则
- 滑雪安全救护知识培训课件
- 高中数学创新教学案例及课程设计
- 野生动物讲解课件
- XX医疗集团医院体系介绍
- 2025年内蒙古自治区综合评标评审专家库专家考试历年参考题库含答案详解(5套)
- 故障录波识图基础及典型故障分析
- 胶水储存管理办法
评论
0/150
提交评论