已阅读5页,还剩7页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Hadoop以及在大数据应用,马健馨 北京语言大学,大纲,Hadoop简介,Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰富,包括ZooKeeper,Pig,Chukwa,Hive,Hbase,Mahout,flume等.,Hadoop处理流程,编程接口-streaming,管道传输数据 任何可以操作标准输入输出的语言都可以写streaming并行处理程序。,hive数据仓库,Hive是为提供简单的数据操作而设计的下一代分布式数据仓库。它提供了简单的类似SQL的语法的HiveQL语言进行数据查询。同时,HiveQL语言能力不足时,它也能允许使用Map/reduce并行计算模型进行复杂数据分析。 HIVE可以将存储在Hadoop中的数据文件映射为一张数据库表,并提供了一套查询语言HQL。HQL以SQL为基础,自动转换为MapReduce任务进行运行,使用起来非常方便。,Hive架构,Hive特点以及典型应用,1.特点 不能保证处理的低迟延(low latency)问题。 批处理大规模数据 2. 典型应用 ETL处理 OLAP系统 BI系统 日志分析,Hive日志分析架构,Hive支持的数据类型以及操作,数据类型: 简单类型:INT, STRING, boolean 复杂类型:Struct、Map和Array 操作: SELECT DISTINCT, JOINS, WHERE, GROUP BY,Hive程序开发,Java:hive-JDBC Client C/C+:ODBC client Python, ThriftHive php, 流程,Hive序列化反序列化,HIVE里面的数据及其结构以类的形式储存,并提供了串行器和反串行器来实现HIVE内部的类和普通编程语言的类之间的转换。 有了串行器和反串行器,我们就能在HIVE中对输
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2023年邢台辅警招聘考试真题附答案详解(轻巧夺冠)
- 2024年威海辅警协警招聘考试真题有完整答案详解
- 2024年安庆辅警招聘考试真题含答案详解(精练)
- 2023年鹤岗辅警招聘考试真题及一套答案详解
- 2024年佳木斯辅警招聘考试题库及完整答案详解
- 2023年黔南布依族苗族自治州辅警招聘考试题库及答案详解(考点梳理)
- 2023年萍乡辅警招聘考试真题含答案详解(综合卷)
- 2024年咸阳辅警协警招聘考试真题及答案详解(各地真题)
- 2024年三亚辅警招聘考试题库含答案详解(黄金题型)
- 2023年许昌辅警协警招聘考试真题含答案详解(基础题)
- 餐厅供货合作合同范本
- 2025年退役军人事务厅直属事业单位招聘综合知识测评题库及答案
- 2025年护士考编高频考题必刷题库(100题)含答案
- 2025辽宁沈阳市铁西区面向社会招聘社区工作者73人笔试考试参考题库及答案解析
- 2025年度秋季安徽合肥热电集团招聘38人笔试历年参考题库附带答案详解
- 2025年全国高校辅导员素质能力大赛基础知识测试题及答案
- 华为ICT大赛中国区(实践赛)-云赛道往年考试真题(附答案)
- 小猪跳泥坑课件
- 2025-2030中国精酿啤酒市场消费特征与渠道拓展战略研究报告
- 【新教材】统编版(2024)七年级上册历史全册教案
- 全国大学生职业规划大赛《应用化学》专业生涯发展展示
评论
0/150
提交评论