Hive基础PPT课件

上传人：6*** IP属地：广东上传时间：2021-02-03 格式：PPTX 页数：20 大小：1.21MB 积分：20 举报 版权申诉

已阅读5页，还剩15页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、Hive基础,1,2,Hive结构,Hive基础操作,目录,3,Hive的MAP/RED,3,4,山东现场实际应用,Hive结构图,数据存储,Hive数据以文件形式存储在HDFS的指定目录下 Hive语句生成查询计划，由MapReduce调用执行,用户接口,解析器：生成抽象语法树语法分析器：验证查询语句逻辑计划生成器（包括优化器）：生成操作符树查询计划生成器：转换为map-reduce任务,CLI：启动的时候，会同时启动一个 Hive 副本 Client：Hive 的客户端，用户连接至 Hive Server WUI：通过浏览器访问 Hive,语句转换,Hive元数据,元数据存储在关系

2、数据库如 mysql，derby ，oracle中解析用户提交hive语句，对其进行解析，分解为表、字段、分区等hive对象根据解析到的信息构建对应的表、字段、分区等对象，从SEQUENCE_TABLE中获取构建对象的最新ID，与构建对象信息(名称，类型等)一同写入到元数据表中去，成功后将SEQUENCE_TABLE中对应的最新ID+5,Hive 和普通关系数据库的异同,数据存储,数据格式,数据更新,执行延迟,Hive 是建立在 Hadoop 之上的，所有 Hive 的数据都是存储在 HDFS 中的。数据库则可以将数据保存在块设备或者本地文件系统中,Hive 中没有定义专门的数据格式，由

3、用户指定，需要指定三个属性：列分隔符，行分隔符，以及读取文件数据的方法数据库中，存储引擎定义了自己的数据格式。所有数据都会按照一定的组织存储,Hive 在查询数据的时候，需要扫描整个表(或分区)，因此延迟较高，因此hive只有在处理大数据时才有优势数据库在处理小数据时执行延迟较低,Hive VS RDBMS,Hive 的内容是读多写少的因此，不支持对数据的改写和删除，数据都是在加载的时候中确定好的数据库中的数据通常是需要经常进行修改,1,2,Hive结构,Hive基础操作,目录,3,Hive的MAP/RED,3,4,山东现场实际应用,Hive客户端,usage: hive -d,-def

4、ine -e -f -h -hiveconf -hivevar -i -S,-silent -v,-verbose,Load语法：LOAD DATA LOCAL INPATH filepath OVERWRITE INTO TABLE tablename PARTITION (partcol1=val1, partcol2=val2 .) Load 操作只是单纯的复制/移动操作，将数据文件移动到 Hive 表对应的位置。 Filepath可以是本地路径，也可以是HDFS的路径加载的目标可以是一个表或者分区（静态分区）。如果表包含分区，必须指定每一个分区的分区名在load时hive会检查加载

5、的数据文件与建表时指定的file_type是否匹配 Insert语法：INSERT INTO/OVERWRITE TABLE tablename1 PARTITION (partcol1=val1, partcol2=val2 .) select_statement1 FROM from_statement; INSERT OVERWRITE LOCAL DIRECTORY directory1 SELECT . FROM . Inser语句可以把select语句查询出来的记录插入到目标表中，也可以把查出的记录以文件的形式导出到本地,1,2,Hive结构,Hive基础操作,目录,3,Hive的

6、MAP/RED,3,4,山东现场实际应用,JOIN,Map：以 ON 条件中的列作为 Key，如果有多个列，则 Key 是这些列的组合以 JOIN 之后所关心的列作为 Value，当有多个列时，Value 是这些列的组合。按照 Key 进行排序。 Shuffle：根据 Key 的值进行 Hash，并将 Key/Value 对按照 Hash 值推至不同对的Reduce 中。 Reduce： Reducer 根据 Key 值进行 Join 操作,语句：SELECT a.pageid, b.age FROM page_view a JOIN user b ON (a.userid = b.u

7、serid,GROUP BY,语句：SELECT pageid, age, count(1) FROM pv_users GROUP BY pageid, age,数据量大不是问题，数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低。 count(distinct ) 效率较低,计算框架,优化手段,Join优化,不要求全局有序时使用Distribute By + Sort By来排序如果全局有序是为了得到排名靠前的结果，刚使用limit子句来减少数据量,解决数据倾斜问题。减少job数。设置合理的map reduce的task数对小文件进行合并,使用MAPJOIN()会将较小的

8、表加载到内存中，使连结过程在Map阶段完成,Hive优化,排序优化,1,2,Hive结构,Hive基础操作,目录,3,Hive的MAP/RED,3,4,山东现场实际应用,节点HQL,OCDC平台HQL执行步骤,后台调度 2,hiveServer服务 2,Map/reduce,从OCDC平台的执行监控中，可以找到HQL对应的jobid，通过jobid可以在jobtracker的监控页面(8:50030/jobtracker.jsp)找到对应的job,Job执行信息查看,在jobtracker的监控页面(8:50030/jobtracker.jsp)点击job，即可进入此job对应的执行页面监控，如下,Job执行日志查看,其对应的日志在后台的位置为,点击map,点击task,点击日志,注：点击日志后的页面地址需要将hostname更新为对应的IP地址,查找执行日志步骤,ocdcOCDC-DATA-003 attempt_201403

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Hive基础PPT课件

文档简介

温馨提示

最新文档

评论

Hive基础PPT课件

文档简介

温馨提示

最新文档

评论

相关文档