Hive基础ppt课件_第1页
Hive基础ppt课件_第2页
Hive基础ppt课件_第3页
Hive基础ppt课件_第4页
Hive基础ppt课件_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Hive基础,1,2,Hive结构,Hive基础操作,目录,3,Hive的MAP/RED,3,4,山东现场实际应用,Hive结构图,数据存储,Hive数据以文件形式存储在HDFS的指定目录下Hive语句生成查询计划,由MapReduce调用执行,用户接口,解析器:生成抽象语法树语法分析器:验证查询语句逻辑计划生成器(包括优化器):生成操作符树查询计划生成器:转换为map-reduce任务,CLI:启动的时候,会同时启动一个Hive副本Client:Hive的客户端,用户连接至HiveServerWUI:通过浏览器访问Hive,语句转换,Hive元数据,元数据存储在关系数据库如mysql,derby,oracle中解析用户提交hive语句,对其进行解析,分解为表、字段、分区等hive对象根据解析到的信息构建对应的表、字段、分区等对象,从SEQUENCE_TABLE中获取构建对象的最新ID,与构建对象信息(名称,类型等)一同写入到元数据表中去,成功后将SEQUENCE_TABLE中对应的最新ID+5。,Hive和普通关系数据库的异同,数据存储,数据格式,数据更新,执行延迟,Hive是建立在Hadoop之上的,所有Hive的数据都是存储在HDFS中的。数据库则可以将数据保存在块设备或者本地文件系统中,Hive中没有定义专门的数据格式,由用户指定,需要指定三个属性:列分隔符,行分隔符,以及读取文件数据的方法数据库中,存储引擎定义了自己的数据格式。所有数据都会按照一定的组织存储,Hive在查询数据的时候,需要扫描整个表(或分区),因此延迟较高,因此hive只有在处理大数据时才有优势数据库在处理小数据时执行延迟较低,HiveVSRDBMS,Hive的内容是读多写少的因此,不支持对数据的改写和删除,数据都是在加载的时候中确定好的数据库中的数据通常是需要经常进行修改,1,2,Hive结构,Hive基础操作,目录,3,Hive的MAP/RED,3,4,山东现场实际应用,Hive客户端,usage:hive-d,-define-e-f-h-hiveconf-hivevar-i-S,-silent-v,-verbose,Load语法:LOADDATALOCALINPATHfilepathOVERWRITEINTOTABLEtablenamePARTITION(partcol1=val1,partcol2=val2.)Load操作只是单纯的复制/移动操作,将数据文件移动到Hive表对应的位置。Filepath可以是本地路径,也可以是HDFS的路径加载的目标可以是一个表或者分区(静态分区)。如果表包含分区,必须指定每一个分区的分区名在load时hive会检查加载的数据文件与建表时指定的file_type是否匹配Insert语法:INSERTINTO/OVERWRITETABLEtablename1PARTITION(partcol1=val1,partcol2=val2.)select_statement1FROMfrom_statement;INSERTOVERWRITELOCALDIRECTORYdirectory1SELECT.FROM.Inser语句可以把select语句查询出来的记录插入到目标表中,也可以把查出的记录以文件的形式导出到本地,1,2,Hive结构,Hive基础操作,目录,3,Hive的MAP/RED,3,4,山东现场实际应用,JOIN,Map:以ON条件中的列作为Key,如果有多个列,则Key是这些列的组合以JOIN之后所关心的列作为Value,当有多个列时,Value是这些列的组合。按照Key进行排序。Shuffle:根据Key的值进行Hash,并将Key/Value对按照Hash值推至不同对的Reduce中。Reduce:Reducer根据Key值进行Join操作,语句:SELECTa.pageid,b.ageFROMpage_viewaJOINuserbON(a.userid=b.userid);,GROUPBY,语句:SELECTpageid,age,count(1)FROMpv_usersGROUPBYpageid,age;,数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低。count(distinct)效率较低,计算框架,优化手段,Join优化,不要求全局有序时使用DistributeBy+SortBy来排序如果全局有序是为了得到排名靠前的结果,刚使用limit子句来减少数据量。,解决数据倾斜问题。减少job数。设置合理的mapreduce的task数对小文件进行合并,使用MAPJOIN()会将较小的表加载到内存中,使连结过程在Map阶段完成,Hive优化,排序优化,1,2,Hive结构,Hive基础操作,目录,3,Hive的MAP/RED,3,4,山东现场实际应用,节点HQL,OCDC平台HQL执行步骤,后台调度2,hiveServer服务2,Map/reduce,从OCDC平台的执行监控中,可以找到HQL对应的jobid,通过jobid可以在jobtracker的监控页面(8:50030/jobtracker.jsp)找到对应的job,Job执行信息查看,在jobtracker的监控页面(8:50030/jobtracker.jsp)点击job,即可进入此job对应的执行页面监控,如下:,Job执行日志查看,其对应的日志在后台的位置为:,点击map,点击task,点击日志,注:点击日志后的页面地址需要将hostname更新为对应的IP地址,查找执行日志步骤:,ocdcOCDC-DATA-003attempt_

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论