Hive简易操作入门.docx_第1页
Hive简易操作入门.docx_第2页
Hive简易操作入门.docx_第3页
Hive简易操作入门.docx_第4页
Hive简易操作入门.docx_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 Hive使用入门:主要流程为:1. 运行putty等ssh客户端连接hive服务器;2. 运行hive命令进入hive shell环境;3. 执行HQL语句进行查询;本流程中以putty为例,如果使用别的SSH客户端,界面上会不同,基本过程相似。我们当前使用的hive版本为 0.9.0。由于hive本身还在不断开发、升级中,不同版本的hive对各种语句、命令行参数等的支持均不同,请大家注意某个特性从哪一个版本开始支持。Hive官方网站上的教材中有些命令需要到0.10.0等更高版本才支持!1.1 安装ssh 客户端 Putty软件位置:cn1ctrip商业智能部部门公用SoftWareputty.zip解压所可以得到文件Puttyssh客户端1.2 登录安装hive的机器1.2.1 运行putty输入 ip地址 6 和 端口号信息 1022 ,如下图:注: 一般默认的SSH端口是22,此处必须修改!1.2.2 登录linux单击open按钮,按提示输入用户名,并回车,然后按提示输入密码,并回车,例如:用户名为ppj密码为HgeeGxR5提示:可选中复制到剪贴板后,用鼠标右键粘贴如果用户名、密码正确,则登录成功,顺利进入linux 的bash环境。注:此环境类似于运行windows的cmd进入的dos环境。1.2.3 输入hive,进入hive 的shell 环境: 1.2.4 查询执行如下查询语句:Use test_wqd;Select * from pageview limit 5;屏幕输出即为查询语句的结果。注意: hive的查询语句以分号作为各条命令的分隔符,结尾的分号不能省略。这一点和SQL Server的T-SQL差异比较大!2 Hive简介:Hive shell环境和mysql的客户端比较相似,而且hive的某些语法与mysql比较相似,例如: show databases, show tables, desc 等。Hive支持两种模式:交互模式和批模式。2.1 Hive命令行参数-e 执行所指定查询字符串,并退出,与mysql的-e类似。-f 执行指定的文件中内容并退出。-H,-help 显示帮助-S,-silent安静模式,不输出hive提示符等2.2 Hive交互模式下面简单介绍一下hive交互模式下可以运行的常用命令:quit退出hive交互式shellexit与quit相同source读入hQL文件并执行查询,与mysql的source命令相似。Set打印所有配置变量信息Set=设置特定配置变量key的值为value。注:如果拼写错误,将不会报错。Set v打印hadoop和hive相关配置变量信息!执行外部的shell命令,例如: !date; 显示当前系统时间2.3 批处理模式-e或者-f参数例1:hive -e use ubt; select * from s_ubt_pageview where d=2013-04-01 limit 100;例2:假设query.sql文件的内容:use ubt;select * from s_ubt_pageview where d=2013-04-01;则hive f query.sql2.4 配置文件此部分为高级功能。在账户的home目录下有个.hiverc文件,可以配置hive的一些参数,例如:set hive.cli.print.current.db=true;#在命令行中显示当前数据库名set ermediate=true;#压缩hive的中间结果set pression.codec=press.BZip2Codec; #对map输出端内容使用BZip2 编码/解码器set press.output=true; #压缩hive输出set pression.codec=press.BZip2Codec; #对hive中的MR输出内容使用BZip2 编码/解码器set mapred.reduce.tasks=7;#设置mapreduce中reduce数目为72.5 将查询结果导出为文件2.5.1 方法1:INSERT采用 INSERT OVERWRITE LOCAL DIRECTORY 方法。例如:在hive shell中执行查询语句:use ubt;INSERT OVERWRITE LOCAL DIRECTORY /home/ppj/pageviewselect * from s_ubt_pageview where d=2013-04-01 limit 100;则会在/home/ppj目录下自动创建pageview子目录,浏览目录,发现有如下文件:ls -al pageview/其中:主要的内容在000000_0中。而.00000_0.crc为linux下的隐藏文件,只保存对应文件000000_0的CRC校验和,可忽略之。000000_0文件的格式为【与hive建表语句中指定的行、列、复杂类型的分隔符有关】。默认如下:n文本文件中记录与记录之间的分隔符For text files, each line is a record, so the line feed character separates records.ACtrl+A,也就是001,列和列之间的分隔符Separates all fields (columns). Written using the octal code 001 when explicitly specified in CREATE TABLE statements.BSeparate the elements in an ARRAY or STRUCT, or the key-value pairs in a MAP. Written using the octal code 002 when explicitly specified in CREATE TABLE statements.CSeparate the key from the corresponding value in MAP key-value pairs. Written using the octal code 003 when explicitly specified in CREATE TABLE statements.2.5.2 方法2:查询结果重定向Linux支持标准输出和标准错误的重定向,可以把原先输出到标准输出流的内容重定向到文件。默认情况下,hive的查询结果输出内容以t作为分隔符。以上述query.sql为例:hive -f query.sql query.tsv查看query.tsv的内容,发现头部为:注意:头部多了一行,即标题行。如果某列中本身有t,需要在查询语句中特殊处理。3 使用SFTP工具下载文件如果文件比较大,则建议在linux下用gzip命令先进行压缩,再下载,输入如下命令即可压缩:gzip 000000_0则压缩后的文件为000000_0.gz推荐使用winscp通过sftp协议下载文件。3.1 安装WinSCP软件安装包的目录在 cn1ctrip商业智能部部门公用SoftWarewinscp514setup.zip解压缩出来就是WinSCP的安装程序3.2 下载文件3.2.1 新建连接单击“

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论