hive常常用命令.doc_第1页
hive常常用命令.doc_第2页
hive常常用命令.doc_第3页
hive常常用命令.doc_第4页
hive常常用命令.doc_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据学习总结 公司对大数据方面也做了不少的培训,自己也学习了一些,在实际应用中也有所体会。针对大数据和关系型数据库有几点感触比较深刻:1.数据存储位置不同。Hive 是建立在 Hadoop 之上的,所有 Hive 的数据都是存储在 HDFS 中的。而数据库则可以将数据保存在块设备或者本地文件系统中。2.数据更新。由于 Hive 是针对数据仓库应用设计的,而数据仓库的内容是读多写少的。因此,Hive 中不支持对数据的改写和添加,所有的数据都是在加载的时候中确定好的。而数据库中的数据通常是需要经常进行修改的,因此可以使用 INSERT INTO . VALUES 添加数据,使用 UPDATE . SET修改数据.这也是在汇总数据比较痛苦的地方。(_ desc formatted t_cdr_wn1609;OK# col_name data_type comment system_type string record_type string msisdn string real_number string start_datetime string end_datetime string call_duration int session_id string nas_ip string nas_port string nas_type string ip_address string status string service_attr string data_flowup int data_flowdn int home_area_code string vlanid string roam_type string billing_type string user_type string fee1 int fee2 int fee3 int old_fee1 int old_fee2 int old_fee3 int info_fee1 string info_fee2 string info_fee3 string file_name string deal_time string id_no int group_id string product_code string region_code string brand_code string dealfile string error_code string rb_file_name string call_times int # Partition Information # col_name data_type comment deal_date string sys_type string # Detailed Table Information Database: pprtdb Owner: pprt CreateTime: Fri Sep 02 08:01:24 CST 2016 LastAccessTime: UNKNOWN Protect Mode: None Retention: 0 Location: hdfs:/drmcluster/hive/warehouse/pprtdb.db/t_cdr_wn1609 Table Type: MANAGED_TABLE Table Parameters: transient_lastDdlTime 1472774484 # Storage Information SerDe Library: org.apache.hadoop.hive.serde2.columnar.ColumnarSerDe InputFormat: org.apache.hadoop.hive.ql.io.RCFileInputFormat OutputFormat: org.apache.hadoop.hive.ql.io.RCFileOutputFormat Compressed: No Num Buckets: -1 Bucket Columns: Sort Columns: Storage Desc Params: field.delim | line.delim n serialization.format | Time taken: 0.208 seconds, Fetched: 74 row(s)备注:查看表元数据存储路径时,推荐方法3,信息比较清晰 4.hive模糊搜索表show tables like *name*; show tables like *gg*;1.3查看表分区信息show partitions table_name;如下图是双分区:根据分区查询数据 select table_coulm from table_name where partition_name = 2014-02-25;Eg: select * from t_cdr_wn1609 where deal_date=20160921 limit 1;1.4对表中的某一列进行修改,包括列的名称/列的数据类型/列的位置/列的注释ALTER TABLE table_name CHANGE COLUMN col_old_name col_new_name column_typeCOMMENT col_comment FIRST|AFTER column_name1.5添加/替换列Add/ReplaceColumnsALTER TABLE table_name ADD|REPLACE COLUMNS (col_name data_type COMMENTcol_comment, .)ADD COLUMNS 允许用户在当前列的末尾增加新的列,但是在分区列之前1.6删除分区 alter table tablename drop partition(dt=2014-03-01);1.7增加分区 Add Partitions: ALTER TABLE table_name ADD partition_spec LOCATION location1 partition_spec LOCATION location2 1.8查看表容量大小方法1:查看一个hive表文件总大小时(单位为Byte),命令如下:1.8.1#查看普通表的容量$ hadoop fs -ls /hive/warehouse/pprtdb.db/table_name|awk -F print $5|awk a+=$1ENDprint a这样可以省去自己相加,下面命令是列出该表的详细文件列表$ hadoop fs -ls /hive/warehouse/pprtdb.db/table_name1.8.2#查看分区表的容量这样可以省去自己相加,下面命令是列出该表的详细文件列表$ hadoop fs -du -h /hive/warehouse/pprtdb.db/t_cdr_wn1609/deal_date=20160921查看所有表的容量:1.9从文件加载数据进表(OVERWRITE覆盖,追加不需要OVERWRITE关键字) LOAD DATA LOCAL INPATH filename OVERWRITE into table tablename; -从查询语句给table插入数据 INSERT OVERWRITE TABLE test_tablename_log PARTITION(date) select * from tablename where dt=2014-01-22 limit 100;1.10杀死某个任务 不在hive shell中执行 hadoop job -kill job_id1.11hive修改表名 ALTER TABLE TABLEname1 RENAME TO tablename2;1.12hive复制表结构 CREATE TABLE TABLEname1 LIKE tablename2;2定长加载脚本举例-BSS详单入HIVE内部表2.1前端数据集成平台配置作业将相应 BSS详单安接口传到大数据集群2.2编写脚本创建外部表及内部表(采用动态分区,为了支撑结构相同详单入同一个表) 2.3内部表中数据:后面就是写脚本进行汇总获取需要的数据进行分析。3. hive杀查询语句方法:登录MR前端查看哪些作业在运行哪些在挂起状态:如果要杀下面作业的进程:运行命令:/e3base/hadoop/bin/hadoop job -kill job_1468292509080_0010注:把application_1468292509080_0010改为job_1468292509080_00104. 回收站4.1 hadoop怎么删

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论