实战hadoop2配套未美化版12pig_第1页
实战hadoop2配套未美化版12pig_第2页
实战hadoop2配套未美化版12pig_第3页
实战hadoop2配套未美化版12pig_第4页
实战hadoop2配套未美化版12pig_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Pig云创大数据目录Pig简介实战PigPig简介Pig为什么-是什么现实需求-概念程序员使用Pig脚本指挥

HDFS、MapReduce程序员使用MR处理

HDFS里数据1.太慢2.要求高Pig是用来处理大规模数据集的脚本语言平台1.编写MR程序

2.组织处理流1.编写MR程序

2.组织处理流提交任务Pig是什么工作过程程序员或分析师根据业务逻辑写好数据流脚本向Pig提交任务Pig会将写好的数据流处理脚本翻译成多个Hdfs,Map和Reduce操作Pig向hadoop提交任务Pig是什么架构PigLatin解释器PigLatin环境数据类型Pig是什么语法(1)基本数据类型:int、long、float、double、chararray和bytearray(2)复杂数据类型:字符串或基本类型与字符串的组合运算符(1)算术运算符:+,-,*,/,%(2)三目运算符:?:(3)比较运算符:==,!=函数操作名称功能LOAD载入待处理数据FOREACH逐行处理TupleFILTER过滤不满足条件的TupleDUMP将结果打印到屏幕STORE将结果保存到文件Pig实例部署yum

install

pig例题①使用Pig

Latin实现WordCountPig简介Pig是一个构建在Hadoop之上,用来处理大规模数据集的脚本语言平台。其设计思想来源于谷歌的Sawzall,最初由雅虎团队开发,并于2008年9月贡献给Apache。由来程序员或分析师只需要根据业务逻辑写好数据流脚本,

Pig会将写好的数据流处理脚本翻译成多个HDFS、Map和Reduce操作。通过这种方式,Pig为Hadoop提供了更高层次的抽象,将程序员从具体的编程中解放出来。作用Pig与各组件关系pig与HDFS关系Pig处理的数据存在HDFS上pig与YARN关系Pig使用MapReduce,而MapReduce运行在YARN上pig与MapReduce关系Pig使用MapReducePig与各组件关系pig与Hive关系都是使用MapReduce处理存储在HDFS上的数据区别联系存储时:Hive将HDFS上的数据看成一张张表处理时:Hive以类SQL形式操作存储在HDFS上的数据实质:Hive翻译器将HiveQL翻译成MapReduce执行存储时:Pig直接处理HDFS上的数据处理时:Pig以脚本形式操作存储在HDFS上的数据实质:Pig翻译器将Pig

Latin翻译成MapReduce执行个人认为:Hive大公司根据需求开发、Pig是牵强实现Google论文(画虎不成反类犬)Pig与各组件关系pig与HBase关系性质不同pig与Spark关系性质不同pig与Storm关系性质不同体系架构体系架构Pig语法Pig

Latin是Pig的专用语言,它是类似于SQL的面向数据流语言,这套脚本语言提供了对数据进行排序、过滤、求和、分组、关联等各种操作Pig

Latin数据类型Pig

Latin语法基本数据类型复杂数据类型Filed、Tuple、Bag、Mapint、long、float、doubleChararray、bytearrayPig

Latin运算符算术、比较、关系等运算符加(+),减(-),乘(*),除(/),取余(%)和三目运算符(?:),比较运算符主要包括等于(==),不等(!=)Pig

Latin函数操作名称功能LOAD载入待处理数据FOREACH逐行处理TupleFILTER过滤不满足条件的TupleDUMP将结果打印到屏幕STORE将结果保存到文件Filed:存放一个原子类型数据,如一个字符串或一个数字等,例如'lucy'。Tuple:Field的序列,其中每个File可以是任何一种基本类型,例如('lucy','1234')。Bag:Tuple集合。每个Tuple可以包含不同数目不同类型的Field,例如:('lucy','1234')('jack'('ipod',

'apple'))Map:一组键值对的组合,一个关系中的键值对必须是唯一的,例如:

[name#Mike,phone#]部署Pig部署Pig前提:部署了HDFS、YARN、MapReduce部署实验部署Ambari部署企业级部署手工部署实验部署PigStep1 制定部署规划Step2 准备硬件机器Step3 准备机器软件环境修改机器名、关闭防火墙、添加域名映射、jdkStep4 部署HDFS、YARN、MapReduceStep5 下载并解压pigStep6 为Pig配置Hadoop安装路径Step7 启动pig命令行Step8 验证pig是否启动成功实战Pig实战Pig下述命令完成 进入Pig命令行,查看并练习常用命令。 使用Pig

Latin实现WordCount,该程序处理HDFS上/user/allen/input中的文件。[allen@iclient0

~]#

bin/piggrunt>

help;grunt>

A

=

load

'input';#进入allen用户的Pig命令行

#查看Pig操作#载入待处理文件夹inputgrunt>

B

=

foreach

A

generate

flatten(TOKENIZE((chararray)$0))

as

word; #划分单词grunt>

C

=

group

B

by

word; #指定按单词聚合,即同一个单词到一起grunt>

D

=

foreach

C

generate

COUNT(B),group; #同一个单词出现次数相加grunt>

store

D

into

'out/wc-19'; #将处理好的文件存入HDFS下/user/allen/out/wc-19grunt>

dump

D

into

; #将处理结果D打印到屏幕执行时,用户可以将结果存入HDFS,也可以将结果打印到屏幕。注意,只有最后两条语句才会触发MapReduce程序,这种“懒”策略有利于提高集群利用率。[allen@iclient0

~]#

bin/piggrunt>

help;grunt>

A

=

load

'input';#进入allen用户的Pig命令行

#查看Pig操作#载入待处理文件夹inputgrunt>

B

=

foreach

A

generate

flatten(TOKENIZE((chararray)$0))

as

word; #划分单词grunt>

C

=

group

B

by

word; #指定按单词聚合,即同一个单词到一起grunt>

D

=

foreach

C

gener

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论