




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Pig云创大数据目录Pig简介实战PigPig简介Pig为什么-是什么现实需求-概念程序员使用Pig脚本指挥
HDFS、MapReduce程序员使用MR处理
HDFS里数据1.太慢2.要求高Pig是用来处理大规模数据集的脚本语言平台1.编写MR程序
2.组织处理流1.编写MR程序
2.组织处理流提交任务Pig是什么工作过程程序员或分析师根据业务逻辑写好数据流脚本向Pig提交任务Pig会将写好的数据流处理脚本翻译成多个Hdfs,Map和Reduce操作Pig向hadoop提交任务Pig是什么架构PigLatin解释器PigLatin环境数据类型Pig是什么语法(1)基本数据类型:int、long、float、double、chararray和bytearray(2)复杂数据类型:字符串或基本类型与字符串的组合运算符(1)算术运算符:+,-,*,/,%(2)三目运算符:?:(3)比较运算符:==,!=函数操作名称功能LOAD载入待处理数据FOREACH逐行处理TupleFILTER过滤不满足条件的TupleDUMP将结果打印到屏幕STORE将结果保存到文件Pig实例部署yum
install
pig例题①使用Pig
Latin实现WordCountPig简介Pig是一个构建在Hadoop之上,用来处理大规模数据集的脚本语言平台。其设计思想来源于谷歌的Sawzall,最初由雅虎团队开发,并于2008年9月贡献给Apache。由来程序员或分析师只需要根据业务逻辑写好数据流脚本,
Pig会将写好的数据流处理脚本翻译成多个HDFS、Map和Reduce操作。通过这种方式,Pig为Hadoop提供了更高层次的抽象,将程序员从具体的编程中解放出来。作用Pig与各组件关系pig与HDFS关系Pig处理的数据存在HDFS上pig与YARN关系Pig使用MapReduce,而MapReduce运行在YARN上pig与MapReduce关系Pig使用MapReducePig与各组件关系pig与Hive关系都是使用MapReduce处理存储在HDFS上的数据区别联系存储时:Hive将HDFS上的数据看成一张张表处理时:Hive以类SQL形式操作存储在HDFS上的数据实质:Hive翻译器将HiveQL翻译成MapReduce执行存储时:Pig直接处理HDFS上的数据处理时:Pig以脚本形式操作存储在HDFS上的数据实质:Pig翻译器将Pig
Latin翻译成MapReduce执行个人认为:Hive大公司根据需求开发、Pig是牵强实现Google论文(画虎不成反类犬)Pig与各组件关系pig与HBase关系性质不同pig与Spark关系性质不同pig与Storm关系性质不同体系架构体系架构Pig语法Pig
Latin是Pig的专用语言,它是类似于SQL的面向数据流语言,这套脚本语言提供了对数据进行排序、过滤、求和、分组、关联等各种操作Pig
Latin数据类型Pig
Latin语法基本数据类型复杂数据类型Filed、Tuple、Bag、Mapint、long、float、doubleChararray、bytearrayPig
Latin运算符算术、比较、关系等运算符加(+),减(-),乘(*),除(/),取余(%)和三目运算符(?:),比较运算符主要包括等于(==),不等(!=)Pig
Latin函数操作名称功能LOAD载入待处理数据FOREACH逐行处理TupleFILTER过滤不满足条件的TupleDUMP将结果打印到屏幕STORE将结果保存到文件Filed:存放一个原子类型数据,如一个字符串或一个数字等,例如'lucy'。Tuple:Field的序列,其中每个File可以是任何一种基本类型,例如('lucy','1234')。Bag:Tuple集合。每个Tuple可以包含不同数目不同类型的Field,例如:('lucy','1234')('jack'('ipod',
'apple'))Map:一组键值对的组合,一个关系中的键值对必须是唯一的,例如:
[name#Mike,phone#]部署Pig部署Pig前提:部署了HDFS、YARN、MapReduce部署实验部署Ambari部署企业级部署手工部署实验部署PigStep1 制定部署规划Step2 准备硬件机器Step3 准备机器软件环境修改机器名、关闭防火墙、添加域名映射、jdkStep4 部署HDFS、YARN、MapReduceStep5 下载并解压pigStep6 为Pig配置Hadoop安装路径Step7 启动pig命令行Step8 验证pig是否启动成功实战Pig实战Pig下述命令完成 进入Pig命令行,查看并练习常用命令。 使用Pig
Latin实现WordCount,该程序处理HDFS上/user/allen/input中的文件。[allen@iclient0
~]#
bin/piggrunt>
help;grunt>
A
=
load
'input';#进入allen用户的Pig命令行
#查看Pig操作#载入待处理文件夹inputgrunt>
B
=
foreach
A
generate
flatten(TOKENIZE((chararray)$0))
as
word; #划分单词grunt>
C
=
group
B
by
word; #指定按单词聚合,即同一个单词到一起grunt>
D
=
foreach
C
generate
COUNT(B),group; #同一个单词出现次数相加grunt>
store
D
into
'out/wc-19'; #将处理好的文件存入HDFS下/user/allen/out/wc-19grunt>
dump
D
into
; #将处理结果D打印到屏幕执行时,用户可以将结果存入HDFS,也可以将结果打印到屏幕。注意,只有最后两条语句才会触发MapReduce程序,这种“懒”策略有利于提高集群利用率。[allen@iclient0
~]#
bin/piggrunt>
help;grunt>
A
=
load
'input';#进入allen用户的Pig命令行
#查看Pig操作#载入待处理文件夹inputgrunt>
B
=
foreach
A
generate
flatten(TOKENIZE((chararray)$0))
as
word; #划分单词grunt>
C
=
group
B
by
word; #指定按单词聚合,即同一个单词到一起grunt>
D
=
foreach
C
gener
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030中国农村啤酒市场消费升级特征与渠道下沉策略研究报告
- 2025年智能音箱的市场发展趋势
- 2025年福建省宁德市营商环境观察员招募3人模拟试卷及一套参考答案详解
- 2025年甘肃省兰州新区石化产业投资集团有限公司急需紧缺专业技术岗位招聘14人考前自测高频考点模拟试题及完整答案详解1套
- 2025年海洋能发电技术产业技术路线图报告
- 2025湖南怀化市洪江市创业投资有限责任公司招聘考前自测高频考点模拟试题及答案详解(历年真题)
- 2025年上半年江苏无锡市新吴区新瑞医院(上海交通大学医学院附属瑞金医院无锡分院)招聘32人考前自测高频考点模拟试题及参考答案详解1套
- 鄂州市华容区招聘幼师考试真题2024
- 2025年麻城市属事业单位考试试卷
- “百万英才汇南粤”广东省佛山市南海区教育系统2025-2026学年面向社会公开招聘教师模拟试卷及答案详解(网校专用)
- 2025年植物保护专业考试试题及答案
- 完整的离婚协议书打印电子版(2025年版)
- 尿道狭窄的治疗与护理
- 防水工程质量保证书
- 大额资金使用管理办法
- 业务激励方案61170
- 家电行业售后维修服务管理流程
- 2024年煤炭工业矿井设计规范
- 替莫唑胺耐药机制-深度研究
- 二级中医医院评审专家手册
- 遗产继承案例分析题单选题100道及答案
评论
0/150
提交评论