版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
项目6
动态网页数据预处理使用Pandas实现新闻动态网页数据预处理目录Content1使用Pig实现浪潮云说网页数据预处理2使用ELK实现某官网日志数据预处理3项目导言零数据预处理是指将数据的缺失值、脏数据、数据格式等进行调整处理,由于数据采集过程中会因为数据的来源不统一造成数据格式的混乱,当使用这些原始数据进行数据分析时无法为决策提供有效的帮助,对数据进行预处理能够有效解决这些问题,那么如何对数据进行预处理,数据预处理使用的工具和方法有哪些呢?学习目标零知识目标了解什么是数据预处理;熟悉数据预处理的方法;掌握Pandas、Pig以及ELK进行数据预处理的方法;精通Pig以及ELK环境搭建方法;技能目标具备了解Pandas和Pig数据预处理的能力;具备熟悉Pandas和Pig数据预处理机制的能力;素养目标具备掌握Pandas和Pig数据预处理方法的能力;具备掌握ELK数据预处理方法及流程的能力;具备精通数据预处理的能力。技能目标具备团队意识;具备良好的解决问题的能力;具备较强的学习能力;使用Pig实现浪潮云说网页数据预处理贰1Pig简介Pig是一款基于Hadoop的大规模数据分析平台,是Apache平台下的免费开源项目,是MapReduce的一个抽象。它是一个工具/平台,用于分析较大数据集,并表示为数据流。Pig通常与Hadoop一起使用。丰富的运算符集易于编程优化机会可扩展性用户定义函数处理各种数据使用Pig实现浪潮云说网页数据预处理贰2Pig配置运行第一步:登录Pig官网第二步:找到相关镜像,进行下载第三步:进行解压下载第四步:配置环境变量[root@masterlocal]#vim~/.bashrcexportPIG_HOME=/usr/local/pigexportPATH=$PATH:$PIG_HOME/binexportPIG_CLASSPATH=$HADOOP_HOME/etc/hadoop[root@masterlocal]#source~/.bashrc[root@masterlocal]#pig-version使用Pig实现浪潮云说网页数据预处理贰3PigLatin执行ApachePig提供了本地模式和MapReduce模式两种运行模式,其中在Local模式下,所有文件都从本地主机和文件系统中安装和运行,不需要使用Hadoop或HDFS,此模式多用于测试。MapReduce模式是使用ApachePig加载或处理Hadoop的分布式文件系统(HDFS)中存储的数据。交互模式(Gruntshell):使用Gruntshell以交互模式运行ApachePig。在此shell中,你可以输入PigLatin语句并获取输出。批处理模式(脚本):用于执行使用PigLatin语言编写的Pig程序脚本。嵌入式模式(UDF):用户可通过Java语言自定义函数,并在脚本中使用。使用Pig实现浪潮云说网页数据预处理贰4运算符1.比较运算符比较运算符用于对符号两边的值进行比较,返回值有两种情况即True或False。运算符描述==等于,检查两个数的值是否相等;如果是,则条件为true!=不等于,检查两个数的值是否相等。如果值不相等,则条件为true>大于,检查左边数的值是否大于右边数的值。如果是,则条件变为true<小于,检查左边数的值是否小于右边数的值。如果是,则条件变为true>=大于或等于,检查左边数的值是否大于或等于右边数的值。如果是,则条件变为true<=小于或等于,检查左边数的值是否小于或等于右边数的值。如果是,则条件变为truematches模式匹配,检查左侧的字符串是否与右侧的常量匹配使用Pig实现浪潮云说网页数据预处理贰4运算符2.类型结构运算符PigLatin的类型结构运算符主要有三个分别,元组构建运算符、包构造函数运算符和映射构造函数运算符。运算符描述示例()元组构造函数运算符-此运算符用于构建元组(Raju,30){}包构造函数运算符-此运算符用于构造包{(Raju,30),(Mohammad,45)}[]映射构造函数运算符-此运算符用于构造一个映射[name#Raja,age#30]使用Pig实现浪潮云说网页数据预处理贰4运算符3.关系运算符(1)加载和存储lLOADLOAD运算符由两部分构成,使用等号(=)分割,等号左侧需要指定存储数据的关系的名称,右侧需要定义存储数据的方式,LOAD运算符语法如下。Relation_name=LOAD'Inputfilepath'USINGfunctionasschema;参数说明如下。relation_name:设置数据保存目标关系名称。Inputfilepath:数据文件在本地或HDFS的存储路径。
function:设置加载数据的文件类型函数Schema:数据模式,加载数据时必须制定数据模式(列名)使用Pig实现浪潮云说网页数据预处理贰4运算符3.关系运算符(1)加载和存储l存储数据数据处理场景中,数据的体量通常会超过数十万条,仅靠程序的标准输出不能满足阅读条件,并且若要对处理后的数据进一步应用还要将其进行持久化存储。STORERelation_nameINTO'required_directory_path'[USINGfunction];参数说明如下。Relation_name:关系名。required_directory_path:关系目标存储路径。USINGfunction:加载函数使用Pig实现浪潮云说网页数据预处理贰4运算符3.关系运算符(2)诊断运算DumpDumpstudent;用于运行PigLatin语句,并将结果打印到屏幕显示,此方法通常用于测试1explain用于显示关系的逻辑,物理和MapReduce执行计划explainstudent;3illustrate能够输出个语句逐步执行的结果illustratestudent;4Describe用于查看关系的模式describestudent;2使用Pig实现浪潮云说网页数据预处理贰4运算符3.关系运算符(3)分组运算
分组操作在SQL中使用频率很高,PigLatin中同样提供了对数据进行分组方法,Group运算符能够对一个或多个关系中的数据进行分组。#对单个关系分组Group_data=GROUPRelation_nameBYGroup_key;#对多个关系分组Group_data=GROUPRelation_name1BYGroup_key,Relation_name2BYGroup_key;参数说明如下所示。①Relation_name:关系名。②Group_key:分组key。使用Pig实现浪潮云说网页数据预处理贰4运算符3.关系运算符(4)连接运算连接运算操作类似SQL中的关联查询,在执行一个数据处理任务时,通常数据文件会保存在多个数据集中,这时就需要使用链接操作,或两个数据集中存在一定的联系,需要联合处理,PigLatin中的链接运算需要从每个关系中声明一个或一组元组作为key,当这些key匹配时,两个特定的元组匹配,否则记录将被丢弃。连接可以是以下类型:自连接、内部连接和外连接。使用Pig实现浪潮云说网页数据预处理贰4运算符3.关系运算符(4)连接运算自连接Relation_name=JOINRelation1_nameBYkey,Relation2_nameBYkey;内部连接result=JOINrelation1BYcolumnname,relation2BYcolumnname;左外连接outer_right=JOINrelation1BYcolumnnameLEFT,relation1BYcolumnname;全外连接outer_full=JOINrelation1BYcolumnnameFULLOUTER,relation2BYcolumnname;右外连接outer_right=JOINrelation1BYcolumnnameRIGHT,relation2BYcolumnname;使用Pig实现浪潮云说网页数据预处理贰4运算符3.关系运算符(5)过滤运算符FilterDistinctForeachFilter运算符能够根据过滤条件从关系中选择所需的元组Distinct运算符用于从关系中删除冗余(重复)元组Foreach运算符用于基于列数据生成指定的数据转换使用Pig实现浪潮云说网页数据预处理贰5内置函数1.Eval函数Eval函数能够对数据进行简单的统计运算,如平均值、最大值、最小值求和等操作。函数描述AVG()计算平均值BagToString()将包的元素连接成字符串。在连接时,我们可以在这些值之间放置分隔符(可选)CONCAT()连接两个或多个相同类型的表达式COUNT()统计元素数量MAX()计算最大值MIN()计算最小值SIZE()基于任何Pig数据类型计算元素的数量SUM()要获取单列包中某列的数值总和使用Pig实现浪潮云说网页数据预处理贰5内置函数2.字符串函数字符函数主要用于对数据中字符类型的数据进行处理,如大小写转换、截取字符、字符比较等。函数描述ENDSWITH(string,testAgainst)验证字符串是否已特定字符结尾STARTSWITH(string,substring)验证第一个字符串是否以第二个字符串开头。SUBSTRING(string,startIndex,stopIndex)返回来自给定字符串的子字符串EqualsIgnoreCase(string1,string2)比较两个字符串,忽略大小写INDEXOF(string,‘character’,startIndex)返回字符串中指定的第一个出现的字符LAST_INDEX_OF(expression)返回字符串中指定的最后一个出现的字符LCFIRST(expression)将字符串中的第一个字符转换为小写UCFIRST(expression)将字符串中的第一个字符转换为大写UPPER(expression)将字符串中的所有字符转换为大写LOWER(expression)将字符串中的所有字符转换为小写REPLACE(string,oldChar,newChar);使用新字符替换字符串中的现有字符STRSPLIT(string,regex,limit)通过给定分隔符拆分字符串TRIM(expression)去掉字符串头尾空格LTRIM(expression)去掉字符串开头空格RTRIM(expression)去掉字符串尾部空格使用Pig实现浪潮云说网页数据预处理贰5内置函数3.日期时间函数日期函数用于对日期类型的数据进行处理,如获取时间中的年、月、日、时、分、秒等内容。重载方式描述ToDate(milliseconds)接收毫秒时间,转换为日期时间对象ToDate(iosstring)接收字符串类型的时间,并转换为日期时间对象ToDate(userstring,format)userstring代表用户输入的时间字符串,format用于指定用户输入的日期时间的格式,如:ToDate('1990/12/1903:11:44','yyyy/MM/ddHH:mm:ss'),结果返回1990-12-19T03:11:44.000+05:30ToDate(userstring,format,timezone)该方式较上一种可多设置一个时区使用Pig实现浪潮云说网页数据预处理贰5内置函数3.日期时间函数常用的时间日期函数函数描述ToDate(datetime)根据给定的参数返回日期时间对象GetDay(datetime)返回时间对象中的某一天返回时间对象中的小时返回时间对象中的毫秒GetMinute(datetime)从日期时间对象返回一小时中的分钟。GetMonth(datetime)返回时间对象中的月份GetSecond(datetime)从返回时间对象中的秒GetWeek(datetime)从日期时间对象返回一年中的周GetYear(datetime)从日期时间对象返回年份DaysBetween(enddatetime,startdatetime)返回两个日期时间对象之间的天数HoursBetween(enddatetime,startdatetime)返回两个日期时间对象之间的小时数MilliSecondsBetween(datetime1,datetime2)返回两个日期时间对象之间的毫秒数MinutesBetween(datetime1,datetime2)返回两个日期时间对象之间的分钟数MonthsBetween(datetime1,datetime2)返回两个日期时间对象之间的月数SecondsBetween(datetime1,atetime2)返回两个日期时间对象之间的秒数WeeksBetween(datetime1,datetime2)返回两个日期时间对象之间的周数YearsBetween(datetime1,datetime2)返回两个日期时间对象之间的年数使用Pig实现浪潮云说网页数据预处理贰5内置函数4.数学函数函数描述ABS(expression)获取表达式的绝对值ACOS(expression)获得表达式的反余弦值ASIN(expressio
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 多项目资源冲突解决流程规范
- 跨部门协同机制实施指导手册
- 门诊患者满意度调查分析报告
- 总装线设备点检作业指导书
- 成品检验区复检流程控制规范
- 社交广告投放策略演进需求文档
- 初中语文人教部编版八年级下册茅屋为秋风所破歌教案
- 钢管扣件周转管理办法
- 施工机械维护保养周期计划
- 大单元教学设计第三单元第一章人的生活需要营养
- 多器官功能障碍综合征(MODS)
- 《唐诗三百首》导读课(二稿)
- 【5套打包】兰州市小学五年级数学下期中考试单元检测试题(含答案解析)
- 重卡结构解析图
- 安踏集团零售管理培训手册定
- 职场小白快速读懂财务三张报表
- 土地机旋耕旋施工的方案设计
- 《我参与 我奉献》第4课时示范公开课教学PPT课件【道德与法治五年级下册】
- 2021-2022中国滑雪产业白皮书
- GB/T 5974.1-2006钢丝绳用普通套环
- FZ/T 52051-2018低熔点聚酯(LMPET)/聚酯(PET)复合短纤维
评论
0/150
提交评论