版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据竞赛培训之数据分析,2018,讲师:赵利平日期:2018年11月11日,目录,CONTENTS,原理介绍,01,原理介绍,本次数据分析是采用Hive进行的,Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据。同时,这个语言也允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作。,Hive的Sql语
2、句,HDFS,解释为mapreduce,学习目标,02,掌握将本地文件上传至hdfs指定路径技能,掌握创建hive表,并将本地数据信息导入技能,掌握创建表获取指定格式、指定信息技能,掌握转化率计算等函数,学习目标,学习目标,前期准备,03,3.1hive基本操作,进入hive安装目录cd/usr/hive/apache-hive-2.1.1-bin/启动hiveclient(master上)bin/hive查看数据库列表showdatabases;,3.1hive基本操作,建数据库createdatabasehongya;/创建数据库hongyashowdatabases;/查看数据库,发现有
3、库hongyausehongya;/使用hongya数据库,3.2查看样例数据,原始数据表:train_format2.csv数据,中间表1:初步创建表将activity_log中以#分割的数据拆成多行数据,中间表2:将拆成行的数据activity_log中以:分割的数据拆分成元素,3.3hive操作-创建表,创建比赛数据表match_data,要求表结构与提供的数据结构一样,信息包含用户iduser_id、用户性别gender、商家唯一idmerchant_id、购物者标签label,均为为int类型,用户与商家交互信息activity_log为varchar类型。,createtablem
4、atch_data(user_idint,age_rangeint,genderint,merchant_idint,labelint,activity_logvarchar(1000)rowformatdelimitedfieldsterminatedby,;,3.4hive基本操作导入数据,将root下的train_format2.csv数据导入到创建的match_data表中,loaddatalocalinpath/root/train_format2.csvoverwriteintotablematch_data;,查看match_data数据,select*frommatch_dat
5、alimit100;,数据分析,04,4.1数据分析中间表,中间表是数据库中专门存放中间计算结果的数据表。报表系统中的中间表是普遍存在的。分析接下来的四个问题:创建click表,写入商品点击次数top100数据创建add_to_cart表,写入商品被加入购物车次数top100数据创建collect表,写入商品被收藏次数top100数据创建emption表,写入商品被购买次数top100数据,4.1数据分析中间表,CREATETABLERESULTAS/创建RESULT表并获取match_data的USER_ID,ITEM_ID,BRAND_ID,ATIION_TYPESELECTUSER_ID
6、,SPLIT(LOG_SPLIT,:)0ASITEM_ID,/将拆成行的数据以:为分隔符筛选字符串第0位SPLIT(LOG_SPLIT,:)2ASBRAND_ID,/将拆成行的数据以:为分隔符筛选字符串第2位SPLIT(LOG_SPLIT,:)4ASATIION_TYPE/将拆成行的数据以:为分隔符筛选字符串第4位FROM(SELECTUSER_ID,LOG_SPLITFROMmatch_dataLATERALVIEWEXPLODE(SPLIT(ACTIVITY_LOG,#)ACTIVITY_LOGASLOG_SPLIT)T1;/lateralview和split,explode一起使用,以#
7、为分隔符将一列数据拆成多行数据,4.1数据分析中间表,select*fromRESULTlimit100;/查看前100行数据,查看表RESULT中前100行数据,4.2.1数据分析创建点击量表,创建click表,写入商品点击次数top100数据分析:商品id、点击、top100表:商品id、点击量统计、100条数据,CREATETABLECLICKAS/创建表click,代表点击量SELECTITEM_ID,COUNT(1)COUNT_1/对所有的行ITEM_ID相同的进行统计FROMRESULTWHEREATIION_TYPE=0/限定条件ATIION_TYPE=0GROUPBYITEM_
8、ID/groupby操作表示按照ITEM_ID字段的值进行分组,有相同的ITEM_ID值放到一起ORDERBYCOUNT_1DESC/按照统计结果全局降序排序LIMIT100;/限制数据100行,4.2.1数据分析创建点击量表,select*fromclick;/查看click表中所有数据,查看click表中所有数据,第一列代表商品id,第二列代表点击量,4.2.2数据分析创建加入购物车表,创建ADD_TO_CART表,写入商品点击次数top100数据分析:商品id、加入购物车、top100表:商品id、加入购物车量统计、100条数据,CREATETABLEADD_TO_CARTAS/创建表A
9、DD_TO_CART,代表加入购物车量SELECTITEM_ID,COUNT(1)COUNT_1/对所有的行ITEM_ID相同的进行统计FROMRESULTWHEREATIION_TYPE=1/限定条件ATIION_TYPE=1GROUPBYITEM_ID/groupby操作表示按照ITEM_ID字段的值进行分组,有相同的ITEM_ID值放到一起ORDERBYCOUNT_1DESC/按照统计结果全局降序排序LIMIT100;/限制数据100行,4.2.2数据分析创建加入购物车表,查看ADD_TO_CART表中所有数据,第一列代表商品id,第二列代表统计量,select*fromADD_TO_C
10、ART;,4.2.3数据分析创建收藏量表,创建click表,写入商品收藏次数top100数据分析:商品id、收藏、top100表:商品id、收藏量统计、100条数据,CREATETABLECOLLECTAS/创建表COLLECT,代表收藏量SELECTITEM_ID,COUNT(1)COUNT_1/对所有的行ITEM_ID相同的进行统计FROMRESULTWHEREATIION_TYPE=3/限定条件ATIION_TYPE=3GROUPBYITEM_ID/groupby操作表示按照ITEM_ID字段的值进行分组,有相同的ITEM_ID值放到一起ORDERBYCOUNT_1DESC/按照统计结果
11、全局降序排序LIMIT100;/限制数据100行,4.2.4数据分析创建购买量表,创建EMPTION表,写入商品购买次数top100数据分析:商品id、购买、top100表:商品id、购买量统计、100条数据,CREATETABLEEMPTIONAS/创建表EMPTION,代表购买量SELECTITEM_ID,COUNT(1)COUNT_1/对所有的行ITEM_ID相同的进行统计FROMRESULTWHEREATIION_TYPE=2/限定条件ATIION_TYPE=2GROUPBYITEM_ID/groupby操作表示按照ITEM_ID字段的值进行分组,有相同的ITEM_ID值放到一起ORD
12、ERBYCOUNT_1DESC/按照统计结果全局降序排序LIMIT100;/限制数据100行,4.2.4数据分析创建购买量表,查看表EMPTION中所有数据,第一列表示商品id,第二列代表购买量,select*fromEMPTION;,4.3.1数据分析点击购买转化率计算,CREATETABLECLICK_EMPAS/创建CLICK_EMP表SELECTITEM_ID,/商品idSUM(IF(ATIION_TYPE=0,1,0)/COUNT(1)CLICK_EMP_RATE/点击总和除以该ITEM_ID的购买总和FROMRESULTT1GROUPBYITEM_ID/groupby操作表示按照I
13、TEM_ID字段的值进行分组,有相同的ITEM_ID值放到一起ORDERBYCLICK_EMP_RATEDESC;/按照点击购买转化率降序排序,创建商品点击购买转化率表,并按照降序排列分析:商品id、点击购买转化率、降序排列表:商品id、转化率、降序,4.3.1数据分析点击购买转化率计算,查看表CLICK_EMP中前100行数据,第一列数据为item_id,第二列数据为点击购买转化率。,select*fromCLICK_EMPlimit100,4.3.2数据分析加入购物车转化率计算,CREATETABLEADD_EMPAS/创建ADD_EMPP表SELECTITEM_ID,SUM(IF(ATI
14、ION_TYPE=1,1,0)/COUNT(1)CLICK_EMP_RATE/加入购物车总和除以该ITEM_ID的购买总和FROMRESULTT1GROUPBYITEM_ID/groupby操作表示按照ITEM_ID字段的值进行分组,有相同的ITEM_ID值放到一起ORDERBYCLICK_EMP_RATEDESC;/按照点击购买转化率降序排序,创建商品加入购物车购买转化率表,并按照降序排列分析:商品id、加入购物车购买转化率、降序排列表:商品id、转化率、降序,4.3.2数据分析加入购物车转化率计算,查看表ADD_EMP中前100行数据,第一列数据为item_id,第二列数据为加入购物车购买转化率。,select*fromADD_EMPlimit100;,4.3.3数据分析收藏购买转化率计算,CREATETABLECOLLECT_EMPAS/创建COLLECT_EMP表SELECTITEM_ID,SUM(IF(ATIION_TYPE=1,1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026浙江金华东阳市人民医院巍山分院编外人员招聘1人备考题库附答案详解(巩固)
- 2026春季广东珠海市北京师范大学香山中学招聘事业编制教师11人备考题库及1套完整答案详解
- 2026重庆水务环境集团所属重庆市西部水资源开发有限公司招聘6人备考题库及完整答案详解1套
- 2026广东珠海市立潮人力资源服务有限公司招聘劳动协理员1人备考题库及答案详解(典优)
- 2026年宝鸡社会福利院招聘备考题库(5人)及答案详解(真题汇编)
- 市政桥梁预制梁安装技术方案
- 2025年精神科抑郁症患者心理疏导评估试题答案及解析
- 节能改造工程施工方案
- 共享储能电站消防设计方案
- 海绵城市雨水调蓄池施工技术方案
- 2026年北京市昌平区高三二模英语试卷(含答案)
- 2026年54西部计划笔试试题库及答案
- 2026江苏南京医科大学口腔医学院(附属口腔医院)江苏省口腔医院招聘(公共基础知识)综合能力测试题附答案解析
- 广东省2025年中考历史真题(含答案)
- GB/T 20485.43-2021振动与冲击传感器校准方法第43部分:基于模型参数辨识的加速度计校准
- 《普通话》教学讲义课件
- A04044《纳税人税种认定表》
- dgus内核程序迪文屏开发指南
- 仓储(仓库)危险源及风险辨识与评价表
- H点设计及人机布置指南
- Q∕SY 1592-2013 油气管道管体修复技术规范
评论
0/150
提交评论