版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
GlobalSortHiveHiveQL-Joind1d121dX=dd121dd121d>valuevalue>>>HiveHiveQL-GroupBypageid_age_pageid_age_sumd112211dd1212.INSERTINTOTABLEpageid_age_sum.SELECTpageid,age,count(1).FROMpv_users-GROUPBYpageid,age;d12d12111111p111pdcountdcount_distinct_us1221dd1212-SELECTpageid,COUNT(DISTINCTuserid)-FROMpage_viewGROUPBYEfficientexecutionofSQGlobal-MergeSequentialMapReduceJobsAB1ABC1AB1ABC11C11-FROM(ajoinbona.key=b.key)joincona.key=c.keySELECT…-ShareCommonReadOperationsd12d12d112111.FROMpv_users.INSERTINTOTABLEpv_pageid_sum..SELECTpageid,count(1)..GROUPBYpageid.INSERTINTOTABLEpv_age_sum.SELECTage,count(1).GROUPBYage;-MapJoin-NoreducerneededHiveQL-MapJointime121femalevalue21value21-Hash-basedaggregates-90%speedimprovementonQuery少的聚合效果)(map端聚合最多能使用的内存)Attention:不能太多gendercountgendercountM13F1111gendercountgendercountM24F22gendergenderM1M2M1M1F2F1gendercountgendercountM11F111111-skewindata优化-用法-LoadBalanceProblempageid_age_sumpageid_age_partial_pageid_age_sumpageid_age_partial_sumde11121dd1421e122112-倾斜的原因?-驱动表•使用大表做驱动表,避免内存溢出•Join中最右边的表是驱动表•MapJoin无视Join顺序,使用大表做驱动表-特征•每个Map有一个输出文件,输入数据量大,Map数很多导致输-缺点-改进前wherept='20111123000000'ANDdateCompare(gmt_created,'2011-11--改进后wherept='20111123000000'ANDdateCompare(gmt_created,'2–优先官方UDF•/confluence/display/Hive/LanguageManual+UDF–耗时的操作,耗cpu•编解码,url的encode/d•SimpleDateFormat复用,构造函数中的操作耗时••date_formatyyyy-MM-ddHH:mmpublicclassUDFDateextendsUDF{publicUDFDate(){}publicTextevaluate(TextdateString){if(dateString==null){returnnull;}try{SimpleDateFormatformatter=newSimpleDateFormat("yyyy-MM-dd");Datedate=formatter.parse(dateString.toString());t.set(formatter.format(date));returnt;}catch(ParseExceptione){returnnull; }•date_formatyyyy-MM-dpublicclassUDFDateextendsUDF{privatefinalSimpleDateFormatformatter=newSimpleDateFormat("yyyy-MM-dd");publicUDFDate(){}publicTextevaluate(TextdateString){if(dateString==null){returnnull;}try{Datedate=formatter.parse(dateString.toString());t.set(formatter.format(date));returnt;}catch(ParseExceptione){returnnull; };insertOVERWRITETABLEr_mid_alipay_playpartition(pt)selectday_id,buyer_nick,buyer_id,cat1,name1,from(selectptasday_id,buyer_nick,buyer_id,cat1,name1,concat(pt,'000000')asptfromr_gmv_alipayawherept>='20110101'andalipay='alipay'groupbypt,buyer_nick,buyer_id,cat1,name1,concat(pt,'000000'))distributebypt;/index.php/Hive_sql_%E7%9B%B8%E5%85%B3%E7%94%A8%E6%B3%95#.E5.8A.A8.E6.80.81.E5.88.86.E5.8C.BA.E4.BA.A7.E7.94.9F.E5.A4.A7.E9.87.8F.E6.96.87.E4.BB.B6.EF.BC.8C.E5.AF.BC.E8.87.B4namenode_load.E5.BE.88.E9.AB.98•快:fromr_auction_auctions_20110107_pfromr_auction_auctions_20110107_plimit100;/index.php/Hive_sql_%E7%9B%B8%E5%85%B3%E7%94%A8%E6%B3%95#.E5.A6.82.E4.BD.95.E5.BF.AB.E9.80.9F.E5.8F.96.E5.8
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 通辽职业学院《临床输血学检验技术》2025-2026学年期末试卷
- 沈阳体育学院《西医诊断学》2025-2026学年期末试卷
- 沈阳农业大学《口腔疾病概要》2025-2026学年期末试卷
- 石家庄人民医学高等专科学校《海洋保护生物学》2025-2026学年期末试卷
- 山西信息职业技术学院《全新大学英语》2025-2026学年期末试卷
- 上海南湖职业技术学院《税收筹划》2025-2026学年期末试卷
- 上海师范大学《组织行为学》2025-2026学年期末试卷
- 石家庄人民医学高等专科学校《外科学》2025-2026学年期末试卷
- 徐州医科大学《临床生物化学检验技术》2025-2026学年期末试卷
- 石家庄农林职业学院《中医基础理论下》2025-2026学年期末试卷
- 2026山东青岛日报报业集团(青岛日报社)招聘4人备考题库附答案详解(完整版)
- 2026年及未来5年市场数据中国翻译机构行业市场需求预测及投资规划建议报告
- 消化内科炎症性肠病诊疗规范与实践指南(2025版)
- 新生儿体位管理课件
- GB/T 20151-2026光度学CIE物理光度系统
- GB/T 18570.9-2025涂覆涂料前钢材表面处理表面清洁度的评定试验第9部分:水溶性盐的现场电导率测定法
- 安徽省合肥市2025-2026学年上学期期末八年级数学试卷(含答案)
- 产品销售运营协议书范本
- 雨课堂学堂在线学堂云《自然辩证法概论( 武汉科技大)》单元测试考核答案
- 2025年支部存在的问题及整改措施
- 平面优化设计讲解课件
评论
0/150
提交评论