运用Hadoop开源技术推动大数据落地71.ppt_第1页
运用Hadoop开源技术推动大数据落地71.ppt_第2页
运用Hadoop开源技术推动大数据落地71.ppt_第3页
运用Hadoop开源技术推动大数据落地71.ppt_第4页
运用Hadoop开源技术推动大数据落地71.ppt_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

培训目标,熟悉HADOOP,1,2,3,了解Hadoop应用案例,了解Hadoop技术最佳实践,培训目录,阿里金融通过大数据整合掘金!,阿里金融的信用评估系统会自动分析小微企业的数据,例如企业通过支付宝,淘宝进行的支付数据,最终算出信用评估和放贷额度。截止2011年底,阿里金融对近30万家小微企业进行信用评估。累计投放96800家,投放贷款154亿,坏账率为交易额的0.76%。,阿里金融的实时业务墙,阿里金融的数据模型任务(局部)每个模型任务都是面向海量数据的大规模运算任务。,天猫/淘宝双十一191亿背后的开源技术?,dbatools:双十一一天时间,支付宝核心数据库集群处理了41亿个事务,执行285亿次SQL,访问1931亿次内存数据块,13亿个物理读,生成15TB日志。,数据应用开发平台数据工场,Hive,报表需求(淘数据),Hbase,即席查询(adhoc),数据分析,数据挖掘,数据产品,淘宝数据云梯平台-产品架构,实时计算,底层平台,数据开发平台,数据应用,是需求驱动技术,技术带动需求?,思考-云计算技术有两极,3200台主机,Hadoop解决了什么难题?,移动计算而非移动数据,化整为零,分片处理。本地化计算,并行IO,降低网络通信,思考-数据分析系统的基本指标,思考-数据分析系统的基本指标,海量用户,大规模批量服务(服务1.0),决策逻辑,数据库,用户1,逻辑1,逻辑N,数据集,编辑人员,用户N,编辑,逻辑,信息生产者,信息消费者,Mysql/Oracle,大数据仓库,海量用户,大规模个性化服务(服务2.0),决策逻辑,大数据库,用户1,逻辑1,服务数据1,用户N,逻辑N,服务数据N,原始数据N,挖掘逻辑N,Hive,Hbase,Storm,Hadoop,原始数据1,原始数据2,信息生产者/消费者,规则制定,上帝之手,本质:智能组织-智能群体,实时,思考-数据分析系统的基本指标,反馈决策周期!快反馈决策粒度!细反馈决策准确性!准反馈总体成本!廉价,数据统计/分析是一个组织自动控制,自学习,自调整系统核心组成部分。机会成本!想象空间!,Hadoop前的数据仓库流程,反馈决策周期!快?反馈决策粒度!细?反馈决策准确性!准?反馈总体成本!廉价?,perl,shell,awk,Hadoop后的数据仓库流程,反馈决策周期!快?反馈决策粒度!细?反馈决策准确性!准?反馈总体成本!廉价?持续扩展成本?,Hql,Pig,Mapreduce,工作流,那些用户需要Hadoop(合)技术?案例解析,UserCase1(网页游戏),国内网页游戏厂商百个服/网页游戏,30-50个库/服10G用户数据/天/游戏十几款游戏,场景:游戏玩家行为分析,其他平台:数据无法导出中间数据汇总丢弃,无法用户级分析,UserCase2(智慧交通),用户:最大城市,交通领域(Citytraffic)场景:车牌记录CarLicencePlate,100亿10Billion/年需求:小时级别-优化到分钟级Minute-未来优化到秒级Seconds查询,IntelligentTransportation,SmarterCities,场景:车辆异常快速识别,VehicleAbnormal,交通安全问题,Hadoop技术其他应用领域,电信医疗交通公安,航空电力金融,搜索社交游戏视频,民生,核心,基于hadoop的数据平台总体架构,Python结合HadoopStreaming原理解析,MapReduce基本流程,实现distinct,一、日志格式:0E3AAC3B-E705-4915-9ED4-EB7B1E963590FB11E363-6D2B-40C6-A096-95D8959CDB9206F7CAAB-E165-4F48-B32C-8DD1A8BA2562B17F6175-6D36-44D1-946F-D748C494648A06F7CAAB-E165-4F48-B32C-8DD1A8BA2562B17F6175-6D36-44D1-946F-D748C494648AB11E363-6D2B-40C6-A096-95D8959CDB9217F6175-6D36-44D1-946F-D748C494648AE3AAC3B-E705-4915-9ED4-EB7B1E9635906F7CAAB-E165-4F48-B32C-8DD1A8BA2562,4,使用python实现distinct/count,一、日志格式:0E3AAC3B-E705-4915-9ED4-EB7B1E963590FB11E363-6D2B-40C6-A096-95D8959CDB9206F7CAAB-E165-4F48-B32C-8DD1A8BA2562B17F6175-6D36-44D1-946F-D748C494648A06F7CAAB-E165-4F48-B32C-8DD1A8BA2562B17F6175-6D36-44D1-946F-D748C494648AB11E363-6D2B-40C6-A096-95D8959CDB9217F6175-6D36-44D1-946F-D748C494648AE3AAC3B-E705-4915-9ED4-EB7B1E9635906F7CAAB-E165-4F48-B32C-8DD1A8BA2562,4,importsysforlineinsys.stdin:try:flags=line1:-2str=flags+t+1printstrexceptException,e:printe,#!/usr/bin/pythonimportsysres=forlineinsys.stdin:try:flags=line:-1.split(t)iflen(flags)!=2:continuefield_key=flags0ifres.has_key(field_key)=False:resfield_key=0resfield_key0=1exceptException,e:passforkeyinres:printkey,#!/usr/bin/pythonimportsyslastuid=num=1forlineinsys.stdin:uid,count=line:-1.split(t)iflastuid=:lastuid=uidiflastuid!=uid:num+=1lastuid=uidprintnum,基于PythonMapReduceStreaming快速并行编程,一、单机测试headtest.log|pythonmap.py|pythonred.py一、将文件上传到集群/bin/hadoopfs-copyFromLocaltest.log/hdfs/三、运行mapred/bin/hadoopjarcontrib/streaming/hadoop-streaming-0.20.203.0.jar-file/path/map.py-file/path/red.py-mappermap.py-reducerred.py-input/path/test.log-output/path/,通过界面查看任务状态,Python快速构建数据分析模块ComETL,软件地址:,1.支持简单工作流2.支持自动恢复3.支持自定义驱动4.支持HiveMysqlMapReduce等模式,作者:赵修湘,极少的代码量,几万行吧!,类似系统SqoopDataXOozie,ComEtl配置样例,etl_op=run_mode:day,delay_hours:2,jobs:job_name:job1,analysis:etl_class_name:ExtractionEtl,step_name:mysql_e_1,db_type:hive,db_coninfo:db_ip:192.168.1.50,db_port:3306,db_user:jobs,db_passwd:hhxxttxs,db_db:test,db_path:test.a2,pre_sql:,post_sql:,data_save_type:SimpleOutput,sql_assemble:SimpleAssemble,sql:select*fromtest.a2limit30,transform:etl_class_name:TransformEtl,step_name:transform1,data_source:job_name:job1,step_name:mysql_e_1,data_field:,data_transform_type:SimpleTransform,loading:etl_class_name:LoadingEtl,step_name:load1,data_source:job_name:job1,step_name:transform1,db_type:mysql,db_coninfo:db_ip:192.168.1.50,db_port:3306,db_user:jobs,db_passwd:hhxxttxs,db_db:test,db_path:test.a2,pre_sql:,post_sql:,data_load_type:SplitLoad,data_field:a|b,Pig内嵌JPython实现PageRank算法,JPython+pig代码实现演示,其他PythonMapReduce框架,Pydoop-PythonAPIforHadoopMapReduceandHDFS,总空间300T以上,每日新增数据2T20+服务器的Hadoop/hive计算平台单个任务优化从7个小时到1个小时每日Hive查询1200+每天处理3000+作业任务每天处理10T+数据,Page40,Hadoop集群监控Cacti,默认Cacti模板太少增加模板我们的模板磁盘IO内存详情单个内核使用CPU总和及IOWaitJMX支持监控Hadoop,HAProxy+Hive网络拓扑,Queries,HAProxy,HAProxy,Hive,Hive,Hive,Hive,Hadoop,HAProxy+Hive高可用集群,数据平台技术路线发展,PythonHadoop最佳实践,通过TornadoNginx接受日志通过Scribe同步数据使用Python编写加载和清洗脚本使用ComEtl通过Hive做ETL参考HappyEtl,Pydoop编写PythonStreaming使用CronHub做定时调度使用phpHiveAdmin提供自助查询使用Mysql存储中间结果通过Tornado+highcharts/gnuplot提供报表展现使用Python+NagiosCactiGanglia监控集群整体构建在Hadoop+Hive+pig基础平台之上。参加EasyHadoop聚会学习使用EasyHadoop管理集群,HadoopJAVA数据最佳实践,通过Nginx+tomcat接受日志通过Scribe,Flume-Ng同步数据使用Jython编写加载和清洗脚本使用Sqoop,DataX通过Hive做ETL参考JavaMapReduceAPI编写程序使用CronHub做定时调度使用phpHiveAdmin+hive+haproxy提供自助查询使用Mysql/Oracle存储中间结果通过Spring+struts+highcharts/gnuplot/JFreeChart提供报表展现使用Python+NagiosCactiGanglia监控集群整体构建在Hadoop+Hive+Pig基础平台之上。参加EasyHadoop聚会学习使用ClouderaManager管理集群,基于云平台构建的集群性能?,HDCluster:80Core,180GHZ,10TB,20*AliyunStandardCCloudServer4GRAM,4Core*2.26GHz500GB,Hadoop/HiveClusteraliyun,User-phpHiveAdmin-HiveServer-Hadoop,用EasyHadoop安装和管理节点,启动100个Map生成100亿数据,通过100个Map用Perl随机生成数据准备,1kw,1亿,10亿,100亿,100GB数据集通过Hive创建测试库表结构使用phpHiveadmin+HQL查询返回结果,PhpHiveAdmin界面查询,SELECTidFROMTablewhereidlike%JA-sq%;(模糊匹配查询出ID带JA-sq的车牌号),1亿数据,并行5Map进程,144w/s扫描速度,69s返回10亿数据,并行46Map进程,800w/s扫描速度,117s返回100亿数据,并行453Map进程,5400w/s扫描速度,3分钟返回,基本满足需求。,SELECTid,COUNT(*)FROMTableGROUPBYid(对每个车牌号分组归并,并求出现次数),1亿数据,并行5Map进程,2Reduce进程,104w/s处理速度,96s返回10亿数据,并行46Map进程,13Reduce进程,230w/s处理速度,7分钟返回100亿数据,并行453Map进程,121Reduce进程,500w/s处理速度,54分钟返回。,Hadoop预算解析其他方案的成本对比!,投入成本(10TB预算),IOE(IBM+Oracle+EMC)时代(x)kw+自建Hadoop集群(20*4w+4w)=80w+使用云主机构建Hadoop20*7970=15.94w/年,千万时代,百万时代,十几万时代,初创型公司,中型技术型公司,政府,银行,电信,年成本:1.5w/T,我们还有那些成本压缩空间?,实施周期,IBM+Oracle+EMC时代(月)自建Hadoop集群(1年-半年)学习和培训阿里云Hadoop时代(星期/月),季度/月,1年/半年,月/星期,个人,初创公司,中型公司,政府,银行,电信,月,1年

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论