付费下载
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘与Hadoop王新义数据挖掘与HadoopHadoop体系介绍HIVE框架介绍数据挖据介绍DW五层模型介绍hive重点分析SQL示例HIVE 优化步骤及其方法案例介绍:上海移动流量运营系统大数据软件栈Hadoop系统结构图HiveInceptor交互式数据仓库Sqoop关系数据ETL工具Flume日志收集工具Manager安装、部署、配置、监控、告警和访问控制 Zookeeper分布式协作服务YARN资源管理SparkMLLib数据挖掘HBase实时、分布式、高维数据库Map/Reduce分布式计算框架HDFS分布式文件系统R 统计语言from Revolution Analytics
2、spark分布式内存计算框架其他工具系统BI/报表系统数据库Strom流式计算框架Hadoop组件:zookeeper其中一个重要的协同功能就是进行分布式锁,这样就可以在多个应用程序进行共享资源访问的时候起到保护作用ZooKeeper就是一个为分布式应用程序进行协调的服务,这样的话,每一个分布式的应用程序如果需要进行协调的话就可以直接使用ZooKeeper所提供的服务ZooKeeper提供了一系列分布式系统的基本服务或者可以基于ZooKeeper完成分布式系统的基本服务:同步、配置管理、分组和命名ZooKeeper提供了一个易于编程的环境,实现了一个简化的文件系统,提供类似的目录树结构ZooK
3、eeper使用Java编写,支持了Java以及C语言绑定分布式的协调服务coordination非常容易出错,出错之后也很难恢复,例如死锁状态,或者出现资源竞争状态,通过ZooKeeper可以以良好的编程接口将程序员从自己构造协调服务的负担中解放出来Hadoop组件:HDFSHadoop的分布式文件系统遵循着Google文件系统的实现方式,由一个名字节点以及多个数据节点构成在HDFS中,主节点被称为名字节点,即NameNode;数据块的存储节点被称为数据节点,即DataNodeHadoop组件:yarnHadoop YARN各模块组成ResourceManager 处理客户端请求 启动/监控A
4、pplicationMaster 监控NodeManager 资源分配与调度NodeManager单个节点上的资源管理处理来自ResourceManager的命令处理来自ApplicationMaster的命令ApplicationMaster数据切分为应用程序申请资源,并分配给内部任务任务监控与容错Hadoop组件:HBase HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase
5、在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。Hadoop组件:HBaseCell: (Table, Row, Family : Column, Timestamp), ValueKeyRow Key (RK)Column Key (CK)Column Family (CF) + Qualifier (Column)Hadoop组件:MapReduceMapReduce是一种编程模型,用于大规模数据集(大于1T
6、B)的并行运算。概念Map(映射)和Reduce(归约),和他们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。他极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。Hadoop组件:MapReduceInputFormat 阶段InputFormat决定输入数据如何被切分供Map任务使用InputFormat将输入数据划分成一系列的InputSplitMap阶段Map任
7、务可以独立地处理数据集通常用来对数据进行过滤、转换处理Shuffle阶段对Map任务的输出进行Partition、Sort、Spill以及mergeReducer获取处理过的Map输出,Merge后进行Reduce操作Reduce阶段将key/value对按照key进行排序Reduce方法通常会遍历每个key对应的所有valueHadoop 组件:SparkSpark的中间数据放到内存中,对于迭代运算效率更高。Spark更适合于迭代运算比较多的ML和DM运算。因为在Spark里面,有RDD的抽象概念。Spark比Hadoop更通用。Spark提供的数据集操作类型有很多种,不像Hadoop只提供
8、了Map和Reduce两种操作。比如map,filter,flatMap,sample,groupByKey,reduceByKey,union,join,cogroup,mapValues,sort,partionBy等多种操作类型,Spark把这些操作称为Transformations。同时还提供Count,collect,reduce,lookup,save等多种actions操作。这些多种多样的数据集操作类型,给给开发上层应用的用户提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的Data Shuffle一种模式。用户可以命名,物化,控制中间结果的存储、分区等。可以
9、说编程模型比Hadoop更灵活。不过由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。容错性。在分布式数据集计算时通过checkpoint来实现容错,而checkpoint有两种方式,一个是checkpoint data,一个是logging the updates。用户可以控制采用哪种方式来实现容错。可用性。Spark通过提供丰富的Scala, Java,Python API及交互式Shell来提高可用性。特点 内存计算 快速迭代 DAGTDH组件:HIVE(inceptor)Hive是搭建
10、在Hadoop上的数据仓库Hive用来管理和查询结构化数据使用MapReduce计算模型迚行计算Mapreduce计算框架 Spark计算框架使用HDFS(HBase)迚行存储Hive的组成Metastore用来保存结构化数据SchemaHive Engine编译,优化,运行查询诧句Hive ServerHive代理服务器,支持JDBC连接Hadoop组件:HIVE数据挖掘的概念数据挖掘是从大量数据中挖掘有趣模式和知识的过程(数据中的知识发现,KDD)。数据挖掘的步骤(迭代序列)数据清理:消除噪声和删除不一致数据集成:多种数据源组合在一起数据选择:从数据库(或数据仓库)提取与分析人物相关的数据
11、数据变换:通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式数据挖掘:使用智能方法提取数据模式模式评估:根据某种兴趣度度量,识别代表知识的真正有趣的模式知识表示:使用可视乎和知识表示技术,向用户提供挖掘的知识数据挖掘的步骤数据清洗和集成知识数据库选择和变换数据挖掘评估和表示数据仓库模式数据挖掘的模式数据挖掘的模式类/概念描述:特征化与区分频繁模式、相关性和关联预测分析:分类和回归聚类分析:异常挖掘(离群点分析)评价模式的有效易被人理解在一定确信度上,对于新的或检验数据是有效的是潜在有用的是新颖的数据挖掘:多学科融合数据挖掘统计学信息检索数据仓库数据库机器学习应用模式识别高性能计算算法可视化D
12、W五层模型架构的简介上层需求驱动底层业务驱动DW五层模型架构的简介数据来源及建模方式服务领域数据过程描述ST层数据来自DW层,采用维度建模,星型架构前端报表展现,主题分析,KPI报表从DW层的数据进行粗粒度聚合汇总,如按年、月、日、季度对维度进行聚合生成业务需要的数据。DM层数据来自DW层,采用维度建模,星型架构数据挖掘,只定义查询,应用集市从DW层的数据进行粗粒度聚合汇总,按照业务需求对数据进行拉宽形成宽表。DW层数据来自DWD层,是DW事实层,采用维度建模,星型架构,可分为DWD和DWS层为EDW提供各种统计汇总数据从DWD成进行轻度清洗、转换、汇总聚合生成DW层数据,例如:时间、位置转换
13、、业务转换,按照各个维度进行聚合汇总DWD层数据来自ODS层,是DW明细事实层,数据模型是ODS一致为EDW提供各主题明细数据根据ODS增量数据进行分区加载到hadoop hive成全量数据。ODS层数据准备层,数据来源是各业务系统的源数据,物理模型和业务系统模型一致为其他逻辑层提供数据,为统一数据视图子系统提供数据实时查询通过C3平台、CRM系统等把业务数据和流量数据抽取成文本文件。ODS概念Operational Data Store :操作型数据存储,简称ODS。数据仓库之父W.H.Inmon于1995年提出了操作型数据存储(Operational Data Store)的概念:ODS为
14、企业提供即时的,操作型的,集成的数据集合,具有面向主题性,集成性,动态性,即时性,明细性等特点。由该定义可以看出,Inmon提出ODS概念的本意,是要弥补数据仓库在支持即时的、明细的、轻量集成的操作数据时的不足。ODS作为数据库到数据仓库的一种过渡形式,在企业数据架构中形成了DB-ODS-DW的三层体系结构。ODS层功能ODS层是数据仓库准备区为DWD层提供基础原始数据减少对业务系统的影响建模方式及原则数据保留时间根据实际业务需求而定按照周期hive分区表存储,存储周期不长按照主题逻辑划分数据模型、粒度和业务系统数据模型保持一致(3NF:第三范式)从业务系统以增量方式抽取加载到ODSDWD层功
15、能为DW层提供来源明细数据提供业务系统细节数据的长期沉淀为未来分析类需求的扩展提供历史数据支撑建模方式及原则数据模型与ODS层基本一致(3NF)不做清洗转换处理按照天、月、年进行分区建表用增量ODS层数据经过汇总和前一天DWD表进行合并(merge)处理DW层功能为DM、ST层提供细粒度数据,细化成DWB和DWSDWB是根据DWD明细数据进行清洗转换,例如区域转换、业务处理、终端转换、网络转换、脏数据清理等DWS是根据DWB层数据按各个维度进行粗粒度汇总聚合,例如按照区域、逻辑区域、网络类型进行汇总建模方式及原则聚和、汇总增加派生数据实体关联其他主题的实体表(经分系统其他业务域),DW层可能会
16、跨主题域(话务经分域等)数据模型可能采用反范式设计、合并信息等DM层功能这一层可以是宽表,是根据DW层数据按照各种维度或多种维度组合把需要查询的一些实体字段进行汇总统计并作为单独的列进行存储满足一些特定查询、数据挖掘应用应用集市数据存储建模方式及原则尽量减少数据访问时的计算,优化检索维度建模,星型模型实体拉宽,度量预先计算分表或分区存储ST层功能ST 层面向用户应用和分析需求,包括前端报表、分析图表、KPI、仪表盘、OLAP、专题等分析,面向最终结果用户适合作OLAP、报表模型,如ROLAP、MOLAP根据DW层经过聚合汇总统计后的粗粒度实体表建模方式及原则保持数据量小维度建模,星型模型各种维
17、度代理键+度量不分表存储增加数据业务日期字段,支持数据重跑(局部)ST的数据会从Hadoop导入DBMS系统DW五层模型框架特点细化DW建模对DW中各个主题业务进行了细分,每个层次具有不同的功能保留了最细粒度数据满足了不同维度,不同事实的信息满足数据重新生成不同层次的数据支持数据重新生成无需备份恢复解决了由不同故障带来的数据质量问题消除了重新初始化数据的烦恼减少应用对DW的压力以业务应用驱动为向导建模,通过ST、DM层提供数据避免直接操作基础实体表降低数据获取时间快速适应需求变更适应维度变化明细基础数据层稳定,适应前端应用层需求变更所有前端应用层模型之间不存在依赖,需求变更对DW整个模型影响小
18、能适应短周期内上线需求BI 成熟度数据已被视为现代企业最重要的资产,根据企业如何在日常生产经营活动中使用其信息数据资产,我们可以把现代企业的BI成熟度划分为2个阶段,5个成熟度。企业IT重心后移,需要处理海量的结构化数据企业IT重心从支持在线交易后移到运营分析 数据仓库已经成为企业IT的投资重点 数据仓库从报表到BI传统报表希望不再是“T+1”,希望更加实时 希望更加个性化,支持灵活查询 “大”和“快”成为当前阶段的重要诉求“大”:数据量加速增长,需要进行海量数据处理,进入 “Big data”时代“快”:业务监控实时化,实时分析决策 SQL 数据操作的分类1.汇总:group by、cube
19、、rollup、grouping sets、over(partition by) (over 分析函数、开窗函数)。2.合并: union all、union3.补齐:join 、left join、map join4.过滤:where 5.转换:case when,castSQL 优化步骤、方式找出性能瓶颈系统资源的监控:cpu、IO、network、内存、socket链接Application UI 查看 stage 情况及其各个stage task 执行情况、查看task GC 情况查看各种日志:hive.log、yarn Log、container 的日志 查看数据的格式、大小等Yar
20、n aplication list 查看是否其他任务在跑(spark、MR任务)MR 和Spark 做对比性能测试使用explain 查看SQL的执行计划使用jstack 查看核心进程的情况,分析问题拆解SQL 分步执行,找出瓶颈从业务逻辑上进行优化SQL 优化步骤、方式1.mapjoin 的使用2.task 数量的优化set mapred.reduce.tasks=X;a)spark Shuffle timeout:timeout:Error communicating with MapOutputTracker,减少reduce 数量,越小越不容易timeout3.小文件的优化:合并input.format 减少map 数量set bineHiveInputFormat
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 直线与圆课件-2026届高三数学二轮专题复习
- 早教课件考试试题及答案
- 2026九年级上语文我看写作手法分析
- 烟草工艺学试题及答案
- 2026二年级数学下册 万以内数能力测试
- 企民双入户制度
- 企业心理咨询制度
- 乌鲁木齐铁路局奖惩制度
- 广东金融学院奖惩制度
- 高中生学习组奖惩制度
- 《药理学》课件-第1章 绪言
- 【《空巢老人的生活现状和服务需求研究-以杭州市XX区为例》9000字(论文)】
- 非结核分枝杆菌病诊断与治疗指南(2025年版)
- 2024-2025学年度南京信息职业技术学院单招《职业适应性测试》模拟试题附参考答案详解(轻巧夺冠)
- GB/T 5563-2025橡胶和塑料软管及软管组合件静液压试验方法
- 上海市经信委课题申报书
- 2024-2025学年度辽宁经济职业技术学院单招数学试题及答案详解一套
- 高压电工安全培训课件
- 哈他瑜伽教学课件
- 铲运机司机岗前考核试卷及答案
- 2025年儒林外史选择题库及答案
评论
0/150
提交评论