大数据分析关键技术.pptx

上传人：T*** IP属地：江西上传时间：2020-01-02 格式：PPTX 页数：38 大小：5.46MB 积分：16 举报 版权申诉

已阅读5页，还剩33页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据分析关键技术概述即席查询批量处理流式计算大数据计算分析模式分类即席查询Ad HocQuery 批量处理BatchProcessingMap Reduce 流式计算StreamComputing 数据承载响应时间适用场景磁盘秒级准实时自然人交互式经营分析磁盘分钟级至小时级准实时事前事后大批量数据处理内存事件窗口非全量数据秒级实时实时事件分析实时风险干预针对不同的业务领域需要采用不同的数据计算分析方式快速发现数据价值即席查询即席查询 AdHoc 是用户根据自己的需求灵活的选择查询条件系统能够根据用户的选择生成相应的统计报表即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的而即席查询是用户自定义查询条件即席查询 Storage DistributeFileSystem ColumnDatabase ResourceManagement ParallelComputeFramework SQLSyntax ComputeFramework SQLSyntax MetaData BatchProcessing Ad HocQuery 实时性高批量处理 Storage DistributeFileSystem ColumnDatabase ResourceManagement ParallelComputeFramework SQLSyntax ComputeFramework SQLSyntax MetaData BatchProcessing Ad HocQuery MapReduce是一种编程模型用于大规模数据集的并行批量计算概念Map和Reduce当前的主流实现是指定一个Map函数用来把一组键值对映射成一组新的键值对指定并发的Reduce函数用来保证所有映射的键值对中的每一个共享相同的键组形成这种模型的原因是数据的分布式存储计算资源的分布式并行计算减少计算时长批量处理实时性低流式计算流数据的实时计算注重对流数据的快速高效处理计算和分析其特点是计算过程数据不落地所有数据在内存中完成其计算模型是根据规则生成容器当数据流经过容器时实时产生分析结果流式计算 InputAdapter OutputAdapter EngineCluster ClusterManagement RuleRepository NoSQL 实时性高概述即席查询批量处理流式计算 ImpalaNode Impala架构 Impalad QueryPlanner QueryCoordinator QueryExecEngine CommonHiveQL Interface MetaData SQL JDBC HiveMetaStore HDFSNN StateStore Impalad QueryPlanner QueryCoordinator QueryExecEngine Impalad QueryPlanner QueryCoordinator QueryExecEngine Data HDFSDN HBase Data HDFSDN HBase Data HDFSDN HBase ImpalaNode ImpalaNode LocalDirectReads Thrift Hive架构 Data HDFSDN TaskTracker JobTracker NameNode Hadoop Hive OverHadoop0 20 X SQL JDBC WUI ThriftServer Driver Compiler Optimizer Executor MetaStore ThriftServer JDBC通过ThriftServer连接到Hive ThriftServer连接MetaStore来读取hive的元数据信息 MetaStore 在关系型数据库中存放表分区列元数据可以低延迟的快速的访问到需要的元数据信息 Driver QueryCompiler ExecutionEngine 客户端提交的HiveSQL首先进入Driver 然后Driver会为此次HiveSQL的执行创建一个Session Driver维护整个session的生命周期 Driver首先将HiveSQL传送给QueryCompiler 然后由QueryCompiler来对用户提交的HiveSQL进行编译检查优化并最终生成MapReduce任务 ExecutionEngine会与Hadoop进行交互将MapReduce任务交给Hadoop来执行并从Hadoop取得最终的执行结果并返回给用户解析HiveSQL之后生成所MapReduce任务在运行中访问元数据信息时将直接读取生成的物理计划时产生的plan xml 此文件会被放入Hadoop的分布式缓存中 MapReduce任务可以从分布式缓存中获得相应的元数据 Impala相对于Hive的优势 Impala不需要把中间结果写入磁盘省掉了大量的I O开销省掉了MapReduce作业启动的开销 MapReduce启动task的速度很慢默认每个心跳间隔是3秒钟 Impala直接通过相应的服务进程来进行作业调度速度快了很多 Impala借鉴了MPP并行数据库的思想可以做更多的查询优化从而省掉不必要的shuffle sort等开销使用了支持Datalocality的I O调度机制尽可能地将数据和计算分配在同一台机器上进行减少了网络开销用C 实现做了很多有针对性的硬件优化对外提供多语言API 多种访问协议中间结果作业调度作业分发数据访问代码实现概述即席查询批量处理流式计算 MapReducev0 23 x YARN NodeManager Container AppMaster NodeManager Container AppMaster NodeManager Container ResourceManager Client Client JobSubmission Container MapReduceStatus ResourceRequest NodeStatus 从0 23 0版本开始 Hadoop的MapReduce框架完全重构新的HadoopMapReduce框架命名为MapReduceV2 YARN 概述即席查询批量处理流式计算PrimetonCEPStorm 流数据处理技术对比传统规则引擎概念按时间区间按长度区间按时间与长度混合区间按特有属性值等规则所建立起的对象集合存放在内存中若动画中再对已分类的硬币进行自动打包有两种方式 1 判断槽中的硬币数量触发打包动作 2 判断槽中的硬币重量触发打包动作窗口模式如动画中对硬币的分拣动作可以根据硬币的物理属性设计不同的判断规则轨道宽度转角等完成分类决策判断普元CEP平台架构事件采集层 Agent Agent Agent Agent 外部系统系统A 系统B 系统C 系统D 接入层 InputCluster1 n 分析引擎平台结果执行层规则库分析引擎OSGiBased 分析引擎OSGiBased 接入层 OutputCluster1 n 分析规则开发离线开发规则开发IDE EclipseBased Action Action Action Action 应用门户功能松耦合管理门户规则模板生命周期管理运维门户引擎监控全局配置自动化部署业务门户规则实例业务参数配置分析集群运行环境管理控制环境普元CEP平台特色基于云计算PaaS架构分布式集群管控框架系统级物理主机虚拟机管理进程级服务实例管理集群配置分析规则热更新热部署与虚拟机镜像结合分析服务快速部署与规则库结合规则插件快速部署集群通知渠道规则实例快速应用自动化图形化运维事件分析平台面向数据流基于内存内存状态数据迁移冷热数据分离与恢复集群规模水平伸缩事件动态路由分析规则开发管理与应用规则模板开发IDE 事件元数据类SQL规则语言 Action元数据 Web规则实例配置与热部署 Web规则模板管理分布式集群管控框架 AnyOS 持久化集群 AMQPMQ集群 ZooKeeper集群 Web控制台无状态多实例负载均衡 SessionSticky 物理逻辑拓扑规则模板模板状态规则实例监控业务进程过滤聚合 SupportZKClient ZKClient OS SupportNodeJS 监控业务进程过滤聚合 unSupportZKClient ProcessDaemon NodeJS ZKClient OS unSupportNodeJS 监控业务进程过滤聚合 unSupportZKClient ProcessDaemon Java ZKClient OSAgent NodeJS ZKClient MQClient OSAgent NodeJS ZKClient MQClient OSAgent Java ZKClient MQClient 管控服务 ZK客户端 DB客户端 MQ客户端规则部署与配置场景运维人员 Repository 业务Console 业务人员 DB CEPEngine1 CEPEngine2 CEPEngine3 ZooKeeper 3 下载规则的表单页面 2 保存规则到仓库运维Console 4 规则参数配置 5 保存规则参数配置 6 保存规则参数配置到ZooKeeper engine1 Rule1 Rule2 Rule3 engine2 Rule4 engines 7 通知Engine 1 上传规则部署包 8 下载规则 2 保存规则信息到DB 接出层分析引擎接入层分析引擎A 规则实例A1 规则实例A2 规则实例An 规则实例A3 分析引擎B 事件路由1 事件路由p 事件路由事件去重1 事件去重q 事件去重 NoSQL 负载均衡可选事件输入事件输出集群管理 MQ MQ 事件分析规则 1 n 分析引擎实例 n 1 规则规则实例B1 规则实例B2 规则实例Bn 规则实例B3 普元CEP关键技术事件路由与去重多副本冗余增强可靠性分析引擎实例3 实例4 实例2 普元CEP关键技术实例状态复制接出层接入层实例1 实例A1 实例A2异常实例A3 事件路由事件去重事件输入事件输出实例A4新增场景说明实例A2异常实例A4新增 Context Context Context Context包括最终接收事件号状态对象关键步骤1从A1或A3中选择一个实例如A3 关键步骤2将A3工作暂停获得其Context此时A1正常工作 A2已经退出 A3暂停关键步骤3创建新的实例A4 未启动状态将Context复制到A4中恢复A3的工作状态启动A4 关键点业务不中断事件去重完成对重复事件的过滤可靠性取决于集群内实例个数 C C C D 状态数据迁移与备份 JVM 普元CEP关键技术规则实例水平迁移内存规则数事件量 JVM1 分析引擎事件大小容量预估模型规则实例m 事件状态分布式集群管理框架规则实例n 事件状态规则实例x 事件状态 NoSQL MongoDB JVM1 规则实例m 事件状态规则实例x 事件状态 JVM2 规则实例x 事件状态运行期实时监控系统容量扩展普元CEP关键技术基于OSGi的规则部署包规则库目录结构和导出规则部署包的目录结构一致方便部署和下载CEPEngine规则库的目录结构与console的规则库目录结构区别在于web目录一个rule目录作为一个OSGi的bundle rules Javapackage classes rule1 rule eps eps1 eps lib 3rd1 jar Action1 class ExtFunc class rule1 eventSource event1 event event2 event web form1 jsp rule2 Listener1 class META INF MANIFEST MF ext extconfig1 OSGiBundle 规则库部署包规则模板热部署普元CEP1 5平台主机管理普元CEP1 5平台集群管理普元CEP1 5平台实例管理普元CEP1 5平台规则模板管理普元CEP1 5平台规则实例管理普元CEP1 5平台状态监控普元CEP1 5平台规则模板元数据普元CEP1 5平台规则实例业务参数配置普元CEP1 5平台规则包概述即席查询批量处理流式计算PrimetonCEPStorm Storm基本概念 Stream Spout Bolt StreamingGrouping Task Work 消息流一个无尽的Tuple序列 Topology 规则拓扑由多个Spout和Bolt组成消息发送器区分可靠与不可靠消息处理器业务逻辑载体多入多出消息分组方式数据进入

人人文库> 全部分类> 专业文献 > 工业制造

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据分析关键技术.pptx

文档简介

温馨提示

最新文档

评论

大数据分析关键技术.pptx

文档简介

温馨提示

最新文档

评论

相关文档