




已阅读5页,还剩33页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据分析关键技术 概述即席查询批量处理流式计算 大数据计算分析模式分类 即席查询Ad HocQuery 批量处理BatchProcessingMap Reduce 流式计算StreamComputing 数据承载 响应时间 适用场景 磁盘 秒级 准实时 自然人交互式经营分析 磁盘 分钟级至小时级 准实时 事前 事后大批量数据处理 内存 事件窗口非全量数据 秒级 实时 实时事件分析实时风险干预 针对不同的业务领域 需要采用不同的数据计算分析方式 快速发现数据价值 即席查询 即席查询 AdHoc 是用户根据自己的需求 灵活的选择查询条件 系统能够根据用户的选择生成相应的统计报表 即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的 而即席查询是用户自定义查询条件 即席查询 Storage DistributeFileSystem ColumnDatabase ResourceManagement ParallelComputeFramework SQLSyntax ComputeFramework SQLSyntax MetaData BatchProcessing Ad HocQuery 实时性 高 批量处理 Storage DistributeFileSystem ColumnDatabase ResourceManagement ParallelComputeFramework SQLSyntax ComputeFramework SQLSyntax MetaData BatchProcessing Ad HocQuery MapReduce是一种编程模型 用于大规模数据集的并行批量计算 概念Map和Reduce当前的主流实现是指定一个Map函数 用来把一组键值对映射成一组新的键值对 指定并发的Reduce函数 用来保证所有映射的键值对中的每一个共享相同的键组 形成这种模型的原因是 数据的分布式存储 计算资源的分布式 并行计算减少计算时长 批量处理 实时性 低 流式计算 流数据的实时计算注重对流数据的快速高效处理 计算和分析 其特点是计算过程数据不落地 所有数据在内存中完成 其计算模型是根据规则生成容器 当数据流经过容器时 实时产生分析结果 流式计算 InputAdapter OutputAdapter EngineCluster ClusterManagement RuleRepository NoSQL 实时性 高 概述即席查询批量处理流式计算 ImpalaNode Impala架构 Impalad QueryPlanner QueryCoordinator QueryExecEngine CommonHiveQL Interface MetaData SQL JDBC HiveMetaStore HDFSNN StateStore Impalad QueryPlanner QueryCoordinator QueryExecEngine Impalad QueryPlanner QueryCoordinator QueryExecEngine Data HDFSDN HBase Data HDFSDN HBase Data HDFSDN HBase ImpalaNode ImpalaNode LocalDirectReads Thrift Hive架构 Data HDFSDN TaskTracker JobTracker NameNode Hadoop Hive OverHadoop0 20 X SQL JDBC WUI ThriftServer Driver Compiler Optimizer Executor MetaStore ThriftServer JDBC通过ThriftServer连接到Hive ThriftServer连接MetaStore来读取hive的元数据信息 MetaStore 在关系型数据库中存放表 分区 列元数据 可以低延迟的快速的访问到需要的元数据信息 Driver QueryCompiler ExecutionEngine 客户端提交的HiveSQL首先进入Driver 然后Driver会为此次HiveSQL的执行创建一个Session Driver维护整个session的生命周期 Driver首先将HiveSQL传送给QueryCompiler 然后由QueryCompiler来对用户提交的HiveSQL进行编译 检查 优化并最终生成MapReduce任务 ExecutionEngine会与Hadoop进行交互 将MapReduce任务交给Hadoop来执行 并从Hadoop取得最终的执行结果 并返回给用户 解析HiveSQL之后生成所MapReduce任务 在运行中访问元数据信息时 将直接读取生成的物理计划时产生的plan xml 此文件会被放入Hadoop的分布式缓存中 MapReduce任务可以从分布式缓存中获得相应的元数据 Impala相对于Hive的优势 Impala不需要把中间结果写入磁盘 省掉了大量的I O开销 省掉了MapReduce作业启动的开销 MapReduce启动task的速度很慢 默认每个心跳间隔是3秒钟 Impala直接通过相应的服务进程来进行作业调度 速度快了很多 Impala借鉴了MPP并行数据库的思想 可以做更多的查询优化 从而省掉不必要的shuffle sort等开销 使用了支持Datalocality的I O调度机制 尽可能地将数据和计算分配在同一台机器上进行 减少了网络开销 用C 实现 做了很多有针对性的硬件优化 对外提供多语言API 多种访问协议 中间结果 作业调度 作业分发 数据访问 代码实现 概述即席查询批量处理流式计算 MapReducev0 23 x YARN NodeManager Container AppMaster NodeManager Container AppMaster NodeManager Container ResourceManager Client Client JobSubmission Container MapReduceStatus ResourceRequest NodeStatus 从0 23 0版本开始 Hadoop的MapReduce框架完全重构 新的HadoopMapReduce框架命名为MapReduceV2 YARN 概述即席查询批量处理流式计算PrimetonCEPStorm 流数据处理技术对比传统规则引擎 概念 按时间区间 按长度区间 按时间与长度混合区间 按特有属性值等规则所建立起的对象集合 存放在内存中 若动画中 再对已分类的硬币进行自动打包 有两种方式 1 判断槽中的硬币数量 触发打包动作 2 判断槽中的硬币重量 触发打包动作 窗口模式 如动画中对硬币的分拣动作 可以根据硬币的物理属性设计不同的判断规则 轨道宽度 转角等 完成分类 决策判断 普元CEP平台架构 事件采集层 Agent Agent Agent Agent 外部系统 系统A 系统B 系统C 系统D 接入层 InputCluster1 n 分析引擎平台 结果执行层 规则库 分析引擎OSGiBased 分析引擎OSGiBased 接入层 OutputCluster1 n 分析规则开发 离线开发 规则开发IDE EclipseBased Action Action Action Action 应用门户 功能松耦合 管理门户 规则模板生命周期管理 运维门户 引擎监控 全局配置 自动化部署 业务门户 规则实例业务参数配置 分析集群运行环境 管理控制环境 普元CEP平台特色 基于云计算PaaS架构分布式集群管控框架 系统级物理主机 虚拟机管理 进程级服务实例管理 集群配置分析规则热更新 热部署 与虚拟机镜像结合分析服务快速部署 与规则库结合规则插件快速部署 集群通知渠道规则实例快速应用 自动化 图形化运维 事件分析平台 面向数据流 基于内存 内存状态数据迁移 冷热数据分离与恢复 集群规模水平伸缩 事件动态路由 分析规则开发 管理与应用 规则模板开发IDE 事件元数据 类SQL规则语言 Action元数据 Web规则实例配置与热部署 Web规则模板管理 分布式集群管控框架 AnyOS 持久化集群 AMQPMQ集群 ZooKeeper集群 Web控制台 无状态 多实例 负载均衡 SessionSticky 物理 逻辑拓扑 规则模板模板 状态 规则实例 监控业务进程 过滤 聚合 SupportZKClient ZKClient OS SupportNodeJS 监控业务进程 过滤 聚合 unSupportZKClient ProcessDaemon NodeJS ZKClient OS unSupportNodeJS 监控业务进程 过滤 聚合 unSupportZKClient ProcessDaemon Java ZKClient OSAgent NodeJS ZKClient MQClient OSAgent NodeJS ZKClient MQClient OSAgent Java ZKClient MQClient 管控服务 ZK客户端 DB客户端 MQ客户端 规则部署与配置场景 运维人员 Repository 业务Console 业务人员 DB CEPEngine1 CEPEngine2 CEPEngine3 ZooKeeper 3 下载规则的表单页面 2 保存规则到仓库 运维Console 4 规则参数配置 5 保存规则参数配置 6 保存规则参数配置到ZooKeeper engine1 Rule1 Rule2 Rule3 engine2 Rule4 engines 7 通知Engine 1 上传规则部署包 8 下载规则 2 保存规则信息到DB 接出层 分析引擎 接入层 分析引擎A 规则实例A1 规则实例A2 规则实例An 规则实例A3 分析引擎B 事件路由1 事件路由p 事件路由 事件去重1 事件去重q 事件去重 NoSQL 负载均衡 可选 事件输入 事件输出 集群管理 MQ MQ 事件 分析规则 1 n 分析引擎实例 n 1 规则 规则实例B1 规则实例B2 规则实例Bn 规则实例B3 普元CEP关键技术 事件路由与去重 多副本冗余增强可靠性 分析引擎 实例3 实例4 实例2 普元CEP关键技术 实例状态复制 接出层 接入层 实例1 实例A1 实例A2异常 实例A3 事件路由 事件去重 事件输入 事件输出 实例A4新增 场景说明实例A2异常实例A4新增 Context Context Context Context包括最终接收事件号状态对象 关键步骤1从A1或A3中选择一个实例 如A3 关键步骤2将A3工作暂停 获得其Context此时A1正常工作 A2已经退出 A3暂停 关键步骤3创建新的实例A4 未启动状态 将Context复制到A4中恢复A3的工作状态 启动A4 关键点业务不中断事件去重完成对重复事件的过滤可靠性取决于集群内实例个数 C C C D 状态数据迁移与备份 JVM 普元CEP关键技术 规则实例水平迁移 内存 规则数 事件量 JVM1 分析引擎 事件大小 容量预估模型 规则实例m 事件 状态 分布式集群管理框架 规则实例n 事件 状态 规则实例x 事件 状态 NoSQL MongoDB JVM1 规则实例m 事件 状态 规则实例x 事件 状态 JVM2 规则实例x 事件 状态 运行期实时监控 系统容量扩展 普元CEP关键技术 基于OSGi的规则部署包 规则库目录结构和导出规则部署包的目录结构一致 方便部署和下载CEPEngine规则库的目录结构与console的规则库目录结构区别在于web目录 一个rule目录作为一个OSGi的bundle rules Javapackage classes rule1 rule eps eps1 eps lib 3rd1 jar Action1 class ExtFunc class rule1 eventSource event1 event event2 event web form1 jsp rule2 Listener1 class META INF MANIFEST MF ext extconfig1 OSGiBundle 规则库 部署包 规则模板热部署 普元CEP1 5平台 主机管理 普元CEP1 5平台 集群管理 普元CEP1 5平台 实例管理 普元CEP1 5平台 规则模板管理 普元CEP1 5平台 规则实例管理 普元CEP1 5平台 状态监控 普元CEP1 5平台 规则模板元数据 普元CEP1 5平台 规则实例业务参数配置 普元CEP1 5平台 规则包 概述即席查询批量处理流式计算PrimetonCEPStorm Storm基本概念 Stream Spout Bolt StreamingGrouping Task Work 消息流 一个无尽的Tuple序列 Topology 规则拓扑 由多个Spout和Bolt组成 消息发送器 区分可靠与不可靠 消息处理器 业务逻辑载体 多入多出 消息分组方式 数据进入
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论