已阅读5页,还剩34页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据分析关键技术,概述即席查询批量处理流式计算,.,大数据计算分析模式分类,即席查询Ad-HocQuery,批量处理BatchProcessingMap/Reduce,流式计算StreamComputing,数据承载,响应时间,适用场景,磁盘,秒级(准实时),自然人交互式经营分析,磁盘,分钟级至小时级(准实时),事前/事后大批量数据处理,内存(事件窗口非全量数据),秒级(实时),实时事件分析实时风险干预,针对不同的业务领域,需要采用不同的数据计算分析方式,快速发现数据价值。,.,即席查询,即席查询(AdHoc)是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询是用户自定义查询条件。,即席查询,Storage,DistributeFileSystem,ColumnDatabase,ResourceManagement,ParallelComputeFramework,SQLSyntax+ComputeFramework,SQLSyntax,MetaData,BatchProcessing,Ad-HocQuery,实时性:高,.,批量处理,Storage,DistributeFileSystem,ColumnDatabase,ResourceManagement,ParallelComputeFramework,SQLSyntax+ComputeFramework,SQLSyntax,MetaData,BatchProcessing,Ad-HocQuery,MapReduce是一种编程模型,用于大规模数据集的并行批量计算。概念Map和Reduce当前的主流实现是指定一个Map函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce函数,用来保证所有映射的键值对中的每一个共享相同的键组。形成这种模型的原因是:数据的分布式存储、计算资源的分布式、并行计算减少计算时长。,批量处理,实时性:低,.,流式计算,流数据的实时计算注重对流数据的快速高效处理、计算和分析。其特点是计算过程数据不落地,所有数据在内存中完成。其计算模型是根据规则生成容器,当数据流经过容器时,实时产生分析结果。,流式计算,InputAdapter,OutputAdapter,EngineCluster,ClusterManagement,RuleRepository,NoSQL,实时性:高,.,概述即席查询批量处理流式计算,.,ImpalaNode,Impala架构,Impalad,QueryPlanner,QueryCoordinator,QueryExecEngine,CommonHiveQL&Interface,MetaData,SQL,JDBC,HiveMetaStore,HDFSNN,StateStore,Impalad,QueryPlanner,QueryCoordinator,QueryExecEngine,Impalad,QueryPlanner,QueryCoordinator,QueryExecEngine,Data,HDFSDN,HBase,Data,HDFSDN,HBase,Data,HDFSDN,HBase,ImpalaNode,ImpalaNode,LocalDirectReads,Thrift,.,Hive架构,Data,HDFSDN,TaskTracker,JobTracker,NameNode,Hadoop,Hive(OverHadoop0.20.X),SQL,JDBC,WUI,ThriftServer,Driver(Compiler,Optimizer,Executor),MetaStore,ThriftServer:JDBC通过ThriftServer连接到Hive。ThriftServer连接MetaStore来读取hive的元数据信息。MetaStore:在关系型数据库中存放表/分区/列元数据,可以低延迟的快速的访问到需要的元数据信息。Driver/QueryCompiler/ExecutionEngine:客户端提交的HiveSQL首先进入Driver,然后Driver会为此次HiveSQL的执行创建一个Session,Driver维护整个session的生命周期。Driver首先将HiveSQL传送给QueryCompiler,然后由QueryCompiler来对用户提交的HiveSQL进行编译/检查/优化并最终生成MapReduce任务。ExecutionEngine会与Hadoop进行交互,将MapReduce任务交给Hadoop来执行,并从Hadoop取得最终的执行结果,并返回给用户。,解析HiveSQL之后生成所MapReduce任务,在运行中访问元数据信息时,将直接读取生成的物理计划时产生的plan.xml,此文件会被放入Hadoop的分布式缓存中,MapReduce任务可以从分布式缓存中获得相应的元数据。,.,Impala相对于Hive的优势,Impala不需要把中间结果写入磁盘,省掉了大量的I/O开销。,省掉了MapReduce作业启动的开销。MapReduce启动task的速度很慢(默认每个心跳间隔是3秒钟),Impala直接通过相应的服务进程来进行作业调度,速度快了很多。,Impala借鉴了MPP并行数据库的思想,可以做更多的查询优化,从而省掉不必要的shuffle、sort等开销。,使用了支持Datalocality的I/O调度机制,尽可能地将数据和计算分配在同一台机器上进行,减少了网络开销。,用C+实现,做了很多有针对性的硬件优化。对外提供多语言API、多种访问协议。,中间结果,作业调度,作业分发,数据访问,代码实现,.,概述即席查询批量处理流式计算,.,MapReducev0.23.x(YARN),NodeManager,Container,AppMaster,NodeManager,Container,AppMaster,NodeManager,Container,ResourceManager,Client,Client,JobSubmission,Container,MapReduceStatus,ResourceRequest,NodeStatus,从0.23.0版本开始,Hadoop的MapReduce框架完全重构。新的HadoopMapReduce框架命名为MapReduceV2YARN,.,概述即席查询批量处理流式计算PrimetonCEPStorm,.,流数据处理技术对比传统规则引擎(概念),按时间区间、按长度区间、按时间与长度混合区间、按特有属性值等规则所建立起的对象集合,存放在内存中。若动画中,再对已分类的硬币进行自动打包,有两种方式:1.判断槽中的硬币数量,触发打包动作;2.判断槽中的硬币重量,触发打包动作;,窗口模式,如动画中对硬币的分拣动作:可以根据硬币的物理属性设计不同的判断规则(轨道宽度,转角等),完成分类。,决策判断,.,普元CEP平台架构,事件采集层,Agent,Agent,Agent,Agent,外部系统,系统A,系统B,系统C,系统D,接入层,InputCluster1n,分析引擎平台,结果执行层,规则库,分析引擎OSGiBased,分析引擎OSGiBased,接入层,OutputCluster1n,分析规则开发(离线开发),规则开发IDE(EclipseBased),Action,Action,Action,Action,应用门户(功能松耦合),管理门户(规则模板生命周期管理),运维门户(引擎监控、全局配置、自动化部署),业务门户(规则实例业务参数配置),分析集群运行环境,管理控制环境,.,普元CEP平台特色,基于云计算PaaS架构分布式集群管控框架,系统级物理主机/虚拟机管理,进程级服务实例管理,集群配置分析规则热更新/热部署,与虚拟机镜像结合分析服务快速部署,与规则库结合规则插件快速部署,集群通知渠道规则实例快速应用,自动化、图形化运维,事件分析平台,面向数据流,基于内存,内存状态数据迁移,冷热数据分离与恢复,集群规模水平伸缩,事件动态路由,分析规则开发、管理与应用,规则模板开发IDE,事件元数据,类SQL规则语言,Action元数据,Web规则实例配置与热部署,Web规则模板管理,.,分布式集群管控框架,AnyOS,持久化集群,AMQPMQ集群,ZooKeeper集群,Web控制台(无状态,多实例),负载均衡(SessionSticky),物理/逻辑拓扑,规则模板模板,状态,规则实例,监控业务进程(过滤/聚合)(SupportZKClient),ZKClient,OS(SupportNodeJS),监控业务进程(过滤/聚合)(unSupportZKClient),ProcessDaemon(NodeJS+ZKClient),OS(unSupportNodeJS),监控业务进程(过滤/聚合)(unSupportZKClient),ProcessDaemon(Java+ZKClient),OSAgent(NodeJS+ZKClient+MQClient),OSAgent(NodeJS+ZKClient+MQClient),OSAgent(Java+ZKClient+MQClient),管控服务,ZK客户端,DB客户端,MQ客户端,.,规则部署与配置场景,运维人员,Repository,业务Console,业务人员,DB,CEPEngine1,CEPEngine2,CEPEngine3,ZooKeeper,3.下载规则的表单页面,2.保存规则到仓库,运维Console,4.规则参数配置,5.保存规则参数配置,6.保存规则参数配置到ZooKeeper,engine1,Rule1,Rule2,Rule3,engine2,Rule4,engines,7.通知Engine,1.上传规则部署包,8.下载规则,2.保存规则信息到DB,.,接出层,分析引擎,接入层,分析引擎A,规则实例A1,规则实例A2,规则实例An,规则实例A3,分析引擎B,事件路由1,事件路由p,事件路由,事件去重1,事件去重q,事件去重,NoSQL,负载均衡(可选),事件输入,事件输出,集群管理,MQ,MQ,事件,分析规则,1:n,分析引擎实例,n:1,规则,规则实例B1,规则实例B2,规则实例Bn,规则实例B3,普元CEP关键技术事件路由与去重,多副本冗余增强可靠性,.,分析引擎,实例3,实例4,实例2,普元CEP关键技术实例状态复制,接出层,接入层,实例1,实例A1,实例A2异常,实例A3,事件路由,事件去重,事件输入,事件输出,实例A4新增,场景说明实例A2异常实例A4新增,Context,Context,Context,Context包括最终接收事件号状态对象,关键步骤1从A1或A3中选择一个实例,如A3,关键步骤2将A3工作暂停,获得其Context此时A1正常工作,A2已经退出,A3暂停,关键步骤3创建新的实例A4(未启动状态)将Context复制到A4中恢复A3的工作状态,启动A4,关键点业务不中断事件去重完成对重复事件的过滤可靠性取决于集群内实例个数,C,C,C,D,状态数据迁移与备份,.,JVM,普元CEP关键技术规则实例水平迁移,内存,规则数,事件量,JVM1,分析引擎,事件大小,容量预估模型,规则实例m,事件*,状态*,分布式集群管理框架,规则实例n,事件*,状态*,规则实例x,事件*,状态*,NoSQL(MongoDB),JVM1,规则实例m,事件*,状态*,规则实例x,事件*,状态*,JVM2,规则实例x,事件*,状态*,运行期实时监控,系统容量扩展,.,普元CEP关键技术基于OSGi的规则部署包,规则库目录结构和导出规则部署包的目录结构一致,方便部署和下载CEPEngine规则库的目录结构与console的规则库目录结构区别在于web目录。一个rule目录作为一个OSGi的bundle,rules,Javapackage,classes,rule1.rule,eps,eps1.eps,lib,3rd1.jar,Action1.class,ExtFunc.class,rule1,eventSource,event1.event,event2.event,web,form1.jsp,rule2,Listener1.class,META-INF,MANIFEST.MF,ext,extconfig1,OSGiBundle,规则库/部署包,规则模板热部署,.,普元CEP1.5平台(主机管理),.,普元CEP1.5平台(集群管理),.,普元CEP1.5平台(实例管理),.,普元CEP1.5平台(规则模板管理),.,普元CEP1.5平台(规则实例管理),.,普元CEP1.5平台(状态监控),.,普元CEP1.5平台(规则模板元数据),.,普元CEP1.5平台(规则实例业务参数配置),.,普元CEP1.5平台(规则包),.,概述即席查询批量处理流式计算PrimetonCEPStorm,.,Storm基本概念,Stream,Spout,Bolt,StreamingGrouping,Task,Work,消息流,一个无尽的Tuple序列。,Topology,规则拓扑,由多个Spout和Bolt组成。,消息发送器,区分可靠与不可靠。,消息处理器,业务逻辑载体,多入多出。,消息分组方式,数据进入Blot的策略。,工作任务,可以是Spout或
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国塑料玩具纸箱仿真纸项目投资可行性研究报告
- 中国藠头项目投资可行性研究报告
- 丸形拉力棒行业深度研究报告
- 中国电站锅炉微机控制系统项目投资可行性研究报告
- 2025年下半年住房城乡建设部信息中心招聘易考易错模拟试题(共500题)试卷后附参考答案
- 2025双方委托加工合作合同范本
- 2025年下半年云南西双版纳州农业农村局下属事业单位招聘易考易错模拟试题(共500题)试卷后附参考答案
- 304不锈钢管行业深度研究报告
- 2025年下半年云南省玉溪市澄江县政府服务管理局招聘12人易考易错模拟试题(共500题)试卷后附参考答案
- 盐酸地尔硫行业深度研究报告
- 二零二五年度游戏账号交易结算电子合同模板
- 脑出血临床管理指南2023课件
- 小学一年级10以内加法口算卡片直接打印A
- 2025年海南省万宁市招聘事业单位工作人员笔试高频重点提升(共500题)附带答案详解
- 人教版一年级数学上册《看图列式计算》专项练习题(含答案)
- 《物联网工程应用-基于人工智能经典案例》全套教学课件
- 华为5G基站日常维护操作手册
- 内蒙古自治区乌兰察布市初中联盟校2024-2025学年七年级上学期期中语文试题(含答案)
- 【MOOC】信号与线性系统-华中科技大学 中国大学慕课MOOC答案
- 3.2.1探秘“钠女士”被困的原因 课件 高一上学期化学苏教版(2019)必修第一册
- 2024版高中物理公式大全及知识结构图
评论
0/150
提交评论