实时数据分析服务的架构与实践_第1页
实时数据分析服务的架构与实践_第2页
实时数据分析服务的架构与实践_第3页
实时数据分析服务的架构与实践_第4页
实时数据分析服务的架构与实践_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、新浪微博实时数据分析服务的架构与实践技术创新 变革未来01030402应用场景架构设计05生态建设实践经验未来规划应用场景应用场景 1. 数据分发:日志按维度分拆 2. 数据处理:上下游数据格式无法匹配 3. 数据聚合:执行聚合操作,降低数据维度 4. 业务支持:定制化业务或定向支持应用场景环境复杂 差异大应用需求 频变化数据措大 质措差架构设计Y A R N整体架构DatabusKafka集群HDFS集群实时计算平台离线计算平台数据平台数仓SummonHivePrestoESPinotDatabus:点到点数据 并行总线计算集群:容措调度 器+docker container 实现隔离Sum

2、mon:即席查询 服务实时架构KafkaHDFS分隔符JSONAvro组合PipelineJobPipelineJobSQL数据缓存KafkaHDFSHTTP耗时统计错误统计数据统计延迟统计JVM监控节点监控框架监控堆积监控异常处理分隔符JSONAvro Summon输入输出输入类型KafkaHDFS格式分隔符JSONAvro正则组合输出类型KafkaHDFSHttp格式分隔符JSONAvroSummonReplacerPipeline stageAdder ConvertorSelectorPipeline stageFlattener SplitterPipeline JobPre Cas

3、ewhen stagecondition Pipeline stagePipeline stageProPipeline stageFlattener SubstringSelector数据处理AggSQLUDF UDAF类型子类增加复制、固定值、时间戳选择保留列、删除列替换正则替换、键值替换截取分隔符、正则、固定字符、固定长度拆分分隔符拆分、数组拆分、正则拆分合并数组、列表、 集合、字典展开全部展开、字段展开过滤正则过滤、表达式过滤转换类型转换、转码、日期转换、参数转换操作表达式操作处理器数据处理MetricSpark StreamingFlink何为一站式:相同的配置即可以执行Spark也

4、可以执行Flink,如 果数据措相对较小可以执行以单进程Java执行。配置在各个引 擎上大部分都相同,可能根据框架会略有区别,如框架对sql语 句的支持。如何实现一站式:通过抽象PipelineJob,所有对数据的处理都 是由其进行串联,所以大部分的处理都只需要在Spark或Flink的map或flatMap中执行job即可。 Java为何要一站式:早期的任务大部分为Spark Streaming,也开发了许多UDF,且有较+富的Spark经验,而Flink的实时能力更强。一站式引擎数据缓存外部文件的表注册及缓存Hive表的依赖和缓存 Redis或Etcd的数据依赖或缓存应用配置离线计算使用场

5、景:数据补救 数据测试实现方式:hdfs源:起止时间、开始时间和执行时长kafka源:0.09版本以上的partition和起始offset其它配置与实时完全相同二次开发执行器flatMapSQLforeachPartition处理器入参Map出参Map生态建设生态图Web ServerGrafanaConfig ServerPipeline DControlAlert ManagerMetrics DBZookeeperYarnPipeline读写 读写Web系统应用管理状态管理配置管理控制系统TBScheduler改 造高可用标签控制zookeeperLeaderControllerWor

6、kerLabelLeaderControllerWorkerLabelLeaderControllerWorkerLabel新worker加入均衡新任务加入均衡标签任务分配任务存活监控任务重启监听Leader状态报警类型固定阙值报警同环比报警增措报警超时报警算法报警统计佣件算法类型ARIMARNNTensorflow Time SeriesProphetXgboost报警数据源InfluxdbPrometheus ElasticSearch实践经验分布式配置 1. SparkConf在driver和executor创建时机 2. Spark自定义参数的写入位置 3. Flink自定义参数的写入方式 4. Flink TaskManager参数获取Kafka集群高优先级中优先级低优先级Kafka多版本支持Spark Kafka Direct模式结合StreamingListener实现at least once和at most once语

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论