版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、万亿级实时流计算架构技术创新,变革未来流计算在运营商中有什么用途?应用领域:时延敏感的应用领域 网络层面:实时性能监控故障预测位置信息服务:实时人流(标签)实时标签用户行为预测1大数据在运营商网络维护和优化中的应用举例高铁沿线短信中 心疑似病毒URL清单360确认结果进一步处置: 信安中心进 一步确认、 提醒、直接 封堵2高铁模拟路测故障双向定界病毒短信检测平台架构3平台与数据规模APP#3CPU CORE480数据量约50TB/天记录数约1200亿/天4Storm的主要组件Storm平台的 物理结构5一个Topology的 逻辑结构实践经验(1):从SDTP到Flume Source:透传
2、Vs. 落盘【问题描述】在Flume出现流量瓶颈,说的更准确一些,是在Flume的前一级服 务器出现数据堆积透传,单线程落盘,多线程6实践经验(2):Kafka的流量“陷阱”【问题描述】Kafka出现瓶颈7实践经验(3):运算结果的更新方式:增量式 Vs. 覆盖式8【问题描述】严重的结果稳定性问题。以某省会城市的5分钟流量为例,比如一 般都在800GB上下,但有时候某一次计算结果突然下降到400GB左右在不考虑数据延迟的情况下,为了计算5分钟的流量,我们需要在Bolt中设置 一个变量hz_bytes以保存中间结果。比如在10:03的时候,hz_bytes中实际保 存了10:00 10:03的该
3、市流量。当10:05时,该Bolt就将hz_bytes的值输出到Redis中。如果这个Bolt所在的Executor在10:03挂掉,Storm会重新选择一个Worker,并 重新调度该Bolt这是Storm的一个最基本的HA机制。但是当Bolt重新启动 后,hz_bytes却已经丢失了之前暂存的10:0010:03流量。所以,最后写出到Redis的,实际上是10:0310:05的流量。这就是结果中流量 会突然减少的原因。增量式覆盖式性能?健壮性?实践经验(4):数据倾斜与分片【问题描述】因某个Bolt处理的数据量特别大,导致集群性能严重不足。【例】如果计算每个地市的总 流量(某省的话,总共是
4、11个 地市),一种做法是直接根据 地市对数据进行分片,然后直 接汇总。但是由于某些大城市 的流量特别大,从而导致处理 这些地区Bolt的压力特别大, 从而大幅度延缓了整个Toplogy的处理性能。9【解决办法】先CELL级别汇总, 后地市级别二次汇总【额外的性能开销?】实践经验(5):Redis的吞吐能力【问题描述】因Redis读写能力不足,导致批量写Redis的Bolt出现性能瓶颈。内存操作单线程非阻塞IO(EPOLL)10如何定位Storm UI中“读写Redis”的Bolt会频繁抛出类似“Redis连接池满,无法获得连 接”、“Redis连接被复位”的ExceptionRedis采用的
5、是单线程模型,因此,当出现性能瓶颈时,会有一个CPU CORE的使用率接近100%,这个可以通过“mpstat -P ALL”看到实践经验(6):数据延时的计算方法力【问题描述】在现网调测和后期运行的过程中,如何确定数据延时的“分布”2类值得关注的数据延时从Flume进,到Kafka出从Flume进,到Storm输出最终结果(端到端延时)11【基本思想】Flume源端随机 生成测试数据,Storm端发现 并保存数据实践经验(7):原始数据的清洗与过滤【问题描述】处理的数据量严重偏少,统计出来的流量值只有其他途径的1/2”在Spout端统计Storm处理的数据总量、过滤数量及由Spout最终Em
6、it出来的量, 以文件的形式保存,并通过脚本将数据进行统计处理习惯与“脏数据”共事,对大数据从业者而言很重要!12实践经验(8):基站小区活跃用户数的统计方法【问题描述】在尽可能少消耗系统资源前提下,在误差允许的范围内,实时计算基站小区的活跃用户数(类似于UV的实时计算?)最准确的方法用HashSet保存手机号码Bloom FilterHyperLogL og资源消耗误差统计结果的 可聚合性13流计算系统的监控重点关注Flume、Kafka、Storm、Redis等各主要进程运行是否正常?数据在“流转”过程中在任何节点都不会出现“积压”? 混入的测试数据的计算结果是否正确?Flume数据积压测试记录KafkaKafka ManagerKafka Offset MonitorStorm:Storm UISpout和B
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026 育儿幼儿音乐和声创新课件
- 2026 儿童适应能力目标设定课件
- 2026 育儿儿童科学数据精准分析课件
- 设备检维修管理制度
- 剪力墙结构建筑消防安全管理规定
- 护理岗位护理措施实施与评价
- 【完整版】渠道施工方案
- 立体车库设计答辩
- 护理教育评价
- 安全教育礼仪
- (高清版)JTGT 3360-01-2018 公路桥梁抗风设计规范
- 2024届高三语文二轮复习:语段压缩概括之指定句式表述
- 2023起重机械安全技术规程
- 2023年政府《采购法》相关知识考试题库与答案
- 游戏耳机市场细分与定位报告
- 煤矿班组长安全培训-万名班组长培训计划教材课件
- 深圳深圳亚迪学校初中部小升初数学期末试卷测试卷(解析版)
- 人工智能与科学之美智慧树知到课后章节答案2023年下湘潭大学
- 史上最全船舶演习记录规范(中英文对照)
- 奴尔水库泥沙淤积现状调查及排沙措施的探讨
- 仁爱英语九年级总复习教案
评论
0/150
提交评论