版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Flink在万亿级数据流下的稳定性与工程化大数据实时计算高级研发工程师演讲人背景与成效基于Flink在反诈的深度实践落地实践两大难题StreamPark任务治理下一步发展规划业务背景背景与成效严峻挑战:攻防对抗持续加剧近年来,电信网络诈骗黑色产业链呈现出“跨境化、组织化、技术化”的深度演变。从早期的为此,中国联通积极贯彻落实国务院部际联席会议精神,紧跟工信部“精准治理、源头管控”的核心要求。面对日趋严峻的技术攻防常态攻防历程攻防历程诈骗方式持续迭代更新,诈骗剧本日新月异,攻防酒店/医院固话诈骗针对不法分子在公共机房非法安装通信设备的行为,建设话务突增及特定硬件流量监测的反制模型。境外被叫引流追踪针对境外不法分子利用特定号码作为短信预留号实施的诈骗,使用信令监测等手段对号码位置迁移进行反制。境内短信引流诈骗针对不法分子通过短信(如包裹未领等场景)预留号码实施的诈骗,针对被叫突增等异常开展专项模型反制。诈骗小头目识别在不法分子实施诈骗前联系测试卡时,基于关联图谱模型,精准识别诈骗团队关键骨干及头目。实时分析全网异常呼叫转移业务,构建覆盖主叫、被叫、固话跳转的风险识别体系。基于特定通信流特征构建号码识别能力,动态识别高风险仿冒交互热点。针对跨地域、机卡分离等异常行为进行监控,建立针对新型卡种的风险反制体系。偷盗卡涉诈识别针对借机、招工骗局等偷盗卡场景,依据话务突变、换机等异常行为开发专项模型。高危涉诈APP识别依托涉诈网络流量分析,实现对涉诈应用及关联拓线号码多维度特征的识别。202320242025末联通涉案占比持续下降20%2025月均关停号码大幅减少100%48%37%2023202320242025末联通涉案占比持续下降20%2025月均关停号码大幅减少100%48%37%202320242025反诈成效精准识别对恶意号码的精准识别与拦截;通过对全量虚拟运营商异常行为的实时监测,持续输出高效干预行业赋能基于Flink在反诈的深度实践整体思路据数据接入、模型检出、实时据数据接入、模型检出、实时取证、实时预警全链路流式思路实时进行特征指标运算、检万亿级全量上网日志探索(6省)万亿级全量上网日志探索(6省)40+核心挑战:核心挑战:海量多源异构数据需要实时接入,保证数据延迟可控模型实时化改造现状、痛点业务现状:基于Hive的定时离线模型核心痛点:高延迟与高资源开销集群算力资源峰值集群算力资源峰值常态模型计算延迟):):1.多维异构数据接入层实时语音话单未接通话单180天话单历史全量用户信息复机事件实时信令调证黑名单最新位置快照实时流(Kafka)1.多维异构数据接入层实时语音话单未接通话单180天话单历史全量用户信息复机事件实时信令调证黑名单最新位置快照实时流(Kafka)离线/快照(HDFS/Doris)维表/候选(HBase/MySQL)用户资料标签历史检出中间表终端TAC维表行业短信历史2.Flink标签工厂(前置加工:流批融合+状态维护)A.话单状态加工B.离线融合补全C.画像实时更新D.位置快照聚合KeyedState增量维护当日频次指标;关联HDFS历史,MapState应对乱序补算。键指标。HBase维核心价值3.Flink模型计算层(事件驱动检出:多维关联+有状态过滤)Union/StateAsyncI/OCoProcess规则交集检出。3.Flink模型计算层(事件驱动检出:多维关联+有状态过滤)Union/StateAsyncI/OCoProcess规则交集检出。剔除白名单、阈值外正常话Window/MapState通过实时、离线标签进行二4.输出与容错层实时推送研判平台生产实践成果高并发订阅流(Kafka高并发订阅流(Kafka)▲统一任务调度与运维监控资源调度(StreamPark)指标监控(Prometheus)状态监听自动拉起可视化看板(Grafana)服务发现(Nacos)▲实时数据处理层外部订阅队列风控安全平台客服系统行业共享平台AI智能外呼分布式实时计算(Flink)字段清洗数据还原业务标准化·有状态流计算:KeyedState/窗口/定时器·多源异构流接入:Union/Connect/CoProcess·Checkpoint容错机制离线数仓实时计算缓存关系型数据库实时分析引擎高速缓存业务数据库核心业务话单数据计费话单·用户标签·业务特征列式分布式存储(HBase)历史缓存静态维表核心网络、信令数据信令流量·上网日志·网络状态离线与多维模型数据用户信息·静态配置·过滤标签安全合规风控数据安全管控·黑白名单·设备特征分布式存储区公共支撑组件高频数据交互流计算400+数据量记录数万亿+检出时延提高实时性SparkStreaming数据需要离线分析业务近实时要求流批一体存储数据一致性保证处理架构简化事件驱动提高实时性SparkStreaming数据需要离线分析业务近实时要求流批一体存储数据一致性保证处理架构简化事件驱动多实时数据源、数据量大规则匹配在存储层面流和批割裂外部组件赖较高状态大DataStream/SQL2024-至今流式湖仓演进状态支持不好延时性高业务交付价值研发效率提升联调返工率降低规范生成:对照概念+落地说明生成代码业务交付价值研发效率提升联调返工率降低规范生成:对照概念+落地说明生成代码Schema约束实例反馈实例反馈对照实现层Schema约束实例反馈实例反馈对照实现层本体+Aı研发架构概念层(业务词典)读懂概念层先懂业务,而不是只看代码片段读懂概念层生成并校生成并校验概念在系统里怎么落地实时计算作业处理算子/链路消息通道与存储形态实践踩坑落地实践两大难题规模化后的两堵“墙“万亿规模上网日志的接入计算与存储的双重危机混合拓扑高频掉线多省混合接入·并行度大·网络抖动易全局fail-over万亿/日吞吐挑战实时接入逼近物理极限·网络和磁盘持续高压存储小文件风暴件拖垮Hive元数据调度更稳清洗·入湖清洗·入湖·主链不变流批一体·快照元数据小文件多查询慢分省、分域万亿/日吞吐挑战万亿/日吞吐挑战存储小文件风暴存储小文件风暴分布式自治调度分布式自治调度Flink流式入湖Iceberg后台Compaction流式湖仓演进千亿级真实场景生产基准验证测试集规模(真实反诈日志)测试集规模(真实反诈日志)1,000亿行分析查询3,600秒+常态化客户端OOM分析查询湖仓内置后台自动Compaction查询规划耗时Metastore锁死查询规划耗时毫秒级感知元数据快照直接下推ApacheIceberg湖仓架构业务简化流程的时间线:重启风险重启风险重跑取证逻辑状态被搅乱痛点与根源外部系统共享查询外部系统共享查询重启后的副作用重复执行用户侧重复外呼;外呼已触发,快照未完成即2.重复走取证逻辑系统侧重放→再查话单、再选对端、再写旁路。算力浪费、任务内状态/子任务计数被搅乱跨系统一致性盲区最终目标:任务无论从任何时间点挂掉,始终和外呼平台保持状态同步外呼结果回写MySQL实时取证计算外呼平台实时大屏实时查询号码状态实时取证计算外呼平台实时大屏实时查询号码状态维护号码关键状态推送需要取证的号码 获取号码外呼结果拉取号码送入外呼队列推送需要取证的号码 获取号码外呼结果拉取号码送入外呼队列回填外呼结果外呼外呼丢弃存涉诈号码话单读一定不为监控号码一定不为监控号码外呼更新state(否定缓存)、丢弃可能为监控号码涉诈号码存话单丢弃读稳定性治理联通基于ApacheStreampark的流式计算平台化实践基于StreamPark实时作业的全生命周期管理,生产环境稳定运行超三年400+StreamPark实时作业管理SQL管理资源配置参数管理状态跟踪指标大屏项目管理作业管理400+StreamPark实时作业管理SQL管理资源配置参数管理状态跟踪指标大屏项目管理作业管理集群管理变量管理告警管理多租户管理StreamPark实时作业DevOps流水线状态监控发布部署状态监控发布部署项目创建项目创建gitgit设置流批一体计算引擎Flink流批一体计算引擎FlinkSQL/FlinkStreamAPIbuild打包作业创建作业创建发布上线发布上线启动停止启动停止状态实时跟踪状态实时跟踪监控页面跳转监控页面跳转指标查看指标查看构建日志查看构建日志查看运行日志查看运行日志查看多方式告警多方式告警SteamPark元数据统一管理CataLog管理流表管理存储一体流批一体湖仓一体存储一体流批一体湖仓一体LakeHouse批量计算实时增量计算流批一体存储一致ACID索引&物化视图StreamPark支持Kubernetes容器资源调度NativeSessionNativeApplication极低延迟数据集成&低延迟入湖入湖JDBCDorisDBClickHouseStreamPark支持YARN集群资源调度YARNSessionYARNApplicationYARNPre-Job联通基于ApacheStreampark的流式计算lSt
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年柳州市柳北区中小学编制教师招聘笔试模拟试题及答案详解
- 2026年云南省昭通市中小学编制教师招聘考试备考题库及答案详解
- 2026年呼和浩特市新城区中小学编制教师招聘笔试参考试题及答案详解
- 2026年安徽省中小学编制教师招聘考试备考试题及答案详解
- 2025年安庆市郊区中小学编制教师招聘笔试试题及答案详解
- 2026年伊春市上甘岭区中小学编制教师招聘笔试参考题库及答案详解
- 江苏省南通市通州区2025-2026学年下学期八年级数学期末试卷(含部分答案)
- 2025年九江市浔阳区中小学编制教师招聘考试试题及答案详解
- 2026年临沧地区临翔区中小学编制教师招聘笔试参考题库及答案详解
- 2026年梅州市梅江区中小学编制教师招聘笔试模拟试题及答案详解
- 2026年教科版小学科学五年级下册期末综合测试卷及答案
- 2025年广东省惠州市惠阳区中考一模语文试题(含答案)
- 尿管留置的并发症预防与管理
- 2026年及未来5年市场数据中国黑猪养殖行业市场调查研究及发展战略规划报告
- 《煤矿瓦斯抽采工程设计标准》
- 《油气输送管道工程顶管法隧道穿越设计规范》SYT 7022-2023
- GB/T 47092-2026焦炉煤气制取乙二醇技术规范
- GB/T 46809.1-2025半导体器件第19-1部分:智能传感器智能传感器的控制方案
- 地理初高中知识衔接课件
- 知识产权管理体系内审员培训试题含答案
- 信息系统安全审计方案
评论
0/150
提交评论