版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
在线广告系统中基于Flink的数据服务实践刘学成阿里巴巴千问事业部数据技术专家Flink使用场景和技术架构以广告转化系统为详细案例方案带来的收益以及后续规划背景及架构总览信息流&搜索广告数据架构简图实时分析影响决策实时分析影响决策数据清洗维度建模MetaQ数据服务影响线上效果实时数仓数据来源监测服务转化归因ODS层实时BI报表大屏应用TT实验平台实时监控主题聚合周期预计算非结构化数据解析竞价控制实时特征案例详解转化系统全景:一出一回的闭环•触点发送:把APP的曝光/点击处理后,发送给广告主•转化归因:找到广告主回传的转化,对应的曝光/点击曝光/点击处理后发给广告主曝光/点击广告主曝光/点击处理后发给广告主曝光/点击广告主服务端转化回传曝光/点击/转化找回转化对应的曝光/点击高并发秒级延迟多种数据源异构上游复杂业务策略规则各异下游接口各异响应速度不一Exactly-Once只发一次触点发送:本质与挑战高并发秒级延迟多种数据源异构上游复杂业务策略规则各异下游接口各异响应速度不一Exactly-Once只发一次本质:一个发送HTTP请求的实时流——把曝光/点击实时、准确、稳定地投递到各广告主接口稳定性99.9%可用可扩展性一套框架适配多种业务难点不在“发HTTP”,而在这些约束同时成立:高并发×对外部系统×只发一次•Flink:吞吐强→对接多源、state局部去重、对高并发流先做一层“粗过滤”Exactly-Once全局兜底FlinkDataStreamFlinkDataStreamKafka丰富connector对接多源state局部去重高吞吐“粗过滤”一层SpringBoot服务复杂业务策略广告主接口难点攻坚(一):扛得住——高并发&稳定性解法解法高并发/高时效Flink天然支持高吞吐、低延迟;高并行+分区打散,对洪峰先做一层削峰过滤稳定性99.9%27×24对外服务不能中断流量入口流量入口协同消费99.9%可用单机房故障,流量自动切换解法解法任务异地多活部署+FlinkHA,单机房故障流量自动切换难点攻坚(二):接得进·扩得动——多源接入&可扩展性一-一一心代码新业务=加一份配置,不改核心Exactly-Once最有料,单独展开→难点攻坚(三):做得精——业务策略&下游分级路由策略5过滤规则发送解法各业务规则各异、迭代频繁过滤规则发送解法事件放SpringBoot服务实现过滤/改写/路由等策略,灵活易迭代6下游质量参差6各广告主接口响应速度不一分级调度广告主分级调度广告主快快通道解法解法HTTP分级请求,快/中/慢分通道,隔离慢节点、保护整体吞吐Exactly-Once三层去重对外发HTTP、外部系统非事务→端到端Exactly-Once不可能,只能33发送前最后一道闸(SpringBoot内)1FlinkCheckpoint保证At-Least-Once(数据不丢)2Flinkstate去重范式:范式:Flink不丢(At-Least-Once)+外部存储全局去重秒级产出长窗口可达30天乱序到达顺序无保证大状态可达几百TB扩展性逻辑频繁调整转化归因:本质与难点秒级产出长窗口可达30天乱序到达顺序无保证大状态可达几百TB扩展性逻辑频繁调整本质:超长窗口下的乱序多流JOIN——把回传的转化,关联回当初的曝光/点击稳定性99.9%可用Exactly-Once结果不重不漏难点全藏在“超长窗口”和“乱序”里:转化可能在曝光点击后好几天才发生总体方案:FlinkSQL+KV存储高时效表达力高时效表达力高稳定成熟运行时与优化器,作业稳定真正要攻克的是:长窗口、大状态、扩展性、Exactly-Once核心:长窗口+大状态→状态外置转化流点击流维表·生命周期30天数据量几百TB自定义connector实时读写轻量、稳定、重启快转化事实流改模型曝光点击沉到自研KV当维表,转化作事实流关联维表;自定义connector让FlinkSQL实时读写KV→Flink自身近无状态清洗算子策略算子清洗算子与前置链路“配置化框架”一脉相承——把通用流程与业务差异解耦分层各司其职Flink扛吞吐/保时效/粗加工,外部系统(SpringBoot/KV)做精细化与兜底状态外置能不放Flink里的大状态就搬出去,换来作业轻量与稳定Exactly-Once范式复用Flink不丢+外部存储全局去重扩展性下沉到配置前置发送、后置归因,一出一回,共同撑起几十万QPS下的广告转化闭环效果总结累计收入提升10%以上流量规模:峰值几十万QPS累计收入提升10%以上流量规模:峰值几十万QPS广告效果提升6%以上广告效果提升6%以上一套系统,多种业务数据时效:一套系统,多种业务数据时效:毫秒级智能实时业务洞察智能实时业务洞察xuecheng.lxc@驱动全模态实时入湖实践李昊哲阿里云李昊哲阿里云Flink高级产品经理演讲人市场发展趋势与行业痛点背景数据多样化和业务实时化的发展趋势多模态数据融合处理与业务快速迭代响应企业数据从“结构化为主”转向“全模态并存”跃迁至“实时响实”FlinkcDC+AIAINative时代下传统数据湖面临从“被动存储”到“主动智能”,现有架构难以支撑大模型应用的实时性与多模态需求数据层多模态数据“进不来”非结构化数据占比接近90%数据湖中有近90%是非结构化数据传统ETL无法处理图片/音频/视频90%非结构化架构层智能处理“跟不上”离线批处理无法满足实时性要求数据管道缺乏原生AI能力多系统数据流转复杂度高消费层AI模型与数据管道割裂特征工程依赖复杂手工编排推理结果难以实时回流业务核心矛盾:AINative时代大模型应用需要实时、多模态、智能的数据管道,而传统数据湖架构无法满足这一需求全模态实时数据湖技术架构愿景全模态而是“统一语义理解下的多源异构数据融合”实时化流式采集,毫秒级响应智能化数据流内嵌AI:进湖即智能让数据管道原生具备AINative能力FlinkCDC是一款用于处理流批数据的分布式数深度结合数据库的CDC技术,打造的全增量一体化读取的流式数据集成框架,是实现StreamingLakehouse的关键技术。Analytics/BIDatabaseDataLake全增量一体SchemaEvolution从实时数据管道到AI从实时数据管道到AI原生集成,重新定义数据入湖范式Schema自动演化Schema自动推导2.0阶段——声明式数据管道3.0阶段——数据流式智能Dinky、StreamPark开源或自建平台开源开源ApacheFlink引擎开源ApacheFlink内核开源FlinkCDC方案(数据摄入)开源ApacheFlink内核实时计算FlinkCDC方案多模态数据接入开箱即用的托管模型AITransform零门槛配置Token成本透明可控PKshuffle避免数据热点涵盖大数据存储、关系型数据库、MPP、文件存储、消息流等多种上下游端到端DataPipeline一个YAML文本,一个DataPipeline一行Shell命令,一个Flink作业无锁算法保证一致性无需调度系统和手工介入、Autopilot智能调优丰富的同步方案数据入湖、整库迁移、增量同步、分库分表同步、全增量一体化同步功能特性实时场景全覆盖丰富异构数据源高保障运维监控Paimon全模态表02鉴黄/鉴暴/敏感词秒级拦截0403AI不是外置服务,而是嵌入transform环节的可调用能力,上游多源进、下游多湖仓出model:name=llm,type=openai-compatible使用方式注册模型+在transform里写函数调用,两步即可用上AItype:openai-compatiblemodel-name:claude-sonnet-4-6endpoint:https://.../openai/v1transform:AI_SUMMARIZE('openaiModel',content,50)在transform中以函数形式直接调用AITRANSLATEAIMASK零代码门槛SQL即可调用,免写代码内置语义,开箱即用>注册openaiModel后,在projection中即可像普通字段零代码门槛SQL即可调用,免写代码内置语义,开箱即用>可插拔模型替换模型无需改链路Binlog并行解析提升binlog处理吞吐Binlog并行解析提升binlog处理吞吐Binlog并行序列化降低序列化瓶颈优化Debezium参数针对场景调优底层参数过滤无关表数据减少无效读取与传输覆盖BLOB覆盖BLOB/PDF/视频/图像/文本等指标可观测、可追踪成本可控、防止超额多种AI函数与AI模型支持自定义模型接入多模态数据处理智能能力智能能力+成本可控更高吞吐+更低开销更高吞吐+更低开销可用性增强可用性增强作业资源自动调优作业资源自动调优自动调整FlinkCDC作业资源免手动运维调参资源随负载弹性调整保障作业稳定运行免手动运维调参资源随负载弹性调整保障作业稳定运行已覆盖从文本生成到向量化的核心文本智能能力文本翻译AITRANSLATE翻译对应文本文本摘要文本翻译AITRANSLATE翻译对应文本文本摘要提炼文本摘要文本生成文本分类判断类别和置信度情感分析情感分析分析文本情感数据脱敏AIMASK保护敏感信息信息提取提取关键信息openai-compatibledashscopetriton自定义openai-compatibledashscopetriton自定义从YAML声明到运行时调用,形成完整、可扩展的执行链路01YAML01YAML声明pipeline.model声明AI模型,pipeline.transform声明AIFunction使用03Factory03Factory装配ServiceLoader找factory,validate后createClient04表达式绑定04表达式绑定Janino把modelname改写成表达式变量05运行时调用05运行时调用AiFunctions分发到ProviderClient发请求配置装配与执行两层协同,完成从配置到运行的闭环AiModelClient配置/装配层pipeline.model配置AIModel·jection调用AIFunctionAiModelClient配置/装配层AiFunctions执行层AiFunctions执行层Janinocompiler能力接口底座SupportsTextGeneration/SupportsEmbedding—模型具体能力的统一接口通过SPI三件套实现模型的标准化可插拔注入aiChat()→SupportsTextGeneration.generate()aiEmbedaiEmbed()→SupportsEmbedding.embed()Ability接口Ability接口暴露文本生成/向量化能力按SPI发现并创建模型ClientAPIAPI可序列化,下发到算子运行时模型实现(YAML:/model.type)OpenAICompatible计划中计划中实现Client、实现Factory、SPI注册三步即可接入新模型1publicclassMyModelClient1publicclassMyModelClientimplementsAiModelClient,SupportsTextGeneration{}实现AiModelClient提供模型具体能力实现接口并提供generate方法实现ClientFactory暴露标识与创建方法提供实现ClientFactory暴露标识与创建方法提供identifier与createClientpublicclassMyModelFactoryimplementsAiModelClientFactory{AiModelClientcreate完成注册即可使用完成注册即可使用注册Factory并在YAML指type#META-INF/services/...AiM
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 皮肤美容操作教学|果酸换肤 + 术后护理一体化教学
- 医疗专项机电安装专项施工方案
- 一把手抓安全不靠喊口号!5个落地妙招专治形式主义
- 2026年安徽省滁州市中小学编制教师招聘考试备考题库及答案详解
- 2026年江苏省宿迁市事业编单位人员招聘笔试备考题库及答案详解
- 2026年克拉玛依市独山子区中小学编制教师招聘笔试参考试题及答案详解
- 2026年成都市锦江区中小学编制教师招聘笔试备考题库及答案详解
- 2026年宁波市镇海区中小学编制教师招聘笔试参考试题及答案详解
- 2026年黑龙江省大庆市中小学编制教师招聘考试备考试题及答案详解
- 2026年滨州市滨城区中小学编制教师招聘考试参考题库及答案详解
- Transformer架构详解:理解大模型的基石
- 化工和危险化学品生产经营单位二十条重大隐患判定标准释义(中化协)
- 教师读书分享《给教师的建议》课件
- 摩托车分类与类型
- 2023年湖北省高中学业水平合格性考试地理试卷真题
- 小升初数学衔接与过渡
- 菌毒种管理流程图
- 糖尿病酮症酸中毒的护理应急预案及处理流程
- 华为软件开发行为规范方案
- GB/T 12642-2013工业机器人性能规范及其试验方法
- 儿童福利院日常管理方案
评论
0/150
提交评论