【FFA 2026】多模态与向量计算 AI-Native Flink Runtime:面向多模态数据处理的引擎改进_第1页
【FFA 2026】多模态与向量计算 AI-Native Flink Runtime:面向多模态数据处理的引擎改进_第2页
【FFA 2026】多模态与向量计算 AI-Native Flink Runtime:面向多模态数据处理的引擎改进_第3页
【FFA 2026】多模态与向量计算 AI-Native Flink Runtime:面向多模态数据处理的引擎改进_第4页
【FFA 2026】多模态与向量计算 AI-Native Flink Runtime:面向多模态数据处理的引擎改进_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ShenZhenStructured/Semi-structuredDataFlinkDataOperators图片/视频音频文档用户行为/商品内容内容理解:图片审核/视频抽帧理解/音频识别/文档OCR决策链路里的模型增强:风控/推荐/广告/智能客服模型推理正在成为Map/CPU(p=2)关键问题关键问题初始化加载模型逐条推理/自行攒批Al推理强行塞进通用算子模型容错、弹性和性能都会受限AsyncFunctionAsynccallTritonMetricsBackpressure(吞吐/延迟)(反压/水位)两套系统转发/鉴权/网络链路转发/鉴权/网络链路当推理是Flink数据处理链路的一部分时,两套系统之间缺少统一的协同模型加载模型加载面向多模态数据处理场景的特性,对引擎优化改进---GPU资源调度(FLIP-592)②算子服务化:RpcOperatorService(FLIP-582/FLIP-594)first-first-class资源声明(推理算子)算子服务化故障隔离独立扩缩负载均衡完善GPU资源调度,提升GPU资源利用率数据面/FlinkDAG数据面/FlinkDAG在线扩缩,数据流不中断利用率/显存灵活负载均衡按负载路由/均衡请求算子服务化实例动态增减,连接不中断推理面/RpcOperatorService按负载路由/均衡请求算子服务化实例动态增减,连接不中断独立资源按需申请/作业自动申请CPU/GPU资源部署DAG与ROS,高效稳定地处理多模态数据RpcOperatorService容错改进容错改进无断流扩缩容OrganizedbyAlibabaCloud配置繁琐每个TM都要带GPU,难以独立扩缩分数GPU易超用0.5/0.25支持不完备,容易OOM异构资源调度CPU/GPU资源解耦,GPU资源池可运行CPU算子任务调度CPU任务运行GPU推理/ROS任务accelerator_type,A10/L20A10/L20GPU指标可观测RpcOperatorService容错改进容错改进无断流扩缩容开发/部署/---classModelServiceextendsAbstractRpcOperatoropen(ctx):loadmodelpredict(text):resultRosDescriptor.builder("model-svc").setAccelerator("A10",0.5)env.addRpcService(descriptor)C=ctx.getRosClient("model-svc")c.request("predict",value).thenAccept(out.collect)Startsharedserviceenv.startSharedRpcOperatorService(RosDescriptor.builder("embed-svc")多个算子服务(ROS)之间直接编排,形成服务链"embed-svc"sharedacrossjobs/applicationlifecyclemultisharedacrossjobs/多模型multi-stageservice-to-serviceRPC服务间RPCJobMaster/(registerendpoint)失败/超时失败/超时路由决策依据处理繁忙retry路由决策依据处理繁忙retry/reroute●失败频率使用限制throughputRpcOperatorService容错改进容错改进无状态+无keyBy:Region可独立上下线GPU算子剥离出DAG,服务实例独立扩缩容---更新执行拓扑!->动态调整连边+FLIP-339AdaptivePartitionSelection2④⑤6deploy/initializeROS实例池(独立pipelined①②③④⑤⑥扩容未就绪不接流,缩容下线先drain---RpcOperatorService无断流扩缩容模型调用模型推理外部服务调用作业运行时间长作业运行时间长●小时~天级执行时间恢复成本成为多模态处理场景的重要关注点服从最近Checkpoint恢复(回退低至秒级)若中间结果已丢失,需重新消费计算Vertex1(Async)Vertex1(Async)→→自动简化为AlignedCheckpoint●·●Embedding1避免长耗时多模态作业CP超时FLIP-547:UnalignedCheckpointDruingRecovery●恢复完成前需消费完RecoveredDataFLIP-547●恢复期间仅加载Buffer●数据消费在Running后进行●恢复时间与数据处理时间解耦●避免频繁故障导致反复回退●多模态场景数据处理慢,收益明显oo减少UC等待时间Async1Async1Async2Async2仅执行不会阻塞的动作效果●Task主线程只执行不会阻塞的动作开启BufferDebloating部Attempt(Current)Region3●局部故障不再导致全局

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论