【FFA 2026】多模态与向量计算 实时体育解说:阿里云和 NVIDIA 打造 Apache Flink 流式 AI 新范式_第1页
【FFA 2026】多模态与向量计算 实时体育解说:阿里云和 NVIDIA 打造 Apache Flink 流式 AI 新范式_第2页
【FFA 2026】多模态与向量计算 实时体育解说:阿里云和 NVIDIA 打造 Apache Flink 流式 AI 新范式_第3页
【FFA 2026】多模态与向量计算 实时体育解说:阿里云和 NVIDIA 打造 Apache Flink 流式 AI 新范式_第4页
【FFA 2026】多模态与向量计算 实时体育解说:阿里云和 NVIDIA 打造 Apache Flink 流式 AI 新范式_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

金国强NVIDIA资深解决方案架构师用户请求单次响应123请求3推理响应3请求1推理响应1其他在线实时AI(请求驱动)用户请求单次响应123请求3推理响应3请求1推理响应1模型推理请求2推理响应2响应可以很快,甚至毫秒级由用户请求触发本质上是被动式在线推理响应可以很快,甚至毫秒级由用户请求触发本质上是被动式在线推理离散请求处理对象:离散请求实时判断有状态处理告警持续推理/动作执行可靠性能力支撑(内置)更新状态持续事件流/数据流(源源不断)实时判断有状态处理告警持续推理/动作执行可靠性能力支撑(内置)更新状态事件1事件2事件N事件N事件3事件4事件5容错切换Monitoring可观测性容错切换Monitoring可观测性持续事件流/数据流处理:持续接收实时流入的数据,而非等待单次请求有状态增量处理:保留上下文与历史状态,边到边处理,持续计算大规模分布式实时处理:支持并行扩展、高吞吐、低延迟的实时处理能力稳定与可靠:支持7×24持续运行,具备容错、故障恢复处理对象:连续事件流处理对象:连续事件流/数据流区别不在于单次响应能不能快,而在于AI是否能够处理持续事件流/数据流,进行有状态增量处理,支撑大规模分布式实时处理,并稳定可靠地持续运行。生产级分布式流处理引擎要更好地支撑流式AI,从结构化到非结构化(多模态)的转变让Flink原生支持多模态数据的一等公民处理•统一的数据抽象与类型体系•与上下游生态的无缝集成具备处理AgenticWorkload的能力为Agent提供所需的Primitives和功能•工具调用与外部系统集成面向GPU的计算与资源管理高效利用GPU,支撑本地化推理与计算•异构资源统一管理(CPU+GPU)AI生态友好的开发体验AI生态友好的开发体验•丰富的内置算子与模型服务在很多联赛里,真正配有专业解说的,往往只有少数焦点场次。这个Demo展示的是:在很多联赛里,真正配有专业解说的,往往只有少数焦点场次。这个Demo展示的是:系统直接观看体育比赛直播,像一位评论员一样实时理解场上发生了什么,并生成解说同步带让观众在看比赛的同时,也能听到一位AI评论员的实时解说。原本没有解说的直播,也能变成一种有人陪你看球的体验。相比真人解说覆盖更多长尾赛事解说风格可以自由选择个性化定制相比离线生成比赛进行中,解说同步发生观看过程中可以实时互动可随时提问,或切换解说风格用户弹幕TTSGPU算子CPU算子本地模型远程模型VLM多模态接入多模态算子Agentic算子视频流Sink视频流Source音视频合并Join&MuxNVIDIAVideoCodec图像压缩OutputVideo视频抽帧InputVideoLLMLLM游戏/发布会直播游戏/发布会直播提升观赛/观看体验,增强互动视频处理视频理解上下文与记忆语音生成实时交互智能家居宠物看护智能家居宠物看护工业/安防巡检智能眼镜料理指导API层API层Agent算子高吞吐低延迟弹性扩缩与资源管理异构资源Runtime层高吞吐低延迟弹性扩缩与资源管理异构资源Runtime层DistributedStreamingRuntime分布式协同执行能力上与SQL/TableAPI等价不是新的执行引擎,能力上与SQL/TableAPI等价不是新的执行引擎,而是Python-facing上层API无缝互操作相关内置算子能力可通过面向AI/数据工程面向AI/数据工程/数据科学开发者的自然入口工作流程低上手门槛AI数据富化场景importpyflink.dataframeaspdvideo_df=pd.from_table("input_video_stream")video_df.with_column("frames",extract_frame(col("video"))).with_column("compressed_frames",compress_image(col("frames"))).select("segment_id","compressed_frames"))编译到现有TableAPI,并由Flink优化器与Runtime执行TableAPI&SQL逻辑计划与统一语义FlinkDistributedStreamingRuntimefaulttolerance·connectorsPython数据生态熟悉的Python开发体验+Flink生产级流处理能力多模态算子将复杂模态拆分为更小粒度的单元Composition(合成)让多模态数据在流式管线中“开箱即用、标准高效、无缝协同”将复杂模态拆分为更小粒度的单元Composition(合成)标准内置处理层覆盖常见多模态处理场景,标准内置,降低开发门槛,提升一致性与效率。重复造轮子,成本高语义不统一,难以协同优化空间被遮蔽Planner无法识别UDF语义,无法进行解码/编码消除、下推、CSE等优化。可观测与可维护性不足黑盒处理难观测,指标监控难标准化,问题定位与变更排查效率低。类型体系割裂多模态数据与Flink内置类型(IMAGE/TENSOR/FILE/VECTOR)不融合,schema表达和跨系统互通成本开箱即用,降低门槛统一语义与类型体系与Flink类型体系深度集成,函数语义、参数、返回、错误模式统一,跨API一致。可被识别与优化Planner能理解函数语义,支持解码/编码消除、下推、CSE等优化,提升性能,降低成本。企业级可靠与可观测内置超时重试、并发控制,批处理,指标与日志,稳定可靠,运维友好。生态协同与复用与AIFunction/生态组件紧密协同,面向重用能力无缝协同,构建完整流式AI管线。视频处理音频处理视频处理音频处理•totensor文本处理多模态合成/写出•framestovideo•音视频合成•image/videowrite媒体接入•流媒体Source/Sink•文件/对象读取图像处理•decode/encode•totensor动态拓扑编排记忆与上下文管理一致性增强Agent可观测性提供事件日志、指标与运行观测能力,便于调试与运维AgentDSL动态拓扑编排记忆与上下文管理一致性增强Agent可观测性提供事件日志、指标与运行观测能力,便于调试与运维AgentDSL谁可谕扩展展Agent生态对接输出决策控制指令FlinkAgents架构图FlinkAgents(AgentasOperator)C.工具/模型/MCP调用长期记忆短期上下文事件输入业务事件指标更新音视频流FlinkAgents架构图FlinkAgents(AgentasOperator)C.工具/模型/MCP调用长期记忆短期上下文事件输入业务事件指标更新音视频流传感器数据生态集成ModelProviderVectorStoreSkillFlinkDistributedStreamingRuntime事件驱动分布式协调状态管理Checkpoint故障恢复可观测性可观测性模型调用模型调用记忆与上下文管理动态拓扑编排令StreamingAgentOS持续演进欢迎体验最新版本2VIDEOCODEC,OPTICALFLOWSDKGPUvideoaccelerationPython-baseGPU-AcceleratedVideoDecoding/Encoding•Successor/replacementofVPF•Zero-copyinterfacestopopular•CUDAstreamsupportforoptimizingthroughputSupportedSupportedvideocodecsSupportedvideosurfaceformatsSupportedvideosurfaceformatsYUV4:2:0YUV4:4:4YUV4:2:0YUV4:4:4UnifiedlibraryforGPU-AcceleratedImageDecoding/EncodingNVIDIACV-CUDANVIDIACV-CUDAcodecextensionsforfallback•Zero-copyinterfaces•ExtensiblepluginframeworkwithautoextensiondiscoveryAcceleratedPre-andPost-NVIDIATritonNVIDIATritonInferenceServer•Batchingsupportwithvariableshapeimages.ThroughputspeedupperGPUthrQwen3-4BSource:NVIDIAQwen3deploymenSource:NVIDIAQwen3deploymenTensorRTLLMvs.BF16baseliThroughputscaleswithbatchsizeandreaches16.04x7.82x6.04x864207.76xNVIDIABLACKWELLARCHITECTURE*BlackwellFP4:6556tokens/s/GPU*HopperFP8:432tokens/s/GPUTobringalldynamofeaturestogether1,6001,4001,2001,0008006004002000TTFT1,445.21,048.1645.2Agg.Agg.w/routerDisagg.W/router353025205033.526.5Agg.Agg.w/routerDisagg.W/router12,00010,0008,0006,0004,0002,000010,639.56,355.1Agg.Agg.w/routerDisagg.W/routerSampleApplication:Real-timeSportsCommentaryGPUGPULocalOptimizedNVDEC/NVENC/VideoCodecSDK•推理热点:GPU本地LLM模型改写/风格化,vLLM/SGLang/TRTLLM模型推理加速GPURemoteOptimized•VLM,LLM&TTS模型推理服务decode整体处理速度提升

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论