【FFA 2026】平台AI实践 腾讯基于 Flink 2.x 打造 AI 计算引擎的探索与实践_第1页
【FFA 2026】平台AI实践 腾讯基于 Flink 2.x 打造 AI 计算引擎的探索与实践_第2页
【FFA 2026】平台AI实践 腾讯基于 Flink 2.x 打造 AI 计算引擎的探索与实践_第3页
【FFA 2026】平台AI实践 腾讯基于 Flink 2.x 打造 AI 计算引擎的探索与实践_第4页
【FFA 2026】平台AI实践 腾讯基于 Flink 2.x 打造 AI 计算引擎的探索与实践_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

打造AI计算引擎的探索与实践业务场景升级FlinkforAI体系化实践全链路、多场景业务需求驱动人工智能技术浪潮驱动特征工程、实时训练、在线推理发展路线一致腾讯对实时智能计算的核心需求社区面向AI场景的RoadMap探索实践业务场景升级FROMTransactionsAStLEFTJOINUserProfileFORSYSTEM_TIMEASOFtprocTimeASuONtuserId=uuserId;WorkerJNIProcessorTrainerWorkerProcessorModelDumpModelCacheSourceTrainerK8sK8sFlinkAutoScalepushnodesLBProxyPrometheusEDSServerMetricsreportloadModelServingModelServing…ModelServingK8sPredictFunctionSourceSinkClient调用独立性批量语义GPU密集型场景增多调用独立性批量语义GPU密集型场景增多跨平台服务部署可扩展性SyncI/OAsyncI/OAsyncBatchI/OaabcdDatabaseDatabaseabcdxsendRequest(x)xreceiveResponse(x)waitabcdabcdaabbDatabaseasyncInvoke(asyncInvoke(List<IN>inputs,ResultFuture<OUT>resultFuture)timerbatchFlushIntervalDatabase/InferenceServerflushBufferretrystrategycapacity*maxBatchSizependingBatchesinflightBatchesasyncCallDurationMsasyncCallFailuresAsyncBatchFunction社区代码差异持续扩大社区代码差异持续扩大拥抱开源生态拥抱开源生态面向未来演进面向未来演进离线批量打标Iceberg/Iceberg/FlinkJar+本地算子DataLakeDataLake…5w条/batchGPU缺点•缺点•全量打标耗时6-8小时,无法日更•batch重跑(5万条),恢复15-30min•无Exactly-Once,重复数据3%-5%•每周人工介入2-3次重跑优点•开发简单,Python脚本即可上手•Python生态丰富,模型调用灵活FlinkJarFlinkJar+本地算子NodeNode缺点缺点•模型硬编码在Jar中,迭代周期2-3天•技术栈割裂,联调3-5人天优点•Flink状态管理+Checkpoint容错•流批一体,复用Flink生态•生产稳定运行,7×24长时稳定FlinkJar+本地算子模型推理模型推理挑战挑战•端到端Exactly-Once优点•算子复用:多任务共享,开发量-70%选型方案远程模型服务远程模型服务gRPC长连接池乡AsyncIO异步解耦重试/熔断/降级Flink数据流引擎Source(Pulsar/Iceberg/THive)PythonAPI→数据科学同学Sink(Iceberg/Pulsar/下游)状态管理+Exactly-OnceFLINK-38857·PR#27385—IntroduceTritoninferencemoduleunderflink-models在flink-models下新增flink-model-triton可选模块(Flink2.3起可用)CREATEMODELtriton_text_classifier…'provider'='triton','endpoint'='h廿p://triton:8000/v2/models','model-name'='text-classification',);SELECTid,outputaspredicted_sentimentFROMML_PREDICT(TABLE…,MODELtriton_text_classifier,DESCRIPTOR(…));全链路优化手段基础层(1-2min):GPU利用率>80%/排队>100→扩容精细层(5min窗口):P99<80ms/错误率<0.1%多模型差异化调度(AsyncIO异步解耦)传统HPA:大模型冷启动~40min,被动扩容来不及AHPA:基于7天同时段流量预测,提前30min扩容快扩慢缩+15min冷却期,避免频繁抖动nl监控可观测性nl监控可观测性核心指标:QPS/P50/P99/错误率/GPU利用率告警规则:P99>100ms/错误率>0.5%自动告警落地场景数据管道(日均150亿+条/8模型串联)成功-Iceberg成功-IcebergSink失败-死信队列PulsarSourcePulsarSource),SELECTraw_text,quality_score(raw_text)ASquality,--质量评分模型safety_check(raw_text)ASsafety,--安全审核模型lang_detect(raw_text)ASlang,dedup_hash(raw_text)AShash--语种检测模型--去重哈希模型…FROMpulsar_source8模型推理失败率~0.8%未来规划全链路、多场景2.x版本升级提效•持续跟进2.x版本升

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论