版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
打造AI计算引擎的探索与实践业务场景升级FlinkforAI体系化实践全链路、多场景业务需求驱动人工智能技术浪潮驱动特征工程、实时训练、在线推理发展路线一致腾讯对实时智能计算的核心需求社区面向AI场景的RoadMap探索实践业务场景升级FROMTransactionsAStLEFTJOINUserProfileFORSYSTEM_TIMEASOFtprocTimeASuONtuserId=uuserId;WorkerJNIProcessorTrainerWorkerProcessorModelDumpModelCacheSourceTrainerK8sK8sFlinkAutoScalepushnodesLBProxyPrometheusEDSServerMetricsreportloadModelServingModelServing…ModelServingK8sPredictFunctionSourceSinkClient调用独立性批量语义GPU密集型场景增多调用独立性批量语义GPU密集型场景增多跨平台服务部署可扩展性SyncI/OAsyncI/OAsyncBatchI/OaabcdDatabaseDatabaseabcdxsendRequest(x)xreceiveResponse(x)waitabcdabcdaabbDatabaseasyncInvoke(asyncInvoke(List<IN>inputs,ResultFuture<OUT>resultFuture)timerbatchFlushIntervalDatabase/InferenceServerflushBufferretrystrategycapacity*maxBatchSizependingBatchesinflightBatchesasyncCallDurationMsasyncCallFailuresAsyncBatchFunction社区代码差异持续扩大社区代码差异持续扩大拥抱开源生态拥抱开源生态面向未来演进面向未来演进离线批量打标Iceberg/Iceberg/FlinkJar+本地算子DataLakeDataLake…5w条/batchGPU缺点•缺点•全量打标耗时6-8小时,无法日更•batch重跑(5万条),恢复15-30min•无Exactly-Once,重复数据3%-5%•每周人工介入2-3次重跑优点•开发简单,Python脚本即可上手•Python生态丰富,模型调用灵活FlinkJarFlinkJar+本地算子NodeNode缺点缺点•模型硬编码在Jar中,迭代周期2-3天•技术栈割裂,联调3-5人天优点•Flink状态管理+Checkpoint容错•流批一体,复用Flink生态•生产稳定运行,7×24长时稳定FlinkJar+本地算子模型推理模型推理挑战挑战•端到端Exactly-Once优点•算子复用:多任务共享,开发量-70%选型方案远程模型服务远程模型服务gRPC长连接池乡AsyncIO异步解耦重试/熔断/降级Flink数据流引擎Source(Pulsar/Iceberg/THive)PythonAPI→数据科学同学Sink(Iceberg/Pulsar/下游)状态管理+Exactly-OnceFLINK-38857·PR#27385—IntroduceTritoninferencemoduleunderflink-models在flink-models下新增flink-model-triton可选模块(Flink2.3起可用)CREATEMODELtriton_text_classifier…'provider'='triton','endpoint'='h廿p://triton:8000/v2/models','model-name'='text-classification',);SELECTid,outputaspredicted_sentimentFROMML_PREDICT(TABLE…,MODELtriton_text_classifier,DESCRIPTOR(…));全链路优化手段基础层(1-2min):GPU利用率>80%/排队>100→扩容精细层(5min窗口):P99<80ms/错误率<0.1%多模型差异化调度(AsyncIO异步解耦)传统HPA:大模型冷启动~40min,被动扩容来不及AHPA:基于7天同时段流量预测,提前30min扩容快扩慢缩+15min冷却期,避免频繁抖动nl监控可观测性nl监控可观测性核心指标:QPS/P50/P99/错误率/GPU利用率告警规则:P99>100ms/错误率>0.5%自动告警落地场景数据管道(日均150亿+条/8模型串联)成功-Iceberg成功-IcebergSink失败-死信队列PulsarSourcePulsarSource),SELECTraw_text,quality_score(raw_text)ASquality,--质量评分模型safety_check(raw_text)ASsafety,--安全审核模型lang_detect(raw_text)ASlang,dedup_hash(raw_text)AShash--语种检测模型--去重哈希模型…FROMpulsar_source8模型推理失败率~0.8%未来规划全链路、多场景2.x版本升级提效•持续跟进2.x版本升
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山东省德州市平原县2027届物理八上期末监测试题含解析
- 2026秋教科版小学六年级上册科学暑假预习核心考点
- 智能穿戴电子产品生产线项目技术方案
- 水泥熟料生产线项目技术方案
- 苏教版七下数试题及答案
- 2026年韩国美女测试题及答案
- 2026年关于紫砂培训学校测试题及答案
- 2026年酸碱盐除杂测试题及答案
- 2026年td模拟测试题及答案
- 2026年高考会计技能测试题及答案
- 2026广东环境保护工程职业学院第一批招聘事业编制工作人员6人笔试参考题库及答案详解
- 2026年新疆中考历史试卷(含答案)
- 2025年教师结构化面试真题及答案解析
- 2026湖北武汉创发科技产业有限公司招聘3人考试参考题库及答案详解
- (2026版)特种设备安全管理人员考试题库及答案试卷
- 2026中国热带农业科学院院属单位第二批招聘备考题库完整参考答案详解
- 临床疼痛患者全程护理模式实践-带状疱疹患者旅程地图
- 2025-2026学年统编版道德与法治八年级下册阶段模拟试卷(含答案)
- 火针疗法在皮肤科的应用
- 小学法制副校长工作制度
- 宫腔镜器械使用与维护
评论
0/150
提交评论