2025年AI+研发数字峰会(AiDD峰会):基于开源技术栈构建智能弹性大模型推理服务的架构实践_第1页
2025年AI+研发数字峰会(AiDD峰会):基于开源技术栈构建智能弹性大模型推理服务的架构实践_第2页
2025年AI+研发数字峰会(AiDD峰会):基于开源技术栈构建智能弹性大模型推理服务的架构实践_第3页
2025年AI+研发数字峰会(AiDD峰会):基于开源技术栈构建智能弹性大模型推理服务的架构实践_第4页
2025年AI+研发数字峰会(AiDD峰会):基于开源技术栈构建智能弹性大模型推理服务的架构实践_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于开源技术栈构建智能弹性大模型推理服务的架构实践目录I.大模型推理对基础设施服务带来新的挑战II.KNative基于请求数的自动弹性策略III.AHPA优化大模型的智能弹性IV.Fluid:弹性数据集编排和加速V.模型加载优化VI.Demo演示Web/mobileapplications-Stateless高性能网络高性能网络异构算力高性能存储DataonDataonKubernetes2022大模型推理对基础设施服务带来新的挑战••大模型对基础设施服务能力的挑战是阶跃式的。•资源成本:如何充分利用有限计算资源•运维成本:降低复杂度成本规模•资源成本:如何充分利用有限计算资源•运维成本:降低复杂度成本规模性能•算力:千卡GPU任务,万卡集群•数据:PB级存储,TB级吞吐•网络:800Gbps~3.2TbpsRDMA•训练:分布式,混合并行•推理:模型优化、服务QoSGPT3:175B参数,单次训练使用45TB数据,近千卡A100/1个月,成本数百万美元。大模型推理对基础设施服务带来新的挑战大模型弹性面临的问题大模型弹性面临的问题数数大模型启动冷启动问题资源调度镜像拉取容器启动模型下载推理启动启动耗时长基于基于GPU的弹性,并不能完全反映业务的真实使用情况,而基于并发数或者每秒处理请求(QPS/RPS),对于推理服务来说更能直接反映服务性能,KnativeServing提供了基于请求的自动弹性能力ActivatoroncontainerConcurrencyPod数=并发请求总数/(Pod最大并发数*目标使用率)ActiveeY••构建容器ServerlessFramework解决方案,基于K8s开放标准,被用户平台集成,同时可插拔•丰富阿里云Serverless产品家族,同时打造更面向应用的Serverless容器平台 ASMASM云服务器云服务器ECS弹性容器实例弹性容器实例ECI弹性裸金属服务器弹性裸金属服务器EBM公共云、专有云公共云、专有云异异标准化产品化•提供UI控制台差差高集成性性高可用ECS和ACS混合使用常态情况下使用ECS资源,ECS和ACS混合使用常态情况下使用ECS资源,突发流量使用ACS资源资源预热完全使用ACS的场景,也可以通过保留资源池实现资源预热00保留实例POD(A10)PODPOD(A10)POD(A10)PODPOD(T4)POD(A10)PODPOD(A10)POD(T4)POD)AHPA优化大模型的智能弹性固定实例数HPACronHPA智能弹性资源提前预热固定实例数HPACronHPA智能弹性解决客户弹性滞后冷启动的问题,通过弹性预测,提前预热资源。AHPA优化大模型的智能弹性调度拉取用户镜像创建用户容器模型下载推理服务就绪应用运行调度拉取用户镜像创建用户容器模型下载推理服务就绪应用运行启动过程提前扩容的因素适合模型推理场景适合模型推理场景apiVersion:v1kind:ConfigMapmetadata:name:application-intelligencenamespace:kube-systemdata:prometheusUrl:":9443/api/v1/prometheus/da9d7dece9f1db4c9fc7f5b9c40e93e/1581204543170042/417d182c6d430fb062ec364e6dfb49/cn-shanghai"指标源配置智能弹性:主动预测+被动预测伸缩指标主动预测被动预测伸缩对象KnativeFluid:弹性数据集编排和加速核心功能:提高数据访问效率。Fluid使vLLM+Qwen系列开源LLM模型推理服务启动耗时缩短10.3倍(32B)、14.9倍(72B)OSS存储OSS存储卷OSS存OSS存储卷框架初始化AI应用侧模型文件预读1发预读对LLM模型文件,最大化利用单个AIAI应用侧模型文件预读1发预读对LLM模型文件,最大化利用单个AI应用Pod的可用带宽,加2容,为多个AI应用Pod分配更大的可用带宽,支撑模型加载过程的高本地缓存 分布式存统缓系模型文件模型文件缓系模型存储Fluid解决方案Fluid解决方案模型加载(从文件系统读取)模型加载(命中PageCache)现存问题模型参数文件(.safetensors)读取过模型参数文件(.safetensors)读取过Tensor3Tensor2Tensor1使用方法二:应用容器调用FluidSDK使用方法二:应用容器调用FluidSDK使用方法一:使用方法一:Sidecar预取Fluid解决方案Fluid解决方案ee现存问题现存问题模型存储

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论