2025 GOPS 全球运维大会暨研运数智化技术峰会·北京站:从AI Infra到AI AgentAI全栈运维的实践之路_第1页
2025 GOPS 全球运维大会暨研运数智化技术峰会·北京站:从AI Infra到AI AgentAI全栈运维的实践之路_第2页
2025 GOPS 全球运维大会暨研运数智化技术峰会·北京站:从AI Infra到AI AgentAI全栈运维的实践之路_第3页
2025 GOPS 全球运维大会暨研运数智化技术峰会·北京站:从AI Infra到AI AgentAI全栈运维的实践之路_第4页
2025 GOPS 全球运维大会暨研运数智化技术峰会·北京站:从AI Infra到AI AgentAI全栈运维的实践之路_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

栈运维的实践之路2025.6.272025.6.27 汇报人李都目目录AI全栈概述AI领域的发展AIGC热潮AIGC热潮己的模型。运维面临着如何支持AI万卡集群炼丹万卡集群炼丹24年下半年,基模大战已经接近尾声,24年下半年,基模大战已经接近尾声,形成大量用户调用头部几个厂基模的MaaS服务的局面。此时我们运维主要思考如何保证接口稳定性、用两台H20就可以部署一个满血版平台。如何运维好自己的AI平台是现在,MCP协议带来AI应用开发AIAI全栈什么是AI全栈程、AIagent和应用。AI时代的运维工作已经演变成AI全栈AIAI模型以一站式大模型服务平台的形式,为终端用户提供开AI平台什么是大模型猫万卡训练集群的诞生保存数据集载入显存训练读取保存数据集载入显存训练读取梯度更新存储介质GPU卡…海量的数据集不断增加卡的数量,带来机内卡间互联不断增加机器的数量,带来机间互联大模型训练的关键目标和影响因素•核心目标:缩短训练任务时间,加快迭代效率算力问题算力问题•万卡集群无法避免出现坏卡问题和宕机问题•GPU禁令导致坏卡维修困难,维修恢复时间较长•运维最佳实践是做到硬件问题的故障的快速发现和快速隔离•云厂商遵循NV的维修标准,使用运维事件驱动运维操作。包括云厂商带外监控和用户主动上报NV不同故障类型的处置方式大模型训练的关键目标和影响因素•核心目标:高效读写数据,快速恢复训练存储问题存储问题·Checkpoint机制:周期性地将训练状态写入到高性能文件存储中,以便在发生故障时能够快速恢复·根据业务成本和故障率来决定打CheckPoint的频率,太过频繁会打扰训练,频率太低则重新训练时间长·AI训练需要的存储产品:吞吐高(100GB/s)、并发高(支持100亿小文件元数据的高并发读操作)、延大模型训练的关键目标和影响因素•核心目标:加快并行计算的沟通效率,缩短训练任务时间•大尺寸模型训练任务需要的GPU数量(8卡->百卡->千卡->万卡)远远超过单台GPU服务器卡数,服务器之间的数据传输需要大带宽网络支撑•以RDMA为基础建立高性能的网络架构,绕开网卡、CPU、PCIE的瓶颈。•网卡/网线故障的快速隔离和热修复:如果每个网卡到交换机的链路每5年才发生一次故障,10万卡集群平均故障发生也只需要26.28分钟•高性能网络上的实践:更高的带宽,更小的爆炸半径事件驱动型自动化运维运维事件流程订阅和消费运维事件模型平台和模型推理服务根据想实现的任务作业来选择不同能力,不同精度,不同响应延时的模型。简单任务可以选择小尺寸模型,快速推理任务需要高吞吐量的模型根据性能指标(如准确率,召回率)、成本(token费用)来选择不同的模型确保模型符合行业隐私要求,避免数据泄漏。或者选择在本地可运行的开源模型推理模型平台的构建•准备好AIinfra的环境•安装推理框架•加载模型服务•构建AI网关如何保证服务连续性比如GPU掉卡或者vllmbug。如何AIAI网关DeepSeek/QwenVllm/sglang存储介质高网如何高效利用资源安全和quota管理高可用的推理服务架构设计•LLM智能路由•API网关混合调度AI平台的运维实践在资源配额维度提供了多策略来提高任务的出队效任务分配不同的优先级权限将算力资源按照企业组织),算力抢占策略算力抢占:将算力资源拆分为了三级,灵活定制算力抢占。多级Quota管理配置抢占策略AI网关的最佳实践AI应用的全栈运维AI应用的发展•随着MCP的兴起,当前的AI应用已经从提示词工程转变为多Agent编排AIAIAgent趋势UniversalAgentsMulti-AgentsUniversalAgentsMulti-AgentsPlatform-LevelAgentsInstructionsPlatform-LevelAgentsAgent-UIPlanning/ReasoningAgentSiloed,Single-PurposeAgentsActionsSiloed,Single-PurposeAgentsSmartermodelsusingSmartermodelsusingmoretoolstoaccomplishhighervaluetasksLevelOfIntelligenceMCP标准化了LLMMCP标准化了LLM访问外部数据的方式,简化了不同数据源和工具的集成。MCPProtocolMCPProtocolMCPProtocolMCP使得添加新数据源或工具变得MCPProtocolMCP使得添加新数据源或工具变得简单,无需大幅修改现有系统。MCPMCP提供结构化的访问模式,内置验证,确保数据交互安全且受控。WebAPIsMCP促进了模块化设计,允许独立开发和维护不同组件。MCP协议的运作机制③③⑤将用户的提问和MCPServer返回的结果一MCP和FunctionCalling智谱AI智谱AI数据服务数据服务需要为每个外部函数编写一个JSONSchema格式的功能说明,精心设计一个提示词模版,才能提高FunctionCalling响应的准确率,如果一个需求涉及到几十个外部系统,那设计成本是巨大,产品化成本极高。智谱AI智谱AI通义千问数据服务数据服务统一MCP客户端和服务器的运行规范,并且要求MCP客户端和服务器之间,也统一按照某个既定的提示词模板进行通信,这样就能通过MCPServer加强全球开发者的协作,复用全球的开发成果。从云原生到AI原生的应用演进手机APPIOIOT手机APPAI原生应用架构AI原生应用架构云原生应用架构AgentAgent1Agent2Agent3微服务2微服微服务2微服务3微服务1向量数据向量数据库ServerlessMServerlessMySQL/Redis/OSSK8sK8s大模型(大模型(通义…)GPU大数据(GPU大数据(Blink+ES)CPUCPUAI应用下的运维挑战里云1成本平衡问题部署中多个用户的并发请求,需要有方案找到TPS和成本之间2模型幻觉问题3多模型切换问题4安全合规问题5模型服务高可用问题6闭源模型QPS/Token限制问题鉴权认证、安全、限流、联网搜索AI的货币化:高容量、高可用、强安全、可观测的的LLkAI应用的新架构定时触发器…0代码修改转换http接口为MCP协议–服务注册微服务鉴权认证、安全、限流、联网搜索AI的货币化:高容量、高可用、强安全、可观测的的LLkAI应用的新架构定时触发器…0代码修改转换http接口为MCP协议–服务注册微服务通过IP,域名,ACK/SAESVC,函数计算集成代理WebAPPAPI/路由统一管理通过IP,域名代理基于FC新开发))流程式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论