版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
AI原生应用开发最佳实践从企业级生产痛点到解决方案探索洛浩阿里云高级架构师2025/12/26CONTENTAI原生、Agent驱动为AI而进化的基础设施函数计算FC全新升级,提供AgentRun、模型服务、AIGC创作等核心能力案例场景与最佳实践大规模生成使用的AI案例 几分钟就能生成高质量内容? 几分钟就能生成高质量内容? 在AI领域已经积累什么经验?AICoding:需求、产品设计、开发、测试全流程演进AIOps:运维关注度高,期望能辅助资源管理、快速定位系统问题(Infraor业务)并给住自愈方案,甚至自动化自愈内部工具:BI助手、内外小密、会议助手…汽车出行:智驾训练、座舱推理(ASR、TTS、知识库)、市场营销(AIGC)、汽车设计(AIGC)具身智能:大脑、小脑训练,部分云端推理(LLM、TTS等AI玩具(类具身智能ASR+LLM+TTS+MCP)互娱游戏:搜索推荐、情感陪聊、AIGC-生图/视频/音乐、视频剪辑、智能客服(Chat、语音)、AI网剧教育:虚拟老师、作业批改、答题辅助、AI编程互联网-工具:基模公司-通用Agent、机器人外呼零售:智能选品、市场营销、AIGC-商品图合成/模特换装/辅助设计、智能客服泛企业:丰富的垂类Agent,如智能眼镜、智能音响、合同审核、商标查询、建筑报告…医疗健康、生物医药、法律咨询、物流…为AI而进化的基础设施从AI原生应用架构到Agent构建平台实现快维护成本高模块化负载均衡服务管理高密度部署按量使用极致弹性??流量网关流量网关ESB微服务网关云原生网关AI网关应用发展与基础设施升级的双向驱动存量应用引入智能体应用让业务系统更智能AI应用架构落地难点Web单体应用CodeAgent存量应用引入智能体应用让业务系统更智能AI应用架构落地难点Web单体应用CodeAgent发、部署与市场验证微服务应用ChatAgent事件驱动应用异步任务多智能体编排事件驱动应用异步任务多智能体编排AI基础设施流量应用运行时APIGatewayALB与存量应用打通复用已有业务能力APIGatewayALB与存量应用打通复用已有业务能力云原生容器Agent容器AgentActionsTools云原生ActionsTools云原生可观测AI时代开发者关注业务创新而非基础设施静态资源分配无弹性或分钟级弹性状态管理复杂API驱动依赖网关/MQ实现同步和异步调运维负担沉重从传统架构到AI从传统架构到AI原生架构从Serverless架构到AI原生架构动态弹性状态持久化事件驱动免运维VM/容器运行时AI时代需求Serverless运行时AIAgent的核心组件作用:使AIAgent主程运行起来。原则:运行环境需要隔离、弹性。作用:识别自然语言,然后进行推理并做出决策。原则:选择最合适的大语言模型。(不同的大语言模型有自己擅长的领域和业务场景)忆里也分长期记忆和短期记忆。指令,既系统提示词(SystemPrompt或作用:定义Agent的目标和行为。AI全栈统一监控AI应用统一入口基于Prometheus构建AI全栈监控大盘,包括模型性能分析、Token成本分析、GPU资源异动分析等云工作流AIStudio通义千问DeepSeek模型调用OpenAIGeminiPAI/百炼/FCGPU节点A节点CSAE/ACK/托管Dify端到端链路追踪(代理Agent)基于OpenTelemetryTrace实现用户终端、网关、模型应用、模型服务、外部依赖工具等全链路追踪。 AI全栈统一监控AI应用统一入口基于Prometheus构建AI全栈监控大盘,包括模型性能分析、Token成本分析、GPU资源异动分析等云工作流AIStudio通义千问DeepSeek模型调用OpenAIGeminiPAI/百炼/FCGPU节点A节点CSAE/ACK/托管Dify端到端链路追踪(代理Agent)基于OpenTelemetryTrace实现用户终端、网关、模型应用、模型服务、外部依赖工具等全链路追踪。 一键转化存量业务MCP化存量业务Agent异步……日志存储与评估分析函数计算FC(CPU+GPU)Agent构建统一日志分析平台,对模型调用日志进行二次评估分析,实现质量、安全、意图提取等语义检测。工具调用运行时构建部署AIAgentFunctionWorkflow节点B构建部署AIAgentFunctionWorkflow节点BAgentRun是以高代码为核心,开放生态、灵活组装的一站式A无需管理服务器、容器、GPU卡Agent无代码一键转高代码,支持持续演进AgentRun企业级Agent最佳运行底座细粒度成本归因,每分钱都知道花在哪用户掌握技术选择主动权,避免供应商锁定模型Serverless模型运行时2万+热门模型一键托管到云上环境模型Serverless模型运行时2万+热门模型一键托管到云上环境内置vLLM/SGLang/Ollama/LMDeploy推理框架最快30s将开源模型转化为生产级OpenAI兼容API工具Serverless工具运行时业界首个全生命周期MCP服务市场零改造将开源STDIOMCP升级为SSE/StreamableHTTP智能体智能体助力Qwen助力Qwen3-Coder成为领先的的代码模型会话亲和/隔离架构,满足Agent/Sandbox上下文保持需求零运维、毫秒级弹性、按量付费的企业级安全沙箱,兼容E2BServerless智能体运行时Serverless智能体运行时Serverless运行时已经成为阿里云AI原生应用的核心载体模型服务——AI模型转化为ServerlessAPI开源模型一键部署,AI模型一键Serverless化,云端模型开发部署零门槛语音计算机视觉计算科学多模态语音计算机视觉计算科学多模态模型服务享受PaaS自由度的同时获得SaaS便捷性模型服务享受PaaS自由度的同时获得SaaS便捷性,按调用量付费,模型部署成本降低90%免运维/低运维100+热门模型在线体验200+模型一键部署百万级实例规模100+热门模型在线体验200+模型一键部署百万级实例规模*与ComfyUI/SD与Agent服务一键集成DevpodDevpod模型在线开发/构建按量付费CPU+GPU集群*毫秒级弹性和百万规模集群紧针对部分模型的测试结果,并不代表全部模型都可以具备随着AI浪潮的发展,吉利汽车在今年推出新一代AI智能化服务,成为核心竞争基于阿里云函数计算的ServerlessGPU算力集群为AI座舱的交互和娱乐功能提供大模型推理服务,共同打造大规模、高可用、高性能的推理引擎。场景涵盖意图解析、文生图、情感TTS等。尤其在语音交互方面,吉利自研超拟人TTS,采用大量微调和训练,打造吉利汽车专属的逼真、富有情感、自然生动又稳定一致的语音交互体验。轻量灵活、安全隔离、极致弹性、精益成本的Serverless运行时AgentRun::SandboxComputer运行时会话亲和运行时隔离存储隔离支持原生Docker镜像部署深浅休眠多种算力规格毫秒级弹性包月+按量组合弹性方式CPU算力AgentRun::RuntimeGPU算力xPU算力AgentRuntimeModelRuntimeToolsRuntime函数&会话规模AgentRuntime&Sandbox轻量化的函数管理&Session亲和与安全隔离冷启动加速Serverless弹性效率平均TCOServerless降本提效AgentRun浏览器沙箱——舆情分析AgentRunCode沙箱——AICoding高性价比的GPU弹性算力;支持一键将CoAgentScope——阿里云官方开源Agent开发框架AgentScope官方文档:https://doc.agentscope.io/zh_CN/index.htmlAgentScope是阿里云官方的Agent框架AgentScope-PythonAgentScope-JavaSpringAIAlibaba合入AgentScope•后续Java语言的Agent开发框架以AgentScope为主•AgentScope-Java版本已追评Python版本的能力。国内依然有50-60%的Java开发者或Java系企业AgentScope-Java性能优化,启动速度提升60%AI驱动的下一代应用平台WebAppWebAppAgentAPI(南北向流量管理/策略管控)AgentAPI(南北向流量管理/策略管控)Agent基于原子能力构建方案基于AgentRun基于原子能力构建方案基于AgentRun构建方案模型市场工具市场/API/数据源模型市场AI原生应用架构落地实践——从原子能力演进到Agent构建平台构建构建AI原生应用架构构建构建原子能力构建一站式构建安全可靠、生态开放的一站式Agent平台丛霄(王霄霄)阿里云高级研发工程师2025/12/26CONTENT01AgentRun介绍AgentRun的架构与功能介绍02开发实践—AgentRunSDK开发实践带客户进入AgentRun具体的案例实践开发未来AgentRun的规划方向01AgentRun介绍函数计算AgentRun:AgenticAI应用基础设施函数计算为AgenticAI应用提供开箱即用的开发、部署与运维服务开发开发高代码深度定制,低代码快速搭建,提升AI应用开发效率低代码低代码RocketMQ异步调用高代码高代码A2A协议APIA2A协议APIAgentScope部署轻量灵活、安全隔离、极致弹性、精益成本的ServerlessAI运行时流量模型运行时不可预测模型运行时不可预测租户数据隔离租户数据隔离注入攻击领域模型领域模型执行任务与拓展功能思考与规划行动执行任务与拓展功能会话亲和安全会话亲和安全小参数大语言模型毫秒级FunctionCall毫秒级弹性运维运维服务治理与可观测,为AI应用保驾护航模型代理MCP代理Agent代理注册发现AI全栈监控端到端链路追踪成本与质量评估Agent/MCP/Prompt注册Agent开发---开源开放、无框架锁定AgentScopeAgentScopeAgentRunSDK快速构建高可用,低时延AgentRunSDK快速构建高可用,低时延,零运维的AIA一键托管,绑定VPC/IDC资源,企业数据AgentRun服务(拥抱开源)AgentRun服务(拥抱开源)开发者工具(开源+拥抱开源)/serverless-devsAgent--脚手架转高代码做出雏形应用低代码脚手架程转高代码做出雏形应用低代码脚手架AIAgent弹性、按量、免运维会话、请求、实例弹性、按量、免运维创建Agent使用创建Agent使用Agent用户用户全链路可观测Agent持续进化全链路可观测Agent持续进化企业级能力加持高性能、高安全、开箱即用,提供生产级的执行环境和多租户安全保障沙箱即服务服务化:提供CodeInterpreter沙箱即服务服务化:提供CodeInterpreterAPI、BrowserAPI内置开发环境:Python/Node.js/Java/PHP/Shell/.NET等50+多语言环境,支持OCI标准镜像和自定义运行时灵活扩展标杆客户服务化API,支持十万函数百万实例级别的沙箱执行沙箱即服务业界首创Serverless级Session智能体运行时开源开放:与AgentScope、业界首创Serverless级Session智能体运行时开源开放:与AgentScope、LangChain、LlamaIndex等主流开发框架集成毫秒级启动与按需付费:强隔离、突破性上下文保持,启动效率领先传Serverless级Session亲和/隔离架构负载感知调度,按会话弹性伸缩,支持会话亲和/会话隔离智能体运行时CPUCPU构算力统一工具接口•支持MCP和FunctionCall双协议•API统管工具调用,开发复杂度降低80%,集成时间从天缩短到分钟智能工具生成与发现•AI驱动的工具推荐引擎,根据Agent任务自动匹配•开放式工具市场,支持自定义工具发布和分享,构建Age上下文工程--开源开放、无框架锁定快速集成快速集成情景记忆语义记忆技能记忆知识库存储参数形式记忆对话记录存储企业数据安全可控,不出域情景记忆语义记忆技能记忆知识库存储参数形式记忆对话记录存储AgentRunAgentRunJava8~21PHP/Go/.NET/…系统SummarySummary一键部署记忆提取记忆存储一键绑定一键部署记忆提取记忆存储存储系统TextJsonVectorGraph全文索引向量索引存储系统TextJsonVectorGraph全文索引向量索引标量索引VPCAI应用统一入口AI全栈统一监控多种部署方式的LLM构建部署AIAI应用统一入口AI全栈统一监控多种部署方式的LLMGeminiWorkflowFunction云工作流GeminiWorkflowFunction云工作流AIStudio基于Prometheus构建AI全栈监控大盘,包括模型性能分析、Token成本分析、GPU资源异动分析等通义千问OpenAI端到端链路追踪云原生API网关端到端链路追踪云原生API网关(南北向流量网关)PAI/百炼/FCGPU节点A节点B节点C基于OpenTelemetryTrace实现用户SAE/ACK/托管Dify终端、网关、模型应用、模型服务、外部依赖工具等全链路追踪。新建MCP部依赖工具等全链路追踪。新建MCPServer一键转化构建统一日志分析平台一键转化构建统一日志分析平台,对模型调用日志进行二次评估分析,实现质量、安全、意图提取等语义检测。存量业务MCP化存量业务MCP化存量业务存量业务函数计算FC(CPU+GPU)AI应用观测:OpenTelemetry可观测标准协议阶段一:按资源租用计费虚机/容器计费模式问题:为实例的持续运行付费。无请求时不能缩0仍阶段二:按请求计费场景(如MCPServer/WebSocket)因低负载存活仍计费,成本高。阶段三:按实际资源消耗计费会话管理—会话亲和&隔离会话亲和会话管理—会话亲和&隔离会话亲和会话隔离传统共享存储问题(虚机/容器/FaaS架构)传统共享存储问题(虚机/容器/FaaS架构)AgentCodeSandbox多租户数据共享,有安全问题。无法满足同一个函数的每个实例路径不同的需求。挂载存储路径是变化不确定的。引入会话粒度度存储粘性,将会话和一个持久化的,归属特定租户的存储子平台基于POSIX标准多租存储安全实践框架,落地层次化纵深防御体系Sandboxx-custom-affinity-header:实例-1会话-1x-custom-affinity-header:S会话-2OSSOSSx-custom-affinity-header:S会话-302开发实践—AgentRunSDK开发实践AgentRunSDK核心价值:SDK的一个重要特性是对主流AI开发框架的深度集成。AgentScope、LangGraph、CrewAI等)编写Agent逻辑,SDK会自动处理与AgentRun平台的对接工作,包括模型调用、工具执行、沙箱管理等底层细节。AgentRunSDK架构/Serverless-Devs/agentrun-sdk-pythonAgentRunSDK开发实践1.导入langchainagent2.导入集成模块的model,sandboxtool3.导入已经创建的AgentRun沙箱工具资源4.创建langchainagent5.启动AgentRunServerhttps://docs.agent.run/docs/tutorial/quick-startAgentRunSDK开发实践:更多使用SDK开发的实际场景的代码模版https://docs.agent.run/docs/tutorial/best-practices-opinion-analysishttps://docs.agent.run/docs/tutorial/best-practices-a2a-by-me-a-coffee无损上下线无损上下线FallbackSessionFallbackSession亲和CICDCICD流程ContextContext质量评估运维管控质量评估运维管控模型评估存储管理任务管理Agent模型评估存储管理任务管理Agent监控告警权限管理单点登录全链路监控监控告警权限管理单点登录全链路监控Token数统计环境管理成本管理TracingToken数统计环境管理成本管理Tracing一键启动Sandbox运行时Memory一键启动Sandbox运行时Memory支持AIAICoding模型部署快速部署凭证管理快速部署凭证管理未来规划–数据飞轮高性能高安全开箱即用,轻量灵活极致弹性,最小成本享受AI时代红利AgentRun•低代码白屏化脚手架•高代码无框架绑定开发•版本的无损平滑升级•支持ServerlessGPU算力•支持微调后的模型进行私域一键部署•基于反馈的高质量数据集,对模型进行微调•支持主流的强化学习框架运行•预集成微调生态的插件•无侵入式的全链路采点•一键开启,默认集成•除基础监控外,提供全链路的tracing•全链路的数据标注•反馈数据收集•基于数据测试集的回放“函数计算AgentRun客户群”群的钉钉群号:134570017218设计、营销在AIGC浪潮下的新范式阿里云云原生高级产品解决方案架构师2025/12/26CONTENT0101AIGC在设计领域的渗透曲线Serverless助力成本低、高效率、高性能的可控图片视频生成03设计、营销新范式下的案例AIGC技术呈现出前所未有的创新和想象力,提高企业内容生产的效率和质量01AIGC在设计领域的渗透曲线AIGC如何逐渐重塑设计领域下的效率与创造力?AIGC在设计行业的渗透曲线多类技术大融合•多类技术大融合•生成式技术萌芽•OpenAI和Google分别输出自研方案,Midjourney上线技术快速发展•StableDiffusion开源•WebUI上线,普世化插件层出•Lora、Dreambooth,支持灵活•ComfyUI上线,插件灵活组装行业可控、行业充分应用•Controlnet面世,补齐可控生成的版图•ComfyUI一年更新节点3000+•抽卡机制,行业自主可控的训练•工作流程搭建、相关技术逐渐•保ID技术快速迭代,多视角、多动作序列帧一致性问题解决•3D重建与渲染技术逐步突破•环境融合等技术渐趋成熟•3D生成技术效果向实际应用靠拢•可控视频生成技术萌芽到开源生态的繁荣技术萌芽到开源生态的繁荣AIGC席卷了设计领域DESIGNABILITYAIGCSCENARIO-BASEDINDUSTRYAPPLICATIONAIGC设计技术能力AIGC场景化行业应用算法能力编排算法能力编排AIGCAIGC辅助商品设计AIGCAIGC辅助平面设计AIGCAIGC辅助空间设计AIGCAIGC辅助电商设计AIGC产品外观设计AIGC插画绘制AIGC空间外观设计AIGC虚拟模特AIGC包装设计AIGC服装设计AIGC海报生成AIGC建筑效果绘制AIGC环境艺术AIGC场景替换AIGC试衣XX客户影视行业的AIGC最佳实践Serverless助力成本低、高效率、高性能的可控图片视频生成AIGC席卷了设计领域自研大模型-通义万相50+开源大模型自研大模型-通义万相50+开源大模型定制化行业模型训练4000+生图可控算法///阿里云可控AIGC分层矩阵设计驱动产品工具建设,基于客户共建设计领域开箱即用的saas工具形态。也可以提供api能力,供客户封装行业设计的可控的算法研发:客户ai场景调研、AIgc场景提效洞察、算法流程编排。万相、flux、可图、sd万相、flux、可图、sd等,50+主流大模型行业模型支持行业模型的训练,提供训练服务大模型大模型内置了170插件,4000+AIGC生图可控算法。包含了自研的算法与主流的开源算法。AIAI平台云资源的方式配套IT设施,部署模型、安装绿网、支持模型与算法的上传,提供AI算法编排能力、行业模型训练能力。企业级算力共享、算力调度、推理加速、快速扩容、弹性伸缩企业级算力共享、算力调度、推理加速、快速扩容、弹性伸缩阿里云提供全流程的可控生成场景策划与测试场景落地底层算力FunArt:Serverless多模态AI创作平台开源模型生态业务场景开源模型生态业务场景辅助设计营销物料游戏渲染教育培训辅助设计营销物料游戏渲染教育培训产品能力产品能力ComfyUI托管StableDiffusion托管核心功能StableDiffusion托管核心功能Midjourney合作实例登陆应用监控访问管理弹性配置文件管理异步调用模型广场实例登陆应用监控访问管理弹性配置文件管理异步调用模型广场基础功能工作流广场ServerlessAPI基础设施SLS/ARMSSLS/ARMS/云监控文生图生图/文生视频提供开箱即用的云端ComfyUI,StaLoRA模型训练企业级ServerlessAPI调用API发布阶段调试阶段开箱即用API发布阶段调试阶段开箱即用API调用阶段启动工作空间启动工作空间配置资源规格配置资源规格灵活开放灵活开放一键发布发布API调试提示词工作流/插件发布API调试提示词工作流/插件Serverless算例与定价生成图片/视频转存至NAS生成图片/视频转存至NAS模型加载加速关闭工作空间关闭工作空间应用推理加速FunctionAI图像生成,简化从灵感到API调用的每一步FunctionAI图像生成,简化从灵感到API调用的每一步FunArt联合ModelScope推出一站式LoRA模型训练平台。支持租户隔离及私有化部署,完成从数据集打标-模型训练的全流程。通过微调LoRA模型训练,得到一个03设计、营销新范式下的案例AIGC技术呈现出前所未有的创新和想象力,提高企业内容生产的效率和质量杭州亚运会:长卷设计AIGC风格化海报:产品艺术海报AIGC风格化海报:产品艺术海报AIGC场景补充:产品展示AIGC风格化海报:视觉海报超级符号|大疆的视觉海报保持符号的稳定可见呈现强化品牌符号AIGC风格化海报:海报重绘AIGC风格化海报:电商头图排版AIGC试衣:平铺图试穿AIGC:视频生成视频框架制定文本拓写-AI撰写提示词AI分镜图片制作文本拓写-AI撰写提示词AI分镜视频生成AIGC—人脸迁移、人物风格化生成AI网关搭建与落地实践鼎岳AI原生产品解决方案架构师2025/12/26CONTENT02AI网关产品核心能力与落地实践03AI网关应用场景及案例一、AI应用落地的核心挑战AI应用落地过程中遇到的核心挑战安全与合规风险lAPI-KEY泄漏风险l敏感数据泄露l生成内容不可控集成复杂度l统一多模型代理l权限管理复杂高可用保障l模型服务中断lRT和成功率波动影响用户体验成本失控二、AI网关产品核心能力与落地实践AI网关产品核心能力AI安全防护模型代理LLMAPI(百炼、OpenAI、豆包等)http转mcp存量HTTP服务API工具代理AI安全防护模型代理LLMAPI(百炼、OpenAI、豆包等)http转mcp存量HTTP服务API工具代理AI网关proxyAgent代理AI观测AI限流AI缓存MCPproxyAgent代理AI观测AI限流AI缓存MCPServeronFCAgentAPIAgentAPIAI安全护栏百炼应用等AI安全护栏百炼应用等Redis/VectorDBAI网关落地实践--解决用户管理失控问题核心问题1:我以什么样的方式将LLM服务暴露给大家呢?如何进行权限管控?解法:OpenAIAPI的协议基本已经是标准协议,目前市场面上大部分LLM都支持OpenAIAPI协议。所以提供遵循OpenAIAPI协议的HTTP接口就可以让企业员工通过各种方式使用LLM服务和能力。通过创建消费者,对模型侧的API-Key进行保护,防止泄露导致的盗刷。核心问题2:企业内部部署DeepSeekR1满血版,公司好几千人,但GPU资源有限,如何限制用户?解法:AI接口一旦暴露出去,基本上不可能只让一小部分人知道,所以需要对访问LLM服务的用户做以限制,只让能访问的人访问,不能访问的人即便知道了接口也无法访321创建消费者可以对应一个团队、一个组织等。321创建消费者可以对应一个团队、一个组织等。消费者授权给消费者分配可以访问哪些LLM服务接口。给消费者分配可以访问哪些LLM服务接口。新增或重置。建议建议建议可以将一个消费者对应到一个团队不同的LLM服务接口权限。请消费者的流程接入企业的审批流分发AI网关落地实践--解决安全合规的问题核心问题:模型托管平台自带好几层内容安全审核机制,但是我们在IDC部署或者在FC部署的,如何能方便的接入内容安全审核服务?解法:AI网关中的AIAPI集成了阿里云的内容安全防护和AI安全护栏服务,可以一键开启。安全防护的规则还是要在内容安全服务侧配置。支持请求内容检测。支持响应内容检测。支持防护等级配置。支持消费者级别拦截。AI网关落地实践—联网搜索降低模型幻觉问题核心问题:公司部署了DeepSeekR1671B的模型,但推理的结果和DS官网推理的结果有差距,似乎不满血?解法:推理的结果和DS官网推理的结果有差距大概率是因为DS官网开启了联网搜索。DeepSeekR1671B的模型推理能力是很强,但训练的数据也是有限的,所以要解决幻觉还需是要在推理前先搜索和处理出比较确切的信息后,再由DSR1推理,所以联网搜索是非常关键的。目前模型托管平台提供的DSR1API和自己部署的DSR1都需要自己实现联网搜索。1支持夸克联网搜索AI网关在AIAPI维度集成了夸克和必应的联网搜索能力2搜索结果自动融合搜索策略有多种配置项。搜索结果自动融合进输入的问题意图识别3问题意图识别3默认使用小模型对用户的问题做意AI网关落地实践--解决同一域名/API访问不同模型的问题核心问题1:公司GPU资源有限,部署了满血版DeepSeekR1,还有其他一些小模型以及使用百炼的模型服务,现在域名都不统一,分发、管理、集成的成本都很高,如何使用同一个域名来访问不同的模型?解法:满血DSR1和其他模型或者闭源LLMAPI服务共存,保持同一个API接口,不同业务通过请求中的模型名称,切换不同的模型。满血DSR1和其他模型或者闭源LLMAPI服务共存,保持同一个API接口,不同业务通过请求中(Header,Cookie等)携带3同一个API请求3不同模型2维护多个模型服务型服务被维护在AI网关。建议在一个AIAPI中可以添加多个模型服务。建议模型名称通过Glob语法进行匹配。优先推荐使用模型名称匹配切换的AI网关落地实践--解决百炼DSR1QPM/Token限制的问题核心问题:我们使用百炼平台上提供的DSR1671B模型的API,但是有15000QPM和1200000TPM的配额限制,不能满足业务需求,但是每次升配很麻烦。解法:不只是百炼,目前所有的模型托管平台都有QPM和TPM的限制,并且有些平台是很难升配这个限制的,所以大多数用户都会选择申请多个帐号(APIKey变相的撑大这个配额限制,但缺点是在业务里管理多个APIKey是一件很麻烦的事。对输入/输出内容做缓存,减少对模型服务的请求次数以及Token消耗,从而提升业务侧的请求性能。32APIKey可实时维护32APIKey可实时维护AIAIAPI维度支持将输入和输出缓存到支持精确匹配支持向量化检索匹配模型服务支持多建议建议在非常垂直类的应用场景下适合开启结果缓存,但建议开向量化检索匹配在非常垂直类建议建议在非常垂直类的应用场景下适合开启结果缓存,但建议开向量化检索匹配在非常垂直类,问题和答案非常固定的应用场景下可以开精确匹配在泛业务场景下开启结果缓存可能会降低推理精度或准确性,需要结合业务判断和考量通过AI网关OpenAPI将添加APIKey的行为集成到客户自己的自动化平AI网关落地实践--解决模型服务高可用的问题核心问题:公司的主力模型是FC上部署的DSR1671B,但GPU资源并不是基于流量峰值储备的,所以当高峰期时,DS服务会请求失败,有什么办法可以保证业务健壮性?解法:有两种做法,并且可以搭配使用:可以构建多个个兜底模型服务,如果要保证模型一致,可以主力使用FC上部署的,兜底使用百炼平台提供的。实现当FC上部署的DS服务请求失败时,Fallback到百炼平台托管的DSR1服务。从而保证业务的连续性和健壮性。通过基于Tokens的限流策略,解决Burst流量,保护后端开启ModelAPI维护多个模型服务开启ModelAPI维护多个模型服务模型服务被维护在AI网关。QPS、并发等维度限流支持多种限流判断条件:AIAPI一键开启Fallback策略。当主LLM服务出现异常后Fallback到指定的其他LLM服务。支持配置多个Fallback模型服务。AI网关落地实践—LLM可观测最佳实践&货币化核心问题:如何统计不同模型的调用情况,如何了解不同消费者对于模型的调用量?如何确认Fallback的情况?解法:AI网关集成可观测能力,能够统计整体调用上的Token消耗、模型消耗、各消费者使用情况、QPS、首包RT等信息,提供全面的可观测指标。AI网关落地实践–0代码转换MCPServer核心问题:企业内部目前有大量的OpenAPI的服务,需要转换成MCPServer,适应当下AI时代的发展,给AIAgent使用解法:通过AI网关,可以实现0代码将原有的OpenAPI服务转化成MCPServer,无需重新开发后端服务解决客户痛点邮件服务各种服务来源开发一个邮件服务各种服务来源AIAgentA领域MCP服务Serverless应用引擎SAEAgent是需要和大量现存业务做交互的,MCP虽然统一的协议,但将现存业务重构为MCPServer的成本是非常高的,并且目前支持的开发语言有AIAgentA领域MCP服务Serverless应用引擎SAEB领域MCP服务组装C领域MCPC领域MCP服务D领域MCP服务AI网关AI网关负责协议转换,将HTTP转换为MCP多种方式配置MCPTool信息消费者授权MCP服务针对MCP服务配置各类策略/插件通义灵码CustomAgentGo微服务通过白屏化操作,将各类服务快速接入CustomAgentGo微服务MCP服务。…AI网关提供多种方式配置MCPTool描述信息。AI网关提供消费者认证体系,可以对消费者授权可使用的MCP服务。…虚拟MCP语义检索0代码改动AI网关落地实践–MCPserver的统一代理和鉴权核心问题:建设企业内部的MCPMarketplace,能够将企业自有的工具以MCPserver的形式提供给大模型调用,同时能够将企业管理的外部API(如地图API等)以MCPserver的方式提供给内部AIAgent使用,且能支持对外部工具鉴权的统一收口和二次签发。解法:通过AI网关(withMCP为AIAgent调用工具,提供统一的接入点和管理界面,支持对接各类内外部API和运行时,能够在网关上统一对MCP调用进行观测和治理,从而降低AIAgent使用工具的门槛,提升企业AI应用的安全性和稳定性。包含3种接入形式:ladapt用户API或服务为MCPserversAI网关落地实践–AIagent代理、鉴权、观测核心问题:公司当前已经在使用百炼应用、dify等平台构建AIAgent,不支持二次API-KEY签发和更细力度的限流等策略,也不支持openAI的兼容协议。希望能够统一代理和管理AIagent平台,包括托管API-KEY、限流等解法:通过AI网关的AgentAPI,统一代理Agent,实现Agent对外的二次鉴权,并完成观测、限流、fallback和安全防护等治理动作,提升Agent的稳定性和安全性。三、AI网关应用场景及案例AI网关典型场景功能域功能域详细功能业务场景精确管控企业内部、外部用户使用LLM的方式,基于请求方的特征决定使用哪个LLM,可以使用多少Token。统一管理多个LLM服务商,也包括自建LLM服务,通过多APIKey管理扩展TPM限制,可以基于业务场景通过模型名称快速切换模型,比如按用户级别,按业务领域等。增加LLM服务的健壮性,当主LLM服务不可用时告警通知并自动Fallback到备用LLM服务,通过Token级别的限流保护下游LLM服务的稳定性。对推理的输入和输出做内容安全检查,通过IP黑白名单做请求方的管控,并且可以快捷对接客户自有的认证服务快速做集成,当有非预期流量时也可以通过限流熔断机制保护下游服务。通过插件机制实现客户定制化的需求,应对更多业务场景,比如通过插件机制实现的推理时联网搜索,推理结果缓存,流式输出转非流式,更多的鉴权机制等。提供了模型维度,消费者维度,LLM服务维度的Token消耗指标,可供客户做成本管理。还提供了AI场景特有的更详细的推理信息也都保存在日志服务中,可供查询。作为MCPHub统一管理MCPServer,可以快速
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年退休财务人员返聘工作合同
- 二手房产交易合同关于2026年过户流程说明
- 2026年软件开发服务合同协议
- 矿产资源开发合同2026年
- 2026年集装箱维修服务合同
- 2026年个人租房使用合同
- 2026年旅游大巴司机安全培训合同协议
- 2026年工厂门禁系统改造合同协议
- 网站托管维护合同2026年保密协议附件
- 2026年游戏主播合作分成合同
- T/CSBME 065-2023医用敷料材料聚氨酯泡沫卷材
- T/CECS 10310-2023水性聚氨酯防水涂料
- T/CCT 007-2024煤化工废水处理运营能力评价
- TCAGHP031-2018地质灾害危险性评估及咨询评估预算标准(试行)
- 华师大版八年级上册初二数学(基础版)(全册知识点考点梳理、重点题型分类巩固练习)(家教、补习、复习用)
- 食品居间合同协议
- 2022学年上海复旦附中高一(上)期末信息技术试题及答案
- 心内科护理带教工作总结
- 中建钢筋工程优化技术策划指导手册 (一)
- 知行合一实践出真知主题班会
- 高三生物二轮复习课件微专题-逆境下的几种植物的代谢
评论
0/150
提交评论