AI网关：AI原生架构下的智能流量中枢

上传人：加*** IP属地：北京上传时间：2025-12-03 格式：PPTX 页数：130 大小：12.67MB 积分：15 举报 版权申诉

已阅读5页，还剩125页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

AI网关：AI原生架构下的智能流量中枢01

AI网关的演进历程与核心特性02

/Higress

AI网关的落地实践03

/HiMarket

AI开放平台04

/总结AI网关的演进历程与核心特性实现快、

维护成本高模块化负载均衡

服务管理、

RPC技术KubernetesRuntimeLLM单体架构

垂直架构SOA架构

网关的演进历程AI网关是伴随AI应用快速发展的必然产物流量网关（Nginx）微服务架构云原生架构AI原生架构AI

网关云原生网关ESB微服务网关高密度部署原子、自治按量使用、

极致弹性AI应用、

Agent、轻量•

模型服务中断•

负载均衡•

可观测与告警•

成本失控 AI应用落地过程中的挑战•

权限管理•

工具精准性•

存量API转换工具调用安全合规模型集成稳定性保障•

API-KEY泄漏•

生成内容合规•

多模型•

多模态•

多场景LLMs通义千问

Google

GeminiOpenAI

DeepSeek…….向量数据库DashVector

Lindorm……PostgreSQL第三方

MCPServer市场企业级

MCP

Server市场阿里云函数计算

MCP

Server

市场AI开发插件集LLM缓存提示词模板提示词装饰器请求/响应转换向量检索可观测AI统计插件Higress-AI网关的核心特性通义/百炼/

PAI

内置AI

网关，每天亿级多模态请求生产验证LLM访问日志

Token消费观测可用性告警插件开发工具插件编程AI助手

插件代码WebIDE支持MCPMCP

Servers

ProxyMCP

Server

ConverterMCPClient身份认证MCP

Server动态发现AI安全防护内容审核插件Token限流插件Token配额插件数据脱敏AIAgentClaude

DesktopClineCursor通义灵码CustomAgent多模型适配协议转换多API

Key管理FallbackAI代理插件HigressAI网关的落地实践

HigressAI网关的落地实践AI网关LLMs代理AI网关的安全体系AI网关MCP代理AI网关的可观测体系AI网关LLMs代理

1.API-KEY的管理与分发

2.模型代理与Fallback

3.丰富的生态集成

LLM可观测

LLMs代理——基于Token的限流降级提供丰富的限流策略

基于消费者的限流

基于模型的限流

基于Query、

Header、

Cookie、

IP的限流

成本管理

资源管理

用户分层

防止恶意使用提供扩展点，接入Redis实现Token维度的限流能力Higress

网关OpenAIClientBackendServiceAIAgent

LLMs代理——语义化缓存未命中缓存，透传

提高效率

降低成本

保持一致性

向量数据库

文本向量化服务

Higress

网关OpenAIClient命中缓存，直接返回BackendServiceAIAgentAI网关1.AI

API维度配置Fallback策略

开启Fallback：

可以添加多个Fallback服务

可以维护每个Fallback

LLM服务的顺序

开启首Token超时

首Token超时后自动触发

Fallback2.服务维度配置健康检查策略

主动健康检查：

主动发送请求（TCP/HTTP

GET）

被动健康检查：

基于实际流量的请求成功率动态分析节点的健康状态自建LLM服务Node11Node21Node31Node41

LLMs代理——高可用实践当请求自建

DeepSeek异常报错时…….服务健康探测，移除异常节点OpenAIClientBackendServiceAIAgentREST

MCP协议转换MCP调用HigressAI

网关直接代理AI网关作为MCP的统一代理统一安全认证（API-KEY

，Bearer，凭证透传）统一协议适配（协议卸载，SSE，Streamable

HTTP）统一可观测（监控，

限流，审计日志）RESTto

MCP：盘活存量资产RESTto

MCP能力可以将企业现存的海量RESTAPI一键转换为MCPServer。只需要使用Higress提供的工具和API的Swagger文件，就可以一键生成协议转换配置。MCPSSE状态会话负载均衡您的MCP服务在K8s集群中部署了多个实例，

Higress网关可以将实例的地址信息编码后嵌入到返回用户的Session

ID中。用户再次持有此Session

ID请求时会从ID中解析出地址信息，再次路由会该实例。从而保证了SSE会话的一致性统一对接MCP后端企业现存REST

APIHTTPServiceHTTPServiceMCP服务夸克搜索（SSE）PostgreSQL（Streamable

HTTP）自定义MCP（任意MCP框架）…统一对接MCP客户端AIAgentClaudeDesktopClineCursor通义灵码CustomAgent

MCP的统一代理响应调优：让LLM理解API基础调优

(prependBody)问题:

旧API返回{“succ”:true,

“data”:

{“p_name”:“...”,“p_id”:“...”}},

LLM完全无法理解p_name和

p_id的含义。解决:通过Higress配置自动在响应前追加注释深度定制

(TemplateDSL)方案:使用Higress的模板DSL和gjson路径表达式,对响应体进行"重塑"。效果:通过Higress配置定义新结构,彻底丢弃原始的复杂JSON,转而返回一个LLM极易理解的清爽JSON

。这不仅节省了Token,还从根本上

杜绝了LLM的错误解读。协议卸载：智能翻译官问题：MCP生态存在两种传输协议:StreamableHTTP(无状态短连接)和SSE(有状态长连接)。这导致了客户端与服务端的"协议错配"。方案：网关可以把客户端的StreamableHTTP请

求转换为SSE，让后端进行处理。价值：后端服务可以随意进行滚动更新、扩缩容,甚至实例重启,而客户端的连接完全不受影响。网关屏蔽了底层的复杂性,极大提升了系统的健壮性。MCP服务AIAgent企业现存REST

API

MCP优化与卸载直接代理PostgreSQL（Streamable

HTTP）自定义MCP（任意MCP框架）REST

MCP协议转换1.

响应调优…夸克搜索（SSE）HTTPServiceHTTPServiceCursor通义灵码CustomAgentClaudeDesktopClineHigress

网关StreamableHTTP2.协议卸载SSE企业版精准控制

(安全可控)Higress网关作为安全屏障，确保每个AI

Agent只

拥有完成任务所需的最小权限。案例一：AI客服

(消费者A)•

read-order(可见)•

refund-order(不可见)•

delete-user(不可见)•view-analytics(不可见)案例二：财务Agent(消费者B)•

read-order(可见)•

refund-order(可见)•

delete-user(不可见)•view-analytics(不可见)结果：

从源头杜绝高危操作风险，实现最小权

限原则。无权限控制

(高风险)在缺乏严格权限管控的环境中，AI

Agent成为安全隐患的焦点。•恶意用户：发起提示词注入攻击，试图诱导AI执行非授权操作。•AI客服：

部署时被赋予了所有可用的工具权限。

结果：

严重的安全事故和资损风险。MCP服务AIAgent

MCP的身份认证和权限管控企业现存REST

API直接代理

多种认证方式：

API-Key

，JWT

，

HMAC

细粒度消费者鉴权：

server级、

tool级自定义MCP（任意MCP框架）PostgreSQL（Streamable

HTTP）夸克搜索（SSE）HTTPServiceHTTPService…CustomAgentClineClaudeDesktop通义灵码Cursor2.

MCP

server到后端API的认证1.客户端到MCP

Server的认证RESTto

MCP协议转换Higress

网关MCP调用

MCP工具组装当工具数量激增到成百上个？

Token开销问题

工具选择的准确率问题 Email-server

calendar-serverAIAgent虚拟MCP

Servercreate_event只需加载一个虚拟MCPServertoollist中只包含需要的两个send_email…delete_emailsearch_emailcraete_draftl…schedule_emailsend_emailcreate_eventdelete_eventfind_free_slotslist_eventsCustomAgentClaudeDesktop通义灵码ClineCursorHigress

网关组装 Email-server

calendar-serverAIAgentMCP工具语义化检索ToolsSearch

Server3.执行Embedding粗召回和Rerank排序，找出topk工具如果Agent的任务不固定，需要动态发现工具呢？1.索引：将全部工具信息存入向量数据库…list_eventscreate_eventfind_free_slotsdelete_eventschedule_emailsearch_emailcraete_draftl…delete_emailsend_emailx_higress_tool_search通义灵码CursorClaudeDesktopClineCustomAgent2.调用tools查询工具2.调用tool查询工具Higress

网关4.进行工具调用向量数据库AI网关安全体系AI网关安全能力扩展内容合规审计：实时过滤不合规内容PII数据脱敏：敏感信息自动识别屏蔽第三方

MCPServer市场企业级

MCP

Server市场阿里云函数计算

MCP

Server

市场API网关原生能力边界防御：内置WAF、CC攻击防护零信任架构：mTLS双向认证AIAgentClaude

DesktopClineCursor通义灵码CustomAgent精细化权限：模型粒度，

MCP工具粒度安全围栏：LLM特定安全策略AI网关的安全体系强大IAM：OAuth2/OIDC、JWT等WASM沙箱：内存安全的插件隔离DashVectorPostgreSQLLindorm……通义千问

Google

GeminiOpenAI

DeepSeek向量数据库LLMsOpenTelemetry可观测标准协议模型Token使用统计消费者Token使用统计风险类型统计风险消费者统计限流消费者统计……MCP的可观测QPS请求成功率请求平均RTMCPTool请求分布工具调用日志……LLMs通义千问

Google

GeminiOpenAI

DeepSeek

AI网关的可观测体系AIAgentClaude

DesktopClineCursor通义灵码CustomAgentQPS请求成功率Token消耗数首包RT缓存命中情况限流请求数AI网关可观测体系LLMs的可观测工具箱MCP

ServersHiMarketAI开放平台

企业为什么需要AI开放平台私有

MCP/Agent市场让企业在安全、可控、低成本的前提下规模化落地AIAgent成本与效果难以量化，

SLA/安全不可见；AI不可控；AI从试点进入规模化，工具/数据接入碎片化、重复造轮子多供应商扩展多模型并存与快速演进，

MCP工具供应商锁定与切换成本高监管趋严（隐私、数据出境、审计可追溯），统一安全水位AI

创新效率可控性成本安全合规开发者注册、访问管理

MCP、Agent上架、审批、配额管理者开发者认证、鉴权SSOAI网关

开源

HiMarketAI开放平台帮助企业构建AI开发者门户开放平台后台开发者门户AI开放平台门户开发者门户：深度集成与定制Developer注册SSO集成Consumer注册凭证管理Product开放展示/订阅/调试观测分析Developer维度调用构建AI开放平台后台门户后台：管理员配置Portal管理域名/样式/审批策略AI网关/NacosAI网关

Model/MCP/Agent基础设施：集成与统一管理开源Higress

MCP

Server

API网关

REST/HTTP

API

HiMarket整体架构Developer/Consumer管理身份认证/RBAC/订阅管理Product管理API/Document/PolicySDK（POP/Higress/Nacos）观测分析多维度调用观测Nacos

MCP/Agent总结 AI网关在AI原生架构中的位置AI

网关是AI原生架构的关键基础设施感

谢

聆

听关注公众号AI原生应用架构探索与实践肖京｜

AgentScope

Java版负责人，阿里云智能高级技术专家正文要求：微软雅黑

：最小字号8号宋体

：最小字号

10号等线：最小字号

12号拥有十余年微服务领域深耕经验

，Spring

Cloud

Alibaba

项目的发起人

，阿里云微服务框架与治理团队负责人

，在微服务架构设计、高可用系统建设等方面积累了深厚的技术积淀。主导了《微服务治理技术白皮书》和《AI原生应用架构白皮书》的编写工作。

目前专注于

SpringAI

Alibaba

和

AgentScope

Java

版本的研发工作

，致力于构建面向

原生应用的架构底座和中间件；同时深入探索

原生应用架构的核心模式及最佳工程实践

，推动

Agent

应用与云原生技术的深度融合。肖京阿里云智能高级技术专家01

AI原生应用架构定义02

AI原生应用场景与难点03

AI原生应用中间件04

AI原生应用架构实践AI原生应用架构定义•

GPT横空出世以来，大模型

Scaling

Law不断刷新智能边界。•

DeepSeek进一步降低了模型的成本，效果/成本这个智价比进一步提升，AI应用更

是加快了创新速度。•

从简单Agent，再到复杂工作流，再到

Manus打开通用Agent的想象。•

AI从以前工具升级成为了助手，AICoding、Deep

Research等场景开始爆发。•

AIAgent迈过炒作周期峰值，进入生产大规模落地阶段。

AI原生应用初步成型Agent迈过炒作周期模型迈过拐点人设计（写代码等），数字系统执行智能系统根据上下文自主构建

+执行4运行与优化迭代系统运转并根据结果迭代数字系统运行，人主导优化智能系统根据上下文自主运行

+迭代数字化让机器会执行智能化让机器会思考

AI原生应用新范式数字化范式人想清楚，机器执行机器思考

+执行，人监督解决问题的链路步骤2

解决方案规划构思达成目标的路径、逻辑或创意智能系统主导规划（模型推理），人辅助微调

+上下文工程意图与需求解析明确任务目标、理解背景与约束执行载体构建将规划转化为可运行的形式智能化范式人主导，系统辅助人的思维能力被机器内化人完全主导人完全主导31AI原生应用架构AI原生应用架构模式单Agent高代码/零代码Workflow

低代码/高代码PromptResponseInstructionsPrompt

AI原生应用架构定义ToolsPerception

Actions多Agent高代码/零代码Agent单

应用

多

应用RetrieveRAGStoreMemoryPlanningReasoning具象（Code编排）泛化（LLM编排）单任务LLM向量数据库（RAG）MySQL/Redis/OSS云原生+AI原生双轮驱动GenUI

多模态感知MCPAgent驱动数据手机PCIOT

AI原生应用架构定义云原生应用架构（数字化）AI原生应用架构（智能化）GPU大数据（Blink+ES）大模型（通义

…）GPU（

PAI/

FC）CPU（

K8s）手表眼镜手机Prompt微服务1微服务2ToolsAgent微服务3人决策驱动数据GUIAI原生应用场景与难点核心难点业务场景技术架构推动创新突破

10%1.药物研发加速2.新材料发现3.

内容创作4.科学实验分析重塑业务流程30%1.供应链优化2.发票、合同自动处理3.智能玩具4.智能终端降本增效60%1.智能客服聊天机器人2.会议纪要自动生成3.代码开发辅助4.智能小蜜

AI原生应用场景Autonomous

Agent测试难不敢发布状态出错容错性差RAG准确率低Context超限MultiAgent注意力混乱问题定位难Tools选择Workflow安全问题ChatBot

AI原生应用难点与挑战Dev阶段面临开发效率和效果问题/Ops阶段面临难以维护问题观测&评估工具AIOPSServerless平台AICodingContext

EngineeringAI

网关效率和效果难以维护AI框架&平台安全围栏Agent管理Model管理网关账号权限观测&评估在线IDEAgent

Runtime（Serverless）Sandbox/Code

Interpreter/

BrowserToolAgentCore（多语言）A2A/

MCP/Callback/

Evaluate/TracingAgent组件Prompt/RAG/Mem

AI原生应用平台构建以数据为中心的AI原生应用平台，解决效率和效果问题，构建AI企业级能力零代码低代码CLIAdmin/Devs调试&观测&评估Agent-

FrameworkObservability身份认证网关AI原生应用中间件低代码（DSL）简单/不灵活高代码（框架）简单/灵活零代码（Manus）简单/依赖模型能力抽象层次过高

，导致难以满足所有复

杂业务场景的逻辑

，灵活性受限。底层引擎与管控通常部署在一起

，这

种架构限制了Agent的性能和可扩展性。生产可用性受制于大模型自身的能

力。当前模型的稳定水平

，还不能

满足复杂业务场景对推理深度、上下文管理和可控性的高要求

，因此

难以承担生产任务。提供底层编程接口

，性能可控且灵活性强

，能支撑复杂业务逻辑与系

统集成

，满足大规模生产要求在智能自主性和可控确定性间取得

平衡

，确保系统行为可靠、结果可

预测

，兼顾效率与准确性。 Agent开发范式：低代码、高代码、零代码AIAgent构建方法高代码低代码零代码零代码高代码低代码ChatClient：简单、原始Workflow：LLM和Tool通过预定义的代码路径进行协同Agentic：LLM动态且自主地指导自身的流程和工具使用，对如何完成目标任务保持控制权。

高代码开发框架的演进康威定律系统架构是组织沟通结构的反映

，团队划分方式决定了系统的模块边界。

分布式

MultiAgents系统高可用与水平扩展分布式架构消除单点故障

，支持按需弹性伸缩

，支撑服务高可用。AIAgentAgentScope/SpringAIAlibabaWorkflow/Multiagent

工作流与多智能体编排A2A分布式智能体协作

端

&生态手机手表PCPAD生态APIGatewayHigressAPI管理流量防护WAF防护服务发现OpenTelemetry

AIGatewayHigressAI

ProxyToken

流控安全护栏语义缓存智能路由OpenTelemetryLLM通义AI观测&评估LLMObservability工具集

MCPServerMCP

Prompt模版Nacos事件驱动&

异步通信

Apache

RocketMQDeepSeekOpenAI模型

…OpenTelemetryAI原生应用架构Agent标准智能体定义范式Context上下文与状态管理Nacos

3.1AI

RegistryAI注册配置中心A2A

Registry&

ManagementMCP

Registry&Tools

ManagementServer

Registry&

DiscoverySchema/PromptConfigration分布式AIAgent架构基于能力注册和发现，基于指标智能负载均衡AgentTemplate动态上下文动态修改、实时生效安全（安全审核

，零信任

，访问控制

，信息加密）Nacos

3.1重磅发布-拥抱分布式

MultiAgent架构 AI原生应用架构注册配置AIAgentAITools1.通过

Nacos获取

Prompt

配置，动态更新，支持

Prompt版本管理，支持实时回滚。2.基于长期记忆智能填充模版中变量。3.支持

MCP

工具描述在线修改更新。4.支持配置加密，避免敏感信息明文写在代码中。

AI原生应用架构

Nacos动态配置

AI原生应用架构

NacosA2A注册发现•

Agent可以通过AgentScope等

框架在启动时自动注册到

Nacos•

AgentScope通过Agent名称自

动发现AgentCard并发起调用。•SupervisorAgent通过skills自动

选择对应的

RemoteAgent并生成可调用的SubAgent。•

支持从Session

自动映射到

TaskId并维护。•支持通过同步的编程模式，实现高性能的异步通信，通过分片的方式支持流式返回，开发者无需关注异步实现的细节。•借助于消息的LiteTopic异步通讯，实现高性能通信，最大支持100M级别消息内容。•将AI应用的状态自动保存在MQ中，开发者无需关注长连接维护，简化应用开发。•历史上下文自动保存，便于状态共享和失败重试，在失败重试的过程中，能够自动读取checkpoint，从上一次的失败点进行重试。AgentWorkflow/AgentGraphLLMsubscribeSubAgentsRemote

Agent

1subscribeSubAgentsRemote

Agent2 AI原生应用AI消息subscribeSupervisorAgentSupervisorAgentLocal

Sub

AgentLocal

Sub

AgentLocal

Remote

Agent6/10.

Receive

Lite-TopicMessage8.

Receive

Topic1

Message7.

Send

Messageto

Topic13.

Send

Messageto

Topic29.Send

Message

Lite-Topic5.Send

Message

Lite-TopicRegistryTopicswith

Schema4.

Receive

Topic2

MessageRocketMQ

NameServerRocketMQ

Broker11.

OutputUser

InputAgentAppCallAgentGet

TopicLite-TopicTopic1Topic2InfoApp2.1.•Lite-Topic模型：专为短期、动态、海量个性化订阅场景（如AI

Agent）设计。•

管理订阅

(InterestSet)：以客户端为单位维护订阅关系，实现去中心化与最终一致

性。•

优化拉取

(ReadySet)：通过事件驱动告知客户端“何处有消息”，避免无效轮询。•Pull模型

Push语义：

将“盲目轮询”升级为“精准唤醒”，实现大规模个性化订阅场景下的高效低延迟的消息分发。 AI原生应用AI消息Hig

ress

通义/百炼/

PAI

内置AI

网关，每天亿级多模态请求生产验证API可观测LLM访问日志

AI统计插件Token消费观测软硬一体TLS

卸载

Gzip压缩/解压缩AI开发插件集语义缓存提示词模板提示词装饰器请求/响应转换AI安全防护集成安全护栏Token限流插件Token配额插件多模型适配AI代理插件Tools（

MCP）搜索

地图……聊天……OpenAI通过语义缓存、cache

、

RAG加速AI请求,降低Token消耗。通过软硬一体将性能提升300%。统一加密管理API-key,分配内部细粒度

API-key,分配细粒度权限,配额。集成安全围栏,确保安全合规。通过超时重试、

Failover、灰度并发控制、限流

容量管理等将模型稳定性提

升到99.9%以上。支持零代码MCP到HTTP协议转换i

MCP组合智能路由、认证鉴权

集成常用MCP工具。Agent自定义

AgentLLM访问日志、Token大盘。消费者/模型级

别Token观测,用于内部成本分摊。

AI原生应用AI网关通义千问DeepSeek可用性告警Fallback协议转换重试百炼LLMsAI原生应用架构实践入口可控、配置可信、内容可审的全链路安全mTLSmTLSmTLSHig

ress

AI网关消费者认证Hig

ress

API网关AgentAI

内容审核 AI原生应用全链路安全三方认证服务Auth

ServerLLMMCPAI安全护栏第三方

Saas服务阿里云AI安全护栏mTLSWAF登录认证IP黑白名单自定义鉴权认证API

Key自定义认证密钥加密OAuth2实时感知JWTAPI

Key定时轮转基于Token的优先级调度和动态自适应的限流API网关Header打标freeToken

限流freeToken配额pro指标统计pro优先级打标 AI原生应用高可用治理Parameter打标Session打标Token统计Agent失败重试客户端ModelAndroidAgentAI网关AgentfreefreeLLM1iOSLLM2proproH5 AI原生应用观测评估训练以数据为中心，持续建设高质量数据集，训练竞争壁垒评估结果后处理统计LLM1LLM2可观测数据上报可观测数据上报AgentAgent语义检索结果解释评估分数模型名称路由权重比例路由Parameter打标按比例打标Header打标流量灰度TracingResponse去重Prompt提取Context关联MetricsLoging模型训练微调实时在线评估AgentABABABAPI网关ModelAI网关感

谢

聆

听关注公众号从可观测到RL打造生产级可靠的长周期Agent马云雷｜阿里云可观测高级技术专家2012年毕业于上海交通大学

，加入阿里云日志服务。

13年可观测行业经验，先后参与日志采集、查询、计算、

向量搜索、大模型可观测等多个模块的建设

，从0到1参与可观测体系的建设。阿里云可观测日处理百PB级数据

，秒级别查询百亿数据。

目前专注于结合Data

，探索Data

forAI和AI

for

Data两个方向。基于多模态存储和检索解决AI的预训练和后训练场景的需求。在AIforData领域

，基于agent的模式的nl2sql获得了98%的可执行率

，在Agent的dev、ops上积累了实践经验

，帮助打造更好的agent数据基座。马云雷阿里云-云原生可观测-高级技术专家01

AI-Native应用的典型架构和挑战02

Agent应用可观测03

/Agent应用评估04

/Agent从可观测到RL闭环AI-Native应用的典型架构和挑战L3:自动驾驶•

核心定义：执行•

产品形态：Manus•能力描述：1.

给个目标，AI

搞定2.自主拆解复杂目标3.动态规划与工具链调用4.

具备反思与纠错能力•

人机关系：人监督•责任归属：人机共担L2:辅助驾驶•

核心定义：辅助•

产品形态：IDE插件/Copilot•能力描述：1.

人发指令，AI

跑腿2.

嵌入工作流3.

调用单一工具无长期4.提供建议，人类做决策•

人机关系：人主导•责任归属：100%人类L1:信息增强•

核心定义：对话•

产品形态：ChatBot/

RAG•能力描述：1.

能听懂，能回答2.

基于检索增强

(RAG)3.

没有手和脚4.

无长期记忆或状态•

人机关系：人提问•责任归属：100%人类L4:群体智能•

核心定义：协作•

产品形态：多Agent•能力描述：1.

团队，

自我治理

多角色分工动态3.

像公司一样运作具备4.

无需人类介入的闭环•

人机关系：人定目标•责任归属：系统承担 AI-Native应用的分级图谱：从辅助到自治自主性提升，任务复杂度提升，人类干预减少ResponseToolcall

ToolcallLLM

LLMRagToolcallToolcall

Rag意图识别用户输入

AI-Native典型应用架构Planner模式三：

自主规划Agent•

自适应的动态执行路径模式二：Workflow•

可路由的预定义工具链ResponseLLMPrompt

templateRAG用户输入模式一：

RAG•

一次性的知识增强与回答用户输入Browser

UseMCPMemoryTool

UseRagSandBox戳破泡沫：Agent任务的真实成功率Assistant-BenchData

Source:

https://hal.cs.princeton.edu/Code-BenchSWE-Bench幽

可靠性和可控性•

非确定性•

幻觉与错误传播•

鲁棒性差•

提示词敏感•

非预期环境•

死循环•

格式崩坏固成本和性能•

高昂成本•

高延迟圃安全与合规•

提示词注入•

权限过大•

数据泄露⑩可观测•

可调试

(定位失败)•

可审计

(追溯安全)•

可测量

(优化成本)

评估•自动评估

(判断好坏)•

回归测试

(防止退化)衩

反馈•数据闭环

(收集失败案例)•

强化训练

(实现自我迭代)从阵痛到掌控：Agent生产落地的挑战与对策皿Agent黑盒•

概率模型•

黑盒调试•

难以复现•

评估复杂LLM是复杂的统计模型

，容易出现不可预测的行为。如果没有适当的监控

，它们可能会损害业务指标、合规性、

品牌声誉和客户信任。Agent应用可观测AI

基础设施

阿里云AI全栈可观测解决方案

GenAI

应用大模型服务平台（MaaS）AI平台（PaaS）容器Kubernetes（CaaS）智算服务器（IaaS）容器调度Workload

可观测、控制面可观测、GPU

监控、

Ingress

监控、事件、

日志审计、AI

套件可观测（Ray、

Fluid等）服务组件向量数据库监控

AI网关监控模型推理服务监控推理引擎监控模型训练训练任务监控

数据流监控大模型应用模型调用全链路诊断模型应用模型调用监控网络RDMA

监控高速存储CPFS

监控模型服务模型日志模型日志评估分析灵骏计算节点监控GPU

云服务器监控AI

全栈统一监控RAG

链路追踪安全诊断模型监控模型链路阿里云ARMS可观测提供自研探针（JavaAgent、

Python、

GO、eBPF等），

覆盖RUM、APM、链路追踪、容器监控以及基础设施监控

等

，全面拥抱OpenTelemetry、

Prometheus、Grafana开源标准

，为客户提供高可靠、高性能、功能丰富、开箱即用的端到端全栈可观测

能力。MetricsTraceLogsProfilingOpenTelemetry:可观测数据接入的事实标准OpenTelemetry项目当前已成为CNCF下除K8S外最活跃的项目

，未来可能会成为可观测领域数据接入的事实标准Prometheus:指标监控、告警的事实标准CNCF的调查显示

，84%受访者在可观测技术栈中使用了Prometheus

，排名第一。Prometheus正在成

为监控的首选组件Grafana:可观测界面的事实标准Grafana已经成为了云原生时代观测界面的事实标准。Grafana与

Prometheus的组合已成为大部分

用户可观测的必选组合加工可视化分析高质量采集上报以应用为中心、向上连接用户体验、向下连接基础设施监控

统一采集LLM可观测需要的日志、

指标、

Trace、

Profiling数据

数据价值挖掘LL

M领域洞察基于OpenTelemetry的高质量数据采集以

OpenTelemetry

Python

Agent

为底座

，增强大模型领域语义规范与

拥抱开源,面向大模型应用量身打造数据采集

，提供多种性能诊断数据

，全方位自监控保障稳定高可用。 Tracing:模型调用全链路诊断

推理加速框架

vLLM/SGLangPythonAgentModel

/MCP服务网关链路上下文向量数据库

/Cache/

Database

OTelSDK端

&生态移动端Web端智能终端车机终端OTelSDK基础设施(GPU)工具MCP

ServerLLM应用Python/Java/Go

Agent运行时：

Kubernetes/

函数计算AIAgentAPI

网关OTelSDK链路上下文链路上下文链路上下文链路上下文 AI应用可观测性的关键指标

模型推理关键响应时间指标：•TTFT(Timetofirsttoken):

Prefill

阶段关键指标•TPOT(Time

per

outputtoken)：Decode

阶段关键指标链路上下文

链路上下文OTel

SDK向量数据库

Cache

Database

MCP

ServerPythonAgentLLM应用黄金三指标(TED)•

Token•

Error•

Duration模型推理关键指标：•

KVCache

缓存命中率•

GPU利用率•

显存利用率LLM应用Python/Java/Go

Agent运行时：

Kubernetes/

函数计算评估类指标：•

准确性•

偏见（公平性）•

毒性（安全性）•

幻觉（可靠性）基础设施(GPU)工具MCP

调用：•

错误，延迟，上下文大小AI

AgentModel/MCP服务网关推理加速框架

vLLM/SGLangPythonAgent•

吞吐LLM应用的问答请求

，通过Trace采集上报后

，通过向量化以及语义化处理可以进一步挖掘数据价值

，辅助开发者进行问题分类以及定性分析问题场景：

长文本问答存储后，如何具备开箱即用的向量化处理并支持内容查找？

基于某个关键词如何快速找出符合该主题的所有调用链数据？

如何统计分析不同意图的提问场景下的问答请求量分布？

如何根据自定义文本根据相似度快速检索，查找到符合条件的所有调用链数据？

如何根据调用链涉及的提问进行聚类得到文本内容摘要的分布情况？核心优势：

一站式embedding/向量索引

构建IVF-SQ高压缩率向量索引

毫秒级向量检索

向量和关键字混合检索

聚类分布

￥0.01/百万token使用场景上报调用链

LLM

Spans自动语义索引向量存储(SLS)SLS

Logstore

LLMTrace基于向量&语义特征的检索分析能力

1、关键词检索2、相似检索3、聚类分析会话IDTraceIdSpanId

Query

Answer会话IDTraceIdSpanId

Query

AnswerLong-TermMemoryQueryAnswer分类统计相似检索迭代调优关联查询情绪意图主题SpanId会话IDTraceIdAgent评估方案

挑战二：质量•

Agent

的好是非二进制的•

Agent以自然语言为主，传统

Metric无法衡量自然语

言质量•

痛点：我们如何自动判

断？案例：A.完成了，但答案啰嗦B.完成了，路径最优C.表面完成了，但暗含幻觉

挑战三：回归•

Agent逻辑牵一发而动全

身特性•

修复一个case可能破坏其

他的case•

痛点：如何在每次上线前，

自动对成千上万的黄

金案例和泛化/边缘案例进行回归测试

挑战一：

规模•

生产环境每分钟产生成千

上万条复杂的执行链•

可观测让我们能看见，但

我们无法看完•

痛点：

依赖人工抽检来评估

Agent质量，无异于大

海捞针，在统计上毫无意

义

从看见到洞见：基于LLMJudger的评估的需求

我们的困境：

人工评估

vs现实需求

人工评估

:•

优点：

黄金标准、能理解细微差别•

缺点：

太慢、太贵、规模太小•现实需求:•我们迫切需要一个自动的、大规模的、低成本的，并且能理解语义的裁判引入LLM作为评估器

挑战一：

哲思与幻觉•以幻治幻：

我们如何保证

Judger本身不产生幻觉？用一个可能坏掉的尺子

去量一把可能歪了的尺子，我们能信任这个结果吗？•马后炮悖论：如果

Judger聪明到能知道完美的评分标准，那我们为什么不

一开始就把这个完美标准告诉我们的

Agent

呢？挑战二：偏见与一致性•系统性偏见：

Judger并非客观。它存在已知的位置偏见、啰嗦偏见、

自我一致性偏见。•

标准漂移：

今天的

Judger

和昨天的

Judger，对同一个案例的打分可能不一致。在跑

1万个案例时，它给第

1个和第

1万个案例的打分标准都可能不一样。

挑战三：

成本与数据•

成本高昂：

Judger要做得准，通常需要大参数模型模型。但我们有上百万条生产数据，这个评估成本本身就是天文数字。•

数据质量：

线上数据不是数据集。它充满了噪音和大量重复。我们必须先投入巨大的工程能力，把这些脏数据清洗成高质量的黄金数据集。

LLMJudger:落地的挑战

支柱一：数据工程•

目标：

解决数据噪音与成本

挑战1.分层采样与去重:•线上数据

90%

是重复噪音。•

必须去重，否则评估结果严重偏向简单高频案例。2.黄金数据集建设

:•典型的黄金案例。•历史上的badcase。•

刻意构造的cornercase。3.

匹配GroundTruth：•

在评估时提供标准答案，解决马后炮悖论。

支柱二：评估方法•

目标：解决偏见与幻觉挑战1.

CoT

打分:•先思考，再打分。强制

Judger先输出评分理由，再给出最终分数。2.多维度打分:•

拒绝单一总分。•

拆解为多个0/1维度：准确性、简洁性、安全性。3.结对相对打分：•

绝对值是玄学，相对值是科

学。•

在

A/B测试场景下，强制二选一，结果更一致。4.多模型联合投票•

类似多个弱分类器打分仑支柱三：模型优化•

目标：解决成本与规模挑战1.老师模型标注

:•只用最强的模型，在你精选的黄金集上进行评估，生成高质量标注。2.

学生模型训练:•

用老师的标注数据，Finetune一个更小、更便宜的专门评估模型。3.规模化评估：•

用训练好的、廉价的学生模型，赋能全量回归测试和日常线上巡检。

LLMJudger：构建高准确性Judger的三个支柱多维评估指标1.

通用指标：•

正确性、简洁性、幻觉等2.

RAG评估：•

多样性、相关性、重复3.

Agent评估：•指令清晰、错误、复杂、完成度4.

工具使用评估：•

参数错误、调用效率等评估能力实战：从万级巡检到单例诊断凹

步骤二：

查看评分明细

步骤三：

根因诊断

步骤一：

全量巡检Agent反馈训练快速修复：Prompt优化系统性提升：模型蒸馏/训练

从洞见到反馈：评估结果让Agent更加健壮核心资产

:黄金数据集•

Bad

Cases•CornerCases•Good

CasesEvaluateTraceLogAgentRuntime2.评估与过滤•

数十万级•

动作

：

自动评估，

自动对所有日志打分。•

动作

：高价值采样•

去重:去除90%

的重复请求。•

采样:

只保留高价值数据。3.清洗与格式化•

数千级/万级•动作

：人工抽检：对标记的低分案例进行抽样审核，确保黄金数据的纯度。•

动作

：格式化：将TraceLog转换为训练集。

闭环的地基：从脏数据到黄金数据集

•

挑战：

直接训练

昂贵

且

无效。1.

原始日志•

数百万级

/千万级•

特点：

高度重复、充满噪音、简单案例占

99%。

慢反馈：模型训练•

目标：修复系统性问题1.

典型场景

:•

整体风格太‘啰嗦

’•

对金融术语的理解普遍很差•

拒绝回答安全边界内的问题。•2.

数据需求

:•

海量的“黄金数据集

”

(1000+

)3.执行周期：•天级

周级4.

成本:•极高

(GPU

训练成本,部署成本)5.

风险:•中

(SFT可能导致灾难性遗忘)6.

方案：•

低频

运行，

Agent版本升级

快反馈：Prompt优

化•

目标：修复具体问题1.

典型场景

:•

在这个‘退款

’场景下答错了•

漏掉了一个工具参数•不该说‘对不起

’2.

数据需求

:•

少量BadCase（1-10个）3.执行周期：•分钟级/小时级4.

成本:•极低5.

风险:•低6.

方案：•高频运行，

日常自动修复

飞轮的反馈策略总结1.拥抱可观测性•

Agent的黑盒是它生产落地最大的病根。•可观测性是你从0到

1的地基。看见是治理的基础。2.

LLM评估是质检器•

看见不等于洞见。

LLM

Judger是能够自动化大规模检测质量的手段。•LLM

Judger存在偏见。

数据工程、

评估方法等是使LLM

Judger大规模应用的基础。3.终极目标：

构建自我进化的数据飞轮•评估不是终点

，

强化才是。

你的目标不是知道

，

而是闭环。•

让可观测捕获数据

，评估提炼数据

，

强化消费数据——让数据飞轮运转起来。感谢聆听关注公众号

微信开发更可控，部署更便捷：AgentScope迈入1.0时代例：邝炜瑞｜

AgentScope智能体框架核心开发者，通义实验室高级算法工程师毕业于中国人民大学，获硕士学位，目前在阿里巴巴集团通义实验室担任高级算法工程师，主要负责多智能体系统（

Multi-AgentSystem）方向的研究。开源项目智能体运行时框架AgentScope-

Runtime的负责人、

智能体开发框架

AgentScope

和联邦学习框架FederatedScope的核心开发者之一，致力于推动智能体运行时、多智能体系统、联邦学习及大语言模型相关算法的开源生态，同时在阿里云百炼为智能体算法提供技术支持。邝炜瑞AgentScope智能体框架核心开发者，通义实验室高级算法工程师01

智能体开发的新挑战02

AgentScope

1.0三层技术架构03

核心技术能力升级04

智能体应用案例演示AgentScopeToAgentScope

1.0•

WHAT-阿里通义实验室推出的开源智能体开发框架

ToAgentScope

1.0•

WHAT-阿里通义实验室推出的开源智能体开发框架

ToAgentScope

1.0•

WHAT-阿里通义实验室推出的开源智能体开发框架智能体开发的新挑战

ToAgentScope

1.0•

WHY-

LLMs比以往更聪明！SWE-LancerSWE-BenchAceBenchGAIAAgentBenchFrames-Benchmark

HealthBenchMLE-bench

Xbench···Spider2.0Bird-SQLSpiderOSWorld-VerifiedAndroidWorldBrowseCompWebArenaAndroid-LabSWE-MultimodalOmniACTAndroidControlBLINKMind2WebAGNET/智能体MULTI-STEPS/多轮•From

passivity/被动

INITIATIVE/主动LLM/模型QA/问答•

From•

FromTruthfulQAC-EvalMMLUSim

ple

QAGSM8KScience

QAOpenBookQAHellaSwagMATHtoto

ToAgentScope

1.0•

改变-

更加Agentic/智能体化•

结构化输出，记忆，工具，

RAG

ToAgentScope

1.0•

改变-

更加Agentic/智能体化•

结构化输出，记忆，工具，

RAG-

更加

Deployment-Oriented/面向部署•

AgentScope-Runtime,AgentScope-Studio

ToAgentScope

1.0•工具调用存在安全风险如果智能体与工具的执行在同一系统环境中，用户的误操作或不当请求可能直接触发危险操作，威胁系统安全•工具调用存在安全风险•

服务协议适配与部署复杂缺乏统一的智能体服务协议，导致需适配多种传输与API

、自行实现SSE与异步任务，消息定义不一致且部署繁杂，还要维护多镜像与运行环境，集成开发易出错、成本高。

ToAgentScope

1.0

ToAgentScope

1.0•

改变-

更加Agentic/智能体化•

结构化输出，记忆，工具，

RAG-

更加

Deployment-Oriented/面向部署•

AgentScope-Runtime,AgentScope-Studio•

坚持-

Developer-Centric

以开发者为核心

——Transparent/透明性AgentScope

1.0三层技术架构AgentScope

1.0•

框架-

开发-

调试-

部署AgentScope

1.0•

特点•

/agentscope-ai/agentscope•设计理念•Agentic

智能体化•Developer-Centric

以开发者为核心

面向可视化•

开发者存在的问题-

智能体的输出是什么？•

可视化-

我的智能体为什么运行失败了？•

追踪

(Tracing)-

我的智能体是否优化好了？•

评测

面向可视化•

AgentScopeStudio:本地化部署的开发组件-

/agentscope-ai/agentscope-studio•

项目管理•

基于OpenTelemetry的追踪•

智能体评测-

AceBench,GAIA,

…

面向部署•

面临的挑战-

工具执行安全性-

运行时环境管理-

人人文库> 全部分类> 行业资料 > 各类标准

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

AI网关：AI原生架构下的智能流量中枢

文档简介

温馨提示

最新文档

评论

AI网关：AI原生架构下的智能流量中枢

文档简介

温馨提示

最新文档

评论

相关文档