智能体智能化评测体现:Text2SQL和Excel问数的评测_第1页
智能体智能化评测体现:Text2SQL和Excel问数的评测_第2页
智能体智能化评测体现:Text2SQL和Excel问数的评测_第3页
智能体智能化评测体现:Text2SQL和Excel问数的评测_第4页
智能体智能化评测体现:Text2SQL和Excel问数的评测_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

符敬伟|微众银行03

现状和问题04

解决思路和方案05

效果与收益06

借鉴与展望目录CONTENTS01

背景02

智能评测定义和目标PART

01评测背景、

定义、

目标以及现状和问题

背景随着AI技术的快速发展

,各类智能应用Agent层出不穷

,其中Text2SQL和ChatBI等专业领域AI解

决方案已在金融、银行等高要求行业落地应用。这些场景对系统的准确率、执行效率、稳定性及安全性提出了极高的标准

智能体评测定义和目标智能体评测定义

目标:

以评测驱动智能体按指定方向“进化”

量化智能体是否实现期目标

评测不只是最后的“

守门员

衡量智能体的性能

、追踪优化目标达成度设计评测体系并确定方向执行评测初代智能体指引迭代进化分析反馈进化版智能体指标大类指标说明Text2SQLRAG准确性上下文相关性检索的内容是否与问题相关√上下文召回率检索的内容是否无遗漏√(KPI)上下文精度检索内容越与问题相关

,排名越前

,精度越高√忠实度生成的内容是否忠实使用检索到的内容√(KPI)召回率正确可用数/预期应生成总数√(KPI)√(KPI)逻辑合理性评估生成的内容是否与问题中心思想相符

,逻

辑一致√√采纳率正确可用数/实际生成总数√(KPI)√(KPI)数据时效性评估检索内容是否实时有效√可执行性输出内容可以执行

,无语法错误√√性能效率耗时响应耗时(流式和非流式响应耗时)√(KPI)√(

KPI支持并发可支持并发数√输出稳定性多次问询答案正

确性多次问询输出的答案都正确√√多次问询答案一

致性多次问询输出的答案一致√(KPI)√(KPI)安全性(底线)内容合规内容符合法律、法规、企业规范√(底线)√(底线)信息安全权限控制、信息脱敏等√(底线)√(底线)符合伦理符合伦理、公平无偏见√(底线)√(底线)模型安全防攻击性、防泄漏性√(底线)√(底线)

智能体评测定义和目标-指标

选择合适的指标

,准确衡量智能体追踪优化目标的达成度(非MECE)

安全性:是智能体评测的首要准则

,必须严守的底线指标。

KPI指标:为核心指标

,直接决定智能体优化方向和上线推广可行性。 其他:非核心指标达标后可进一步完善智能体性能与用户体验如何执行?评测集规模大

,人工验证效率低不同评测集

,验证目标不一样如何快速出测评报告

,给出优化建议如何定标准?智能体种类多样

,标准各异不同标准评测各异如何设计评测集?不同类型测评集构造方式不同应该覆盖哪些维度达成目标评测集本身质量和规模的评估

现状和问题PART

02整体思路和详细方案竞品、基线对比

总结、指引自动化执行智能化校验评测执行

整体思路评测结果智能分析归类智能化评测集生成

自动化执行智能化校验

、科学指标下智能化结果分析,

三轮驱动

,搭建智能化评测体系行业评测确定下限智能生成专业领域测评集

,拓展上线人工加持增强测评集可靠性评测结果分析智能报告

.断言、归因执行评测集开发测试介入分析优化优化生成智能体核心复杂度、分类生成预期答案生成问题描述

方案-智能生成评测集-通用范式

M-A-2-Q(Mode

to

Answer

to

Question)基于问式模板到答案到问题评测集

案例类型:问题、

追问、澄清

案例复杂度

问题描述和预期答案

项目知识

通用知识

问式模板依赖知识生成智能体核心PROMPT确定复杂度和案例分类的计算因子1.SQL的要素表个数字段个数条件个数分组排序个数算子个数2.问题描述方式直述

:清晰表维度字段、

值和

逻辑关系曲述

:优先描述值

以值覆盖

维度表述模糊

:用通用用语、

专业术语

模糊化容易中等困难直述(单、双表)曲述(单、双表)模糊(双、

多表)字条算字条算字条算段件子段件子段件子个个个个个个个个个数数数数数数数数数1-0-0-3-3-3->>>422244444个个个个个个个个个

方案-智能生成评测集-Text2SQL示例

评测案例复杂度和分类的构建组合因子确定复杂度:1.容易

:直述和维度组合简单2.中等:

曲述和维度组合中等3.困难

:模糊和维度组合复杂组合因子确定案例分类:1.正常问题

:未模糊化的2.澄清问题

:模糊化后的3.追问问题:

1/2基础追加问题依赖知识

配置该项目的问式模板

Text2SQL案例复杂度维度举例

表结构、

枚举等

方案-智能生成评测集-Text2SQL示例

评测案例答案和问题描述的构建依赖知识

配置该项目的问式模板

表结构、

枚举等

业务数据

术语严格按模板生成`伪代码`式描述名称、

值术语化、

模糊化演变成不同类型和复杂度案例问式模板分析维度因子取具体维度和数维度组合矩阵据生成智能体核心

生成预期答案Prompt组装SQL表结构、

枚举、数据

反向生成问题描述Prompt预期SQL模板1.问式模板

:基于表<

>

,查询【】

条件,在《》

维度下的[]2.维度组合矩阵:表:

1个

字段:

2个、

条件:

2个

、算子:

1个

、分组:

1个3.生成SQL:`SELECT

product_category,SUM(sales_amount)

FROMsales_dataWHEREyear

=2023AND

region

=

'华东'GROUP

BY

product_category`4.生成问题描述:a.基础问题(伪代码式)

:基于表<sales_data>

,查询【

year

=2023,region

='华东'】

条件,在《product_category》

维度下的[product_category,sum(sales_amount)]b.直述

:基于sales_data表查询product_category维度下满足year为2023

,region为华东条件的sales_amount的汇总值c.曲述

:查询在产品类别维度下满足2023年度、

华东地区两个条件下的销售额汇总d.模糊

:查询在产品的分类维度下满足2023时间、

华东位置两个条件下的销售业绩(销售额汇总的术语)选取模板分析模板变量因子

,构造组合矩阵依赖业务数据、

表生成SQL生成`伪代码式`基础问题根据基础问题演变

,去掉等式等明确逻辑表达式做中文和自然语言演变术语化、

模糊化演变不同问式的目标里不同维度用不同符合括起,如

:表

<>,条件【】

方案-智能生成评测集-Text2SQL示例

评测案例生成和演变过程示例生成智能体核心PROMPT确定复杂度和案例分类的计算因子1.表格要素表个数Sheet个数字段个数算子2.问题描述方式直述

:清晰表维度字段、

值和

逻辑关系曲述

:优先描述值

以值覆盖

维度表述模糊

:用通用用语、

专业术语

模糊化容易中等困难直述(单、双表、sheet)曲述(单、双表、sheet)模糊(双、多表、sheet)字条算字条算字条算段件子段件子段件子个个个个个个个个个数数数数数数数数数1-0-0-3-3-3->>>422244444个个个个个个个个个

方案-智能生成评测集-Excel问数

评测案例复杂度和分类构建组合因子确定复杂度:1.容易

:直述和维度组合简单2.中等:

曲述和维度组合中等3.困难

:模糊和维度组合复杂组合因子确定案例分类:1.正常问题

:未模糊化的2.澄清问题

:模糊化后的3.追问问题:

1/2基础追加问题依赖知识

配置该项目的问式模板

Text2SQL案例复杂度维度举例

表格、

sheet结构(表头层级)生成智能体核心

生成预期答案Prompt问式模板分析维度因子取具体维度和对维度组合矩阵

应数据答案以及生成答案的过程或者算法

反向生成问题描述PromptSheet结构、

据严格按模板生成`伪代码`式描述名称、

值术语化、

模糊化演变成不同类型和复杂度案例

方案-智能生成评测集-

Excel问数

评测案例答案和问题描述Prompt构建依赖知识

配置该项目的问式模板

表结构、

枚举等

业务数据

术语答案和过程模板1.问式模板

:基于表或sheet<>

,查询【】

条件,在《》

维度下的[]2.执行计划:表:

1个

字段:

2个、

条件:

2个

、算子:

1个

、分组:

1个3.生成答案和得到答案的过程:a.过程

:取sales_data表里条件为year

=2023AND

region

=

‘华东’,按照product_category分组

,每组SUM(sales_amount)b.答案:A产品:

200万B产品:

300万4.生成问题描述:a.基础问题(伪代码式)

:基于表<sales_data>

,查询【year

=2023,region

='华东'】

条件,在《product_category》

维度下的

[product_category,sum(sales_amount)]b.直述

:基于sales_data表查询product_category维度下满足year为2023,region为华东条件的sales_amount的汇总值c.曲述

:查询在产品类别维度下满足2023年度、

华东地区两个条件下的销售额汇总d.模糊

:查询在产品的分类维度下满足2023时间、

华东位置两个条件下的

销售业绩(销售额汇总的术语)选取模板分析模板变量因子

,构造组合矩阵依赖业务数据、

答案和过程或者算法生成`伪代码式`基础问题根据基础问题演变

,去掉等式等明确逻辑表达式做中文和自然语言演变术语化、

模糊化演变

方案-智能生成评测集-Excel问数

评测案例生成和演变过程示例1.引入丰富的贴合实际

业务的问式模板2.对模板里的关键要素

进行打标<表

>【条件】

《维度/分组》

[查询字

段或者算子]3.问式模板+分步逐层

演化。1.不贴合业务问数习惯2.大模型幻觉、

token限制导致生成的问题和

答案无法对应。

编造、

描述抽象、

缺失要素等

等3.分类和复杂度不够科

学准确1.知识未引入问式模板2.问题描述生成时未区

分对表、

字段、

条件、

算子要素标记2.未分步骤生成和区分

复杂度

方案-评测集生成-过程中问题与解决方式现方案解决方式初期方案问题评测集管理查询案例集完整信息对案例进行修改

评测集管理

智能、人工双手段保证评测集质量智能复核规则1.预期结果与问题描述

匹配性2.SQL正确性3.问题的业务相关性评测集质量保证智能预复核评测集

人工复核复核依赖1.评测集生成依赖知识2.执行分析结果(如果

有)3.评测集问题和预期结

果预复核结果1.是否需要修正2.修正原因3.修正建议1.修正评测集、

档2.牵引评测集生成

智能体

“进化”人工复核

评测集执行校验智能校验结果评测校验结果语义等价性评分和

模拟执行的结果一

致性评分

,评分2不扣分规则

:业务

特殊规定、

字段顺

序别名、

等价性等答案、

过程或者sql和问题描述逻辑自

洽评分

,评分3综合以上得到总分2.测评日志

:扣分原因分类(缺表、

缺字段、

条件错误等等)

、扣分具体原因、

修正建议计算维度和值的召

回率

=召回的维度

和值/应召回维度。

得到评分11

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论