2025QECon全球软件质量效能大会:研发领域知识管理与智能问答_第1页
2025QECon全球软件质量效能大会:研发领域知识管理与智能问答_第2页
2025QECon全球软件质量效能大会:研发领域知识管理与智能问答_第3页
2025QECon全球软件质量效能大会:研发领域知识管理与智能问答_第4页
2025QECon全球软件质量效能大会:研发领域知识管理与智能问答_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

QECon2025全球软件质量&效能大会

·深圳站2025

GLOBAL

SOFTWARE

QUALITY

&EFFICIENCY

CONFERENOE

SHENZHENZHAN研发领域知识管理与智能问答牛舒怡|蚂蚁集团算法工程师全球软件质量&效能大会领域知识问答的挑战与破局领域知识注入:基于图谱的知识体系构建复杂问题解决:基于多重搜索的方案构建落地实践与效能提升未来规划与展望目录CONTENTS0103全球软件质量&效能大会PART01领域知识问答的挑战与破局888GPT

会话启动部著失陂

请提供更多上下文信息,以便我更好地理解问题。可进一步提

供选代相关的Inkm链接或ac储接问题原因为:无法找到该类的定义,解决方案为:请额据完整的

错误堆楼上下文,以确定异常的根本源因,请参考排查文档。基于智能问答的研发助手QE

场景介绍用户角度问

分析现状思路咨询链路长精准命中低技术参与工单量12017人工工单量32664人工答疑成本高启动邮署失败htps:/inkwallpaycom/alpayforder/20193895477sl

te=MAIN_SITEtenant=alipay注:统计口径为支付宝事业线,23年8月欢迎便用智能咨询,你可以详细描述你遇到的问题。答疑角度问题咨询信息更新外挂知识库方案,知识库更新时线上服务也可及时更新先检索后生成RAG框架业务落地成本低业务落地可用统一的知识库接入方案,无

需特殊化训练领域embeddin向量库Qwen-14b模型Prompt基于知识库检索结果和排查工具调用结果回答用户的问检索结果:[passage1][passage

2」[passage3]排查结果:[checkresult]用户问题:QE

朴素RAG框架探索多尺度文本分割文本级别段落级别块级别□大模型智能抽取文本标题段落标题核心问题文本概要段落概要块概要在线检索意图识别

问句改写

工具调用_②

③⑤

答排查大模型接口④TooK相关块向量库检索知识点检索

关键词检索①高线索引历史知识库智能挖

语雀文档知识点历史会话检索模块所文本相关性

段落相关性块相关性用户问题

答AP自大模型

智能挖前模长块长文档结构化切分答案生成排序模块文档检索优化Chunking

结构化分割、检索-生成解耦、交叉编码器模型重排、路径信息加入优化后召回率80%+,生成准确率60%+RAG

框架离线链路意图路由逻

由大模型判断是否调用工具

根据语义判断问题类型平台文档库用户提问基础型知识增强LLM

思基

于COT的答案生成模型

回答大模与上反思利用大模型对知识库进分屑拷垂生成优化意图识别、文档优先级加入、来源文档置信度生成QE

朴素RAG框架优化文档块的多步分割索引

检索

-

生成的块粒度解细粒度句子用于检

索捏升检索稿确度;租粒度语义块用于

生成,利用更多上经验型知识沉淀处

全贴向誉全局问著利用训练后的大领域型知识补充利用大模型取、实体总物发图关键词过津多层次检索模型回答细粒度切分文

识答

史块

块多

储研

谱多知识源知识库增强与扩充相关上下文信息

模型.

.多路召回与精排ZSearchStore蜗模型对问答对Qwen-14b微调后的

历史工单抽取大模蛋关健调过建利用双塔模型

进行重排利用归并的思想进行诵旧掉部构化合

在长度允许下保留模型挂取对话中

全局和导郸网答3seSchstore进行质量评估相

语·

素RAG方案中,由于chunk

的限

制长度,对于一些全局性问题很难回

答全面03现状反思知识资产无组织状态,检索效率

低下,难以适应现代研发环境中

对知识深度理解和快速响应的需

求。【可信度拉满】答疑小助手百分之九十九可以回答当前问题,请先耐心阅读以下内容~

根据项芽塔产品手册,与需求相关的指标主要包括:1.

需求流动速率○

需求流入速率:受理需求数/(受理需求数+历史在途需求)○需求流出速率:发布需求数/(受理需求数+历史在途需求)○需求吞吐率:需求流出速率/需求流入速率2.受理技改需求占比(工作量)。指标说明:本月受理需求中,技改需求工作量总和/本月受理需求整体工作量。

。技改需求:需求分类为技改需求、技术类需求、技改极简、以及技术底盘类需求这些指标用于衡量研发工作量负载情况和需求交付效率。信息来源:1.【

域管理-数据洞察】指标口径2.【团队管理-团队效能】指标口径口

P⁰01数据洞察传统RAG方案在跨文档场景下召

回率不足60%,揭示知识管理中

检索逻辑单一、缺乏深度理解的

核心痛点。02需求趋势用户需求日益复杂,单一文档难

以满足,60%以上问题需结合多文档甚至代码逻辑解决,凸显跨

文档推理的重要性。痛点拆解:多源零碎知识vs复杂用户需求需求相关有哪些指标QELightRAG

框架轻量化GraphRAG

方案,优

化知识图谱构建与检索过程

,实现从“被动检索”到“

主动推理”的转变,解决语

义对齐与跨文档推理难题。DeepSearch技术迭代式搜索框架,支持多轮检索与工具调用,跨越语义

鸿沟,实现推理型问题的智

能解答,提升用户问题解决

的准确性和效率。知识体系化·从“文档管理”转向“知识图谱化”,构建动态

实体与关系标签·实现知识资产的结构化与语义关联,降低维护成本,提升知识检索效率。·基于语义图谱进一步提炼·

引入双层检索机制,Local检索快速定位关键词,Global

检索扩展语义关联,结合Hybrid模式动态权重融合,提升复杂场景

下的问题解决率。·

引入DeepSearch技术,进行迭代式智能化搜索,提升推理场景下的准确率破局方向:知识体系化+检索智能化检索智能化全球软件质量&效能大会PART02领域知识注入:基于图谱的知识体系构建888关系标签自动抽取基于用户行为反馈优化标签权重,支持增量更新语义扩展检索Global检索利用关系标签驱动,解决跨文档

关联问题,召回率跃升至68%。动态实体抽取融合领域术语库与LLM,实现混合实体识别

技术,确保知识图谱的实时性和准确性。实体子图匹配Local检索策略,快速定位用户Query

关键词相关的实体子图,提高响应速度。QE优化1:业务知识图谱的增量式构建chunkVector

DBVectorDB实体、类型及其描述DB关系、标签及其描述relationshipVector

DB一次遍历图谱构建模块实体抽取实

类型描述

标签关系抽取来

体目标实体描述

标签

权重多次

历图谱多层

校验模块DB多步

chunking知识库知识预输入模块预定义一

业务输入QE

知识图谱的构建技术流程上下文保留的

知识分块例如:实体类型、

实体描述QE

研发图谱示例0

2

0

3

04global

检索增强

混合模式应用

效果显著提升利用关系标签驱动的语义扩结合本地与全局检索以及原线上问题的检索召回率提升展,解决跨文档关联问题。始RAG检索的优势。至95%+01local检索优化通过local检索快速定位相关

实体子图,提升召回率。QE优化2:图谱多层检索机制设计QE

图谱多层检索机制流程多源信息组织输出按

degree排

序按token长度智能截断图信息聚合模块多源知识召回模块enriłyvecforDB&BM25vecforDB&BM²5chuks

vacforDB&BM25按

degree和weigh+排序

按+oken长度智能截断交叉编码器模型重排

按token长度智能截断_9lobal_

graplh例

:minifish如何新建负面?fextsearch.enfity例

:minifishlistchunkglobal

keyword日

例:新建负面,页面创建relafiowsieschunksquery例

:minifish如何创建新页面同

询局辞手图查询topkfopk&阈值localkegword

exfracfiom例

:minifishchunksenfifieschuuks多

路相似度匹配相似度匹配graphDBnode-edgegraphreranker需求相关有愿些指标需

述在知识库中,涉及到需求管理的多个指标,这些指标用于评估需求处理的效率、效果和资源投入情况。以下是一些主要的需求相关指标:1.

发布需求数·

:反映需求从创建到发布的整个周期中的需求数量,统计在特定周期内已发布的需求总数。·

:评估研发成果的产出量和团队的交付能力。2.

需求流动速率·描述:反映需求流入和流出速率的指标,用于评估需求处理效率。需求流入速率:受理需求数/(受理需求数+历史在途需求)○

需求流出速率:发布需求数/(受理需求数+历史在途需求)

需求吞吐率:

需求流出速率/需求流入速率·用途:评估需求吞吐情况和团队的处理效率。3.

需求投入工作量·描述:团队在统计周期内技术人员在需求上投入的工作量总和。·

:评估需求的复杂度和资源消耗。4.

受理需求工作量·描述:在指定统计周期内受理的需求总工作量。·用途:评估研发工作量负载情况和需求管理的资源投入。5.

受理需求数·

:对应筛选月份内新受理的需求数量。·

:评估需求管理的效率和压力。6.TOP10主线投入·

:当前统计周期内已受理/已发布/当月投入的主线需求关联的主线投入分布情况。·用途:查看域内工作量投入所聚焦的主线情况。7.发布需求工作量·描述:团队在岗技术人员在当前统计周期内发布的需求数量的工作量总和。·用途:评估需求交付的复杂度和效率。8.

需求各阶段交付耗时·描述:反映需求在各阶段交付耗时的指标。·用途:评估需求交付的效率,9.

需求提测·描述:需求在开发完成后提交测试的状态。·用途:确保需求的功能符合要求,是需求管理中的一个重要节点。10.

需求排期率·描述:反映待排需求中完成排期比例的规划效率指标。·用途:评估需求规划的效率和准确性。1.需求的平均产研固期QE

图谱应用1-检索问答示例·

谱RAG方案中,全局问题及领域定义性问题可以很好解决;·

召回率达95%以上实体类型实体名称69研发术语SOFABOOT白+

功能代码块ARKMODULE+

研发术语SOFA-TRIGGER-MICROCODE-RUNTIME+

功能代码块微代码+

专用注解SOFA-BOOT-ALIPAY-ARKLET+

研发术语SOFAMQ+

研发术语SOFABOOT3.19.0+

研发术语无服务器化+

研发术语MOBILEGW+

研发术语MIDDLEWAREQE

图谱应用2-领域编码规则抽取共718条规则

2

3

45…

72

>删除全部规则②研发规则列表☆详细规则:#SOFABOOT

功能与用法详解##SOFABOOT

核心功能SOFABOOT是蚂蚁集团基于Spring

Boot

扩展的企业级Java微服务开发框架,主要提供以下核心功能:1.**模块化开发能力**:-支持将应用拆分为多个模块(Module)-每个模块可以独立开发、构建和部署-与SOFAServerless

深度集成,支持模块热部署2.**企业级中间件集成**:-

内置SOFARPC

作为服务通信组件-集成消息队列等分布式组件3.**版本兼容性**:-

需要

Spring

Boot3.15

及以上版本-自身版本要求≥3.21.0(部分功能需要更高版本)##基础用法示例###1.创建SOFABoot

应用'java@SpringBootApplicationpublic

class

BaseApplication{public

static

void

main(String[]args){SpringApplication.run(BaseApplication.class,args);实体类型实体名称去创作研发术语SOFABOOT0QE

图谱应用2-领域编码规则抽取全球软件质量&效能大会PART03复杂问题解决:基于智能搜索的方案构建888多轮检索策略解构曾经的单query检索,结合每一轮的检

索结构由模型抉择是否进行下一轮检索智能多路检索将图谱的local检索、global

检索和传统的chunk

检索均作为工具提供给大模型,模型由当前问题自由推理最佳搜索路径。QE优化1:结合迭代式搜索框架的检索Agent工具调用机制为agent提供多个工具(如代码检索、文档检索、图谱检索等),提升复杂场景下的问

题解决效率。query拓属/重写

决策原

query

使用某N

个seach

tol+适配的query表

?

>LMN

个query

tooi指令格式处理舞

行检索培果去重QE

检索架构参考关键词检索语义相似度检索实体检索(基于图谱)获取知识库的目录/文

件--search特定语雀文档--searchsyne3执行检素search_tool遮出TopNsearch

tool获取知识库名--searchsearchtool可考虑此环节加人用户历史盗询日志?总结--

LLMSmmary---LM提升匹配效率利用领域图谱进行改写;

有效解决口语化表达与

专业文档之间的匹配难

题,显著提升匹配效率

和准确性。工具调用机制上下文感知重写利

用上下文信息进行查

询重写,提升查询与知识标签的匹配度,增强理解能力。query深度理解

优化2:结合深度定制工具的领域助手agent引入工具调用机制,支

持更复杂的操作流程,

提高解决问题的能力。通过让模型自主决定调用哪

些工具解决问题。TERMINAL(kisagent)(base)youyuariskintelligence-SYS-4029GP-TRT2:/medial/youyu/code/kisagent/srcs

python

test/LocalL_test_code_tower_agen'

欢迎使用CodeTowerAgent

测试程序!这是一个增强版的TowerCopilotAgent,

具有代码生成和执行功能预设的CTP数据文件路径:/mediai/youyu/code/kisagent/src/data/ctp_tools.xlsx输入

'quit'

或'exit'退出程序示例命令:1.分析效率最低的应用2.分析各阶段耗时情况3.生成CTP数据的热力图4.帮我写代码分析CTP

数据中哪些应用的开发阶段耗时超过平均值的1.5倍5.生成代码分析CTP与commit数的关系请输入您的问题:QE

示例demo:结合定制化工具的领域助手agent·

预先定义好数据分析工

具【如低效应用分析】·

目前数据分析结果完全

准确·根因推测和优化方案部

分为模型结合业务知识

的推理请输入您的问题:生成代码分析commit数异常的部署单元回答:为了分析commit

数异常的部署单元,我将生成并执行Python

代码来处理CTP

数据,找出commit数显著高于平均水平的部署单元,并分析由于指标数据量过大,用户问的指标之间的关系并不一

定是我们预先定义好的,因此在第二版demo

中,我们设计了自动生成python

码的工具:这些单元在各阶段的耗时情况。这将帮助我们识别可能的问题点。我将执行以下步骤:1.

读取CTP数据。2.

计算commit数的平均值和标准差。3.找出commit数显著高于平均值的部署单元。4.分析这些部署单元在各阶段的耗时情况。5.提供改进建议。我将开始生成并执行代码。看来在生成的代码中有一个变量

file_ext

未定义,导致执行失败。我将修正这个问题并重新生成代码。·

对于已定义的指标分析,模型会自动调用工具进

行精准分析我将重新生成并执行代码,确保所有变量都已正确定义。看来问题仍然存在。我将手动编写并执行这段代码,确保所有变量都已正确定义。以下是具体的步骤:1.

读取CTP数据。2.计算commit数的平均值和标准差。对于未定义的指标分析,

模型会先生成分析数据

的python

脚本(难度较

低,准确率较高),后

调用并自动排查调试脚

本,得到分析结果后生

成数据3.找出commit数显著高于平均值的部署单元。4.分析这些部署单元在各阶段的耗时情况。5.提供改进建议。我将开始编写并执行代码。看来在读取数据时,列名与预期不符,导致了‘KeyError`

。我将先检查数据文件的列名,确保它们与代码中使用的列名一致。我将读取数据文件并打印列名,以便确认。感谢你提供的列名信息。根据列名,我将调整代码以匹配实际的列名。以下是调整后的步骤:1.

读取CTP

数据。2.计算commit数的平均值和标准差。3.找出commit数显著高于平均值的部署单元。4.分析这些部署单元在各阶段的耗时情况。5.提供改进建议。QE

示例demo:结合代码生成的数据分析agentTERMINAL我将开始编写并执行调整后的代码。看来代码执行成功,但返回的结果为空。这可能是因为没有找到commit

数显著高于平均值的部署单元。为了确认这一点,我将先输出c

ommit数的统计信息,包括平均值、标准差和阈值,以及所有commit数高于平均值的部署单元。我将重新执行代码并输出这些信息。看来代码执行成功,但返回的结果仍然为空。这可能是因为没有找到commit

数显著高于平均值的部署单元。为了进一步确认,我将输

出commit数的统计信息,包括平均值、标准差和阈值,以及所有commit数高于平均值的部署单元的详细信息。我将重新执行代码并输出这些信息。看来代码执行成功,但返回的结果仍然为空。为了更好地理解数据,我将输出commit数的统计信息,包括平均值、标准差和阈值,以

及所有commit

数高于平均值的部署单元的详细信息。我将重新执行代码并输出这些信息。看来代码执行成功,但返回的结果仍然为空。为了更好地理解数据,我将直接输出commit数的统计信息和所有commit

数高于平均值的

部署单元的详细信息。我将重新执行代码并输出这些信息。看来代码执行成功,但返回的结果仍然为空。为了更好地理解数据,我将直接输出commit

数的统计信息和所有commit

数高于平均值的

部署单元的详细信息。我将确保输出这些信息,以便我们可以进一步分析。我将重新执行代码并输出这些信息。根据代码执行结果,我们得到了commit

数的统计信息和所有commit

数高于平均值的部署单元的详细信息。以下是分析结果:###Commit

数统计信息一**平均值(mean)**:105.65一**标准差(std)**:161.19一**阈值(threshold)**:428.03一

**commit

数显著高于平均值的部署单元数量**:4###Commit

数显著高于平均值的部署单元1.**部署单元**:

anttestops一**应用owner**:

肯丘一**应用类型**:

SOFAB

oot一**CTP

(

)

*

*

:

0

.

9

5一**人工commit数(个)**:760一**最大commit发布时长(天)**:5.21一**迭代整体耗时(天)**:

6.86一**迭代开发阶段耗时(天)**:1.4一**迭代集成阶段耗时(天)**:0.0一**迭代预发阶段耗时(天)**:5.46由于指标数据量过大,用户问的指标之间的关系并不一

定是我们预先定义好的,因此在第二版demo

中,我们设计了自动生成python

码的工具:·

对于已定义的指标分析,模型会自动调用工具进行精准分析对于未定义的指标分析,

模型会先生成分析数据

的python

脚本(难度较

低,准确率较高),后

调用并自动排查调试脚

本,得到分析结果后生

成数据QE

例demo:结合代码生成的数据分析agent###分析和改进建议1.**`an

ttestops**:一**主要耗时阶段**:迭代预发阶段(5.46天)一**改进建议**:优化预发阶段的流程,减少不必要的等待时间,提高自动化测试覆盖率。2.**`icommunity`**;一**主要耗时阶段**:迭代预发阶段(6.52天)一**改进建议**;优化预发阶段的流程,减少手动操作,提高自动化测试覆盖率。3.**`costplatform`**;一**主要耗时阶段**:迭代预发阶段(5.56天)一**改进建议**:优化预发阶段的流程,减少手动操作,提高自动化测试覆盖率。4

。**`pservice**:一**主要耗时阶段**:迭代开发阶段(7.03天)一**改进建议**;优化开发阶段的流程,减少开发时间,提高代码质量和开发效率。###总结这些部署单元在预发和开发阶段的耗时显著高于平均水平,建议优化这些阶段的流程,减少手动操作,提高自动化测试覆盖率,以提

高整体的研发效能。QE

示例demo:结合代码生成的数据分析agent·

对于已定义的指标分析,模型会自动调用工具进行精准分析对于未定义的指标分析,

模型会先生成分析数据

的python

脚本(难度较

低,准确率较高),后

调用并自动排查调试脚

本,得到分析结果后生

成数据TERMINAL-**迭代集成阶段耗时(天)**:0.0

一**迭代预发阶段耗时(天)**:1.57

一**迭代测试阶段耗时(天)**:0.0一**迭代灰度阶段耗时(天)**:0.17

一**迭代生产阶段耗时(天)**:0.03

###所有commit数高于平均值的部署单元一**icommunity**一**costplatform**由于指标数据量过大,用户问的指标之间的关系并不一

定是我们预先定义好的,因此在第二版demo

中,我们设计了自动生成python

码的工具:一**pservice**一**pairhub**一**linglongmng**一**tlinglongmng**一**predevagents**一**towerstrategycenter**全球软件质量&效能大会PART04落地实践与效能提升888QE

蚂蚁内部场景验证01指标提升

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论