2025QECon全球软件质量效能大会:搜推效果分析洞察实践_第1页
2025QECon全球软件质量效能大会:搜推效果分析洞察实践_第2页
2025QECon全球软件质量效能大会:搜推效果分析洞察实践_第3页
2025QECon全球软件质量效能大会:搜推效果分析洞察实践_第4页
2025QECon全球软件质量效能大会:搜推效果分析洞察实践_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

QECon2025全球软件质量&效能大会

·深圳站2025

GLOBAL

SOFTWARE

QUALITY

&EFFICIENCY

CONFERENOE

SHENZHENZHAN搜推效果分析洞察实践王万辉(柒谨)支付宝测试开发专家毕业后一直在阿里系工作,目前在芝麻信用质量团队,主要负责搜推技术质量保证和效果平台开发工作。曾负责过多个高风险业务线和相

关质量平台开发工作。全球软件质量&效能大会01

业务介绍和痛点02

解决思路和方案03架构设计和演进04

总结和启发目录CONTENTSQECon全球软件质量&效能大会全球软件质量&效能大会PART1-业务介绍搜索/推荐系统的业务形态?888搜索业务形态通过识别用户搜索意图,精准匹配供给,提高用户体验

和转化20:36台式电风扇推荐业务形态通过刻画用户兴趣,结合推荐策略,提升用户决策效率

和粘性USB风扇4寸6寸8寸迷你便红包已抵22元满2件5.7折×3.94抵后价300+人付款稳头好缆扬子空气循环扇高红包已挺7元满2件9.6折¥

26.02抵后价空气循环风大

轻高速风驰闪拍华为手机全新未拆封全

为Mate70

Pro+首月一

低租金赠送壳膜顺丰包邮芝麻分>80085折

可买断可续租免赔保障¥14.45/天4400+人租过日叮咚品租全新全

新HUAWEIMate70Pro优

享版鸿蒙智能租物红枫原色影像

可买断可续租免赔保障租演唱会神器全新

6

0

0

Mate70

超值

购鸿蒙A

红枫原色影像赠送壳膜¥4.67/天

100+人租过日机汤租机全新首月1元华为

Mate70

鸿

蒙AI

非监管机山可买断可续组业务介绍-业务形态零售电商投资理财新闻资讯社交话题钻石牌风大音轻空气循环落全网低价¥93.95折后价

8000+人付款美好缆

电风扇迷你学生宿红包已抵7元满2件9.6折×12.

47抵后价影音娱乐【杭州】王心凌SUGAR…

5.10桐庐马岭古道徒步于2025.05.10连载30周年纪念展07.18-07.1915:53<

芝麻租赁形Al大模型智能机器人芝麻分≥80085折HIGH

2.0世界巡回演唱.富春山居图中循环自然风

清凉满全屋OPPO手机

租车无无刚电机可调强强风力8

寸加

版电脑¥9.80业务系统&客户端行为日志(SLS)

app搜推系统场景

召回

粗排

精排特征获取召回检索

业务策略feature

HA3/BE

策略user/item/query

个性化/热门

拉黑/加权效果难解释·

传统规则类监控无法发现

问题·

人肉标注成本大,耗时久·

线上切流验证对用户有损,

周期长迭代周期长,人力成本高,效率低复杂且黑盒·

链路复杂:包括召回、排

序、策略,涉及工程、数

据、模型等,相关黑盒化

协同多:算法/研发/产运/

数据调试和排查困难,

通常需要半天级+训练样本迭代快速且场景多·搜推业务属于技术驱动,迭代频繁。·支付宝内有大量搜推业务,既有差异点又有共同点QE

业务介绍-系统架构和业务痛点分析工具开发和迭代成本高,迭代周期天级,新场景开开

周期半月级特征更新索引更新:odps/blink特征计算

索引同步

样本生产特征日志(SLS)重排在线打分arks/maya排序/重排A模型更新

aistudio模型训练研发/变更

对比调试

切流实验

流量观察

置信推全业务日志(SLS)业务数据(DRC)业务需求

实验选代研发

迭代数据处理特征更新

/

QECon全球软件质量&效能大会PART2-

解决方案888.整体解决思路问

复杂且黑盒

02

效果难解释

03

快速迭代和接入方案:

白盒化+可视化一站式分析

基于大模型做预测和解释

可编排的低代码平台架构收

:提升调试和分析效率

提升分析效果和实验效率

提升迭代和接入效率PART2.1-

复杂且黑盒全球软件质量&效能大会88803.产品表达是什么?·

搜索详情·

推荐详情为什么?·

链路透视·

生命周期·

特征分析·user

分析·Item

分析怎么样?·

对比分析·

流量刻画·

行为分析效果

:·

效率半天级

->分钟级01.动线拆解各环节关注的问题:·

召回:从哪个策略召回的?·排序:排序模型打分的情况啥?·

特征:用户和商品特征是啥?·链路:商品在各阶段的上下文

是啥?·

链路:整体请求的链路是啥?搜推现场是什么?用广行为item生意周期视角为什么?金流程白意化视角关联数据一站式直询整体耗时各阶段耗时怎么样?工程报错模型报错结构化日志SLS输出*日志格式:

yy-9-dH:mm;5s,SSI01traceTalserverIplaprdltpAbTdldrwinToluserzprivate

static

vofdranfonitor(Stringbizstr,booleaninvokesucess,

LonginvokeTine*格式:nodeTd/matchTypelitemsizelitemTd1,itemTd2

…subRecalL(List<EvoReeTten>recTtems){scoreResS

(EvoRecContextctx,String*格式:itemsize/nodeId/itemId#score,itemId#score

,…publicstaticvoidreRankRes(StringnodeId,List<EvoRecTtem>recItems)数据处理:实时特征离线特征离线指标

业务数据blinkSLS

志特征聚合数据处理日志服务视图服务OLAP

加速OE

解决思路和方案02.数据处理全档路pipline备节点明细nodeTd,List<EvoRecTten>recItens,4usagesbaisu.Ix+1static

voidstatic

voidpubLicpublicPART2.2-效果问题难解释888.全球软件质量&效能大会人工标注1.线上离线数据采样2.小二批量任务标注3

.

异常case分析局限1.

标注人员需要有很强的专业知识,如显卡

型号是啥2.

人力成本极高,效率

慢AI

分析案例1-相关性问题背景99新

大疆Power1000户外移动电

源露营出行2600W

真大功率芝麻分>80085折

可买断可续租晚发必赔99题

探路者假日营帐篷户透气防晒

多人大空间三角体闲天幕

TEDDAK可买断可续租9595新探路者营地车户外野营

便携折叠式运输四轮车可买断可绩租晚发必赔¥4.86/天1900+人看过日油瓜租机二手探路者户外便携式折叠帐篷

春夏防雨易收纳大空间速开帐

TED可

罚全新微星泰坦16游戏本i9HX4080显卡高配电竞本顺丰包邮配鼠标

可买断可续租免踏保障¥27.a3/

天15人租过

租96新

1314代i7处理器3070系列40

80系列显卡游戏台式电脑畅玩英¥1/天

2900+人看过|日患租成新惠普840G1

办公本14英寸商

务办公轻薄便携考试网课长租顺

可买断可续租粗期质保搜

期?142.5K

超视网膜全面屏顺丰包邮免赔保障如何发现?95新

10系至50系华硕七彩虹等大

牌显卡畅玩3A大作4060显卡4074

0

8

0

?综合排序移动电源?20:46Q帐篷 AI

分析案例1-可行性分析判

型LLM(性能/准确率)prompt:#

角色:角色名称你是一

名租赁电商搜索系统相关性分析专家,请根据以下信息判断电商平台搜索系统针对用户搜索

query

给出的结果商品是否相关。#

输出格式:仅需要回答

[A.

强相关,B.

弱相关,C.

不相关

]三项中的一项。input:query:

4080|商品名称:【租物专属】RedmiBookPro142.5

K超视网膜全面屏

顺丰包邮赠鼠标鼠标垫

办公本

轻薄本

商务本output:<think>好的,我现在需要分析用户查询“4080”与商品名称“【租物专属】

RedmiBookPro14

2.5

K

超视网膜全面屏顺丰包邮

赠鼠标鼠标垫

办公本

轻薄本

商务本”之间的相关性。首先,用户输入的

query

是“4080”,这可能指的是

V

VIDIA

RTX

4080

显卡,

通常用

于高性能游戏或图形处理。而商品是RedmiBook

Pro14笔记本,属于轻薄办公本,配置可能集成显卡或较低端独立显卡,

不太可能搭载高端的RTX

4080。商品名称中提到的关键词如“办公本”、“轻薄本”也指向其定位为日常办公使用,而非高性能游戏或图形工作站。因此,用户搜索的显卡型号与商品的实际配置不符,属于不相关。应选</think

>C.不相关。人工标注模型微调

线上部署

模型优化判定大模型需要高频调用,且对准确率要求较高->毫秒响应,95%解

型LLM

(低频/业务规则)prompt:#

角色:角色名称你是一

名租赁电商搜索系统相关性分析专家,用户反馈搜索词

query

和item

不相关,请给出不相关的理由。##输出格式:reason:

[

此处填写不相关理由,10字以内,如型号不符合、类别不匹配、品牌不匹配

]input

:query:

帐篷|商品名称:大疆

Power1000

户外移动电源

露营出行

2600

W真大功率output:<think>好的,用户搜索的是“帐篷”,而商品名称是“大疆

Power1000

户外移动电源

露营出行

2600W

真大功率”。首先,我需要确认用户的需求是什么。帐篷属于露营装备,而移动电源属于电力设备。虽然两者都用于露营场景,但功能完全不同。用户可能是在寻找露营用的帐篷,但系统返回的是移动电源,这明显不符合需求。因此,不相关的原因是类别不匹配。确保搜索算法正确区分不同类别的商品,避免因场景相关但功能不同导致的误推</think>reason

:

类别不匹配dpR1

知识挂载

prompt

人工打标解释大模型低频调用,需要辅助专家经验和业务规则链路说明采

:·根据业务策略每天采样2000线上流量任

:·通过延迟消息队列,控

制QPS

调用·通过流程引擎编排场景化分析智能体效

果:·使用场景:线上BADCASE

挖掘,算法迭代自回归·

效率提升:周级->小时级QE

AI

分析案例1-工程链路AI挖掘任务定时挖掘任务

场景化可编排智能体获取不相关原因线

型解释大模型获取线上实际打分模型优化后置处理任务后置任务执行任务配置报告生成主任务/子任务/后置任务任务配置消息消费

子任务执行输出人工确认样本沉淀相关、弱相关很因判定(规则

)过程上下文数据补全相关性判定

模型样本加载qps延迟队列主任务触发traceldA/B/C局限1.

对切流用户体验有损2.实验周期过长,导致

业务迭代效率低思路能否基于大模型的推理能

力提前预测用户的行为?

提升实验效率。依赖用户的行为反馈?算法:我新加了某个特征?需要验证用户的点击效果?常规做法创建实验实验切流效果观测重新优化QE

AI分析案例2-用户行为预测背景QE

AI

分析案例2-可行性分析<think>好的,我现在需要处理用户的请求,预测用户对

批商品的点击和购买概率。首先,我需要仔细分析用户提供的各种信息,包括用户特征、商品特征以及用户画像。首先,处理用户特征。用户UID

是2088xxxxxxxx,年龄xx

岁,男性,居住在xx

市,职业是蓝领,学历大

专,消费档次大约

xx,

用户的历史行为数据中,30天内点击的

itemid

序列包括多个手机和电子产品,比如华

为Mate

X6

、Mate

70RS,还有小牛电动摩托车和三星W25,这说明用户对高端手机和电子产品有较高的兴趣。此外,用户最近

天内有曝光和点击商品的行为,且属于召回用户,可能对平台有

一定忠诚度。接下来分析商品列表中的各个商品特征。商品涉及多个类目,包括手机、五金工具、空调、鲜花园艺等。用户的历史点击主要集中在手机类目

(CO⁰1686153

等),因此手机类商品可能会有更高的点击率和购买概率。尤其是

iPhone

16

Pro

这样的高端机型,可能符合用户之前的兴趣

。另外,用户消费档次较高

(xx),可能更倾向于租赁高端或高价

值商品。比如,华为Mate

系列和三星

W25属于高端机型,而用户历史点击中也包含这些品牌,因此类似品牌或型号的商品可能更吸引用户。相反,五金工具或鲜花园艺类商品可能不符合用户的历史偏好,因此预测的点击和购买概率可能较低。此外,用户最近30天的点击序列中多次出现手机类目,而鲜花园艺类商品的点击较少或没有,因此在预测时,这类商品的概率可能较低。例如,商品2025041122000069802123和2025041122000169804362属于创意迷你植物,用户可能对此兴趣不大,导致较低的预测值。最后,用户是否当天访问为1,说明当天活跃,可能更容易产生点击和购买行为。但需要结合商品本身的吸引

力,比如折扣、价格等因素。例如,先租后买的

iPhone

16

Pro

虽然价格低,但可能因为品牌和型号吸引用户,而短租测试商品可能因为租期灵活吸引用户,但需看是否符合用户需求。综合以上因素,对每个商品进行评估:1.手机类商品,尤其是高端品牌如iPhone

、华为,预测较高的点击和购买概率。2.

家电类如空调挂机,用户历史中没有类似点击,预测较低。3.

五金工具类如发电机,

可能不符合用户兴趣,预测低概率。4.

鲜花园艺类,

用户无历史兴趣,预测较低。</think>"uid:"2088702028012284","item_prod_res

":[{"itemid":"2025041122000069802123","click_prob":

0.25,"reason":

"

植物租赁偏离用户历史强相关的3C类目兴趣"Ilm行为预测推荐请求模拟

知识库仿真环境

专家经验prompt模板

LLM

调用Ilm用户&商品理解用户画像指标统计&对比商品画像品牌/流量/人群/优惠模型调试效果

智能体构建-

>数据处理流程点击/购买行为预测商品理解品牌/类目/人群用户行为特征用户理解用户基础特征商品基础特征

商品统计特征实

时离

线实

时离线基础数据加工用户特征商品特征全球软件质量&效能大会PART2.3-快速迭代的方案888.01-个性化适用场景:·

高度个性化的业务逻辑·

只服务少量业务实现逻辑:·前端设计独立的页面,通过

一个个菜单区分·后端实现配套的接口优劣势:优势:每个业务可以定制自

己的逻辑·

不足:前后端开发成本高02-平台化适用场景:·

高度平台化的业务·

如中台类业务实现逻辑前端每个页面实现具象的逻

辑后端按业务域区分优劣势:·

优势:无需前后端开发·

不足:业务有差异,接入改造成本高或无法支持03-组件化适用场景:即有通用性,又有较大的个

性化差异实现逻辑·前端组件化设计,约定协议·后端开放给业务编排个性化

逻辑优劣势:·优势:可灵活支撑各业务方案设计的几个思路拖拽式服务节点

秒发布业务脚本日志服务

lindorm服务

odps

服务

日志解析

参数转换

结果解析IGRAPH服务大模型服务

maya服务组件样式

页面布局

参数配置只需开发业务解析脚本,无须前端开发,业务逻辑修改秒级发布,大幅提升迭代和接入效率事件点击即渲染

点击即请求点击即跳转

其他事件协议渲染协议

事件协议模板->页面QE

组件化实现方案工具:模板1:1

通用函数自定义服务流程实例1:n流程模板调用方式权限管控可视化展示组件库…table组件

pipline组件tabs组件

图表组件工具注册基本信息参数模板groovy子流程状态流转系统参数业务参数权限管控业务接入业务域管理模板->页面脚本化构建分支定时并行循环流程模板全球软件质量&效能大会PART3-

总体架构设计和演进888.业务支撑人工分析(一站式)能力注册

个性化工作台

图业务场景配置

业务数据接入自定义流程编排自定义输出接入后置流程消息卡片推送结构化数据处理报告构建user分析动线序列意图行为|特征基于stepflow

的可视化流程编排引擎平台公共服务

业务脚本主子流程秒级发布

标准协议数据源日志

特征实时数据

离线数据antlogs

lindorm

igraph

geabase

arec2

flink

antmonitor

Ilm

dataphin架构解读架构基座(效率):·后端流程引擎编排,脚本化·前端组件化,免开发免

,秒级发布,拓展性分析能力

:·

平台沉淀各类分析组件和服务,各业务开箱即用。场

化agent:·

基于架构基座,编排细分场景下的复杂智能体。业务效果

:·

已支撑支付宝10+搜推业务线。QE

架构设计-整体架构方案任务注册流式任务定时任务流程映射trace全链路召回|精排截断重排任务执行主任务实例延迟消息队列子任务实例item分析位置|分数|过滤属性结论输出实时报告输出离线明细输出人工二次标注Ai分析日志行为|特征|推理场景工具模型评测实验仿真线上挖掘AI挖掘主子任务|效果指标基于组件化设计的前端架构个性化组件

播拔式

免前端查询引擎antlogs索引arec工程D&A加速

lindorm

加速数据处理离线任务

flink流任务业务脚本加工效果分析(copilot)agent结论钉

定时实时离线产品交互任务体系分析能力数据

处理消费图频道支付结果页会员频道租赁频道分析形式出行酒旅蓝火花依赖基座QE

架构演进-智能分析CopilottracaldC622d72e17476371179801932e61eBC645105e17476360863715049e4cdCb45foie17476360861875045ef4cdCb4505e17476360861875045e4cdC645f05e17476360858555035014cdCb45folet7476185329612159ef4caAI工程RAG

Functions

Agents

flow引擎

SSE大模整详熟

提推评测

分析工具20B8802737298080*时间范围:

2025-05-790D0D-0C

2025-05-1923:5959场景:Agentagent日志分析用户分析商品分析xx分析会话管理会话会话创建会话记忆会话失效请求时间2025-05-1914:45:18,0092025-05-1914:28:06,3952025-05-1914:28:06,2182025-05-1914:28:06,2182025-05-1914:28:05,8902025-05-1914:28:05,8902025-05-1914:28:01,4722025-06-1909:35:33,179框架RAG

增强Promp

模板Functions用户id20

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论