2025 GOPS 全球运维大会暨研运数智化技术峰会·上海站:AI 时代 App 质量可观测平台实践与探索_第1页
2025 GOPS 全球运维大会暨研运数智化技术峰会·上海站:AI 时代 App 质量可观测平台实践与探索_第2页
2025 GOPS 全球运维大会暨研运数智化技术峰会·上海站:AI 时代 App 质量可观测平台实践与探索_第3页
2025 GOPS 全球运维大会暨研运数智化技术峰会·上海站:AI 时代 App 质量可观测平台实践与探索_第4页
2025 GOPS 全球运维大会暨研运数智化技术峰会·上海站:AI 时代 App 质量可观测平台实践与探索_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

GOPS

2025ShanghaiAI时代App质量可观测平台实践与探索

姓名:黄涛

◎时间:2025/10/18ANNIVERSARY2015-2025背景:快节奏迭代下的质量挑战实践:可观测平台的核心能力目

探索:“智”能分析新范式总结展望:A

驱区动的质量新未来GOPS

全球运维大会暨研运数智化技术峰会2025·上海站◎1◎2◎3◎4GOPS

2025ShanghaiANNIVERSARY2015-2025GOPS2025

ShanghaiANNIVERSARY

2015-2025背景:快节奏迭代下的01

质量挑战GOPS

全球运维大会暨研运数智化技术峰会2025·上海站Shanghai2015-2025GOPS2025ShanghaiANNIVERSARY

2015-2025需求开发/测试阶段

合流高峰期Master主干Feature需求分支每个版本30-80条需求分支

合流

deadline

忙不过来灰度发布灰度用户仅1.5~2K

3

-

4

天苹果减少TF

量级问题更难提前暴露GOPS全球运维大会暨研运数智化技术峰会2025·上海站正式发布新版本全量发布

上架后无法撤回迭

程高速迭代下的质量压力迭代周期短(2周左右)灰度用户少(2k)合流时间短(1d)优化上(上)个版本暴露的线上问题

需求迭代频繁,大量历史问题积攒线上严重问题爆发伤害大量用户体验需求高并发合入性能劣化难发现版本需求多(30-80)GOPS2025

ShanghaiANNIVERSARY

2015-20251环境鸿沟测试环境与真实环境差异导致问题覆盖不全面资源瓶颈人工测试资源有限,灰度用户和灰度时间覆盖

面不足信息衰减发生问题后,缺乏实时监控与反馈机制,导致关键信息的丢失数据孤岛与指标缺失零散的反馈,缺乏可信的质量指标,无法依据数据做出正确的决策协作效率低下由于没有统一可以查看问题的地方,团队间协作也会有困难版本迭代中的质量痛点GOPS

全球运维大会暨研运数智化技术峰会2025·上海站GOPS2025

ShanghaiANNIVERSARY

2015-2025■全链路实时监控建立覆盖应用全生命周期的监控体系,从开

发环境到测试环境再到生产环境,实时掌握

应用性能、稳定性和用户体验状况,及时发

现异常。跨团队协作提升打破产品、开发、测试和运维之间的信息壁垒,提供统一的数据视图和

协作平台,促进团队间高效沟通与协作,共同提升产品质量。预测与预防能力基于历史数据和趋势分析,建立预警机制,在问题造成大规模影响前提

前发现并处理·

从被动响应转向主动预防。GOPS

全球运维大会暨研运数智化技术峰会2025·

上海站“可观测性平台不仅是技术工具,更是质量文化的重要组成部分,能够帮助团队建立数据驱动的决策机制,持续提升产品质量和用户体验。”快速定位与优化通过数据驱动的方法,精准定位性能瓶颈和

稳定性问题,减少人工分析时间,加速问题

解决过程,提高开发团队效率。☑问题闭环处理构建从“指标异常→

问题定位

→解决方案

行动实施→效果验证”的完整闭环,确保每

个问题都能得到及时处理并验证解决效果。可观测性平台的必要性GOPS2025

ShanghaiANNIVERSARY

2015-2025“可覆盖CI/CD/CO

各阶段,提供全生命周期的质量监控”App

质量可观测平台应用场景·AB

实验·

日常运维GOPS

全球运维大会暨研运数智化技术峰会2025·上海站·

版本发布·Hot

Fix开发分支质量对比GOPS2025

ShanghaiANNIVERSARY

2015-2025实践:可观测平台的02

核心能力GOPS

全球运维大会暨研运数智化技术峰会2025·上海站Shanghai2015-2025GOPS2025ShanghaiANNIVERSARY

2015-2025应用层面向用户的价值输出层。提供:全局指标dashboard、智能告警、Issue

下钻分析、归因诊断等能力。ETL

层核心数据处理引擎。具备:堆栈符号化、日志解析(

Tombstone,Minidump)、

智能聚类、指标计算、特

征分析(如反作弊清洗)等能力·接入层高并发、高可用的数据上报网关,日均处理百亿级别的指标和个例事件数据。采集层多端支持(移动、桌面、

Web、小程序、Flutter、VisionOS)

核心能力:高可用、高保真的数据采集链路,守护进程、捕获成功率优化。邮件报表MySQLCrash聚类Android崩溃分析崩溃监控OpenAPIcos内存分析文件接入内存监控归因派单ClickHouseiOS堆栈还原卡慢分析鉴权启动监控“提供异常数据的采集和分析服务,帮助开发者及时发现并解决异常问题,打造高质量App。Kafka/Pulsar□符号表平台

Java堆栈还原Kafka/Pulsar预分析微服务集合ANR分析Kafka/Pulsar接入后台告警湖仓一体Kafka/Plar特征挖掘平台FT特征分析

黑产分析Al个例分析ES自定义分类App

质量可观测平台架构xx

堆栈还原启动分析电量监控GOPS

全球运维大会暨研运数智化技术峰会2025·

上海站xx分析××监控配置后台开关&配置客户端SDK卡慢监控个例合并层堆栈还原层预分析层GOPS2025

ShanghaiANNIVERSARY

2015-2025接

层应

层云函数平台Native堆栈还原ANR监控ETL

层WEB

CGI信令接入流控用户操作是否流畅?游戏是否有60FPS?例如“卡顿率”、“FPS”、“启动速度”、“页面启动耗时”等指标

;App

是否发生闪退?是否冻屏无法操作?例如

“Crash率”、“ANR率”、“错误率”、“OOM

率”等指标;App用了多少电量?聊天场景需要多少内存?例如“内存峰值”、

“CPU利用率”、“前台电流值”等指标;"App

质量指标一般以用户体验为基础,主要关注那些影响用户体验的基础问题,具体来说主要包括:

“快”、“稳”、

“省”

这几个方面。”针对一个终端App来说·这些基础体验是最重要的,毕竟谁都受不了一个无故闪退、操作无响应、掉电还非常快的以用户体验为中心的质量指标体系GOPS

全球运维大会暨研运数智化技术峰会2025·

上海站快

稳GOPS2025

ShanghaiANNIVERSARY

2015-202502丰富的告警条件支持按版本、机型、系统等多种条件过滤,实时监

控特定场景下的异常。提供多种判异条件,含异常数量、影响人数、指标阈值及波动范围,全面覆盖异常情况。针对频繁触发的告警,自动启动告警升级,及时触达二级负责人,确保问题快速响应。04支持平台间联动告警系统支持WebHook

接口,能够无缝对接客户公司内部平台,助力企业一体化响应体系构建。01全方位的告警维度支持全方位的告警维度,涵盖

指标异常、个例问题、

ISSUE事件、用户终端等,确保问题无遗漏。03.防告警误报通过智能算法精准拦截因服务器波动引发的数据毛刺,有效过滤误告警,降低无效告警干扰。GOPS

全球运维大会暨研运数智化技术峰会2025·

上海站构建精准、及时、高效的多维告警体系GOPS2025

ShanghaiANNIVERSARY

2015-2025alert_server告警通知管理《拼装消息,发送通知)MySQL

告警历史达成触发条件,告警回调过滤条件判异条件alert_metric_calculator(指标计算,新数据模型)Clickhouse定时(30秒)生产[计算任务]

消费[计算任务]MySQL告警策略相关存储

Kafka实时

crash机器人发布产品发布版本:发布时间

:2025-08-2000:19:44累计时间:2025-08-2600=00:00-13:00:00累计登录

■累

计Crash

Anr

:Crash

Anr率

:0.02%、0.05%Crash

详情:查看版本Crash

情TopCrash:[Top

Crash1:问题1D:

8521F堆枝:SIGABRT:Check

failed

key_value

l=nullptr

compiler-fiter

not

found

in

oat

header

影响版本:■TopCrash2:问题

ID:

05314堆栈:SIGABRT:Thread

suspension

timed

out:0x72dbbef798:DefaultDispatcher-worker-70影

:■

提单Top

Crash

3:问题

ID:

21FCA堆楼:android.os.RemoteException:Remotestacktrace:atcomandroid.server.am.ActivityManagerServicereportSizeConfigurations(ActivityManagerServicejava:9930)atandroid.app.IActivityManagerSStub.onTransactSreportSizeConfiguratons$(IActivityManagerjava:11822)atandroid.app.IActivityManagersStubonTransact(LActivityManager.java:2619)atcom.android.serveram.ActivityManagerService.onTransact(ActivityManagerService.java:3909)atcom,android.serveram.OppoActivityManagerService.onTransact(OppoActivityManagerServicejava:942)影响版本:

TAPD

:点击查看TAPD

单TopCrash4:问

题ID:AA4F0堆核:SIGSEGV(SEGVMAPERR):libnative-memory-ibrary-lb.so(HookedReadBytesLJNIEmy,Ljobject,jobject,joject,int,int)libnative-memory-library-Iib.so(HookedReadBytesJNIEnv,jiobject,_jobject,_jobject,int,int)影响版本:单Top

Crash

5:问

题ID:

8622D

堆楼:SIGSEGVSEGV

MAPERRI:lib.sofoetenv案例:自动化放量,质量守卫与效率提升放量、检测、止损、建单、通知、完全自动化,无需人参与TAPD

链接:暂无提单■

TAPD

链接:暂无TAPD

链接:点击查看TAPDGOPS

全球运维大会暨研运数智化技术峰会2025·

上海站检测是否超过告警阈值获取Top崩溃

问题详情获取版本、人数信息自动建单和分配责任人企业微信群同步信息自动停止灰度放量实时监控

质量数据Redis计算数据延迟GOPS

2025Shanghaialert

confng

策略管理ANNIVERSARY2015-2025拦截数据延迟误告警告警策略

通知方式创建告警任务指标结果上报获取计算数据创建告警策略计算指标Prometheus24/4/911:34i的crash率突然增加很多了发生次数javaliang.NIPolnterEaceptionAnemreto

oesd

from

fed

ionlang

snin位(%)2.10%1.80%1.50%1.20%0.90%0.60%0.30%0.00%10:20

2024-04-0912:24

04-08

04-09

04-

10

04-

11及时发现并定位线上突发崩溃问题,挽回损失数十万元GOPS全球运维大会暨研运数智化技术峰会2025·上海站案例:告警+异常兜底能力挽救业务损失5分钟内

触发告警,立即响应修复仅13分钟,崩溃率从

15%降低至1.4%,大范围减少损失13

min响应修复%崩溃率降低至5

min触发警报引发大面积线上崩溃用户修改线上配置ANNIVERSARY

2015-2025GOPS2025

Shanghai·

卡顿:低损耗持续抓栈,结合堆栈树

、火焰图,直观呈现性能瓶颈。·

网络/流量:详细记录网络请求明细,

助力优化网络性能与资源消耗。发现问题只是第一步,针对问题的分析与归因才是我们的最终目的。GOPS

全球运维大会暨研运数智化技术峰会2025·上海站·Crash:支持系统Minidump、日志、FD、进程状态、Abort

Msg等关键信息。·

FOOM

联动内存详情、内存泄漏、大

内存分配,全面追踪内存异常,精准

定位FOOM

根源。·

引入AI大模型,深度融合海量问题处

理经验,打造AI智能助手,降低异常问题分析门槛。·ANR:

提供ANR

Trace

、ANR

Info消息时序调度图、

GC

信息等无响应信

。·

ANR联动卡顿监控,结合卡顿抓栈,自动捕获ANR

发生前的卡顿堆栈信息

,助力解决疑难ANR问题。从“发现问题”到“定位根因”异常现场还原能力GOPS

2025

ShanghaiANNIVERSARY2015-2025开启Java内存详情功能·在OOM

发生之前获取Java

堆转储文件并上传Bugly后台;·

分析出单个大对象、密集大对象和泄漏对象等问题并提取关键特征聚类;·

每一个个例都会给出引用链和支配树等信息·

用户可直接找到问题原因:1消息详情引用链

DominatorTree③符号表

现场数据

附件对象V

com.tencent.renderernode.RootRenderNode>javalang.Thread>com.tencentrenderernode.RenderNode→com.tencentrenderecnode.RenderNodemParent>javautil.concurrent.ConcurrentHashMapSNode>val>javautiL.LinkedHashMapSLinkedHashMapEntry→key■确认了就是这里了,这个会不停的删旗节点创建节点,从蝶乐tab点内容进去看或者切TAB都停不下来,内存就会一直增长,能不能先把这个动画关了,快速发一版验证一下看看OOM

率会不会下来,乘着理在30灰度版本还有量■■看看蝶乐热榜的跑马灯动画先关掉?*375FCEAACFEOBBC31B42A299FFCBBEjarabrgOuOMemoryEnorFaedto

ac32bys

koeam4191408ebynnd4070

0CM.togt6596870012.guoh

ina53870012gngponacafonbeec18cioabnaOuHOMAmoninaeraurrtkcksAbwOuuencrouConssojetmafureieat

cecurnartSchedesfhoasofocohoscolysewe属开t2024-07-19085514

(14583%)

13(18665%)7290P-7507◎添加桥重F141451B9C4F837140CCASAE4C472BDAiavalang.OuIOMemoyEnerFnled

to

alos

a6

by

scersnwm3292o

byd0CM

tosS270912,gosth

ina

sa012gnguponocnbc

et

aimiangOuOMAemoneandoopotsbugMoapnMonhonpMmagoMonntpimDapsehanarodopobabugMmnoonnonelmanoeth顺开7a8oD-7600◎

澳图ye2024-07-15

2054:402024-07-18

00:10552024-07-16229223

(8125%)3

(3.125%)3(3125%)3(38461603(3064616)3(3.8461%6)GA100DCB1DDCEaF20EDGC4D7D51060DBjiava

langOuOMemoyEmerFabed

to

alocznea

40

bysbon

w4037ho

bytoadi8w00M

togty

53670912.gohima536870912ghoupnaocafaon

bocnsec1%eep

b

ciaguOwmoyGeom

smertrnemport

konmors

renm

teortnmy/port

BoooConmuwuraGimaMe

glucorcoP展开727-7400

◎激加标盖627974r7DEEaD4000E7AFCa2ADAjaalngOuAOMMamoryEnorFaendo

dloee

a24byposoeow5090u

toby4971Keo0CM

toy50470912.goh

ina

35070912

gngponocabon

boc(1%

e

tcyiea

lugimalgsang开740-7500uOmo0◎最加格业务版本升级Hippy后发现OOM

率指标劣化严重,数值翻倍,但是很难定位问题原因·

堆栈分散,无固定场景;·

小块内存分配失败,堆栈只是压死骆驼的最后一根稻草;·

本地无法找到复现路径:GOPS

全球运维大会暨研运数智化技术峰会2025·

上海站案

:OOM

崩溃问题与内存治理能力间的联动■■这里会导致oom

的问题对了,就3.0版本先关掉快速发一下通过在线开启Java内存详情功能,问题很快得到解决GOPS2025

ShanghaiANNIVERSARY2015-2025aDh.I

消息详情内存分配堆栈VMMAP

符号表现场数据堆栈分配详情堆栈分配树火焰图存在堆栈未翻译,原因:符号表未上传

去上传分配类型:VM_MEMORY_COREIMAGE

|

分配数量:523

|分配总大小:1.16GB堆栈信息:0CorelmageCl::createCFData(unsigned

long)+1321CorelmageCl:Bitmap::Bitmap(unsignedlong,unsignedlong,CI:PixelFormat,bool,CGColorSpace°,unsigned

long)+2562

Corelmage

-[CIContext(createCGImagelnternal)_createCGImage:fromRect:format:premultipied:colorSpace:defered:renderCallback:]+32523

Corelmage

-ICIContext(createCGlmage)createCGlmage:fromRect:]+2044i-d■.e.ungirCau~~

…--

…-

…-…s:]5L.

_58-[C

d

idLoadlmage:forURLimageView:]_block_invoke

.m:211)6libdispatch.dylib_dispatch_call_block_and_release+327libdispatch.dylib_dispatch_client_callout+20用户通过使用高级搜索功能,发现是由于图片内存管理导致的爆内存问题,成功定位闪退异常,解决用户反馈GOPS

全球运维大会暨研运数智化技术峰会2025·上海站案例:如何解决疑难甚至“捕获不到”的问题常规的Crash

监控无法捕获的异常退出类型GOPS2025

ShanghaiANNIVERSARY

2015-2025原始

还原后m:678)03

探索:“智”能分析新范式GOPS

全球运维大会暨研运数智化技术峰会2025·上海站Shanghai2015-2025GOPS2025ShanghaiANNIVERSARY

2015-2025指标异常波动分析提供不同指标的波动告警提醒,业务同学在收到指标告警的同时,可以

提供基于AI

分析后的指标波动原因分析;数据下钻分析辅助通

过AI

辅助的数据分析能力,可以快速便捷的从不同维度分析指标数据

。通过对issue

问题中的错误堆栈、用户操作路径、业务自定义日志等内

容的分析,对

issue

问题给出有可能原因和分析建议。同时在结合对应

的代码库,分析issue

中对应问题代码中的潜在问题,给出对应的修复

建议。GOPS

全球运维大会暨研运数智化技术峰会2025·

上海站AI

发展的大背景下,在软件开发流程中,有越来越多的环节都有

AI

的介入,通过探索,在业务团队使用App

质量可观测平台的诸多环境中,引入

AI

角色,可以提供给业务同学更丰富的问题分析和解决思路。开发问题分析修复建议辅助下钻测试issue分析及修复建议指标监控

归因分析背景上线GOPS2025

ShanghaiANNIVERSARY

2015-2025Bugly

SWE

Agent请求分析issue聚类管理AnalysisCodebaseMCPFix务MR分析结果分析报告管理BuglySWEAgent一个基于Bugly平台可以对其平台中的issue问题进行分析建议和修复的MultiAgent系统主要由以下几个SubAgent构成Agent可以通过

bugly

平台提供的接口(封装为MCP)与Bugly

平台交互,按照分析的需求,查询并获取对应issue

下的各类数

据,包括issue上报量及趋势、系统、版本分布,以及对应个例

的详情信息。GOPS全球运维大会暨研运数智化技术峰会2025·上海站CodeAgent从代码仓库中找到与对应

issue相关的代码,包括但不限于查找与崩溃点代码相关的定义、调用等代码片段,以及最近的commit

信息,以便提供更为完整的上下文信息。MR

Agent综合分析和

fix

代码,给出代码

diff文件,同时编写单元测试用例

,避免下次再发生同样问题;AnalysisAgent深入分析问题的根本原因,给出

造成问题的代码实现上的问题,

及可能的解决方式;FixAgent根据分析的结果,给出代码修正方案,并对修复代码进行审查;BuglySWEAgentANNIVERSARY

2015-2025GOPS2025

ShanghaiBugly

据分析服L

仓Git

仓库一Bugly_EndMcP不断尝试分析,直到找到正确的Root

Cause数据预处理

崩溃上下文

崩溃问题分析将修复方案存入崩溃知识库GOPS全

2

0

2

5

站BuglySWEAgent

工作流触发工作流

BuglyAnalyzeAgent日志过滤新增issue工具预处理用户指定issue数据压缩Top

issue数据结构化Bugly

MRAgentCodeDiff编写单元测试用例CommitMessageCode

CommitBugly

FixAgent修复步骤1用户修正步骤2修复步骤3用户修正步骤4结构化数据崩溃类型+堆栈Code

Context用户补充信息历史修复方案崩溃知识库否问题可能原因2查找关键证据选择沙箱环境尝试复现问题问题可能原因1查找关键证据选择沙箱环境尝试复现问题GOPS2025

ShanghaiANNIVERSARY2015-2025Bugly

Code

Agent

(用户本地机器或者代码服务器运行)Remote

LLM

Local

LLMCodeGraph

RAGIndex

AnalystServerIndex

DBFileSystemBuglySWEAgent(Bugly

服务端运行)…CodeAgent获取Code

Context用户补充*..GOPS

全球运维大会暨研运数智化技术峰会2025·

上海站1、代码分支2、出错代码信息3、获取代码提示词4、fixcommit1、相关源码2、commithistory3、函数调用图谱4、代码文档和注释Context

is

Everything-代码上下文融合知识图谱与检索增强(RAG)

技术的代码搜索引擎,可以极大提升代码搜索的精准度File

SystemToolsSvn

Code

RepositoryGit

Code

RepositoryGOPS2025ShanghaiANNIVERSARY

2015-2025Svn

ToolsGit

Tools.ANR

发生前main

线程的消息调度图能直观具体消息的执行耗时和时序关系;1流息详情出证甫核

0C

评情c

违数Maugei

d8

Dapseing

o

itnd解

naskddwshuDpsManagelobatoaplay(Lint

位禁范积时aDo

z4ecn2939%94595ory965897985999ANR0234出建墙核

编功数据a体在#号表附件maps信息游田名网宽限请地人正面达然请轴人内馆诱问收雕文件偏备号颜叶节点号内存粮名0000000-0oodmchsesoepose00000000000:0000000000#LinuxTID=9254Thread-10SIGABRTJNI

DETECTED

ERROR

INAPPLICATION;jaraywas

NULincal

toGetobjectAryElementfrom

void

com

tencentbugly.crashreportcrashjni.NatveCrashHandlertestCrash0^0#00pe00000004ebdc/apex/com.android.runtimelib64/Dioniclibc.so(abort+180)fam64-vBa:091a8B2e20510D4301c2334cD472ef5e]1#01pe

00000585d40/apex/com.android.artlib64/Ibar.so(ar:Runtime:Abort(char

consty+2320)[arm64-v8:d182b7edb7250da307a178605135c4]2#02

pc0000000000013ab0/system/lib64/libbase.so[arm64-v8a:5cfce50a76ac21735ad6fe6216b0a07e]3#03p000000013090/systemlib64/ibase.so(android:base:LogMessage:-LogMessage0+320)am64-v8a:5cfce50a76ac2735adfe62160a07c]出错堆栈现场数据日志◎FD信息①进程信息①符号表tombstone附件fd信息当前已使用FD数:

当1

5

3单进程最大可用FD数:32768FD类型system

fileevantta数量5920占比38.56%13.07%详情/proc/ged,2展开

√aron_jnode:feventd,13展开使用FD数:32615未前GOPS全球运维大会暨研运数智化技术峰会2025·上海站 Context

is

Everything-其他上下文abort调用发生时,会讲具体原因写入某个内存区域,如果能

获取这个abortmessage,对分析问题事半功倍;

②还有更多针对分析异常有价值的信息:

maps

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论