版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
腾讯广告无人值守建设与效能提升何磊|腾讯广告专家开发工程师腾讯广告团队专家开发工程师
,
目前在广告团队主要负责研效和SRE系统相关建设。
曾打造广告分布式构建、测试环境管理等多个重要系统。
目前专注于建设腾讯广告无人值守、
一站式研发和AI
CODE提效。
毕业后曾就职于京东和创业公司
,从事电商和短视频后台业务开发等工作何磊腾讯专家开发工程师目录CONTENTS03
CICD全流程自动化04
AI智能拦截与诊断05
未来规划与展望01
解决的核心问题02
整体方案设计PART
01无人值守解决的核心问题提升发布频率一天一发的班车制无法满足用户需求快速上线场景
,特别是需要线上验证的需求显得效率十分低下人力成本高
,效率低运维负责整个发布流程,包括发布和指标观测
,大模块长达数小时;偶尔出现故障漏拦的CASE缺乏全流程视图需求开发到发布上线涉及多个平台
,缺乏统一的视图透视全流程;缺乏数据驱动效率提升的手段广告传统的CICD全流程质量与效率•
智能发布拦截,建设模块
/大盘/模调/基础指标四
维智能故障拦截能力,通
过智能策略降低漏拦•
提升发布效率,优化发布
策略,实现一天多发成本与效率•
解决运维20%人力成本,
实现“工业化”全自动化
流水线,解放人力•
全覆盖,将无人值守能力
复用到非DO分离模块•
规范化,统一发布平台和
部署流程研效能力•
全流程智能护航,
MR合
入到发布全流程透视•
智能根因分析,快速解决
全流程卡点,提升效率•
数据驱动优化,定期复盘
全流程数据度量,不断提
升各环节效率
无人值守要解决的核心问题030102PART
02整体方案设计
无人值守全景视图
三位一体能力建设全流程自动化依托腾讯研效底座与多工具深度协同,通过tapd需求管理、工蜂、蓝盾CI持续集成、自研的无人值守平台等系统实现了从代码提交到交付上线的全流程自动化贯通透视与度量将三个角色的工作过程串联和呈现,
并通过度量数据赋能三个角色,不断优化无人值守的各个环节,达成质量、效率和稳定性的三重提升引入AI大模型,
通过沉淀变更模块的指标分析排查经验知识,在异常变更不漏拦前提下,智能归因是否版本变更引入的指标异常,降低变更监测误拦率AI智能拦截无人值守全景视图服务看板
度量看板PART
03CICD全流程自动化CI环节01测试环境问题自动拦截工程链路的测试验证和灰度发布同时进行,
如果测试环境发现问题,没有人工及时通
知到SRE,则无法实现自动拦截,可能会
引起现网灰度环境发布异常02diff评审确认时间长为了保证版本质量,引入现网环境和发布
版本的diff结果比对功能。但之前diff噪声
较多,需要开发人员逐个进行确认,
人力
成本高03回滚和pick能力较弱有些新上线的特性没有特性开关,无法实
现快速回滚CD环节发布手动操作多评审通过后,运维人员需要手动创建部署
单,手动执行各个部署子任务,每模块每
次发布纯人工操作耗时大概需要10分钟
左右(不包括过程中的持续观察时间,这
个时间更久)发布跨度周期大每个模块发布整体耗时在3h+,运维人员
需要全周期参与,持续关注服务的发布情
况。如果有紧急工作插入,整体发布可能
延后,发布时效无法保证人工盯盘耗时高每个批次发布完成后,如果出现指标异常,
则需要立即介入:如果正常则可以继续执
行下一批次;如果不正常,则需要终止当
前发布进行人工回滚 CICD哪些环节需要人工CI/CD人工介入痛点分析020301整体实现思路建设标准的测试无人值守流水线模板,以流水线为依托,将灰
度前拦截能力、评审单自动评审能力、快速revert和出包能力
进行串联,同时支持模块的批量快速接入能力评审单自动审批能力diff噪声识别能力,diff确认效率提升49%(15.7h->8h)版本自动拦截能力根据自动化测试结果自动拦截版本发布快速自动回滚及pick能力增加特性开关有效性检查,方便特性快速回滚1.
闭环CD阶段的切面,问题版本自动拦截2.研发特性确认提效,评审单的自动审批3.无法确认的特性&问题特性的快速自动回滚及pick CI中的测试自动化CI中的测试自动化与要解决的问题 CI您常归因智能体 CI您常归因智能体链路特点产品发布评审通过后,开始灰度3个或者5个批次,灰度—>10%—>30%—>50%—>100%工程发布评审拉起后,开始灰度+抽样,和评审同时进行;评审通过后,开始全量一般3个批次,灰度—>抽样—>全量数据大部分是任务型发布(非代码版本发布)02完善指标,接入监测指标监测自动化如果指标出现异常波动,则自动终止发
布流程。目前已沉淀拦截指标2092个,
月故障拦截数超50个AI监测能力拦截异常新服务快速接入根据不同服务的不同特点,新建三大流水线模版,支持产品链路、工程链路、数据链路服务的快速接入蓝盾流水线插件,自动串联蓝盾流水线插件,自动串联开发蓝盾流水线插件,将基于智研交付流发布的人工操作各流程进行串联,发布的人工操作耗时由平均10分钟+降到0 CD中的发布自动化0301挑战1:MR触发频率高,导致版本发布重叠,
需排队解解法1:优化无人值守发布流水线,满足按MR触发场景。增加发布状态校验及版本合流功能,确保所有MR触发的发布均能正常自动完成。效果:如果MR1还没有发布完成,则后续的MR2、MR3自动等待,待MR1发布完成后,自动将最新MR和之前未发布的MR一起发布出去。挑战2:机器数量多,发布耗时长解法2:优化发布策略,降低发布时长。适当提高发布并行度,在保证质量前提下,适当缩短发布观测时间周期,将发布时长控制在3小时以内。挑战1:发布窗口如何合理选择:解法1:前一天12-24点的MR为第一个周期,在早上10点拉起发布评审,
15点前发完;当天0-12点的MR为第二个周期,在下午15点拉起发布评审,19点前发完。是否发布,取决于包是否在发布评审拉起前准备好。挑战3:发布评审时间长解法3:推进评审流程优化,降低评审时长。将diff前置到premerge阶段;同时开发自动催办工具,对于长时间未评审的进行提醒,降低评审时长。挑战2:机器数量多,发布耗时长;业务流量
高峰在中午和晚上解法2:优化发布策略,提升发布并行度,降低发布时长;制定差异化的发布策略,避开业务高峰期发布。
一天两发/多发重服务一天2发微服务一天多发PART
03Aı自动拦截与诊断
智能发布您常检测
发布监测下钻
多维度数据
已发未发智能修正LLM上下文推理few-shot
learning历史经验库利用专家经验
,检索过往历史相似异常告警
,提取告警收敛规则functiontoolsLLM通过告警收敛规则判断是否利用functioncall搜集更多上下文
异常归纳Agent文本/NLP任务余弦相似度方向敏感,忽略文档长度差异图像/空间数据L2距离数值差异敏感,几何意义明确多模态混合数
据混合度量平衡语义与数值差异不等长时间序
列对齐加权DTW处理时间偏移,关键点加权分布匹配或信
号分解优化加权EMD抗噪性强,适应非高斯数据通过告警向量相似度,对RAG召回进行精排
经验库RAG调优1.信息精简:聚焦关键数据•策略:•上升异常→仅输入上限预估值(过滤无关下降数据)•下降异常→仅输入下限预估值•
效果:减少噪声干扰,强化模型对目标异常的识别日期优化:•仅标记工作日/节假日类型,删除具体日期描述•强调模型关注工作日同比数据(如“对比上周三同期”)2.语义精准化•明确定义:•同比:当前周期vs历史同一周期(如“本周三vs上周三”)•环比:当前周期vs上一相邻周期(如“本周三vs本周二”)统一术语:•在Prompt开头添加术语表(例:##定义:同比
=历史同期,环比
=相邻周期) LLM工程调优低温采样,增强推理确定性Prompt优化明确指标异常直接拦截
智能归纳减少误拦效果1:近3个月成功拦截80个线上故障,为业务稳定性保驾护航效果2:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 幼儿园安保维稳工作制度
- 幼儿园家长义工工作制度
- 幼儿园招生宣传工作制度
- 幼儿园教育健康工作制度
- 幼儿园朝六晚七工作制度
- 幼儿园涉外活动工作制度
- 幼儿园睡室安全工作制度
- 幼儿园老师值日工作制度
- 幼儿园课后服务工作制度
- 幼儿园防疫门卫工作制度
- 算力工厂建设指南白皮书 2024
- 跨学科知识建构:内涵特征、概念模型和实践原则
- 产权车位交易合同
- DZ∕T 0342-2020 矿坑涌水量预测计算规程(正式版)
- 《监理企业安全责任清单(2.0版)参考模板》
- 年产3万吨硫酸庆大霉素生产车间设计
- 苏轼临江仙课件大学语文完美版
- 2024年证券从业考试题库及答案【全国通用】
- 茅台销售公司招聘笔试题目
- 《自然地理学》课件第四章:海洋和陆地水
- 眼科手术室的通用标准操作规程
评论
0/150
提交评论