版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年本月工作总结和自我评价(五篇)2026年4月工作总结与自我评价——北京极光云智科技有限公司·数据智能事业部·算法三组·高级算法工程师李骁一、本月核心交付1.千亿级推荐模型Aurora-Rec2.3全链路升级1.1背景3月28日线上A/B显示,老版本在18-24点时段CTR下降4.7%,归因于短视频内容池激增后ID特征哈希冲突率升至2.3%。事业部下达“30天内召回率回升3%,训练成本不增”的硬指标。1.2技术方案①动态哈希分区:将MurmurHash3128-bit输出按8-bit切片,引入虚拟桶号+物理桶号两级映射,冲突率降至0.17%。②稀疏参数服务器热分区:基于自研PS-Plus框架,把1.1Tembedding按“小时活跃度”切64路热分区,热参数常驻A100-80G,冷参数下沉至IceLakeNVMe,训练步长缩短18%。③梯度补偿策略:对冷启动样本采用延迟梯度补偿,延迟窗口120s,补偿权重按曝光密度指数衰减,收敛曲线平滑无抖动。1.3实施步骤Day1-3:离线构造7天92亿条日志,复现冲突,验证方案可行性。Day4-6:在Kubeflow1.9上搭建64卡A100训练集群,镜像cuda12.4-nccl2.21,打通HDFS→Kafka→PS-Plus数据流。Day7-10:完成热分区脚本,监控指标写入Prometheus,Grafana看板新增“hash_collision_rate”“hot_param_hit_ratio”。Day11-15:灰度5%流量,观察24h,CTR回升1.2%,无P99延迟劣化。Day16-20:全量切换,召回率+3.4%,训练耗时11.3h→9.1h,单epoch成本降低1.7万元。1.4风险与合规上线前通过法务《生成式算法合规审查表》V3.2,重点核查“是否诱导沉迷”,确认无负向价值导向内容加权。2.实时特征平台Falcon-Feature0.9生产落地2.1需求运营侧要求“618大促”前支持2000维实时特征,端到端延迟<50ms,SLA99.99%。2.2架构采用Flink1.18+RedisCluster7.2+DragonFly缓存分层。自定义RichAsyncFunction实现“先写DragonFly后写Redis”双写,当DragonFly内存占用>85%自动降级。引入ZSTD压缩,单条特征1.2KB→0.35KB,网卡流量下降42%。2.3压测使用公司自研压测枪SnowGoose,模拟280万QPS,持续90min,CPU利用率68%,P99延迟43ms,满足SLA。2.4交付4月25日完成16条业务线接入,日均31亿次调用,预计大促节省42台32C128G物理机。3.算法工程效率工具链3.1背景组内11名算法工程师,平均每周4.5小时花在“数据对齐、镜像打包、CUDA版本冲突”等杂务。3.2方案基于Devbox思想,开发“一键炼丹”CLI工具alchemy,核心命令:alchemyinit—model=deepfm—data=hdfs://click/20260424—gpus=8自动完成:①拉取cuda12.4-devel-ubuntu22.04基础镜像;②根据model模板生成Dockerfile、requirements、K8sYAML;③挂载/mnt/cephfs/{user}/code到容器/workspace;④启动TensorBoard,端口自动分配并打印https域名;⑤训练结束推送模型到Harbor,并生成含diff的MR。3.3效果4月30日组内调研问卷显示,平均杂务时长降至1.1h/人周,代码合并冲突减少38%。二、组织与流程改进1.值班制度升级原“单兵7×24”导致3月两次漏告警。本月重写《算法线上值班SOP》V4.0:①双岗制:主值+备值,主值晚22点前必须提交《当日巡检报告》到Lark群;②告警分级:P0电话+P1企业微信+P2仅飞书;③应急剧本:针对“特征断流”“模型输出NaN”等7种场景,给出3分钟内可执行的命令行+SQL+回滚指令;④复盘时限:故障结束后1个工作日完成5W1H复盘,逾期扣绩效5%。实施25天,告警平均响应时长3min→1.2min,漏告警0次。2.代码评审红线与QA部门共同制定《算法代码红线》十条,如“禁止在训练脚本硬编码AK/SK”“禁止把用户明文uid打印到日志”。通过pre-commit钩子+GitLabCI双重检查,4月拦截潜在合规问题5次,已写入《研发质量白皮书》。三、个人成长与知识输出1.技术深耕①完成《ParameterServer原理与实战》内部小册3.2万字,已上传Confluence,首周阅读量1,247次;②报名MIT6.824春季班,通过Lab1-3,Raft实现获100%单元测试通过;③申请发明专利2项:《一种基于虚拟桶的动态哈希方法》《一种冷热分区的稀疏参数服务器系统》。2.团队分享4月12日举办“极光午餐会”第9期,主题《GPU算力压榨:从StreamingMultiprocessor到TensorMemoryAccelerator》,现场46人,线上133人,NPS评分72。3.英语与沟通每日30分钟Shadowing,本月完成《HarvardBusinessReview》精听8篇,可脱稿复述90%内容;与新加坡Shopee团队英文例会3次,无同传,沟通效率获对方TL书面表扬。四、数据化自我评价1.绩效指标①业务KPI:CTR回升3.4%,超额0.4%,权重40%,得38.4/40;②技术ROI:训练成本节省1.7万/天,月度51万,权重20%,得19.5/20;③合规&质量:0P0故障,红线0触碰,权重20%,得20/20;④组织贡献:工具链覆盖11/11人,权重20%,得20/20;总分97.9,位列算法三组1/11。2.能力雷达(1-5分)机器学习理论4.5→4.7工程架构4.0→4.6性能优化4.3→4.8跨团队沟通3.8→4.2英语技术表达3.5→4.03.360反馈摘录产品总监A:能提前预判大促流量,给出可落地的降级方案,合作愉快。运维TLB:值班SOP落地后,周末不再被电话惊醒,感谢。组内新人C:alchemy工具让我第一天就跑通训练,节省一周踩坑时间。五、下月规划1.业务①启动“多目标多模态”项目,预期提升GMV5%,5月15日前完成baseline;②与印尼团队联合优化东南亚低带宽场景,目标P99延迟<300ms。2.技术①调研NVIDIAGraceHopper超级芯片,评估混合精度训练能效比;②将PS-Plus热分区代码开源至GitHub,Star目标500。3.组织①建立“算法+研发+QA”三方质量评审周会,减少上线后回滚;②推动将alchemy工具链推广到数据中台,覆盖120+数据分析师。4.个人①完成MIT6.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 退役士兵技能培训方案
- 输血相关知识
- 浙江正特深度研究报告:正合奇胜一篷星光
- 氨纶工艺培训
- 轻医美基础培训课件
- 路虎内训师培训课件
- 软件知识产权保护
- 跨境电商直播培训
- 毕业论文答辩培训
- 贵阳地震知识体系
- 2026年上海市宝山区初三上学期一模化学试卷和答案及评分标准
- 内蒙古赤峰市松山区2025-2026学年高一上学期期末数学试题(含答案)
- 2026年官方标准版离婚协议书
- 2025年国补自查自纠报告
- 未来五年造纸及纸制品企业数字化转型与智慧升级战略分析研究报告
- 二级医院的DRGs培训课件
- 舞蹈症鉴别诊断课件
- 萝莉妹子的缤纷暑假2900字9篇
- 家纺设计考试题库及答案
- 国企物业收费管理办法
- 企业用油管理制度
评论
0/150
提交评论