工程师个人年底工作总结_第1页
工程师个人年底工作总结_第2页
工程师个人年底工作总结_第3页
工程师个人年底工作总结_第4页
工程师个人年底工作总结_第5页
已阅读5页,还剩6页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

工程师个人年底工作总结2023财年,公司把“极致降本、极致提效、极致可靠”写进经营红线,部门据此拆解出“单位算力成本下降18%、核心系统全年可用性≥99.95%、新业务上线周期压缩30%”三大硬指标。我作为云原生平台组的资深开发工程师,全年OKR直接锚定这三条红线,用312个工作日、4次大版本、187次灰度迭代,把“技术杠杆”变成“财务杠杆”,让代码真正变成了资产负债表上的现金流。一、量化成果与目标价值闭环1.成本维度•离线混部项目:通过自研YunColocation调度器,把42%的离线作业填充到在线空闲时段,CPU平均利用率从18%提到47%,直接释放1.38亿元CAPEX预算。该数字经财务与审计双重核验,已体现在Q4财报“固定资产优化”科目。•对象存储分层:基于访问热度模型把82%冷数据降冷到阿里云OSSIA,单GB月成本下降0.021元,全年节省967万元,超额9.4%完成部门“单位算力成本下降18%”的子指标。2.效率维度•发布流水线3.0:把“代码合并—镜像构建—灰度—全量”从94min压缩到27min,新业务上线周期由14.5天缩短到9.8天,降幅32%,超额2个百分点完成“压缩30%”目标;全年支撑9条新业务线提前抢滩618与双11流量窗口,带来增量GMV3.4亿元。•环境即代码(EaC)体系:用1.2万行Terraform模板把7套中间件集群的创建时间从3人·日降到0.5人·时,研发自助率93%,全年减少1860个人·时,折合人力成本167万元。3.可靠性维度•可用性:核心交易链路全年实际可用性99.967%,高于目标99.95%;全年P0故障0起,P1故障2起,MTTR11min,较去年缩短58%。•混沌工程:在4次大型军演中注入312种故障,提前发现47个隐患,其中3个为可触发30分钟级全局宕机的“核弹级”缺陷,修复后对应故障域可用性提升0.8个百分点。4.组织影响力•技术专利:提交6篇专利申请(已受理4篇),其中《一种基于反馈控制的离线混部调度方法》已拿到国家知识产权局“一通回执”,预计2025年授权后可对外许可收费。•人才梯队:作为导师结对3名新人,其中2人已能独立owner模块,1人晋升P7;组内技术分享12次,覆盖186人次,NPS评分94。二、具体问题与主客观归因1.成本黑洞:离线作业“峰谷错位”现象:Q1末利用率曲线显示,凌晨06点在线业务低峰期CPU利用率仅12%,但离线批处理因SLA限制被迫白天抢资源,导致白天峰值飙到87%,形成“双高峰”畸形曲线。主观:早期调度器只考虑资源申请量,未刻画“时间成本”二维效用;我个人对财务ROI模型理解不足,未把“折旧摊销”量化进调度策略。客观:离线作业多为Hive/Spark,容器化比例仅35%,资源画像缺失;底层BIOS电源策略保守,单核功耗下降空间11%但需厂商微码升级,涉及外部依赖。2.效率堵点:配置漂移现象:Q2一次线上订购链路超时突增,排查发现是Redis版本在灰度和全量环境不一致,导致Lua脚本兼容性问题,回滚耗时47min。主观:我负责的配置中心2.0只覆盖80%中间件,存在“兜底盲区”;对“环境一致性”认知停留在IaaS层,未上升到应用层。客观:历史包袱7套环境、4套部署工具(Helm、Ansible、Rundeck、人工),缺少统一基线;业务方深夜紧急hotfix直接登录机器改配置,流程缺口。3.可靠性隐忧:监控“假饱和”现象:Q3大促压测期间,消息队列TPS到达28万时监控面板“一切正常”,但消费者延迟突刺到4s,实际已触发降级,监控指标因采样周期60s错过毛刺。主观:我设计的指标聚合窗口过大,错误地把“均值”当“分位”;对“毛刺检测”算法研究不深入。客观:Prometheus单实例瓶颈,remotewrite丢点率0.3%;业务侧自定义指标滥用Counter重置,导致rate()函数漂移。4.个人成长:技术广度有余、深度不足现象:在架构评审中,对Linuxcgroupv2的memory.high细节掌握不牢,被内核组同事挑战时无法给出“为什么不用memory.low”的量化对比。主观:过去12个月聚焦“交付”,把70%时间用在写CRD控制器与业务需求,阅读内核源码时间仅42小时。客观:云原生迭代太快,社区2023年发布37个CNCF项目,信息过载导致“学习实践”循环被打断。三、2024财年个人目标(SMART)S:Specific——聚焦“成本、效率、可靠性”三条红线,做深“混部调度、可观测、内核性能”三个技术栈。M:Measurable——①单位算力成本再降12%,对应2024下半年CAPEX节省8000万元;②新业务上线周期≤7天,较2023再降28%;③核心系统可用性≥99.99%,全年P0故障0起,P1≤1起,MTTR≤10min;④个人技术影响力:晋升P8,输出3篇国内A类论文、2次国际会议演讲。A:Achievable——基于2023已落地的混部框架与可观测基线,再投入2台128Core裸金属做验证即可,不额外申请千万级预算。R:Relevant——全部指标直接对齐公司“降本、提效、可靠”战略,财务ROI模型已获CFO办公室认可。T:Timebound——分四阶段,20240115前完成蓝图评审,20240630前达成60%量化指标,20240930前完成90%,20241215前收官并输出白皮书。四、分阶段可落地任务阶段1:蓝图与立项(20240102至20240115)动作1:组织“成本性能可靠性”三角约束评审会,输出《2024技术地图V1.0》。衡量:评审会NPS≥85,地图中技术条目优先级与CFO给出的ROI排序误差≤5%。截止:20240115。阶段2:混部2.0&内核优化(20240116至20240630)动作2.1:基于cgroupv2与memory.high机制,重写YunColocation的memory驱逐器,把OOMKill率降到<0.1%。衡量:灰度集群2000节点连续30天OOM次数≤2;对比组memory利用率提升15%。截止:20240430。动作2.2:引入IntelSPR微码,开启HardwarePState,单核功耗下降811%,整机TCO下降5%。衡量:在50台裸金属对比测试,功耗计采样误差<±2%,财务确认单节点三年TCO节省1.2万元。截止:20240531。动作2.3:发布《混部2.0白皮书》,开源调度器插件至GitHub,Star≥500。截止:20240630。阶段3:可观测3.0&发布提速(20240701至20240930)动作3.1:基于eBPF+OpenTelemetry构建1ms级细粒度采集,埋点覆盖90%关键路径;丢点率<0.1%。衡量:压测30万TPS场景下,P99延迟毛刺检测准确率≥95%,误报率≤3%。截止:20240815。动作3.2:把镜像构建从Dockerfile迁移到BuildKit并启用并行编译,CI时长再降35%;配合CRD实现环境一键复制,7天内完成新业务上线。衡量:9条新业务线平均上线日历天数≤7,CI失败率≤2%。截止:20240930。阶段4:可靠性收官&影响力升维(20241001至20241215)动作4.1:基于“故障注入模型预测自动修复”闭环,构建AIOps平台,全年P00起、P1≤1起。衡量:平台在4次军演中提前5min发现风险并自动修复,人工干预次数0。截止:20241130。动作4.2:输出3篇论文(《IEEETSC》《计算机学报》《软件学报》),申请4件专利;KubeCon欧洲与北美各1场演讲,CFP接收率≥50%。截止:20241215。五、资源需求与风险应对1.人力资源:申请1名eBPF专家、1名AIOps算法工程师加入虚拟战队,HC已和HRBP预沟通,纳入2024Q1headcount。2.预算资源:申请80万元用于购买IntelSPR裸金属50台、功耗计10套、论文版面与会议差旅,预算已写入部门FY24Capex清单。3.技术依赖:•内核升级至5.15LTS,需基础架构部配合定制rpm,风险为第三方驱动兼容;应对:提前2个月启动灰度,回滚策略双系统启动。•开源社区变动:Kubernetes1.30可能废弃FlowSchemaAPI,影响混部插件;应对:订阅社区邮件列表,已预留15人·日做接口适配。4.业务冲突:大促窗口与军演重叠;应对:把军演拆成2次小流量演练,采用影子流量方案,对GMV零影响。5.个人健康:长期夜间灰度导致作息紊乱;应对:推行“灰度白名单”机制,关键变更放在周三白天,采用蓝绿+金丝雀降低熬夜频次,全年夜间加班≤20次。六、能力提升保障措施1.深度研究:每周三上午固定“内核源码阅读”2小时,全年完成200小时;输出48篇内核笔记,组内分享12次。2.学术网络:与中科院计算所签署“云原生联合课题”,已拿到1名博士后入站名额,2024年共同申请国家自然科学基金重点项目。3.英语输出:参加“技术英语打卡营”,每周1篇英文博客,全年50篇,GoogleAnalytics累计PV≥10万。4.身体基线:把VO2max从42提到48,体脂降到15%,用运动手环量化;若连续2周睡眠不足6小时,自动触发休假机制。七、总结计划呼应2023年我把“代码”变成“现金流”,让财务账本里多出

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论