互联网公司人工智能运维实习生实习报告_第1页
互联网公司人工智能运维实习生实习报告_第2页
互联网公司人工智能运维实习生实习报告_第3页
互联网公司人工智能运维实习生实习报告_第4页
互联网公司人工智能运维实习生实习报告_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

互联网公司人工智能运维实习生实习报告一、摘要

2023年6月5日至2023年8月3日,我在一家互联网公司担任人工智能运维实习生。核心工作包括搭建并监控3个大规模机器学习模型的生产环境,通过自动化脚本减少模型部署时间,将平均部署时间从8小时缩短至30分钟。使用Python编写日志分析工具,处理日均10万条模型运行日志,准确率达95%。参与搭建模型版本管理平台,实现15个模型的版本追踪与回滚功能。在实习中,熟练应用Docker容器化技术、Kubernetes集群管理和TensorFlowServing进行模型服务化部署,总结了基于Prometheus和Grafana的混合云监控体系搭建方法,该方法可适配99%的模型监控场景。

二、实习内容及过程

实习目的主要是想把学校学的AI理论知识跟实际工作对接上,了解模型怎么从实验室走向用户手里,真正在生产环境里跑起来会遇到啥问题。

实习单位属于那种大厂,专门做推荐和搜索相关的AI产品,团队规模不小,技术栈挺新,用到的模型种类也挺多,从深度学习到强化学习都有涉及。

实习内容大概分三块,一块是环境搭建和运维,一块是模型监控和分析,还有一块是参与新模型的上线流程。刚开始主要是跟着师傅熟悉环境,学怎么用Docker和Kubernetes把模型容器化,搞明白怎么用K8s的ReplicaSet保持服务稳定。后来接手了两个在线模型的环境,需要定期打补丁更新依赖包,有时候半夜模型出Bug还得爬起来弄。最花时间的是做监控,要把TensorFlow模型的日志格式统一,然后用Prometheus抓取关键指标,搞了个自动报警的规则,比如当模型推理延迟超过200毫秒就发短信通知我。

有个挑战是处理高并发的日志分析,模型上线初期日志量激增,普通的文本分析工具跑不动,日志里还有不少乱码和格式错误。那段时间天天琢磨怎么优化,最后改用Spark处理日志,把内存调大,把批次调小,这样能实时处理80%以上的日志,错误日志单独存起来慢慢分析。师傅说这个方法挺实用的,后来有好几个模型都用了这套方案。

实习成果的话,自己搭建的模型环境稳定性不错,那两个模型上线后没出过啥严重事故,监控系统的告警准确率也保持在90%以上。还整理了个模型版本管理文档,把怎么用GitLab管理代码、怎么用Dockerfile构建镜像这些细节都写进去了,后来新来的实习生跟我说这个文档挺清楚的。

过程里感觉最大的挑战是模型和运维这块怎么完美结合,模型工程师更关心效果,运维更关心稳定性,有时候为了一个需求扯皮挺久。我是通过多跟两边沟通解决的,明白了两边诉求,最后搞出个折中的方案。比如模型想用新框架,我就帮忙评估下运维成本,帮他搭个测试环境。

收获挺多的,最大的体会是做运维不光要懂技术,还得懂业务,知道模型在干嘛,才能更好地监控它。技能上学会了Docker、Kubernetes这些容器技术,还有Prometheus和Grafana的监控,以前只会用Jupyter跑代码,现在能看懂生产环境的指标了。思维上转变挺大,以前觉得搞模型就是写写代码调调参,现在明白上线一个模型要考虑这么多环节,任何一个环节出问题都会影响用户体验。

实习单位管理上,我觉得培训机制可以再完善点,有些工具和流程新人上手挺慢的,要是能有个更系统的入职培训手册就好了。岗位匹配度上,我感觉自己学的分布式系统和数据库知识用得不多,大部分时间在跟AI模型打交道,要是早点接触点数据库运维会更有帮助。建议可以搞个新人导师计划,让老员工带带,这样融入团队快,也能少走弯路。

三、总结与体会

这8周实习,感觉像是给自己画了个闭环。刚来的时候,就是想看看AI模型从代码变成用户能用上的产品,到底中间隔了些什么。现在跑通了几个环节,心里踏实多了。比如,之前在学校写代码,跑不通就改改再跑,现在明白线上环境复杂多了,一个微小的改动可能影响一大片,搞不好就是服务中断。所以动手前会多想几步,怎么保证回滚顺畅,怎么设置金丝雀发布,这种责任感是以前没有的。

实习经历也让我更清楚自己想去哪儿。之前觉得AI运维就是个技术岗,现在发现它跟业务、产品、研发都紧密相关,特别锻炼综合能力。我师傅跟我说,他们招运维的,不光要懂系统,还得能跟模型工程师聊得来,知道他们要什么。这让我意识到,光会技术不行,还得会沟通会协调。所以接下来打算补补分布式系统这块,打算抽空考个CKA认证,至少得让自己在系统运维上看起来更专业些。

看着每天监控面板上那些跳动的指标,感觉AI落地真是个复杂的系统工程。现在大厂搞大模型都讲究全栈能力,从前端的模型训练到后端的系统运维,每一步都不能含糊。我观察到,像混合云、边缘计算这些技术越来越重要了,模型越来越大,用户离得越远,怎么高效部署和运维是个大问题。这8周接触到的Kubernetes、Prometheus这些工具,感觉只是冰山一角,后面得花更多时间学。

从学生到职场人的心态转变挺明显的。以前做实验,失败了就重来,现在明白线上资源不便宜,出问题就得想办法快速解决。记得有一次模型突然推理延迟飙升,凌晨三点还在排查是网络问题还是缓存没起作用,折腾了俩小时才定位到是个依赖包冲突。虽然累,但弄明白后特别有成就感。抗压能力确实提升了,也学会了怎么在压力下跟人沟通。

现在回头看,这段实习最大的价值就是让我知道自己的短板在哪。比如对数据库这块了解太少了,实习里接触运维的时候才发现,模型跑起来产生的数据量有多大,怎么用Redis做缓存优化效率,这些都没概念。所以下学期打算多上点数据库相关的课,顺便看看能不能找机会参与下开源的AI运维项目,把经验补上。总之,这次实习没白来,至少让我对未来有了更清晰的规划。

四、致谢

感谢这次实习机会,让

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论