下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人工智能人工智能公司机器学习工程师实习报告一、摘要2023年6月5日至8月23日,我在一家人工智能公司担任机器学习工程师实习生。核心工作成果包括开发并部署一个基于深度学习的图像识别模型,准确率达到92.3%,处理并分析了超过10万条用户行为数据,优化了推荐算法的点击率提升15.7%。期间应用了Python、TensorFlow和PyTorch进行模型训练与调优,通过网格搜索和交叉验证确定了最优超参数组合,并使用Git进行版本控制。提炼出可复用的特征工程方法论,包括数据清洗、标准化和特征选择流程,有效提升了模型泛化能力。二、实习内容及过程2023年6月5日到8月23日,我在一家人工智能公司实习,岗位是机器学习工程师。刚去的时候主要是熟悉业务和团队项目,跟着导师看了几个现有模型,包括一个用CNN做图像分类的,数据集有5万张标注图,准确率89%。第3周开始参与新项目,是优化用户推荐系统。原始数据是用户点击流,时间跨度一年,量超过200GB。我负责用PyTorch重写特征提取部分,发现原有模型把用户历史行为直接onehot编码效果不好,转而用了嵌入向量,把用户和商品都映射到低维空间。调了两个星期,最终模型AUC从0.68提到0.75,线上A/B测试显示点击率多了1.2%。遇到的第一个坎是特征工程,初期试了多项式特征组合,训练集上效果还行,但测试集表现差很多。后来发现是数据分布问题,线上用户行为有季节性,我花了两天补了时序特征,模型泛化能力直接翻倍。第二个难的是GPU资源,有时候训练要等队里其他项目,我学会了用混合精度训练,把显存省了一半,跑完模型再批量推理。团队每周有技术分享,有次讨论过ResNet和ViT的结构对比,我回去就扒了论文代码,对比了不同层级的特征传播路径。虽然没直接用到项目中,但感觉对深度学习框架理解深了。公司用的JupyterHub环境,但版本有点旧,好几次跑实验要手动装包,有点烦。印象最深的是导师说的,模型好跟搭乐高似的,光块儿硬没用,得会搭。现在回头看,最值的是把理论落地过程摸透了,知道怎么根据数据情况选模型,这点学校里光看书学不到。三、总结与体会这8周实习像给我打开了一扇窗,以前觉得机器学习就是调参数,现在才明白从数据到部署全流程有多复杂。2023年6月到8月,跟着团队把推荐系统AUC从0.68提到0.75,多出7个百分点的背后是无数个晚上的debug。记得有一次凌晨三点还在处理内存溢出,对着爆栈信息啃论文到天亮,第二天导师说"这点抗造劲儿是以后搞研究的底子"。最让我震撼的是真实业务场景对技术的苛刻。学校里0.9以上的准确率是目标,但公司要求模型必须满足实时性要求,有次优化时我不得不在精度和推理速度间做取舍,最后用知识蒸馏把模型压缩了60%但效果只降了2%。这种取舍能力是在做毕业设计时完全没体会到的。这次经历让我突然懂了导师说的"模型要接地气"。现在再看论文,会直接想这个方法怎么落地,比如最近看的Transformer论文,会关注它在推荐场景的注意力机制改怎么适配长尾问题。实习最后做的复盘报告里,我把用到的交叉验证、超参数网格搜索都整理成方法论,现在做课程设计直接套用,效率高了不少。公司那种"算力即正义"的调优文化也改变了我。以前觉得模型好就是参数好,现在知道有时候跑个百亿参数模型不如把数据清洗做透。这点让我反思下学期要重点补数据挖掘这块短板,打算报名个CPRE证书,把Python的Pandas和Spark学深。离职时HR跟我说"你这个调参日志比很多正式员工做得细",当时心里挺怪怪的,现在想通了学生时代最宝贵的就是敢试敢错的资本。这段经历让我突然明白为啥大厂都喜欢招应届生,因为这种"用数据说话"的直觉,是泡在实验室里永远学不来的。四、致谢感谢这次实习机会,让我知道理论怎么变成生产力。感谢导师,带我熟悉项目流
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年经济理论与实务操作模拟试题
- 2026年行业职业技能笔试模拟卷
- 2026年英语四六级考试预测模拟题听力阅读写作全覆盖
- 2026年人工智能客服系统设计与实践专业题目
- 2026年工业领域人才招聘测试模拟题及答案解析
- 危重病人的疼痛管理
- 孕期营养指导要点
- 2026年九江市八里湖新区国有企业面向社会公开招聘工作人员岗位计划调整参考考试试题及答案解析
- 2026年曲靖医学高等专科学校高职单招职业适应性测试备考试题及答案详细解析
- 2026年南充科技职业学院高职单招职业适应性测试备考题库及答案详细解析
- 2025至2030年中国移动充电车行业市场全景评估及发展策略分析报告
- 2025年湖南省长沙市长郡教育集团中考三模道德与法治试题
- 南京市五校联盟2024-2025学年高二上学期期末考试英语试卷(含答案详解)
- 云南省昆明市五华区2024-2025学年高一上学期1月期末考试地理试题(解析版)
- 人教部编版五年级语文上册1-8单元习作作文范文 写作指导
- (人教版)地理七年级下册填图训练及重点知识
- 二十四点大全
- TB-T 3263.1-2023 动车组座椅 第1部分:一等座椅和二等座椅
- 延迟焦化操作工(中级)考试(题库版)
- 《研学旅行课程设计》课件-理解研学课程设计内涵
- AQT 1089-2020 煤矿加固煤岩体用高分子材料
评论
0/150
提交评论