智能科学与技术智能科技公司智能工程师实习报告_第1页
智能科学与技术智能科技公司智能工程师实习报告_第2页
智能科学与技术智能科技公司智能工程师实习报告_第3页
智能科学与技术智能科技公司智能工程师实习报告_第4页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

智能科学与技术智能科技公司智能工程师实习报告一、摘要2023年7月1日至2023年8月31日,我在智能科学与技术智能科技公司担任智能工程师实习生,参与智能推荐算法优化项目。通过8周实践,主导完成3个用户画像标签体系重构,使推荐准确率提升12.3%,处理数据量达2.7亿条,其中使用Python进行特征工程,调用Spark进行分布式计算,优化召回策略后,冷启动商品点击率从5.1%增至8.7%。掌握的数据清洗与模型迭代方法论可直接应用于同类业务场景,验证了算法调优对用户体验的量化改善。二、实习内容及过程2023年7月1日到8月31日,我在智能科技公司做智能工程师实习。主要是搞推荐系统优化,跟着带我的师傅和几个高级工程师一起做事。初期他们让我熟悉业务,看竞品怎么推荐,我们这边数据量是他们的两倍多,但准确率低一些。我花了两周时间整理用户行为数据,用Python清洗数据,发现很多无效点击,建议去掉这些样本再训练,师傅说可以试试。7月15号后我开始参与项目,重构用户画像标签。旧标签体系太粗,比如都归为“购物狂”,其实买的东西差别很大。我用了Spark做聚类,把用户分成12类,每类再细化兴趣点。跑了两轮实验,A/B测试对比发现,新标签召回率从35%提高到52%,但过滤后的商品点击率反而下降,说明标签太细反而把人分太开了。后来调整策略,合并了3个相似类别,最后准确率提升12.3%。期间还遇到模型训练内存溢出问题,系统是云上的,资源不够用。我自学了PyTorch的混合精度训练,把内存占用降了40%,导师挺认可的。8月中旬参与实时推荐优化,之前都是离线算,但用户反馈实时性差。我用Flink做了流处理链路,从用户点击到推荐结果返回,整体时延从500ms降到80ms。但调试时发现数据对齐问题,用户行为日志和商品库更新不同步,导致推荐时看到旧信息。最后跟后端沟通,让他们加了个数据同步接口,问题解决。这段经历让我明白,做推荐不光要算法好,系统也得跟上。实习最后两周我整理了工作文档,把调参过程和结果都记录下来,师傅说这个习惯很好。虽然只学了基础的自然语言处理和深度学习,但感觉离真实业务近了,知道怎么把论文里的模型落地。最大的收获是学会了怎么跟团队协作,他们改代码比我还勤,经常半夜发PR让我看,确实学到不少东西。但公司培训有点随缘,新人就是自己摸索,有时候导师忙不过来,希望能有更系统的入职引导。建议可以搞个内部Notebook共享平台,现在大家写代码都分散在本地,交流起来费劲。三、总结与体会这8周,从2023年7月1日到8月31日,在智能科技公司当实习智能工程师,感觉像是从纸上谈兵到了真枪实弹。以前做项目,数据集小,跑几轮就能出结果,这次处理2.7亿条用户行为日志,用Spark跑特征工程,半夜看着JVM内存飙升,真的体会到什么叫工程压力。重构用户画像标签体系,最终把推荐准确率从72.5%提高到84.8%,这个12.3%的提升不是画饼,是每一行清洗脚本、每次A/B测试统计出来的。实习最大的收获是明白做智能不只是算法好,还得懂业务、会系统。比如实时推荐那块,单纯模型再快没用,用户等不了。我学Flink做流处理,虽然只是搭了个基础链路,但跟后端沟通数据同步问题,才知道数据治理有多重要。导师常说“调参是科学也是艺术”,以前觉得玄学,现在自己调了50多个模型超参数,用PyTorch的混合精度训练把内存省了40%,才懂他说的意思。这些细节,学校里光看书是学不来的。这次经历让我职业规划更清晰了。以前想当算法研究员,现在觉得更想去工业界做算法工程师,把技术真正用起来。接下来打算深化深度学习这块,准备考个相关证书,顺便多看几个开源项目的工程实践。行业趋势我看,现在大模型是热点,但怎么把大模型用在小推荐这种实际场景里,肯定有搞头。我实习时接触的模型,参数量也就几百万,跟动不动几十亿的上云大模型没法比,但怎么让小模型更高效、更精准,这可能是我的机会。从学生到职场人,心态完全变了。以前写代码怕错,现在明白业务需求比完美更重要,导师说“先让产品跑起来,再慢慢优化”,这话我一直记着。抗压能力也强了,以前调试模型半夜崩溃就睡不好,现在能冷静分析日志,找问题根源。虽然公司培训机制有提升空间,但师傅带我的那种“不藏私”的交流,让我觉得挺值的。未来要是继续做这行,肯定要往工程方向发展,算法再好,没人用、用不好也是白搭。四、致谢感谢智能科技公司给我这次实习机会,让我接触到了真实的智能推荐项目。特别感谢我的导师,在实习期间耐心指导我处理数据清洗和模型调优的问题,比如帮我分析Spark内存溢出原因,教我如何用PyTorch的混合精度训练。还有带我的几位工程师,在Flink流处理链路搭建时,他们分享的日志对齐经

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论