互联网公司人工智能算法实习生实习报告_第1页
互联网公司人工智能算法实习生实习报告_第2页
互联网公司人工智能算法实习生实习报告_第3页
互联网公司人工智能算法实习生实习报告_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

互联网公司人工智能算法实习生实习报告一、摘要

2023年7月10日至2023年9月5日,我在一家领先的互联网公司担任人工智能算法实习生。核心工作成果包括完成10个图像分类模型的优化,准确率从82.5%提升至91.2%,其中使用迁移学习策略的模型在测试集上达到93.6%。参与构建了2个自然语言处理(NLP)任务的数据处理流程,通过特征工程将文本分类任务的F1score提高15.3%。应用了深度学习框架TensorFlow和PyTorch进行模型训练,熟练掌握数据增强、正则化和超参数调优等技能。提炼出的可复用方法论包括:针对小样本场景采用数据扩增与预训练模型结合的策略,显著提升模型泛化能力;使用Kaggle公开数据集进行模型基准测试,确保算法性能符合预期。

二、实习内容及过程

实习目的主要是想把学校学的深度学习知识用到实际项目里,了解工业界的算法开发流程。

实习单位是家做在线广告推荐系统的公司,主要业务场景是利用AI给用户推送更相关的商品。

实习内容开始阶段跟着导师熟悉项目代码库,主要是看他们怎么用PyTorch搭模型,以及怎么写数据加载脚本。7月15号开始独立负责一个图像分类小任务,目标是识别用户上传图片里的商品类别。初期数据集只有800张,标注质量也不高,准确率一开始就卡在80出头。后来发现有个问题是很多图片分辨率太低,就用了数据增强里的随机裁剪和色彩抖动,效果确实好点了,准确率慢慢爬到85左右。8月2号遇到个大挑战,有个文本相似度计算模型效果突然变差,查了好几天才发现是某个预训练词向量过期了,换成最新的BERTbase后结果立马回弹,从0.75提升到0.88。这段经历让我明白预训练模型更新还挺重要的。整个实习期间还参与了每周的技术分享会,学到了不少模型蒸馏和量化压缩的技巧。

在单位里最大的收获是看到了模型开发不只是调参数那么简单,很多细节比如特征选择、损失函数权重分配都得反复试验。比如那个文本相似度任务,我尝试了不同池化层策略,发现双向LSTM加上meanpooling比maxpooling效果还好,这给我后来做毕业设计提供了点思路。不过实习单位培训机制确实一般,很多技术债没时间清理,代码风格也比较混乱,有时候看老代码都得猜半天。建议他们可以搞个内部Notebooks平台统一实验记录,或者定期组织代码重构培训,这样效率能高不少。岗位匹配度上感觉挺合适的,就是项目周期短,很多idea没时间深入研究,这点挺遗憾的。

三、总结与体会

这八周在公司的经历,让我对人工智能算法的理解从书本概念落地到了真实的应用场景里。7月10号刚来的时候,觉得模型调参就是改改学习率,9月5号走的时候才知道,为了把那个图像分类任务的准确率从89%提高到92%,我们试了不下10种不同的损失函数权重组合,还把数据集用CutMix的方式扩充了一倍,每一步改进都伴随着大量的计算资源和时间消耗。这种从零开始解决问题到看到结果的过程,让我真正体会到做算法不是画图,是要面对各种工程挑战的。

实习最大的价值在于让我看到了自己知识体系的短板。比如8月15号负责的那个用户行为预测项目,需要处理高维稀疏数据,学校教的CollaborativeFiltering理论在实际业务里效果一般,最后是靠在内部技术分享会上学到的FactorizationMachines技巧才把模型AUC从0.68提到了0.75。这让我意识到,工业界的算法工程师不仅要懂模型,还得懂数据,还得会跟产品经理、工程师沟通怎么落地。这段经历直接影响了我的职业规划,之前想当纯研究员,现在更倾向于做算法工程师,就是要把手头的事情做扎实,把模型真正用起来。

看着公司那些几年积累的业务数据和模型库,才明白为什么说AI是重积累的领域。某个推荐模型的冷启动问题,我们花了整整两周才找到解决方案,靠的是把历史用户行为序列用Transformer重新表征,这个方法后来我在组里的周报里提了出来,得到了几个同事的认可。行业趋势上明显感觉到,现在大模型的应用越来越普及,但怎么把大模型能力适配到具体业务场景,还是个挺有挑战性的方向。比如我们尝试用BertBase做意图识别,效果确实好,但推理延迟成了问题,最后还是老方法结合规则引擎更实用。未来打算把实习里用到的那些模型部署技巧系统学一下,比如Docker容器化和K8s编排,争取明年拿下AWS的机器学习解决方案认证,这样简历上也能写点实在的东西了。从学生到职场人的心态转变也挺明显的,以前遇到问题就想查论文,现在更倾向于先动手试错,发现错误再分析,抗压能力确实强了不少。

致谢

感谢这次实习机会,让我在人工智能算法的实际应用中获得了宝贵的经验。特别感谢我的导师,在实习期间给予的悉心指导和耐心解答,帮

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论