智能科学与技术科技公司人工智能工程师实习报告_第1页
智能科学与技术科技公司人工智能工程师实习报告_第2页
智能科学与技术科技公司人工智能工程师实习报告_第3页
智能科学与技术科技公司人工智能工程师实习报告_第4页
智能科学与技术科技公司人工智能工程师实习报告_第5页
已阅读5页,还剩1页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

智能科学与技术科技公司人工智能工程师实习报告一、摘要2023年7月1日至2023年8月31日,我在一家智能科学与技术科技公司担任人工智能工程师实习生,参与智能推荐系统开发项目。核心工作成果包括优化推荐算法,将用户点击率提升12.3%,通过特征工程与模型调优,将召回率从35.6%提升至48.2%。具体应用了Python进行数据处理,使用TensorFlow搭建并训练深度学习模型,结合Spark进行大规模数据并行处理。提炼出可复用的特征交叉方法,通过A/B测试验证效果,最终形成包含数据清洗、模型迭代、效果评估的标准化工作流。二、实习内容及过程1.实习目的想通过实践加深对智能推荐系统实际应用的理解,掌握从数据到模型部署的全流程,看看自己学的理论知识在工业界怎么落地。2.实习单位简介这家公司做的是电商领域的智能推荐,技术栈偏深度学习,团队规模不大但氛围挺拼,数据量级每天几亿UV,对算法效率要求很高。3.实习内容与过程前两周跟着导师熟悉业务逻辑,主要是看他们现成的召回和排序模型,用Python跑过几次离线评估脚本。第三周开始接手一个冷启动推荐任务,用户数据稀疏,特征维度又高,挺头疼的。我花了两天时间整理用户行为日志,发现点击率分布非常偏,用归一化处理后再喂给模型,AUC从0.58提升到0.63。后来又试了双向GRU捕捉时序特征,效果确实好些,但训练时间从8小时缩到3小时,因为把Spark的内存设置调对了。项目后期参与线上A/B测试,用TensorFlowServing做模型热更新,监控指标时发现特征缺失值比例超标,赶紧跟数据组反馈,他们改了ETL流程,我这边也补充了预处理代码,最终线上CTR提升了12.3%,虽然不多但挺有成就感。4.实习成果与收获主要成果就是冷启动推荐方案上线,用户画像维度从15个扩充到30个,召回效果数据在内部周报里能排到前10。最大的收获是学会了怎么平衡模型效果和工程效率,比如用特征选择减少训练时间,或者把复杂模型拆成轻量级模块串行处理。团队那种快速迭代的文化也影响了我,以前觉得调参要反复跑几十次,现在明白线上A/B测试更重要,小步快跑比闭门造车靠谱。5.问题与建议遇到的困难有两次:一次是模型训练时内存爆仓,花两天才搞明白是Spark的shuffle过程没优,学到了调整分区数和序列化方式;另一次是测试环境数据跟线上有延迟,差点把bug上线,后来建议在数据管道加时间戳校验。公司培训机制其实挺随意的,没人系统讲过MLOps流程,建议可以组织每周技术分享,比如不同模型部署方案的优劣对比。管理上可以更透明点,比如项目进度用看板展示,而不是靠邮件催。岗位匹配度还好,但感觉业务理解这块挺欠缺,要是实习前能多看些行业报告就更好了。三、总结与体会1.实习价值闭环这8周实习像把书本知识掰开了揉碎了,从7月1号懵懵懂懂看代码,到8月31号独立跑通一个线上实验,中间经历的特征工程、模型调优、A/B测试全流程,每一步都踩在真实业务场景里。最值的是把GRU时序模型部署到生产环境,虽然只提升了12.3%的CTR,但那感觉就像亲手把论文里的理论变成了能赚钱的代码,数据在Dashboard上跳动时,才懂什么叫价值闭环。比如刚开始调LSTM参数时,导师教我盯GPU显存使用率,后来发现内存碎片问题,改用PyTorch的torch.cuda.empty_cache()后,训练速度直接快了60%,这种工程经验比学校里做实验收获大多了。2.职业规划联结这段经历让我看清了自己的短板,比如对召回系统的业务理解还停留在表面,要是早点知道用户画像会直接影响CTR,可能前两周能少走很多弯路。现在明确要补齐这块了,下学期打算系统学下电商推荐白皮书,顺便把CPM竞价知识补上。导师说做推荐算法的,业务敏感度比模型精度更重要,这话太对了比如我最后发现特征缺失率超20%的,其实早有业务同学提过,但没人往算法角度深挖。现在看招聘要求,知道该怎么填简历了。之前写项目经历只会说"参与模型开发",现在能具体到"优化冷启动策略,通过LSTM时序建模+特征交叉,将召回率从35.6%提升至48.2%,用TensorFlowServing部署时将冷启动响应时间从500ms压到150ms",这种数据化描述可能更打动HR。3.行业趋势展望深度感受了电商推荐从"召回排序"双模型走向"多模态融合"的趋势,他们正在做视觉+行为的混合召回,但数据对齐是个大坑,我参与的实验里,用CLIP模型处理用户浏览过的商品图片后,跟行为特征结合的CTR提升才2%,导师说这是行业通病。现在看文献知道要学下图神经网络了,这种技术突破可能就是下一个风口。公司用A/B测试验证所有改动,这点特别关键。记得8月15号提的"增加用户兴趣标签"建议,用千分之一流量先试,结果CTR提升0.8%,虽然不大但证明了方向是对的。这让我觉得,算法落地不能闭门造车,必须用数据说话,下阶段学习要重点搞懂在线实验设计。心态转变也挺明显,以前做实验失败就心态崩了,现在知道迭代成本是实打实的,比如那个冷启动方案从0到1花了3天,但上线后每天能多推荐2万精准商品,算下来每天50万营收,这种数字感比学校里做实验看log有冲击多了。后续打算考下AWS认证,顺便把PyTorch性能调优再啃下来,毕竟现在公司用的TensorFlowServing,但PyTorch的内存管理更懂。四、致谢1.感谢实习期间给予指导的导师,7月1号到8月31号这段时间,很多模型调参和工程问题都是跟着导师一点点摸索出来的,比如GRU时序特征的选取就花了不少时间讨论。2.感谢团队里帮忙解决过内存溢出问题的同事,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论