版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
智能科学与技术智能科技公司智能工程师实习生实习报告一、摘要2023年6月5日至8月23日,我在智能科学与技术智能科技公司担任智能工程师实习生,负责参与智能推荐算法优化项目。通过7周的数据分析,我完成了3个特征工程模块的开发,将模型准确率从82.3%提升至89.1%,具体通过优化用户行为序列处理流程,将召回率提升12.5%。期间应用了Python的Pandas、Scikitlearn库进行数据处理与模型训练,并使用TensorFlow构建了2个深度学习模型,通过调整Dense层参数使AUC指标从0.72增至0.85。提炼出的特征交叉方法可直接应用于电商场景,验证了LSTM在时序特征提取中的有效性。二、实习内容及过程1实习目的想着毕业前能摸摸真实的智能项目,顺便看看自己学的那些东西能不能派上用场,就来了这实习。主要是想了解工业界怎么落地推荐系统,学点实际操作经验。2实习单位简介公司做的是电商方向的智能推荐,不大但挺专注。技术栈主要用TensorFlow和PyTorch,数据平台是自建的,所以很多东西得自己捣鼓。3实习内容与过程来的第一周跟着导师熟悉项目,主要是看之前的代码和文档。当时接手一个冷启动推荐模块,用户画像数据不全,模型效果挺烂。导师让我先从数据层面动手。我花了3天整理用户行为日志,用Pandas清洗了50万条数据,发现很多时间戳格式不对,还加了缺失值填充。然后和导师讨论,决定用LSTM处理用户点击序列,用Dense层做特征交叉。第二阶段是模型调参,原模型是个简单的Dense+Dropout结构,准确率就83%出头。我加了BatchNormalization,又试了不同的激活函数,最后把学习率从0.001调到0.0005,准确率上到了89%。但召回率太低,才0.45,比行业基准低不少。困恼了一阵,后来发现时序特征太粗了,每天只能取几百个点,就改用滑动窗口截取用户最近7天的行为,再配合embedding做交叉特征。这步花了两周,代码写了3千多行,最后召回率提到了0.62。最后两周在导师指导下做了A/B测试,对比新旧模型,新模型CTR(点击率)提升了11%,虽然幅度不大,但至少没倒退。4实习成果与收获主要成果就是冷启动模块的模型上线,准确率89%,召回率0.62,比之前好了快一半。还整理了份特征工程文档,现在新人接手能省不少事。收获就是知道怎么用LSTM处理时序数据,还有调参不能瞎改,得有个逻辑。最大的教训是写代码前不画依赖图,后来踩了不少坑。5问题与建议有两件事挺别扭。一是管理上,新人开会要等很久,有时候导师不在就得自己琢磨。二是培训太随意,就发了几篇旧文档,没人带怎么看代码库。建议可以搞个新员工代码评审会,每周抽时间讲讲项目架构。另外岗位匹配度上,我做的偏算法,但公司数据平台这块做得太糙,要是能配个数据工程师一起搞,效率能高不少。三、总结与体会1实习价值闭环这8周像把理论往实践里套的模具。刚来时觉得LSTM和Dense层是分开的东西,现在明白特征交叉时它们怎么配合。比如7天滑动窗口的时序处理,我花了整整两周调试,才搞懂为什么Embedding层后加Dense层能提升特征维度。导师说的“数据是算法的燃料”真不假,我写的3千行代码里,有2千行是在处理脏数据。准确率从82到89,召回率从0.45到0.62,这些数字背后是每天凌晨3点还在改的夜。最后A/B测试时,看到CTR提升11%,心里踏实多了。这比学校里做实验有成就感,真的。2职业规划联结来之前想毕业直接进算法岗,现在看清了数据工程师和算法工程师怎么协同。我的项目里,如果有个数据标注师提前把用户标签对齐好,我可能不用花2周清洗日志。这让我意识到,职场不是单打独斗。我打算下学期考个TensorFlow高级认证,再自学下Hadoop生态,想搞清楚大厂那种千万级数据怎么跑模型。导师说现在公司缺懂数据管道的算法工程师,这给了我方向。3行业趋势展望这几周接触的模型,其实很多还在用BERT做文本特征,但行业里已经有人用Transformer直接吃用户行为序列了。我在处理用户点击流时,发现用RNN的时序衰减太严重,现在在看图神经网络(GNN)怎么解决这个。感觉未来几年,算法和算力的结合会越来越重要。公司现在用的GPU集群利用率才50%,他们说下个季度要上TPU。我挺期待的,想看看自己写的模型在TPU上能跑多快。4心态转变以前做实验失败就删代码重来,现在明白迭代要慢一点,每次改动都要有记录。比如调整Dense层神经元时,我专门建了表格记录每轮学习率、BatchSize和准确率变化,最后才找到最优组合。这让我学会承担责任,知道自己的代码会直接影响线上效果。抗压能力也强了,有次模型跑了48小时没结果,我还坚持盯着日志找问题,最后发现是某行代码注释掉的Bug没删干净。现在想想,比写论文还熬人。5未来行动我把项目里写的特征处理脚本和模型调参笔记都整理成文档,打算下学期带实验室同学用。导师说可以再给我远程做1个月项目,我想争取一下,主要是想试试怎么把“学生思维”彻底改掉。比如现在写代码还习惯用print调试,但看到生产环境里居然有人在用,心里咯噔一下。以后遇到问题要直接查官方文档或者用pdb,不能再像以前那样随便加print了。这8周让我明白,职场不是学校,容错率低多了。四、致谢1感谢智能科技公司给我这次实习机会,让我接触到了真实的推荐系统项目。2特别感谢导师的指导,从数据清洗建议到模型调参方向,都给了我很大帮助。虽然有时候要求很严,但确实学到了不少东西。3也谢谢那几个一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年交通流模型的构建与应用实例分析
- 2026年风险评估中的人因因素分析
- 2026年数字化工具在机械工程中的应用
- 行政许可服务规范
- 病理科肾脏活检标本处理规范
- 2026贵州六盘水市盘州市煤炭开发总公司招聘4人备考题库附完整答案详解(夺冠)
- 2026湖北宜昌市“招才兴业”教育系统事业单位校园专项招聘7人备考题库(三峡大学站)带答案详解(模拟题)
- 2026江西新余开物金服科技有限公司招聘备考题库含完整答案详解【各地真题】
- 2026中国邮政储蓄银行广东省分行春季校园招聘备考题库附参考答案详解(基础题)
- 2026云南怒江州福贡县鹿马登乡人民政府招聘文职森管员1人备考题库【易错题】附答案详解
- 蒙牛2026届春季校园招聘备考题库(考点精练)附答案详解
- (一诊)2026年兰州市高三模拟考试地理试卷(含答案)
- 2026年无锡城市职业技术学院单招职业技能考试题库带答案详解
- 律所内部财务报销制度
- 安徽商贸单招2026校考真题
- 新医学大学英语视听说教程2(智慧版)scripts keys
- 2025-2026学年六年级美术下册教学设计
- 工资核算及社保缴纳流程指南
- 2025年中国电信集团有限公司校园招聘历年题库附答案解析
- 屋面防水施工安全措施方案
- 2025年网络安全防护与漏洞扫描操作手册
评论
0/150
提交评论