下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
计算机科学与技术人工智能应用部实习报告一、摘要2023年7月10日至2023年9月5日,我在计算机科学与技术人工智能应用部担任实习算法工程师,参与智能推荐系统优化项目。通过8周实践,主导完成3个特征工程模块开发,将用户点击率提升12.3%,具体通过构建协同过滤与深度学习混合模型,实现特征交叉增益达18.7%。应用PyTorch框架完成模型训练,优化超参数后使mAP指标从0.52提升至0.67。总结出特征重要性动态评估方法,该体系可复用于多场景数据稀疏问题,通过集成学习策略将冷启动推荐准确率提高9.1%。掌握的数据对齐技术减少计算资源消耗26%,验证了模型轻量化改造的工程价值。二、实习内容及过程实习目的主要是把学校学的机器学习和深度学习知识用到实际业务里,了解工业界怎么搞人工智能项目。实习单位是做智能推荐系统的,主要技术栈是Python和PyTorch,业务核心是用户行为预测。我所在的部门叫人工智能应用部,整个团队大概三十来人,分为算法、工程和产品三个小组。实习期间参与了两个项目。第一个是用户兴趣建模优化,具体是做特征工程。7月15号到8月初,我负责用户历史行为特征提取。原始数据有用户点击日志、购买记录和搜索关键词,量级大概每天500万条。我用了Pandas处理数据,然后用Spark做特征交叉,最后用特征选择算法比如L1正则把特征维度从3000压到800。这个过程中发现数据质量不太好,很多空值和异常值,跟数据组沟通后他们调整了清洗规则。完成后的特征集用在协同过滤模型里,8月5号那个周的A/B测试结果,点击率比之前版本高了12.3%,还算可以吧。第二个项目是模型部署优化,8月中旬开始。之前模型训练环境很慢,一个epoch要跑大半天。我试着用ONNX把PyTorch模型转换一下,然后在TensorFlowServing上部署,结果推理速度快了大概40%,从500ms降到300ms左右。不过线上反馈说有时候还是有点卡,后来发现是工程同学没做好负载均衡,跟他们一起调整了下配置。团队里大家挺忙的,但技术氛围挺浓,有每周的技术分享会。我印象最深的是8月20号那场关于模型蒸馏的分享,学到了怎么把大模型的知识迁移给小模型,回去试了下确实能省不少计算资源。遇到的困难主要是刚开始不太懂业务逻辑,问产品同学好几次感觉他们也不太清楚,后来自己扒了些旧文档才慢慢明白。另一个是特征工程试错成本太高,8月10号花了三天时间做的用户时序特征,结果发现对最终指标提升不大,有点挫败感。后来想明白这事儿得多试,就跟导师聊了聊,他建议先从简单的特征开始,逐步迭代。成果的话,就是那个用户兴趣建模项目最终上线了,虽然只是小范围。个人收获是学到了怎么把理论落地,比如知道特征工程不是瞎做的,得有数据支撑。还有就是明白做算法不能光埋头写代码,得跟业务方多沟通。技能上,PyTorch用得更熟练了,还学会了ONNX和TensorFlowServing这些工具。行业挑战感觉还是数据问题,很多场景数据太稀疏,模型效果上不去。应对方法就是多学些处理小样本学习的技巧,比如数据增强和迁移学习。对职业规划影响挺大的,发现我其实更喜欢做算法研究,但工程能力也得跟上。比如这次模型部署问题,如果早点学点工程知识可能自己也能解决。单位管理上吧,感觉新人培训有点弱,我花了挺长时间才找到一些内部资料。建议可以搞个新员工技术Wiki,把常用工具和流程都写清楚。另外岗位匹配度上,我本来以为会接触更多前沿研究,结果大部分时间在调参和特征工程,希望可以有更多接触核心算法项目的机会。三、总结与体会这8周在人工智能应用部的经历,让我对计算机科学这个领域有了更立体的认识。从7月10号入职时连模型训练的GPU怎么用都不太清楚,到9月5号离开时能独立完成一个推荐系统的特征工程和模型微调,感觉成长挺快的。最值的是那个用户点击率提升12.3%的项目,虽然只是一个小模块,但数据实实在在摆在那儿,这让我明白做算法不能光说不练,得对结果负责。这段经历让我真切感受到,学生时代搞研究可以更自由些,但进入职场后,解决实际问题的能力更重要,责任感也重了不少。对我职业规划影响挺大的。之前有点迷茫,现在更清楚自己想做什么了。我发现自己还挺喜欢做深度学习这块,但工程能力确实是个短板。接下来打算系统学学Linux和Docker这些,准备找个时间考个AWS或Azure的认证,至少能让简历好看点。实习时看到的很多技术,比如模型蒸馏和联邦学习,感觉很有前途,等学校课程安排没那么满,我打算专门补补这块儿的知识,说不定以后能找到相关工作。看着团队里那些师兄师姐,一个项目接一个项目地推进,才明白行业里所谓的“AI落地”真不是随便说说的。他们处理的数据量、模型复杂度,学校里根本模拟不出来。这让我对行业趋势有了更直观的把握,知道未来几年,像高效能计算、小样本学习这些方向肯定越来越重要。我也意识到,做技术不能闭门造车,得多关注业界动态,哪怕只是看论文或者参加些技术社区活动。从学生到职场人的转变挺明显的。以前做实验失败了,顶多跟导师抱怨两句;现在发现问题,得自己找原因,还得考虑成本和效率。8月20号那个模型蒸馏的分享会印象特别深,当时感觉这技术太酷了,立马去查资料实践,虽然最后效果一般,但那种主动学习的劲头挺可贵。未来要是真想做这行,这种自驱力肯定得保持。当然,也认识到自己还有很多不足,比如有时候太钻牛角尖,或者沟通上不够直接,这些都需要时间磨练。总之,这次实习收获很大,不仅是技能,更多的是对行业的理解和心态上的成熟,这比单纯拿到实习证明更重要。四、致谢感谢这段实习经历。谢谢部门里带我的导师,8周里给了我很多具体指导,特别是在特征工程那块儿,耐心听我讲思路,帮我分析数据问题。也谢谢那些一起工作的同事,他们技术
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《计算机应用 基础》-第3章
- 课时2 算数平方根课件 2025-2026学年人教版数学七年级下册
- 齿轮厂设备故障细则
- 班级安全日记模板讲解
- 2026届福建省闽侯二中五校教学联合体生物高一下期末质量跟踪监视模拟试题含解析
- 开封航空业就业前景分析
- 高中生家长职业规划指南
- XX中学2025-2026学年春季学期教导处学风建设专项方案
- 医学人文视角下的跨学科医患沟通
- 数字经济、消费扩容与经济高质量发展
- 2017数据中心制冷与空调设计标准
- 建筑工地春节后复工复产方案(通用5篇)
- 商务礼仪课件
- 港口环保培训课件
- 桥梁施工技术培训课件
- 数学地质系列-4聚类分析课件
- 康力电梯PM-DCU门机控制器说明书
- 《煤矿安全规程》专家解读(详细版)
- 工艺联锁图识读
- 宾馆酒店行业生产安全事故综合应急预案范本参考模板范本
- 第三章天文观测与天文测量2
评论
0/150
提交评论