计算机科学科技研发开发实习报告_第1页
计算机科学科技研发开发实习报告_第2页
计算机科学科技研发开发实习报告_第3页
计算机科学科技研发开发实习报告_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机科学科技研发开发实习报告一、摘要

2023年6月5日至8月23日,我在一家科技公司担任计算机科学研发开发实习生,负责参与智能推荐算法的优化与测试。通过8周的学习与实践,我主导完成了3个推荐模型的迭代优化,将核心业务场景的点击率提升了12.3%,其中LDA主题模型在冷启动场景下的召回率从8.7%提升至15.2%。具体工作包括使用PyTorch实现深度学习模型,通过Kaggle竞赛数据集进行特征工程,采用Spark进行分布式数据处理,日均处理用户行为数据超过200万条。期间系统性地应用了交叉验证法评估模型性能,建立了包含200个特征变量的特征选择流程,并编写了自动化测试脚本覆盖了95%的核心逻辑。这些实践验证了Lambda架构在实时推荐系统中的有效性,形成了可复用的模型评估与调优方法论。

二、实习内容及过程

2023年6月5日到8月23日,我在一家做推荐系统的公司实习,岗位是研发开发。主要是跟着团队搞智能推荐算法的优化。刚开始几天,导师带我熟悉了业务,看了他们用的技术栈,主要是Python、PyTorch和Spark。第一个项目是优化首页信息流,我的任务是用LDA主题模型处理用户历史行为数据,提升冷启动场景的召回率。6月15号左右,我开始动手,发现数据清洗特别耗时,原始数据里缺失值占比超过30%,而且有很多噪声特征。当时挺头大的,因为之前做项目都没遇到过这么大规模的稀疏数据。我花了两天时间研究Pandas的高效处理技巧,还请教了前辈怎么用Spark的DataFrameAPI批量填充缺失值,最后把处理时间从8小时压缩到3小时。7月2号完成模型初版,在A/B测试里召回率才8.7%,比预期低不少。团队开会复盘,发现特征交叉设计太简单,只用了30个维度。于是我又花了两周扩展特征组合,加入了用户时序行为特征,还用了SMOTE算法处理数据不平衡问题。7月25号新版本上线,召回率提升到15.2%,点击率也跟着涨了12.3%。这个过程中,我学会了怎么用交叉验证法选模型,还总结了200个特征变量的筛选流程,写了个自动化脚本覆盖了95%的测试用例。遇到的最大挑战是实时推荐系统里的数据延迟问题,用户点击后要等几分钟才能看到新推荐。我尝试用Flink做流式处理,但窗口函数设置总不对,导致推荐结果滞后。后来跟导师一起调整了时间窗口和缓冲区,终于把延迟控制在500毫秒以内。这段经历让我明白,做算法不能光埋头写代码,得懂业务逻辑,还得会跟团队协作。不过公司培训机制有点欠缺,很多技术细节都是靠自己摸索,比如Git的分支管理规范从来没讲过,好几次代码合并都出过错。而且岗位匹配度也一般,给我安排的任务重复性太高,希望能多接触些前沿项目。建议公司可以搞个技术分享会,每周固定时间让同事讲讲用的工具和踩过的坑,另外可以建立个内部知识库,把项目文档和代码规范都整理好。这次实习最大的收获是学会了怎么把学术模型落地,还发现自己挺喜欢做特征工程的,以后想往这个方向多发展。感觉做推荐系统挺有意思的,但竞争也激烈,得不断学习新东西才行。

三、总结与体会

这8周实习,从2023年6月5号到8月23号,确实让我收获不小。一开始去的时候,就是想看看实际工作跟学校里做项目到底差在哪,结果发现差距挺大的。他们那儿的业务逻辑复杂,数据量也大,而且要求实时性特别强,这跟学校里搞个小实验完全两码事。我参与的推荐系统优化项目,最终把核心场景的点击率从基准的8.6%提升到20.9%,冷启动召回率从11.5%提高到18.7%,这些数字背后都是跟团队一起一点点调试出来的。印象最深的是有一次凌晨三点,因为线上A/B测试结果不达标,我们几个加班重新调整了特征权重,最后总算把效果拉回来了。那种感觉挺奇妙的,虽然累,但解决完问题后心里特别踏实。这段经历让我真切体会到做研发开发的责任感,不再是写完代码就行,而是要考虑它能不能在真实环境里稳定运行,性能怎么样,用户体验好不好。这种压力和挑战其实挺锻炼人的,至少我抗压能力比以前强了不少。以前总觉得学校里学的东西挺有用,但去了才明白,很多理论要结合实际场景才能发挥价值。比如Lambda架构,在学校是看书,在实习里是真刀真枪用Spark做批处理,再用Flink做流处理,两种方式结合才能搞定推荐系统里的实时性需求。现在回头看,感觉自己像是从一个学生逐渐过渡到准职场人的状态,思维方式变了,看问题的角度也多了。未来打算把实习里接触到的深度学习部分再系统学一下,特别是PyTorch的模型部署和调优,争取把相关证书考下来。同时也会多关注大模型在推荐系统里的应用,感觉这是个大趋势,以后要是能往这个方向深耕,机会应该会更多。总而言之,这次实习就像打开了一扇门,让我看到了计算机科学在真实世界里的样子,也明确了以后想走的路,感觉挺值的。

四、致谢

感谢实习期间给予指导的导师,在关键节点上

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论