付费下载
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息与计算科学信算港信息与计算科学实习生实习报告一、摘要2023年7月1日至2023年8月31日,我在信息与计算科学信算港担任实习生,岗位为算法开发助理。期间负责优化推荐系统中的协同过滤算法,通过引入矩阵分解技术,将用户画像向量维度从1000降至200,使预测准确率提升12%,处理数据量达500万条。核心工作包括编写Python脚本实现特征工程,运用Spark进行分布式计算,完成3个模块的代码重构。熟练应用NumPy、Pandas和Scikitlearn处理数据,结合JupyterNotebook进行模型调试,最终交付的算法在A/B测试中使点击率提高8.5%。提炼出的特征降维与分布式计算结合的方法可应用于大规模数据处理场景。二、实习内容及过程2023年7月1日到8月31日,我在信息与计算科学信算港实习,岗位是算法开发助理。实习前想多了解实际项目怎么跑,怎么把课堂上学的东西用上。单位是做数据分析的,有挺多项目在做,主要是给内部系统提供支持,客户数据量挺大的,每天跑的计算任务就几百上千个。我跟着团队做了个推荐系统的优化。本来是用的协同过滤,用户和商品交互数据有四百多万条,但直接跑效果不好,预测准确率不到60%。我负责把用户画像向量维度降下来,试了几个方法,最后选了矩阵分解,把1000维降到200维,跑完准确率直接到72%。具体是先用Spark把用户行为数据预处理,然后用Python写脚本跑模型,最后在Jupyter上调试。过程里最头疼的是内存溢出,数据量一上来就卡死,后来学了怎么用pandas分块读数据,再配合Spark的懒加载机制才解决。还参与重构了3个计算模块,把原来的循环替换成向量运算,处理速度快了快一半。比如有个特征组合的函数,以前用嵌套循环跑一天,改完不到一小时就出结果了。实习里遇到的最大挑战是模型调参,数据集一换就不知道从哪开始,有点懵。后来跟师傅多跑实验,记下关键参数的敏感度,慢慢就摸清门道了。现在看论文或者技术博客,能更快抓住重点。最大的收获是明白怎么把算法落地,原来把模型写出来只是第一步,还得考虑计算效率、资源消耗这些。单位环境还行,但培训有点随意,都是随缘给资料,也没系统讲过工具链怎么用。有时候遇到问题要到处问,效率不高。建议可以搞个新人手册,把常用库的配置、调试技巧写明白,也能减少重复摸索的时间。岗位匹配度基本满足,但要是能接触更多实际业务场景就更好了。三、总结与体会这八周在信息与计算科学信算港的实习,像把书中学到的知识掰开了揉碎了看,感觉挺有意思的。7月1号刚来的时候,对怎么把理论用到实际里挺没底的,特别是看到那些动不动就TB级别的数据,直接就有点慌。后来跟着师傅们做项目,一步步把用户画像向量维度从1000降到200,看着预测准确率从61%飙到72%,心里还是挺得劲的。这个过程让我真切感受到,算法效果不是光靠公式推出来的,得跟数据对着干,反复试错,还得琢磨怎么在资源有限的情况下跑得更快。比如用Spark处理数据,怎么调参数能让集群利用率更高,这些细节都是书本上没有的。实习最大的变化是心态吧,以前觉得写个代码跑个实验就行,现在会想整个流程怎么优化。有一次晚上调试模型,跑了十几个小时结果还是不对,有点急,但硬着头皮把日志一条条看下来,最后发现是个小数点精度问题,当时就有点感慨,这活儿真不是光靠聪明就行,得有耐心。这种感觉很真实,跟在学校交作业完全不一样。对我职业规划来说,这次经历挺关键的。原来在学校觉得机器学习特高大上,现在明白了做出来的东西得能落地,得有人用,还得稳定。所以接下来打算深挖下分布式计算这块,打算把Hadoop和Spark再系统学学,顺便考个相关的认证,感觉这样简历会硬核点。现在看招聘要求,好多都写着要熟悉这些工具,确实得提前准备。行业好像越来越卷,数据量越来越大,算法也越来越复杂。感觉以后做这行,光会点模型是远远不够的,还得懂点工程化,懂怎么把算法变成产品里能用的东西。这次实习就让我意识到,技术还得结合业务,光追求准确率没用,得看实际效果。未来要是真想干这行,得多练练调参和优化代码的能力,这些看似琐碎的东西,可能是拉开差距的关键。致谢感谢信息与计算科学信算港提供这次实习机会,让我能接触到实际的项目。谢谢导师在实习期
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年包头职业技术学院单招职业适应性测试题库附参考答案详解(典型题)
- 2026年南通师范高等专科学校单招职业倾向性测试题库附答案详解
- 2026年南京交通职业技术学院单招职业技能测试题库含答案详解(考试直接用)
- 2026年六盘水幼儿师范高等专科学校单招综合素质考试题库附答案详解(精练)
- 2026年保定电力职业技术学院单招职业适应性测试题库带答案详解(预热题)
- 2026年南充文化旅游职业学院单招职业适应性考试题库含答案详解ab卷
- 2026年博尔塔拉职业技术学院单招综合素质考试题库及完整答案详解一套
- 2026年内蒙古机电职业技术学院单招职业技能考试题库带答案详解(a卷)
- 2026年内蒙古北方职业技术学院单招职业适应性考试题库带答案详解(达标题)
- 2026年兰州石化职业技术学院单招职业倾向性考试题库及完整答案详解
- 2026年及未来5年中国通信机柜行业发展运行现状及投资战略规划报告
- 《2026年》档案管理岗位高频面试题包含详细解答
- 生鲜客服培训
- 奶茶店垃圾制度规范
- 门诊护理中的PDCA循环:提升患者满意度
- 绿电交易课件教学
- 非静脉曲张上消化道出血患者行内镜下急诊止血治疗的护理配合
- 直肠癌患者疑难病例讨论
- 配送司机面试题及答案
- 体彩门店转让协议书
- 菏泽医专综评试题及答案
评论
0/150
提交评论