大数据技术大数据公司数据科学家实习报告_第1页
大数据技术大数据公司数据科学家实习报告_第2页
大数据技术大数据公司数据科学家实习报告_第3页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据技术大数据公司数据科学家实习报告一、摘要2023年7月1日至2023年8月31日,我在一家专注于大数据技术的公司担任数据科学家实习生。期间,我主导完成了三个核心项目,包括用户行为分析模型优化、销售预测系统搭建和客户流失预警系统开发。通过应用Python和Spark进行数据处理,结合机器学习算法,将用户行为分析模型的准确率从72%提升至86%,销售预测系统的预测偏差降低至5.2%,客户流失预警系统的召回率提高至91.3%。工作中熟练运用了数据清洗、特征工程、模型调优等专业技能,并形成了可复用的特征提取流程和模型评估方法论,为后续项目提供了标准化参考。二、实习内容及过程实习目的是想看看大数据在真实业务里怎么转,了解数据科学家到底干啥。那家公司挺牛的,做各种大数据解决方案,客户不少,数据量也大得吓人。我实习那段时间,主要是跟着团队做项目,从数据拿到模型上线整个流程都摸了一遍。印象最深的是参与了个用户行为分析的项目,7月10号接到任务,当时数据挺乱的,好多缺失值和异常点。我是学Python的,花了两周时间用Pandas和Numpy把数据擦干净,还跟导师学了点特征工程,把几百个原始特征压缩到50个有效特征,用了LightGBM模型,调了半天参数,最终模型AUC从0.75提到了0.86,老板还挺满意。另一个挑战是客户流失预警,8月初开始做,数据维度挺多,一开始模型效果不好,召回率太低,只有80%,后来发现得用集成学习方法,把随机森林和XGBoost结合起来,效果立马起来了,最后召回率到91.3,精排模型的F1score也到了0.89。整个过程让我对数据清洗、特征工程和模型选择有了更直观认识,也明白了个超参数调优得慢慢来,不能急。不过说实话,那段时间培训挺少的,就靠跟着导师和看内部文档自学,有时候感觉岗位要求跟我学的课程衔接不太紧密,比如深度学习这块接触得不多。要是单位能多组织些技术分享会,或者给我安排个带得严一点的导师,效率可能会更高。还有就是管理上有点乱,项目多的时候任务分配不太清晰,我有时候得自己做点跟项目关联不大的杂活。建议可以搞个内部知识库,把好用的代码和经验都整理起来,大家共享着用,也省得重复造轮子。这段经历让我更清楚自己想干啥,以后得重点补补深度学习和自然语言处理这块,感觉很有前景。三、总结与体会这8周实习,像是从书本里跳进了真实世界,感觉收获特别大。7月1号刚去的时候,心里挺打鼓的,很多东西看着简单,真上手就懵。但跟着团队把几个项目从零做到上线,心里踏实多了。用户行为分析那个项目,我们尝试了十几种特征组合,最后用Lasso回归筛选出来的那50个特征,加上LightGBM模型调参,最终把AUC从0.75提到0.86,这个提升虽然不算惊天动地,但对我来说意义挺重的,知道了自己做的东西能实实在在带来效果。客户流失预警项目也一样,8月初接手时召回率才0.8,后来跟导师熬夜调了两天模型参数,还把随机森林和XGBoost用Stacking搞到了一起,最后召回率冲到了0.913,F1score也到了0.89,那一刻感觉挺值的。这些经历让我明白,数据科学家不是光会跑代码就行,得懂业务,还得会跟人沟通,有时候一个需求的沟通比写几周代码还累。最大的变化可能是心态,以前做项目就是完成任务,现在觉得得对结果负责,压力确实大,但抗压能力也强了不少。这段实习让我更清楚自己喜欢啥,以后肯定要往这个方向深耕。比如那个特征工程的过程,我觉得挺有价值的,打算下学期把《特征工程实战》那本书啃了,顺便考个相关的认证,感觉对未来找工作有帮助。行业里现在好像挺卷的,但技术也在快速发展,像图计算、大语言模型这些新东西层出不穷,得时刻保持学习状态。总之一句话,这次实习没白来,让我对数据科学这行有了更深的理解和热爱,也看清了未来要努力的方向。四、致谢感谢那家公司给我这次实习机会,让我接触到了真实的数据项目。特别感谢我的导师,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论