版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据技术大数据公司数据科学家实习生实习报告一、摘要2023年7月1日至2023年8月31日,我在一家专注于大数据分析的公司担任数据科学家实习生。期间,我主要参与用户行为分析项目,负责数据清洗与特征工程,处理超过200万条用户日志数据,通过构建RFM模型,将客户流失预测准确率从68%提升至82%。运用Python进行数据挖掘,使用Spark完成分布式计算,优化了特征提取流程,将处理效率提升30%。实践过程中,我掌握了数据预处理、机器学习模型调优及结果可视化等核心技能,并形成了一套可复用的特征工程方法论,涵盖数据质量评估标准、异常值处理机制及模型迭代框架。二、实习内容及过程1.实习目的我去找实习的初衷是想把学校学的数据挖掘、机器学习这些理论用上,看看大数据公司在实际业务里怎么玩转数据,顺便提升下自己的实操能力,为以后找工作铺路。2.实习单位简介我实习的公司是做企业级数据服务的,客户主要是电商和金融行业的,业务核心是提供用户画像和推荐系统解决方案。他们用的是Hadoop+Spark的架构,数据量每天都能到几个G。3.实习内容与过程前两周主要是熟悉环境,跟着师傅摸了摸他们的数据平台,学怎么用SparkSQL跑查询,还帮着整理过一批用户注册信息的脏数据。3号开始接手一个活儿分析某个APP的流失用户特征。我先从用户行为日志里筛选出活跃和流失用户,日志表有10G左右,字段密密麻麻的,包括浏览时长、点击次数、购买金额之类的。用Spark做分组统计时卡了很久,内存一直爆掉,后来师傅教我用DataFrameAPI替换了原来的RDD操作,速度立马快了。接下来做特征工程,想到RFM模型,就按最近一次消费、消费频率、消费金额这三个维度去打分。但原始数据里金额分布太偏,0值特别多,我就试了用log1p函数平滑,效果还真不错,分数分布均匀多了。调模型时试了逻辑回归和XGBoost,最后选了后者,AUC从0.75提到0.82。可视化部分用Python的Seaborn画了用户分群热力图,师傅说直观得很。4.实习成果与收获项目最后做了个PPT,汇报时老板问什么特征最重要,我指着图表说购买金额和访问频率这两个维度贡献最大,还给他们出了个新特征组合建议把下单品类数和客单价相乘,结果他们后来说真去试了。收获最大的还是解决实际问题的思路,比如怎么把理论知识落地,怎么在资源有限的情况下做取舍。现在对特征工程的理解深多了,以前觉得模型调参玄学,现在明白很多坑都是数据预处理没做好闹的。5.问题与建议实习里最头疼的是他们的数据文档几乎空白,好几次要问师傅数据库表里某个字段的含义,结果他都得现去查。另外培训方面有点欠缺,比如第一周就让我用Spark,但连集群的基本操作都没教。建议公司可以建个内部知识库,把常用SQL脚本、数据字典什么的整理好,对新来的实习生也该安排几周的基础培训,别上来就扔活儿。还有我觉得我的SQL能力还是弱,有些复杂查询得对着文档慢慢敲,要是学校多开几节正则表达式课就好了。三、总结与体会1.实习价值闭环这8周像把书里读到的知识掰开了揉碎了。7月15号那个下午,我第一次完整跑通一个基于Spark的推荐算法流程,虽然只是简单的协同过滤,但看着终端打出相似用户列表时,真有种把理论变成产出的成就感。实习前觉得数据科学家就是调调参数,现在明白从数据接入到模型上线中间有太多细节要抠,比如7月8号处理用户行为数据时,发现有个字段存在异常的NULL值比例,追查下来是上游爬虫出问题了,这种跨环节的沟通能力是学校里学不到的。2.职业规划联结实习让我更清楚自己的短板,比如调XGBoost参数时对正则化项的系数选择总是凭感觉,8月25号请教师傅后才知道这背后是L1/L2惩罚权的数学原理。下学期打算补齐这块,可能要去考个CPRE的认证,他们内部用的Flinkstreaming我也只看过文档没实践过,现在买了公司用的那个云平台账号,打算周末先跑跑官方教程。师傅跟我说过,数据科学这行特别看积累,他现在做的风控模型就是研究生时一个项目的基础变形的,这话现在理解深了。3.行业趋势展望感觉现在行业特别卷,但卷的方向挺有意思。8月30号参与完一个周会,听几个资深工程师讨论实时特征工程,说现在A/B测试的胜率越来越依赖能不能快速上线新的用户标签,他们用的Flinkfeaturestore把我看入了迷。虽然实习期间没机会上手,但回来后打算搞个矿机搭个环境试试,他们用的DeltaLake也该学学,8月10号帮测试部门搭测试环境时,就发现写个简单的时间旅行恢复操作要翻半天文档。AIoT这块数据量更大,但数据治理更头疼,这次接触到的用户日志清洗流程,现在想想至少能省出3个人工标注成本,要是能参与后续项目就好了。4.心态转变最直观的变化是抗压能力。8月15号半夜被叫起来debug,发现是个分布式事务问题,日志都隔行了,折腾到凌晨三点才定位到是某个表分区策略没对,第二天还要像啥事没发生过一样写周报,现在想想都觉得后怕。但反过来这种经历也让我明白,数据世界里99%的时间都在跟脏数据、慢系统较劲,剩下的1%才是算法的微调,这种认知比单纯会调参数重要多了。师傅有次跟我说"做数据就像洗衣服,先拧出水,再慢慢揉搓",这话我一直记着。四、致谢1.感谢实习期间接触到的团队,特别要谢谢带我的师傅,8月10号那个下午教我Spark调优时说的"少即是多"理念,现在还在用。还有负责数据仓库的同事,7月底讨论ETL链路问题时的那种钻研劲儿挺感染人。虽然公司没搞什么欢送会,但8月31号下午大家一起吃个饭,聊到说以后有项目可以找他们帮忙,这种氛围挺难得的。2.感谢学校的指导老师,虽然实习期间没怎么联系,但记得3月份课程设计时他强调过的"数据质量比模型精度重要"这句话,后来处理日志数据时还真体会到了。下学期打算去找他聊下Flink这
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 证券市场资深操盘手实战宝典
- 部队学身边典型演讲稿
- 读书让我们进步演讲稿
- 2026年体育与健康锻炼方法试题
- 爱国演讲稿开头惊艳句子
- 2026年大学生学法用法法律知识竞赛考试题库及答案(共220题)
- 我是职校人我骄傲演讲稿
- 文明校园最美宿舍演讲稿
- 自强不息提升实力演讲稿
- 2026年大学生百科知识竞赛挑战题160题及答案
- 2026年南京机电职业技术学院单招综合素质考试题库附参考答案详解(综合卷)
- 2026年大庆职业学院单招职业技能考试题库及答案解析
- 劳动创造美好生活2026年新学期劳动教育开学第一课
- 2026年春季学期校长在开学安全工作专题会议上的部署讲话稿
- 2026四川能投综合能源有限责任公司招聘19人备考题库参考答案详解
- 2026年及未来5年市场数据中国工程保险行业市场调查研究及发展战略规划报告
- 沥青路面灌缝培训课件
- 船舶机电故障失控应急预案范文
- Mastercam案例教程 课件全套 1-6 MasterCAM2024入门 - -3D铣削编程
- 2026年莱芜职业技术学院单招综合素质考试模拟试题带答案解析
- 部编版小学语文一年级下册教案设计(新教材全册)
评论
0/150
提交评论