大数据大数据公司实习报告_第1页
大数据大数据公司实习报告_第2页
大数据大数据公司实习报告_第3页
大数据大数据公司实习报告_第4页
大数据大数据公司实习报告_第5页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据大数据公司实习报告一、摘要

2023年7月1日至2023年8月31日,我在一家专注于金融科技领域的大数据公司担任数据分析师实习生。核心工作成果包括完成10个客户行为分析报告,其中3个报告被采纳用于优化产品推荐算法,使点击率提升12%;运用Python对200万条交易数据进行清洗与建模,构建了准确率达86%的用户流失预测模型;通过Spark处理日均50GB日志数据,日均处理效率提升30%。专业技能应用方面,熟练运用SQL进行复杂查询,掌握Hive、SparkSQL进行分布式计算,并运用Tableau生成可视化图表。提炼出可复用的方法论:采用分层抽样减少数据噪音,建立特征重要性评估流程优化模型迭代效率。

二、实习内容及过程

2023年7月1日至2023年8月31日,我在一家做金融风控的大数据公司实习。来之前想学点实战经验,看看自己学的数据挖掘能不能落地。公司主要用Flink做实时计算,数据仓库是Greenplum,上层分析多用Python和Spark。我的岗位是初级分析师,跟着导师做了三件事。

1.实习目的

想了解大数据在金融场景怎么用,把学校学的机器学习模型用到实际业务里。

2.实习单位简介

公司做的是信贷风控,客户数据量很大,日均处理量几十GB,主要用Hadoop生态。我负责的模块是用户行为分析,目标是找出高风险用户。

3.实习内容与过程

开头几周跟着导师跑数据,用SQL在Greenplum里写ETL脚本,每天处理200万条交易记录。导师让我优化一个查询,原查询跑1小时,我改了join顺序和索引,半小时就出结果了。后来独立做了个项目,分析用户逾期原因。先拿过去一年的数据,用Spark做特征工程,选了20个维度,比如登录频率、还款间隔、消费类型等。用XGBoost建模,AUC到0.75,但线上验证时发现偏差很大。

4.实习成果与收获

最后版本模型AUC到0.82,帮业务部门把预警准确率从65%提高到72%。学到了怎么在有限资源下调模型,比如用网格搜索替代随机搜索省了两天时间。还发现公司部分数据质量差,比如用户职业字段缺失超50%,这让我意识到数据治理比算法更重要。

5.问题与建议

遇到最大困难是初期不熟悉公司数据链路,跑数据时经常卡壳。花了两天摸清了Flink实时流的配置,但感觉培训资料太老了。建议公司给新人准备更系统的数据地图文档,特别是ETL流程部分。另外我负责的模块和业务需求对接时,发现算法效果好但业务落地难,比如模型把某类用户都标红了,但这类人其实是优质客户。我提的建议是建立快速迭代机制,小范围验证模型,但没被采纳。下次我会更主动找业务方沟通,而不是做完报告就完事。

三、总结与体会

2023年8月31日,实习结束那天,回头看这8周,感觉像从黑箱摸进了一扇门。刚来时懵懵懂懂,觉得学的东西够用了,结果第一天导师就给我看了几张几百TB的表,CPU跑满三天才出个初步结果。那时候才知道,学校几十万数据的小实验,和这里动不动上GB的事,完全是两个量级。

1.实习价值闭环

这份工作让我把“纸上谈兵”变成了“真枪实弹”。比如学到的特征工程,课本上讲得很细,但实际做时发现,某个行业术语在数据里只出现50次,用LDA主题模型根本提取不出有效信息。后来我调整了采样策略,加个TFIDF加权,效果立马好多了。这8周我把10篇论文里的方法都试了一遍,有7个直接在数据上崩了,3个需要改参数。现在回头看,最大的收获不是会用某个工具,而是知道什么场景该用、什么场景不该用。

2.职业规划联结

原本想当算法工程师,但实习中看到数据平台和业务运营的活儿,发现更感兴趣。比如有一次要给销售团队做用户画像,我花了3天爬取第三方数据源,用Pyspark清洗后,用关联规则算法找到了几个意想不到的标签,比如“常买奢侈品”和“信用卡账单日是13号”居然有关联。结果这个报告直接影响了产品线的推荐策略。现在想考个CDA证书,至少先把SQL和Python能用到极致,争取下个实习直接去数据平台组。

3.行业趋势展望

金融行业现在都搞“数据中台”,但我在公司看到,很多老系统数据还是孤岛,比如风控和营销系统没打通,导致模型效果好但业务用不了。我提过用Flink做实时数据融合,但团队觉得成本高。这让我意识到,技术不是越新越好,得看场景。未来可能要学学数据治理和系统集成,毕竟现在企业更关心数据能不能用,而不是用了最新技术。

4.心态转变

以前觉得写个代码跑个模型就行,现在明白,从需求到落地要考虑成本、时效、甚至法务合规。比如有个模型效果好,但每次跑要算力资源费2000块,业务宁愿用AUC低一点的免费模型。还学到一个,做报告不能只放结论,必须写清楚数据来源、处理逻辑、参数设置,有一次我忘了写特征重要性计算方法,导师花了半小时才追问我。这种责任感以前完全没体会过。

下一步打算把实习里做的用户流失预测模型再优化下,用LightGBM试试,争取达到0.88的AUC。如果下学期有余力,想去参加个Kaggle竞赛,毕竟现在面试都爱问实战案例。这8周就像打了场仗,虽然累,但总算知道怎么在数据里找活路了。

四、致谢

8周的实习时光说长不长,说短不短。这段经历让我对大数据行业有了更具体的认识,也看到了自己需要努力的方向。

1.感谢实习单位

感谢公司给我这个机会,让我接触到了真实的数据项目。虽然过程中遇到不少困难,但团队氛围很好,给了我很多实际操作的锻炼。

2.感谢导师

特别感谢我的导师,在我迷茫的时候给了我很多建议,比如怎么优化SQL查询、怎么跟业务沟通。他说的“先跑通数据,再想算法”现在还记着。

3.感谢同事

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论