版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数学与应用数学专业金融科技公司数据分析师实习报告一、摘要2023年6月5日至8月22日,我在一家金融科技公司担任数据分析师实习生。负责公司核心业务板块的数据清洗、建模与分析工作,运用Python和SQL处理日均约10万条交易数据,通过建立逻辑回归模型,将客户流失预测准确率从72%提升至86%,为业务部门提供决策支持。期间运用Pandas库进行数据清洗,Matplotlib库进行可视化分析,并撰写5份数据分析报告,涵盖用户行为分析与市场趋势预测。实习期间,将课堂学习的统计学原理与机器学习算法应用于实际场景,验证了交叉验证法在模型调优中的有效性,并总结出基于数据特征工程提升预测精度的方法论,可直接应用于金融风控领域。二、实习内容及过程1.实习目的我这次实习主要是想看看自己学的数学与应用数学专业在实际金融数据分析里能干啥,能不能把课堂上的统计模型和编程技能用上。想去了解真实世界的数据处理流程,看看跟学校里做项目有啥不一样的地方。2.实习单位简介我实习的公司主要做智能投顾和量化交易相关的服务,客户数据量挺大的,每天交易记录、用户行为数据加起来得有个几十G。技术团队挺重视数据驱动,各种机器学习模型用得挺多,像用户流失预测、策略信号挖掘都是日常活儿。3.实习内容与过程刚去那会儿,主要是跟着导师熟悉业务,他们那边客户流失率有点高,所以第一个项目就是帮他们搞个预测模型。6月10号到20号,我花了几天时间把历史用户数据导出来,用Python的Pandas库先处理,发现数据里有很多缺失值,还有不少异常交易记录。当时挺懵的,因为学校里做项目数据都挺干净的。后来跟导师学了怎么用插值法和聚类算法处理缺失值,还用SQL写了几个临时表把异常数据筛出去。7月10号开始,我接了个新活儿,帮市场部做季度趋势报告。主要是分析不同投资组合的收益率分布,用到了KDE密度估计和箱线图可视化。这一段感觉跟业务结合更紧密了,虽然数据挖掘的活儿少了点,但学到不少行业术语,像“Alpha因子”“回测窗口”这些。4.实习成果与收获最明显的成果就是那个流失预测模型,最后上线后业务部门反馈说确实帮他们准确定位了一些高风险用户。另外,我写的5份数据报告里有个关于移动端用户活跃度下降的分析,后来被技术部参考去优化了APP推送策略。个人感觉最大的收获是学会了怎么把理论落地,学校里学统计模型时总觉得离实际有点远,这次才明白数据清洗、特征工程有多重要。遇到的困难主要是刚开始对业务理解不深,有一次选特征时瞎加了一堆没用的指标,模型效果很差。后来就多看公司内部的CaseStudy,还主动跟交易员聊了聊,慢慢就摸清了哪些特征对预测影响大。还学了个新工具,用Tableau做交互式报表挺方便的,比单纯发Excel强多了。这段经历让我意识到,做数据分析光会编程是不够的,还得懂业务逻辑,不然很容易做无用功。这也影响了我未来的职业规划,想往量化分析方向发展,得多学些时间序列模型和信号处理的知识。5.问题与建议实习期间也发现公司管理上有点问题,比如数据仓库那边更新不及时,有时候拿到的数据是几个月前的,分析结果自然不准。建议他们搞个实时数据同步机制,或者至少定期做数据质量报告。另外,培训机制也一般,新人就靠导师带,要是能有个标准化的入职培训手册就好了。我那组还有个实习生是学计算机的,纯做技术实现,但对金融业务一窍不通,导致开发的方向跟业务需求有点脱节,建议多搞些交叉培训。三、总结与体会1.实习价值闭环这8周实习像把理论和实践硬生生连了起来。6月5号刚去时,面对真实业务场景还懵懵懂懂,感觉学校学的统计推断、回归分析用不上多少。后来在导师指导下,把客户交易数据里那些日均值超过3个标准差的订单当异常值处理,用逻辑回归模型做流失预测,准确率从75%提到82%,那一刻才真觉得学有所用。这段经历让我明白,数据分析不是玩数据游戏,而是帮公司降本增效,那种从一堆数字里挖出真相的感觉太刺激了。2.职业规划联结这次经历直接影响了我的求职方向。我发现自己在处理高维数据时特别有感觉,比如7月15号做的用户画像分析,用KMeans聚类把5000条记录分成6类,结果帮运营组定位到“低频高净值”用户群。现在清楚了自己想往金融风控方向发展,打算下学期考个CFA一级,顺便把Python的pandaspro库学深了。导师说下次他们做策略回测时可以带我,这让我对秋招目标岗位更有底气了。3.行业趋势展望在公司接触到的反洗钱系统让我看到数据合规的重要性。他们用的FICO分数模型已经用了10年了,但最近在试水用图神经网络分析账户关联关系。这让我意识到,未来分析师不仅要懂数据挖掘,还得懂点深度学习,不然很快会被淘汰。比如8月10号写的那份关于高频交易异常检测的报告,其实用到的就是LSTM模型,只是当时自己还搞不太懂原理。现在看来,学校开的“机器学习进阶”课真是及时雨。4.心态转变最明显的改变是抗压能力。刚开始被要求3天出个初步分析报告时,差点崩溃,因为发现数据里有20%是脏数据。后来学会用SQL先写个ETL脚本自动清洗,效率高多了。现在想想,学校里做项目时老师总会把数据整理好,哪知道真职场里80%时间都在跟数据打架。这种“被逼着成长”的感觉虽然难受,但收获真的巨大。5.未来行动下阶段打算把实习时写的那些特征工程函数封装成个人库,现在看招聘帖发现很多公司要“数据开发能力”,自己光会调参太吃亏了。另外,8月20号导师给我的那份关于“如何用Excel做交互式报表”的建议,现在正恶补PowerQuery。感觉这几个月像开了窍,以前觉得枯燥的统计课突然变得特别有意思。四、致谢感谢公司给我这个实习机会,让我看到数据分析师真实的工作状态。特别感谢导师在项目上给我的指导,印象最深的是7月12号帮我理清模型特征选择的思路,后来那个流失预测模型能提效10%多,真得亏他点拨。还有带我的几位同事,教我如何在限
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025云南昭通市鲁甸县茨院乡财通洗涤产业园招聘15人笔试参考题库附带答案详解
- 2025云南孟连县就地就近就业岗位招聘65人笔试参考题库附带答案详解
- 2025临沂市兰山区财金投资集团有限公司权属子公司招聘(14人)笔试参考题库附带答案详解
- 新员工培训记
- 2025中好建造(安徽)科技有限公司第二次社会招聘13人笔试历年备考题库附带答案详解2套试卷
- 2025中国石化河北石油分公司社会招聘205人笔试参考题库附带答案详解
- 2025中国建材集团有限公司总部招聘4人笔试参考题库附带答案详解
- 2025中国大唐集团有限公司总部管培生招聘笔试历年典型考点题库附带答案详解2套试卷
- 安全头盔培训课件
- 2026年大学生心理健康知识竞赛试卷及答案(七)
- 航空安保审计培训课件
- 神经内科卒中患者误吸风险的多维度评估
- 机加工检验员培训课件
- 高层建筑灭火器配置专项施工方案
- 上海市奉贤区2026届初三一模物理试题(含答案)
- T-CI 263-2024 水上装配式钢结构栈桥(平台)施工技术规程
- 2023年湖北烟草笔试试题
- DH9261消防电话主机
- 2023年重庆市安全员《C证》考试题库
- 人教版五年级数学用方程解决问题
- 土地资源调查与评价教学大纲2023年
评论
0/150
提交评论