下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数学与应用数学金融科技数据分析师实习生实习报告一、摘要2023年7月1日至2023年8月31日,我在XX金融科技公司担任数据分析师实习生。核心工作成果包括:通过构建机器学习模型,将客户流失预测准确率从基础模型的65%提升至82%;利用Python清洗并分析200万条交易数据,识别出3类高频异常交易模式,为风控策略优化提供数据支持;运用SQL对数据库进行高效查询,日均处理数据量达50GB。专业技能应用方面,熟练运用Pandas进行数据预处理,Matplotlib绘制可视化图表,并通过JupyterNotebook整合分析流程。提炼出可复用的方法论:建立数据监控看板,将异常波动阈值设定为±2标准差,确保问题及时响应。二、实习内容及过程1.实习目的我去那边的公司实习,主要是想看看自己学的数学建模、数据分析这些玩意儿在实际金融科技领域到底能干啥。想多接触点真实场景,知道怎么把理论用在像客户画像、风险控制这些具体事儿上。2.实习单位简介我实习的公司是做智能投顾和信贷风控的,团队不大但技术氛围挺浓。他们用的是比较前沿的机器学习模型,像XGBoost、LSTM这些都用上了,数据量也挺大,每天跑模型要处理几TB的数据。3.实习内容与过程我跟着导师做了两个主要项目。第一个是客户流失预测。他们之前用的是简单的逻辑回归,准确率也就65%左右。我接手后,先花了两周把历史用户数据洗得明明白白,用Pandas处理了大概150万条记录,把缺失值按分位数填充,还做了特征衍生,比如用户登录频率的变化率这类东西。后来试了几个模型,发现把XGBoost和LightGBM嵌套起来效果最好,调了半天参数,把AUC从0.72提到了0.82。第二个是交易异常检测。我帮他们把实时交易流接入到Kafka里,用SparkStreaming跑Flink,发现里面居然有3种特别高频的异常模式一种是小额高频交易,一种是突然的大额单,还有一种是IP地址异常。后来写了个规则,把这些情况直接标记出来,风控那边说现在告警的准确率提高了不少。4.实习成果与收获这8周里,我直接参与的项目结项时,导师说我的模型把流失用户召回率提高了18%。我还弄了个数据看板,把关键指标都可视化了,比如模型预测的ROC曲线、特征重要性分布这些。最让我满意的,是学会了怎么把业务需求转化成技术方案。比如风控那边要实时监控,我就得用流处理技术,而不是简单批处理。这种需求导向的思考方式,比单纯刷题收获大多了。5.问题与建议有两个坎儿挺难过的。第一个是数据质量问题,有时候源系统数据特别脏,我花了3天才把一个字段的对齐问题弄好。建议公司可以搞个数据质量监控平台,实时告警。第二个是培训这块儿,公司技术栈挺新,但培训材料太少了,我好多东西都是自己摸的。建议可以搞个新人知识库,把踩过的坑都记下来,比如某个库的某个参数特别容易用错。我后来把遇到的问题都整理到个人笔记里了,希望下次接手能快点上手。三、总结与体会1.实习价值闭环这8周,从7月1日到8月31日,感觉像把书本里那些公式和理论真正落地了。最直接的例子是客户流失项目,我调参那个XGBoost模型,把AUC从0.72提到0.82,导师最后在项目总结会上说“这帮了业务不少”,当时心里挺实落的。以前做作业,对错就对了,现在知道0.01的准确率提升可能就对应着百万级别的营收变化。感觉就像搭积木,以前是瞎拼,现在知道怎么选合适的块,怎么让结构更稳固。2.职业规划联结这次经历让我更确定想往量化分析方向发展了。之前还在犹豫是做研究还是直接进公司,现在觉得后者更适合我。公司里那种“算得对就能拿钱”的氛围特别吸引人。我打算下学期把Python的pandas和scikitlearn再啃一遍,顺便考个CFA一级,正好那家公司风控这块用的是VarianceThreshold这种特征选择方法,现在回去翻书看那块内容,发现真挺实用的。3.行业趋势展望感觉金融科技这行特别卷,但卷得特别有意思。他们现在搞AIGC辅助风控,我实习最后两天还去旁听了会儿,发现把大语言模型和图神经网络结合起来,能从交易关系里发现人眼看不到的异常。虽然我实习期间没直接上手,但回去打算学学PyTorch,看看能不能复现那篇论文里的实验。现在看招聘,好多公司都要求懂“多模态融合”,这帮我赶紧列了几个想学的方向知识图谱、联邦学习,感觉这行永远有东西可学,挺刺激的。4.心态转变最明显的变化是抗压能力。刚开始接手项目时,导师给的数据文档只有一页,里面还缺几个关键指标定义,我一头雾水。后来逼着自己先跑一遍数据,才发现是源系统bug。现在想想,比学校里做毕业设计难多了学校导师会给你现成的数据集,公司这边你得自己找、自己问、自己爬。这种“没人管着你”的节奏,反而让我成长快了。还有责任感,以前写代码随便改,现在知道每个参数改动都可能影响成千上万用户,那股沉甸甸的感觉现在还留着。致谢1.感谢实习单位特别感谢公司给我这次实习机会,让我在真实业务场景里摸爬滚打。那边的技术氛围特别好,遇到问题时大家都能直接聊,帮我快速成长不少。2.感谢导师要特别谢谢我的实习导师,他教我调XGBoost参数时那句“先看趋势再调细节”我现在还记着,帮我把好几个方向都带正了。3.感谢同事还得谢谢风控组的几位同事,他们给我看内部案
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 加油站环境整治及形象提升方案
- 小学语文五年级教学进度计划
- 翻转课堂教学设计详细方案
- 大型企业员工培训方案设计
- 幕墙工程规范及施工安全技术解析
- 教育咨询顾问培训方案定制绩效评定表
- 高校在线教学方法与评估体系
- 小学英语时态重点知识讲解
- 小学三年级汉字组词练习全集
- 中小学行为规范自评报告范文
- 节后复工安全教育课件
- 原料基础知识培训课件
- 无人机内部培训课件模板
- 2025-2026学年北京市昌平区高三(上期)期末考试英语试卷(含答案)
- 2026年CCNA认证考试模拟题库试卷
- 《中国养老金精算报告2025-2050》原文
- 质检部门员工安全培训
- 气象研学课程设计主题
- 《农夫山泉企业财务结构及指标趋势分析论文》
- 党的二十届四中全会学习试题
- (2025)党政领导干部拟任县处级资格考试题及答案
评论
0/150
提交评论