应用数学金融科技公司数据科学实习生实习报告_第1页
应用数学金融科技公司数据科学实习生实习报告_第2页
应用数学金融科技公司数据科学实习生实习报告_第3页
应用数学金融科技公司数据科学实习生实习报告_第4页
应用数学金融科技公司数据科学实习生实习报告_第5页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应用数学金融科技公司数据科学实习生实习报告一、摘要

2023年7月1日至2023年8月31日,我在一家金融科技公司担任数据科学实习生。核心工作成果包括构建并优化信贷评分模型,通过特征工程提升模型AUC从0.72至0.85,处理超过50万条交易数据,完成5份深度分析报告。专业技能应用方面,熟练运用Python进行数据清洗与建模,通过SparkSQL处理大规模数据集,利用Tableau可视化关键指标。提炼出可复用的特征筛选方法论,基于Lasso回归与互信息评分组合实现变量选择,有效降低模型复杂度并提升解释性。

二、实习内容及过程

2023年7月1日至8月31日,我在一家做消费信贷风控的金融科技公司实习。公司主要用机器学习模型做用户信用评估,数据量挺大,每天新增几万条用户行为记录。我的实习目的就是学学怎么把课堂上学到的数据挖掘知识用到实际项目里,体验下工业界的模型开发流程。

公司业务部门挺忙的,但给了我不少真项目练手。我跟着导师做了个信贷评分卡项目,目标是把模型评分转化为直观的信用等级。我们用的数据是过去一年的用户交易记录,包括消费金额、频率、地点这些,量差不多有50万条。刚开始做数据预处理,发现好多人数据缺失,有些甚至缺失超过30%。我花了差不多两周时间,用均值填充、KNN插补,还结合业务规则做了点自定义填充,最后数据完整性提升到95%以上。

接下来是特征工程,导师让我重点搞搞用户活跃度指标。我尝试了用滚动窗口计算过去30天的消费笔数和金额中位数,还做了个特征交互,比如“工作日夜间消费金额”。调了好几个版本,用逻辑回归跑交叉验证,AUC从0.72慢慢提到0.85。过程挺磨人的,每次参数微调都要重新跑一遍,但看到效果确实有进步,心里挺开心的。

其中遇到个挺头疼的问题,是模型解释性不够。业务部门想知道模型为什么给某些用户高分,纯黑箱的树模型肯定不行。我学了下SHAP值解释方法,花了两天时间把代码搭起来,可视化出每个特征对预测结果的贡献度,发现“历史还款记录”和“设备类型”影响最大。这让我意识到,做模型不能光追求性能,还得兼顾可解释性,不然模型很难落地。

另一个挑战是数据质量问题。有一次拿来做实验的数据,明明预处理过,结果发现还有异常值没处理干净,导致模型效果打折。后来我提议建立个数据质量监控看板,每天自动跑几条SQL查询,统计缺失率、异常值比例这些,导师觉得挺靠谱,就让我用Python搭了个小工具。虽然只是个辅助工具,但感觉挺有用的。

做完这些,我参与了两次周会,给团队分享了特征工程的心得。主要是讲怎么结合业务场景做衍生变量,比如“周末消费占比”这个指标,其实挺简单的,但之前没人想到。导师还夸我有思路,让我下次多提想法。这8周里,我最大的收获是知道了自己哪些地方做得不错,哪些地方还差得远。比如调参这事儿,以前我瞎调,现在知道先看featureimportance,再重点优化几个关键参数,效率高多了。

但实习过程也暴露出一些问题。比如公司内部数据平台权限控制挺严格的,有时候想拿点历史数据做实验,要跑好多流程申请,等来等去耽误时间。另外,培训机制也不太完善,入职时没给啥系统培训,都是导师带着做,要是能有个新人手册或者线上学习系统就好了。岗位匹配度上,我挺想接触下更前沿的图神经网络这类模型,但项目里主要还是用逻辑回归、XGBoost这些,感觉深度学习这块实践机会少点。

改进建议的话,我觉得可以搞个内部知识库,把项目文档、代码都放上去,方便新人快速上手。再就是定期组织技术分享会,大家可以互相交流下新看到的好论文或者工具。至于权限问题,能不能搞个测试环境数据,让我们自由发挥不受影响。这些想法可能不成熟,但希望能帮到后来人。这段经历让我更清楚自己想干嘛了,以后想往风控方向发展,但还得继续补深度学习这块短板。

三、总结与体会

这8周,从2023年7月1日到8月31日,在金融科技公司的实习经历让我对数据科学有了更立体的认识。以前在学校的模型,跑通就行,现在得考虑怎么落地、怎么解释,这才是真本事。实习价值闭环就在这,我把学到的假设检验、回归分析用到了实际数据上,通过特征工程把AUC从0.72提到0.85,这不仅仅是数字,是业务部门实实在在需要的工具。我学会了怎么跟业务部门沟通需求,怎么在资源有限的情况下排优先级,这些在学校根本学不到。

这次经历直接影响了我的职业规划。我本来对量化交易挺感兴趣的,但实习里接触的风控项目让我意识到,把模型真正用起来解决信贷风险问题,成就感完全不一样。现在明确了自己想往金融风控方向发展,准备下学期补足图神经网络和强化学习这块短板,还打算考个CFA,把金融知识补齐。实习让我明白,数据科学家不能只懂算法,还得懂业务、懂金融,这才是核心竞争力。

行业趋势这东西,实习里感受最深的就是模型可解释性越来越重要。以前大家疯狂追求黑箱模型,现在监管和业务都要求模型要能解释,我也学了SHAP值方法,这感觉是未来几年大方向。另外,大数据处理能力也是基本功,我用SparkSQL处理过几百万条记录,虽然不算顶大,但确实体会到内存管理和SQL优化的重要性。这让我意识到,学校里学的皮卡丘级别的算法,在实际工程里可能跑不动,必须得接地气。

心态转变是最大的收获。以前做项目就是完成任务,现在感觉扛着责任在做。比如有一次模型效果不理想,我主动加班查了两天数据,最后发现是历史数据有脏记录,虽然只是个小问题,但让我体会到数据科学家不是光写代码的,还得对结果负责。抗压能力也练出来了,实习期间每周都要汇报,有时模型调不好压力很大,但硬着头皮把东西做出来,那种成就感是以前没有的。

未来要把实习经验转化成优势。打算下学期深入学习下PyTorch,现在公司用的调参工具都是自制的,效率不高,我想学学怎么用深度学习框架搭建自己的实验平台。另外,实习里用的Lasso回归+互信息评分组合特征筛选的方法,我觉得特别实用,准备整理成笔记,以后做项目可以直接套用。证书这块,已经报名了PMP,想学学项目管理知识,毕竟以后做大了光懂技术也不行。这段经历让我从一个懵懂的学生,开始有意识地去思考怎么成为一个合格的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论