下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
金融科技金融科技企业实习报告一、摘要
2023年6月5日至8月23日,我在某金融科技公司担任数据分析实习生,负责信贷数据分析与模型优化工作。通过8周实习,我完成了5000+份信贷申请数据的清洗与标注,参与构建的评分模型准确率达到82%,较基准模型提升6个百分点。核心工作包括运用Python对历史数据进行探索性分析,构建逻辑回归模型进行风险预测,并使用Tableau生成10+份可视化报表,支持业务部门决策。期间,我熟练应用了Pandas、Scikitlearn等工具,掌握了数据预处理、特征工程及模型评估的全流程方法论,这些方法可复用于类似场景的数据分析任务。
二、实习内容及过程
2023年6月5日入职时,目标是熟悉金融风控领域的数据处理流程,把课堂上学到的逻辑回归和决策树模型用上。公司主要做小微企业信贷风控,系统里存着好几年历史数据,用户画像挺复杂的,有几千个维度的标签,时间序列数据也有月度还款和交易流水。头两周跟着导师搞数据清洗,5000多条申请记录里得剔除2000多条异常值和缺失值,用Pandas筛选条件写了个循环脚本,每天能跑完几批数据。遇到没明白数据含义的指标,就找业务部门那哥们儿挨个问,人家给我举了个“商户类型与逾期率的关联性”的例子,原来小餐馆这类商户确实更容易晚还钱。第二阶段参与模型迭代,拿过去两年的数据训练逻辑回归,基线AUC是0.75,我们加了几十个衍生特征,比如月均账单金额和电话号码归属地,最终模型AUC提升到0.81,但同事说特征太多会导致过拟合,最后选了30个打分。印象最深的是调试评分卡的时候,原始分数跟实际违约概率对不上,导师教我用ROC曲线找最佳阈值,画了十几次图才把偏差调小点。8周里还独立做了个还款能力分析报告,用Tableau做了个热力图,显示教育程度和负债率的交叉分布,业务部觉得挺直观。期间最头疼的是数据口径不统一,比如“稳定工作”在不同批次记录标准不一,最后提议在数据库里加注释字段统一口径,被采纳了。但也发现培训挺随意的,没系统讲过Hadoop生态,有些高级SQL我也没机会上手。要是公司能多组织几次技术分享会,或者给实习生配个带教师傅,效率可能会更高。这段经历让我意识到,风控模型不是随便调参数就行,得懂业务逻辑,后来我主动去读了不少关于小微贷的论文,感觉思路开阔了。现在想往量化风控方向发展,但知道还得继续学,比如怎么用机器学习做反欺诈,这得花更多时间啃论文了。
三、总结与体会
2023年8月23日结束实习时,感觉像是从书本跳进了真实战场。这8周不只是把课程里的逻辑回归用在了5000多条信贷数据上,更是第一次体会到数据质量有多关键。导师说模型调优时“特征工程是性价比最高的环节”,我算印证了加那个“月均账单金额”特征前,AUC从0.77直接跳到0.80,但删掉重复计算的“总负债率”后反而提升0.01,这细节让我明白风控不是堆参数。
实际操作中,发现业务部门对“评分卡阈值”的敏感度超乎想象。一次调高30分阈值,风控成本降了15%,但业务说用户获取率会跌20%,最后在0.82和0.88之间反复找平衡。这种拉扯让我懂了,技术不是闭门造车,得懂业务痛点和取舍逻辑。遇到数据口径不一致时,自己硬是花了3天研究历史记录,最后提的“字段注释标准化”建议居然被采纳了,虽然只优化了每天0.5%的数据处理时间,但第一次觉得“学的东西真能用上”。
这段经历让我从“技术学生”往“职场人”转变,抗压能力肉眼可见地变强了。比如连续一周加到晚上12点改SQL跑不通,第二天硬是早8点找到问题,虽然最后算上加班效率其实不咋样,但那种“必须搞定”的心态是以前没有的。现在回头看,实习最大的价值是把“理论”和“落地”的鸿沟踩实了比如学到的“特征筛选不能只看单变量相关系数”原则,已经刻进DNA里了,接下来打算啃《统计学习方法》补补基础,顺便考个CFA的量化方向证书,感觉这8周直接让我在求职时多了一个“能动手”的底气。
看着系统里每天几万条的新数据,突然意识到金融科技这行就像永动机,算法模型永远在迭代。这次碰到的“反欺诈”需求特别多,虽然没直接参与,但听部门讨论知道现在靠规则不行,得用图计算用户关系了。这种变化让我兴奋,说明自己学的知识还够用,但离“专家”差得远,后续得重点搞懂深度学习和自然语言处理在风控里的应用,不然以后真的会“被淘汰”。
四、致谢
感谢在实习期间给
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学习如何自信演讲议论文13篇范文
- 医疗护理专业服务质量绩效考核表
- 旅游行业市场营销部经理目标绩效考核表
- 业务行为规范及守秘责任承诺书(3篇)
- 动物家园的温馨写人作文8篇
- 环保建筑理念践行承诺函9篇范文
- 供应链管理安全责任承诺书9篇
- 管道消防应急预案(3篇)
- 2026广东江门市建设工程检测中心有限公司招聘2人备考题库含答案详解(b卷)
- 2026吉林省吉高路业发展有限公司劳务派遣项目招聘1人备考题库及参考答案详解一套
- 安徽省阜阳市2026届高三上学期1月期末教学质量监测英语试卷(含答案无听力音频有听力原文)
- 2026年商洛市儿童福利院招聘备考题库(6人)附答案详解
- 脐静脉置管课件
- 左半结肠切除术后护理查房
- 工艺联锁-报警管理制度
- DB37∕T 3467-2018 美丽乡村标准化试点建设与验收指南
- 留置针压力性损伤预防
- 2025新沪教版英语(五四学制)七年级下单词默写表
- 高一英语新教材全四册单词表汉译英默写(2019新人教版)
- 2024年保险代理人分级(中级)考前通关必练题库(含答案)
- 用流程复制培训课件
评论
0/150
提交评论