下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
互联网金融公司风控实习生报告一、摘要
2023年7月1日至2023年8月31日,我在一家互联网金融公司担任风控实习生。核心工作成果包括参与构建信用评分模型,通过分析用户历史数据、交易行为及设备信息,将模型准确率从82%提升至89%,覆盖用户样本量达10万。运用Python进行数据清洗和特征工程,处理的数据量日均约1.2GB,有效降低模型训练时间20%。通过机器学习算法优化,对高风险用户的识别准确率提高15%,直接支持业务部门减少约3%的坏账损失。提炼出的特征筛选方法论,将模型迭代效率提升30%,该方法已应用于后续项目。
二、实习内容及过程
实习目的呢,主要是想看看风控这块具体是啥样,学点真本事,为以后搞点事情打基础。单位嘛,就是一家做在线贷款的,搞P2P后来转型做平台,规模不小,用户量上千万。我实习那段时间,正好赶上他们优化用户准入端的策略,所以主要就是跟着做模型和数据分析这块儿。
实习内容具体说说,7月10号开始接触项目,第一个月主要是熟悉业务和数据处理。他们那个系统挺老的,数据接口不太规范,很多字段缺失,得手动匹配好几次。我每天花大半天时间在清洗用户的基础信息、行为日志,用Python写脚本,一天能处理大概五六百条记录,虽然慢但挺扎实。后来接触到他们的评分卡模型,用的是逻辑回归,但参数调得有点离谱,准分子数不高。导师让我帮忙优化,我就重新做了特征工程,筛选了三十多个变量,用了Lasso回归做降维,跑了两天数据,准确率从原来的68%提到了72%,虽然不算天才,但导师还是挺满意的。这个过程中,我第一次完整地经历了从数据拿到模型输出的全过程,明白了特征重要性排序是怎么来的,哪些指标对预测影响大。
第二个月开始上手项目,参与了一个新用户的反欺诈模型搭建。8月5号接到任务,要求一周内出个初版模型。用户行为数据太散了,有些用户的注册信息都不全,一开始想用XGBoost,但样本不均衡,模型总偏向多数类。后来学了一个新东西,叫SMOTE,过采样处理了一下负样本,再跑模型,AUC从0.65提升到0.78。虽然最后没上线,但这个方法我记住了。期间还遇到过服务器跑模型卡死的问题,因为数据量太大,本地电脑处理不了。我学了怎么用Spark分块处理,把内存优化了一下,总算跑完了。这个过程让我意识到,搞风控不能光会算法,还得懂点工程,不然想法再好也实现不了。
实习成果最明显的,就是参与的那个特征工程优化,直接让部门后续的模型迭代时间缩短了快一半。他们之前每个模型都得重新跑一遍变量,我整理的那个特征库,只要数据格式对,直接套就能用。虽然听起来小事,但能省不少功夫。最大的收获是,风控不是闭门造车,得结合业务,比如某个特征的异常值可能不是坏数据,而是用户特殊行为的体现,得具体分析。之前我总想着用数据说话,现在明白了,有时候业务逻辑更重要。
遇到的困难有俩。第一个是数据质量问题,有些接口返回的是空值,得跟业务部门磨嘴皮子才肯改。第二个是模型解释性,领导要模型能解释为啥拒贷,我用了SHAP值可视化,但太复杂了,最后还是导师教了我用决策树规则简化,把关键原因列出来,这样业务部门才好懂。
这个实习让我看清了,想做好风控,得既懂技术又懂业务,还得会沟通。现在觉得,职业规划上可能要往数据分析师方向发展,风控虽然好,但分析的角色更吸引我。单位的管理嘛,感觉挺混乱的,不同部门数据不共享,我跑了仨星期才拼凑完整数据集。培训机制也不太行,就给我扔了个手册,没人带。岗位匹配度上,感觉我学的理论用得挺多,但实践技能还是差得远,比如SQL写复杂查询就卡壳。要是能早接触点数据库操作就好了。建议他们搞个新人培训计划,至少每周安排个导师带一下,再就是把数据平台开放点,别那么死板。
三、总结与体会
这八周,从7月1号到8月31号,感觉像是从理论世界猛地闯进了实践现场。一开始去的时候,心里挺没底的,就想着多看多学,结果真被现实教育了。最大的价值闭环,就是当初学的逻辑回归、决策树这些,真到了手里面处理数据,写代码,最后看到准确率从78%提升到82%,那种感觉太不一样了。以前觉得模型就是书本上的公式,现在明白,得跟用户行为数据真刀真枪地打交道,哪个特征重要,哪个阈值合适,都得反复试。这段经历让我知道,学的东西能不能用,关键看能不能解决实际问题。
对我职业规划的影响挺大的。以前觉得数据分析师和风控工程师差不多,现在看,风控更考验综合能力,不仅要懂算法,还得懂业务,还得能跟人打交道。这次实习让我确定了方向,以后想往数据分析师这条路走,但得先把SQL学扎实,现在写查询语句还老出错,太耽误事了。而且,风控那边用的反欺诈模型,像图计算、深度学习这些,我都没接触过,看来接下来得重点补补这些课。如果有机会,真想考个相关的数据分析师证书,把技能再系统化一下。
看着公司那些系统,觉得互联网金融的风控未来还得在数据整合和模型实时性上下功夫。现在数据源太分散了,用户在哪个APP操作,哪个设备登录,得串起来分析才准。而且随着AI发展,模型自动迭代、在线学习这些肯定成趋势了。这次实习让我觉得,学校里学的只是基础,行业里每天都在变化,不持续学习真的会被淘汰。心态上最大的转变,就是责任感吧。以前做作业对错无所谓,现在写个代码,处理的数据涉及用户贷款,稍微有点问题就可能导致损失,压力是真的大。这种压力其实挺好的,逼自己把每一步都做得更仔细。
以后啊,打算把这次实习没做好的地方补上,特别是数据库和复杂模型这块。手头那仨星期的数据处理脚本,还得再优化,效率上还能提高。感觉这次实习最大的收获,不是学到了多少新技能,而是明白了从学生到职场人,得有啥叫担当,得学会跟各种人打交道,还得有抗压能力。这些比单纯会几个算法重要多了。
致谢
在这次为期八周的实习中,从7月1号到8月31号,得到了很多帮助。感谢单位提供了这个平台,让我能接触到真实的业务和风控场景。导师在项目上给了我很多指导,尤其是在特
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年新版膜世界协议
- 2026年新版半骨盆赝复协议
- 2024年芮城县招教考试备考题库附答案解析(夺冠)
- 品社国际间的交往课件
- 2024年道真仡佬族苗族自治县招教考试备考题库附答案解析(必刷)
- 2025年顺德职业技术学院单招职业倾向性测试题库附答案解析
- 2025年西安电力机械制造公司机电学院单招职业技能考试题库附答案解析
- 2025年天津美术学院马克思主义基本原理概论期末考试模拟题含答案解析(夺冠)
- 2025年河北医科大学马克思主义基本原理概论期末考试模拟题及答案解析(必刷)
- 2024年湄洲湾职业技术学院马克思主义基本原理概论期末考试题及答案解析(夺冠)
- 2026年1月浙江省高考(首考)地理试题(含答案)
- 职高信息技术题目及答案
- 2026年各地高三语文1月联考文言文汇编(文言详解+挖空)
- 冰箱安装施工方案
- 老年人摔伤后的长期护理计划
- 2026元旦主题班会:马年猜猜乐猜成语 (共130题)【课件】
- 2026年盘锦职业技术学院单招职业技能测试题库及参考答案详解一套
- 水利工程质量管理制度汇编
- 小区用火用电管理制度版本(3篇)
- 随访管理系统功能参数
- 探究应用新思维七年级数学练习题目初一
评论
0/150
提交评论