下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
金融学金融科技公司金融产品实习报告一、摘要
2023年6月5日至8月23日,我在某金融科技公司担任金融产品实习生,负责协助设计并优化一款基于机器学习的信用评估模型。核心工作成果包括:通过数据清洗与特征工程,将模型准确率从72%提升至86%,处理数据量达20万条,日均处理申请量500+。运用Python进行量化分析,使用SQL执行数据查询,通过Tableau可视化用户行为趋势,支撑产品迭代决策。提炼方法论:建立"数据模型反馈"闭环优化流程,可复用于提升金融风控产品效率。
二、实习内容及过程
实习目的主要是想看看金融科技领域实际的产品开发流程,了解机器学习怎么落地到信用评估这种具体业务上。
实习单位是家做智能投顾和信贷风控的创业公司,团队不大但氛围挺活跃,大部分人是搞算法和数据分析的,技术氛围挺浓。
实习内容开始阶段主要是熟悉环境,跟着导师看他们正在用的一个V1.0版本的信用模型,发现数据清洗这块做得比较粗糙,缺失值处理和异常值检测都挺随性的。6月12号开始接手这个项目,第一个挑战是模型特征不够丰富,只用了6个基础变量,导致模型在二八线上卡了很久。导师建议我从用户行为数据里挖掘,我自己琢磨了三天,用Python写了脚本把用户登录频率、交易流水、产品互动情况这些转化成15个新特征,还用了卡方检验和相关性分析筛选掉冗余的,6月20号把新特征集丢进模型,准确率从72%慢慢爬到78%,AUC值也多了0.05,虽然不算特别惊艳,但至少让团队有了继续优化的信心。
7月2号开始参与另一项需求,帮产品部门做用户分层,他们想根据风险偏好推送不同风险等级的理财产品。我负责数据准备,用了SQL从三张表里把用户的交易历史、资产情况和风险测评问卷结果关联起来,发现有个别用户的风险标签和实际行为偏差特别大,比如有位用户连续三个月买高收益产品但从未亏损,反倒是几位低风险标签用户因为家庭原因突然频繁交易,我就跟导师提能不能加个实时交易监控模块,他说下个迭代会考虑。这个过程中我明显感觉自己的SQL查询效率上来了,以前写条JOIN语句都得掐指算半天,现在基本能一行行看懂同事的复杂查询了。
困难主要是数据质量问题,有一次跑特征工程发现某天数据量突然少了一半,一查是上游数据接口出bug了,联系技术那边说他们也在排查,我就自己用Pandas先做了个容错处理,假设缺失部分用户行为没变化,先用均值填充,后来技术那边修好了才把数据补上。这个事让我明白在金融领域数据治理有多重要,不能完全依赖别人,得有自己兜底的预案。
实习成果主要是帮V1.0模型新增了15个特征,让业务线那边觉得数据价值提升了,后来产品迭代时主动要求我设计的几个可视化看板,用Tableau把模型预测结果和用户画像关联展示,他们反馈说对做产品决策帮助挺大的。个人收获是第一次完整经历从数据拿到产品落地的过程,知道怎么平衡模型效果和业务需求,以前觉得AUC越高越好,现在明白在信贷场景下F1分数和KS值也得综合看。
实习单位的问题主要是管理上比较混乱,比如项目需求经常变,有时候技术写完代码产品又临时改需求,导致返工不少,另外培训机制基本没有,很多业务术语都是靠自己瞎猜,比如一开始把"PD"当成了概率密度函数,直到导师纠正才明白是PlodabilityDefault的缩写。改进建议是公司能不能搞个内部知识库,把项目文档和术语表整理一下,再或者至少每周安排个1小时的产品和技术对齐会,减少无效沟通。这段经历让我更清楚自己要不要往风控方向发展了,感觉挺有意思,但压力也不小,以后得继续补机器学习这块短板,特别是深度学习怎么在金融场景落地,得找机会再学学。
三、总结与体会
这8周实习像是在学校理论和现实之间搭了一座桥,感受挺深的。刚去的时候觉得学到的模型算法都挺酷,但真拿到20万条真实交易数据里头,才知道数据清洗和特征工程有多磨人。6月15号那会儿,我负责的特征集优化只把准确率从74%提到78%,看着数字没变化,心里挺打鼓的,但导师说这已经是业务能接受的提升,因为新特征引入了更多行为维度。这让我明白,金融科技不是把模型调到99分就完事,得看实际业务场景的边际效益。这段经历的价值闭环就在于,我从一个只会套公式的学生,变成了能跟业务部门讲清楚模型局限性的初级分析师,责任感确实不一样了。
对我职业规划的影响挺直接的。之前模模糊糊想进银行或者券商,现在更倾向于搞信贷风控或者智能投顾,因为发现用技术解决金融痛点特别有成就感。实习期间看到团队用FICO模型和自研模型对比,发现传统模型在捕捉用户实时行为上不如自己这套,这让我觉得研究生阶段真得把深度学习这块补上,考虑要不要考个CFA或者FRM,特别是对数正态分布和信用违约互换这些工具,得学扎实了。
看着公司7月底上线的新产品,用户分层策略里就用上了我们优化后的模型,看着自己的名字出现在产品文档里,感觉挺奇妙的。这让我对行业趋势有了更直观的认识,现在金融科技公司都在卷模型效果和数据处理能力,像联邦学习、差分隐私这些隐私计算技术应该会越来越火,以后想留在这个领域,除了算法还得懂点数据安全和合规这块。这段经历让我心态转变挺大的,以前写报告都是追求完美,现在明白职场里快速迭代和接受不完美更重要,抗压能力确实比实习前强了不少。
四、致谢
感谢实习单位给我这个机会,让我接触到真实的金融产品开发流程。
特别感谢我的导师,在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 我国跨境电商行业现状与未来展望
- 湖北省2022年普通高中学业水平选择性考试 化学试题
- 2026陕西粮农集团招聘试题及答案
- 2026山东航空校招面试题及答案
- 2026年及未来5年市场数据中国咖啡连锁产业园区行业市场深度研究及投资战略规划报告
- 皮草服装搭配培训
- 皮肤知识培训课件
- 绿色物流文员培训
- 2026四川成都市金牛区中医医院第一批次编外人员招聘17人备考题库及答案详解(各地真题)
- 2026天津津南国有资本投资运营集团有限公司及实控子公司招聘工作人员招聘11人备考题库及答案详解(易错题)
- 白内障疾病教学案例分析
- 英语试卷浙江杭州市学军中学2026年1月首考适应性考试(12.29-12.30)
- 生产车间停线制度
- (一模)2026年沈阳市高三年级教学质量监测(一)生物试卷(含答案)
- 2025年和田地区公务员录用考试《公安专业科目》真题
- 2026年上海市安全员-B证(项目负责人)考试题及答案
- 老年听力障碍患者护理
- 炼焦精煤采购合同范本
- 2025年公务员多省联考《申论》题(黑龙江行政执法卷)及参考答案
- 2026版《金版教程》高考一轮复习地理核心素养提升练(五)
- 假结婚协议书合同样本
评论
0/150
提交评论