下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
金融科技金科公司金融科技工程师实习报告一、摘要
2023年7月1日至2023年8月31日,我在金融科技金科公司担任金融科技工程师实习生,负责协助开发银行级风险控制系统。通过参与数据清洗与模型优化,将系统响应速度从2.5秒提升至1.8秒,处理交易数据量达日均800万笔,准确率达92%。核心工作包括使用Python进行特征工程,应用机器学习算法(如XGBoost)构建反欺诈模型,并编写自动化测试脚本覆盖95%核心功能。期间,我掌握了分布式计算框架的应用方法,形成了“数据预处理模型迭代性能监控”的标准化工作流,验证了算法调优对系统效率的显著影响。
二、实习内容及过程
1.实习目的
我在2023年7月1号开始实习,目标是了解金融风控系统的实际开发流程,把学校学的机器学习和数据处理知识用到真项目上。想看看银行级别的系统到底是怎么应对海量数据的,顺便提升自己的编码和团队协作能力。
2.实习单位简介
我去的这家公司主要做金融机构的科技解决方案,产品线包括反欺诈、信用评估这些。团队氛围挺开放的,技术栈前沿,用Python和Spark比较多,也有不少Flink项目在跑。
3.实习内容与过程
前两周主要是熟悉环境,跟着导师跑通几个旧模块。7月10号开始接手一个实时反欺诈模型的优化任务,目标是降低误报率。客户那边反馈某个渠道的订单检测不准,我花了5天把历史数据导出来,发现特征工程做得太粗糙,很多关键变量没加。当时手头数据量有4亿条,内存直接炸了,导师教我用Spark的DataFrameAPI分块处理,还推荐了Hudi来做增量更新。后来我把用户行为序列做了embedding,加上了设备指纹和地理位置这些上下文信息,调参时试了20多种组合,最终把AUC从0.78提到0.85。
8月5号遇到个坎,有个线上监控的指标突然飙高,我排查发现是某个第三方数据源的延迟太长,拖累了个规则引擎。那段时间压力挺大的,团队连夜改了消息队列的配置,把批量拉取改成流式接入,第二天早上指标就恢复了。
4.实习成果与收获
最后成果是负责的模块成功上线,支撑了日均800万笔交易的检测,系统延迟控制在2秒以内。收获最大的还是解决实际问题的思路,以前做实验数据小,现在要考虑资源成本和稳定性,比如怎么在精度和效率间做取舍。还学会了用GitLabCI做自动化部署,大大减少了bug修复时间。
5.问题与建议
团队管理上有点问题,比如需求变更时没人统一协调,我接到的任务A和任务B逻辑冲突过一次。建议可以建个共享文档同步进度,或者用Jira这类工具跟踪。另外培训机制可以更完善,新来的实习生都靠导师带,要是能有个标准化培训手册就好了。岗位匹配度上,我发现自己对底层系统调优经验不足,要是学校能开几门关于分布式实践的课就完美了。
三、总结与体会
1.实习价值闭环
这8周,从7月1号懵懵懂懂开始到现在8月31号结束,感觉收获特别扎实。刚开始接手实时反欺诈项目时,对着4亿条数据和导师给的模糊需求,压力挺大的,好几次凌晨3点还在调试特征组合。但当我用Spark把处理链优化了,看着AUC从0.78跑到0.85,那种成就感是真的。这段经历让我把学校学的皮层知识,比如梯度下降、决策树,跟线上系统运维、业务指标挂钩了。比如学到的“冷启动问题”,以前觉得是理论概念,现在明白为什么用户行为序列的embedding要带时间衰减因子,这样才能平滑新用户的预测。这种把理论落地到产出的闭环,是学校项目给不了的。
2.职业规划联结
这段经历彻底改变了我对职业的想象。以前觉得做技术就是敲代码,现在理解了技术要为业务服务,比如那个反欺诈模型,最终目的是平衡风险和用户体验,所以模型迭代不能只看精度,要看误报对客户体验的损耗。这让我意识到,未来想做算法工程师,光会调参不行,还得懂业务,会跟产品经理、风险经理聊需求。8月15号跟业务方开会时,我试着用F1score解释模型取舍,对方居然听得进去,回来后导师夸我懂行多了。所以接下来打算补补金融知识,看看能不能考个CFA一级,至少能跟业务聊得来。
3.行业趋势展望
在公司接触了挺多前沿东西,比如8月20号我参与的Hudi增量更新实验,当时系统吞吐量直接翻倍,导师说这是大数据未来的大势所趋,现在很多银行都在搞实时风控,数据湖+流处理是标配。有个细节特别有意思,我们用的特征平台是自研的,但底层依赖的Faiss向量检索库,现在看到大厂都在用。这让我意识到,技术迭代太快了,学校课程更新总是慢半拍。比如最近在看《机器学习实战》,里面很多案例还是基于两年前的数据平台,像Kafka处理、分布式调度这些都没怎么讲。所以下学期打算自学FlinkCDC,再搞个基于Pulsar的消息系统练练手,至少简历上能多几个热门技术点。
4.心态转变
最深刻的还是心态变化。以前做实验,跑不通模型就重启代码,现在明白线上系统不能这么搞。8月10号系统出bug时,我差点想直接删表重置,被导师拦住了,教我先用日志定位,最后发现是第三方数据源格式变了。现在每天看监控报表都像看自己的心电图,一点点波动都让人紧张。这种责任感是以前做课程设计时体会不到的。虽然有时候确实卷,比如7月25号为了赶一个数据治理需求,连续加班到12点,但能感觉到自己的抗压能力肉眼可见地变强了。这种成长比单纯学会几个算法更有价值。
四、致谢
1.
感谢金融科技金科公司给我这次实习机会,让我接触到了真实的金融科技项目。这段经历让我明白,技术要落地才能真正有价值。
2.
特别感谢我的导师,8月15号那个晚上,他帮我理清了实时计算链路的问题,还把内部用的调参技巧分享给我。这种传帮带让我特别感动。
3.
和团队一起干活的日子很开心,比如7月30号我们为了一个数据口径问题争论到中午,最后
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 软件开发测试规范与标准(标准版)
- 2026四川蜀道智联科技产业发展股份有限公司蜀道投资集团有限责任公司材料集采分公司春季招聘1人考试备考试题及答案解析
- 2026中国国检测试控股集团西北运营中心特种设备招聘15人考试参考题库及答案解析
- 2025山东聊城市妇幼保健院公开招聘备案制工作人员14人笔试历年典型考题及考点剖析附带答案详解试卷2套
- 2025安徽合肥市口腔医院公开招聘工作人员81人笔试历年典型考题及考点剖析附带答案详解试卷2套
- 2025国投运营中心有限公司选聘6人笔试参考题库附带答案详解
- 2025四川绵阳江油市人民医院人员招聘(三)笔试历年典型考题及考点剖析附带答案详解试卷2套
- 2025四川成都市第三人民医院招聘工作人员14人笔试历年典型考题及考点剖析附带答案详解试卷2套
- 2025云南玉溪红塔实业有限责任公司员工招聘29人(第二批)笔试参考题库附带答案详解
- 中毒或窒息事故现场处置方案
- 2025年山东经贸职业学院单招综合素质考试题库附答案解析
- 2026内蒙古兴发集团白沙河化工园区招聘100人笔试模拟试题及答案解析
- 高速公路安全培训课件
- (2026年春季新版本)人教版二年级数学下册全册教案
- 步行交通安全课件
- 2026年及未来5年中国蘑菇行业发展前景预测及投资方向研究报告
- 食品感官评价师岗位招聘考试试卷及答案
- 项目管理教学课件
- 2026年山东城市服务职业学院单招综合素质考试题库参考答案详解
- 2024年江苏公务员考试申论试题(A卷)
- 2019北京西城四年级(下)期末数学(教师版)
评论
0/150
提交评论