版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
金融科技金融科技公司金融科技实习生实习报告一、摘要
2023年7月1日至2023年8月31日,我在一家金融科技公司担任金融科技实习生。在为期8周的实习中,我主要负责协助开发智能风控模型,参与数据处理与算法优化。通过应用Python和SQL进行数据清洗,我处理了约5TB的交易数据,并利用机器学习算法将模型准确率提升了12%。核心工作成果包括完成10个关键模块的代码编写,支持团队将模型部署效率提高了30%。专业技能方面,我熟练运用了Pandas、Scikitlearn和TensorFlow,并掌握了敏捷开发流程中的持续集成方法。这些经验使我能够快速适应金融科技项目的高强度开发环境,并形成了一套可复用的数据处理与模型迭代方法论。
二、实习内容及过程
1实习目的
去2023年7月1日入职那会儿,我就是想看看金融科技这行到底是怎么回事,具体点说,就是想学学怎么把大数据和机器学习用到风控里头。我不是光想,我也想看看自己学的那些理论,比如Python编程、数据挖掘,能不能在实际工作中派上用场。
2实习单位简介
我去的这家公司,主要是做智能投顾和风控系统的。他们技术部门挺重视数据驱动,团队里好多人搞算法,用的技术栈我也比较熟,像是TensorFlow、Spark这些。整体氛围还行,年轻人多,搞技术的氛围挺浓。
3实习内容与过程
我跟着一个做反欺诈模型的团队,具体任务就是帮他们处理数据和优化算法。刚开始那几天,主要是熟悉环境,看他们之前的代码,学他们的数据处理流程。7月5号左右,我开始接手一个具体项目,是优化一个基于逻辑回归的信用评分模型。这个模型原本的AUC(AreaUndertheCurve)是0.75,数据量大概有200万条交易记录,时间跨度从2022年10月到2023年6月。
我先是用Pandas清洗数据,删了好多重复值和异常点,比如那些直接标记为“疑似欺诈”的记录。这一步花了不少时间,因为数据质量其实挺参差不齐的。接着,我尝试调整模型参数,还加了一些特征工程,比如用LSTM处理时间序列数据。团队里一个老哥建议我试试特征选择,他给我演示了基于L1正则化的方法,我照着做了,效果还真不错,模型AUC提升到了0.78。不过调来调去,发现模型在长尾事件上的表现还是不行,比如那些零星的小额异常交易,模型根本不敏感。
7月20号左右,我遇到了个坎,就是怎么平衡模型的精确率和召回率。那时候离一个季度报告节点快到了,团队压力挺大。我花了两周时间,试了好多组合,最后把阈值调到一个折中的点,还建议他们加一个规则引擎做二次验证。结果模型上线后,整体误报率降了15%,客户投诉也少了。整个过程中,我用了Git管理代码,还跟着团队用了Jenkins做CI/CD,感觉挺高效的。
4实习成果与收获
8周里,我独立完成了10个模块的代码开发,提交的PR(PullRequest)有8个被合并了。最让我有成就感的是那个信用评分模型,最终AUC从0.75跑到0.78,虽然不算翻天覆地,但在那种数据量下已经算进步了。我还整理了一份反欺诈特征工程文档,后来团队其他人也用了。收获biggest的是,我明白了怎么把学术上的模型落地,比如超参数调优、特征交叉这些,光看书根本学不透。还有就是,搞金融科技真得懂业务,光会技术不行。
5问题与建议
实习期间也发现点问题。比如公司管理上,项目进度有时候不太明确,我这新人得自己摸着走。培训机制也一般,就给我放了几本内部文档,没人带。岗位匹配度上,我学的更多是算法开发,但有时候会被拉去做一些纯数据标注的杂活,感觉有点浪费时间。
我建议公司可以搞个新人导师制,至少给我指个方向。文档方面,能不能多搞点视频教程?还有,能不能按技能分个岗,别让我这种想做算法的跑去干数据清洗。
三、总结与体会
1实习价值闭环
这8周,我从一个连代码怎么规范写都发愁的学生,变成能独立负责模型优化模块的人。7月1日刚来时,我连Hadoop集群怎么用都搞不懂,只能看文档。到8月31日走的时候,我主导的那个反欺诈模型迭代,把AUC从0.75提到0.78,虽然数字不大,但那是我啃完10个技术难题、处理完5TB数据的直接成果。我算真正把学校学的机器学习算法、Python库,跟金融场景里的风险控制、实时计算搭上钩了。这感觉,就是实践把理论填满了。
2职业规划联结
这次经历让我更清楚自己想干嘛了。以前觉得金融科技就是个筐,啥都装得下。现在我知道,我特想钻进风控那块,尤其是信用评估和反欺诈。实习里用到的LSTM、特征选择,还有他们那套敏捷开发流程,我现在还在琢磨。下学期,我打算系统学学知识图谱在风控的应用,顺便把CPG(CertifiedProfessionalinGaming,假设的证书名)考了,感觉这行里,懂业务又懂技术的复合型选手未来肯定抢手。
3行业趋势展望
我觉得金融科技这行,现在最火的还是AI驱动的风控和智能投顾,但光会算法不够,还得懂监管。比如7月15号团队讨论的那个合规性会议,就让我意识到,模型不能光看效果,还得符合那种“反洗钱法”里的要求,不然再牛逼也白搭。另外,看到他们用Flink做实时计算,我感觉未来数据实时处理这块会越来越重要。这让我觉得,学校里学的分布式系统那部分,得赶紧补上。
4心态转变
最大的变化是抗压能力。实习刚开始那会儿,7月8号有个需求没按时完成,我直接熬了通宵,第二天头都大了。但后来慢慢习惯,比如7月25号那个模型bug,我折腾了两天才解决,中间差点想放弃,最后硬是啃下来了。现在想想,那才是真本事。还有责任感,以前做作业都是对老师负责,现在写一行代码都觉得得对用户、对公司负责,这种感觉挺奇妙的。从学生到职场人的感觉,就是24小时都有deadline,但只要把活儿干成了,那种成就感是做项目拿奖学金比不了的。
5未来行动
我打算把实习期间写的那个特征工程文档再完善下,投到技术社区去,也算给这段经历留点痕迹。另外,公司用的那个Jenkins配置,我回家把环境搭了一遍,现在还能自己搞CI/CD。下一步打算找机会把那个LSTM模型用Spark跑跑,再深挖下联邦学习在隐私保护风控里的应用,感觉这东西很有前景。毕竟,实习教会我的不是具体技术,而是怎么持续学习、怎么把技术用在实际场景里去解决问题。
四、致谢
1
感谢实习期间带我的导师,他给我机会接触了真实的金融风控项目,还耐心指点我技术上的问题。7月5号到8月31号这段时间,他教我的比学校一整个学期都实用。
2
谢谢团队里那些帮过我的同事,特别是那个总给我讲业务逻辑的哥们,每次讨论怎么定义“异常交易”都让我受益匪浅。还有那个负责部署的,教我Jenkins
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 数字化赋能:房山区中小学生健康管理系统的设计与实践
- 数字化浪潮下河北中小学教师角色转变困境与突破路径探析
- 数字化浪潮下LN信息产业发展公司营销策略创新与突破
- 2025 公园游玩作文课件
- 中医院智能化后勤管理方案
- 预应力管桩方案
- 岩石爆破开挖施工方案
- 施工人员培训与考核方案
- 脚手架防坠落措施实施方案
- 建筑设备现场布置优化方案
- 2024年人力资源三级理论真题与答案
- 海伦公式与三角形面积的综合题
- 资产评估学教程(第八版)习题及答案 乔志敏
- 三效蒸发器操作规程
- 14 圆圈QCC成果发布
- 林城镇卫生院安全生产制度
- 设计构成PPT完整全套教学课件
- EIM Starter Unit 6 This is delicious单元知识听写单
- GB/T 42125.14-2023测量、控制和实验室用电气设备的安全要求第14部分:实验室用分析和其他目的自动和半自动设备的特殊要求
- 陕西铜川声威特种水泥有限公司2500t-d新型干法特种水泥熟料技改生产线项目环评报告
- 新教材选择性必修三有机化学基础全册课件
评论
0/150
提交评论