金融科技公司研发实习报告_第1页
金融科技公司研发实习报告_第2页
金融科技公司研发实习报告_第3页
金融科技公司研发实习报告_第4页
金融科技公司研发实习报告_第5页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

金融科技公司研发实习报告一、摘要2023年7月1日至2023年8月31日,我在一家金融科技公司担任研发实习生,负责智能风控模型的算法优化与数据清洗工作。核心工作成果包括:通过改进逻辑回归算法,将信用评分模型的AUC值从0.75提升至0.82,覆盖约12万条交易数据;运用Python对历史用户行为数据清洗,去除约30%的异常值,使模型训练效率提升20%。专业技能应用涵盖机器学习框架TensorFlow、SQL数据库操作及Git版本控制。提炼出的可复用方法论包括:数据预处理分箱标准化流程、模型超参数网格搜索优化策略,这些方法可直接应用于同类金融风控场景。二、实习内容及过程1.实习目的希望通过实践了解金融科技领域实际工作场景,掌握机器学习模型在风控系统的应用流程,提升解决实际问题的能力。2.实习单位简介我所在的部门主要开发智能信贷审批系统,核心是构建实时反欺诈模型,使用的工具链包括Python、Spark、TensorFlow和Flink。团队每周三有技术分享会,会讨论业界最新的异常检测算法。3.实习内容与过程第13周主要参与数据预处理,负责用户行为日志清洗。原始数据有12TB,每天新增1.5GB,字段缺失率高达35%。我写了SQL脚本先对数据做抽样,然后用Pandas处理缺失值,把随机填补改成基于KNN的均值填充,清洗后的数据准确率从68%提升到72%。第46周跟着导师做模型迭代,原版XGBoost在验证集的KS值只有0.45,我尝试调整参数,把叶子节点最大数从10降到7,同时增加L1正则权重,最终KS值到0.52。第78周独立完成反洗钱场景的规则引擎搭建,用Python的Dask分布式计算框架处理高频交易数据,对可疑交易标记的召回率从58%提到63%。4.实习成果与收获最大的成果是信用评分模型AUC从0.75优化到0.82,覆盖了12万笔用户数据。学到的核心是特征工程不能只堆砌维度,要结合业务理解做降维,比如把年龄和交易频次合并成用户活跃度指数,这个特征直接拉高了模型分。还发现金融行业对模型漂移特别敏感,每周都要用在线学习更新参数。5.问题与建议遇到过两个难题。一是数据标注质量差,有次模型把低风险用户误判成高风险,查原因发现标注员把"频繁转账"和"异常登录"搞混了。我建议可以引入众包质检机制,让3个不同的人独立判断再打分。二是团队培训偏重技术细节,但业务流程讲得少,有次差点把反欺诈规则用错场景。最好能增加每周1小时的业务部门交流时间,比如让风控同事分享案例。现在想想,岗位匹配度上我可能对实时计算这块了解不够,后续要补Docker和Kubernetes的课。这段经历让我明白,算法效果好坏不光靠参数调优,数据治理和业务对齐更重要。三、总结与体会1.实习价值闭环这8周像把书里的理论装进了实践模具。7月10号第一次调试模型失败时,AUC只有0.68,比导师给的目标低0.05,数据排查花了整整两天。后来发现是历史数据里对"夜间交易"特征编码太粗糙,改用onehot交叉后,验证集KS值从0.38直接跳到0.45,那一刻才真觉得机器学习不是画曲线游戏。整个迭代过程,从特征洗牌到模型上线的完整链路,让我把课堂上学到的梯度下降、正则化这些概念,都跟业务里的欺诈率、召回率硬碰硬绑在了一起。2.职业规划联结之前想当算法工程师,但实习暴露了我的短板对金融场景理解太浅。8月25号做反洗钱项目时,发现纯技术方案会忽略监管要求,比如反洗钱需要保留5年交易轨迹,而我想直接用窗口模型做时序预测,最后不得不重新设计系统架构。这让我意识到,技术必须踩在业务正道上。现在明确要补齐两块:一是考取FRM二级证书,二是自学区块链基础,公司用的联盟链技术我完全空白。实习记录里记得最清楚导师说的那句话:"模型不是越复杂越好,能解决业务问题的最贵。"3.行业趋势展望9月初公司内部技术分享会上,同事展示的联邦学习应用让我眼睛一亮。他们用多方数据联合建模,在保护隐私前提下把反欺诈准确率多提升了8个百分点。这比单纯堆算力有前景。回想自己做的规则引擎项目,如果早用分布式决策树框架,处理1TB数据可能只需6小时而非24小时。金融行业数字化转型不会停,但未来比拼的不是谁有更大GPU,而是谁能把"隐私计算"和"实时风控"这两门课学得更精。这段经历让我开始关注Gartner的金融科技预测报告,像"AI驱动的决策自动化"这种趋势,现在看懂了就会发现无数机会点。4.心态转变记录最深的感受是学会"带着脏污工作"。8月15号凌晨3点,为赶上周五的模型上线,我盯着屏幕调参数调到眼皮打架,最后发现是内存泄漏问题。以前做课程作业时,跑不通就重启虚拟机,现在明白生产环境必须考虑资源利用率。导师教我的"日志分段排查法"至今在用:比如某次系统告警时,我按时间戳把日志切分成5分钟块逐块分析,终于定位到某银行接口超时的bug。这种责任感和抗压能力,可能比会写多少种算法更有价值。下学期打算参加ACMICPC集训队,虽然跟金融风控没直接关系,但想练练高压下的代码能力。四、致谢1.感谢实习期间给予指导的部门领导,8月31号离职交接时还特意叮嘱我"模型要经得起业务检验"。2.特别感谢导师在7月8号指导我处理数据倾斜问题时,手把手教我用SMOTE过采样,那个下午的讲解帮我节省了至少3天的摸索时间。3.同事小王

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论