数学与应用数学金融科技公司数据分析工程师实习报告_第1页
数学与应用数学金融科技公司数据分析工程师实习报告_第2页
数学与应用数学金融科技公司数据分析工程师实习报告_第3页
数学与应用数学金融科技公司数据分析工程师实习报告_第4页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数学与应用数学金融科技公司数据分析工程师实习报告一、摘要

2023年7月1日至2023年8月31日,我在一家金融科技公司担任数据分析工程师实习生。期间,我负责搭建并优化交易行为分析模型,通过处理30万条用户交易数据,识别出8个关键影响因素,模型预测准确率提升至92%,日均处理效率提高40%。核心工作包括使用Python清洗数据、构建梯度提升树模型,并运用SQL进行实时数据查询。专业技能涵盖Pandas、Scikit-learn和SQL,方法论可复用于高频交易风险评估场景。通过实践,验证了统计显著性检验(p<0.05)在异常检测中的有效性。

二、实习内容及过程

2023年7月1日至8月31日,我在一家做量化交易的金融科技公司实习。主要目标是学习金融数据分析全流程,从数据采集到模型部署。公司不大,但交易系统挺先进,大部分同事都是数学或统计背景,平时聊得最多的是Alpha策略和风险对冲。我跟着团队做实时交易行为监控项目,负责用户行为特征提取和异常检测。初期接手的是历史数据整理,用Python加载数据量差不多有30万条,时间戳精确到毫秒,发现不少记录有缺失值,处理起来真够折腾的。

我用了Pandas的fillna和interpolate函数,根据业务逻辑填充缺失的订单类型和交易方向,填充后完整率提升到98%。后来开始搭模型,尝试过逻辑回归、决策树,效果都不理想。团队建议试试梯度提升树,我自学了LightGBM,调了半天参数,把AUC从0.75拉到0.82,虽然不算惊艳,但确实帮业务方揪出几个高风险用户群。记得有一次数据源突然延迟,模型预测延迟率飙到15%,吓我一跳,赶紧用SQL优化了数据缓存逻辑,加了个Redis中间层,第二天延迟降回3%以下。

遇到的最大挑战是业务需求太急,要两周内上线模型,但数据清洗就花了两三天。那段时间真的有点熬,白天开会做需求,晚上回宿舍写代码,好在最后赶出来了。虽然过程狼狈,但让我明白时间序列数据怎么预处理效率最高。团队老员工教我不少实战技巧,比如怎么用滚动窗口计算波动率,怎么把GARCH模型嵌套进特征工程。他们说我以前太沉迷理论,现在终于知道怎么把t检验和卡方检验用在实际场景里了。

公司的培训机制其实挺粗糙的,新人手册就是一份代码库链接,很多技术细节靠摸石头过河。岗位匹配度也一般,我学的统计知识用得不多,大部分时间在写SQL和调Python脚本。如果改进,建议搞个新人导师制度,每周固定时间答疑,另外把内部案例拆解成教程,比如交易风控怎么用ROC曲线选模型。这段经历让我看清自己短板,以后得补补机器学习工程这块。最大的收获是发现,做数据不能光会算法,得懂业务,知道哪些指标对冲基金老板最关心。

三、总结与体会

这8周,从2023年7月到8月,像坐了一趟加速列车,以前在书本里看的统计模型、机器学习算法,真真切切用在了每天处理的上千万条交易记录上,感觉离行业挺近了。实习最大的价值在于把学到的知识形成了完整闭环——从用SQL拉取用户画像数据开始,到用Python清洗和特征工程,再到调参LightGBM模型预测用户活跃度,最后用Tableau可视化结果给业务方看,整个过程虽然磕磕绊绊,但每一步都踩在实地上。比如模型上线后,AUC从0.82稳住了,业务说能帮他们精准推送营销信息,那一刻觉得挺有成就感的。

这段经历让我明白,搞数据分析不能光会调包,还得懂业务逻辑。公司做的是量化交易,我接触到的很多同事会自己写策略,用Python的TA-Lib库处理K线数据,这让我意识到自己得补补金融工程这块。未来打算系统学学CFA的知识,尤其是衍生品那部分,顺便把Python的量化库像Zipline、Backtrader啃下来。实习也让我心态变了,以前写报告怕出错,现在明白在快节奏的金融圈,能快速迭代比完美主义更重要。比如有一次凌晨3点数据源异常,我直接爬起来改代码,虽然第二天累得够呛,但团队觉得挺靠谱。这种抗压能力,以前只在考研复习时体验过,现在看来是职场必备。

看着公司墙上贴的各交易所实时行情,突然觉得数据挖掘真是个好东西,能把杂乱无章的交易数据变成实实在在的利润。行业现在挺卷的,AI+金融的趋势明显,但像我们这种做基础数据分析和模型搭建的岗位,需求还挺稳的。关键是要懂业务,知道怎么把统计方法用对地方。比如我后来琢磨,用户行为分析可以用图数据库,把用户、交易、商品连起来,这样可能比单纯用树模型效果更好。这趟实习让我看清了方向,接下来要找机会把GNN(图神经网络)学进去,虽然现在还不太懂,但感觉会是未来几年金融数据分析的重要方向。从学生到职场人的转变,大概就是从怕犯错变成不怕犯错,从只关注理论变成既懂理论也懂怎么落地吧。

四、致谢

在公司实习的8周里,谢谢团队给我机会参与项目。导师耐心带我熟悉业务和代码规范,让我明白怎么

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论