数学与应用数学金融科技公司数据分析实习实习报告_第1页
数学与应用数学金融科技公司数据分析实习实习报告_第2页
数学与应用数学金融科技公司数据分析实习实习报告_第3页
数学与应用数学金融科技公司数据分析实习实习报告_第4页
数学与应用数学金融科技公司数据分析实习实习报告_第5页
已阅读5页,还剩1页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数学与应用数学金融科技公司数据分析实习实习报告一、摘要2023年7月1日至2023年8月31日,我在一家金融科技公司担任数据分析实习生。核心工作成果包括清洗并分析5000条交易数据,构建了3个预测模型,准确率分别达到87%、89%和92%,为风控策略提供了数据支持。应用Python(Pandas、NumPy)、SQL和Tableau进行数据处理与可视化,其中Pandas处理效率提升40%,SQL查询优化减少30%响应时间。提炼出可复用的异常检测算法流程:数据标准化→分箱处理→统计特征提取→孤立森林模型应用,并验证了高维数据降维对模型精度的正向影响。通过实习掌握了金融场景下数据驱动决策的方法论,提升了从原始数据到业务洞察的转化能力。二、实习内容及过程1实习目的去2023年7月,我加入一家做量化交易的金融科技公司实习,目的就是想把四年学的数学建模、统计学知识用到真金白银的业务里,看看数据怎么驱动投资决策,怎么帮公司解决实际问题。2实习单位简介公司不大,大概一百来号人,核心业务是做二级市场的量化策略,主要是高频交易和事件驱动策略,数据量挺大,日处理量上亿条,用的是Hadoop和Spark框架,技术氛围挺浓。3实习内容与过程我跟着数据组,第一个月主要是熟悉业务和数据处理流程。公司交易数据分三块,行情数据、交易流水、用户行为,我得先把它们搭起来,每天跑凌晨的ETL脚本,用Python加载数据后用SQL过滤掉异常值,最后存到Hive里。遇到一个麻烦事是交易流水表有20%的数据时间戳不对,导致join时对不上,最后发现是上游供应商的API调用有延迟,他们用PostgreSQL存数据,我改用时间窗口分组统计后把错的时间戳筛掉,效率高不少。第二个月开始做项目,跟着师傅做因子挖掘,目标是找出能预测短期走势的指标。我们用了过去两年的沪深300成分股日度数据,提取了300个技术指标,然后用PCA降维到100维,最后用随机森林跑特征重要性,选出了10个最强因子,其中动量因子和波动率因子最准。4实习成果与收获完成了三个项目,第一个是构建实时风控指标体系,把单日异常交易率从0.8%降到0.3%,主要是用逻辑回归模型,根据订单频率、金额分布、IP地理位置这些维度判定是否为机器刷单,第二个是帮交易策略组做数据看板,用Tableau画了20张监控图,让策略师不用再手动导数据了,第三个是优化了因子回测框架,之前跑一次需要8小时,我加了缓存机制后缩到2小时,师傅说这能让他们更快迭代策略。最大的收获是学到了怎么把业务问题转化为数据问题,比如怎么用时间序列分解去除市场情绪干扰,怎么用交叉验证避免过拟合,还有怎么跟业务部门沟通需求,他们不懂模型细节但懂市场,我得把专业术语翻译成他们能听懂的逻辑。5遇到的问题有个坎是第一次接触高频数据,几百MB的文件秒开,但用pandas直接读会卡死,后来才知道要用dask分块处理,还有一次做可视化时策略师说我的图太学术了,没人看,最后改成用红绿K线图和热力图,他们反而觉得直观。6如何克服卡死那回我查了知乎,发现dask是基于numpy的并行计算库,分块读能省内存,可视化那回我跟着师傅跑了好几版,他教我观察用户视线流动路径,把最关键的回报率曲线放在最显眼位置,把次要的统计量放在角落。7最终成果最后的项目是做市场情绪指数,用自然语言处理分析财经新闻,结合百度指数和成交额,三个月后策略组用这个指数辅助做决策时,胜率从52%提高到58%,虽然不算惊天动地,但师傅说在量化圈0.5%的提升已经值得写进报告了。8职业规划启发这段经历让我想更深入地做量化研究,但我也发现公司流程有点乱,比如需求文档没人看,数据质量靠运气,建议他们搞个数据治理委员会,定期复盘ETL问题,另外岗位匹配度上,我可能更适合偏研究的,写代码其实我不讨厌但不是我最想干的,希望以后能找到更匹配的岗位。三、总结与体会1实习价值闭环这8周,从2023年7月1日到8月31日,我走完了理论到实践的完整闭环。刚来时只会用统计软件跑回归分析,离开时已经能独立完成从数据采集到模型部署的全流程。比如做因子挖掘时,我先用SQL把10TB的行情数据按分钟对齐,再用Python的scikitlearn实现随机森林,最后用Tableau可视化呈现,导师说这个过程暴露的问题比我学到的知识还多。这段经历让我真正理解了数据不是冰冷的数字,而是驱动业务增长的燃料。2职业规划联结我原本想走纯学术路线,但这次实习彻底改变了想法。当看到自己做的风控模型真被投研部门采用时,那种成就感完全不同。现在我的求职目标很明确想做量化策略的初级研究员,短期内会补CFA一级的知识点,长期想考取SAS证书,因为公司内部用得挺多。导师说我的数学背景是优势,但量化行业最缺的不是会做模型的人,而是能快速理解策略逻辑的数据科学家。3行业趋势展望这家公司让我最震惊的是高频交易的数据处理方式。他们用Flink实时计算延迟在100毫秒内,这让我意识到未来数据链路必须像水电煤一样稳定。现在学术界还在研究小样本学习,但企业已经要应对TB级别的实时数据了。这提醒我,虽然我的毕业论文还在做传统时序分析,但必须跟上流处理、图计算的浪潮,否则毕业时可能已经落后行业两年。4心态转变最初我总想用最复杂的模型证明自己,但实习后明白商业决策要靠边际效益。有个策略师告诉我:“你的模型再好,如果回测胜率只有55%但交易成本占3%,根本不能用。”现在我能忍心把LSTM砍成逻辑回归,只要业务价值够大。这种取舍能力是学校教不了的,但我觉得比学会任何新算法更重要。5未来行动我把实习中用到的50个SQL脚本和Python函数都整理成工具库,最近在GitHub上开源了,希望能帮学弟学妹。下学期我会报一个Spark的实战班,因为现在面试时大厂问Kubernetes比问Hadoop多。导师说我的成长速度超出了预期,但他说得对,学校教的是“为什么”,企业要的是“怎么解决”,这

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论