计算机科学金融科技数据分析实习生实习报告_第1页
计算机科学金融科技数据分析实习生实习报告_第2页
计算机科学金融科技数据分析实习生实习报告_第3页
计算机科学金融科技数据分析实习生实习报告_第4页
计算机科学金融科技数据分析实习生实习报告_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机科学金融科技数据分析实习生实习报告一、摘要2023年7月1日至2023年8月31日,我在一家金融科技公司担任数据分析实习生。核心工作成果包括完成股票市场情绪分析报告,通过自然语言处理技术处理1.2万条新闻数据,准确率达87%;构建并优化信贷风险评估模型,使用逻辑回归与决策树算法,将模型AUC值从0.72提升至0.85。应用Python进行数据清洗与可视化,使用Pandas处理每日交易数据量达500GB,Matplotlib生成20+张洞察性图表。提炼出可复用的数据清洗三步法:标准化缺失值、去重异常值、特征工程降维,该方法在后续项目中将异常值识别率提高12%。二、实习内容及过程实习目的主要是把学校学的数据挖掘、机器学习理论用上,看看金融科技行业里数据能具体怎么干活,怎么帮业务解决问题。实习单位是做智能投顾和信贷风控的,主要就是用数据给客户推荐产品,还有评估借钱的人会不会赖账。第3周开始接触第一个项目,是帮投资部门做市场情绪分析。我负责处理每天财经新闻和社交媒体的文本数据。那段时间每天得清洗大概5000条原始记录,有些数据得手动标记情感倾向,挺花时间的。我用了BERT模型来做情感分类,调了挺久参数,准确率最高到87%,比之前用的传统方法好点。后来又把结果喂给LSTM模型,看能不能预测短期股价波动,但效果一般,AUC也就0.68,最后报告里主要还是聚焦在情绪指数构建上。第6周参与了一个信贷模型优化项目,带我的老师让我重点看历史违约数据。那批数据有2万条记录,字段足有30个。我发现有个叫“征信查询次数”的特征特别重要,直接决定了模型评分。当时手头数据质量不太好,很多空值,我就用KNN算法去填充,还试了特征交叉,最后模型AUC从0.72提到了0.85,老师挺满意的。不过中间踩了不少坑,比如一开始用决策树直接建模,结果过拟合得厉害,特征重要度排序跟业务预期对不上,后来改用XGBoost跑了好几版参数才好点。遇到的最大困难是第4周做用户行为分析时,数据口径特别乱。不同业务线统计的标准都不一样,有些指标连着好几个月都是0,我怀疑是不是统计口径变了。我就去问了数据组同事,他们给我看了之前的规范文档,还教我怎么看ETL日志,才知道是某个上游系统出了问题。最后我手动整理了三个月的数据,用Python重构了统计脚本,总算能跑出统一的报表了。这让我明白做数据得特别懂业务,光会模型没用。实习成果最直观的是那个情绪分析系统,现在投资部门每周都在用,帮他们省了不少看新闻的时间。还有那个信贷模型,虽然只是辅助风控,但能帮业务部门把审批通过率提一点点,我觉得挺有价值的。这段时间最大的收获是认识到数据工作其实是个挺讲究沟通的工作,光埋头写代码解决不了问题。之前我以为只要算法好就行,现在觉得怎么把技术语言翻译成业务语言,怎么让业务愿意用你的结果,才是更重要的能力。单位里管理方面吧,我感觉培训机制有点弱,新来的实习生基本靠自学,虽然资源不少,但没人手把手带感觉挺慢的。建议可以搞个新人培养计划,比如每周固定让老师傅讲半小时业务背景,或者搞个内部数据工具库分享会啥的。另外我的岗位匹配度其实70%左右,有些金融知识得现学,要是实习前能多接触点行研报告,效率会高很多。三、总结与体会这8周在金融科技公司的经历,让我感觉像是把课本里的知识真正变成了能拿得出手的工具。从7月1号到8月31号,每天面对真实业务场景的数据,那种感觉跟在学校做作业完全不一样。比如在8月中旬做的信贷风险评估模型优化项目,最终将模型AUC从0.72提升到0.85,虽然只是个微小的提升,但那是我结合业务需求反复调参得来的,每0.01的进步都挺实在的。这段经历让我真切体会到数据工作不是光会写代码就行,理解业务逻辑、跟团队有效沟通同样重要。这次实习让我更清楚自己未来想走的方向。我之前觉得机器学习就是调参数,现在明白在金融领域,模型不仅要准,还要能解释得通,还得考虑合规风险。比如那个市场情绪分析报告,虽然最终准确率87%,但投资部门更看重的是能帮他们快速发现潜在机会的信号,而不是单纯做预测。这让我意识到,做数据分析师得既懂技术,又懂市场,这种复合能力可能是未来核心竞争力。下学期我打算系统补一下金融衍生品和监管政策这块,看看能不能考个CFA一级先积累点行业知识。从学生到职场人的转变挺明显的。以前遇到问题就想去查资料,现在会先思考有没有更高效的解决方式。比如7月底那段时间,处理500GB交易数据时内存老爆,我花两天时间研究分布式处理框架,最后用Spark跑通了脚本,虽然慢点但总算能用了。这种动手解决问题的能力,我觉得比单纯会几个算法更重要。抗压能力上也有提升,以前遇到代码跑不通就急得不行,现在会先分析错误日志,一步步排查。行业里我感觉最火的是风险控制和智能投顾,但数据治理这块好像挺被忽视。我观察到好几个业务线的数据标准都不统一,导致分析结果经常打架。这让我觉得,未来数据工程师和数据治理专家可能会更抢手。下个实习或者工作,我希望能接触更多底层数据架构的东西,看看能不能帮公司理顺数据流程。金融行业对数据质量要求那么高,这块儿肯定大有可为。四、致谢在此期间,衷心感谢公司提供宝贵的实习机会。特别感谢我的实习导师,在实习期间给予悉心指导和耐心解答,让我对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论