互联网公司大数据实习生实习报告_第1页
互联网公司大数据实习生实习报告_第2页
互联网公司大数据实习生实习报告_第3页
互联网公司大数据实习生实习报告_第4页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

互联网公司大数据实习生实习报告一、摘要

2023年7月1日至2023年8月31日,我在某互联网公司担任大数据实习生。期间,负责搭建实时数据监控平台,通过Python和Spark处理日均10万条日志数据,优化查询效率提升30%,并输出可视化报表。参与用户行为分析项目,运用Hive统计QPS峰值达5000,定位系统瓶颈。掌握ETL流程自动化脚本编写,将数据清洗时间缩短至2小时。总结出分布式计算资源调度策略,适用于高并发场景。实践证明,结合SQL与Python的混合开发模式可显著提升数据加工效率。

二、实习内容及过程

2023年7月1日至8月31日,我在一家做电商推荐系统的公司实习。主要是搞数据分析和处理,给后台系统搭了个实时监控平台。每天得处理大概10万条用户行为日志,用Python写脚本跑Spark算数,之前跑完得花5小时,后来我调优了分区参数和内存分配,缩短到3小时出结果。最顺手的是做用户画像那个项目,用Hive把点击流数据按天分桶统计,高峰期QPS飙到5000,查表卡死的时候,我改用增量统计加缓存层,延迟从秒级降到百毫秒。

前期老卡壳的是ETL流程,数据清洗总卡在某个步骤,后来跟导师琢磨,发现是没用好Kafka的分区扩容,手动分治太慢,改用动态扩容策略,批量处理时间从8小时砍到2小时。团队那套半自动运维挺折腾,监控告警响应慢,有回溯链路不完善,我提了个用Prometheus+Grafana闭环的方案,虽然没完全落地,但老大挺认可。

公司那套数据湖架构是Hadoop+DeltaLake,挺老的,但写SQL效率确实高。有次算周活用户,TPCDS的Q5跑一半内存溢出,换成SparkSQL反而顺了,悟出来分布式环境选对引擎比硬凑代码强。

最大的收获是学会怎么平衡资源,以前总想着堆机器,后来发现调优代码和参数更省力。比如调大shuffle内存,减少小文件合并,这些细节加起来能省不少成本。不过公司培训挺随意的,就发了几篇文档,也没啥导师带,自己摸索占大头。有时候觉得业务需求变太快,技术方案还没成型就要改,有点跟不上节奏。

建议他们搞个内部Notebook平台,用Jupyter+CoLab那种,代码跑得顺,分享也方便。或者搞个知识库,把那些调优经验、踩坑教训都记下来,新人能少走弯路。

三、总结与体会

这8周,从7月1号到8月31号,感觉像坐了个快车,以前课本上那些Hive、Spark的原理,真用起来才明白哪块是短板。每天盯着那10万条日志数据跑,优化查询效率30%,看着监控大屏上的指标稳定下来,挺有成就感的。最深的体会是,技术这东西,光会跑命令没用,得懂业务场景,知道怎么用数据解决问题。比如做用户画像,不是把数据搞出来就行,得让产品经理看懂,怎么跟业务目标挂上钩。

这次实习让我看清了想进互联网大数据这块,光靠学校那套是远远不够的。公司那套实时数仓,Kafka+Flink的链路,我一开始懵圈,硬着头皮学,现在虽然还不会写完整的应用,但至少知道怎么看日志、怎么排错。最大的转变是心态,以前觉得写个脚本调调参数挺好,现在明白责任大得多,数据错一步可能整个业务线都受影响,抗压能力确实锻炼了。

最大的收获是认清了自己想干嘛。比如做推荐系统那会儿,发现A/B测试的数据分析特别有意思,能直接看到自己的工作影响用户行为。这让我想,以后可能得往这个方向深耕。现在回头看,学校那套课程跟业界真有差距,比如分布式调优、实时计算这些,得多自己找资料补。打算下学期考个CKA证书,先把Kubernetes那块补上,感觉容器化是趋势。

行业这东西变化快,现在大厂都在卷实时,数据中台、湖仓一体玩得花,但核心还是怎么让数据跑得快、算得准、用得上。我体会到,做大数据得平衡技术、成本和业务需求,不能光堆技术栈。以后找实习或者工作,肯定得找能接触核心业务、能让我多折腾的项目,光坐着画饼没用。这次经历让我明白,从学生到职场人,得学的不仅是技能,是怎么把事情做对、做成的态度。

四、致谢

在公司那8周,特别感谢导师,带着我熟悉业务,那些关于实时数仓的讲解,还有怎么把SQL写快的心得,都让我受益匪浅。团队里帮过我的几个同事,有时候我卡壳了,他们总能给我点提示,让我少走不少弯路。虽然他们也挺忙的,但态度都挺好的。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论