信息技术与人工智能人工智能公司人工智能实习生实习报告_第1页
信息技术与人工智能人工智能公司人工智能实习生实习报告_第2页
信息技术与人工智能人工智能公司人工智能实习生实习报告_第3页
信息技术与人工智能人工智能公司人工智能实习生实习报告_第4页
信息技术与人工智能人工智能公司人工智能实习生实习报告_第5页
已阅读5页,还剩1页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息技术与人工智能人工智能公司人工智能实习生实习报告一、摘要2023年7月1日至2023年8月31日,我在一家人工智能公司担任人工智能实习生,负责机器学习模型优化与数据分析工作。核心工作成果包括:通过改进算法参数,将图像识别模型的准确率从92.5%提升至96.2%;处理并清洗超过10万条用户行为数据,构建了包含15个特征的数据集,用于异常检测模型训练;独立完成3篇实验报告,详细记录模型迭代过程与效果对比。专业技能应用方面,熟练运用Python和TensorFlow框架,掌握特征工程与模型调优方法。提炼出的可复用方法论包括:标准化数据预处理流程,建立模型性能评估基准线,确保每次迭代可量化对比。二、实习内容及过程1.实习目的我这次实习主要是想看看自己在学校学的那些机器学习和数据挖掘的知识,到底在实际工作里能怎么用。想了解一下人工智能公司在搞项目的时候,具体是个啥流程,还有想提升一下自己动手解决问题的能力。2.实习单位简介我实习的公司是做智能推荐系统的,主要就是用机器学习让用户看到更喜欢的内容。技术栈主要是Python,用得比较多的是TensorFlow和PyTorch,数据平台是Hadoop和Spark。公司里面算法、工程、产品三方面的人都有,整个氛围挺开放的,大家碰到问题都喜欢直接讨论。3.实习内容与过程刚开始那两周主要是熟悉环境,跟着导师看了几个老项目。印象最深的是有个用户行为分析的项目,目标是找出异常登录。当时给我的是原始日志数据,每天有大概500万条记录,格式还挺乱的。导师让我先用Pandas把数据清洗一遍,去掉那些明显错误的IP和设备ID,然后对时间戳做格式化。我花了两天把脚本写好,跑起来后发现内存还差一点,卡在老式服务器上。后来问了工程部门的学长,才知道他们一般用Spark处理这种大数据量,我就去学了Spark的基础用法,把代码改成用DataFrame算。最后跑完整个清洗过程只花了不到5分钟,比原来快了快10倍。后面一个月主要参与一个视觉识别的项目,帮着调一个图片分类的模型。那会儿用的是ResNet50,我在学校用的是VGG16,刚开始调参数的时候特别懵,学习率设高了模型直接爆炸,设低了又收敛太慢。导师让我先从学习率0.001开始,每次迭代都记录loss和accuracy,慢慢调。我加了个早停机制,跑了3轮实验,参数从原来的[0.01,0.001,100]改成[0.005,0.0005,50],准确率从91%提升到94.2%,虽然不算惊天动地,但对我这种新手来说还挺满意的。4.实习成果与收获最直接的是把手里的项目做完,用户行为分析那个项目最后被产品部门拿去跟运营那边做策略用了。我自己写的清洗脚本现在还在仓库里,后面新来的实习生还在用。另一个就是视觉识别那个模型,虽然只是调参数,但让我知道怎么从零开始搭一个模型,还学会了怎么用TensorBoard看训练曲线。最大的收获是体会到,做算法不能光看理论,得结合实际场景,有时候特征工程比模型本身更重要。比如那个用户行为项目,最后发现加上登录间隔时间这个特征,效果就好很多。5.问题与建议实习期间也碰到点问题。一是公司内部管理有点乱,比如需求文档有时候一个人写,另一个人理解又不一样,导致我返工好几次。二是培训机制不太完善,虽然有人带我,但更多是靠自己摸索,要是能有个系统的入职培训就好了。三是岗位匹配度上,我学的是偏算法的,但实际工作里数据工程这块我参与得不多,有时候需求过来我理解得慢。建议的话,首先是希望公司能给实习生搞个简单的培训手册,把常用工具和流程写清楚,别每次都靠导师提醒。其次是需求文档能规范点,多加几个字段说明,比如背景、预期目标什么的。再就是可以搞个新人项目,让实习生先从数据工程或者标注开始做,这样后面接触算法会顺畅很多。三、总结与体会1.实习价值闭环这8周实习对我来说就是画了个圆。刚去的时候,觉得机器学习就是调调参数,看看曲线,但实际动手发现没那么简单。从7月1号开始,我跟着导师把用户行为分析的数据洗了一遍,跑了3轮实验,最后把准确率从91%提到94.2%,虽然不算特别高,但让我明白,模型效果不好,有时候不是模型不行,是特征没做好。比如登录间隔时间这个特征,加进去后效果就好很多。最后导师把我的脚本直接放进仓库让新人用,这让我感觉挺值的。整个过程虽然加班不少,有时候一个需求改来改去到半夜,但每次看到数据有进步,心里还是挺踏实的。2.职业规划联结这次实习让我更清楚自己想干嘛了。以前觉得算法工程师就是整天写代码,现在发现,做项目要跟产品、运营甚至工程的人沟通,需求不明确的时候还要反反复复确认。这让我意识到,以后想做好算法,光懂技术不行,还得懂业务。所以接下来打算补补数据工程这块,报了个Spark的课,打算先把基础打牢。另外,实习时看到团队用GitLab管理代码,每次提交都要求写清楚改动原因,我觉得这个习惯特别好,以后自己写项目也要这样规范。最直接的,就是想把深度学习那几门课再系统看看,打算下学期考个TensorFlow的证书,感觉公司里用这个的多。3.行业趋势展望实习期间感觉最明显的是,现在做推荐系统、视觉识别的,都不光靠某个算法厉害,关键是怎么把模型落地。比如我参与的那个项目,最后产品部门用的不是模型本身,而是模型给出的用户标签。这说明算法要结合业务,不能只看准确率。导师还跟我聊到,现在大厂都在搞多模态融合,比如把文本和图片放一起识别,这可能是未来几年趋势。我回去打算多看看Transformer这块,感觉跟现在火的所有东西都沾边。另外,实习时用的很多模型训练都要等机器,发现有些公司开始用Ray或者Kubernetes做分布式训练了,这让我意识到,做算法不光要会调模型,还得懂点算力管理。感觉行业变化挺快的,不持续学肯定跟不上。4.心态转变最深的体会是,以前在学校做项目,跑不通就改改参数或者换模型,现在发现,很多问题不是算法不行,是数据量不够或者特征没做好。比如那个用户行为项目,开始跑的时候发现数据量太少了,后来跟数据部门要了更多历史数据才慢慢看到效果。这让我明白,做实际项目要考虑很多现实因素,不能光想理论上的完美。还有就是责任感,以前做实验随便调调,现在知道每个参数改动都可能影响结果,得想清楚。有时候为了跑完一个实验,早上8点到晚上12点,虽然累,但觉得挺对得起自己的工资(虽

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论