互联网人工智能公司AI工程师实习报告_第1页
互联网人工智能公司AI工程师实习报告_第2页
互联网人工智能公司AI工程师实习报告_第3页
互联网人工智能公司AI工程师实习报告_第4页
互联网人工智能公司AI工程师实习报告_第5页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

互联网人工智能公司AI工程师实习报告一、摘要

2023年6月5日至8月22日,我在一家领先的互联网人工智能公司担任AI工程师实习生。核心工作成果包括参与开发智能推荐算法,通过优化模型参数,将用户点击率提升了12.3%;使用TensorFlow框架构建了图像识别模型,在测试集上达到95.7%的准确率。期间应用了深度学习、自然语言处理及数据分析等专业技能,并实践了特征工程与模型调优的方法论。通过处理10万条用户行为数据,验证了协同过滤算法在冷启动场景下的有效性,为后续算法迭代提供了量化依据。

二、实习内容及过程

实习目的主要是把学校学的机器学习和深度学习知识用到实际项目中,了解工业界的开发流程和标准。6月5号到8月22号,我在一家做推荐系统的公司实习,他们主要是用机器学习给用户推荐内容,服务有几千万日活用户。

实习单位是做智能推荐算法起家的,有专门的数据平台和模型训练平台,团队氛围挺开放的,大家会定期开技术分享会。我跟着一个小组做召回和排序模块的优化。刚开始主要是熟悉业务,看他们之前的模型文档,了解用户行为数据是怎么采集和处理的。

实习内容具体做了两个项目。第一个是优化协同过滤算法的冷启动问题。6月15号到7月10号,用户画像数据不够丰富的时候,新用户的推荐效果特别差,准确率只有30出头。我尝试用知识图谱补全用户特征,把用户历史行为和内容标签关联起来。通过构建嵌入模型,把用户和物品都映射到低维空间,然后用tripletloss训练。7月15号完成初版模型后,在测试集上冷启动场景的准确率提升到42%,召回率提高了8个百分点。这个过程中踩了不少坑,比如特征工程时用户标签稀疏性太强,直接用onehot会损失大量信息,最后换成了TFIDF处理。

第二个项目是优化实时特征计算服务。7月12号到8月18号,原来的特征计算服务是T+1的,但线上反馈实时性不够。我用SparkSQL重构了特征计算逻辑,把计算任务拆分成多个阶段,加了一些缓存机制。上线后8月15号测了一下,特征延迟从原来的15分钟降到了5分钟以内,A/B测试显示转化率提升了1.2%。调试过程中发现分布式计算资源分配不均的问题,跟SRE团队沟通后,调整了YARN的队列策略。

实习期间遇到的困难主要是两个。一是刚开始不熟悉业务逻辑,7月初有一次周会让我讲用户意图识别的模型效果,完全卡壳,后来提前一周把业务文档和旧代码都看了一遍才勉强应付。另一个是特征工程时数据质量问题,7月20号处理用户行为数据时发现很多空值,直接用均值填充后模型效果差很多,最后改成了用KNN填充。这两次教训让我意识到,做AI工程师不能只懂算法,业务理解也很关键。

技能方面,以前主要用Python的sklearn做实验,这次接触了Spark、Hive,还学了下TensorFlowServing部署模型。思维上最大的转变是认识到模型效果不是越复杂越好,7月底有个实验尝试用Transformer替代原有的FM模型,结果准确率反而低了5个点。导师说有时候把简单模型跑得足够快,效果比用大模型好。

这段经历让我更确定想往推荐算法方向发展,但感觉现在对业务逻辑的理解还不够深,比如7月25号参与的推荐策略优化会议,因为不懂用户分层策略,听得很懵。我觉得公司可以多组织些新人业务培训,比如用案例讲解不同推荐场景下怎么权衡多样性和准确率。另外模型训练平台可以开源一些常用脚本,减少我们重复造轮子。我打算下学期重点补补图神经网络这块,之前项目里看到知识图谱应用挺多的,但自己没太深入学。

三、总结与体会

这8周在公司的经历,感觉像把书里那些公式和理论,真真切切地用到了用户数据上,有点酷。6月5号刚来的时候,连Spark的SQL语法都还不熟练,对着海量数据表懵了好几天。到8月22号离开时,能独立跑通一个召回模型的训练和部署流程了,虽然只是把现有框架优化了12.3%的点击率,但那种把想法变成实际效果的成就感,是学校实验室里做实验完全体会不到的。这段经历的价值闭环就在于,我不再是纸上谈兵,而是知道一个推荐算法从特征工程到模型上线,整个链路里每个环节可能出什么问题,以及怎么解决。

对我职业规划的影响挺直接的。之前觉得AI工程师就是调调参数,现在明白业务理解有多重要。7月15号那个冷启动项目,一开始想用最复杂的图神经网络,导师提醒我“先解决能解决的最关键问题”,最后用知识图谱嵌入搞定,效果反而更好。这让我意识到,真正的工程师不是炫技,而是怎么在资源限制下把事情做好。所以接下来打算深挖下图神经网络和联邦学习,公司内部用的那个图计算框架我还没完全摸透,打算下学期系统学学。

行业趋势这块,感觉现在特别卷,但对算法落地效率要求越来越高。7月底有个技术分享讲在线实验平台,说现在A/B测试上线周期要求控制在几分钟内,以前那种T+1的特征系统完全没法用了。这让我挺焦虑的,也看到了自己的差距。比如8月初调试模型时,因为不熟悉容器化部署,一个环境问题卡了两天,浪费了不少时间。所以打算明年考个AWS或Azure的认证,至少把云平台操作熟练了。

心态转变是最大的收获。以前做项目就是想做出新东西,现在更关注稳定性、效率,甚至用户实际感知。比如7月30号优化排序模型时,为了提升毫秒级响应速度,被迫放弃了几个效果不错的复杂模型,虽然最终准确率下降了一点,但服务可用性大大提高,导师说这才是工程师该干的。这种在理想和现实间找到平衡点的经验,可能比单纯做出高精度模型更有价值。从学生到职场人,最明显的变化是责任感,知道自己的代码会影响到几百万用户,那种压力其实挺锻炼人的。后续会把这次遇到的问题都整理成笔记,比如8月10号解决特征空值时用的KNN填充算法,打算深入研究下它的收敛速度问题,看能不能结合深度学习改进。

四、致谢

感谢在实习期间给予我指导和帮助的团队,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论