下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
互联网公司人工智能技术实习生实习报告一、摘要
2023年7月1日至2023年8月31日,我在一家互联网公司担任人工智能技术实习生,主要负责自然语言处理模型的优化与数据标注工作。通过参与项目,我完成了超过2000条文本数据的清洗与标注,有效提升了模型训练的准确率约5%。核心工作成果包括优化BERT模型参数,使特定任务的F1分数从0.72提升至0.79,并设计了一套可复用的数据增强策略,将训练集规模扩大30%而未显著降低性能。专业技能应用涵盖Python编程、TensorFlow框架、以及机器学习算法调优。实习期间提炼的“分层标注规范”方法论,可减少标注误差达15%,并在后续项目中推广使用。
二、实习内容及过程
1.实习目的
去2023年7月1号开始实习的时候,我就是想看看自己学的那些机器学习、深度学习的东西,到底能不能在实际项目里用起来。想体验一下工业界的节奏,顺便看看自己是不是真的喜欢搞这个。
2.实习单位简介
我在的那个公司,主要做的是内容推荐和搜索这块。技术团队挺大的,搞各种算法来优化用户体验。我所在的组主要是做自然语言处理,用模型来理解用户意图,搞推荐系统。
3.实习内容与过程
开始的时候主要是熟悉环境,学用他们内部的工具和平台。7月5号到10号左右,跟着导师做了个数据标注的辅助工具,主要是把一些文本分类的任务,用规则自动标注一部分,减少人工工作量。后来7月15号开始,我接手了一个项目,是优化一个文本相似度计算的模型。原来的模型是基于BERT的,但是效果不太行,尤其是在长文本相似度上。我花了几天时间,把预训练模型微调了一下,还试了不同的池化策略。过程中发现数据集有点小,7月20号就主动去申请扩充了一些公开数据,跟数据组沟通了一下,他们帮忙筛选和清洗了。
4.实习成果与收获
最后模型效果确实好了不少,8月5号测试的时候,准确率从原来的72%提到了78%,召回率也提升了2%。我总结了一个“多步池化”的方法,把BERT的输出先做句子级别的池化,再取几个关键句的加权平均,效果比原来单一池化好。这个经历让我明白,有时候模型不是越大越好,关键是怎么把现有模型用对。还学会了怎么跟数据组沟通,要他们给的数据得有标注规范,不然后续模型训练麻烦。
5.问题与建议
遇到的第一个困难是刚开始模型调参的时候,试了好几个方向都不对,挺挫败的。后来问了师兄,他说要看训练日志里loss曲线的细节,我之前只看总体指标。学到了要看不同epoch的梯度变化。第二个是培训机制,公司给的培训主要是内部系统操作,但深度学习这块没太多实操,有时候师兄们也忙,指导时间不太够。建议可以搞一些半结构化的学习路径,比如每周固定时间讲一下最新论文,或者搞个内部代码库分享。另外,我感觉我接手的任务虽然具体,但跟组里其他项目关联性不强,有点像单兵作战,要是能多交叉一些项目,互相借鉴可能效果更好。
三、总结与体会
1.实习价值闭环
这8周,从7月1号到8月31号,感觉就像把学校里学的理论和实际工作搭了个桥。刚开始做数据标注辅助工具时,觉得挺简单的,但实际做起来发现得考虑很多细节,比如规则冲突怎么处理,效率怎么最大化。后来7月15号接手BERT模型优化,那段时间确实挺熬的,调了快20个版本的参数,看各种论文到凌晨是常事。但8月5号看到准确率从72%提到78%的时候,觉得一切都值了。这8周,我把学到的注意力机制、池化策略这些,真的用在了刀刃上,感觉学到了最实在的东西。
2.职业规划联结
这次实习让我更清楚自己想干嘛了。以前觉得做算法挺好,现在发现做工业界的算法,得兼顾效果和效率,还得跟团队合作。之前在学校做项目,自己随便调调参数就行,现在得考虑线上部署的成本,模型大小都不能太离谱。所以接下来打算深挖一下模型压缩和量化这块,看看能不能考证,比如AWS的机器学习认证试试看。感觉这8周的经历,让我简历上能加不少真材实料了。
3.行业趋势展望
感觉现在各行各业都在卷AI,特别是大语言模型,但怎么把这些模型落地,解决实际业务问题,才是关键。我实习那会儿,组里也在玩微调,但发现效果最好的还是跟业务理解特别深的同学一起搞的,他们知道哪个词对业务影响大。所以我觉得,以后做AI的,光会技术不行,还得懂业务。另外,7月底看了一些技术分享,说现在预训练模型都在往多模态发展,比如把文本跟图片结合起来,感觉这方向以后会越来越火,我得赶紧补补这块知识。
4.心态转变
以前在学校,做项目失败了就重开,现在不行,7月20号扩充数据集的时候,跟数据组协调了好久,他们那边也有自己的事,得学会怎么有效沟通。还有一次调参数把模型搞挂了,线上环境不能瞎试,那种压力是实打实的。现在觉得,做这个工作,得有责任心,还得能扛住压力。虽然才8周,但感觉自己离一个真正的“职场人”近了不少。
四、致谢
1.
感谢在2023年7月1日至8月31日期间的实习机会,让我接触到了真实的AI项目。
2.
感谢导师在模型优化方向上
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年监理工程师考试《建设工程监理案例分析 (交通运输工程)》真题及答案
- 单招对数考试题目及答案
- 河南省高考题目及答案
- 舞蹈学的考试题目及答案
- 山西晋城单招题目及答案
- 办公室人力资源配置制度
- 钢管架搭设使用扣件生产制度
- 酒店销售部部门制度
- 英语考试卷子题目及答案
- 诊所医务人员医德医风规范制度
- 个人IP打造运营方案【新媒体运营】【个人自媒体IP】
- 2024-2025学年七年级语文上学期期末专题复习:基础知识运用(含答案)
- 高温熔融金属企业安全知识培训
- 航天禁(限)用工艺目录(2021版)-发文稿(公开)
- CB-T-4459-2016船用七氟丙烷灭火装置
- 邻近铁路营业线施工监测技术规程编制说明
- 教育科学研究方法智慧树知到期末考试答案章节答案2024年浙江师范大学
- 民办高中办学方案
- 树脂镜片制作课件
- Q-CR 864.4-2021 列控中心接口规范 第4部分:列控中心与地面电子单元接口(串行通信)
- 企业对账函模板11
评论
0/150
提交评论