智能科学与技术智能科技公司人工智能实习生实习报告_第1页
智能科学与技术智能科技公司人工智能实习生实习报告_第2页
智能科学与技术智能科技公司人工智能实习生实习报告_第3页
智能科学与技术智能科技公司人工智能实习生实习报告_第4页
智能科学与技术智能科技公司人工智能实习生实习报告_第5页
已阅读5页,还剩1页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

智能科学与技术智能科技公司人工智能实习生实习报告一、摘要2023年7月1日至2023年8月31日,我在智能科学与技术智能科技公司担任人工智能实习生。期间,我主导完成3个数据预处理项目,累计处理图像数据8.6万张,优化数据清洗流程使标注效率提升35%;参与1个自然语言处理模型训练项目,将BERT模型在特定任务上的准确率从82.3%提升至89.1%,通过调整学习率与批处理大小实现突破;运用Python编写自动化脚本,将特征工程时间缩短50%。核心工作涉及数据增强、模型调优与代码重构,实践了迁移学习与超参数网格搜索等可复用方法论,验证了交叉验证在模型泛化性评估中的有效性。二、实习内容及过程1实习目的我找这个实习主要是想看看人工智能在真实工业场景里到底怎么用,不想光看书本。想亲手摸摸项目,知道数据预处理、模型调优这些环节具体多复杂,也想看看自己学的知识能派上什么用。就想多了解点业界是怎么跑模型的,流程是怎样的。2实习单位简介公司不大,但做的东西挺前沿,主要搞智能推荐和图像识别。团队氛围还行,大家忙起来会互相帮忙,技术栈主要是PyTorch和TensorFlow,用的数据平台是自建的,有点东西。3实习内容与过程开头两周跟着导师熟悉项目,主要是看之前的代码和文档。第一个任务是帮项目组处理一批医疗影像数据,要标记病变区域。原流程是手动标注,效率低得要命。我琢磨着能不能用半自动标注工具提效,试了几个开源库,最后选了个基于UNet的分割模型,自己搭环境,把数据集转成他们需要的格式。跑了两天,效果还行,把标注时间从平均每天30张提到60张,导师挺满意。中期参与一个文本分类项目,主要是调BERT模型。他们之前用的是自己搭的模型,效果一般。我接手后,先是看了他们用的参数,学习率0.001,批处理32。我试了不同的学习率策略,比如warmup,发现0.005搭配线性衰减跑10轮效果最好,准确率从82%提到了89%。调完还得写实验报告,对比了不同参数下的loss曲线和pr曲线。过程挺折腾的,有时候一个细节改了半天。最后那段时间在整理代码,把一些重复的操作写成脚本。比如特征提取,之前要手动跑好几个命令,我整了个Python包统一调用,运行时间从1小时缩到15分钟。虽然没啥量化的数据,但同事用着挺方便。4实习成果与收获最大的成果就是那个半自动标注工具,实际用了之后,标注员反馈说操作挺顺手,效率确实翻倍了。文本分类项目里,我调的模型直接给线上用了,跑了一段时间,AUC值稳定在0.92左右,比之前强不少。还学会了不少实战技巧,比如怎么用交叉验证避免过拟合,怎么看训练日志找问题。最大的收获是认识到,很多项目不是理论那样简单,实际操作中数据清洗占50%的时间,模型调优得反复试。5问题与建议实习期间也发现点问题。比如公司管理有点乱,项目需求经常变,有时候一个人接了活,另一个组又临时加需求,导致返工。还有培训机制不咋地,没人系统地讲平台怎么用,都是靠摸索。建议公司可以搞个新人培训手册,把常用工具和流程写清楚,减少不必要的沟通成本。另外我觉得岗位匹配度上,我可能理论知识比动手能力强点,但公司没给我机会学更多理论,光让我跑具体任务,有点可惜。可以搞点技术分享会,让实习生也能听听深层次的东西。三、总结与体会1实习价值闭环这8周实习像把书里的知识掰开了揉碎了看。7月1号刚来的时候,我对模型训练的理解就是调调参数,去了之后才知道,一个项目从数据到部署要过多少坎。比如7月15号负责的医疗影像项目,最初以为模型精度上不去是因为算法不行,后来发现80%的问题出在数据标注质量上,脏数据、标注不一致,直接导致模型学偏了。那段时间天天对着标注样本,改策略、写规则,虽然累,但最后看到效率提升,觉得这趟来得值。从理论到实践,再到解决实际问题,这个闭环让我对AI的理解深了不少。2职业规划联结实习最大的改变是让我看清了想干嘛。之前想学啥都行,现在特想往自然语言处理方向发展。8月20号那个文本分类项目里,我调BERT的时候,发现细调参数比换模型管用,而且跟业务对接时,知道怎么跟产品经理说AUC、F1这些指标,比光说“模型效果好”强多了。这让我意识到,以后想干技术,得既懂模型,也懂怎么用。下学期打算啃完《统计学习基础》,顺便考个深度学习工程师的认证,就想往算法工程师方向发展。3行业趋势展望在公司待着,明显感觉到AI现在特别强调“小而美”。之前觉得模型越大越好,现在看他们几个项目,其实轻量化的模型配合规则引擎效果更好,部署也快。比如我那个标注工具,用Flask搭的API,加个前端界面,比直接用预训练模型跑要高效得多。8月30号技术分享会上,老板说现在客户要的不是参数再优,而是能不能快速上线解决问题。这让我觉得,以后AI工程师得既能懂技术,也能跟市场跑,知道啥时候该堆参数,啥时候该简化。4心态转变以前做实验觉得不行就换方法,现在得想“为啥不行”。8月10号调试模型时,跑了3天都没收敛,之前想重跑数据,导师让我先看日志,结果发现是学习率设置不对,改成余弦退火后2小时就好了。这让我明白,职场不是实验室,不能光靠试错,得学会分析。还有抗压,刚开始接活手抖得不行,现在倒好,老板临时加需求,我也能在1小时内评估出影响,这变化挺大的。5未来行动下半年打算把实习攒的代码整理成GitHub项目,写个博客总结调BERT的心得。8月31号走的时候,导师跟我说下学期可以来实习,我打算真的去,但这次争取能接触更多算法落地的东西。现在看,实习最大的收获不是学了啥技术,而是知道了自己还差啥,该往哪补。这比单纯啃书本强。四、致谢18周的实习经历,离不开几个关键的人。感谢公司给我这个机会,让我在真实场景里摸爬滚打。导师特别耐心,刚开始我不懂数据平台怎么用,他花了半天时间带我走了一遍流程。还有几位同事,比如帮忙看代码的小李,教我调试技巧的阿梅,每次我卡壳的时候,他们总能给我点关

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论