计算机专业毕业生应聘和毕设分享_第1页
计算机专业毕业生应聘和毕设分享_第2页
计算机专业毕业生应聘和毕设分享_第3页
计算机专业毕业生应聘和毕设分享_第4页
计算机专业毕业生应聘和毕设分享_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

xx20xx/xx/xx计算机专业毕业生应聘和毕设分享2就业形势变化互联网经济下行,大厂裁员缩招,但是更多非计算机专业的开始转码越来越多的人选择制造业(新能源汽车,手机厂,机器人)外企缩招或者不招非互联网一线大厂可能开出更高的工资(得物,荣耀)银行国企运营商开始成为趋之若鹜的香饽饽考公成为一种潮流高学历成为敲门砖结果没有太多试错的机会尽早确定自己的目标和方向关于就业选择:没有哪个选项一定更好,只有哪个更适合自己,学会取舍选择安逸同时也失去了抗风险的能力,选择奋斗失去了丰富业务生活甚至损失一定的身体健康新形势下的就业选择1/24/20263找工作时间线时间点:-2月:准备八股,项目,刷题,打磨简历2-5月:各个企业的实习招聘,开题6-8月:实习7-8月:秋招提前批8-10月:秋招10-11月:银行笔面试,国企笔面试11月-3月:公务员考试,面试建议:早确定自己的就业目标,早做准备根据自己的目标合理规划时间,安排学习计划简历制作项目经历最好和岗位匹配针对不同公司不同岗位对简历进行调整:国企:多加入荣誉,学生工作,社会实践互联网企业:多介绍技能,项目,不用仔细介绍学生工作经历项目最好两到三个:科研项目课设项目有个人博客和GitHub地址是加分项1/24/20264项目经验要点项目创新性:不要烂大街的项目(秒杀系统、电商项目)开源项目,学校里的真实项目项目亮点设计:代码质量:项目测试,用例覆盖测试,开源测试框架项目上线:展示项目的运行情况压力测试:qps,用开源框架进行压测,找到性能瓶颈,并进行提升1/24/20265项目难点:FGC或者CPU飙升问题排查:内存泄露的bug死锁问题:死锁排查,并发集合流量问题:限流系统优化实习分享实习时间:5.8-8.15实习内容:美团广告平台展示广告系统开发工作时间:朝10晚8,中午休息两小时,晚饭1小时(隐性要求11小时)实习体验:部门氛围不错,但是工作强度比较大;人员流动不大,核心技术掌握在老员工手里;晋升空间有限,晋升的名额紧缩建议:多读文档,阅读源代码写好文档,记录自己的工作内容搞懂一些核心需求,以后面试用表现得很想留下来后期不要太专注于工作,多关注秋招情况,早投简历,抽空参加笔试面试6秋招越早开始越好,抓住提前批的机会面试记录并复盘,针对自己回答不好的内容及时进行强化看别人的面经,查漏补缺海投可以,但是要有针对性地选择几个意向公司冲刺三方慎重签目前很多公司都要求3-6月份才能毁约学院也只能1月之后才能毁约1/24/20267基于语义对齐的代码搜索方法研究1/24/20268代码搜索给定自然语言查询,返回代码库中最符合查询语义的代码片段挑战对自然语言查询和代码语义的深度理解和匹配研究现状基于信息检索的代码搜索方法基于深度学习(RNN、CNN、LSTM)基于Transformer多模态预训练语言模型1/24/2026东南大学软件学院9研究背景和现状基于Transformer多模态预训练语言模型的代码搜索​输入预训练CodeBERT​代码代码-文档对Maskedlanguagemodeling​Replacetokendetection​GraphCodeBERT​代码文档对数据流图Maskedlanguagemodeling​Edgeprediction​Nodealignment​UniXcoder​文档ASTMaskedlanguagemodeling(Encoder)​UnidirectionalLanguageModeling(Decoder)​DenoisingObjective(encode-decoder)​模型能够同时接受多种输入(自然语言查询和代码片段),组合成一个输入送入模型计算语义相似度代码结构Token序列1/24/2026东南大学软件学院10研究背景和现状缺陷目前的代码搜索模型只能够接受原始的英文自然语言输入,不支持中文自然语言输入目前的代码搜索和代码表示学习的数据集都是英文的,没有包含中文文档的数据集目前的大模型在代码搜索上的搜索响应时间较长,不具备很好的应用前景市场上的代码搜索工具大多是基于信息检索,基于语义理解的代码搜索模型还不够成熟研究目标探索基于语义对齐的支持中英文语言的自然语言代码搜索方法研究内容构建包含中文和英文文档的预训练数据集构建包含中文和英文自然语言查询的代码搜索数据集代码表示学习模型预训练三个预训练任务自然语言代码搜索方法的研究1/24/2026111/24/202611数据集构建——中文和英文文档的预训练数据集数据源开放源代码平台如github、gitee等平台上clone了10w+涵盖了多种编程语言的代码仓库数据格式文档:中文、英文代码:函数(C++、java、Python、JS)label:0/1生成规则限制仓库star数量保证代码质量限制代码和文档长度只截取文档的第一个自然段函数名不能在黑名单列表中提取去文档之后要将文档从函数中剔除1/24/202612数据集构建——中文和英文查询的代码搜索数据集数据源技术问答网站如CSDN、Segmentfault、Stackoverflow等数据格式查询:中文、英文代码:函数(C++、java、Python、JS)label:0/1问:如何将驼峰式字符串转为蛇形?def

camel_to_snake(camel_case):

#将所有大写字母前面加上下划线,然后将字符串全部转为小写

snake_case=re.sub(r'(?<!^)(?=[A-Z])','_',camel_case).lower()

returnsnake_case

1/24/202613代码表示学习模型基于transformer编码器6层transformer层隐藏向量768输入:

代码表示学习模型预训练任务1——MLM(掩码语言模型)随机选15%token[MASK]随机token保持不变80%replaced10%10%

Transformer1/24/202615代码表示学习模型预训练任务2——代码文档匹配代码和文档语义对齐二分类任务:预测代码和文档是否匹配,输出0,1标签

1/24/202616代码表示学习模型预训练任务3——语义节点对齐将代码和文档中的关键语义信息节点进行对齐人工标注:标注文档和代码中的关键节点对每条数据中可以标注多对1/24/202617代码表示学习模型预训练任务3——语义节点对齐注意力控制Mask矩阵,白色可见,黑色不可见​

001000模型输入输出1/24/202618代码搜索实验级联快慢搜索模型快模型:提前将代码编码成向量,利用向量聚类缩小候选集提高响应速度慢模型:将代码和查询组合输入模型计算语义相似度提高搜索效果返回相似度得分最高的代码片段实验设置:给定一个查询-代码对,将正确答案混淆到999个干扰项中1/24/202619代码搜索实验数据集:CodeSearchNet,自建的代码搜索数据集

对比模型:RobertaCodeBERT、GraphCodeBERT、UnixCoderchatGPT等大模型

函数数量

带文档

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论