2025QECon全球软件质量效能大会:基于LLM的Code Review实践_第1页
2025QECon全球软件质量效能大会:基于LLM的Code Review实践_第2页
2025QECon全球软件质量效能大会:基于LLM的Code Review实践_第3页
2025QECon全球软件质量效能大会:基于LLM的Code Review实践_第4页
2025QECon全球软件质量效能大会:基于LLM的Code Review实践_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

陈超宇|字节跳动质量技术团队,大模型算法专家 01CodeReview现状 04总结与规划是研发自测Agent的核心子Agent之一CodeReview现状CodeReview现状随着大语言模型技术的快速发展,LLM的各方面能力都有了显著的提升。其中,代码领域已经逐渐从随着大语言模型技术的快速发展,LLM的各方面能力都有了显著的提升。其中,代码领域已经逐渐从相对的垂直领域变成了LLM的基本能力,各种SOTA模型层出不穷,并且在代码生成和代码理解方面有了质的飞跃,因此也给CodeReview领域带来了更多的机遇。智能CR的落地场景CI/CDPipeline…解决问题高准召可扩展性如何才能让模型更好的理解代码上下文,上下文工程如何做好。模型的上下文窗口有限,模型的注意力(Attention)有限,因此更好的上下文工程可以保证信息完备的同时,提高信息密度,进而提升代码理解3.评论验证当前以LLM为核心的系统,幻觉是不可避免的。因此,评论生成过程中,除了高价值的评论,必然也有低价值的评论,甚至错误的评论。如何采用后置的验证技术,将正确高价值评论透出,错误低价值评论过滤掉,是一个重要挑战在CR场景中,检测出的bug或者问题会形成评论。那么如何生成高价值的评论是CR是否有价值的主要挑战4.工具系统如何用好已有的代码分析工具。如何设计工具系统。如何新增必要的工具给LLM使用。当智能CR逐渐向Agent方向迭代的过程中,工具系统的设计是重要挑战智能CodeReview的探索与实践01早期探索试图沿着静态扫描的扫描工具及其规则的知识与经验。因此,智能CR1.0是一个02经过对自动化CodeReview的Review的最佳流程的细节可03基于“规则”知识库将静态扫描等分析工具中采纳LLM的评审评论生成后,验证需要使用规则的细节和正反例智能CR1.0智能CR1.0:Workflow率效测评证保率效测评证保确泛化性差基于规则知识库的CR1.0能很好的识别规则体系内的问题,但无法识别其它类型问题。如果需要检测新类型的问题,需要补充本体树已经规则详情,将LLM解决问题转化成了人的问题。没有充分利用LLM的自主性评审慢CR1.0的单次评审粒度是函数级,一个大的MR需要批处理大量变更函数。耗费资源多,评审效率低多语言问题基于规则知识库的CR1.0,对多语言的支持依赖人工增加各个语言的规则知识本体树和规则库。没有充分利用LLM天生的多语言能准确率较高CR1.0的生成+验证模怯,有效的保证的输出评论的准确性,可以达到较高水位召回率低通过训练或者ContextEngineering的方怯,评论生成的召回率低,无法召回更多代码缺陷.同时规则知识本体树也限制其召回能力。评测驱动迭代快评测驱动+自动化评测+高质量评测集,适当方案的迭代速度快,效率高不再使用基于评审规则的知识本体树,只提供重点关注的评审领域,将评审主动权交给单次评审从函数级别,扩展到MR级别,通过gitdiff压缩上下文,并通过智能分组策略对MR进行分组CR,平衡信息完备性和信息密度。支持多语言利用LLM天生的多代码语言能力,不对代码语言进行专项适配。CR2.0沿用生成+验证模怯。具备较高的准确率,对误报过滤有很好的效果充分利用contextengineering。分析挖掘提升LLM的代码理解能力,提高LLM对代码功能bug,代码逻辑bug等高价值缺陷的识别能力用户真实bug,并且对重要的核心bug进行了标注,可以更有效的牵引核心缺陷的召回智能CR2.0智能CR2.0:Workflow1.CR的粒度从函数level全面升级成MRlevel,支持更长的上下文CR2.全面兼容GitUnifiedDiff,更符合多种平台和通用性。3.原生支持多语言能力,包括输入预处理和评审核心方法。4.评审依赖的本体树从按语言定制本体树升级成通用本体树,同时支持无本体树自由CR5.支持LargeMR的有效压缩,尽量保留更多CR信息。6.对称和动态上下文能力(oldhunk+newhunk)1.模型评测:用大模型对CR的预测评论和真值评论两两匹配2.真值匹配:如果模型预测的结果和某个真值评论匹配,那么该模型的准确性和有用性「跟随J匹配的真值。3.指标评估:利用匹配的评论的标签,计算本轮评测的准确率和召回率。4.模型评分:对于未匹配的预测评论,通过大模型对其准确性和有用性做初步的评分(参考分,不是最终标签)。5.评论回流:对完成标注的未匹配预测结果,可以进一步回流到评测数据集,作为下一轮评测的真值评论。outdated+resolvedoutdated+resolved率高因此,我们需要持续探索AgenticCodeReview持续探索ING:AgenticCR3.0ReviewAgent自主代码风险识别自主上下文获取/工具调用评论总结生成VerificationAgent自主验证规划自主证据收集自主上下文获取/工具调用评论验证结论01持续丰富工具系统,为LLM提将AgenticCR扩展到更丰富的02tokentoke

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论