2025年LLM与安全代码报告_第1页
2025年LLM与安全代码报告_第2页
2025年LLM与安全代码报告_第3页
2025年LLM与安全代码报告_第4页
2025年LLM与安全代码报告_第5页
已阅读5页,还剩27页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

L

L

M

与代码安全1.LLM代码生成应用背景大纲2.LLM代码生成的安全问题3.LLM代码安全生成的安全实践4.AI代码生成威胁LLM与代码安全主要分享路线LLM应用广泛,逐渐渗透至各个领域1.LLM代码生成应用背景行业重大需求代码生成安全是软件开发的一项基础性工作,必须重视和加强代码生成安全工作在LLM使用场景中,代码生成的相关需求远远高于其他类型任务Claude.ai

的真实世界使用数据。这些数字指的是与

Claude

进行的对话中,涉及这些具体任务、职业和类别的百分比OpenRouter

上跟踪的使用LLM

token量最大的应用能够根据上下文自动补全代码能够根据注释描述自动补全代码代码开发新范式,LLM4CODE自动根据项目信息生成测试文件进行代码理解翻译代码开发新范式,

LLM4CODEClaude、Copilot等已经可以生成仓库级代码项目代码开发新范式,

LLM4CODE便捷的生成下安全隐患?代码开发新范式,

LLM4CODE2.LLM代码生成的安全问题代码开发新范式,AI提升开发速度LLM

提高了代码生产效率,但是安全性未必得到足够的关注非主场难度大收益低目前聚焦的主要战场还在能力边界扩展安全性提升难度大(安全数据、安全能力)直接收益低风险暂时不够突出行业重大需求OWASP

2025

LLM

应用

Top

10

风险代码生成安全是软件开发的一项基础性工作,必须重视和加强代码生成安全工作安全缺位代码漏洞基准缺失生成风险10%的GPT-4o生成代码在简单提示下的安全性评分低大模型领域代码生成安全问题严峻1、2、3、4、5、30%的应用安全漏洞将源于AI

辅助编程实践主流AI代码生成工具写出的代码漏洞占比的45%100%的主流LLM生成漏洞AI生成代码已占全球代码产出的41%评测为尺,风险现形:项目级AI生成代码安全性评测基准现有评估基准与真实开发场景脱节,严重高估了模型的实际安全能力。

当前代码安全评估基准大多针对孤立的代码片段,无法反映模型在真实仓库级开发环境中的表现,导致评估结果失真。现存问题A.S.E:ARepository-LevelBenchmarkforEvaluatingSecurityinAI-Generated

Code揭示实际repo场景的代码生成安全隐患,探索各模型在该场景的能力边界Huggingface日榜周榜双第一评测为尺,风险现形:项目级AI生成代码安全性评测基准现有评估基准与真实开发场景脱节,严重高估了模型的实际安全能力。

当前代码安全评估基准大多针对孤立的代码片段,无法反映模型在真实仓库级开发环境中的表现,导致评估结果失真。现存问题A.S.E:ARepository-LevelBenchmarkforEvaluatingSecurityinAI-Generated

CodeA.S.E:业界首个项目级AI生成代码安全性评测框架,所评估的

26

个主流大模型均存在代码正确性优先、安全防护滞后的问题,表现最好的模型代码质量得分高达

91.58,但安全得分仅

46.72且无任何模型安全得分突破

50

分。当前大模型安全编码能力显著薄弱仓库级场景需大模型处理跨文件调用链、构建系统依赖等需求,而多数大模型仅擅长孤立代码生成,仅极少数模型具备项目级安全理解能力。大模型代码片段级安全优势无法迁移“慢思考”

推理模式无助于安全生成更大的推理预算可能引入冗余逻辑或偏离安全目标,反而降低代码安全性;简洁直接的快思考推理模式,在仓库级安全漏洞修复中更高效。评测为尺,风险现形:项目级AI生成代码安全性评测基准现有评估基准与真实开发场景脱节,严重高估了模型的实际安全能力。

当前代码安全评估基准大多针对孤立的代码片段,无法反映模型在真实仓库级开发环境中的表现,导致评估结果失真。现存问题A.S.E:ARepository-LevelBenchmarkforEvaluatingSecurityinAI-Generated

Code3.LLM代码安全生成的安全实践LLM代码安全左侧中右侧模型前侧安全因子模型使用侧安全因子生态代码安全3

个维度4

个等级目标清晰度信息完整性逻辑一致性L0:工程师级规范L3:编程新手级规范L L2 12

种可落地的提示优化策略思维链(Chain-of-Thought):通过分步推理强化安全考量,如

L3

级提示下

CWE-284

漏洞率从

49.84%

降至

43.41%。自我修正(Regenerate

Act):模拟安全专家自检漏洞并修复,在

L2-L3

级复杂任务中表现突出,漏洞率显著下降。质量评估与链式思维的安全缓冲提示词质量对安全性的关键影响被严重低估,缺乏系统性研究与管理。现有工作过度关注模型的对抗性攻击和固有缺陷,却忽略了良性但质量差的提示词会显著增加代码缺陷率的严重问题。CWE-BENCH-PYTHON:构建提示词质量评估基准 实验验证现存问题IsYourPromptPoisoningCode?DefectInductionRatesandSecurityMitigation

Strategies增强检索生成技术(RAG)初始代码生成后,以输入与初始代码做

RAG

查询整合RAG

安全知识,辅助大模型生成优化代码RAG

知识不足时修复缺陷,更新安全知识库大模型自反思初始代码缺陷,迭代优化并更新知识库,无需微调即可提升代码安全性。RAG

与大模型自我修正的协同防御当前提高大模型代码生成安全性的主流方法是微调模型或构建安全代码数据集,这些方法需要巨大的计算资源和标注成本,且无法在模型部署后进行轻量的、持续的优化。REFLEXGEN:低成本、高效率、高安全的轻量化解决方案 大模型自反思机制现存问题REFLEXGEN:THEUNEXAMINEDCODEISNOTWORTH

USINGReAct

范式赋能的多智能体代码生成框架RA-Gen:

多智能体框架保障高安全代码生成PlannerSearcherCodeGenExtractor任务分解结合推理实现漏洞功能代码片与初始推理与外部工具规避的安全段验证与轨迹生成精炼轨迹代码生成提取多智能体具体交互流程RA-Gen:AControllableCodeGenerationFrameworkUsingReActforMulti-AgentTaskExecution现存 复杂任务要求下,代码生成过程缺乏可控性与透明性,难以集成外部知识。现有代码生成模型其问题 内部推理过程不透明,导致用户无法信任、干预和引导其生成安全可靠的代码。实验验证LLM代码安全左侧中右侧模型前侧安全因子模型侧安全因子生态代码安全LRDTAE:LLM+RAG的高精度的污点型漏洞检测LLM+漏洞挖掘传统代码漏洞检测(尤其是污点分析方向)在工业界落地时面临

“自动化程度低、精准度不足、人工成本高”

三大核心瓶颈现存问题LLM-RAG-DrivenTaintAnalysisEnhancement:OptimizingCodeQLforPreciseSoftwareVulnerability

IdentificationLLM+RAG

动态标记全流程语义闭环 LLM语义精筛核心价值: 核心价值: 核心价值:自动化完成 利用LLM的语义理解

过滤“规则误判”的Source/Sink/prop

能力贯穿“提取→标

无风险漏洞,提升结agator标记,覆盖

记→检测→精筛”,

果可信度小众API/自定义方 提升端到端准确性法突破传统痛点: 突破传统痛点: 破传统痛点:解决人工标记“成本 避免现有技术仅用 解决传统规则过滤高、覆盖不全、新 LLM做“单点优化” “识别不了语义无风API

滞后”问题 的局限 险场景”的盲区合作共建

基础设施漏洞扫描快速开始$ -/AI基础设施漏洞扫描开源AI框架与组件CVE漏洞扫描如ollama、ComfyUI等Web组件400+漏洞内网AI平台常见风险扫描(优化中)未授权、列目录、鉴权不当、弱口令等风险Prompt安全评测A.I.G

(AI-Infra-Guard)

是朱雀实验室开源的一款智能、全面、易用的AI红队测试平台,Github

Star

1.5K+。支持AI基础设施漏洞扫描、Prompt安全评测、一键越狱、MCP

Server安全扫描等功能。支持一键Docker部署,提供详细使用文档与指引,非专业用户也可以快速上手。支持插件式配置,快速添加组件漏洞指纹、评测集、新型风险扫描能力。MCP

Server风险检测核心功能大模型Prompt安全评测支持内置/上传提示注入与越狱攻击评测集大模型一键越狱内置主流攻击算子,实现一键定向越狱MCP

Server源码白盒审计AI

Agent分析代码中MCP投毒与漏洞等风险远程MCPServer黑盒扫描AI

Agent动态连接MCP识别常见风险欢迎一起开源社区共建和讨论AI

Agent驱动的MCP安全检测方案精准识别30+AI框架组件,覆盖近400个已知CVE漏洞,包括Ollama/ComfyUI/vLLM等AI组件供应链威胁模型产品检测9大类MCP安全风险(如工具偷毒、数据窃取等),支持源代码/远程URL扫描对LLM进行红队安全测试LLM红队测试MCP组件恶意潜在执行难发现扫AI

组件、MCP

Server

智能漏洞检测AI服务生态快速膨胀,AI组件、MCP

Server成为攻击新靶点。作为连接模型与工具的桥梁,其质量参差不齐,存在大量未经安全审计的第三方插件和开源组件。现存问题A.I.G(AI-Infra-Guard):AIRedTeaming

Platform全面开源,从GitHub千星到BlackHat的社区驱动防护A.I.G(AI-Infra-Guard):AIRedTeaming

Platform本项目自2025年初开源以来,已在Github上被1800+全球用户点赞关注,获得DeepSeek官方推荐,入选全球安全顶会BlackHat

兵器谱。开源:///Tencent/AI-Infra-Guard/欢迎Star、体验与共建。4.AI代码生成威胁AI代码生成威胁生成属性上的直接风险生成代码的风险生成和应用架构上的安全缺陷……间接风险……武器化风险……海量实测结论:507,044

个实例,其中

Python

285,249、Java

221,795Python侧目前LLM本身具有很强的代码编写能力,但是同样也会写出代码缺陷、代码漏洞甚至是有后门带代码。这些“特性”具有不安全性和可操控性。现存问题AI

代码

总量与密度均高于人类,而唯一

CWE

种类数与人类接近

新类型不一定更多,但同类型重复更多(密度更高)JAVA侧Java

侧差距更大:面更广、频率更高(尤其

DSC)缺陷谱系AI

更偏“赋值/未用/结构浅”,人类更偏“算法/复杂度/检查”参考资料:(生成属性)AI代码生成威胁:代码缺陷、漏洞与后门生成目前主流Code

Generation

Agent架构MCP相关安全问题主流Agent支持通过MCP集成外部工具,存在工具投毒等攻击面(生成属性)AI代码生成威胁:代码生成系统智能体存在的安全问题目前主流的自动化或者半自动化的AI编程助手主要是基于LLM

Agent的结构实现的,这种Agent结构提升了大模型的自动化能力,但也引入了安全问题。现存问题外部恶意信息源检索信息存在恶意信息,从而导致提示词注入任务迭代过

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论