2025大模型安全挑战与实践构建 AI 时代的安全防线

上传人：1*** IP属地：湖南上传时间：2025-11-06 格式：PPTX 页数：38 大小：6.73MB 积分：12 举报 版权申诉

已阅读5页，还剩33页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

目录大模型安全风险大模型安全解决方案大模型对安全的驱动和挑战大模型赋能安全最佳实践大模型安全风险有研究表明，仅需花费60美元，就能毒害0.01%的LAION-400M（4亿）或COYO-700M（7亿）数据集，而引入少至100个中毒样本就可能导致大模型在各种任务中生成恶意输🎧。芝加哥大学开发了一个“龙葵”数据投毒工具，通过在生成图像的人工智能程序使用的训练数据中引入误导或混淆的信

息，破坏人工智能的学习结果。此工具能够帮助制裁人工智能企业这种不尊重艺术家版权和知识产权的行为，这也是数据投毒工具应用一个有意思的场景。一个程序员使用ChatGPT编码的时候，GPT给🎧的代码里调用了一个恶意的API地址，然后更要命的是生成的代码里是直接把"private_key"明文提交给“恶意”API处理，而且程序员在代码里填写了自己的key，然后还运行了，结果是30分钟后他的钱包被盗（转移到

FdiBGKS8noGHY2fppnDgcgCQts95Ww8HSLUvWbzv1NhX这个地址）损失差不多$2.5k...智能体安全知识库或记忆模块外部环境风险工具调用风险大模型安全解决方案目标：可靠、可控、安全、向善思路：基于AI对抗AI构建4道防线（外）+2个对齐（内）基于AI对抗AI的思路构建基于“训练数据安全、上线前安全测评、用户Prompt识别、生成内容识别”四道安全防线，对内容安全、业务安全、信息安全（数据安全、提示词注入）风险进行实时监测。大模型安全Benchmark是指用于评估大语言模型安全性的标准和测试方法。建立了内容安全、信息安全（数据安全、提示词注入）等9大类，100+子类的标准，并建立了人工标注、大模型识别、监督模型的标注机制和标准。我们的标准还在持续更新中......带病运行问题：因大模型可解释性

差，不能头痛医头，一旦有不正常内容出现需紧急纠正；措施：训练一个安全模型在大模型推理时实时对大模型生成不符合价值观的内容进行纠正，引导模型安全回复Why：让大模型更加安全、可靠、实用

What：让大模型价值观、目标与人类价值观、目标保持一致；跷跷板问题：业务会更关注大模型的实用性从而忽略安全性，安全训练数据缺失；措施：添加安全语料、控制样本比例进行混合训练；错题纠正问题：在某类安全问题上表现不好，如中国的市场经济趋

势；措施：强化学习（RLHF）是一个有效的方法，通过小量的人类标记数据就可能实现比较好的效果。How：训练阶段、微调阶段、推理阶段智能体安全约束&构建可信外部环境记忆模块安全扫描工具供应链安全工具权限管控大模型对安全的驱动及挑战安全的本质：攻防对抗1、攻防不对等（能力、效率、规模等）2、防御能力不精准（怕误拦--〉不敢拦）3、告警极多，人员极少（处理不过来--〉风险漏🎧）大模型的🎧现加剧了攻防不对等RSAC

2024发布的报告列出了在通用人工智能（GenAI）影响下可能被提升或淘汰的前十种安全产品。供应商评审、安全编排和自动工作簿、用户行为分析、异常检测和安全意识培训是最有可能被GenAI提升或替代的安全产品。这些产品涉及自动化和分析功能，GenAI可能在这些领域提供显著改进。通用模型：通识数据、通用任务、不可控的训练、幻觉问题等如何支持安全场景？安全大模型：专业知识、特定任务、实时人工监督训练、精准回复训练数据样本类型样本类型来源通用知识C4cc开源github......安全知识安全通用知识安全网页安全期刊论文恶意软件(OSPTrack、Datadog、MalDICT)开源代码安全（BigVul、FFmpeg+QemReal-Vul、CVEFixes、u、Reveal、D2A...）CVE京东内部京东内部业务流量日志（soc流量）代码（京东内部代码）内部合规知识安全运营数据微调数据指令类型样本类型样本数量通用指令数学3.8万代码1.5万逻辑推理1.2万开放问答5.8万通用写作3万其他11w+安全指令数据安全0.5万代码安全3万+流量安全（SQL注入、PHP注入、JAVA注入、XSS等）1万+威胁情报1万+内容安全（通用内容安全、AI问答内容安全）2.8万安全知识问答1万提示词注入1万代码混淆1.8万安全agentfunction-call1万+tool-plan-react2万++模型效果模型数据安全代码安全提示词注入内容安全钓鱼邮件安全情报研判安全通识漏洞检测投毒检测sec-llm-v370.1487.5697.5089.4477.2493.0678.0878.75qwen2.5-72B78.2253.5096.2672.169.0781.6677.3566.01GPT4o81.6155.5495.2371.3771.44***90.8970.85安全大模型开发平台的三大优势，一是提供大模型在安全场景探索和尝试的平台；二是让提供定制化的模型微调，让大家更关注安全场景；三是自动化Prompt优化及模型选择，更快为所有场景找到最优解。大模型赋能安全最佳实践智能生成无损修复方案从“人防”到“技防”的跨越AI助力，在代码编写阶段进行代码安全扫描神医使用流程演示.mp4目前实现CWE

TOP

25漏洞全覆盖，准召85%以上，修复采纳率20%+。效率提升：把漏洞处理的时间从「周/天级」降低至「分钟级」体验优化：实现“傻瓜式”修复指引，点击鼠标完成修复减少专家依赖：通过“神医”辅助修复服务端伪造、敏感数据加固、SQL注入漏洞等，安全专家介入率降低70%。覆盖暗网、安全论坛

等，每天处理千万级原始情报信息通过大模

型agent能力，对情报进行研判，对情报类型、威胁等级、影响面等进行自动化分析通过知识库+大模型能力将不同类型的情报分发给对应的安全运营人员数据采集

情报分析

情报分发

情报验真自动化提

取结构化数据样本，和数据库、历史情报进行匹配，生成验真报告响应处置联动处置

策略，实现自动化下发工单、账号处置等治理措施构建Agent实现威胁情报全流程自动化，打通安全情报处置最后一公里通过对大模型进行SFT，对比外部模型精确率由75%提升至98%，召回提升15%。大模型赋能钓鱼邮件的召回率90%左右，助力钓鱼邮件识别风险范围提升100倍钓鱼邮件样本标注+Agent+模型微调从初始20%的检测准确率到目前90%的准确率只做了一件事，prompt优化；用2000+高质量数据基于安全大模型做了微调，在单任务下准确率和召回率达到了98%左右。渗透测试版本的Manus问题：1、拆解任务2、复盘反思3、自动干活总结及展望总结随着大模型基座能力提升，大模型在安全方面的应用范围会更广，更成熟；Agent会推进大模型的赋能方向会从研判、辅助类转为生成、主导类，要想取得突破要大胆尝试；大

人人文库> 全部分类> 专业文献 > 工程机械

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2025大模型安全挑战与实践构建 AI 时代的安全防线

文档简介

温馨提示

最新文档

评论

2025大模型安全挑战与实践构建 AI 时代的安全防线

文档简介

温馨提示

最新文档

评论

相关文档