CN119441441A 用于中文大模型的越狱攻击方法及装置、电子设备 (中国信息通信研究院)_第1页
CN119441441A 用于中文大模型的越狱攻击方法及装置、电子设备 (中国信息通信研究院)_第2页
CN119441441A 用于中文大模型的越狱攻击方法及装置、电子设备 (中国信息通信研究院)_第3页
CN119441441A 用于中文大模型的越狱攻击方法及装置、电子设备 (中国信息通信研究院)_第4页
CN119441441A 用于中文大模型的越狱攻击方法及装置、电子设备 (中国信息通信研究院)_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

24.根据权利要求1所述的越狱攻击方法,其特征在于,按照如下方式构建安全评估模通过收集到的中文语料库最小化测试模型的损失函数,以使安全评估模根据安全评估模型的评分函数,分别计算多个候选提示与相对将相关性得分满足阈值条件的候选提示作为候选将候选提示集重新输入测试模型,获得测试模型输出的新的候选在安全评估模型判定测试模型的输出满足攻击成功的判定条39.一种用于中文大模型的越狱攻击装置,包括4生成式大模型也带来了前所未有的安全风险。诸如大模型越狱等新型攻击方法层出不穷,了一种针对大语言模型的越狱攻击方法,用于根据现有的隐藏恶意的提示和对应的答案,56[0040]安全评估模型构建模块400构建了一个适用于中文场景的安全评估模型。该模型[0041]多轮攻击模板改写模块500提出了一种基于大模型的多轮攻击模板改写策略,利7[0042]攻击模板手工改写模块600使用了提示词工程的方法来进一步优化攻击模板形升中文大模型在面对复杂攻击场景时的安全[0050]最终,可以选取了Deepseek_7b、Qwen1.5_7b、Qwen1.5_14B、Chatglm2_6b和8实际应用中的有效性和可靠性。这样的安全评估模型能够为大模型的输出提供安全性判9对复杂攻击时的行为模式,从而为制定有效的防御策略和改进模型的安全性能提供依据。攻击问题与经过选择的攻击模板进行拼接。越狱攻击模块503被配置为将拼接后的数据作模型。攻击评估模块504被配置为根据构建的安全评估模型,判定测试模型的输出是否安[0094]采用本公开实施例提供的用于中文大模型的越狱攻击装置200,通过统计攻击成理器(processor)600和存储器(memory)601。可选地,该装置60还可以包括通信接口[0096]此外,上述的存储器601中的逻辑指令可以通过软件功能单元的形式实现并作为至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。以上相关联的列出的任何以及所有可能的组合。另外,当用于本申请中时,术语“包括”元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下,由语句“包括一对应的描述中,不同的方框所对应的操作或步骤也可以以不同于描述中所披露的顺序发

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论