CN119416268A 基于马尔可夫决策过程的大语言模型多阶段隐私保护方法（齐鲁工业大学(山东省科学院)）

上传人：1*** IP属地：山西上传时间：2026-04-17 格式：DOCX 页数：50 大小：1.94MB 积分：10.8 举报 版权申诉

CN119416268A 基于马尔可夫决策过程的大语言模型多阶段隐私保护方法（齐鲁工业大学(山东省科学院)）_第2页

CN119416268A 基于马尔可夫决策过程的大语言模型多阶段隐私保护方法（齐鲁工业大学(山东省科学院)）_第3页

CN119416268A 基于马尔可夫决策过程的大语言模型多阶段隐私保护方法（齐鲁工业大学(山东省科学院)）_第4页

CN119416268A 基于马尔可夫决策过程的大语言模型多阶段隐私保护方法（齐鲁工业大学(山东省科学院)）_第5页

已阅读5页，还剩45页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于马尔可夫决策过程的大语言模型多阶型多阶段隐私保护方法。所述方法包括系统建户和系统可以找到保护隐私问题的权衡来最大改SARSA强化学习算法以在提出的模型中获得零种局限性导致先前的研究无法全面揭示隐私保2S1、用户通过通信设备发起任务请求，任务处理系作为强化学习算法的输入，系统通过SARSA算法迭代更新策略，以获取最佳的隐私保护策2.根据权利要求1所述的基于马尔可夫决策过程的大语言模型多阶段隐私保护方法，然后，应用马尔可夫决策过程建立一个动态隐私F=SXDXD3XD;→f是状态转移概率，表示从当前状态到下一个状态的概率分布；3连续n个时间槽的状态序列；Dr'表示在时间槽t的攻击结果，Dr'=1表示对手攻击成功，s:为时间槽t的用户状态，s:为时间槽t的攻击者状态，s,"代和攻击者行为后的下一时间槽t+1时的系统状态，是下一个时间槽t+1的系统状态，D:"是下一个时间槽t+1的用户动作，D:"是下一个时间槽t+1的攻击者动作击者在最后阶段ter的行为；在给定状态和策略下，从当前状态开始，整个过程中期4s时按照最佳策略o'执行时的期望效用。3.根据权利要求2所述的基于马尔可夫决策过程的大语言模型多阶段隐私保护方法，S32、隐私损失的分析：使用信息的上下文敏感性和熵来度量隐私损失，信息上下文空间S中包含的敏感信息；动态隐私保护模型中上下文敏感度定义为攻击者在当前阶段窃54.根据权利要求3所述的基于马尔可夫决策过程的大语言模型多阶段隐私保护方法，在动态隐私保护模型中修改强化学习算法SARSA的更则，其中指代上一轮次h的状态值函数，其中anel0,]表示算法的学习率，定义6攻击者在攻击期间的资源不受限的情况下的5.根据权利要求2所述的基于马尔可夫决策过程的大语言模型多阶段隐私保护方法，6.基于马尔可夫决策过程的大语言模型多阶段隐其中，所述计算机程序被所述处理器执行时实现如权利要77.一种计算机可读存储介质，所述计算机可读存储8[0003]中国发明专利CN116595575A公开一种面向边缘智能控制器的依赖任务卸载和隐了基于Seq2Seq的深度强化学习依赖任务卸载算法，在考虑边缘智能控制器的应用任务之[0004]虽然现有的一些隐私保护方法已经扩展到该领域，比如常用解决隐私问题的方多级隐私保护，而多级边缘节点结构使得数据在传输过程中更容易被恶意节点截获或泄限性导致先前的研究无法全面揭示隐私保护过程9中生成的隐私损失和数据效用评分作为强化学习算法的输入，系统通过SARSA算法迭代更[0010]系统最终将处理结果或响应返回给用户设备，用户只能获得符合安全规则的输以对手的行动顺序为窃听成功的概率的判断原则，将攻击者在阶段g中的行为定动态隐私保护模型用八元组$,D,DYDYB,B3B,,F定义，其中S是状态空是状态转移概率，表示从当前状态到下一个状态的概率指代连续n个时间槽的状态序列；Dr'表示在时间槽t的攻击结果，Dr'=1表示对手攻击成用户和攻击者行为后的下一时间槽t+1时的系统状态，是下一个时间槽t+1的系统状和攻击者在最后阶段ter行即第n个时间槽的行为。于内容的服务的总体数据效用的度量，是在当前时间槽t的系统状态M,和参s是下一个时间槽系统的状态，是系统在当前状态s和策略o根据博弈论和NE公式，给定一个动态零和随机博弈，最佳策略描述在情景隐私博弈中，用户试图保护0"来保护用户的效益，而攻击的用户满意度类别，B'和:分别表示softmax函数中每个类别i和z对应的参数向量，包含用户发布的所有消息，s,代表在时间槽t下[0019]由于Dr只有上述三个值，将场景中的基数减少为3，得到处理等价问题的最佳策述至少一个处理器执行如上所述的一种基于马尔可夫决策过程的大语言模型多阶段隐私图8是本发明在改进SARSA算法和经典SAR参图1，本实施例提供一种基于马尔可夫决策过程的大语言模型多阶段隐私保护于对攻击者的行为进行概率分析（如攻击成功或失败的概率从而确定系统状态和收益函动态隐私保护模型用八元组$,D,DYDYB,B3B,F定义，其中S是状态空是状态转移概率，表示从当前状态到下一个状态的概率用户和攻击者行为后的下一时间槽t+1时的系统状态，n:"是下一个时间槽t+1的用户动n,"是下一个时间槽t+1的攻击者动作；M.是下一个时间槽t+1的系统状态，表和攻击者在最后阶段ter的行为。于内容的服务的总体数据效用的度量，是在当前时间槽t的系统状态M,和参s是下一个时间槽系统的状态，是系统在当前状态s和策略o在情景隐私博弈中，用户试图保护0"来保护用户的效益，而攻击来最小化总效益，为了找到用户在所有可能的攻击者策略下的最佳策略并达到纳什均衡，需要确定在最佳策略组合下的期望值c(e)：可能的用户满意度类别，和分别表示softmax函数中每个类别i和z对应的参数向量，包含用户发布的所有可能的消息，s,指在时间槽t下用户消息空使用SARSA算法来优化用户的防御策略，根据S3中生成的隐私损失和数据效用评略；通过，修改SARSA强化学习算法以在提出的模型中获得零和多阶段博弈的独占纳什结表示区域d内用户身份信息的熵，衡量用户身份信息的不确定性；f和f,分rlf-，ω和φ迭代次数都在以内，如果使用经典SARSA算法，迭代次数在范围内达到峰本实施例提供一种实现一种基于马尔可夫决策过程的大语言模型多阶段隐私保述至少一个处理器执行如上所述的一种基于马尔可夫决策过程的大语言模型多阶段隐私被执行时使得所述机器执行如上所述的一种基于马尔可夫决策过程的大语言模型多阶段现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定[0076]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特令装置的制造品，该指令装置实现在流程图一个流程或多个流程和

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN119416268A 基于马尔可夫决策过程的大语言模型多阶段隐私保护方法（齐鲁工业大学(山东省科学院)）

文档简介

温馨提示

最新文档

评论

CN119416268A 基于马尔可夫决策过程的大语言模型多阶段隐私保护方法 （齐鲁工业大学(山东省科学院)）

文档简介

温馨提示

最新文档

评论

相关文档

CN119416268A 基于马尔可夫决策过程的大语言模型多阶段隐私保护方法（齐鲁工业大学(山东省科学院)）