CN115249072B 一种基于生成对抗用户模型的强化学习路径规划方法（西安交通大学）

上传人：1*** IP属地：山西上传时间：2026-03-25 格式：DOCX 页数：28 大小：1.13MB 积分：10.2 举报 版权申诉

CN115249072B 一种基于生成对抗用户模型的强化学习路径规划方法（西安交通大学）_第2页

CN115249072B 一种基于生成对抗用户模型的强化学习路径规划方法（西安交通大学）_第3页

CN115249072B 一种基于生成对抗用户模型的强化学习路径规划方法（西安交通大学）_第4页

CN115249072B 一种基于生成对抗用户模型的强化学习路径规划方法（西安交通大学）_第5页

已阅读5页，还剩23页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

一种基于生成对抗用户模型的强化学习路本发明公开了一种基于生成对抗用户模型基于级联DQN算法完成路径规划。本发明提供的学习资源路径能够在完成至目标知识点的学习目标的同时，应对用户每一步学习中兴趣的变对学习资源的反馈以及学习资源本身的知识结2{clusterlui=1,…,N}，根据用户学习行为类型可划分得到每一种学习行为类型对应的训练数据集D;；励函数强化学习的路径规划模型中的奖励函数为序列决策奖励和知识点规划奖励构成的t时刻为学习者推荐的长度为k的学习资源路径所对应的k个动作集合；状态转移概率P(·Ist,A')则对应在给定状态st和动作集At时转移到下一将奖励函数r(st,a')分解为序列决策奖励rseq和知识点规划决策奖励rc，即;在计算知识点规划决策奖励函数rc时，考虑到所推荐学习资源与实际点击的3示向量ct:tsrk通过对序列中每个学习资源的特征向量取均值计算得到，ct+i和分别用2.根据权利要求1所述的基于生成对抗用户模型的强化学习路径规划方法，其特征在配;3.根据权利要求2所述的基于生成对抗用户模型的强化学习路径规划方法，其特征在分别构建度矩阵D和拉普拉斯矩阵L：特征向量组成M*N维的矩阵，按行进行标准化得到矩阵F，对矩阵F中的每一行作为一对应的训练数据集D;。4.根据权利要求1所述的基于生成对抗用户模型的强化学习路径规划方法，其特征在针对每一个cluster;，设计用户行为模型，学到的策略0作为在动作集合,在求解时看作策略在其概率分布空间ak-1上的最优化问题进行求解；4N个planer;用于仿真模拟。5.根据权利要求4所述的基于生成对抗用户模型的强化学习路径规划方法，其特征在（10）6.根据权利要求4所述的基于生成对抗用户模型的强化学习路径规划方法，其特征在根据历史行为中的个用户动作序列和对应的点击课程资源的特征计算状态，联合学习用户行为模型0和奖励函数r，见式7.根据权利要求1所述的基于生成对抗用户模型的强化学习路径规划方法，其特征在于，步骤3）中利用级联DQN算法生成推荐学习资源路径的具体方式为：对于目标知识点krarget，学习资源集合为i，根据每一步学习资源推荐均使当前Q函数值最大的动作决策8.根据权利要求1所述的基于生成对抗用户模型的强化学习路径规划方法，其特征在似用户的学习历史为无学习历史的用户生成至目标知识5[0007]1)根据用户学习日志获取构建学习者相似度矩阵W，利用谱聚类方法在学习者相似度矩阵W上完成用户学习行为类型聚类，得到N类用户学习行为类型{Clusterui|ui=6层奖励函数强化学习的路径规划模型中的奖励函数为序列决策奖励和知识点规划奖励构识森林作为输入，基于级联DQN算法完成至目标知识点的学习资源路径规划，输出规划路课程学习状态stateui，course、已完成知识点平均耗时比du、已完成知识点平均中心度[0017]利用E=D1/2LD-1/2对L进行标准化，随后计算前N个最小特征值的特征向量，t示t时刻为学习者推荐的长度为k的学习资源路径所对应的k个动作集合；状态转移概率Pt[0021]在计算序列决策奖励r时，计算推荐子序列和实际交互子序列的序列层级准确7于表示实际和预测的用户学习资源学习序列中第i个学习资源的特征向量；vt+i表示第i个{a12解时看作策略在其概率分布空间Δk_1上的最优化问题进行求解；[0034]根据历史行为中的T个用户动作序列和对应的点击课程资源的特征计算状态sfmue,联合学习用户行为模型p和奖励函数8述相似用户的学习历史为无学习历史的用户生成至目标知用户行为模型与强化学习路径规划模型结合的形式，为学习者提供实时的路径规划结果；员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范9已完成知识点平均中心度已完成关键知识点个数mTU及目标知识点的学习[0052]101)对学习者学习日志进行分析，对于每个学习者useri获取其课程状态键知识点个数numui以及目标知识点的学习状态stateui，tarqet；其中，对于课程学习状态知识点，则将该门课程的最后一个知识点看作目标知识点，目标知识点的学习状态G、已完成关键知识点个数num’ui和目标知识点的学习状态ger)(3)ttst定义为学习者t时刻前的历史学习资源序列，动作at定义为t时刻从该时刻候选学习资源集合Lt中选择一个学习资源推荐给学习者，动作集At则表示t时刻为学习者推荐的长度为kt的概为处于状态st奖励函数分解为序列决策奖励rseq和知识点规划决策奖励rc，即∑击的学习资源难度是否匹配，利用学习时长估计学习资源难度，其中，先使用上述根据于表示实际和预测的用户学习资源学习序列中第i个学习资源的特征向量；vt+i表示第i个[0077]206)对于每一个Clusterui，利用该学习行为类型数据集Dui训练得到的用户行为模型Dui作为Planerui中强化学习的模拟环境，针对用useri，此Clusterui的用户行为模型为类型的用户行为模型Dui看作生成器，奖励函数rui看作判别器，完成模型参数训练和参小极大化函数，根据历史行为中的T个用户动作序列和对应的点击课程资源的特征计算状态se,联合学习用户行为模型p和奖习者所属学习行为类型从而调用对应学习类型的路径规划模型，利用级联DQN算法，为其完成学习资源路径规划：对于目标知识点)满足条件*tLCL,表示在t时刻用于推荐的学习资源候选集合。利用级联Q函数网络求解路径上每一[0086]302)中的根据DQN算法学到的策略函数推荐学习资源路径：对于目标知识点[0089]303)步骤3)中基于行为克隆的思想，基于同课程下历史同专业/同年级的相似用记录中同课程下的历史同

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN115249072B 一种基于生成对抗用户模型的强化学习路径规划方法（西安交通大学）

文档简介

温馨提示

最新文档

评论

CN115249072B 一种基于生成对抗用户模型的强化学习路径规划方法 （西安交通大学）

文档简介

温馨提示

最新文档

评论

相关文档

CN115249072B 一种基于生成对抗用户模型的强化学习路径规划方法（西安交通大学）