CN119416858A 步骤批改大模型训练方法、作业批改方法、装置及系统 (科大讯飞股份有限公司)_第1页
CN119416858A 步骤批改大模型训练方法、作业批改方法、装置及系统 (科大讯飞股份有限公司)_第2页
CN119416858A 步骤批改大模型训练方法、作业批改方法、装置及系统 (科大讯飞股份有限公司)_第3页
CN119416858A 步骤批改大模型训练方法、作业批改方法、装置及系统 (科大讯飞股份有限公司)_第4页
CN119416858A 步骤批改大模型训练方法、作业批改方法、装置及系统 (科大讯飞股份有限公司)_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

步骤批改大模型训练方法、作业批改方法、本申请公开了一种步骤批改大模型训练方训练数据,第一训练数据至少包括题目作答数域训练数据训练后的大模型作为初始的步骤批请允许在训练数据不均衡的情况下高效利用所2获取采用领域训练数据训练后的大模型,所述领域训练数据至少包括题目作答数据,获取第一训练数据,所述第一训练数据至少包括所述题目作答数据、标以所述大模型作为初始的步骤批改大模型,针对所述第一训练数据中的所述用户作2.根据权利要求1所述的方法,其特征在于,逐个步骤采样所述步骤批改大模型的输基于蒙特卡洛树搜索方法,逐个步骤采样所述步骤批改大模型的至少基于所述采样结果和所述用户作答的整题评分标签,计对于当前第t个步骤,基于所述采样结果中的整题评分和所述用户作答的整题评分标至少基于所述结果奖励分数确定当前第t个步骤的批改结果至少基于所述采样结果和所述用户作答的整题评分标签,计对于当前第t个步骤,基于所述采样结果中所述当前第t个步基于所述结果奖励分数和所述过程奖励分数确定总奖励分数所述当前第t个步骤之后各个步骤的批改结果和各个步骤标注的步骤批改结果,计算过程3确定所述采样结果中所述当前第t个步骤之后各个步骤的批改结果中,与对应步骤标以所述初始的步骤批改大模型作为策略网络Actor,联合评估网络Critic进行强化学所述第一目标包括最小化所述评估网络输出的每个步骤批改结果准确的概率与所述每个最大化总奖励分数,所述总奖励分数包括对整题评分正确的奖通过KL散度约束所述策略网络的输出与所述初始的步骤批改大模型将所述题目作答数据送入步骤批改大模型,得到模型输出的所述用其中,所述步骤批改大模型为采用权利要求1~12任一项的步4大模型获取单元,用于获取采用领域训练数据训练后的大模型第一训练数据获取单元,用于获取第一训练数据,所述标签估计单元,用于以所述大模型作为初始的步骤批改大模型,针训练单元,用于利用所述第一训练数据及估计得到的所述处理器,用于执行所述程序,实现如权利要求1~12中任一项所述的5是步骤级别的批改能力需要使用高质量的步骤级别标注数据对大模型进行微调训练才能骤采样所述步骤批改大模型的输出,并至少基于采样结果和所述用户作答的整题评分标6[0017]对于当前第t个步骤,基于所述采样结果中的整题评分和所述用户作答的整题评[0018]至少基于所述结果奖励分数确定当前第t个步骤的批改结果对应的蒙特卡洛分一训练数据中至少部分所述用户作答还标注有[0024]确定所述采样结果中所述当前第t个步骤之后各个步骤的批改结果中,与对应步用强化学习约束所述步骤批改大模型的步骤批改过程,得到强化学习后的步骤批改大模用强化学习约束所述步骤批改大模型的步骤批改过程,得到强化学习后的步骤批改大模[0028]以所述初始的步骤批改大模型作为策略网络Actor,联合评估网络Critic进行强7化学习过程包括两个训练阶段,第一训练阶段按照所述第一目标单独训练所述评估网络,[0034]通过KL散度约束所述策略网络的输出与所述初始的步骤批改大模型的输出间的[0040]获取题目作答数据,所述题目作答数据包括待批改的用户作答及题目和标准答8执行时,实现本申请前述第一方面中任一种所描述的步骤批改大模型训练方法的各个步9LargePre_TrainedModels或Large_ScalePre_TrainingModels。大模型的特点是规[0062]本申请提供了一种步骤批改大模型训练方法及应用训练后的步骤批改大模型辅[0068]本实施例中在训练步骤批改大模型时需要在一个初始的大模型的基础上进行训步骤批改结果标注数据,整题评分标签更容易大批量的获取,示例如在许多教育批改场景一训练数据中的题目作答数据作为步骤批改大模型的输入,得到步骤批改大模型的输出[0103]步骤S130、利用第一训练数据及估计得到的每个步骤批[0107]本申请实施例提供的步骤批改大模型的训练方法,可以批改结果对应的蒙特卡洛分数,并以蒙特卡洛分数作为每个步骤批改结果准确的概率标[0125]确定采样结果中当前第t个步骤之后各个步骤的批改结果中,与对应步骤标注的[0151]评估网络是强化学习训练中用来评价步骤批改正误的模型,具体可以是评估Actor输出的每个步骤批改结果准确的概率。可以用v,()表示预测第t个步骤批改结果准批改大模型训练装置与上文描述的步骤批改大模型训练方[0191]对于当前第t个步骤,基于所述采样结果中的整题评分和所述用户作答的整题评[0192]至少基于所述结果奖励分数确定当前第t个步骤的批改结果对应的蒙特卡洛分当前第t个步骤之后各个步骤的批改结果和各个步骤标注的步骤批改结果,计算过程奖励[0197]确定所述采样结果中所述当前第t个步骤之后各个步骤的批改结果中,与对应步用强化学习约束所述步骤批改大模型的步骤批改过程,得到强化学习后的步骤批改大模[0201]以所述初始的步骤批改大模型作为策略网络Actor,联合评估网络Critic进行强

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论