CN119397267A 大模型预训练语料构建方法及装置 (北京大学)_第1页
CN119397267A 大模型预训练语料构建方法及装置 (北京大学)_第2页
CN119397267A 大模型预训练语料构建方法及装置 (北京大学)_第3页
CN119397267A 大模型预训练语料构建方法及装置 (北京大学)_第4页
CN119397267A 大模型预训练语料构建方法及装置 (北京大学)_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本发明提供一种大模型预训练语料构建方与所述语料样本对应的文本标量分数作为一个2将多个语料样本输入到目标大语言模型,输出各个所述语料样本对应的文本标量分将所述语料样本与所述语料样本对应的文本标量分数作为一个训练基于所述目标分类器对预设语料库中的各个语料样本进行筛选,得到高质量训练语获取预设提示模板,其中,所述预设提示模板用于引导所述目基于所述语料样本与所述预设提示模板结合,并输入到所述目标对于任意一个训练样本,将所述训练样本输入所述分类器,输出利用预设损失函数根据所述训练样本对应的文本预测分数和所述训练样本中的文本将各个所述语料样本输入到所述目标分类器,得到各个所述语料样本的文本标量分筛除文本标量分数小于预设分数阈值的语料样本,得到基于所述高质量训练语料对预设语言模型进行预训练,在满足预设训练条件的情况输入模块,用于将多个语料样本输入到目标大语言模型,输出各个获取模块,用于将所述语料样本与所述语料样本对应的文本标3筛选模块,用于基于所述目标分类器对预设语料库中的各个语料获取预设提示模板,其中,所述预设提示模板用于引导所述目基于所述语料样本与所述预设提示模板结合,并输入到所述目标8.一种电子设备,包括存储器、处理器及存储程序被处理器执行时实现如权利要求1至5任一项所述大模型预训行时实现如权利要求1至5任一项所述大模型预训练语4[0001]本发明涉及数据处理技术领域,尤其涉及一种大模型预训练语料构建方法及装训练数据的质量和处理方法直接影响到语言模型在端到端任务中的表现,包括理解能力、基于所述语料样本与所述预设提示模板结合,并输入到所述目标大语言模型中,利用预设损失函数根据所述训练样本对应的文本预测分数和所述训练样本中的5筛选模块,用于基于所述目标分类器对预设语料库中的各个语料样本进行筛选,基于所述语料样本与所述预设提示模板结合,并输入到所述目标大语言模型中,利用预设损失函数根据所述训练样本对应的文本预测分数和所述训练样本中的6机程序被处理器执行时实现如上述任一种所述大模型预训练语[0018]本发明提供的大模型预训练语料构建方法及装置,通过定义1.构成用于训练或评估模型的单个数据样本被表示为数据空间中的一个数7定义2.数据集D表示一些数据点的集合{X(O),X(1),…,X("-1)},其中N=IDI表[0024]定义3.数据集的分布是指数据点在后基于数据集D来训练模型M,使得能够最大化或最小化目标函数fos)(M。[0029]其中,quality(x)表示对数据点x进行质量评估的函数,Q表[0030]图1为本申请实施例提供的大模型预训练语料构建方法流收集并准备多个语料样本,这些样本可以是来自不同来源和不同主题的文本数[0031]将这些语料样本作为输入数据送入目标大语言模型中。这通常通过API调用或直型会根据其内部算法和学习到的知识对文本的8基于所述语料样本与所述预设提示模板结合,并输入到所述目标大语言模型中,[0037]收集并准备需要评估的语料样本,这些样本可以是不同来源和主题的文本数构9[0058]步骤120,将所述语料样本与所述语料样本对应的文本标量分数作为一个训练样涵盖不同的主题和风格。使用目标大语言模型和预设的提示模板对每个语料样本进行评输入模块210用于将多个语料样本输入到目标大语言模型,输出各个所述语料样获取模块220用于将所述语料样本与所述语料样本对应的文本标量分数作为一个训练模块230用于基于所述多个训练样本对分类器进行训练,得到训练好的目标筛选模块240用于基于所述目标分类器对预设语料库中的各个语料样本进行筛基于所述语料样本与所述预设提示模板结合,并输入到所述目标大语言模型中,[0076]此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论