CN116127046B 生成式大语言模型训练方法、基于模型的人机语音交互方法（北京百度网讯科技有限公司）

上传人：1*** IP属地：山西上传时间：2026-04-07 格式：DOCX 页数：60 大小：1.66MB 积分：9.6 举报 版权申诉

CN116127046B 生成式大语言模型训练方法、基于模型的人机语音交互方法（北京百度网讯科技有限公司）_第2页

CN116127046B 生成式大语言模型训练方法、基于模型的人机语音交互方法（北京百度网讯科技有限公司）_第3页

CN116127046B 生成式大语言模型训练方法、基于模型的人机语音交互方法（北京百度网讯科技有限公司）_第4页

CN116127046B 生成式大语言模型训练方法、基于模型的人机语音交互方法（北京百度网讯科技有限公司）_第5页

已阅读5页，还剩55页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

Toolformer:LanguageModelsC基于模型的人机语音交互方法，涉及生成式模练集对预设的第一生成式大语言模型进行有监相同用户输入文本与不同候选输出之间的用户用第二训练集对预设的第三生成式大语言模型大语言模型可显著提升人机语音交互场景下的2获取人机对话序列，并确定所述人机对话序列中对用户输入文利用所述第一训练集对预训练好的第一生成式基于相同用户输入文本与不同候选输出之间的用户偏好排有输入文本与相应的接口调用指令之间对应利用第二训练集对预训练好的第三生成式大语言模型进行有监督训练，得到奖励模将所述第二生成式大语言模型，基于所述奖励模型返回的得分，从检索日志中确认对相同所述检索词返回过的所有检索结果，将相同检索词分别与各检索结果生成多个样本对，并根据不同检索结果基于按所述排序信息进行用户偏好排序的各样本对和记录有输入文本与相应的包含将所述用户输入语音对应的用户输入文本作为输入数据输入目标生成式大语言模型；接收所述目标生成式大语言模型返回的输出文本；其中，所3将所述输出文本调整为表达相同含义的随机将所述输出文本调整为表达相同含义的、与所述用户输入文本所具有的相同表述方第一训练集构建单元，被配置成获取人机对话序列，并确定所述人户输入文本做出成功响应的有效机器答复，所述用户输入文本由用户输入语音转换得到；对话序列中位于非首项输出结果前的所有对话内容和所述非首项输出结果作为非起始样调用的服务接口对应于所述用户输入文本表达出的功能使有监督微调训练单元，被配置成利用所述第一训练集第二训练集构建单元，被配置成基于相同用户输入文本奖励模型训练单元，被配置成利用第二训练集对预训练好的第三强化学习训练单元，被配置成将所述第二生成式大语从检索日志中确认对相同所述检索词返回过的所有检索结果，将相同检索词分别与各检索结果生成多个样本对，并根据不同检索结果4基于按所述排序信息进行用户偏好排序的各样本对和记录有输入文本与相应的包含模型调用单元，被配置成将所述用户输入语音对应的用户输入文本所述输出文本基于执行接口调用指令后得到的响应信息生成得将所述输出文本调整为表达相同含义的随机将所述输出文本调整为表达相同含义的、与所述用户输入文本所具有的相同表述方所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被方法和/或权利要求3_7任一项所述的基于生成式大语言模型的人机语音16.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1或2所述的生成式大语言模型训练方法和/或权利要求3_7任一项权利要求1或2所述的生成式大语言模型训练方法的步骤和/或权利要求3_7任一项所述的基于生成式大语言模型的人机语音交互方法的步5[0005]本公开实施例提出了一种生成式大语言模型训练方法和基于生成式大语言模型集对预训练好的第一生成式大语言模型进行有监督微调训练，得到第二生成式大语言模6[0008]第三方面，本公开实施例提出了一种基于生成式大语言模型的人机语音交互方方面描述的生成式大语言模型训练方法得到；接收目标生成式大语言模型返回的输出文[0009]第四方面，本公开实施例提出了一种基于生成式大语言模型的人机语音交互装面描述的生成式大语言模型训练方法或如第三方面描述的基于生成式大语言模型的人机练方法或如第三方面描述的基于生成式大语言模型的机程序在被处理器执行时能够实现如第一方面描述的生成式大语言模型训练方法的步骤或如第三方面描述的基于生成式大语言模型的人机语音交互方法入语音转换得到的)用户输入文本与表达相应功能使用意图的包含有接口调用指令的输出偏好排序和预设模板集合所构建的第二训练集对预训练好的第三生成式大语言模型进行最终得到的目标生成式大语言模型不仅具有将用户输入文本改写为匹配的包含有接口调案使得经训练得到的目标生成式大语言模型具有了深度理解用户需求并自行构建相应接7[0015]应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特[0020]图4为本公开实施例提供的一种基于由用户输入文本与匹配的输出结果构成的样[0022]图6为本公开实施例提供的一种基于生成式大语言模型的人机语音交互方法的流[0025]图9为本公开实施例提供的一种基于生成式大语言模型的人机语音交互装置的结[0026]图10为本公开实施例提供的一种适用于执行生成式大语言模型训练方法和/或基于生成式大语言模型的人机语音交互方法的电子8[0029]图1示出了可以应用本申请的生成式大语言模型训练方法、基于生成式大语言模[0033]服务器105通过内置的各种应用可以提供各种服务，以可以为用户提供人机语音交互服务的人机语音交互类应用为例，服务器105在运行该人机语音交互类应用时可实现[0034]其中，该目标生成式大语言模型可由服务器105上内置的模型训练类应用按如下[0035]由于为训练得到目标生成式大语言模型需要占用较多的运算资源和较强的运算9中的轻量级的目标生成式大语言模型，还是选择使用服务器105中的较复杂的目标生成式[0038]请参考图2，图2为本公开实施例提供的一种生成式大语言模型训练方法的流程[0040]本步骤旨在由生成式大语言模型训练方法的执行主体(例如图1所示的服务器105)基于由(经用户以语音形式发出的用户输入语音转换得到的)用户输入文本与匹配的图，即接口调用指令所调用的服务接口对应于实现用户输入文本所想要表达的预期需求，[0042]其中，本公开所描述的“服务接口”是指用于提供服务的应用程序编程接口用(包括支持操作系统正常运行的系统相关应用和建立在操作系统正常运行上的其它应查询限行政策功能的GetTRAPI(通常由新闻政策或搜索引能使用意图，但其中仅有一项必须通过对应的接口调用指令以执行后寻求返回响应的方[0045]若与用户输入文本匹配的包含有接口调用指令的输出结果中同时包含有多条接其一般均包含目标服务接口的接口名和具体的接口调用参数，两者以要求的格式进行组中的某个文本片段直接充当，也可以由表达与相应文本片段相同含义的其它形式内容充一个功能使用意图，而对应该功能使用意图的目标服务接口可为指代导航功能的Navi文本中所表达出的必须基于实时、动态信息来进行结果计算的导航功能使用意图表现为唯[0053]步骤202：利用第一训练集对预训练好的第一生成式大语言模型进行有监督微调对之前已经预训练好的第一生成式大语言模型进行有监督微调训练(SupervisedFine一用生成式大语言模型通常仅是根据文本输入和大模型参数中蕴含的知识，基于语言单元(token)的预测概率生成一个文本序列作为结果，并不会具有将其改写为包括目标API和模型所需要付出的庞大耗时，只需要构造包含少有将用户输入文本改写为包含目标API和API参数的包含有接口调用指令的输出结果的能型可能并不适合作为使用SFT技术的基础模型(例如通用生成式大语言模型所学习到的知识与新构造的训练样本中隐含的知识存在冲突)，也可以基于新构造的训练样本对初始的[0057]步骤203：基于相同用户输入文本与不同候选输出之间的用户偏好排序和预设模[0058]在步骤202的基础上，本步骤旨在由上述执行主体基于相同用户输入文本与不同候选输出之间的用户偏好排序和记录有输入文本与相应的接口调用指令之间对应关系的录的对相同用户输入文本返回的备选输出列表中各备选输出在一段时间内的累计点击次[0063]在步骤203的基础上，本步骤旨在由上述执行主体利用第二训练集对预训练好的奖励模型，是指通过学习第二训练集中每个训练样本下不同样本对之间的用户偏好排序，得以学习到如何对相同输入下不同备选输出赋[0070]4)采用RL的方式，基于模型M获得的总奖励得分不断更新其策略(对应英文：[0073]假定目标生成式大语言模型根据上述方案学习到了将用户输入文本输出为包含有接口调用指令的输出结果的能力，那么仍以“导航去X地Y街的Z，走红绿灯最少的路线”[0096]query+Z1+，+位+于+X+地+Y+街+，+红+绿+灯+最+少+的+路+线+如+下+Navi+(+度和字符粒度中间的一种形态，子词在能够保留语言意义的同时，还能有效减少词表的大个token。入语音转换得到的)用户输入文本与表达相应功能使用意图的包含有接口调用指令的输出使得训练得到的奖励模型拥有为生成式大语言模型针对用户输入文本所生成的不同候选生成式大语言模型不仅具有将用户输入文本改写为匹配的包含有接口调用指令的输出结到的目标生成式大语言模型具有了深度理解用户需求并自行构建相应接口调用指令进行应的embedding(通常可译为词向量或词嵌入)的初始化问题，还可以采用参数采样初始化增加模型对新token的预测难度。这是因为新token的初始化embedding与通用生成式大语这种差异，可按已有token的embedding的多元正态分布(也称多变量正态分布或多变量高斯分布)对每个新token的embedding进行采样。形式化的，对于每个新token对应的[0110]其中，E∈Rn×d是由通用生成式大语言模型原词表中所有token的embedding不做调整，也将本实施例所提供的具体实现方式以替换步骤201的方式得到一个新的完整[0113]本步骤旨在由上述执行主体获取记录用户与机器进行对[0116]步骤303：将有效机器答复中可通过执行接口调用指令返回得到的部分或全部答[0117]在步骤302的基础上，本步骤旨在由将有效机器答复中可通过执行接口调用指令[0119]步骤304：基于由用户输入文本与匹配的输出结果构成的样本对，构建第一训练果构成的样本对构建第一训练集的方法的流程图，即针对图3所示的流程300中的步骤304具体实现方式以替换步骤304的方式得到一个新的完整实施例。其中流程400包括以下步[0123]步骤402：将新人机对话序列中的首项用户输入文本和首项输出结果作为起始样[0124]步骤403：将新人机对话序列中位于非首项输出结果前的所有对话内容和非首项不做调整，也将本实施例所提供的具体实现方式以替换步骤203的方式得到一个新的完整[0142]步骤504：基于按排序信息进行用户偏好排序的各样本对和记录有输入文本与相980供了一种使用训练好的目标生成式大语言模型来解决实际问题的方案，如图6所示的一种基于生成式大语言模型的人机语音交互方法包[0175]步骤602：将用户输入语音对应的用户输入文本作为输入数据输入预设的目标生[0176]在步骤601的基础上，本步骤旨在由上述执行主体将用户输入语音对应的用户输[0178]在步骤602的基础上，本步骤旨在由上述执行主体接收目标生成式大语言模型返要调用相应服务接口的地方则自动生成接口调用指令并进行执行以获得返回的调用结果，(API及其对应参数)的生成和执行都在目标生成式大语言模型生成输出文本的过程中自动不会真正存在于输出文本中，存在于输出文本中的内容应为调用该Navi[0182]在步骤603的基础上，本步骤旨在由上述执行主体将输出文本转换为语音形式的[0185]为了避免目标生成式大语言模型对不同表述的用户输入文本均输出相同格式的[0188]为进一步加深对本公开所提供方案的理解，下述还将通过图7示出一种针对具体[0191]3)目标生成式大语言模型先通过生成GetNum(UserID)的接口调用指令来根据当[0192]4)目标生成式语言模型继续通过生成GetTR(City,Date,Number)的接口调用指生成式大语言模型训练装置实施例和一种基于生成式大语言模型的人机语音交互装置的实施例，生成式大语言模型训练装置实施例与图2所示的生成式大语言模型训练方法实施例相对应，基于生成式大语言模型的人机语音交互装置实施例与图6所示的基于生成式大监督微调训练单元802，被配置成利用第一训练集对预训练好的第一生成式大语言模型进相同用户输入文本与不同候选输出之间的用户偏好排序和预设模板集合，构建第二训练805的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201_205的相关[0206]将新人机对话序列中位于非首项输出结果前的所有对话内容和非首项输出结果[0209]在本实施例的一些可选的实现方式中，第二训练集构建单元803可以被进一步配[0213]基于按排序信息进行用户偏好排序的各样本对和记录有输入文本与相应的接口在由相同用户输入文本与不同候选输出之间的用户偏好排序所构建的第二训练集对预训将使得返回的结果更加符合用户的实际需求[0215]如图9所示，本实施例的基于生成式大语言模型的人机语音交互装置900可以包成式大语言模型的人机语音交互方案，则是具体针对由语音助手充当执行主体的场景下，任一实施例描述的生成式大语言模型训练方法和/或基于生成式大语言模型的人机语音交大语言模型训练方法和/或基于生成式大语言模型的实现上述任一实施例描述的生成式大语言模型训练方法和/或基于生成式大语言模型的人[0229]如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信[0231]计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算而被载入和/或安装到设备1000上。当计算机程序加载到RAM1003并由计算单元1001执行时，可以执行上文描述的生成式大语言模型训练方法和/或基于生成式大语言模型的人机何适当的方式(例如，借助于固件)而被配置为执行机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN116127046B 生成式大语言模型训练方法、基于模型的人机语音交互方法（北京百度网讯科技有限公司）

文档简介

温馨提示

最新文档

评论

CN116127046B 生成式大语言模型训练方法、基于模型的人机语音交互方法 （北京百度网讯科技有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN116127046B 生成式大语言模型训练方法、基于模型的人机语音交互方法（北京百度网讯科技有限公司）