CN116127045B 生成式大语言模型训练方法、基于模型的人机语音交互方法（北京百度网讯科技有限公司）

上传人：1*** IP属地：山西上传时间：2026-04-07 格式：DOCX 页数：59 大小：1.56MB 积分：9.6 举报 版权申诉

CN116127045B 生成式大语言模型训练方法、基于模型的人机语音交互方法（北京百度网讯科技有限公司）_第2页

CN116127045B 生成式大语言模型训练方法、基于模型的人机语音交互方法（北京百度网讯科技有限公司）_第3页

CN116127045B 生成式大语言模型训练方法、基于模型的人机语音交互方法（北京百度网讯科技有限公司）_第4页

CN116127045B 生成式大语言模型训练方法、基于模型的人机语音交互方法（北京百度网讯科技有限公司）_第5页

已阅读5页，还剩54页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于模型的人机语音交互方法，涉及生成式模预训练好的第一生成式大语言模型进行有监督同用户输入文本与不同候选输出之间的用户偏第二训练集对预训练好的第三生成式大语言模式大语言模型可显著提升人机语音交互场景下2接口调用序列的服务接口对应于由所述用户输入语音转换得到的用户输入文本表达出的利用所述第一训练集对预训练好的第一生成式基于相同用户输入语音与不同候选输出之间的用户偏好排有输入文本与相应的接口调用指令之间对应利用第二训练集对预训练好的第三生成式大语言模型进行有监督训练，得到奖励模将所述第二生成式大语言模型，基于所述奖励模型返回的得分，获取用户以语音形式发出的用户输入语音，并将所述用户输入根据所述功能使用意图确定用于实现相应意图的目标服务接口基于由所述用户输入语音与匹配的服务接口调用序列构成的样本响应于所述用户输入文本的表达中包含有至个所述功能使用意图对应的目标服务接口和所述根据所述目标服务接口和所述具体接口参数，构建得到所述服务接口调用序列，根据与每个所述功能使用意图对应的目标服务接口和具体接口根据不同的功能使用意图之间的执行依赖关系，确定不同的接口调用指令的执行顺从检索日志中确认对相同所述检索词返回过的所有检索结果，3将相同检索词分别与各检索结果生成多个样本对，并根据不同检索结果基于按所述排序信息进行用户偏好排序的各样本对和记录有输入文本与相应的接口将所述用户输入语音作为输入数据输入目标生成式大语言模型；其中式大语言模型基于权利要求1_5任一项所述的生成式大语言模型训确定所述目标生成式大语言模型输出的服务接口调用序列中包含的各接口调用指令将所述输出文本调整为表达相同含义的随机将所述输出文本调整为表达相同含义的、与所述用户输入语音所具有的相同表述方第一训练集构建单元，被配置成基于用户输入语音与匹配的有监督微调训练单元，被配置成利用所述第一训练集第二训练集构建单元，被配置成基于相同用户输入语音4奖励模型训练单元，被配置成利用第二训练集对预训练好的第三强化学习训练单元，被配置成将所述第二生成式大语功能使用意图确定子单元，被配置成获取用户以语音形式发服务接口调用序列构建子单元，被配置成根据所述目标服务接口和所述具体接口参第一训练集构建子单元，被配置成基于由所述用户输入语音响应于所述用户输入文本的表达中包含有至个所述功能使用意图对应的目标服务接口和所述服务接口调用序列构建子单元被进一步根据与每个所述功能使用意图对应的目标服务接口和具体接口根据不同的功能使用意图之间的执行依赖关系，确定不同的接口调用指令的执行顺态分布对所述新语言单元的特征进行参数采从检索日志中确认对相同所述检索词返回过的所有检索结果，将相同检索词分别与各检索结果生成多个样本对，并根据不同检索结果基于按所述排序信息进行用户偏好排序的各样本对和记录有输入文本与相应的接口5模型调用单元，被配置成将所述用户输入语音作为输入数据输入预接口调用序列执行单元，被配置成执行所述目标生成式大语言模型确定所述目标生成式大语言模型输出的服务接口调用序列中包含的各接口调用指令将所述输出文本调整为表达相同含义的随机将所述输出文本调整为表达相同含义的、与所述用户输入语音所具有的相同表述方22.根据权利要求17_21任一项所述的装置，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被理器执行，以使所述至少一个处理器能够执行权利要求1_5中任一项所述的生成式大语言模型训练方法和/或权利要求6_11任一项所述的基于生成式大语言模型的人机语音交互方24.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1_5中任一项所述的生成式大语言模型训练方法和/或权利要求6_11任一项所述的基于生成式大语言模型的人机权利要求1_5中任一项所述的生成式大语言模型训练方法的步骤和/或权利要求6_11任一项所述的基于生成式大语言模型的人机语音交互方法的6[0005]本公开实施例提出了一种生成式大语言模型训练方法和基于生成式大语言模型7[0008]第三方面，本公开实施例提出了一种基于生成式大语言模型的人机语音交互方[0009]第四方面，本公开实施例提出了一种基于生成式大语言模型的人机语音交互装面描述的生成式大语言模型训练方法或如第三方面描述的基于生成式大语言模型的人机练方法或如第三方面描述的基于生成式大语言模型的机程序在被处理器执行时能够实现如第一方面描述的生成式大语言模型训练方法的步骤或如第三方面描述的基于生成式大语言模型的人机语音交互方法入语音转换得到的)用户输入文本与表达相应功能使用意图的服务接口调用序列构建得使得训练得到的第二生成式大语言模型具有将用户输入文本改写为匹配的服务接口调用练得到的奖励模型拥有为生成式大语言模型针对用户输入文本所生成的不同候选进行质用下还将使得返回的结果更加符合用户的实际需求8终将输出文本转换为机器答复语音返回用户完成人机语音交互，提升了人机语音交互体[0015]应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特[0022]图6为本公开实施例提供的一种基于生成式大语言模型的人机语音交互方法的流[0025]图9为本公开实施例提供的一种基于生成式大语言模型的人机语音交互装置的结[0026]图10为本公开实施例提供的一种适用于执行生成式大语言模型训练方法和/或基于生成式大语言模型的人机语音交互方法的电子[0029]图1示出了可以应用本申请的生成式大语言模型训练方法、基于生成式大语言模9[0033]服务器105通过内置的各种应用可以提供各种服务，以可以为用户提供人机语音交互服务的人机语音交互类应用为例，服务器105在运行该人机语音交互类应用时可实现103通过播放该机器答复语音向相应用户[0034]其中，该目标生成式大语言模型可由服务器105上内置的模型训练类应用按如下[0035]由于为训练得到目标生成式大语言模型需要占用较多的运算资源和较强的运算中的轻量级的目标生成式大语言模型，还是选择使用服务器105中的较复杂的目标生成式[0038]请参考图2，图2为本公开实施例提供的一种生成式大语言模型训练方法的流程[0040]本步骤旨在由生成式大语言模型训练方法的执行主体(例如图1所示的服务器105)基于由(经用户以语音形式发出的用户输入语音转换得到的)用户输入文本与匹配的去较长时间段内收集记录得到的用户语音数据集，也可以来自于历史的人机交互序列集；而为实现用户输入语音转为用户输入文本，可借助自动语音识别(AutomaticSpeech[0042]其中，本公开所描述的“服务接口”是指用于提供服务的应用程序编程接口用(包括支持操作系统正常运行的系统相关应用和建立在操作系统正常运行上的其它应导航功能的NaviAPI(通常由地图类应用提供)、用于实现兴趣点定位的OptionAPI(通常由提供多项备选方案的具体应用提[0044]其中，服务接口调用序列最少可仅由一个服务接口对应的服务接口调用指令构成，而通常情况下则一般由多个(至少两个)存在执行顺序的不同服务接口调用指令构成。地Y街的Z，走最快的路线”，那么与该用户输入文本匹配的服务接口调用序列可表现为：功能所确定的路线选择偏好应共同作为导航功能的输入信息(即FindPOI(X地Y街的Z)和对用户输入文本的理解和对服务接口相关使用知识进行手动标注得到，也可以由非人工对象基于对隐含有上述两者之间对应关系的数据样本集中抽取得到，以实现高效率的构建[0049]步骤202：利用第一训练集对预训练好的第一生成式大语言模型进行有监督微调对之前已经预训练好的第一生成式大语言模型进行有监督微调训练(SupervisedFine_用生成式大语言模型通常仅是根据文本输入和大模型参数中蕴含的知识，基于语言单元(token)的预测概率生成一个文本序列作为结果，并不会具有将其改写为包括目标API和文本改写为包含目标API和API参数的服务接口调用序列。型可能并不适合作为使用SFT技术的基础模型(例如通用生成式大语言模型所学习到的知识与新构造的训练样本中隐含的知识存在冲突)，也可以基于新构造的训练样本对初始的[0053]步骤203：基于相同用户输入文本与不同候选输出之间的用户偏好排序和预设模[0054]在步骤202的基础上，本步骤旨在由上述执行主体基于相同用户输入文本与不同候选输出之间的用户偏好排序和记录有输入文本与相应的接口调用指令之间对应关系的各预设模板，共同构建第二训练集。该预设模板可以具体表现为：“我要找[String]—录的对相同用户输入文本返回的备选输出列表中各备选输出在一段时间内的累计点击次[0059]在步骤203的基础上，本步骤旨在由上述执行主体利用第二训练集对预训练好的奖励模型，是指通过学习第二训练集中每个训练样本下不同样本对之间的用户偏好排序，得以学习到如何对相同输入下不同备选输出赋[0066]4)采用RL(强化学习)的方式，基于模型M获得的总奖励得分不断更新其生成策略[0069]假定目标生成式大语言模型根据上述方案学习到了将用户输入文本输出为服务述步骤依次进行的：[0089]query+Navi+(+FindPOI+(+X+地+Y+街+的+Z+)+，+Option+(+走+最+快+的+路__>[0090]query+Navi+(+FindPOI+(+X+地+Y+街+的+Z+)+，+Option+(+走+最+快+的+路+[0091]query+Navi+(+FindPOI+(+X+地+Y+街+的+Z+)+，+Option+(+走+最+快+的+路+线[0092]query+Navi+(+FindPOI+(+X+地+Y+街+的+Z+)+，+Option+(+走+最+快+的+路+线[0093]query+Navi+(+FindPOI+(+X+地+Y+街+的+Z+)+，+Option+(+走+最+快+的+路+线度和字符粒度中间的一种形态，子词在能够保留语言意义的同时，还能有效减少词表的大小(即词表中词的数量)，也能有效解决词表外词(out_of_vocabularywords)的情况。以个token。入语音转换得到的)用户输入文本与表达相应功能使用意图的服务接口调用序列构建得使得训练得到的第二生成式大语言模型具有将用户输入文本改写为匹配的服务接口调用入文本改写为匹配的服务接口调用序列的能力，还具有输出更符合用户需求的结果的能应的embedding(通常可译为词向量或词嵌入)的初始化问题，还可以采用参数采样初始化增加模型对新token的预测难度。这是因为新token的初始化embedding与通用生成式大语这种差异，可按已有token的embedding的多元正态分布(也称多变量正态分布或多变量高斯分布)对每个新token的embedding进行采样。形式化的，对于每个新token对应的[0100]其中，W∈Rn×d是由通用生成式大语言模型原词表中所有token的embedding不做调整，也将本实施例所提供的具体实现方式以替换步骤201的方式得到一个新的完整[0104]步骤302：根据功能使用意图确定用于实现相应意图的目标服务接口和具体接口[0105]在步骤301的基础上，本步骤旨在由上述执行主体根据功能使用意图确定用于实一个功能使用意图，而对应该功能使用意图的目标服务接口可为指代导航功能的Navi用户输入文本的表达中包含有至少两个功能使用意图的情况，对流程300中的其它步骤并[0118]在步骤401所举例子的基础上，本步骤旨在根据与每个功能使用意图对应的目标序应为：先执行FindPOI(X地Y街的Z)和Opt两指令可以并发执行)，然后在得到这两个指令结果的情况下，再基于两个指令结果执行[0125]在步骤403的基础上，本步骤旨在由上述执行主体按执行顺序组织不同的接口调不做调整，也将本实施例所提供的具体实现方式以替换步骤203的方式得到一个新的完整[0135]步骤504：基于按排序信息进行用户偏好排序的各样本对和记录有输入文本与相980[0151]在上述信息的基础上，将结合用户输入文本及匹配的服务接口调用序列构成的[0155]rel(我要找XX大,FindPOI(XX大学))>rel(我要找XX大,FindPOI(XX大学图书供了一种使用训练好的目标生成式大语言模型来解决实际问题的方案，如图6所示的一种基于生成式大语言模型的人机语音交互方法包[0167]步骤602：将用户输入语音对应的用户输入文本作为输入数据输入预设的目标生[0168]在步骤601的基础上，本步骤旨在由上述执行主体将用户输入语音对应的用户输对该用户输入文本进行处理得到改写后的接口调用序列。[0170]在步骤602的基础上，本步骤旨在由上述执行主体执行目标生成式大语言模型输[0173]在步骤603的基础上，本步骤旨在由上述执行主体将输出文本转换为语音形式的[0176]为了避免目标生成式大语言模型对不同表述的用户输入文本均输出相同格式的[0179]为进一步加深对本公开所提供方案的理解，下述还将通过图7示出一种针对具体生成式大语言模型训练装置实施例和一种基于生成式大语言模型的人机语音交互装置的实施例，生成式大语言模型训练装置实施例与图2所示的生成式大语言模型训练方法实施例相对应，基于生成式大语言模型的人机语音交互装置实施例与图6所示的基于生成式大练单元802，被配置成利用第一训练集对预训练好的第一生成式大语言模型进行有监督微训练单元804，被配置成利用第二训练集对预训练好的第三生成式大语言模型进行有监督805的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201_205的相关[0191]功能使用意图确定子单元，被配置成获取用户以语音形建得到服务接口调用序列；[0202]在本实施例的一些可选的实现方式中，第二训练集构建单元803可以被进一步配[0206]基于按排序信息进行用户偏好排序的各样本对和记录有输入文本与相应的接口同候选输出之间的用户偏好排序所构建的第二训练集对预训练好的第三生成式大语言模得到的目标生成式大语言模型不仅具有将用户输入文本改写为匹配的服务接口调用序列的目标生成式大语言模型具有了深度理解用户需求并自行构建相应接口调用指令进行查[0208]如图9所示，本实施例的基于生成式大语言模型的人机语音交互装置900可以包具体处理及其所带来的技术效果可分别对应图6所示方法实施例中的相关说明，在此不再[0210]在本实施例的一些可选的实现方式中，接口调用序列执行单元903可以被进一步[0211]确定目标生成式大语言模型输出的服务接口调用序列中包含的各接口调用指令成式大语言模型的人机语音交互方案，则是具体针对由语音助手充当执行主体的场景下，助手借助该目标生成式大语言模型将用户输入语音对应的用户输入文本转换为匹配的服任一实施例描述的生成式大语言模型训练方法和/或基于生成式大语言模型的人机语音交大语言模型训练方法和/或基于生成式大语言模型的实现上述任一实施例描述的生成式大语言模型训练方法和/或基于生成式大语言模型的人[0225]如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信[0227]计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算而被载入和/或安装到设备1000

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN116127045B 生成式大语言模型训练方法、基于模型的人机语音交互方法（北京百度网讯科技有限公司）

文档简介

温馨提示

最新文档

评论

CN116127045B 生成式大语言模型训练方法、基于模型的人机语音交互方法 （北京百度网讯科技有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN116127045B 生成式大语言模型训练方法、基于模型的人机语音交互方法（北京百度网讯科技有限公司）