CN119227813B 问答方法、装置、相关设备及计算机程序产品 (亚信科技(中国)有限公司)_第1页
CN119227813B 问答方法、装置、相关设备及计算机程序产品 (亚信科技(中国)有限公司)_第2页
CN119227813B 问答方法、装置、相关设备及计算机程序产品 (亚信科技(中国)有限公司)_第3页
CN119227813B 问答方法、装置、相关设备及计算机程序产品 (亚信科技(中国)有限公司)_第4页
CN119227813B 问答方法、装置、相关设备及计算机程序产品 (亚信科技(中国)有限公司)_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

品请利用包含特定领域知识片段的结构化知识库提示输入数据输入到经过两阶段微调训练得到2将所述提示输入数据输入至预训练的大模型,得到所述大模型输出添加利用所述结构化知识库检索到的与所述用户查询样本匹配的知识片段作为新的训练将所述特定领域的原始知识文档中的文本内容解析成结构化文叶子节点对应的知识片段在所述原始知识文将每一叶子节点对应的知识片段及其结构信息进行组合,并将组合文本转换为向量,并将每一叶子节点对应的知识片段及转换得到的向量对应地存储于所述结将所述原始知识文档中的表格分别转换为可供大模型处将所述摘要信息转换为向量,并将所述摘要信息作为一条知识片段将所述知识片段对应的结构信息对应地存储于所述结构化基于向量相关度,从所述结构化知识库中检索与所述用户查询向量基于向量相关度,从所述结构化知识库中检索与所述用户查询向量3利用预训练的相关度确定模型,分别确定每条候选知识片段与所述用户查询的相关采用标注有相关度得分的知识片段样本及用户查询样则,在所述利用预置的结构化知识库检索与所述用户查询相关的目标知识片段之后,对于检索到的与所述用户查询相关的目标知识片段,利用所述目标知识若存在两个目标知识片段对应的两个叶子节点属于同一父节点若存在至少两个所述目标知识片段对应的叶子节点共享一父节点下超过预设比例的叶子节点对应的知识片段包含在被召回的各所述目标知识片段利用所述目标知识片段在原始知识文档中的对于被召回的各所述目标知识片段中的每一条目判断所述目标知识片段对应的叶子节点所属的父节点下所有的叶子节点对应的知识4提示输入数据生成单元,用于整合所述目标知识片段与所述用户查询添加利用所述结构化知识库检索到的与所述用户查询样本匹配的知识片段作为新的训练5法充分提升大模型在特定领域的问答应用中库检索到的与所述用户查询样本匹配的知识片段作为新的训练数据对所述一阶段训练后叶子节点对应的知识片段在所述原始知识文6[0021]相应地,所述利用预置的结构化知识库检索与所述用户查询相关的目标知识片[0025]相应地,所述利用预置的结构化知识库检索与所述用户查询相关的目标知识片型采用标注有相关度得分的知识片段样本及用户查询样7所述父节点下超过预设比例的叶子节点对应的知识片段包含在被召回的各所述目标知识[0041]判断所述目标知识片段对应的叶子节点所属的父节点下所有的叶子节点对应的库检索到的与所述用户查询样本匹配的知识片段作为新的训练数据对所述一阶段训练后申请前述第一方面中任一项所描述的问答方法的8户查询相关的目标知识片段,进而将用户查询和目标知识片段进行整合形成提示输入数微调训练利用特定领域的训练数据提高了初始大模型对特定领域信息的理解能力和模型测阶段能有效利用注入的知识片段,解决了现有技术中模型微调与预测之间割裂的问题,显著提升了大模型在特定领域的问答应用中LargePre_TrainedModels或Large_ScalePre_TrainingModels。大模型的特点是规9[0069]终端100或服务器200均可单独用于执行本申请实施例提供的问答方法。除此之[0074]输入单元130可用于接收输入的数字或字符信息,以及产生与该便携式多功能装或其他输入设备132。该触摸屏131可收集用户在其上或附近的触摸操作(比如用户使用手[0078]处理器170是终端100的控制中心,利用各种接口和线路连接整个终端100的各个备通信。该无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystemofMobilecommunication,GSM)、通用分组无线服务(GeneralPacket多针连接器,可以用于连接终端100与其他装置进行通信,也可以用于连接充电器为终端[0088]总线201可以是外设部件互连标准(peripheralcomponentinterco[0089]处理器202可以为中央处理器(centralprocessingunit,CPU)、图形处理器[0090]存储器204可以包括易失性存储器(volatilememory),例如随机存取存储器(randomaccessmemory,RAM)。存储器204还可以包括非易失性存储器(non_volatile100和服务器200中的处理器(例如处理器170以及处理器202)可以为硬件电路(如专用集成电路(applicationspecificintegratedcircuit,ASIC)、现场可编程门阵列(fielprogrammablegatearray,FPGA)、通用处理器、数字信号处理器(digitalsignal[0098]步骤S110、利用预置的结构化知识库检索与所述用户查[0100]特定领域是指问答方法在某个特定的行业、学科或主题范围内应用或实践的领的关联程度,其整合过程可以尝试不同的输入模板和策略,例如思维链提示、few_shot库检索到的与所述用户查询样本匹配的知识片段作为新的训练数据对所述一阶段训练后大模型经过第二阶段的微调训练后能够习得如何利用不仅提升了对特定领域的理解能力和指令服从性,也使得大模型习得如何利用知识片段,各节点表示叶子节点对应的知识片段在所述解析器将原始文档解析成结构化文档树。解析器可以根据文档的格式和复杂程度进行选定的解析规则。[0112]结构化文档树中由根节点至每一叶子节点的父节点构成了该叶子节点的结构信[0121]步骤S300、将所述原始知识文档中的表格分别转换为可供大模型处理的目标格关度确定模型采用标注有相关度得分的知识片段样本及用户查询样种方案中利用向量相似度可能检索出的相关性较弱的[0146]具体地,结构信息可以记录每个知识片段在原始知识文根据检索到的知识片段及其在原始知识文档中的结构信息,对知识片段进行修改和补充,[0147]接下来的实施例介绍了利用目标知识片段在原始知识文档中的结构信息进行重[0150]上述第一种重构方式通过去除重复内容以及按照原文顺序进行拼接的操作能够[0151]二、若存在至少两个所述目标知识片段对应的叶子节点并且所述父节点下超过预设比例的叶子节点对应的知识片段包含在被召回的各所述目标[0155]判断所述目标知识片段对应的叶子节点所属的父节点下所有的叶子节点对应的[0156]具体地,若目标知识片段A对应的叶子节点所属的父节点下所有的叶子节点对应[0158]通过结合预设比例和相关度阈值进行双重选择过滤,可以有效地控制选取的粒化知识库。对于原始知识文档中的表格,首先,将表库检索到的与所述用户查询样本匹配的知识片段作为新的训练数据对所述一阶段训练后节点的路径上的各节点表示叶子节点对应的知识片段在所述原始知识文档中的结构信息;每一叶子节点对应的知识片段及转换得到的向量对应地存储于所述结构化知识片段检索单元利用预置的结构化知识库检索与所述用户查询相关的目标知识片段的知识片段检索单元利用预置的结构化知识库检索与所述用户查询相关的目标知识片段的型采用标注有相关度得分的知识片段样本及用户查询样所述父节点下超过预设比例的叶子节点对应的知识片段包含在被召回的各所述目标知识[0202]判断所述目标知识片段对应的叶子节点所属的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论