CN119202203B 文本生成方法、电子设备以及存储介质 (阿里云飞天(杭州)云计算技术有限公司)_第1页
CN119202203B 文本生成方法、电子设备以及存储介质 (阿里云飞天(杭州)云计算技术有限公司)_第2页
CN119202203B 文本生成方法、电子设备以及存储介质 (阿里云飞天(杭州)云计算技术有限公司)_第3页
CN119202203B 文本生成方法、电子设备以及存储介质 (阿里云飞天(杭州)云计算技术有限公司)_第4页
CN119202203B 文本生成方法、电子设备以及存储介质 (阿里云飞天(杭州)云计算技术有限公司)_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

A,2023.06.27A,2023.06.23A,2024.01.12A,2022.08.09A,2023.01.03数据的数据结构信息构建待处理数据的目标图2基于所述待处理数据的数据结构信息构建所述待处理数据基于所述目标图谱生成所述待处理数据的目标问题,并通过分析所文信息、所涉及实体的复杂程度以及所述目标问题的范围识别所述目标问题的问题类型,响应于所述问题类型为所述细节型问题,从所响应于所述问题类型为所述总结型问题,对多个回复文本与所述目标问题的关联程度对所述多个子回复文本进行筛选,得到所述回复文从所述多个文本块中抽取所述待处理数据的第从所述待处理数据中抽取得到目标文本,其中,所述目标文本用于根据所述目标文本确定所述待处理数据所属的将所述提示词模板输入至大模型中,利用所述大模型从所3基于所述第三实体信息和所述第三实体信息的实体结构信息从所述多个文本块中抽基于所述多个子回复文本与所述目标问题的关联程度对所述多个子回复文本进行筛其中,响应于所述问题类型为所述细节型问题,所述回复文本4基于所述待处理数据的数据结构信息构建所述待处理数据基于所述目标图谱生成所述待处理数据的目标问题,并通过分析所文信息、所涉及实体的复杂程度以及所述目标问题的范围识别所述目标问题的问题类型,通过调用第二接口输出所述目标问题和所述回复文本,其中,所述第二响应于所述问题类型为所述细节型问题,从所响应于所述问题类型为所述总结型问题,对多个回复文本与所述目标问题的关联程度对所述多个子回复文本进行筛选,得到所述回复文5新速度、数据质量以及领域覆盖度往往无法满足大模型检索增强生成系统的发展的需求。理数据中不同实体和不同实体之间的关联关系;基于目标图谱生成待处理数据的目标问6性来提炼文档的主旨和关键信息,使得可以生成更具有深度和广度的目标问题提供了可员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范7使得大模型可以应用于不同的任务中。例如,大模型可以广泛应用于自然语言处理以文本生成场景下通过大模型进行数据处理为例进行解释说明。[0033]大语言模型(LargeLanguageModel,简称为LLM大语言模型基于深度学习技8结构化的信息,需要通过处理来提取知识和生成问题。其中,待处理数据可以为结构化的9[0052]上述的问题类型可以是指根据问题内容和目的划分的问题类别,如细节型问题、后续根据该目标问题得到能够体现待处理数据主够综合考虑问题涉及的多个方面和实体间的复杂关[0068]本申请中所提供的文本生成方法,旨在克服现有技术中生成文本效果较差的问[0069]在构建目标图谱的过程中,可以利用待处理数据的数据结构信息来构建目标图[0071]上述的文本生成方法能够从问题文本和回复文本两个层面全面提升文本生成效来提炼文档的主旨和关键信息,使得可以生成更具有深度和广度的目标问题提供了可能,[0075]上述的实体可以是在文本中出现的具有独特意义的对象或概念,它们可以是人一个系统化的方法,旨在从原始的待处理数据中提取出语义完整且逻辑清晰的小段文本,为后续的实体和关系抽取、知识图谱构建以及问答数据生成等任务提供更易于处理的输原始结构和语义,还能够为后续的实体和关系抽取等任务提供更易于处理和理解的输入。[0086]在一种可选的实施例中,可以基于数据结构信息将待处理数据分割成多个文本息在多个文本块中的上下文进行深入分析,以理解这些实体在不同语境下的含义和角色。安全组件如何保护数据的段落可以作为目标文本。目标文本是指从待处理数据中抽取出抽取与目标领域相关的实体信息,这些信息将用于后续的知识图谱构建和问答数据的生[0105]通过构建领域自适应的提示词模板,显著提高了实体信息抽取的准确性和效[0109]在一种可选的实施例中,可以获取目标领域包含的实体类型,可以采用大模型[0111]第二实体信息通常是指在GraphIndexing阶段从多个文本块中抽取到的实体信[0118]在设计了初步的提示词模板后,根据大模型的反馈和生成结果进行调整和优[0122]上述创建的领域自适应提示词模板不仅能够引导模型在特定领域内进行更准确[0125]在一种可选的实施例中,通过对第一实体信息中属于同的声明、属性和关系,形成反映实体结构的初始图谱。可以使用层次化社区检测算法分既互斥又集合穷尽,从而得到上述的多个实体集群,可以基于Leiden对初始图谱进行更新,将属于同一实体集群的实体之间相互关联的信息进行整合和调整,生成最终的目标图谱。[0133]为了达到上述目标,本申请可以采用Leiden层次化社区检测算法进行聚类。[0139]上述的信息向量可以为通过特征提取将集群信息和关键社区检测,可以获得集群的层次结构和每个集群的组成信息。采用图谱嵌入技术(如键词的上下文信息和潜在语义含义,从而生成更精准的向量表示。将关键词的上下文信息以增强向量的语义表示能力。步骤需要综合考虑实体集群在知识图谱中的位置、实体的影响力和关联度,以及实体集群后针对每个信息块生成一个子回复文本,并评估每个子回复文本与目标问题的关联程度。模板能够指导大模型生成与目标问题相关、但具体聚焦于信息块的子问题。模板设计需要结合信息块的语义和结构特征,以确保生成的子问题既具相关性又具多样性。例如,对于成详细回答。每个子回复文本都针对一个具体的信息块,但回答时考虑了整体目标问题的匹配的是具有重要语义价值的词语。如果子回复文本包含了目标问题中的关键实体和概[0178]基于预设文本字数对初始回复文本进行调整,是确保生成的问答数据格式统一、将被过滤掉,而评分较高的中间答案将被整合成初始回复文本。通过对初始回复文本进行复文本符合预设的字数限制。[0199]对于自适应提示模板创建模板(prompt_tuning在对某个行业领域的文件进行配输入文件的领域。本申请中设计了特殊的提示模板,可以利用LLM根据文本依次生成领[0204]通过实体消解的方式解决那些代表相同真实世界实体但要进一步理解图谱的社区结构,并通过额外的信息来增强图谱。这个阶段通过社区检测[0207]在社区检测过程中,使用Leiden层次化社区检测算法对图谱进行递归的社区聚[0209]经过上述阶段的处理已经有了一个包含实体、关系和社区层次结构的功能性图[0212]对于社区嵌入的步骤,可以通过对社区报告及其摘要生成向量表示(embedding)键信息的前K条用于生成种子问题。问答内容扩展模块可以根据知识图谱构建的复杂的关[0215]对于种子问题生成模块,目前是根据某个chunk内容生成种子问题或者直接生成Leiden社区检测算法的层次结构社区聚类,Graph中的社区从低到高被分为多个层次,这些连接扩充种子问题的信息量和复杂度。将种子问题作为query从知识图谱中通过[0219]对于细节型问题,可以直接根据生成query的上下文信息生成[0224]本申请提出了一种基于知识图谱检索增强的问答数据生成方法,先利用Graph提据主干内容进行QA扩展的方式,能够生成涉及多跳关系的问题,在保证query有效性的同Graph提取出的文本数据主旨信息生成高质量的种子问题,然后利用知识图谱中复杂的关[0236]上述的确认指令可以为需要对待处理数据进行处理时通过用户对操作界面上的[0248]根据本申请实施例,还提供了一种用于实施上述文本生的一部分可以运行在上述实施例提供的服务器[0251]本申请上述实施例中,构建模块还用于基于数据结构信息对待处理数据进行分[0261]根据本申请实施例,还提供了一种用于实施上述文本生[0264]根据本申请实施例,还提供了一种用于实施上述文本生输出模块910对应于上述实施例中的步骤S602至步骤S610,五个模块与对应的步骤所实现可以作为装置的一部分可以运行在上述实施例提供的服务[0273]处理器可以通过传输装置调用存储器存储的信息及应用程序获取待处理数据;基于所述待处理数据的数据结构信息构建所述待处理数据的目标图谱,其中,所述目标图谱用于描述所述待处理数据中不同实体和所述不同实体之间的关联关[0275]本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可计算机可读存储介质可以用于保存上述实施例所提供的方[0286]所述集成的单元如果以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论