CN119129722B 一种基于大语言模型及向量库构建知识图谱的方法（北京长河数智科技有限责任公司）

上传人：1*** IP属地：山西上传时间：2026-04-12 格式：DOCX 页数：52 大小：812KB 积分：10.8 举报 版权申诉

CN119129722B 一种基于大语言模型及向量库构建知识图谱的方法（北京长河数智科技有限责任公司）_第2页

CN119129722B 一种基于大语言模型及向量库构建知识图谱的方法（北京长河数智科技有限责任公司）_第3页

CN119129722B 一种基于大语言模型及向量库构建知识图谱的方法（北京长河数智科技有限责任公司）_第4页

CN119129722B 一种基于大语言模型及向量库构建知识图谱的方法（北京长河数智科技有限责任公司）_第5页

已阅读5页，还剩47页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

一种基于大语言模型及向量库构建知识图本申请公开了一种基于大语言模型及向量库构建知识图谱的方法，涉及知识图谱技术领RoBERTa模型进行分词、词性标注和语义解析处理，得到自然语言文本的语义表示向量；通过Seq2Seq框架及注意力机制，获取语义表示向量三元组。针对现有技术中实体链接难度大的问题，本申请将知识图谱转化为低维稠密向量表2将语义表示向量输入BiLSTM_Attention_CRF网络结构的Seq2Seq框架中，获取命名实将抽取得到的实体关系作为知识图谱的关系边，连接对应的头实体节点和尾实体节步骤三、将步骤二构建的知识图谱与预设领域的关系根据获取的命名实体、属性和实体关系数据，构建融合知识图谱的采用K_means聚类算法，对索引中的所有向量进行聚类，得到将向量空间划分为K个对索引中的每个向量，计算其与所有聚类中心的距离，将向量分3将融合知识图谱中的结构化三元组作为TransE模型利用TransE算法对结构化三元组进行向对协方差矩阵进行特征值分解，基于预设的方差贡献度阈值η,选择贡献度最大的前m将子索引中所有向量投影到选定的m个特征向量上，得到维度压导入基于HBase的分布式数据库，构建用于分布式存储的多列索基于预设频次阈值Fh，将访问频次高于Fh的子索引标记为热子索引45.根据权利要求2至4任一所述的基于大BiLSTM编码层接收RoBERTa模型输出的语义表示向量，通过双向LSTM学习输入向量的注意力机制层通过计算特征向量表示与预定义的命名实体类型嵌入向量之间的注意CRF解码层根据调整后的特征向量表示，通过建模命名实体标签之间的马尔科夫转移利用构建的关系模板，对命名实体对进行关遍历句法依存树的词节点和依存关系数据，根据词节点和依存关系，将句根据Dijkstra算法得到的节点前驱数据，从尾实体节点开始回溯获取最短依存路径的词节点数据，提取词节点的词性标注特5采集的自然语言文本数据，利用预训练的RoBERTa模型进行分词、词性标注和语义解析处力机制层调整BiLSTM编码特征，CRF解码层根据调整后的特征向量决策得到命名实体识别678图谱的低维向量表示中两两向量之间的余弦相似度；利用Faiss相似度搜索库中的括：采用K_means聚类算法，对索引中的所有向量进行聚类，得到将向量空间划分为K个为K个Voronoi单元，每个单元对应一个聚类中心：随机选择K个初始聚类中心，作为K个不再发生显著变化或达到最大迭代次数；得到稳定的K个Voronoi单元和对应的聚类中心，的Voronoi单元；向量与聚类中心的距离计算可以采用高效的向量相似度计算方法，如内9立进行，可以实现并行化处理；通过K_means聚类和Flat索引的结合，构建了一个基于协方差矩阵进行特征值分解，基于预设的方差贡献度阈值η,选择贡献度最大的前m个特征子索引数据存储到HBase中：对于标记为热子索引的数据，将其从HBase中读取，并写入进行命名实体识别，Seq2Seq框架采用BiLSTM_Attention_CRF网络结构：BiLSTM_[0025]CRF解码层接收注意力机制层输出的调整后特征向量表示，通过建模命名实体标体识别结果；具体的，CRF解码层将注意力机制层输出的调整后特征向量表示作为观测序[0026]通过在BiLSTM_Attention_CRF网络中前向传播计算损失函数和反向传播调整参的上下文相关语义，为命名实体识别提供了丰富的语义特征；注意力机制层通过融合连贯性和一致性；端到端训练的BiLSTM_Attention_CRF模型能够充分利用RoBERTa语义编节点和边构成实体对之间的最短依存路径，刻画了连接实体对的关键词和关键依存关系；[0037]将构建的知识图谱与已有的结构化关系数据库进行融合引入字符串匹配和属性[0039]利用Faiss相似度搜索库对顶点、属性和边的低维向量表示构建基于相似度的倒[0040]对倒排索引引入k_means聚类和PCA降维等优化压缩操作，并采用GPU多线程并行史访问频次的统计和热度识别，实现了知识图谱查询中热点数据的就近访问和实时响应，[0042]图1是根据本申请一些实施例所示的一种基于大语言模型及向量库构建知识图谱[0047]图1是根据本申请一些实施例所示的一种基于大语言模型及向量库构建知识图谱[0049]构建BiLSTM_Attention_CRF网络：构建BiLSTM编码层：使用Keras等深度学习框[0054]图2是根据本申请一些实施例所示的构建知识图谱示意图，利用步骤一识别出的训练的句法依存分析模型进行依存分析。常用的句法依存分析模型有StanfordParser、到路径中每个节点的最终分布式表示向量。GAT通过注意力机制有效地建模了依存路径的储，便于进行高效的查询、推理和可视化展示。常用的图数据库有Neo4j、JanusGraph、识图谱和关系数据库中的实体名称列表。对实体名称进行预处理，如去除空格、标点符号等。定义编辑距离：编辑距离是指将一个字符串转换为另一个字符串所需的最小编辑操作次数。编辑操作包括：插入一个字符、删除一个字符、替换一个字符。例如，将字符串的行数为第一个字符串的长度加1，列数为第二个字符串的长度加1。dp[i][j]表示将第一个字符串的前i个字符转换为第二个字符串的前j个字符所需的最小编辑距离。初始化矩[0064]使用预训练的语义匹配模型RoBERTa进行属性融合，从模型库中加载预训练的RoBERTa模型及其对应的词汇表和分词器。RoBERTa是一个基于Transformer架构的预训练利用预训练的语义匹配模型RoBERTa，可以实现对同名实体的属性描述进行语义相似度计心的距离。将每个顶点向量分配到距离最近的Voronoi单元中。对于索引中的每个属性向量，计算它到所有属性聚类中心的距离。将每个属性向量分配到距离最近的Voronoi单元引的初始划分。k_means++算法可以更好地选择初始聚类中心，提高聚类的质量和收敛速于每个向量，计算它与s个聚类中心的距离，将其分配到距离最近的聚类中心所在的子索将子索引中所有向量投影到选定的m个特征向量上，得到维度压缩后的m维向量表示数据Y使用哈希数据结构存储子索引：在Redis中，使用哈希数据结构来存储压缩后的子索引数缩后的子索引数据被导入到HBase和Redis的混合存储架构中。HBase表的行键设计和列族的组织方式实现了子索引数据的分布式存储和高效访问。Redis的哈希数据结构提供了快了HBase的分布式存储能力和Redis的高速缓存能力，能够有效地支持知识图谱数据的存[0077]使用一致性哈希分区算法将子索引数据存储到HBase表，选择适当的一致性哈希将计算得到的哈希值映射到哈希环上，顺时针找到第一个大于等于该哈希值的列族节点。果，更新每个子索引的热点标记状态。可以在Redis中为每个子索引维护一个热点标记字段，用布尔值表示其是否为热点子索引。将访问频次高于Fh的子索引的热点标记设置为热点子索引数据：对于标记为热点子索引的数据，从HBase中读取其对应的完整子索引数对应行和列族中。同步删除数据：对于在Redis中被删除的热点子索引数据，需要将其从之间的相似

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN119129722B 一种基于大语言模型及向量库构建知识图谱的方法（北京长河数智科技有限责任公司）

文档简介

温馨提示

最新文档

评论

CN119129722B 一种基于大语言模型及向量库构建知识图谱的方法 （北京长河数智科技有限责任公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN119129722B 一种基于大语言模型及向量库构建知识图谱的方法（北京长河数智科技有限责任公司）