CN119292524B 基于大模型的数据存储方法 (江西功博网络科技有限公司)_第1页
CN119292524B 基于大模型的数据存储方法 (江西功博网络科技有限公司)_第2页
CN119292524B 基于大模型的数据存储方法 (江西功博网络科技有限公司)_第3页
CN119292524B 基于大模型的数据存储方法 (江西功博网络科技有限公司)_第4页
CN119292524B 基于大模型的数据存储方法 (江西功博网络科技有限公司)_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分片存储以及精细化数据冗余压缩,实现了高2步骤S1:对目标预训练大模型进行模型内部参数步骤S2:通过多维模型参数矩阵对存储模量分片数据步骤S3:对模型训练存储数据进行冗余数据步骤S5:对模型训练预加载缓存数据进行数据流多通道3.根据权利要求2所述的基于大模型的数据存储方步骤S141:根据离散模型输入特征数据进行特征点相似步骤S142:通过输入特征相似度数据对离散模型输入特步骤S144:将输入类簇哈希编码数据与模型输入聚类簇数据进3步骤S145:根据类簇哈希映射表数据进行全局步骤S146:利用模型输入索引结构数据对模型输入聚步骤S23:基于存储节点实时负载数据通过多维模型参数矩阵对模量输入分片数据进步骤S25:基于分布式存储管理系统利用智能分片存储策略对目标模型训练数据进行5.根据权利要求4所述的基于大模型的数据存储方步骤S232:利用存储节点拓扑数据对存储节点实时负载数步骤S233:基于分片负载压力数据对模量输入步骤S234:通过多维模型参数矩阵以及存储节点适配步骤S2323:利用节点历史分片负载数据对存储节点拓扑数据进行存储节点性能映射步骤S2324:根据存储节点性能映射数据以及存储节点负载波动数据进行节点负载承4步骤S2343:通过模型训练访问频率数据对模量输入分片数据进行输入分片数据优先步骤S2345:对节点存储层级结构数据以及模型输入分片分类数据进行多轮优先级匹步骤S2346:利用存储节点适配度数据对初步分片节点分配数据进行节点压力均衡校据块重复率数据低于预设的数据冗余度阈值的数据块标记步骤S43:通过模型训练输入特征数据对优化存储训练数据进行训练数据调用顺序推5步骤S51:对模型训练预加载缓存数据进行数据传输任务分配,得到传输任务分配数6[0006]步骤S2:通过多维模型参数矩阵对存储模量分片数据进行智能分片存储策略处78[0020]步骤S142:通过输入特征相似度数据对离散模型输入特[0022]步骤S144:将输入类簇哈希编码数据与模型输入聚类簇9[0029]步骤S23:基于存储节点实时负载数据通过多维模型参数矩阵对模量输入分片数[0031]步骤S25:基于分布式存储管理系统利用智能分片存储策略对目标模型训练数据[0036]步骤S233:基于分片负载压力数据对模量输入分片数据进行存储节点适配度计[0043]步骤S2323:利用节点历史分片负载数据对存储节点拓扑数据进行存储节点性能[0044]步骤S2324:根据存储节点性能映射数据以及存储节点负载波动数据进行节点负点在过去一段时间内的负载情况。通过对节点历史分片负载数据进行节点负载波动分析,[0050]步骤S2343:通过模型训练访问频率数据对模量输入分片数据进行输入分片数据[0052]步骤S2345:对节点存储层级结构数据以及模型输入分片分类数据进行多轮优先[0053]步骤S2346:利用存储节点适配度数据对初步分片节点分配数据进行节点压力均将数据块重复率数据高于或者等于预设的数据冗余度阈值的数据块标记为训练冗余数据;将数据块重复率数据低于预设的数据冗余度阈值的数据块标记为训练[0062]步骤S37:通过动态冗余存储索引数据对分布式存储管理系统进行数据存储检索[0063]本发明通过对模型训练存储数据进行逐步数据块扫描,并进[0067]步骤S43:通过模型训练输入特征数据对优化存储训练数据进行训练数据调用顺术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范[0089]步骤S2:通过多维模型参数矩阵对存储模量分片数据进行智能分片存储策略处[0095]本发明实施例中,以GPT_3模型为例,首先使用Python的Transformers库加载模型,并提取模型内部参数。模型参数主要包括权重矩阵、偏置向量等,可以使用model.parameters()方法获取。输入类型参数矩阵则可以通过分析模型的输入层结构得将每个类簇的token序列作为一个分片。使用分布式文件系统HDFS将模量输入分片数据映[0096]步骤S2:通过多维模型参数矩阵对存储模量分片数据进行智能分片存储策略处输至目标预训练大模型,例如GPT_3模型,进行模型训练。并利用性能监控工具,例如个token的类型(例如词性、位置编码等),可以通过分析模型的输入层结构得到。利用全局元数据索引。索引记录每个簇的中心点坐标、簇内数据点的数量等信息。可以使用[0113]步骤S142:通过输入特征相似度数据对离散模型输入特[0115]步骤S144:将输入类簇哈希编码数据与模型输入聚类簇将输入类簇哈希编码数据与模型输入聚类簇数据进行哈希特征映射,构建类簇哈希映射[0122]步骤S23:基于存储节点实时负载数据通过多维模型参数矩阵对模量输入分片数[0124]步骤S25:基于分布式存储管理系统利用智能分片存储策略对目标模型训练数据[0125]本发明实施例中,以HDFS分布式存储系统为例,利用HDFS的API(例如hdfs管理系统(例如HadoopYARN)提供的监控工具(的图像数据存储到存储容量更大的节点上。使用HDFS的API(例如hdfsdfs_put)将训练数[0129]步骤S233:基于分片负载压力数据对模量输入分片数据进行存储节点适配度计分片数据对应的存储节点ID和存储路径存储为一个JSO[0136]步骤S2323:利用节点历史分片负载数据对存储节点拓扑数据进行存储节点性能[0137]步骤S2324:根据存储节点性能映射数据以及存储节点负载波动数据进行节点负[0139]本发明实施例中,从分布式存储管理系统的监控系统(例如HadoopYARN的ResourceManager)中获取存储节点的历史负载数据,例如每个节点在过去一段时间内的例如CPU使用率、内存使用率等指标的增加量,可以使用排队论或者模拟进行负载压力计[0143]步骤S2343:通过模型训练访问频率数据对模量输入分片数据进行输入分片数据[0145]步骤S2345:对节点存储层级结构数据以及模型输入分片分类数据进行多轮优先[0146]步骤S2346:利用存储节点适配度数据对初步分片节点分配数据进行节点压力均将数据块重复率数据高于或者等于预设的数据冗余度阈值的数据块标记为训练冗余数据;将数据块重复率数据低于预设的数据冗余度阈值的数据块标记为训练[0155]步骤S37:通过动态冗余存储索引数据对分布式存储管理系统进行数据存储检索[0156]本发明实施例中,使用滑动窗口的方式对模型训练存储数据进行逐步数据块扫[0159]本发明实施例中,使用例如TensorBoard等工具对目标预训练大模型的训练过程[0162]步骤S43:通过模型训练输入特征数据对优化存储训练数据进行训练数据调用顺[0176]本发明实施

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论