CN120104979B 一种基于大模型的文本内容清洗标注方法及系统（工业云制造(四川)创新中心有限公司）

上传人：x*** IP属地：重庆上传时间：2025-09-08 格式：DOCX 页数：32 大小：184.08KB 积分：10.8 举报 版权申诉

CN120104979B 一种基于大模型的文本内容清洗标注方法及系统（工业云制造(四川)创新中心有限公司）_第2页

CN120104979B 一种基于大模型的文本内容清洗标注方法及系统（工业云制造(四川)创新中心有限公司）_第3页

CN120104979B 一种基于大模型的文本内容清洗标注方法及系统（工业云制造(四川)创新中心有限公司）_第4页

CN120104979B 一种基于大模型的文本内容清洗标注方法及系统（工业云制造(四川)创新中心有限公司）_第5页

已阅读5页，还剩27页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

(19)国家知识产权局(12)发明专利公司地址610000四川省成都市高新区益州大道中段599号13栋19层1908-1912号、陈琳闻方平詹朋刘炳文有限公司51334一种基于大模型的文本内容清洗标注方法用服务器标识确定数据处理领域适应值排序表处理能力量化信息与数据传输质量的约束条件集以及数据处理领域适应值排序表确定的优化型服务器领域相关性以及数据传输质量等因素息；根据每个生产数据输出单元的历史网络状况信息，预测每个生产数据输出单元在目标处理时段的每个处理周期略21.一种基于大模型的文本内容清洗标注方法，其特征在于，所述方法包括以下步骤：获取分布式大模型数据处理架构中每个大模型服务器的服务器关联信息，提取所述服务器关联信息中的服务器标识和数据处理映射责任区域；利用所述服务器标识，确定每个大模型服务器的数据处理领域适应值排序表和在目标处理时段中每个处理周期的数据处理能力量化信息；其中，所述数据处理能力量化信息包括针对于文本内容清洗的第一数据处理能力量化值与针对于文本内容标注的第二数据处理能力量化值；利用所述数据处理映射责任区域，访问生产单位部署位置数据库，查询与每个大模型服务器具有初始数据处理匹配关系的若干个生产数据输出单元；根据每个生产数据输出单元的历史生产数据库，预测生成每个生产数据输出单元在目标处理时段的生产数据输出信息；根据每个生产数据输出单元的历史网络状况信息，预测每个生产数据输出单元在目标处理时段的每个处理周期与每个大模型服务器的数据传输基于每个生产数据输出单元在目标处理时段的生产数据输出信息、每个大模型服务器的数据处理领域适应度值排序表和在目标处理时段中每个处理周期的数据处理能力量化信息，规划每个大模型服务器在目标处理时段的每个处理周期所分配到的生产数据输出单具体包括：基于每个生产数据输出单元在目标处理时段的生产数据输出信息、每个大模型服务器的数据处理领域适应度值排序表和在目标处理时段中每个处理周期的数据处理能力量化信息；以每个大模型服务器在目标处理时段的每个处理周期所分配到若干个生产数据输出单元的生产数据输出量总和同时小于该大模型服务器在对应处理周期的第一数据处理能力量化值和第二数据处理能力量化值为第一约束条件，以每个大模型服务器在目标处理时段的每个处理周期所分配到的属于非映射责任区域的生产数据输出单元与该大模型服务器的数据传输质量对应的数据传输质量参数满足数据传输与回传过程的数据完整性限制对应的数据允许丢包率与实时性限制对应的数据允许传输时延为第二约束条件，以全部大模型服务器在目标处理时段的每个处理周期所分配到的生产数据输出单元的生产数据输出信息中的生产数据领域类型在该大模型服务器的处理数据领域适应度排序表中的顺序数值之和最小为优化目标，优化求解每个大模型服务器在目标处理时段的每个处理周期所分配到的生产数据输出单元；基于每个大模型服务器在目标处理时段的每个处理周期所分配到的生产数据输出单根据所述数据处理调度策略，控制每个大模型服务器在目标处理时段的每个处理周期执行所分配到的生产数据输出单元传输的生产数据的文本内容清洗与标注动作。2.如权利要求1所述的基于大模型的文本内容清洗标注方法，其特征在于，利用所述服务器标识，确定每个大模型服务器的数据处理领域适应值排序表和在目标处理时段中每个处理周期的数据处理能力量化信息步骤，具体包括：利用所述服务器标识，查询每个大模型服务器的任务运行列表和服务器历史处理数据信息库，确定每个大模型服务器在目标处理时段中每个处理周期的数据处理能力量化信3利用所述服务器标识，查询每个大模型服务器的训练过程个大模型服务器在目标处理时段中每个处理周期的数据处理能力量化信息步骤，具体包利用所述服务器标识，查询每个大模型服务器的任务运行提取所述任务运行列表中每个待执行任务的任务执行时段提取所述服务器历史处理数据信息库中记录的每个大模型服务器在历史数据处理过根据每个大模型服务器在目标处理时段中每个处理周期的待处理数据量与在每个处模型服务器在目标处理时段中每个处理周期的待处理数据量与在每个处理周期的标准处根据每个大模型服务器在目标处理时段中每个处理周期的文本内容待清洗数据量和根据每个大模型服务器在目标处理时段中每个处理周期的文本内容待标注数据量和利用针对于文本内容清洗的第一数据处理能力量化值和针对于文本内容清洗的第二4利用所述服务器标识，查询每个大模型服务器的训练过程信息，提取所述训练过程信息中的模型训练样本数据；提取所述模型训练样本数据中的若干个关键词，根据若干个关键词与不同处理数据领域对应的特征词组之间的相似度值累加和的比值，确定所述模型训练样本数据中不同处理数据领域的样本训练比例；对所述样本训练比例中每个处理数据领域的数值进行从大到小的排序，生成每个大模型服务器的处理数据领域适应度排序表。7.如权利要求1所述的基于大模型的文本内容清洗标注方法，其特征在于，根据每个生产数据输出单元的历史生产数据库，预测生成每个生产数据输出单元在目标处理时段的生查询每个生产数据输出单元的历史生产数据库，提取所述历史生产数据库中记录的不同类型生产任务执行时在单位处理周期内的生产数据输出量；根据每个生产数据输出单元在目标处理时段内不同处理周期内的生产任务类型，预测每个生产数据输出单元在目标处理时段的生产数据输出量；基于所述生产数据输出量、生产任务类型对应的生产数据领域类型和生产数据传输限制集，构建每个生产数据输出单元在目标处理时段的生产数据输出信息；其中，所述生产数据传输限制集包括数据完整性限制和实时性限制。8.如权利要求1所述的基于大模型的文本内容清洗标注方法，其特征在于，根据每个生产数据输出单元的历史网络状况信息，预测每个生产数据输出单元在目标处理时段的每个处理周期与每个大模型服务器的数据传输质量步骤，具体包括：查询每个生产数据输出单元的历史网络状况信息，提取所述历史网络状况信息中记录的每个生产数据输出单元与非映射责任区域的每个大模型服务器的历史数据传输质量参数，构建包含若干个由数据传输时间戳和数据传输质量参数构成的数据传输质量参数特征的数据传输质量训练样本；利用所述数据传输质量训练样本对构建的初始卷积神经网络模型进行训练，在训练次数达到目标次数或模型收敛时，获得训练完成的针对每个生产数据输出单元与每个大模型服务器的数据传输质量预测模型；利用所述数据传输质量预测模型，预测每个生产数据输出单元在目标处理时段的每个处理周期与每个非映射责任区域的大模型服务器的数据传输质量参数；其中，所述数据传输质量参数包括数据丢包率和数据传输时延。9.一种基于大模型的文本内容清洗标注系统，其特征在于，包括：获取模块，用于获取分布式大模型数据处理架构中每个大模型服务器的服务器关联信息，提取所述服务器关联信息中的服务器标识和数据处理映射责任区域；确定模块，用于利用所述服务器标识，确定每个大模型服务器的数据处理领域适应值排序表和在目标处理时段中每个处理周期的数据处理能力量化信息；其中，所述数据处理能力量化信息包括针对于文本内容清洗的第一数据处理能力量化值与针对于文本内容标注的第二数据处理能力量化值；查询模块，用于利用所述数据处理映射责任区域，访问生产单位部署位置数据库，查询5与每个大模型服务器具有初始数据处理匹配关系的若干个生产数据输出单元；预测模块，用于根据每个生产数据输出单元的历史生产数据库，预测生成每个生产数据输出单元在目标处理时段的生产数据输出信息；根据每个生产数据输出单元的历史网络状况信息，预测每个生产数据输出单元在目标处理时段的每个处理周期与每个大模型服务器的数据传输质量；生成模块，用于基于每个生产数据输出单元在目标处理时段的生产数据输出信息、每个大模型服务器的数据处理领域适应度值排序表和在目标处理时段中每个处理周期的数据处理能力量化信息，规划每个大模型服务器在目标处理时段的每个处理周期所分配到的生产数据输出单元，生成数据处理调度策略；具体包括：基于每个生产数据输出单元在目标处理时段的生产数据输出信息、每个大模型服务器的数据处理领域适应度值排序表和在目标处理时段中每个处理周期的数据处理能力量化信息；以每个大模型服务器在目标处理时段的每个处理周期所分配到若干个生产数据输出单元的生产数据输出量总和同时小于该大模型服务器在对应处理周期的第一数据处理能力量化值和第二数据处理能力量化值为第一约束条件，以每个大模型服务器在目标处理时段的每个处理周期所分配到的属于非映射责任区域的生产数据输出单元与该大模型服务器的数据传输质量对应的数据传输质量参数满足数据传输与回传过程的数据完整性限制对应的数据允许丢包率与实时性限制对应的数据允许传输时延为第二约束条件，以全部大模型服务器在目标处理时段的每个处理周期所分配到的生产数据输出单元的生产数据输出信息中的生产数据领域类型在该大模型服务器的处理数据领域适应度排序表中的顺序数值之和最小为优化目标，优化求解每个大模型服务器在目标处理时段的每个处理周期所分配到的生产数据输出单元；基于每个大模型服务器在目标处理时段的每个处理周期所分配到的生产数据输出单执行模块，用于根据所述数据处理调度策略，控制每个大模型服务器在目标处理时段的每个处理周期执行所分配到的生产数据输出单元传输的生产数据的文本内容清洗与标注动作。6技术领域[0001]本发明涉及人工智能技术领域，尤其涉及到一种基于大模型的文本内容清洗标注方法及系统。背景技术[0002]数据清洗和标注是数据预处理的核心环节，对提升数据质量、挖掘数据价值具有关键作用，随着人工智能技术的飞速发展，文本数据的清洗和标注工作变得愈发重要。传统的文本清洗和标注方法往往依赖于人工操作，不仅效率低下，而且容易出现错误，随着数据量的不断增长，人工清洗和标注已经难以满足实际需求。[0003]目前有一些平台可以利用大模型对用户给过来的文本数据进行清洗和标注，并将清洗和标注后的数据返回给用户。但该方案在实际应用中仍然存在以下限制；其一，利用平台后端分布式设置的若干个大模型服务器，能够解决每个大模型服务器所属区域范围内的数据清洗和标注的需求，但由于每个所属区域范围内不同生产数据输出单元在不同时段的数据处理需求不同(包括数据处理量、数据处理类型),每个大模型服务器的处理能力也有差异，在不同时期可能出现数据处理负荷峰值压力，传统服务器负载均衡的方法并不能在上述多个影响因素的场景下起到满意的效果；其二，每个大模型服务器由于主要服务于其所属区域范围内若干个生产数据输出单元的数据处理任务，使得每个大模型服务器需要对特定领域下的数据处理有着更强的专业性，而非全领域(通常多领域训练的大语言模型存在泛化能力弱的问题，例如误将电商“差评”中的情感词按医疗语义理解),针对这样的场景，现有服务器负载均衡方案尚没有将大模型领域相关性进行综合考虑；其三，由于不同生产数据输出单元的生产任务类型可能不同，其对数据处理时延的要求也会不同(例如电商行业中的人工智能客服发送的数据处理请求需要较高的实时性，而商业领域中对商业数据进行分析与总结所需要的实时性就并不高),这样的需求也会对服务器负载均衡的实现产生较大的影响，进而影响整体区域范围内的数据清洗标注的效率与质量。[0004]因此，如何提高利用分布式大模型数据处理架构给不同区域范围内大量生产数据输出单元提供的数据清洗标注服务质量，在实现适应场景多因素影响下的大模型服务器负载均衡的同时，提升数据处理的效率与质量，是一个亟需解决的技术问题。发明内容[0005]本发明的主要目的在于提供一种基于大模型的文本内容清洗标注方法及系统，旨在解决上述至少一个技术问题。[0006]为实现上述目的，本发明提供一种基于大模型的文本内容清洗标注方法，所述方法包括以下步骤：[0007]获取分布式大模型数据处理架构中每个大模型服务器的服务器关联信息，提取所述服务器关联信息中的服务器标识和数据处理映射责任区域；[0008]利用所述服务器标识，确定每个大模型服务器的数据处理领域适应值排序表和在7目标处理时段中每个处理周期的数据处理能力量化信息；其中，所述数据处理能力量化信息包括针对于文本内容清洗的第一数据处理能力量化值与针对于文本内容标注的第二数据处理能力量化值；[0009]利用所述数据处理映射责任区域，访问生产单位部署位置数据库，查询与每个大模型服务器具有初始数据处理匹配关系的若干个生产数据输出单元；[0010]根据每个生产数据输出单元的历史生产数据库，预测生成每个生产数据输出单元在目标处理时段的生产数据输出信息；根据每个生产数据输出单元的历史网络状况信息，预测每个生产数据输出单元在目标处理时段的每个处理周期与每个大模型服务器的数据传输质量；[0011]基于每个生产数据输出单元在目标处理时段的生产数据输出信息、每个大模型服务器的数据处理领域适应度值排序表和在目标处理时段中每个处理周期的数据处理能力量化信息，规划每个大模型服务器在目标处理时段的每个处理周期所分配到的生产数据输[0012]根据所述数据处理调度策略，控制每个大模型服务器在目标处理时段的每个处理周期执行所分配到的生产数据输出单元传输的生产数据的文本内容清洗与标注动作。[0013]可选的，利用所述服务器标识，确定每个大模型服务器的数据处理领域适应值排序表和在目标处理时段中每个处理周期的数据处理能力量化信息步骤，具体包括：[0014]利用所述服务器标识，查询每个大模型服务器的任务运行列表和服务器历史处理数据信息库，确定每个大模型服务器在目标处理时段中每个处理周期的数据处理能力量化[0015]利用所述服务器标识，查询每个大模型服务器的训练过程信息，提取所述训练过程信息中的模型训练样本数据，分析所述模型训练样本数据，生成每个大模型服务器的处理数据领域适应值排序表。[0016]可选的，利用所述服务器标识，查询每个大模型服务器的任务运行列表和服务器历史处理数据信息库，确定每个大模型服务器在目标处理时段中每个处理周期的数据处理[0017]利用所述服务器标识，查询每个大模型服务器的任务运行列表和服务器历史处理数据信息库；[0018]提取所述任务运行列表中每个待执行任务的任务执行时段和任务执行数据量，将所述任务执行时段划分到目标处理时段中的每个处理周期，确定每个大模型服务器在目标处理时段中每个处理周期的待处理数据量；[0019]提取所述服务器历史处理数据信息库中记录的每个大模型服务器在历史数据处理过程中每个处理周期的处理数据量，确定每个大模型服务器在每个处理周期的标准处理数据量；[0020]根据每个大模型服务器在目标处理时段中每个处理周期的待处理数据量与在每个处理周期的标准处理数据量的差值，确定每个大模型服务器在目标处理时段中每个处理周期的数据处理能力量化信息。[0021]可选的，所述待执行任务包括文本内容清洗任务和文本内容标注任务，所述待处理数据量包括文本内容待清洗数据量和文本内容待标注数据量，所述标准处理数据量包括8文本内容标准清洗数据量和文本内容标准标注数据量。[0022]可选的，根据每个大模型服务器在目标处理时段中每个处理周期的待处理数据量与在每个处理周期的标准处理数据量的差值，确定每个大模型服务器在目标处理时段中每个处理周期的数据处理能力量化信息步骤，具体包括：[0023]根据每个大模型服务器在目标处理时段中每个处理周期的文本内容待清洗数据量和每个处理周期的文本内容标准清洗数据量的差值，计算针对于文本内容清洗的第一数据处理能力量化值；[0024]根据每个大模型服务器在目标处理时段中每个处理周期的文本内容待标注数据量和每个处理周期的文本内容标准标注数据量的差值，计算针对于文本内容清洗的第二数据处理能力量化值；[0025]利用针对于文本内容清洗的第一数据处理能力量化值和针对于文本内容清洗的第二数据处理能力量化值，确定每个大模型服务器在目标处理时段中每个处理周期的数据处理能力量化信息。[0026]可选的，利用所述服务器标识，查询每个大模型服务器的训练过程信息，提取所述训练过程信息中的模型训练样本数据，分析所述模型训练样本数据，生成每个大模型服务器的处理数据领域适应值排序表步骤，具体包括：[0027]利用所述服务器标识，查询每个大模型服务器的训练过程信息，提取所述训练过程信息中的模型训练样本数据；[0028]提取所述模型训练样本数据中的若干个关键词，根据若干个关键词与不同处理数据领域对应的特征词组之间的相似度值累加和的比值，确定所述模型训练样本数据中不同处理数据领域的样本训练比例；[0029]对所述样本训练比例中每个处理数据领域的数值进行从大到小的排序，生成每个大模型服务器的处理数据领域适应度排序表。[0030]可选的，根据每个生产数据输出单元的历史生产数据库，预测生成每个生产数据输出单元在目标处理时段的生产数据输出信息步骤，具体包括：[0031]查询每个生产数据输出单元的历史生产数据库，提取所述历史生产数据库中记录的不同类型生产任务执行时在单位处理周期内的生产数据输出量；[0032]根据每个生产数据输出单元在目标处理时段内不同处理周期内的生产任务类型，预测每个生产数据输出单元在目标处理时段的生产数据输出量；[0033]基于所述生产数据输出量、生产任务类型对应的生产数据领域类型和生产数据传输限制集，构建每个生产数据输出单元在目标处理时段的生产数据输出信息；其中，所述生产数据传输限制集包括数据完整性限制和实时性限制。[0034]可选的，根据每个生产数据输出单元的历史网络状况信息，预测每个生产数据输出单元在目标处理时段的每个处理周期与每个大模型服务器的数据传输质量步骤，具体包[0035]查询每个生产数据输出单元的历史网络状况信息，提取所述历史网络状况信息中记录的每个生产数据输出单元与非映射责任区域的每个大模型服务器的历史数据传输质量参数，构建包含若干个由数据传输时间戳和数据传输质量参数构成的数据传输质量参数特征的数据传输质量训练样本；9[0036]利用所述数据传输质量训练样本对构建的初始卷积神经网络模型进行训练，在训练次数达到目标次数或模型收敛时，获得训练完成的针对每个生产数据输出单元与每个大模型服务器的数据传输质量预测模型；[0037]利用所述数据传输质量预测模型，预测每个生产数据输出单元在目标处理时段的每个处理周期与每个非映射责任区域的大模型服务器的数据传输质量参数；其中，所述数据传输质量参数包括数据丢包率和数据传输时延。[0038]可选的，基于每个生产数据输出单元在目标处理时段的生产数据输出信息、每个大模型服务器的数据处理领域适应度值排序表和在目标处理时段中每个处理周期的数据处理能力量化信息，规划每个大模型服务器在目标处理时段的每个处理周期所分配到的生产数据输出单元，生成数据处理调度策略步骤[0039]基于每个生产数据输出单元在目标处理时段的生产数据输出信息、每个大模型服务器的数据处理领域适应度值排序表和在目标处理时段中每个处理周期的数据处理能力[0040]以每个大模型服务器在目标处理时段的每个处理周期所分配到若干个生产数据输出单元的生产数据输出量总和同时小于该大模型服务器在对应处理周期的第一数据处理能力量化值和第二数据处理能力量化值为第一约束条件，以每个大模型服务器在目标处理时段的每个处理周期所分配到的属于非映射责任区域的生产数据输出单元与该大模型服务器的数据传输质量对应的数据传输质量参数满足数据传输与回传过程的数据完整性限制对应的数据允许丢包率与实时性限制对应的数据允许传输时延为第二约束条件，以全部大模型服务器在目标处理时段的每个处理周期所分配到的生产数据输出单元的生产数据输出信息中的生产数据领域类型在该大模型服务器的处理数据领域适应度排序表中的顺序数值之和最小为优化目标，优化求解每个大模型服务器在目标处理时段的每个处理周期所分配到的生产数据输出单元；[0041]基于每个大模型服务器在目标处理时段的每个处理周期所分配到的生产数据输[0042]此外，为了实现上述目的，本发明还提供了一种基于大模型的文本内容清洗标注[0043]获取模块，用于获取分布式大模型数据处理架构中每个大模型服务器的服务器关联信息，提取所述服务器关联信息中的服务器标识和数据处理映射责任区域；[0044]确定模块，用于利用所述服务器标识，确定每个大模型服务器的数据处理领域适应值排序表和在目标处理时段中每个处理周期的数据处理能力量化信息；其中，所述数据处理能力量化信息包括针对于文本内容清洗的第一数据处理能力量化值与针对于文本内容标注的第二数据处理能力量化值；[0045]查询模块，用于利用所述数据处理映射责任区域，访问生产单位部署位置数据库，查询与每个大模型服务器具有初始数据处理匹配关系的若干个生产数据输出单元；[0046]预测模块，用于根据每个生产数据输出单元的历史生产数据库，预测生成每个生产数据输出单元在目标处理时段的生产数据输出信息；根据每个生产数据输出单元的历史网络状况信息，预测每个生产数据输出单元在目标处理时段的每个处理周期与每个大模型服务器的数据传输质量；[0047]生成模块，用于基于每个生产数据输出单元在目标处理时段的生产数据输出信息、每个大模型服务器的数据处理领域适应度值排序表和在目标处理时段中每个处理周期的数据处理能力量化信息，规划每个大模型服务器在目标处理时段的每个处理周期所分配到的生产数据输出单元，生成数据处理调度策略；[0048]执行模块，用于根据所述数据处理调度策略，控制每个大模型服务器在目标处理时段的每个处理周期执行所分配到的生产数据输出单元传输的生产数据的文本内容清洗与标注动作。[0049]本发明的有益效果在于：提出了一种基于大模型的文本内容清洗标注方法及系统，通过利用服务器标识确定数据处理领域适应值排序表和数据处理能力量化信息，利用数据处理映射责任区域查询所属生产数据输出单元，预测生成生产数据输出信息和数据传输质量，建立包含数据处理能力量化信息与数据传输质量的约束条件集以及数据处理领域适应值排序表确定的优化目标，综合考虑数据处理需求与能力匹配、大模型服务器领域相关性以及数据传输质量等因素的影响，规划分布式大模型数据处理架构下的数据处理调度策略，进而控制生产数据传输和数据清洗与标注的执行，在实现适应场景多因素影响下的大模型服务器负载均衡的同时，提升数据处理的效率与质量。附图说明[0050]图1为本发明基于大模型的文本内容清洗标注方法的流程图；[0051]图2为本发明基于大模型的文本内容清洗标注系统的结构图。具体实施方式[0052]为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。[0053]本发明实施例提供了一种基于大模型的文本内容清洗标注方法，参照图1,图1为本发明基于大模型的文本内容清洗标注方法实施例的流程示意图。[0054]本实施例中，一种基于大模型的文本内容清洗标注方法，所述方法包括以下步骤：[0055]S100:获取分布式大模型数据处理架构中每个大模型服务器的服务器关联信息，提取所述服务器关联信息中的服务器标识和数据处理映射责任区域；[0056]S200:利用所述服务器标识，确定每个大模型服务器的数据处理领域适应值排序表和在目标处理时段中每个处理周期的数据处理能力量化信息；其中，所述数据处理能力量化信息包括针对于文本内容清洗的第一数据处理能力量化值与针对于文本内容标注的第二数据处理能力量化值；[0057]S300:利用所述数据处理映射责任区域，访问生产单位部署位置数据库，查询与每个大模型服务器具有初始数据处理匹配关系的若干个生产数据输出单元；[0058]S400:根据每个生产数据输出单元的历史生产数据库，预测生成每个生产数据输出单元在目标处理时段的生产数据输出信息；根据每个生产数据输出单元的历史网络状况信息，预测每个生产数据输出单元在目标处理时段的每个处理周期与每个大模型服务器的数据传输质量；11[0059]S500:基于每个生产数据输出单元在目标处理时段的生产数据输出信息、每个大模型服务器的数据处理领域适应度值排序表和在目标处理时段中每个处理周期的数据处理能力量化信息，规划每个大模型服务器在目标处理时段的每个处理周期所分配到的生产数据输出单元，生成数据处理调度策略；[0060]S600:根据所述数据处理调度策略，控制每个大模型服务器在目标处理时段的每个处理周期执行所分配到的生产数据输出单元传输的生产数据的文本内容清洗与标注动[0061]需要说明的是，目前有一些平台可以利用大模型对用户给过来的文本数据进行清洗和标注，并将清洗和标注后的数据返回给用户。但该方案在实际应用中仍然存在以下限制；其一，利用平台后端分布式设置的若干个大模型服务器，能够解决每个大模型服务器所属区域范围内的数据清洗和标注的需求，但由于每个所属区域范围内不同生产数据输出单元在不同时段的数据处理需求不同(包括数据处理量、数据处理类型),每个大模型服务器的处理能力也有差异，在不同时期可能出现数据处理负荷峰值压力，传统服务器负载均衡的方法并不能在上述多个影响因素的场景下起到满意的效果；其二，每个大模型服务器由于主要服务于其所属区域范围内若干个生产数据输出单元的数据处理任务，使得每个大模型服务器需要对特定领域下的数据处理有着更强的专业性，而非全领域(通常多领域训练的大语言模型存在泛化能力弱的问题，例如误将电商“差评”中的情感词按医疗语义理解),针对这样的场景，现有服务器负载均衡方案尚没有将大模型领域相关性进行综合考虑；其三，由于不同生产数据输出单元的生产任务类型可能不同，其对数据处理时延的要求也会不同(例如电商行业中的人工智能客服发送的数据处理请求需要较高的实时性，而商业领域中对商业数据进行分析与总结所需要的实时性就并不高),这样的需求也会对服务器负载均衡的实现产生较大的影响，进而影响整体区域范围内的数据清洗标注的效率与质[0062]为了解决上述问题，本实施例通过利用服务器标识确定数据处理领域适应值排序表和数据处理能力量化信息，利用数据处理映射责任区域查询所属生产数据输出单元，预测生成生产数据输出信息和数据传输质量，建立包含数据处理能力量化信息与数据传输质量的约束条件集以及数据处理领域适应值排序表确定的优化目标，综合考虑数据处理需求与能力匹配、大模型服务器领域相关性以及数据传输质量等因素的影响，规划分布式大模型数据处理架构下的数据处理调度策略，进而控制生产数据传输和数据清洗与标注的执行，在实现适应场景多因素影响下的大模型服务器负载均衡的同时，提升数据处理的效率与质量。[0063]在优选的实施例中，利用所述服务器标识，确定每个大模型服务器的数据处理领域适应值排序表和在目标处理时段中每个处理周期的数据处理能力量化信息步骤，具体包[0064]S210:利用所述服务器标识，查询每个大模型服务器的任务运行列表和服务器历史处理数据信息库，确定每个大模型服务器在目标处理时段中每个处理周期的数据处理能力量化信息；[0065]S220:利用所述服务器标识，查询每个大模型服务器的训练过程信息，提取所述训练过程信息中的模型训练样本数据，分析所述模型训练样本数据，生成每个大模型服务器的处理数据领域适应值排序表。[0066]本实施例中，在获取到分布式大模型数据处理架构中每个大模型服务器的服务器标识后，即可利用该服务器标识实现对每个大模型服务器在目标处理时段中每个处理周期的数据处理能力量化信息的查询以及模型训练样本数据分析并生成每个大模型服务器的处理数据领域适应值排序表，能够为后续数据处理调度策略的生成提供构建优化算法时的约束条件集。[0067]在此基础上，利用所述服务器标识，查询每个大模型服务器的任务运行列表和服务器历史处理数据信息库，确定每个大模型服务器在目标处理时段中每个处理周期的数据处理能力量化信息步骤，具体包括：[0068]S211:利用所述服务器标识，查询每个大模型服务器的任务运行列表和服务器历史处理数据信息库；[0069]S212:提取所述任务运行列表中每个待执行任务的任务执行时段和任务执行数据量，将所述任务执行时段划分到目标处理时段中的每个处理周期，确定每个大模型服务器在目标处理时段中每个处理周期的待处理数据量；[0070]S213:提取所述服务器历史处理数据信息库中记录的每个大模型服务器在历史数据处理过程中每个处理周期的处理数据量，确定每个大模型服务器在每个处理周期的标准处理数据量；[0071]S214:根据每个大模型服务器在目标处理时段中每个处理周期的待处理数据量与在每个处理周期的标准处理数据量的差值，确定每个大模型服务器在目标处理时段中每个处理周期的数据处理能力量化信息。[0072]在实际应用中，所述待执行任务包括文本内容清洗任务和文本内容标注任务，所述待处理数据量包括文本内容待清洗数据量和文本内容待标注数据量，所述标准处理数据量包括文本内容标准清洗数据量和文本内容标准标注数据量。[0073]更进一步的，根据每个大模型服务器在目标处理时段中每个处理周期的待处理数据量与在每个处理周期的标准处理数据量的差值，确定每个大模型服务器在目标处理时段中每个处理周期的数据处理能力量化信息步骤，具体包括：[0074]S2141:根据每个大模型服务器在目标处理时段中每个处理周期的文本内容待清洗数据量和每个处理周期的文本内容标准清洗数据量的差值，计算针对于文本内容清洗的第一数据处理能力量化值；[0075]S2142:根据每个大模型服务器在目标处理时段中每个处理周期的文本内容待标注数据量和每个处理周期的文本内容标准标注数据量的差值，计算针对于文本内容清洗的第二数据处理能力量化值；[0076]S2143:利用针对于文本内容清洗的第一数据处理能力量化值和针对于文本内容清洗的第二数据处理能力量化值，确定每个大模型服务器在目标处理时段中每个处理周期的数据处理能力量化信息。[0077]本实施例中，首先利用服务器标识查询每个大模型服务器在目标处理时段中每个处理周期的待处理数据量，再根据历史处理数据信息库中记录的每个大模型服务器在每个处理周期的标准处理数据量(该标准处理数据量可以用历史处理数据信息库中记录的每个处理周期不影响服务器正常运行的最大处理数据量来衡量),在此之后，通过考虑文本内容清洗任务和文本内容标注任务，计算两者差值得到针对于文本内容清洗的第一数据处理能力量化值和针对于文本内容清洗的第二数据处理能力量化值，最终获得每个大模型服务器在目标处理时段中每个处理周期的数据处理能力量化信息。[0078]在优选的实施例中，利用所述服务器标识，查询每个大模型服务器的训练过程信息，提取所述训练过程信息中的模型训练样本数据，分析所述模型训练样本数据，生成每个大模型服务器的处理数据领域适应值排序表步骤，具体包括：[0079]S221:利用所述服务器标识，查询每个大模型服务器的训练过程信息，提取所述训练过程信息中的模型训练样本数据；[0080]S222:提取所述模型训练样本数据中的若干个关键词，根据若干个关键词与不同处理数据领域对应的特征词组之间的相似度值累加和的比值，确定所述模型训练样本数据中不同处理数据领域的样本训练比例；[0081]S223:对所述样本训练比例中每个处理数据领域的数值进行从大到小的排序，生成每个大模型服务器的处理数据领域适应度排序表。[0082]本实施例中，其次利用服务器标识查询每个大模型服务器的训练过程信息，通过分析模型训练样本数据中的样本数据领域的比例来确定出每个大模型服务器更深入学习的特定领域，以此来作为对不同处理数据领域的专业性，并生成每个大模型服务器的处理数据领域适应度排序表，用于在后续构建优化算法中的优化目标，以使整个大模型服务器架构采用领域最优的数据处理任务分配方式，提升整体的数据清洗与标注准确性。[0083]在优选的实施例中，根据每个生产数据输出单元的历史生产数据库，预测生成每个生产数据输出单元在目标处理时段的生产数据输出信息步骤，具体包括：[0084]S410:查询每个生产数据输出单元的历史生产数据库，提取所述历史生产数据库中记录的不同类型生产任务执行时在单位处理周期内的生产数据输出量；[0085]S420:根据每个生产数据输出单元在目标处理时段内不同处理周期内的生产任务类型，预测每个生产数据输出单元在目标处理时段的生产数据输出量；[0086]S430:基于所述生产数据输出量、生产任务类型对应的生产数据领域类型和生产数据传输限制集，构建每个生产数据输出单元在目标处理时段的生产数据输出信息；其中，所述生产数据传输限制集包括数据完整性限制和实时性限制。[0087]在此基础上，根据每个生产数据输出单元的历史网络状况信息，预测每个生产数据输出单元在目标处理时段的每个处理周期与每个大模型服务器的数据传输质量步骤，具[0088]S440:查询每个生产数据输出单元的历史网络状况信息，提取所述历史网络状况信息中记录的每个生产数据输出单元与非映射责任区域的每个大模型服务器的历史数据传输质量参数，构建包含若干个由数据传输时间戳和数据传输质量参数构成的数据传输质量参数特征的数据传输质量训练样本；[0089]S450:利用所述数据传输质量训练样本对构建的初始卷积神经网络模型进行训练，在训练次数达到目标次数或模型收敛时，获得训练完成的针对每个生产数据输出单元与每个大模型服务器的数据传输质量预测模型；[0090]S460:利用所述数据传输质量预测模型，预测每个生产数据输出单元在目标处理时段的每个处理周期与每个非映射责任区域的大模型服务器的数据传输质量参数；其中，类型可能不同，其对数据处理时延的要求也会不同(例如电商行业中的人工智能客服发送时性就并不高),通过查询每个生产数据输出单元的历史生产数据库预测每个生产数据输元在目标处理时段的每个处理周期与每个非映射责任区域的大模型服务器的数据丢包率和数据传输时延，能够为后续数据处理调度策略的生成提供构建优化算法时的约束条件[0093]S510:基于每个生产数据输出单元在目标处理时段的生产数据输出信息、每个大模型服务器的数据处理领域适应度值排序表和在目标处理时段中每个处理周期的数据处[0094]S520:以每个大模型服务器在目标处理时段的每个处理周期所分配到若干个生产数据输出单元的生产数据输出量总和同时小于该大模型服务器在对应处理周期的第一数标处理时段的每个处理周期所分配到的属于非映射责任区域的生产数据输出单元与该大模型服务器的数据传输质量对应的数据传输质量参数满足数据传输与回传过程的数据完整性限制对应的数据允许丢包率与实时性限制对应的数据允许传输时延为第二约束条件，以全部大模型服务器在目标处理时段的每个处理周期所分配到的生产数据输出单元的生产数据输出信息中的生产数据领域类型在该大模型服务器的处理数据领域适应度排序表据处理调度策略并控制每个生产数据输出单元的生产数据传输和每个大模型服务器的数据清洗与标注。由此，通过综合考虑数据处理需求与能力的匹配、大模型服务器领域相关性以及数据传输质量等因素的影响，规划分布式大模型数据处理架构下的数据处理调度策略，能够提高利用分布式大模型数据处理架构给不同区域范围内大量生产数据输出单元提供的数据清洗标注服务质量，并在实现适应场景多因素影响下的大模型服务器负载均衡的[0097]参照图2,图2为本发明基于大模型的文本内容清洗标注系统实施例的结构框图。[0098]如图2所示，本发明实施例提出的基于大模型的文本内容清洗标注系统包括：[0099]获取模块10,用于获取分布式大模型数据处理架构中每个大

人人文库> 全部分类> 行业资料 > 各类标准

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN120104979B 一种基于大模型的文本内容清洗标注方法及系统（工业云制造(四川)创新中心有限公司）

文档简介

温馨提示

最新文档

评论

CN120104979B 一种基于大模型的文本内容清洗标注方法及系统 （工业云制造(四川)创新中心有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN120104979B 一种基于大模型的文本内容清洗标注方法及系统（工业云制造(四川)创新中心有限公司）