WO2025140746A2 基于多模态数据的模型训练方法、装置、设备及存储介质 (北京声智科技有限公司)_第1页
WO2025140746A2 基于多模态数据的模型训练方法、装置、设备及存储介质 (北京声智科技有限公司)_第2页
WO2025140746A2 基于多模态数据的模型训练方法、装置、设备及存储介质 (北京声智科技有限公司)_第3页
WO2025140746A2 基于多模态数据的模型训练方法、装置、设备及存储介质 (北京声智科技有限公司)_第4页
WO2025140746A2 基于多模态数据的模型训练方法、装置、设备及存储介质 (北京声智科技有限公司)_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(19)世界知识产权组织(51)国际专利分类号:(21)国际申请号:PCT/CN2025/0(22)国际申请日:2025年2月26日(26.02.2025)(25)申请语言:中文(26)公布语言:中文(30)优先权:淀区海淀西大街70号1层101100086(CN)。区海淀西大街70号1层101100086(CN)。涂贤玲(TU,Xianling);中国北京市海淀区海淀西大街70号1层101100086(CN)。常乐(CHANG,Le);中国北京市海淀区海淀西大街70号1层101100086(CN)。黄赟贺(HUANG,Yunhe);中国北京市海淀区海淀西大街70号1层101100086(CN)。(74)代理人:北京三高永信知识产权代理有限责任公PROPERTYAGENCYCO,LTD.);中国北京市朝阳区慧忠路5号远大中心C座14层100101(CN)。(81)指定国(除另有指明,要求每一种可提供的国家BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CCV,CZ,DE,DJ,DK,DM,DO,DZ,EC,EGB,GD,GE,GH,GM,GT,HN,HR,HU,IDIR,IS,IT,JM,JO,JP,KE,KG,KH,KN,KP,KLA,LC,LK,LR,LS,LU,LY,MA,MD,MGMU,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SASE,SG,SK,SL,ST,SV,SY,TH,TJUA,UG,US,UY,UZ,VC,VN,WS,ZA,ZM(84)指定国(除另有指明,要求每一种可提供的地区NA,RW,SC,SD,SL,ST,SZ,TZ,UG,ZM,ZW),欧亚(AM,AZ,BY,KG,KZ,RU,TJ,TM),欧洲(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GBHU,IE,IS,IT,LT,LU,LV,MC,ME,MK,MTPL,PT,RO,RS,SE,SI,SK,SM,TR),OAPI(BF(54)发明名称:基于多模态数据的模型训练方法、装置、设备及存储介质计算机设备获取第一训练样木集;其中,第一训练样本集中包括已被标注的声光样本组合、未被标注的声学样本和未被标注的光学样术;一个声光样本组合中包括一个声学样木和一个光学样木计算机设备对第一训练样本集中包括的声学样木进行声学特征提取以及对光学样术进行光学特征提取计算机设备获取用于多模态融合的融合权重:其中,该融合权重是根据模型训练参数和进行数据来集时的外部环境动态调整的在该融合权重的约束下,计算机设备基于第一训练样本集的标注信息、提取到的声学特征和光学特征进行模型训练,得到多模态融合识别模犁201Acomputerdeviceacquiresafirsttrainingsampleset,whereinthefirssamplesetcomprisesalabeledacoustic-opticalsamplecombinaunlabeledacousticsampleandanunlabeledopticalacoustic-opicasamplecombinationcomprisesoneacousticsampThecomputerdeviceperformsacousticfeatureextracisamplecomprisedinthefirsttrainingsampleset,andperformextractiononanopticalsamplecomprised203Thecomputerdeviceacquiresafusionweightformulti-modalfusion,whthefusionweightisdynparameterandanexternalenvironmentwhendatacolUndertheconstraintofthefusionweight,thecomputerdtrainingonthebasisoflabelinginformatanextractedacousticfeatureandopticalfeature,soaprisedtherein(202);acquiringafusionweightformulti-fusion(203);andundertheconstraintofthefusionweight,per-feature,soastoobtainamulti-modalfusionreco(57)摘要:本申请公开了一种基于多模态数据的模型图2训练方法、装置、设备及存储介质。该方法包括:获取(201)训练样本集,对第一训练样本集中包括的声学样本进行声学特征提取(202)、光学样本进行光学特征提取(202),获取(203)用于多模态融合的融合权重,在该融合权重的约束下,基于该训练样本集的标注信息、提取到的声学特征和光学特征进行模型训练(204),得到多模态融合识别模型。CG,CI,CM,GA,GN,GQ,GW,KM,ML,本国际公布:一不包括国际检索报告,在收到该报告后将重新公布(细则48.2(g))。一包括关于请求恢复一项或多项优先权要求的信息(细则26之二.3和48.2(b)(vii))。1WO2025/140746基于多模态数据的模型训练方法、装置、设备及存储介质本申请要求于2023年12月26日提交的申请号为202311809192.6,发明名称为“基于多模态数据的模型训练方法、装置、设备及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。技术领域本申请涉及人工智能技术领域,特别涉及一种基于多模态数据的模型训练方法、装置、设备及存储介质。背景技术近年来,随着人工智能技术的快速发展,机器学习作为人工智能领域的一个重要分支在众多领域都得到了应用。目前,各种机器学习方法往往基于单一模态数据执行NLP(NaturalLanguageProcessing,自然语言处理)任务。例如,仅基于光学数据(比如图像、视频)执行NLP任务或仅基于声学数据(比如语音)NLP任务。发明内容本申请实施例提供了一种基于多模态数据的模型训练方法、装置、设备及存储介质。所述技术方案如下:一方面,提供了一种基于多模态数据的模型训练方法,所述方法包括:获取第一训练样本集;其中,所述第一训练样本集中包括已被标注的声光样本组合、未被标注的声学样本和未被标注的光学样本;一个所述声光样本组合中包括一个声学样本和一个光学样本;对所述第一训练样本集中包括的声学样本进行声学特征提取;对所述第一训练样本集中包括的光学样本进行光学特征提取;获取用于多模态融合的融合权重;其中,所述融合权重是根据模型训练参数和进行数据采集时的外部环境动态调整的;在所述融合权重的约束下,基于所述第一训练样本集的标注信息、提取到的声学特征和光学特征进行模型训练,得到多模态融合识别模型。另一方面,提供了一种基于多模态数据的模型训练装置,所述装置包括:第一获取模块,被配置为获取第一训练样本集;其中,所述第一训练样本集中包括已被标注的声光样本组合、未被标注的声学样本和未被标注的光学样本;一个所述声光样本组合中包括一个声学样本和一个光学样本;第一特征提取模块,被配置为对所述第一训练样本集中包括的声学样本进行声学特征提第二特征提取模块,被配置为对所述第一训练样本集中包括的光学样本进行光学特征提第二获取模块,被配置为获取用于多模态融合的融合权重;其中,所述融合权重是根据模型训练参数和进行数据采集时的外部环境动态调整的;训练模块,被配置为在所述融合权重的约束下,基于所述第一训练样本集的标注信息、提取到的声学特征和光学特征进行模型训练,得到多模态融合识别模型。另一方面,提供了一种计算机设备,所述设备包括处理器和存储器,所述存储器中存储2WO2025/140746有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行以实现上述的基于多码,所述至少一条程序代码由处理器加载并执行以实现上述的基于多模态数据的模型训练方另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计本申请实施例基于多模态数据来训练模型,实现了基于声学输入和光学输入的多模态融合识别。由于多模态数据能够提供比单一模确保了执行任务处理时的任务处理效果。换言之,本申请实施例训练得到的多模态融合识别图1是本申请实施例提供的一种基于多模态数据的模型训练方法涉及的实施环境示意图;图2是本申请实施例提供的一种基于多模态数据的模型训练方法的流程图;图3是本申请实施例提供的另一种基于多模态数据的模型训练方法的流程图;图4是本申请实施例提供的一种基于多模态数据的模型训练装置的结构示意图;图5是本申请实施例提供的一种计算机设备的结构示意图。需要说明的第一点是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相需要说明的第二点是,本文提及的预训练模型也被称为大型语言模型、大为了使得机器能够更好地模仿和理解类似的复杂交流方式,基于多模态数据执行NLP任声学和光学是两个常见且信息量丰富的模态。其中,声学数作用,例如语音识别、声纹识别、噪声识别等。而光学数据也在诸如图像识别、综上所述,由于基于单一模态数据进行任务处理通常难以适应复杂环境,因此本申请实施例提出了一种基于多模态数据的模型训练方案,该方案能够融合WO2025/140746PCT/C3图1是本申请实施例提供的一种基于多模态数据的模型训练方法涉及的实施环境示意参见图1,在训练阶段,第一计算机设备110用于基于多模态数据进行模型训练,得到一个预训练模型。其中,该预训练模型在本文中也被称为多模态融合识别模型。在推理阶段,第二计算机设备120调用微调后(fine-tuning)的模型执行NLP任务。其中,微调是指基于少量已标注的训练样本对预训练模型进行再训练,以将训练好的模型应用于特定任务。需要说明的是,第一计算机设备110和第二计算机设备120是具有机器学习能力的计算机设备。其中,第一计算机设备110和第二计算机设备120可以是同一个设备,或者,第一计算机设备110和第二计算机设备120也可以是不同的设备,本申请对此不作限定。基于上述实施环境,本申请实施例提供了一种用于多模态融合识别的预训练系统。示例性地,该系统包括声学输入模块、光学输入模块和融合识别模块。其中,声学输入模块用于提取声学样本的声学特征;光学输入模块用于提取光学样本的光学特征;融合识别模块用于基于提取到的声学特征和光学特征进行多模态融合识别。图2是本申请实施例提供的一种基于多模态数据的模型训练方法的流程图。该方法的执行主体为计算机设备,比如图1中的第一计算机设备。参见图2,本申请实施例提供的方法流程包括如下步骤。201、计算机设备获取第一训练样本集;其中,第一训练样本集中包括已被标注的声光样本组合、未被标注的声学样本和未被标注的光学样本;一个声光样本组合中包括一个声学样本和一个光学样本。其中,一个声学样本可以为一段声音,一个光学样本可以为一张图像或一段视频。声学样本可以使用高敏感度的麦克风阵列来捕获,光学样本可以使用高分辨率的摄像头来捕捉,本申请对此不作限定。另外,在收集训练样本过程中,可以设置声学样本以及视频形式的光学样本的最小时长,或,图像形式的光学样本的最小分辨率,本申请对此不作限定。需要说明的是,第一训练样本集用于预训练阶段。在第一训练样本集中,已被标注的样本数量远远小于未被标注的样本数量。换言之,该训练样本集中包括少量的标注的声光样本组合,用于进行跨模态关联学习,以及大量的未标注的声学样本和光学样本,用于进行自监督学习。202、计算机设备对第一训练样本集中包括的声学样本进行声学特征提取以及对光学样本进行光学特征提取。本步骤由声学输入模块和光学输入模块执行。针对声学特征提取,提取的声学特征可以是MFCC(MelFrequencyCepstrumCoefficient,Mel频率倒谱系数)特征或语谱图(Spectrogram),本申请对此不作限定。其中,Spectrogram的横坐标是时间,纵坐标是频率,坐标点值为声音数据能量。以提取的声学特征为MFCC特征为例,则MFCC特征提取过程包括:预处理(比如预加重、分帧、加窗或去噪等)、快速傅里叶变换、Mel滤波器组、对数运算、离散余弦变换和动态特征提取等。针对光学特征提取,以光学样本为图像为例,则首先进行图像预处理,其中,预处理的目的是抑制不想要的变形或者增强某些对于后续处理重要的图像特征。示例性地,图像预处理包括直方图均衡化,以增强图像的对比度。在一种可能的实现方式中,本申请实施例通过卷积神经网络提取图像特征。其中,卷积神经网络通过卷积操作、特征映射、池化操作等多种手段,能够从图像中有效地提取特征。通过逐层抽象,卷积神经网络能够从低级特征到高级概念逐渐进行理解,从而揭示图像背后的丰富信息。4WO2025/140746P换言之,卷积神经网络通常由多个卷积层和全连接层组成。通过逐层堆叠,网络可以逐渐抽象出更高级别的特征。浅层的卷积层可以捕捉图像的底层特征(比如边缘和角点),而深层的卷积层可以捕捉更抽象的特征(比如物体的形状和纹理)。203、计算机设备获取用于多模态融合的融合权重;其中,该融合权重是根据模型训练参数和进行数据采集时的外部环境动态调整的。本步骤由融合识别模块执行。在本申请实施例中,融合策略包括特征级融合(也称早期融合)和决策级融合(也称后期融合)。针对特征级融合,在提取到声学特征和光学特征后,在特征层面进行融合。假设提取到的声学特征为A,提取到的光学特征为B,则用于多模态融合的融合权重包括WA和WB。其中,WA与提取到的声学特征对应,WB与提取到的光学特征对应。针对决策级融合,在提取到声学特征和光学特征后,声学子系统和光学子系统分别做出决策,然后在决策层面进行融合。这种融合方法的好处是每个模态都能保留其独立的决策能假设DA是基于声学特征的决策输出,DB是基于光学特征的决策输出,则用于多模态融合的融合权重包括WDA和WDB。其中,WDA与基于声学特征的决策输出对应,WDB与基于光学特征的决策输出对应。需要说明的第一点是,WA和WDA在本文中也被称为第一融合权重,WB和WDB在本文中也被称为第二融合权重。需要说明的第二点是,WA和WB这两个权重用于控制声学特征A和光学特征B的重要性。示例性地,本申请实施例根据对两种输入的信任程度来设置WA和WB的初始值。如果认为声学特征在初始阶段更为重要,则可以将wA设置为一个较大的值,而将WB设置为一个较小的值,反之亦然。需要说明的第三点是,WDA和WDB这两个权重用于调整融合识别模块对每个模态数据的依赖性。示例性地,本申请实施例根据对各模态数据的初始信任程度来设置WDA和WDB的初始值。如果认为声学数据在整体融合中更为关键,将可以将WDA设置为一个较大的值,而将WDB设置为一个较小的值,反之亦然。在本申请实施例中,用于多模态融合的融合权重可以根据模型训练参数和进行数据采集时的外部环境动态调整。示例性地,上述模型训练参数为学习率,而上述外部环境可以是当前环境的噪声水平,本申请对此不作限定。204、在该融合权重的约束下,计算机设备基于第一训练样本集的标注信息、提取到的声学特征和光学特征进行模型训练,得到多模态融合识别模型。在本申请实施例中,为了确保模型能够准确地进行融合识别,定义了一个损失函数L,它基于融合后的输出和真实标签进行损失值计算:其中,N是第一训练样本集中包括的样本总数;Yi是真实标签,即第一训练样本集的标注信息;Ôi是融合后的输出,是基于提取到的声学特征和光学特征得到的。示例性地,模型训练的目标是最小化这个损失函数的损失值,从而实现更准确的融合识别。另外,为了达到最佳的融合识别效果,本申请实施例还会采用随机梯度下降或Adam优化器来最小化这个损失函数。同时,还会引入早停策略(EarlyStopping)和学习率退火技术,以防止过拟合并加速模型收敛。本申请实施例基于多模态数据来训练模型,实现了基于声学输入和光学输入的多模态融合识别。由于多模态数据能够提供比单一模态数据更丰富、更全面的信息理解和处理能力,因此基于多模态数据训练得到的模型适用范围更广,比如能够适应嘈杂或低光等复杂环境,WO2025/140746PCT/C5确保了执行任务处理时的任务处理效果。换言之,本申请实施例训练得到的多模态融合识别模型能够在复杂环境中实现高效识别和精准响应,提高了模型的适用性和鲁棒性。以上简单地介绍了本申请实施例提供的模型训练方案,下面结合图3对本申请实施例提供的基于多模态数据的模型训练方案进行详细介绍。图3是本申请实施例提供的另一种基于多模态数据的模型训练方法的流程图。该方法的执行主体为计算机设备,比如图1中的第一计算机设备。参见图3,本申请实施例提供的方法流程包括如下步骤。301、计算机设备获取第一训练样本集;其中,第一训练样本集中包括已被标注的声光样本组合、未被标注的声学样本和未被标注的光学样本;一个声光样本组合中包括一个声学样本和一个光学样本。本步骤可以参考前述步骤201,此处不再赘述。另外,为了增强模型鲁棒性,本申请实施例还会对原始收集的训练样本进行数据增强,详见下述步骤302。302、计算机设备对第一训练样本集进行样本扩充,并将扩充的声学样本和光学样本添加至第一训练样本集,得到更新后的第一训练样本集。在一种可能的实现方式中,本申请实施例通过如下方式进行样本扩充:3021、对第一训练样本集中包括的声学样本进行第一数据增强,得到扩充的声学样本。示例性地,第一数据增强至少包括:改变音调、改变语速,本申请对此不作限定。3022、对第一训练样本集中包括的光学样本进行第二数据增强,得到扩充的光学样本。示例性地,第二数据增强至少包括:图像旋转、图像翻转、图像缩放和图像裁剪,本申请对此同样不作限定。3023、将扩充的声学样本和扩充的光学样本添加至第一训练样本集,得到更新后的第一训练样本集。即,基于更新后的第一训练样本集进行模型训练。303、计算机设备对更新后的第一训练样本集中包括的声学样本进行声学特征提取以及对光学样本进行光学特征提取。本步骤可以参考前述步骤202,此处不再赘述。304、计算机设备获取用于多模态融合的融合权重;其中,该融合权重是根据模型训练参数和进行数据采集时的外部环境动态调整的。在本申请实施例中,进行数据采集时的环境信息既可以通过外部传感器获取,也可以通过对采集到的声学数据或光学数据进行分析得到,本申请对此不作限定。在获取到环境信息后,本申请实施例便可以根据获取到的环境信息和模型训练参数来动态调整融合权重。例如,当上述环境信息指示进行数据采集时的外部环境为高噪声环境时,声学数据可能不是很可靠,因此可以增加光学数据对应的融合权重。需要说明的是,对于第一训练样本集中在相同环境下采集到的声学样本和光学样本,该融合权重包括声学样本对应的第一融合权重和光学样本对应的第二融合权重。基于以上描述,本申请实施例通过如下两种方式来获取用于多模态融合的融合权重。方式1、响应于进行数据采集时的外部环境为嘈杂环境,基于进行数据采集时的环境噪声水平,确定权重调整值δ;之后,根据模型训练参数和权重调整值δ,对第二融合权重进行调整,得到新的第二融合权重。其中,新的第二融合权重大于调整前的第二融合权重,即在嘈杂环境下δ值会增大光学样本对应的权重。示例性地,本申请实施例通过快速傅里叶变换来分析声学样本,以此判断环境是否嘈杂;或,通过光流变化分析来分析光学样本,以此判断环境是否嘈杂。而在确定环境噪声水平后,进而根据环境噪声水平来确定δ值。其中,环境噪声越大,δ值的数值越在一种可能的实现方式中,本申请实施例通过一个反馈机制实现权重调整,该反馈机制WO2025/140746PCT/C6用计算公式表示为:方式2、获取声学样本的信号质量和光学样本的信号质量;基于获取到的信号质量,确定权重调整值δ;之后,根据模型训练参数和权重调整值δ,对目标融合权重进行调整,得到新的目标融合权重。其中,目标融合权重与声学样本和光学样本中信号质量好的样本对应。新的目标融合权重大于调整前的目标融合权重。针对该种方式,通过检测声学样本或光学样本的信号质量来计算δ值,目的是增强信号质量较好的那个模态的样本对应的权重。示例性地,声学样本的信号质量为模糊程度、信噪比等,光学样本的信号质量为清晰度、亮度等,本申请对此不作限定。305、在该融合权重的约束下,计算机设备基于更新后的第一训练样本集的标注信息、提取到的声学特征和光学特征进行模型训练,得到多模态融合识别模型。在一种可能的实现方式中,针对特征级融合,模型训练过程包括:步骤a、在该融合权重的约束下,将提取到的声学特征和光学特征进行特征连接,得到融合特征。示例性地,本申请实施例利用全连接层将声学特征和光学特征进行特征连接。其中,通过全连接层进行特征连接可以引入更多的参数和非线性激活函数,这种方式允许更复杂的特征融合,有助于模型学习更复杂的模式和关系。步骤b、将该融合特征输入识别网络进行识别,并获取识别网络输出的预测结果。其中,上述识别网络包括深度神经网络和非线性变换层。比如,该深度神经网络为多层感知机,该非线性变换层通过ReLU激活函数进行非线性变换,本申请对此不作限定。步骤c、基于第一训练样本集的标注信息和预测结果,构建第一损失函数;通过第一损失函数迭代获取损失值,直至满足训练停止条件,得到多模态融合识别模型。其中,第一训练样本集的标注信息为Yi,即真实标签;上述预测结果为i,即融合后的输出。另外,上述训练停止条件可以是第一损失函数计算的损失值最小,本申请对此不作限在另一种可能的实现方式中,针对决策级融合,模型训练过程包括:步骤1、将提取到的声学特征输入第一识别网络进行识别,得到第一识别网络输出的预测结果;以及,将提取到的光学特征输入第二识别网络进行识别,得到第二识别网络输出的预测结果。其中,上述第一识别网络包括深度神经网络和非线性变换层,用于独立地在声学模态上进行识别。上述第二识别网络同样包括深度神经网络和非线性变换层,用于独立地在光学模态上进行识别。步骤2、在融合权重的约束下,将第一识别网络输出的预测结果和第二识别网络输出的预测结果进行融合,并将融合结果经过非线性变换层,得到融合后的预测结果。本步骤用于通过该融合权重对两个识别网络输出的预测结果进行加权求和,进而得到融合结果。示例性地,最终决策输出D通过下述计算公式描述:其中,σ指代激活函数,例如Sigmoid函数或Softmax函数。步骤3、基于第一训练样本集的标注信息和融合后的预测结果,构建第二损失函数;通过第二损失函数迭代获取损失值,直至满足训练停止条件,得到多模态融合识别模型。WO2025/140746PCT/C7其中,第一训练样本集的标注信息为Yi,即真实标签;上述预测结果为Yi,即融合后的输出。另外,上述训练停止条件可以是第二损失函数计算的损失值最小,本申请对此不作示例性地,训练过程中可以采用多任务学习的方式,即将针对声学模态的识别任务与针对光学模态的识别任务合并为一个联合训练任务,本申请对此不作限定。在另一种可能的实现方式中,本申请实施例通过知识蒸馏技术,将大型模型的知识迁移到更小且更高效的模型中。其中,本申请实施例以多模态融合识别模型作为教师模型。在学生模型的训练过程中,本申请实施例根据第二训练样本集中每个训练样本的样本难易程度以及特征重要性,为每个训练样本分别确定一个权重因子。示例性地,第二训练样本集与第一训练样本集为同一个样本集,或,第二训练样本集为第一训练样本集的子集,本申请对此不作限定。需要说明的是,该权重因子用于反映知识蒸馏过程中学生模型对教师模型的输出的关注程度。这有助于提高知识传递的效率,并且可以更灵活地适应不同类型的样本。对于每个训练样本,本申请实施例根据教师模型对该训练样本的输出概率分布与标注信息之间的差异,确定该训练样本的样本难易程度。另外,特征重要性可以使用特征选择或类似方法来评估,本申请对此不作限定。接下来,在权重因子的约束下,基于每个训练样本的标注信息和教师模型的输出概率分布进行模型训练,得到用于多模态融合识别的学生模型。示例性地,在学生模型的训练过程中,本申请实施例基于教师模型的输出概率分布和学生模型的预测输出,获取软目标损失;以及,基于每个训练样本的标注信息和学生模型的预测输出,获取硬目标损失;之后,在权重因子的约束下,基于软目标损失和硬目标损失,构建第三损失函数;进而通过第三损失函数迭代获取损失值,直至满足训练停止条件,得到学生模型。其中,第三损失函数是交叉熵损失函数,本申请对此不作限定。本申请实施例基于多模态数据来训练模型,实现了基于声学输入和光学输入的多模态融合识别。由于多模态数据能够提供比单一模态数据更丰富、更全面的信息理解和处理能力,因此基于多模态数据训练得到的模型适用范围更广,比如能够适应嘈杂或低光等复杂环境,确保了执行任务处理时的任务处理效果。换言之,本申请实施例训练得到的多模态融合识别模型能够在复杂环境中实现高效识别和精准响应,提高了模型的适用性和鲁棒性。图4是本申请实施例提供的一种基于多模态数据的模型训练装置的结构示意图。参见图4,装置包括:第一获取模块401,被配置为获取第一训练样本集;其中,第一训练样本集中包括已被标注的声光样本组合、未被标注的声学样本和未被标注的光学样本;一个声光样本组合中包括一个声学样本和一个光学样本;第一特征提取模块402,被配置为对第一训练样本集中包括的声学样本进行声学特征提第二特征提取模块403,被配置为对第一训练样本集中包括的光学样本进行光学特征提第二获取模块404,被配置为获取用于多模态融合的融合权重;其中,融合权重是根据模型训练参数和进行数据采集时的外部环境动态调整的;训练模块405,被配置为在融合权重的约束下,基于第一训练样本集的标注信息、提取到的声学特征和光学特征进行模型训练,得到多模态融合识别模型。本申请实施例基于多模态数据来训练模型,实现了基于声学输入和光学输入的多模态融WO2025/140746PCT/C8合识别。由于多模态数据能够提供比单一模态数据更丰富、更全面的信息理解和处理能力,因此基于多模态数据训练得到的模型适用范围更广,比如能够适应嘈杂或低光等复杂环境,确保了执行任务处理时的任务处理效果。换言之,本申请实施例训练得到的多模态融合识别模型能够在复杂环境中实现高效识别和精准响应,提高了模型的适用性和鲁棒性。在一种可能的实现方式中,对于第一训练样本集中在相同环境下采集到的声学样本和光学样本,融合权重包括声学样本对应的第一融合权重和光学样本对应的第二融合权重;第二获取模块404,被配置为:响应于进行数据采集时的外部环境为嘈杂环境,基于进行数据采集时的环境噪声水平,确定权重调整值;根据模型训练参数和权重调整值,对第二融合权重进行调整,得到新的第二融合权重;其中,新的第二融合权重大于调整前的第二融合权重。在一种可能的实现方式中,对于第一训练样本集中在相同环境下采集到的声学样本和光学样本,融合权重包括声学样本对应的第一融合权重和光学样本对应的第二融合权重;第二获取模块404,被配置为:获取声学样本的信号质量和光学样本的信号质量;基于获取到的信号质量,确定权重调整值;根据模型训练参数和权重调整值,对目标融合权重进行调整,得到新的目标融合权重;其中,新的目标融合权重大于调整前的目标融合权重;目标融合权重与声学样本和光学样本中信号质量好的样本对应。在一种可能的实现方式中,第一获取模块401,还被配置为:对第一训练样本集中包括的声学样本进行第一数据增强,得到扩充的声学样本;其中,第一数据增强至少包括:改变音调、改变语速;对第一训练样本集中包括的光学样本进行第二数据增强,得到扩充的光学样本;其中,第二数据增强至少包括:图像旋转、图像翻转、图像缩放和图像裁剪;将扩充的声学样本和扩充的光学样本添加至第一训练样本集。在一种可能的实现方式中,训练模块405,被配置为:在融合权重的约束下,将提取到的声学特征和光学特征进行特征连接,得到融合特征;将融合特征输入识别网络进行识别,并获取识别网络输出的预测结果;基于第一训练样本集的标注信息和预测结果,构建第一损失函数;通过第一损失函数迭代获取损失值,直至满足训练停止条件,得到多模态融合识别模型。在一种可能的实现方式中,训练模块405,被配置为:将提取到的声学特征输入第一识别网络进行识别,得到第一识别网络输出的预测结果;将提取到的光学特征输入第二识别网络进行识别,得到第二识别网络输出的预测结果;在融合权重的约束下,将第一识别网络输出的预测结果和第二识别网络输出的预测结果进行融合,并将融合结果经过非线性变换层,得到融合后的预测结果;基于第一训练样本集的标注信息和融合后的预测结果,构建第二损失函数;通过第二损失函数迭代获取损失值,直至满足训练停止条件,得到多模态融合识别模型。在一种可能的实现方式中,训练模块405,还被配置为:以多模态融合识别模型作为教师模型;在学生模型的训练过程中,根据第二训练样本集中每个训练样本的样本难易程度以及特征重要性,确定权重因子;其中,权重因子用于反映知识蒸馏过程中学生模型对教师模型的输出的关注程度;在权重因子的约束下,基于第二训练样本集中每个训练样本的标注信息和教师模型的输出概率分布进行模型训练,得到用于多模态融合识别的学生模型。在一种可能的实现方式中,训练模块405,还被配置为:9WO2025/140746基于第二训练数据集中每个训练样本的标注信息和学生模型的预测输出,获取硬目标损在一种可能的实现方式中,训练模块405,还被配置为:对于第二训练样本集中的每个训练样本,根据教师模型对训练样本的输出概率分布与训上述所有可选技术方案,可以采用任意结合形成本申请的仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功或者部分功能。另外,上述实施例提供的基于多模图5是本申请实施例提供的一种计算机设备500的结构示意图。该计算机500可以是服务器。该计算机设备500可因配置或性能不同而产生比较大的差异,包括一个或一个以上处理器(CentralProcessingUnits,CPU)501和一个或一个以上的存储器502,其中,存储器502中存储有至少一条程序代码,至少一条程序代码由处理器501加载并执行以实现上述各个方法实施例提供的基于多模态数据的模型训练方法。当然,该计算机设备500还具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该计算机设备500还包括其他用于实现设备功能的部件,在此不做赘述。上述程序代码可由计算机设备中的处理器执行以完成上述实施存取存储器(RandomAccessMemory,RAM)、光盘只读存储器(Co在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算计算机程序包括计算机程序代码,该计算机程序代码存储以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在WO2025/140746PCT/C1.一种基于多模态数据的模型训练方法,所述方法包括:获取第一训练样本集;其中,所述第一训练样本集中包括已被标注的声光样本组合、未被标注的声学样本和未被标注的光学样本;一个所述声光样本组合中包括一个声学样本和一个光学样本;对所述第一训练样本集中包括的声学样本进行声学特征提取;对所述第一训练样本集中包括的光学样本进行光学特征提取;获取用于多模态融合的融合权重;其中,所述融合权重是根据模型训练参数和进行数据采集时的外部环境动态调整的;在所述融合权重的约束下,基于所述第一训练样本集的标注信息、提取到的声学特征和光学特征进行模型训练,得到多模态融合识别模型。2.根据权利要求1所述的方法,其中,对于所述第一训练样本集中在相同环境下采集到的声学样本和光学样本,所述融合权重包括所述声学样本对应的第一融合权重和所述光学样本对应的第二融合权重;所述获取用于多模态融合的融合权重,包括:响应于进行数据采集时的外部环境为嘈杂环境,基于进行数据采集时的环境噪声水平,确定权重调整值;根据所述模型训练参数和所述权重调整值,对所述第二融合权重进行调整,得到新的第二融合权重;其中,所述新的第二融合权重大于调整前的第二融合权重。3.根据权利要求1所述的方法,其中,对于所述第一训练样本集中在相同环境下采集到的声学样本和光学样本,所述融合权重包括所述声学样本对应的第一融合权重和所述光学样本对应的第二融合权重;所述获取用于多模态融合的融合权重,包括:获取所述声学样本的信号质量和所述光学样本的信号质量;基于获取到的信号质量,确定权重调整值;根据所述模型训练参数和所述权重调整值,对目标融合权重进行调整,得到新的目标融合权重;其中,所述新的目标融合权重大于调整前的目标融合权重;所述目标融合权重与所述声学样本和所述光学样本中信号质量好的样本对应。4.根据权利要求1所述的方法,其中,所述方法还包括:对所述第一训练样本集中包括的声学样本进行第一数据增强,得到扩充的声学样本;其中,所述第一数据增强至少包括:改变音调、改变语速;对所述第一训练样本集中包括的光学样本进行第二数据增强,得到扩充的光学样本;其中,所述第二数据增强至少包括:图像旋转、图像翻转、图像缩放和图像裁剪;将扩充的声学样本和扩充的光学样本添加至所述第一训练样本集。5.根据权利要求1所述的方法,其中,所述在所述融合权重的约束下,基于所述第一训练样本集的标注信息、提取到的声学特征和光学特征进行模型训练,得到多模态融合识别模型,WO2025/140746PCT/C在所述融

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论