CN114140708B 视频处理方法、装置及计算机可读存储介质（阿里巴巴达摩院(杭州)科技有限公司）

上传人：x*** IP属地：重庆上传时间：2026-01-06 格式：DOCX 页数：55 大小：940.78KB 积分：11.4 举报 版权申诉

CN114140708B 视频处理方法、装置及计算机可读存储介质（阿里巴巴达摩院(杭州)科技有限公司）_第2页

CN114140708B 视频处理方法、装置及计算机可读存储介质（阿里巴巴达摩院(杭州)科技有限公司）_第3页

CN114140708B 视频处理方法、装置及计算机可读存储介质（阿里巴巴达摩院(杭州)科技有限公司）_第4页

CN114140708B 视频处理方法、装置及计算机可读存储介质（阿里巴巴达摩院(杭州)科技有限公司）_第5页

已阅读5页，还剩50页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

(12)发明专利(22)申请日2021.08.16(43)申请公布日2022.03.04GO6V20/40(2022.01)GO6V10/774(2022.01)GO6V10/82(2022.01)GO6N3/0442(2023.01)(56)对比文件localization.《IEEETransactionsMultimedia》.2022,第25卷2734-2748.AwareNetworksforAudio-VisualEventLocalization.《Proceedingsofthe28thACM’20)》.2020,第3893-3901页.AwareNetworksforAudio-VisualEventLocalization.《Proceedingsofthe28thACM’20)》.2020,第3893-3901页.权利要求书3页说明书18页附图7页视频处理方法、装置及计算机可读存储介质算机可读存储介质。其中，该方法包括：接收待处2接收待处理视频，并对所述待处理视频进行特征提取，以得到所述待处理视频的初始视频特征和初始音频特征；通过所述初始音频特征确定多个维度上的权重参数，并基于第一注意力模块利用多个维度上的权重参数对所述初始视频特征进行增强处理，以得到增强的视频特征，其中，所述多个维度至少包括通道维度、空间维度和时间维度；基于所述增强的视频特征预测所述待处理视频中的视听事件；其中，所述多个维度上的权重参数包括第一维度注意力权重参数、第二维度注意力权重参数和第三维度注意力权重参数，所述第一维度为所述通道维度，所述第二维度为所述空间维度，所述第三维度为所述时间维度；基于第一注意力模块利用多个维度上的权重参数对所述初始视频特征进行增强处理，包括：使用所述第一维度注意力权重参数对所述初始视频特征进行增强，得到第一维度视频特征；基于所述第二维度注意力权重参数、所述第三维度注意力权重参数和所述第一维度视频特征，得到所述增强的视频特征，所述第二维度注意力权重参数通过在第二维度上对所述初始音频特征和所述第一维度视频特征进行融合得到，所述第三维度注意力权重参数通过在第三维度上对所述初始音频特征和所述第一维度视频特征进行融合得到。2.根据权利要求1所述的视频处理方法，其特征在于，在基于所述增强的视频特征预测所述待处理视频中的视听事件之后，所述方法还包括：输出所述视听事件的预测结果，其中，所述预测结果包括所述待处理视频中是否存在所述视听事件、所述视听事件所在的视频片段以及所述视听事件的类别中的任意一种或者多种。3.根据权利要求1所述的视频处理方法，其特征在于，基于所述第二维度注意力权重参数、所述第三维度注意力权重参数和所述第一维度视频特征，得到所述增强的视频特征，包基于所述第二维度注意力权重参数和所述第三维度注意力权重参数，得到第二维度注意力特征映射权重；使用所述第二维度注意力特征映射权重，更新所述第一维度视频特征，得到所述增强的视频特征。4.根据权利要求1所述的视频处理方法，其特征在于，基于所述增强的视频特征预测所将所述初始音频特征和所述增强的视频特征分别输入自注意力模块，得到自注意力音频特征和自注意力视频特征；将所述初始音频特征和所述自注意力视频特征输入第二注意力模块，得到交叉注意力的音频特征，以及将所述增强的视频特征和所述自注意力音频特征输入所述第二注意力模将所述交叉注意力的音频特征和所述交叉注意力的视频特征进行融合，得到融合特基于所述融合特征预测所述视听事件。5.根据权利要求4所述的视频处理方法，其特征在于，将所述初始音频特征和所述自注3意力视频特征输入第二注意力模块，得到交叉注意力的音频特征，以及将所述增强的视频特征和所述自注意力音频特征输入所述第二注意力模块，得到交叉注意力的视频特征，包基于所述第二注意力模块，对所述初始音频特征和所述自注意力视频特征进行分组加权平均处理，得到所述交叉注意力的音频特征；基于所述第二注意力模块，对所述增强的视频特征和所述自注意力音频特征进行分组加权平均处理，得到所述交叉注意力的视频特征。6.根据权利要求4所述的视频处理方法，其特征在于，所述方法还包括：获取待训练模型，其中，所述待训练模型用于基于所述融合特征预测所述视听事件；基于所述融合特征确定第一分类损失函数；基于所述自注意力视频特征确定第二分类损失函数；根据所述第一分类损失函数和所述第二分类损失函数对所述待训练模型进行优化。7.根据权利要求6所述的视频处理方法，其特征在于，所述方法还包括：基于所述融合特征确定预测损失函数；根据所述预测损失函数、所述第一分类损失函数和所述第二分类损失函数对所述待训练模型进行优化。获取直播过程中采集到的待处理的直播视频；采用目标检测模型所述直播视频进行分类检测，得到所述直播视频中视听事件的预测基于所述预测结果对所述直播视频增加标签信息；其中，所述目标检测模型用于对所述直播视频进行特征提取，以得到所述直播视频的初始视频特征和初始音频特征；通过所述初始音频特征确定多个维度上的权重参数，并基于第一注意力模块利用多个维度上的权重参数对所述初始视频特征进行增强处理，以得到增强的视频特征；基于所述增强的视频特征预测所述视听事件，所述多个维度至少包括通其中，所述多个维度上的权重参数包括第一维度注意力权重参数、第二维度注意力权重参数和第三维度注意力权重参数，所述第一维度为所述通道维度，所述第二维度为所述空间维度，所述第三维度为所述时间维度；基于第一注意力模块利用多个维度上的权重参数对所述初始视频特征进行增强处理，包括：使用所述第一维度注意力权重参数对所述初始视频特征进行增强，得到第一维度视频特征；基于所述第二维度注意力权重参数、所述第三维度注意力权重参数和所述第一维度视频特征，得到所述增强的视频特征，所述第二维度注意力权重参数通过在第二维度上对所述初始音频特征和所述第一维度视频特征进行融合得到，所述第三维度注意力权重参数通过在第三维度上对所述初始音频特征和所述第一维度视频特征进行融合得到。接收模块，用于接收待处理视频，并对所述待处理视频进行特征提取，以得到所述待处理视频的初始视频特征和初始音频特征；增强模块，用于通过所述初始音频特征确定多个维度上的权重参数，并基于第一注意4力模块利用多个维度上的权重参数对所述初始视频特征进行增强处理，以得到增强的视频预测模块，用于基于所述增强的视频特征预测所述待处理视频中的视听事件；其中，所述多个维度上的权重参数包括第一维度注意力权重参数、第二维度注意力权重参数和第三维度注意力权重参数，所述第一维度为所述通道维度，所述第二维度为所述空间维度，所述第三维度为所述时间维度；所述增强模块，还用于使用所述第一维度注意力权重参数对所述初始视频特征进行增强，得到第一维度视频特征；基于所述第二维度注意力权重参数、所述第三维度注意力权重参数和所述第一维度视频特征，得到所述增强的视频特征，所述第二维度注意力权重参数通过在第二维度上对所述初始音频特征和所述第一维度视频特征进行融合得到，所述第三维度注意力权重参数通过在第三维度上对所述初始音频特征和所述第一维度视频特征进行融合得到。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至8中任意一项所述的方法。11.一种计算机程序产品，其特征在于，所述计算机程序产品运行时执行权利要求1至8中任意一项所述的方法。存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：接收待处理视频，并对所述待处理视频进行特征提取，以得到所述待处理视频的初始视频特征和初始音频特征；通过所述初始音频特征确定多个维度上的权重参数，并基于第一注意力模块利用多个维度上的权重参数对所述初始视频特征进行增强处理，以得到增强的视频特征，其中，所述多个维度至少包括通道维度、空间维度和时间维度；基于所述增强的视频特征预测所述待处理视频中的视听事件；其中，所述多个维度上的权重参数包括第一维度注意力权重参数、第二维度注意力权重参数和第三维度注意力权重参数，所述第一维度为所述通道维度，所述第二维度为所述空间维度，所述第三维度为所述时间维度；基于第一注意力模块利用多个维度上的权重参数对所述初始视频特征进行增强处理，包括：使用所述第一维度注意力权重参数对所述初始视频特征进行增强，得到第一维度视频特征；基于所述第二维度注意力权重参数、所述第三维度注意力权重参数和所述第一维度视频特征，得到所述增强的视频特征，所述第二维度注意力权重参数通过在第二维度上对所述初始音频特征和所述第一维度视频特征进行融合得到，所述第三维度注意力权重参数通过在第三维度上对所述初始音频特征和所述第一维度视频特征进行融合得到。5视频处理方法、装置及计算机可读存储介质技术领域[0001]本发明涉及视频处理技术领域，具体而言，涉及一种视频处理方法、装置及计算机可读存储介质。背景技术[0002]人类感知系统能够融合视觉和听觉信息，以实现对现实世界中的视听事件的理解。传统的视频检测技术局限于视觉方法而忽略其他感知方法，无法准确对视听事件进行检测。相关技术中，通过多模态事件检测算法对音频与视频特征进行融合，可以实现对视频中视听事件的检测，然而现有的多模态事件检测算法采用粗粒度的特征融合方式，比如，音频特征仅仅在单一维度上参与引导视频特征，导致视频中视听事件检测不准确。[0003]针对上述相关技术中粗粒度的视频检测方法，导致视频中视听事件检测不准确的问题，目前尚未提出有效的解决方案。发明内容[0004]本发明实施例提供了一种视频处理方法、装置及计算机可读存储介质，以至少解决相关技术中粗粒度的视频检测方法，导致视频中视听事件检测不准确的技术问题。[0005]根据本发明实施例的一个方面，提供了一种视频处理方法，包括：接收待处理视频，并对待处理视频进行特征提取，以得到待处理视频的初始视频特征和初始音频特征；通过初始音频特征确定多个维度上的权重参数，并基于第一注意力模块利用多个维度上的权重参数对初始视频特征进行增强处理，以得到增强的视频特征；基于增强的视频特征预测待处理视频中的视听事件。[0006]根据本发明实施例的一个方面，提供了一种视频处理方法，包括：获取直播过程中采集到的待处理的直播视频；采用目标检测模型直播视频进行分类检测，得到直播视频中视听事件的预测结果；基于预测结果对直播视频增加标签信息，其中，目标检测检测模型用于对直播视频进行特征提取，以得到直播视频的初始视频特征和初始音频特征；通过初始音频特征确定多个维度上的权重参数，并基于第一注意力模块利用多个维度上的权重参数对初始视频特征进行增强处理，以得到增强的视频特征；基于增强的视频特征预测视听事件。[0007]根据本发明实施例的另一方面，还提供了一种视频处理装置，包括：接收模块，用于接收待处理视频，并对待处理视频进行特征提取，得到待处理视频的初始视频特征和初始音频特征；增强模块，用于通过初始音频特征确定多个维度上的权重参数，并基于第一注意力模块利用多个维度上的权重参数对初始视频特征进行增强处理，得到增强的视频特征；预测模块，用于基于增强的视频特征预测待处理视频中的视听事件。[0008]根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，在程序运行时控制计算机可读存储介质所在设备执行上述任意一项的方法。6[0009]根据本发明实施例的另一方面，还提供了一种计算机程序，计算机程序运行时执行上述任意一项的方法。[0010]根据本发明实施例的另一方面，还提供了一种视频的处理系统，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：接收待处理视频，并对待处理视频进行特征提取，以得到待处理视频的初始视频特征和初始音频特征；通过初始音频特征确定多个维度上的权重参数，并基于第一注意力模块利用多个维度上的权重参数对初始视频特征进行增强处理，以得到增强的视频特征；基于增强的视频特征预测待处理视频中的视听事件。[0011]在本发明实施例中，接收待处理视频，并对待处理视频进行特征提取，得到待处理视频的初始视频特征和初始音频特征，基于第一注意力模块利用多个维度上的权重参数对初始视频特征进行增强处理，得到增强的视频特征，基于增强的视频特征预测待处理视频中的视听事件，通过在多个维度上对音频和视频特征进行细粒度模态融合，减少了背景噪声对视听事件检测造成的干扰，可以更加准确地捕获视频中声源的位置，进而提高了视听事件检测的准确性，进而解决了相关技术中粗粒度的视频检测方法，导致视频中视听事件检测不准确的技术问题。附图说明[0012]此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：[0013]图1是一种用于实现数据的训练方法的计算设备的硬件结构框图；[0014]图2是根据本发明实施例的一种视频处理方法的流程图；[0015]图3a是根据本发明实施例的一种可选的三元注意力网络结构的示意图；[0016]图3b是根据本发明实施例的一种可选的MFB模块的示意图；[0017]图4a是根据本发明实施例的一种可选的稠密跨模态注意力模块结构的示意图；[0018]图4b是根据本发明实施例的一种可选的稠密相关权重计算的示意图；[0019]图4c是根据本发明实施例的一种可选的分组加权平均的示意图；[0020]图5是根据本发明实施例的一种可选的视频处理方法的示意图；[0021]图6是根据本发明实施例的一种可选的视频处理方法的示意图；[0022]图7是不同的平衡超参对于检测结果影响的示意图；[0023]图8是根据本发明实施例的一种视频处理方法的流程图；[0024]图9是根据本发明实施例的一种视频处理装置的示意图；[0025]图10是根据本申请实施例的一种计算机终端的结构框图。具体实施方式[0026]为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范7[0027]需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。[0029]根据本发明实施例，还提供了一种视频处理方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。[0030]本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图1是本发明实施例的一种视频处理方法的计算机终端的硬件结构框图。如图1所示，计算设备10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结备10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。[0031]存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的视频处理方法对应的程序指令/模块，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算设备10。上述网络的实[0032]传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(NetworkInterfaceController,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(RadioFrequency,RF)模块，其用于通过无线方式与互联网进行通讯。[0033]在上述运行环境下，本申请提供了如图2所示的视频处理方法。图2是根据本发明[0034]步骤S201,接收待处理视频，并对待处理视频进行特征提取，以得到待处理视频的初始视频特征和初始音频特征。[0035]上述待处理视频为需要进行检测视听事件的视频，视听事件为包含图像和音频的事件，比如，视听事件可以为待处理视频中包含语音对话和图像的一段视频。[0036]待处理视频可以为任意主题或者应用场景的视频，包括但不限于直播平台上获得的直播视频，交通场景下的交通视频，教育领域的教学视频，医疗领域的医疗检查视频等。8[0037]上述初始视频特征和初始音频特征可以通过训练好的特征提取模型进行提取，初始视频特征用于表示待处理视频中的图像特征，初始音频特征用于表示待处理视频中的声音特征。[0038]步骤S202,通过初始音频特征确定多个维度上的权重参数，并基于第一注意力模块利用多个维度上的权重参数对初始视频特征进行增强处理，得到增强的视频特征。[0039]通过在多个维度上以细粒度的融合方式来计算注意力的权重参数，对初始视频特征和初始音频特征进行融合，并得到增强的视频特征，增强的视频特征相比于初始视频特征，突出显示了事件相关区域(事件相关区域为待处理视频中存在视听事件的视频片段),降低了视听事件检测过程中背景噪声的干扰，显著地提高了捕获视频中声源位置的性能。[0040]在一种可选的实施例中，上述第一注意力模块可以为三元注意力模块，上述多个维度可以包括通道维度、空间维度和时间维度，三元注意力模块基于初始音频特征得到通道维度、空间维度和时间维度三个维度上的权重参数，进而在通道、空间和时间三个维度上以细粒度方式对初始视频特征进行增强处理。[0041]图3a是根据本发明实施例的一种可选的三元注意力网络结构的示意图，如图3a所示，三元注意力网络结构包括通道注意力模块，空间注意力模块和时间注意力模块，空间注意力模块可以采用多模态双线性矩阵分解池化模块(Multi-modalfactorizedbilinearpooling,MFB模块),将初始音频特征a(且at∈Rda)和初始视频特征v(且vt∈Rdv×(HW输入至三元注意力网络模型中，实现初始音频特征在通道、空间和时间三个维度上以细粒度方式对初始视频特征进行增强处理，得到增强的视频特征v。[0042]步骤S203,基于增强的视频特征预测待处理视频中的视听事件。[0043]在得到了增强的视频特征后，基于增强的视频特征与音频特征进行融合，得到音频和视频的融合特征，融合特征可以用于预测待处理视频中的视听事件。[0044]在一种可选的实施中，在基于增强的视频特征预测待处理视频中的视听事件之后，上述方法还包括：输出视听事件的预测结果，其中，预测结果包括待处理视频中是否存在所述视听事件、视听事件所在的视频片段以及所述视听事件的类别中的任意一种或者多种。[0045]具体的，对视听事件的预测结果可以包括视听事件相关段和视听事件的类别，视听事件相关段的预测结果可以包括待处理视频中是否存在视听事件，以及当待处理视频中存在视听事件时该视听事件在待处理视频中存在的视频片段。例如，待预测的视听事件可以为飞机起飞的视听事件，可以将获取到的待处理视频基于上述方法得到增强的视频特征，将增强的视频特征输入训练好的检测模型中，可以得到预测结果，预测结果可以包括待处理视频中是否包含飞机起飞视听事件、飞机起飞视听事件存在与待处理视频中的视频片段，以及视听事件的类别，基于视听事件的类别可以对检测到的视听事件增加标签，比如，将“飞机起飞”作为视听事件的类别标签。本实施例中，基于增强的视频特征来预测视听事件，增强了区别声音相似类别的检测性能，比如，可以更精确的区分出噪音和视听事件中音频特征。[0046]本实施例中的视频处理方法可以用于在视频推荐场景、视频内容审核、视频内容理解场景以及音视频分离场景等多种应用场景中视频中视听事件的检测。9[0047]本实施例中，接收待处理视频，并对待处理视频进行特征提取，得到待处理视频的初始视频特征和初始音频特征，基于第一注意力模块利用多个维度上的权重参数对初始视频特征进行增强处理，得到增强的视频特征，基于增强的视频特征预测待处理视频中的视听事件，通过在多个维度上对音频和视频特征进行细粒度模态融合，减少了背景噪声对视听事件检测造成的干扰，可以更加准确地捕获视频中声源的位置，进而提高了视听事件检测的准确性，解决了相关技术中粗粒度的视频检测方法，导致视频中视听事件检测不准确的技术问题。[0048]作为一种可选的实施例，对待处理视频进行特征提取，得到待处理视频的初始视频特征，包括：获取待处理视频的图像序列；基于图像特征提取模型从图像序列中提取得到特征图；将特征图进行全局平均池化，得到初[0049]上述图像序列可以为从待处理视频中提取的具有指定帧数的图像，指定帧数可以上述图像序列。[0050]上述可以为卷积神经网络模型，比如VGG-19网络模型，图像特征提取模型可以基于图像数据集(比如，ImageNet数据集)对VGG-19网络模型预训练得到。[0051]上述特征图可以为具有指定时间长度的视频片段的特征图，例如，为了得到初始型中，提取得到具有1秒视频片段的pool5特征图，使用全局平均池化，得到段级别的初始视频特征v,t∈[1,10]。[0052]作为一种可选的实施例，对待处理视频进行特征提取，得到待处理视频的初始音频特征，包括：获取待处理视频中的音频片段；将音频片段转换为频谱图；基于音频特征提取模型从频谱图中提取特征向量；确定特征向量为初始音频特征。[0053]上述音频片段可以为从待处理视频中提取的具有指定时间长度的音频，指定时间长度可以根据音频特征提取模型确定。[0054]上述音频特征提取模型可以为预训练的卷积神经网络模型，比如VGGish网络模型，具体的，音频特征提取模型可以通过基于音频数据集(比如，AudioSet数据集)网络模型预训练得到。[0055]例如，为了得到初始音频特征，可以将待处理视频中每1秒的音频片段转换为log-mel频谱图，基于预训练的VGGish网络模型提取得到128D特征向量，作为段级别的初始音频[0056]作为一种可选的实施例，多个维度上的权重参数包括第一维度注意力权重参数、第二维度注意力权重参数和第三维度注意力权重参数，步骤S202,基于第一注意力模块利用多个维度上的权重参数对初始视频特征进行增强处理，包括如下步骤：[0057]步骤S2021,使用第一维度注意力权重参数对初始视频特征进行增强，得到第一维度视频特征。[0058]上述第一注意力模块可以为三元注意力模块，上述第一维度可以为通道维度，第二维度可以为空间维度，第三维度可以为时间维度，三元注意力模块基于初始音频特征，在通道、空间和时间三个维度上以细粒度方式对初始视频特征进行增强处理。[0059]在一种可选的实施例中，通过初始音频特征确定多个维度上的权重参数，包括：对[0060]第一维度注意力权重参数可以为通道注意力权重，在得到初始音频特征at∈Rda和初始视频特征vt∈Rdv×(HW后，可通过两个非线性变换将初始音频特征和初始视频特征投影和对齐到相同维度，通过挤压和激励模块获得通道注意力权重,具体的，通道注意度上全局平均池化，W₁∈Rdv×d和W₂∈Rd×dv分别表示两个线性变换，8代表ReLU的激活[0063]第一维度注意力权重参数可以为通道注意力权重,使用通道注意力权重初始视频特征Vt∈Rdv×(HW进行增强，得到通道注意力的视频特征(即第一维度视频特征),具体过程如下：[0066]步骤S2022,基于第二维度注意力权重参数和第三维度注意力权重参数，得到第二维度注意力特征映射权重，其中，第二维度注意力权重参数通过在第二维度上对初始音频特征和第一维度视频特征进行融合得到，第三维度注意力权重参数通过在第三维度上对初始音频特征和第一维度视频特征进行融合得到。[0067]具体的，第二维度注意力权重参数为空间注意力权重,第三维度注意力权重参数为时间注意力权重,基于空间注意力权重和时间注意力权重，计算得到空间注意力特征映射权重[0070]步骤S2023,使用第二维度注意力特征映射权重，更新第一维度视频特征，得到增强的视频特征[0072]其中，为空间注意力特征映射权重。通过使用空间注意来更新通道注意力的视频特征,可以得到音频在通道、空间和时间三个维度上增强的视频特征[0073]在一种可选的实施例中，通过初始音频特征确定多个维度上的权重参数，包括：基空间注意力权重Mv,在空间维度上对初始音频特征a和通道注意力的视频特征v{进行音频特征a和通道注意力的视频特征v扩张到相同的维度kdo,SP(f,k)代表核和步长都为[0080]通过采用多模态双线性矩阵分解池化模块(即MFB模块),对每个空间位置上的视地提高了捕获视频中声源位置的性能。图3b是根据本发明实施例的一种可选的MFB模块的[0082]将初始音频特征a和通道注意力的视频特征v[投影到相同的维度do:[0088]作为一种可选的实施例，步骤S203,基于增强的视频特征预测待处理视频中的视到交叉注意力的视频特征，将交叉注意力的音频特征和交叉注意力的视频特征进行融合，注意力模块中，x作为稠密跨模态注意力模块的查询qu中的ai,yi为图4c中的bi,将矩阵(x₁×yi)中的元素分为两组：对角线元素(对应于原始内[0113]通过将交叉注意力的音频特征和交叉注意力的视频特征进行融合，可以得到音频和视频融合的高语义特征。上述检测结果可以包括预测的视听事件的事件相关段(即待处理是视频中是否包含视听事件以及视听事件所处的位置)和视听事件类别等。[0116]例如，待处理视频可以为一段包含了人物交谈和飞机起飞事件的视频，将上述待处理视频基于上述方法得到融合特征，将融合特征输入预设的检测模型中，可以得到上述待处理视频中包含人物交谈的视听事件和飞机起飞的视听事件的检测结果，以及各视听事件的类别，基于类别可以对检测到的视听事件增加标签。[0117]由于融合特征通过上述细粒度的跨模态融合得到，使用融合特征来检测待处理视频中的视听事件，可以提高对视听事件检测的准确性，比如，在检测飞机起飞的视听事件时，可以准确的区分出人物交谈的声音为噪音，降低噪音对视听事件检测的干扰。[0118]作为一种可选的实施例，上述方法还包括：获取待训练模型，其中，待训练模型用于基于融合特征预测视听事件；基于融合特征确定第一分类损失函数；基于自注意力视频特征确定第二分类损失函数；根据第一分类损失函数和第二分类损失函数对待训练模型进行优化。[0119]上述待训练模型为用于基于融合特征检测视听事件的检测模型，检测模型可以根据得到的融合特征，输出检测结果，其中，检测结果可以包括对于待处理视频中是否存在视听事件，以及视听事件的类别。上述第一分类损失函数基于融合特征确定，可以为一种跨模态约束损失函数，关注融合特征的分类能力。第二分类损失函数基于自注意力视频特征确定，可以为一种单模态约束损失函数，关注单模态特征的分类能力。[0120]在一种可选的实施中，为了提高待训练模型对视频级别的视听事件类别检测的准确性，分别基于融合特征确定第一分类损失函数，以及基于中间阶段的自注意力视频特征确定第二分类损失函数(即单模态约束损失函数),不仅利用融合特征0a计算交叉熵损失，还利用自注意力视频特征vse1f(即单模态特征)计算交叉熵损失，实现了利用单模态约束损失函数去加强单模态特征的分类能力，将单模态约束损失函数与基于融合特征的视听事件分类损失结合，以进一步提高利用单模态特征识别事件类别的能力，进而增强了对于相似的视听事件分类的区分性能。[0121]具体的，先利用融合特征0计算交叉熵损失$1:S1=Softmax(FC(Oav));[0122]利用自注意力视频特征Ve1计算交叉熵损失：Sz=Softmax(FC(Vselif);合第一分类损失函数和第二分类损失函数对上述待训练模型进行优化，可以增强待训练模型对于相似的视听事件分类的区分性能。[0126]在一种可选的实施例中，上述第一分类损失函数为多标签软边界损失的视听事件分类损失，第二分类损失函数可以为单模态事件分类约束损失，基于第一分类损失函数和第二分类损失函数，可得到弱监督损失函数Lws:[0129]作为一种可选的实施例，基于融合特征确定预测损失函数；根据预测损失函数、第一分类损失函数和第二分类损失函数对待训练模型进行优化。[0130]基于上述待训练模型对视听事件的检测结果还包括待处理视频中是否存在视听事件，即对视听事件相关段的检测结果。上述预测损失函数用于优化待训练模型对视听事件相关段检测结果的准确性。[0131]具体的，预测损失函数可以基于二元交叉熵损失函数确定，首先，可以利用融合特征0计算二元交叉熵损失s:s=Sigmoid(FC(0a)),,[0134]在得到预测损失函数、第一分类损失函数和第二分类损失函数后，可以分别使用三种损失函数对上述待训练模型进行优化，也可以基于三种损失函数构建成一个最终的损失函数，使用最终的损失函数来训练待训练模型。[0135]在一种可选的实施例中，根据预测损失函数、第一分类损失函数和第二分类损失函数对特征提取模型进行优化，包括：基于预设的超参数通过预测损失函数、第一分类损失函数和第二分类损失函数构建完全监督损失函数；求解完全监督损失函数以对待训练模型进行优化。[0136]具体的，基于预测损失函数、第一分类损失函数和第二分类损失函数,得到完全监督损失函数Lfs:[0139]使用完全监督损失函数Lfs对待训练模型进行优化，可以提高对待处理视频中的视听事件的检测结果的准确性。[0140]在完成对待训练模型的优化后，最终的检测结果由基于融合特征0a计算的交叉熵损失S₁和二元交叉熵损失s共同决定。可以设定合理的对比阈值，来判断检测结果中是否包含视听事件，例如，对比阈值可以设定为0.5,如果s≥0.5,则确定待处理视频包含视听事件，且该视听事件为S₁的视听事件类别；如果s<0.5,则确定该段待处理视频为背景视频[0141]在一种可选的实施例中，图6是根据本发明实施例的一种可选的视频处理方法的示意图，如图6所示，从待处理视频中采样得到具有预设帧数的视频片段601输入至VGG-19网络中提取得到初始视频特征Vt,将待处理视频中的音频片段602转换为log-mel频谱图603,将log-mel频谱图603输入至VGGish网络中提取得到初始音频特征a,将初始视频特征Vt和初始音频特征at输入至音频引导的三元注意力模块606中，实现初始音频特征在通道、空间和时间三个维度上以细粒度方式对初始视频特征进行增强处理，得到增强的视频特征[0142]将增强的视频特征v输入模态内注意力模块607(即自注意力模块),得到自注意力的视频特征，将初始视频特征a,输入模态内注意力模块608(即自注意力模块),得到自注意力的音频特征。上述第二注意力模块分别包括稠密跨模态注意力模块609和稠密跨模态注意力模块610,将增强的视频特征v和自注意力的音频特征输入稠密跨模态注意力模块610,得到，将自注意力的视频特征和初始音频特征输入稠密跨模态注意力模块609,将输入音频-视频融合模块605,可以得到最终的融合特征，融合特征经过分类模型(即全连接层FC)处理，可以得到视听事件相关段和视听事件类型的检测结果。[0143]此外，可以基于模态内注意力模块607输出的自注意力视频特征，构建单模态约束损失函数604,以及基于音频-视频融合模块611输出的融合特征构件构建分类损失函数，利用单模态约束损失函数604去加强单模态特征的分类能力，将单模态约束损失函数604与分类损失函数结合，对分类模型进行训练，进一步提高分类模型利用单模态特征识别事件类别的能力，进而增强了对于相似的视听事件分类的区分性能。[0144]基于本实施例中的视频处理方法，在弱监督的条件下，对视听事件检测到准确度可以达到74.3%,在完全监督的条件下，对视听事件检测到准确度可以达到79.6%,相比于现有的检测网络，提高了对视听事件检测的准确度。[0145]图7是不同的平衡超参数对于检测结果影响的示意图，如图7所示，横坐标为平衡超参数的取值，纵坐标为检测结果精度，曲线71为基于弱监督损失函数Lws对上述待训练模型优化后的检测结果的精度曲线，曲线72为基于完全监督损失函数对上述待训练模型优化后的检测结果的精度曲线，根据不同平衡超参数对检测结果精度影响，确定出合适的平衡超参数，可以提高对视听事件检测结果的准确性。[0146]需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。[0147]通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。[0148]实施例2[0149]根据本发明实施例，还提供了一种视频处理方法的实施例，图8是根据本发明实施[0150]步骤S801,获取直播过程中采集到的待处理的直播视频。[0151]步骤S802,采用目标检测模型直播视频进行分类检测，得到直播视频中视听事件的预测结果。[0152]上述待处理的直播视频为直播平台中需要检测视听事件的视频，基于目标检测模型对直播视频进行检测，得到的预测结果。[0153]步骤S803,基于预测结果对直播视频增加标签信息，其中，目标检测检测模型用于对直播视频进行特征提取，以得到直播视频的初始视频特征和初始音频特征；通过初始音频特征确定多个维度上的权重参数，并基于第一注意力模块利用多个维度上的权重参数对初始视频特征进行增强处理，以得到增强的视频特征；基于增强的视频特征预测视听事件。[0154]目标检测模型中可以包括特征提取模型，上述初始视频特征和初始音频特征可以通过训练好的特征提取模型进行提取，初始视频特征用于表示待处理视频中的图像特征，初始音频特征用于表示待处理视频中的声音特征。[0155]具体的，对视听事件的预测结果可以包括视听事件相关段和视听事件的类别，视听事件相关段的预测结果可以包括待处理视频中是否存在视听事件，以及当待处理视频中存在视听事件时该视听事件在待处理视频中存在的视频片段。[0156]例如，待预测的视听事件可以为主播唱歌，可以将获取到的直播视频基于上述方法得到增强的视频特征，将增强的视频特征输入训练好的目标检测模型中，可以得到预测结果，预测结果可以包括待处理视频中是否包含主播唱歌的视听事件，存在该视听事件的视频片段，以及视听事件的类别，基于视听事件的类别可以对检测到的视听事件增加标签，件，增强了区别声音相似类别的检测性能，比如，可以更精确的区分出噪音和视听事件中音频特征。[0157]上述标签信息可以用于向用户进行直播视频推荐，比如，将包含“唱歌”标签对应视听事件的直播视频推荐给感兴趣的用户。[0158]在直播视频审核场景中，待处理的直播视频可以为视频直播平台上正在直播的直播视频，上述采集过程可以为在直播视频分发到用户端前对直播视频进行采集，通过对采集的直播视频的视听事件进行分类检测，进而对直播视频的内容进行审核，以确定正在直播的直播视频是否涉及到违规内容类别，进而作出相应的预处理措施，避免包含违规内容的直播视频在网络平台上传播。[0159]本实施例通过在多个维度上以细粒度的融合方式来计算注意力的权重参数，对初始视频特征和初始音频特征进行融合，并得到增强的视频特征，增强的视频特征相比于初始视频特征，突出显示了事件相关区域(事件相关区域为待处理视频中存在视听事件的视频片段),降低了视听事件检测过程中背景噪声的干扰，显著地提高了捕获视频中声源位置的性能。[0160]实施例3[0161]根据本发明实施例，还提供了一种用于实施上述视频处理方法的装置，图9是根据本发明实施例的一种视频处理装置的示意图，如图9所示，该装置包括：[0162]接收模块91,用于接收待处理视频，并对待处理视频进行特征提取，以得到待处理视频的初始视频特征和初始音频特征；增强模块92,用于通过初始音频特征确定多个维度上的权重参数，并基于第一注意力模块利用多个维度上的权重参数对初始视频特征进行增强处理，以得到增强的视频特征；预测模块93,用于基于增强的视频特征预测待处理视频中的视听事件。[0163]此处需要说明的是，上述接收模块91、增强模块92、和预测模块93对应于实施例1中的步骤S201至步骤S203,三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算设备10中。[0164]作为一种可选的实施例，上述预测模块还用于：在基于增强的视频特征预测待处理视频中的视听事件之后，输出视听事件的预测结果，其中，预测结果包括待处理视频中是否存在所述视听事件、视听事件所在的视频片段以及所述视听事件的类别中的任意一种或者多种。[0165]作为一种可选的实施例，上述接收模块还用于：获取待处理视频的图像序列；基于图像特征提取模型从图像序列中提取得到特征图；将特征图进行全局平均池化，得到初始视频特征。[0166]作为一种可选的实施例，上述接收模块还用于：获取待处理视频中的音频片段；转换子模块，用于将音频片段转换为频谱图；基于音频特征提取模型从频谱图中提取特征向量；确定特征向量为初始音频特征。[0167]作为一种可选的实施例，多个维度上的权重参数包括第一维度注意力权重参数、第二维度注意力权重参数和第三维度注意力权重参数，上述增强模块还用于：使用第一维度注意力权重参数对初始视频特征进行增强，得到第一维度视频特征；基于第二维度注意力权重参数和第三维度注意力权重参数，得到第二维度注意力特征映射权重，其中，第二维度注意力权重参数通过在第二维度上对初始音频特征和第一维度视频特征进行融合得到，第三维度注意力权重参数通过在第三维度上对初始音频特征和第一维度视频特征进行融合得到；使用第二维度注意力特征映射权重，更新第一维度视频特征，得到增强的视频特[0168]作为一种可选的实施例，上述增强模块还用于：对初始音频特征对初始视频特征进行非线性变化和激活处理，得到第一维度注意力权重参数。[0169]作为一种可选的实施例，上述增强模块还用于：基于激活函数将初始音频特征和第一维度视频特征分别进行维度扩张，得到扩张的音频特征和扩张的视频特征；确定扩张的视频特征在第二维度上的视频特征单元；基于多模态双线性矩阵分解池化模块，对第二维度上的视频特征单元和扩张的音频特征进行融合，得到第二维度注意力权重参数。[0170]作为一种可选的实施例，上述预测模块还用于：将初始音频特征和增强的视频特征分别输入自注意力模块，得到自注意力音频特征和自注意力视频特征；将初始音频特征和自注意力视频特征输入第二注意力模块，得到交叉注意力的音频特征，以及将增强的视频特征和自注意力音频特征输入第二注意力模块，得到交叉注意力的视频特征，将交叉注意力的音频特征和交叉注意力的视频特征进行融合，得到融合特征；基于融合特征预测视听事件。[0171]作为一种可选的实施例，上述预测模块还用于：基于第二注意力模块，对初始音频特征和自注意力视频特征进行分组加权平均处理，得到交叉注意力的音频特征；基于第二注意力模块，对增强的视频特征和自注意力音频特征进行分组加权平均处理，得到交叉注意力的视频特征。待训练模型用于基于融合特征预测视听事件；第一确定模块，用于基于融合特征确定第一分类损失函数；第二确定模块，用于基于自注意力视频特征确定第二分类损失函数；优化模块，用于根据第一分类损失函数和第二分类损失函数对待训练模型进行优化。[0173]作为一种可选的实施例，上述装置还包括：第三确定模块，用于基于融合特征确定预测损失函数；上述优化模块还用于根据预测损失函数、第一分类损失函数和第二分类损失函数对待训练模型进行优化。[0174]作为一种可选的实施例，上述优化模块还用于基于预设的超参数通过预测损失函数、第一分类损失函数和第二分类损失函数构建完全监督损失函数；求解完全监督损失函数以对待训练模型进行优化。[0175]需要说明的是，本实施例的可选或优选实施方式可以参见实施例1中的相关描述，此处不再赘述。[0177]本发明的实施例还提供了一种计算机可读存储介质。计算机可读存储介质包括存储的程序，其中，在程序运行时控制计算机可读存储介质所在设备执行上述目标对象的搜索方法。[0178]可选地，在本实施例中，上述计算机可读存储介质可以位于计算机网络中计算设备群中的任意一个计算设备中，或者位于移动终端群中的任意一个移动终端中。[0179]可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：接收待处理视频，并对待处理视频进行特征提取，以得到待处理视频的初始视频特征和初始音频特征；通过初始音频特征确定多个维度上的权重参数，并基于第一注意力模块利用多个维度上的权重参数对初始视频特征进行增强处理，以得到增强的视频特征；基于增强的视频特征预测待处理视频中的视听事件。[0180]可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：对待处理视频进行特征提取，得到待处理视频的初始视频特征，包括：获取待处理视频的图像序列；基于图像特征提取模型从图像序列中提取得到特征图；将特征图进行[0181]可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：对待处理视频进行特征提取，得到待处理视频的初始音频特征，包括：获取待处理视频中的音频片段；将音频片段转换为频谱图；基于音频特征提取模型从频谱图中提取特征向量；确定特征向量为初始音频特征。[0182]可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：多个维度上的权重参数包括第一维度注意力权重参数、第二维度注意力权重参数和第三维度注意力权重参数，基于第一注意力模块利用多个维度上的权重参数对初始视频特征进行增强处理，包括：使用第一维度注意力权重参数对初始视频特征进行增强，得到第一维度视频特征；基于第二维度注意力权重参数和第三维度注意力权重参数，得到第二维度注意力特征映射权重，其中，第二维度注意力权重参数通过在第二维度上对初始音频特征和第一维度视频特征进行融合得到，第三维度注意力权重参数通过在第三维度上对初始音频特征和第一维度视频特征进行融合得到；使用第二维度注意力特征映射权重，更新第一维度视频特征，得到增强的视频特征。[0183]可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：通过初始音频特征确定多个维度上的权重参数，包括：对初始音频特征对初始视频特征进行非线性变化和激活处理，得到第一维度注意力权重参数。[0184]可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：通过初始音频特征确定多个维度上的权重参数，包括：基于激活函数将初始音频特征和第一维度视频特征分别进行维度扩张，得到扩张的音频特征和扩张的视频特征；确定扩张的视频特征在第二维度上的视频特征单元；基于多模态双线性矩阵分解池化模块，对第二维度上的视频特征单元和扩张的音频特征进行融合，得到第二维度注意力权重参[0185]可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：基于增强的视频特征预测待处理视频中的视听事件，包括：将初始音频特征和增强的视频特征分别输入自注意力模块，得到自注意力音频特征和自注意力视频特征；将初始音频特征和自注意力视频特征输入第二注意力模块，得到交叉注意力的音频特征，以及将增强的视频特征和自注意力音频特征输入第二注意力模块，得到交叉注意力的视频特征，将交叉注意力的音频特征和交叉注意力的视频特征进行融合，得到融合特征；基于融合特征预测视听事件。[0186]可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：将初始音频特征和自注意力视频特征输入第二注意力模块，得到交叉注意力的音频特征，以及将增强的视频特征和自注意力音频特征输入第二注意力模块，得到交叉注意力的视频特征，包括：基于第二注意力模块，对初始音频特征和自注意力视频特征进行分组加权平均处理，得到交叉注意力的音频特征；基于第二注意力模块，对增强的视频特征和自注意力音频特征进行分组加权平均处理，得到交叉注意力的视频特征。[0187]可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：获取待训练模型，其中，待训练模型用于基于融合特征预测视听事件；基于融合特征确定第一分类损失函数；基于自注意力视频特征确定第二分类损失函数；根据第一分类损失函数和第二分类损失函数对待训练模型进行优化。[0188]可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：基于融合特征确定预测损失函数；根据预测损失函数、第一分类损失函数和第二分类损失函数对待训练模型进行优化。[0189]可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：根据预测损失函数、第一分类损失函数和第二分类损失函数对特征提取模型进行优化，包括：基于预设的超参数通过预测损失函数、第一分类损失函数和第二分类损失函数构建完全监督损失函数；求解完全监督损失函数以对待训练模型进行优化。[0190]实施例5[0191]根据本申请实施例，还提供了一种计算机终端的实施例，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。[0192]可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。[0193]在本实施例中，上述计算机终端可以执行应用程序的视频处理方法中以下步骤的程序代码：接收待处理视频，并对待处理视频进行特征提取，以得到待处理视频的初始视频特征和初始音频特征；通过初始音频特征确定多个维度上的权重参数，并基于第一注意力模块利用多个维度上的权重参数对初始视频特征进行增强处理，以得到增强的视频特征；基于增强的视频特征预测待处理视频中的视听事件。[0194]可选地，图10是根据本申请实施例5的一种计算机终端的

人人文库> 全部分类> 行业资料 > 各类标准

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN114140708B 视频处理方法、装置及计算机可读存储介质（阿里巴巴达摩院(杭州)科技有限公司）

文档简介

温馨提示

最新文档

评论

CN114140708B 视频处理方法、装置及计算机可读存储介质 （阿里巴巴达摩院(杭州)科技有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN114140708B 视频处理方法、装置及计算机可读存储介质（阿里巴巴达摩院(杭州)科技有限公司）