CN113128285B 一种处理视频的方法及装置（华为技术有限公司）

上传人：1*** IP属地：山西上传时间：2026-05-12 格式：DOCX 页数：64 大小：1.35MB 积分：10.8 举报 版权申诉

已阅读5页，还剩59页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

US10839223B1,2020.11.17页.本申请涉及人工智能领域中计算机视觉领机视觉领域以及自然语言处理领域。该方法包的视频特征，所述视频特征中包括所述语义特述视频帧所属的视频片段是否为所述输入语句2根据所述语义特征对视频帧进行语义加强，得到所述视频帧根据所述语义特征和所述视频特征，确定所述视频帧所属的视频根据所述与所述视频帧对应的词的语义特征，对所述视频帧进3.根据权利要求1或2所述的方法，其特征使用至少一个其他视频帧的视频特征，对所述视频帧的视频特征进行其中，所述根据所述语义特征和所述视频特征，确定所述视根据所述语义特征和所述融合视频特征，确定所述视频帧所属6.根据权利要求1至5中任一项所述的方法，其特征述视频特征，确定所述视频帧所属的视频片段是否为所述输入语句对应的目标视频片段，根据所述语义特征和所述层次结构，确定所述视频片段是根据所述语义特征对视频帧进行语义加强，得到所述视频帧根据所述语义特征和所述视频特征，确定所述视频帧所属的视频3根据所述与所述视频帧对应的词的语义特征，对所述视频帧进9.根据权利要求7或8所述的装置，其特征在于，使用至少一个其他视频帧的视频特征，对所述视频帧的视频特征进行其中，所述根据所述语义特征和所述视频特征，确定所述视根据所述语义特征和所述融合视频特征，确定所述视频帧所属所述视频特征，确定所述视频帧所属的视频片段是否为所述输入语句对应的目标视频片根据所述语义特征和所述层次结构，确定所述视频片段是4[0002]人工智能(artificialintelligence,AI)是利用数字计算机或者数字计算机控5[0016]在本申请实施例中，使用所述输入语句中与所述视频帧[0018]在本申请实施例中，结合所述输入语句的语义特征对所述视频特征，确定所述视频帧所属的视频片段是否为所述输入语句对应的目标视频片段，6[0026]例如，可以计算所述视频中所有视频帧(包括所述视频帧将该平均值与所述视频帧的视频特征相加，相加后得到的就是所述视频帧的融合视频特B中为所述视频中的视频帧fj选取一个相关性特征，并将该相关性特征与所述视频中的视[0029]在本申请实施例中，使用所述视频特征确定所述视频片可以在扩大所述视频片段中每个视频帧的感受野的同时保持所述每个视频帧的视频特征7[0041]在本申请实施例中，使用所述输入语句中与所述视频帧[0043]在本申请实施例中，结合所述输入语句的语义特征对所述视频特征，确定所述视频帧所属的视频片段是否为所述输入语句对应的目标视频片段，8[0051]例如，可以计算所述视频中所有视频帧(包括所述视频帧将该平均值与所述视频帧的视频特征相加，相加后得到的就是所述视频帧的融合视频特阵B中为所述视频中的视频帧fj选取一个相关性特征，并将该相关性特征与所述视频中的[0054]在本申请实施例中，使用所述视频特征确定所述视频片可以在扩大所述视频片段中每个视频帧的感受野的同时保持所述每个视频帧的视频特征[0057]上述第三方面中的处理器既可以是中央处理器(centralprocessingunit，形处理器(graphicsprocessingunit，GPU)、神经网络处理器(neural-network歌(google)为机器学习全定制的人工智能加速器专用集9[0062]上述芯片具体可以是现场可编程门阵列(field－programmablegatearray，[0077]图1示出一种人工智能主体框架示意图，该主体框架描述了人工智能系统总体工[0083]基础设施可以通过传感器与外部沟通，基础设施的计算能力可以由智能芯片提处理器(neural-networkprocessingunit，NPU)、图形处理器(graphicsprocessing[0085]基础设施的基础平台可以包括分布式计算框架及网络等提供给基础平台提供的分布式计算系统中的智能芯片[0088]基础设施的上一层的数据用于表示人工智能领域的数据来源。该数据涉及到图[0100]下面对使用自然语言查找(多媒体库中的)感兴趣的视频片段(videoclip)这种施例可能涉及的神经网络的相关术语和概念[0107]神经网络可以是由神经单元组成的，神经单元可以是指以xs和截距1为输入的运第2个神经元的线性系数定义为上标3代表系数W所在的层数，而下标对应的是输出的[0116]卷积神经网络(convolutionalneuronnetwork，CNN)是一种带有卷积结构的深取器可以看作是滤波器。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过入语句匹配度最高的视频片段可以是人工预先标注的设备120基于数据库130中维护的训练数据训练得到目标模型高的视频片段进行对比，直到训练设备120输出的视频与训练视频中与该输入语句匹配度进行目标模型/规则101的训练，也有可能从云端或其他地方获取训练数据进行模型训练，[0127]根据训练设备120训练得到的目标模型/规则101可以应用于不同的系统或设备[0128]预处理模块113和预处理模块114用于根据I/O接口112接收到的输入数据(如输入[0129]在执行设备110对输入数据进行预处理，或者在执行设备110的计算模块111执行提供给用户。入I/O接口112的输入数据及输出I/O接口112的输出结果，作为新的样本数据存入数据库在本申请实施例中可以是本申请中的处理视频的装置(或模型)，该处理视频的装置(或模[0135]由于CNN是一种非常常见的神经网络，下面结合图3重点对CNN的结构进行详细的面对图3中的CNN200中内部的层结构进行图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长的权重值形成的各个权重矩阵可以用来从输入图像中提取信息，从而使得卷积神经网络[0148]在经过卷积层/池化层220的处理后，卷积神经网络200还不足以输出所需要的输而为了生成最终的输出信息(所需要的类信息或其他相关信息)，卷积神经网络200需要利(如图3由240至210方向的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏片也可以被设置在如图1所示的训练设备120中，用以完成训练设备120的训练工作并输出目标模型/规则101。如图3和图4所示的卷积神经网络中各层的算法均可在如图5所示的芯[0153]神经网络处理器NPU50作为协处理器挂载到主中央处理器(centralprocessing制运算电路503提取存储器(权重存储器或输入存储器)中矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器层的网络计算，如池化(pooling)，批归一化(batchnormalization)，局部响应归一化(localresponsenormalizati[0157]在一些实现种，向量计算单元能507将经处理的输出的向量存储到统一缓存器[0159]权重数据直接通过存储单元访问控制器505(directmemoryaccesscontroller，DMAC)将外部存储器中的输入数据搬运到输入存储器501和/或统一存储器率同步动态随机存储器(doubledataratesynchronousdynamicrandomaccess[0164]其中，图3和图4所示的卷积神经网络中各层的运算可以由运算电路503或向量计[0165]上文中介绍的图2中的执行设备110能够执行本申请实施例的处理视频的方法的视频的方法的各个步骤。下面结合附图对本申请实施例的处理视频的方法进行详细的介[0166]如图6所示，本申请实施例提供了一种系统架构300。该系统架构包括本地设备[0169]通过上述过程执行设备210能够搭建成一个处理视频的装置(或模型)，该处理视[0170]用户可以操作各自的用户设备(例如本地设备301和本地设备302)与执行设备210[0171]每个用户的本地设备可以通过任何通信机制/通信标准的通信网络与执行设备备210通过从本地设备301和本地设备302获取输入的视频及输入语句，并根据该处理视频所示的芯片以及图6中的执行设备210[0190]在本申请实施例中，使用所述输入语句中与所述视频帧[0191]上述确定所述输入语句中与所述视频帧对应的词的方法，具体可以如下图8中的视频帧的视频特征，或者说，将所述语义特征(或者也可以理解为所述输入语句对应的语带所述输入语句对应的语义(或所述输入语征中携带所述输入语句对应的语义(或所述输入语定所述视频帧所属的视频片段是否为所述输入语句对特征，随后计算输入语句的语义特征与视频中的每个视频片段的视频特征之间的匹配度[0215]可选地，可以计算输入语句的语义特征与视频片段的视[0216]或者，也可以使用RNN计算输入语句的语义特征与视频片段的视频特征之间的匹[0221]例如，可以将所述至少一个其他视频帧的视频特征与所述视频帧的视频特征相[0225]例如，可以计算所述视频中所有视频帧(包括所述视频帧将该平均值与所述视频帧的视频特征相加，相加后得到的就是所述视频帧的融合视频特B中为所述视频中的视频帧fj选取一个相关性特征，并将该相关性特征与所述视频中的视所属的视频片段是否为所述输入语句对应的目标[0233]在本申请实施例中，使用所述视频特征确定所述视频片可以在扩大所述视频片段中每个视频帧的感受野的同时保持所述每个视频帧的视频特征入语句的语义特征序列。[0237]具体地，特征预处理模块101可以通过神经网络对输入的视频中的视频帧进行特[0245]经过上述特征预处理模块102的处理，所述输入语句可以由语义特征序列{w1，w2序列{w12j个视频帧对应的加权词的语义特征。w`2k[0258]针对每个视频帧使用对应的加权词进行卷积可以在更细的粒度上发掘视频帧与[0260]上下文交互子模块1032可以将所述视频中其他视频帧的内容(即上下文信息)融个视频片段的视频特征序列。[0280]其中，在时域结构构建子模块1033确定所述视频片段在时域上的层次结构(即所[0284]需要说明的是，这里的目标视频片段可以是指所述视频基于本申请实施例的处理视频的方法识别所述输入语句对应的目标视频片段的准确率进[0288]表1示出了在DiDeMo数据集上采用不同方案识别输入语句对应的目标视频片段的识别的准确率为22.92使用片段上下文网络(momentcontextnetwork，MCN)中的方法进行识别的准确率为28.10使用时域定位网络(tem行识别的准确率为28.23而使用本申请中的处理视频的方法进行识别的准确率为[0292]表2示出了在Charades-STA数据集上采用不同方案识别输入语句对应的目标视频[0293]由表2可知，在IoU＝0.5的情况下，使用跨模态时域回归定位器(cross-modal概念定位器(activityconceptbasedlocalizer，ACL)中的方法进行识别的准确率为30.48使用语义动作生成(semanticactivityproposal，SAP)中的方法进行识别的准确率为27.42使用长短期记忆模型(long-short的方法进行识别的准确率为12.20使用SAP中的方法进行识别的准确率为13.36使用LSTM中的方法进行识别的准确率为15.8使用本申请中的处理视频的方法进行识别的准申请实施例的处理视频的方法的各个步骤可以通过处理器4002中的硬件的集成逻辑电路[0301]上述处理器4002还可以是通用处理器、数字信号处理器(digitalsignal理器5002用于执行训练本申请实施例的处理视频的装置的训练方法的各置4000和装置5000也可仅仅包括实现本申请实施例所必须的器件，

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN113128285B 一种处理视频的方法及装置（华为技术有限公司）

文档简介

温馨提示

最新文档

评论

CN113128285B 一种处理视频的方法及装置 （华为技术有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN113128285B 一种处理视频的方法及装置（华为技术有限公司）