CN114078223B 视频语义识别方法及设备（华为技术有限公司）

上传人：1*** IP属地：山西上传时间：2026-07-04 格式：DOCX 页数：208 大小：5.70MB 积分：9.6 举报 版权申诉

已阅读5页，还剩203页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

202010825602.6202010894732.5202011375148.5202011405457.2202011554281.72020.08.172020.08.312020.11.302020.12.042020.12.24帧的空域特征；根据多个视频帧中的N个连续视具有第一动态语义且连续的视频帧合成第一时2在所述静态语义识别层，根据所述多个视频帧中第一在所述时序片段划分层，当具有第一动态语义且连续的视频帧的个数大于第一阈值在所述时序片段划分层，当具有第一静态语义且连续的视频帧的个数大于第二阈值在所述输出层，输出所述第一时序片段的动态语义和述第二时序片段中的第一个视频帧和最后一个视频帧各自在所述视频中的2.根据权利要求1所述的方法，其特征在于，所述神经网络还包括精彩时序片段识别根据第一视频帧的空域特征和第二视频帧的空域特征，确在所述精彩时序片段识别层，根据所述多个视频帧中各两所述根据所述多个视频帧中各两两相邻视频帧的空域差异信息以及所述多个视频帧在所述一维卷积层，采用所述至少一个卷积窗口中的第一卷在所述细节动态语义分类层，根据所述若干个卷积结果，确述联合逻辑判断层为所述时序片段划分层和所述精彩时序片段识别层3所述至少一个精彩时序片段中的第一精彩时序片段包含于所述第一在所述联合逻辑判断层，判断所述第一精彩时序片段的细节动位置信息由所述第一精彩时序片段中的第一个视频帧和最后一个视频帧各自在所述视频当所述第一精彩时序片段的细节动态语义和所述第一时序片段的动态语义不匹配时，在所述语义光滑层，根据所述多个视频帧中连续视频帧间静态确定P个连续视频帧中第三视频帧的静态语义与其他视频帧的静态语义不同，且所述在所述时序片段划分层，当具有第二动态语义且连续的视频所述动态语义识别层包括第二卷积层和动态语所述根据所述多个视频帧中的N个连续视频帧的空域特征，确定所述N个对所述N个连续视频帧进行特征图偏移处理，得到所述N个连续视频帧的残差空域特在所述第二卷积层，对所述N个连续视频帧的残差空域特征进4在所述动态语义分类层，根据所述N个连续视频帧的时空特征，获取目标拼接视频的第一主题和所述目标拼接视确定所述语义符合所述第一主题的多个时序片段；所述多根据所述第一时长，从所述多个时序片段中确定用于拼接所述目标其中，当所述具有动态语义的时序片段的总时长等于或具有动态语义的时序片段中确定用于拼接所述目标拼获取目标拼接视频的第一主题和所述目标拼接视确定所述语义符合所述第一主题的多个时序片段；所述多个时根据所述第一时长，从所述多个时序片段中确定用于拼接所述目标其中，当所述具有细节动态语义的时序片段的总时所述具有细节动态语义的时序片段中确定用于拼接所述目标拼接视频的获取目标拼接视频的第一主题和所述目标拼接视确定所述语义符合所述第一主题的多个时序片段；所述多个时根据所述第一时长，从所述多个时序片段中确定用于拼接所述目标其中，当所述具有细节动态语义的时序片段和所述具有动态5利要求1-9任一项所述的方法或权利要求10所述的方法或权利要求11所述的方法或权利要计算机指令在电子设备上运行时，使得所述电子设备执行权利要求1-9任一项所述的方法或权利要求10所述的方法或权利要求11所述的方法或6经网络识别视频语义的方法及装置″，于2020年12月04日提交中国专利局、申请号为[0005]目前，通常是利用三维(3D)卷积神经网络(convolutionalneuralnetworks，CNN)或利用视频双流网络识别视频的语义。这两种识别语义的方案通常是按照预设的主某一主题的视频而言，其可能同时包括精彩程度较低的片段和精彩程度较高的片段。例7连续的视频帧的个数大于第二阈值时，使用所述具有第一静态语义且连续的视频帧合成第二时序片段，且确定所述第一静态语义为所述第二时序片段的静态语义；在所述输出和最后一个视频帧各自在所述视频中的位置表示；所述第二位置信息由所述第二时序片段中的第一个视频帧和最后一个视频帧各自在所帧和所述第二视频帧的空域差异信息；所述第一视频帧和所述第二视频帧在所述多个视[0013]实施例4.根据实施例2所述的方法，节动态语义；所述根据所述多个视频帧中各两两相邻视频帧的空域差异信息以及所述多合逻辑判断层为所述时序片段划分层和所述精彩时序片段识别层的下一层；所述至少一述联合逻辑判断层，判断所述第一精彩时序片段的细节动态语义和所述第一时序片段的其中，所述第三位置信息由所述第一精彩时序片段中的第一个视频帧和最后一个视频帧8各自在所述视频中的位置表示；当所述第一精彩时序片段的细节动态语义和所述第一时个视频帧中连续视频帧间静态语义的依赖关系，对所述多个视频帧的静态语义进行光滑[0016]实施例7.根据实施例6所述的方帧中第三视频帧的静态语义与其他视频帧的静态语义不同，且所述其他视频帧的静态语具有第二动态语义且连续的视频帧的个数大于所述第一阈值时，使用所述具有第二动态语义且连续的视频帧合成第三时序片段，且确定所述第二动态语义为所述第三时序片段[0018]实施例9.根据实施例1所述的方法，所域特征对应视频帧的特征信息进行卷积得到的多个特征图，所述多个特征图与所述第一依次在1至N-1中取整数值；所述第k个视频帧的第一特征图和所述第k+1个视频帧的第一片段的总时长等于或大于所述第一时长时，从所述具有动态语义的时序片段中确定用于拼接所述目标拼接视频的时序片段；当所述具有动态语义的时序片段的总时长小于所述9义的时序片段的总时长等于或大于所述第一时长时，从所述具有细节动态语义的时序片段中确定用于拼接所述目标拼接视频的时序片段；当所述具有细节动态语义的时序片段的总时长小于所述第一时长时，确定所述具有细节动态语义的时序片段全部用于拼接所中，当所述具有细节动态语义的时序片段和所述具有动态语义的时序片段的总时长小于所述第一时长时，确定所述具有细节动态语义的时序片段和所述具有动态语义的时序片段全部用于拼接所述目标拼接视频，且从所述具有静态语义的时序片段中确定用于拼接具有第一静态语义且连续的视频帧的个数大于第二阈值时，使用所述具有第一静态语义且连续的视频帧合成第二时序片段，且确定所述第一静态语义为所述第二时序片段的静中的第一个视频帧和最后一个视频帧各自在所述视频中的位置表示；所述第二位置信息由所述第二时序片段中的第一个视频帧和最后一个视频帧各自在所述视频中的位置表和所述第二视频帧的空域差异信息；所述第一视频帧和所述第二视频帧在所述多个视频帧中相邻；根据所述多个视频帧中各两两相邻视频帧的空域差异信息以及所述多个视频[0025]实施例16.根据实施例14所述的装置[0026]实施例17.根据实施例14所述所述第一精彩时序片段的细节动态语义和所述第一时序片段的动态语义是否匹配；所述输出单元，用于当所述第一精彩时序片段的细节动态语义和所述第一时序片段的动态语中，所述第三位置信息由所述第一精彩时序片段中的第一个视频帧和最后一个视频帧各义和所述第一时序片段的动态语义不匹配时，在所述输出层不输出所述第一精彩时序片个视频帧中连续视频帧间静态语义的依赖关系，对所述多个视频帧的静态语义进行光滑中第三视频帧的静态语义与其他视频帧的静态语义不同，且所述其他视频帧的静态语义二动态语义且连续的视频帧合成第三时序片段，且确定所述第二动态语义为所述第三时序片段的动态语义；所述合并单元还用于，当所述第二动态语义和所述第一动态语义相所述第一时序片段和所述第三时序片段合并为[0030]实施例21.根据实施例所述空域特征对应视频帧的特征信息进行卷积得到的多个特征图，所述多个特征图与所述第频帧中第k个视频帧的第一特征图，替换所述N个连续视频帧中第k+1个视频帧的第一特征义分类单元，用于根据所述N个连续视频帧的时空特征，确定所述第N个视频帧的动态语个时序片段；所述多个时序片段包括具有动态语义的时序片段和具有静态语义的时序片一时长时，从所述具有动态语义的时序片段中确定用于拼接所述目标拼接视频的时序片用于拼接剩余视频片段的时序片段，所述剩余视频片段的时长等于所述第一时长减去所所述第一时长时，从所述具有细节动态语义的时序片段中确定用于拼接所述目标拼接视义的时序片段中确定用于拼接剩余视频片段的时序片段，所述剩余视频片段的时长等于序片段和所述具有动态语义的时序片段的总时长小于所述第一时长时，确定所述具有细节动态语义的时序片段和所述具有动态语义的时序片段全部用于拼接所述目标拼接视施例1-9任一项所述的方法或实施例10所述的方法或实施例11所述的方法或实施例12所施例10所述的方法或实施例11所述的方法或实施例1[0036]实施例26.一种计算机程序产品，帧中的每一个视频帧可携带有一种或多种类别标签；所述类别标签用于表征对应视频帧中物体的类别；根据所述视频对应的标签光滑策略，对所述多个视频帧进行标签光滑处第二视频帧同时携带或同时不携带所述第一类别标签时，确定所述第一视频帧和所述第下的得分最大化；所述多个视频帧在所述第一类别标签下的得分包括所述多个视频帧中K个视频帧包括第三视频帧，所述增删所述多个视频帧中K个视频帧的所述第一类别标签[0040]实施例2.根据实施例1所述的方法，分还包括所述多个视频帧中各视频帧的标签一致性得分的加和；所述增删所述多个视频]；[0051]以公式(I)的求和结果最大为目标，且以所述矩阵M的主对角线上的元素的值为1[0053]实施例5.根据实施例1所述的方法，所述第一视频帧和所述第二视频帧在所述[0055]实施例6.根据实施例1所述的方法签和第三类别标签在同一视频帧上共存时，所述对所述多个视频帧进行标签光滑处理包括：当所述多个视频帧中第四视频帧同时携带或同时不携带所述第二类别标签和所述第三类别标签时，确定所述第四视频帧在所述第二类别标签和所述第三类别标签下的得分小于F；为所述多个视频帧中L个视频帧添加所述第三类别标签和/或删除所述多个视频帧二类别标签和所述第三类别标签下的得分包括所述多个视频帧中各视频帧在所述第二类[0056]实施例7.根据实施例6所述的[0058]实施例8.根据实施例1所述的方所述多个视频帧中的第五视频帧不同时携带所述第四类别标签和所述第五类别标签时，视频帧同时携带所述第四类别标签和所述第五类别标签时，确定所述第五视频帧在所述得分包括所述多个视频帧中各视频帧在所述第四类别标签和所述第五类别标签下的得分[0059]实施例9.根据实施例8所述的方法述前一个视频帧和所述后一个视频帧为在所述视频的时间顺序上的前后视频帧；所述对所述多个视频帧进行标签光滑处理包括：当所述多个视频帧中第一两两相邻视频帧组中确定所述第一两两相邻视频帧组在所述第六类别标签和所述第七类别标签下的得分为Z；当所述第一两两相邻视频帧组中前一个视频帧携带所述第六类别标签，且所述第一两两述第七类别标签时；确定所述第一两两相邻视频帧组在所述第六类别标签和所述第七类多个视频帧在所述第六类别标签和所述第七类别标签下的得分包括所述多个视频帧中各[0062]实施例11.根据实施例10所邻视频帧组中后一个视频帧；当所述第一两两相邻视频帧组中前一个视频帧携带所述第[0067]当所述标签光滑策略包括第一类别标签在所述多个视频帧中相邻视频帧间连续[0068]当所述多个视频帧中的第一视频帧和第二视频帧同时携带或同时不携带所述第一类别标签时，确定所述第一视频帧和所述第二视频帧在所述第一类别标签下的得分为[0069]增删所述多个视频帧中K个视频帧的所述第一类别标签，使得所述多个视频帧在所述第一类别标签下的得分最大化；所述多个视频帧在所述第一类别标签下的得分包括[0073]实施例13.根据实施例12所述的装]；[0086]以公式(I)的求和结果最大为目标，且以所述矩阵M的主对角线上的元素的值为1[0088]实施例16.根据实施例12所述的[0090]实施例17.根据实施例12所述的装置，当[0091]当所述多个视频帧中第四视频帧同时携带或同时不携带所述第二类别标签和所述第三类别标签时，确定所述第四视频帧在所述第二类别标签和所述第三类别标签下的带另一个时，确定所述第四视频帧在所述第二类别标签和所述第三类别标签下的得分为[0092]为所述多个视频帧中L个视频帧添加所述第三类别标签和/或删除所述多个视频帧中L′个视频帧的所述第二类别标签，使得所述多个视频帧在所述第二类别标签和所述第二类别标签和所述第三类别标签下的得分包括所述多个视频帧中各视频帧在所述第二[0093]实施例18.根据权利要求17所述的装置，[0095]实施例19.根据实施例12所述的装置，[0096]当所述多个视频帧中的第五视频帧不同时携带所述第四类别标签和所述第五类别标签时，确定所述第五视频帧在所述第四类别当所述第五视频帧同时携带所述第四类别标签和所述第五类别标签时，确定所述第五视[0097]删除所述多个视频帧中P个视频帧的所述第五类别标签和/或删除所述多个视频帧中P′个视频帧的所述第四类别标签，使得所述多个视频帧在所述第四类别标签和所述第四类别标签和所述第五类别标签下的得分包括所述多个视频帧中各视频帧在所述第四[0098]实施例20.根据权利要求19所述的装置[0100]21.根据权利要求12所述的装置前一个视频帧和所述后一个视频帧为在所述视频的时间顺序上的前后视频帧；所述处理[0101]当所述多个视频帧中第一两两相邻视频帧组中前一个视频帧携带所述第六类别个视频帧中第一两两相邻视频帧组中前一个视频帧不携带所述第六类别标签，且所述第组在所述第六类别标签和所述第七类别标签下的得分频帧组中前一个视频帧不携带所述第六类别标签，且所述第一两两相邻视频帧组中后一[0103]为所述多个视频帧中Q个视频帧添加所述第七类别标签和/或删除所述多个视频帧中Q′个视频帧的所述第六类别，使得所述多个视频帧在所述第六类别标签和所述第七类别标签和所述第七类别标签下的得分包括所述多个视频帧中各两两相邻视频帧组在所[0104]实施例22.根据实施例21所述的装邻视频帧组中后一个视频帧；当所述第一两两相邻视频帧组中前一个视频帧携带所述第[0108]实施例25.一种计算机程序产品括串行设置的至少一个二维卷积层；所述多个偏移层包括并行设置的第一偏移层和第二[0113]在所述空域特征提取层，提取所述N个视频帧中每一个视频帧在多个通道下的空[0114]在所述第一偏移层，对所述N个视频帧在所述多个通道中的至少一个通道下的空[0115]在所述第二偏移层，对所述N个视频帧在所述多个通道中的至少一个通道下的空[0116]在所述分类层，至少根据所述N个视频帧中各视频帧的所述第一空域特征和所述对所述N个视频帧中每个视频帧在所述多个通道中的至少一个通道下的空域特征进行第个视频帧中第k个视频帧在所述第一通道下的空域特征被偏移到第k+T个视频帧在所述第述多个通道中的至少一个通道下的空域特征进行第二时序偏移，所述至少一个通道包括[0124]所述至少根据所述N个视频帧中各视频帧的所述第一空域特征和所述第二空域特[0125]在所述多个二维卷积层中的第一卷积层，对所述N个视频帧中第一视频帧的所述[0127]至少根据N个视频帧中各视频帧的所述第一融合时空特征和所述第二融合时空特[0128]实施例5.根据4所述的方法，所述[0129]所述至少根据N个视频帧中各视频帧的所述第一融合时空特征和所述第二融合时[0130]对所述第一视频帧的所述第一融合时空特征包括的M个通道中第i个通道下的特[0131]根据所述N个视频帧中各个视频帧的第三融合时空特征，确定所述第一视频的语[0133]根据所述N个视频帧中第一视频帧在所述多个通道下的空域特征，对所述第一视[0134]根据所述N个视频帧中第一视频帧在所述多个通道下的空域特征，对所述第一视[0135]根据所述第一残差空域特征和所述第二残差空域特征，确定所述第一视频的语述空域特征层包括串行设置的至少一个二维卷积层；所述至少一个残差网络层中的每一空特征提取层中每个时空特征提取层包括串行设置[0139]在所述空域特征提取层，提取所述N个视频帧中每一个视频帧在多个通道下的空征，所述至少一个通道下的空域特征是所述第一时空特征提取层的上一层输出的空域特[0144]对所述N个视频帧中每个视频帧在所述至少一个通道下的空域特征进行时序偏第k个视频帧在所述第一通道下的空域特征被偏移到第k+T个视频帧在所述第一通道下的单元，所述多个偏移单元包括并行设置的第一偏移单元[0147]所述空域特征提取单元，用于提取所述N个视频帧中每一个视频帧在多个通道下[0148]所述第一偏移单元，用于对所述N个视频帧在所述多个通道中的至少一个通道下[0149]所述第二偏移单元，用于对所述N个视频帧在所述多个通道中的至少一个通道下[0150]所述分类单元，用于至少根据所述N个视频帧中各视频帧的所述第一空域特征和中每个视频帧在所述多个通道中的至少一个通道下的空域特征进行第一时序偏移，所述个视频帧在所述第一通道下的空域特征被偏移到第k+T个视频帧在所述第一通道下的空[0153]所述第二偏移单元还用于：对所述N个视频帧中每个视频帧在所述多个通道中的所述多个二维卷积单元中的卷积单元和所述[0158]所述多个二维卷积单元中的第一卷积单元，用于对所述N个视频帧中第一视频帧[0160]所述分类单元，用于至少根据N个视频帧中各视频帧的所述第一融合时空特征和[0161]实施例13.根据实施例12所述的装[0163]对所述第一视频帧的所述第一融合时空特征包括的M个通道中第i个通道下的特[0164]根据所述N个视频帧中各个视频帧的第三融合时空特征，确定所述第一视频的语[0166]根据所述N个视频帧中第一视频帧在所述多个通道下的空域特征，对所述第一视[0167]根据所述N个视频帧中第一视频帧在所述多个通道下的空域特征，对所述第一视[0168]根据所述第一残差空域特征和所述第二残差空域特征，确定所述第一视频的语设置的至少一个二维卷积单元；所述至少一个残差网络单元中的每一个残差网络单元包[0171]所述空域特征提取单元，用于提取所述N个视频帧中每一个视频帧在多个通道下络单元的多个时空特征提取单元中的最后一个时，所述第一残差网络单元的空域特征补[0175]实施例16.根据实施例15所述的装置所述第一时空特征提取层的偏移子单元用[0176]对所述N个视频帧中每个视频帧在所述至少一个通道下的空域特征进行时序偏第k个视频帧在所述第一通道下的空域特征被偏移到第k+T个视频帧在所述第一通道下的[0185]实施例21.一种计算机程序产中视频帧的空域特征进行不同时间量的时序偏移，从而可以捕捉到视频中不同运动频率式，对视频中视频帧的空域特征进行不同时间量的时序偏移或不同通道下空域特征的时序偏移，避免了串行方式对视频的时域信息和空域信息的多次糅杂而导致的不可解释性[0191]当所述第一物体在所述第一视频中的位置不同于所述第一物体在所述视频帧中的位置时，根据所述第一视频帧中所述第一物体的拍摄深度，确定所述第一视频帧的景[0194]当所述第一物体在所述第一视频帧中的大小不同于所述第一物体在所述第二视[0196]当所述第一物体在所述第一视频中的位置不同于所述第一物体在所述第二视频帧中的位置，且所述第一物体在所述第一视频帧中的大小不同于所述第一物体在所述第二视频帧中的大小时，确定所述多个物体中的第二物体最接近所述第一视频帧的中心区[0202]实施例6.根据实施例1所述的方[0223]当所述第一物体在所述第一视频中的位置不同于所述第一物体在所述第二视频帧中的位置，且所述第一物体在所述第一视频帧中的大小不同于所述第一物体在所述第二视频帧中的大小时，确定所述多个物体中的第二物体最接近所述第一视频帧的中心区[0240]第三确定单元，用于响应于针对所述多个选择功能区中[0246]实施例23.一种计算机程序产品，[0251]根据所述第一视频中各个视频帧在所述M个通道下的空域特征和第二视频中各个[0252]根据所述第一视频中各个视频帧和所述第二视频中各个视频帧之间的两两视频[0253]实施例2.根据实施例1所述的方法，所[0256]使用所述对应于所述视频帧的风格迁移层，对所述视频帧在所述M个通道下的空[0257]所述根据所述第一视频中各个视频帧在所述M个通道下的空域特征和第二视频中[0258]根据所述第一视频中各个视频帧在所述M个通道下的第一空域特征和第二视频中[0259]实施例3.根据实施例1或2所述的方[0260]所述根据所述第一视频中各个视频帧在所述M个通道下的空域特征和第二视频中[0263]计算所述第一视频帧的第i×j个向量和所述第二视频帧的第i×j个向量之间的[0265]根据所述第一视频帧和所述第二视频帧在K×K9个向量中各个向量下的相似度，[0267]计算所述第一视频帧在所述M个通道中各通道下的空域特征中坐标为(i，j)的元素的第一平均值，以及所述第二视频帧在所述M个通道中各通道下的空域特征中坐标为[0271]实施例5.根据实施例1所述的方第二视频中各个视频帧之间的两两视频帧相似度，确定所述第一视频和所述第二视频的[0272]确定所述第一视频中各个视频帧和所述第二视频中各个视频帧之间的两两视频[0273]确定所述最大的两两视频帧相似度对应的两个视频帧为所述第一视频和所述第[0274]实施例6.根据实施例5所述的方[0284]根据所述N个视频帧中各个视频帧在所述M个通道下的空域特征，确定所述N个视[0285]根据所述N个视频帧中各相邻视频帧之间的两两视频帧相似度和N个视频帧中各[0291]实施例9.根据实施例8所述的方法，所[0292]实施例10.根据9所述的方法，所述阈值为所述第一变换结果中最大值的四分之特征，以及提取第二视频中的每个视频帧在所述M个通道下的空域特征；所述神经网络包[0295]第一确定单元，用于根据所述第一视频中各个视频帧在所述M个通道下的空域特[0297]实施例12.根据实施例11所述的装置，[0300]使用所述对应于所述视频帧的风格迁移层，对所述视频帧在所述M个通道下的空[0301]所述第一确定单元还用于：根据所述第一视频中各个视频帧在所述M个通道下的视频中各个视频帧和所述第二视频中各个视频帧之间的[0306]计算所述第一视频帧的第i×j个向量和所述第二视频帧的第i×j个向量之间的[0308]根据所述第一视频帧和所述第二视频帧在K×K’个向量[0314]确定所述第一视频中各个视频帧和所述第二视频中各个视频帧之间的两两视频[0315]确定所述最大的两两视频帧相似度对应的两个视频帧为所述第一视频和所述第[0316]实施例16.根据实施例15所述的装置，征，确定所述N个视频帧中相邻视频帧之间的两两视频[0326]第二确定单元，用于根据所述N个视频帧中各相邻视频帧之间的两两视频帧相似[0332]实施例19.根据实施例18所述的装置，所[0333]实施例20.根据实施例19所述的装[0342]实施例25.一种计算机程序产品备中的处理器执行时，实现实施例1-7任一项所述的方法或实施例8-10任一项所述的方该第一个视频帧可以称为该时序片段的起始帧，该最后一个视频帧可以称为该时序片段别方法可以识别出具有动态语义的时序片段以及具有静态语义的时序片段。视频编辑方[0401]在一些实施例中，本申请实施例提供的视频语义识别方法可以通过图1所示的神解成序列视频帧或者说序列图像。换言之，是将视频分解成多个视频帧或者说多个图像。得到的多个特征图。该多个特征图可以用作在空域特征提取层提取得到的相应视频帧的[0414]在一些实施例中，在动态语义识别层，可以基于时序偏移模块(temporalshi域特征，在某一个或某些通道(特征图)上进行时序偏移，得到N个连续视频帧的残差空域个连续视频帧的残差空域特征输入到卷积神经网络进行特征提取，从而在进一步提取空识别层，可以使用该N个连续视频帧中第1个视频帧的B1通道替换该N个连续视频帧中第2上述通道偏移处理方案对其上一层卷积层输出的N个连续视频帧的通道进行偏移处理，然可以根据N个连续视频帧中每一个视频帧在多个通道下的空域特征，确定该N个视频帧的视频帧A1的空域特征中混合了位于视频帧A1前的视频帧的空域特征和/或位于视频帧A1后其他视频帧在一个或多个通道下的空域特征后，得到的视频帧A1的空域特征称为视频帧域特征中混合了位于其前的视频帧在至少一个通道下的空域特征和/或位于其后的视频视频帧是指在视频A的时间序列上或者说时域上位于视频帧A1之后的的N个视频帧的空域特征。该N个视频帧中每个视频帧的空域特征可以为在多个通道下的积层的多个卷积核可以得到多个通道下的空域特征，该多个通道中的通道和多个卷积核多个特征图输入到下一卷积层。该下一卷积层的每一个卷积核对多个特征图进行卷积处特征图的具体过程可以为：一个卷积核可以对该多个特征图中得每个特征图进行卷积处[0427]空域特征提取层可以将堆叠后的N个视频帧的在多个通道下的空域特征输出给多个通道中的至少一个通道下的空域特征进行第一时序偏移，以得到所述N个视频帧中各视多个通道中的至少一个通道下的空域特征进行第二时序偏移，以得到所述N个视频帧中各视频帧的第二空域特征；其中，所述第一时序偏移和所述第二时序偏移的时间偏移量不在通道C1的空域特征被替换为了视频帧A1在通道C1的空域特征。第一时序偏移和第二时序偏移的时间偏移量不同可以是指第一时序偏移中通道下空域特征偏移的视频帧的个数和第二时序偏移中通道下空域特征偏移的视频帧的个数不同。第一时序偏移和第二时序偏移所偏移的通道不同可以是指在第一偏移所偏移的空域特征所对应的通道和第二偏移中，在偏移层B1进行的通道时序偏移所偏移的时间量和在偏移层B2进行的通道时序偏移偏移层B1进行的通道Cx下空域特征的通道时序偏移后，视频帧在多个通道下的空域特征于-N且小于或等于-1的负整数，使得所述N个视频帧中第k个视频帧在通道Cx通道下的空域特征被偏移到第k+T个视频帧在通道Cx下的空域特征，k依次在区间[1，N]中取正整数[0435]可以将在偏移层B2对N个视频帧进行通道Cx下空域特征的时序偏移后得到的偏移的空域特征；将视频帧A3在通道C2下的空域特征，偏移到视频帧A4在通道C2下的空域特[0441]如图4所示，T为1。则在偏移层B1所进行的通道Cx下的空域特征的时序偏移具体个视频帧进行通道Cy下空域特征的时序偏移后得到的偏移结果称为N个视频帧的混合空域特征B31。N个视频帧中的一个视频帧在经过偏移层B3的通道Cy下空域特征的时序偏移N个视频帧的混合空域特征B31包括N个视帧A1在通道Cx(或通道Cy)下的空域特征，可以将视频帧A1在通道Cx(或通道Cy)下的空域频帧在多个通道下的空域特征对偏移层所输出的该视频帧在多个通道下的空域特征进行提取层输出的该视频帧在通道Cj下的空域特征和偏移层输出的该视频帧在通道Cj下的空[0453]在一个说明性示例中，步骤502中所述的第一空域特征可以是指上文所述的混合骤502中所述的第一空域特征可以是指上文所述的混合空域特征B11，第二空域特征可以征(R通道下特征)的卷积核和卷积层b2的用于提取图像红色像素特征(R通道下特征)的卷用于提取图像蓝色像素特征(B通道下特征)的卷积核和卷积层b2的用于提取图像蓝色像素层B1输出的N个视频帧中每个视频帧的混合空域特征B11进行卷积处理，得到每个视频帧个视频帧中每个视频帧的混合空域特征B21进行卷积处理，得到每个视频帧在M个通道下卷积层b1输出的该视频帧在M个通道中第i个通道下的融合时空特征b11，和卷积层b2输出特征和另一个通道下的融合时空特征的对应位置求和可以为矩阵和矩阵的点层B3输出的N个视频帧中每个视频帧的混合空域特征B31进行卷积处理，得到每个视频帧在M个通道中第i个通道下的融合时空特征b11，和卷积层b3输出的该视频帧在M个通道中每个通道下的融合时空特征可以由矩阵表示，通道下的融合时空特征和另一个通道下的融合时空特征的对应位置求和可以为矩阵和矩阵的通道下的融合时空特征的对应位置求和可以为矩阵和矩阵的点对点于偏移层B1的卷积层b1、对应于偏移层B2的卷积层b2和对应于偏移层B3的卷积层b3。对于一个视频帧而言，可以对卷积层b1输出的该视频帧在M个通道中第i个通道下的融合时合时空特征和另一个通道下的融合时空特征的对应位置求和可以为矩阵和矩阵的点对点的空域特征对偏移层输出的空域特征进行补偿后得到的空域特征。残差空域特征更详细空特征的对应位置累加求和的结果，称为该视频帧在第i个通道下的累加融合时空特征。到M个通道中每个通道对应的特征值。可以将视频帧A1的M个通道中各个通道对应的特征[0465]视频帧A1的累加特征值乘以Q个权重系数中的权重系数q1，以及加上权重系数q1到N个视频帧中每个视频帧对应的数值q11。将各个视频帧对应的数值q11进行累加，得到的偏置，对N个视频帧中视频帧的累加特征值做前述计算，可以得到含有Q个元素的列向对应一个分类结果。可以将该Q个概率值中最大概率值对应的分类结果，作为视频A的语[0469]图5所示的动态语义识别方法，可以对视频中视频帧的空域特征进行不同时间量空域特征进行不同通道下空域特征的时序偏移，从而可以保证潜在物体类别的信息被捕下空域特征的时序偏移，避免了串行方式对视频的时域信息和空域信息的多次糅杂而导[0471]图7示出了动态语义识别层的一种具体结构。包括串行设置的至少一个残差网络少一个残差网络层中的每一个残差网络层包括串行设置的多个时空特征提取层和空域特述N个视频帧的第一融合时空特征和所述N个视频在所述多个通道下的空域特征，确定将由所述第一残差网络层输出的所述N个视频帧的残差[0475]所述提取所述N个视频帧的第一融合时空特征包括：在所述第一时空特征提取层个视频帧中各视频帧的第一空域特征，所述至少一个通道下的空域特征是所述第一时空特征提取层的上一层输出的空域特征中的一部分；在所述第一时空特征提取层的卷积子征提取层1可以对空域特征提取层输出的N个视频帧中每个视频帧在多个通道中至少一个通道下的空域特征进行时序偏移。空域特征的时序偏移具体可以参考上文对步骤501a和每一个时空特征提取层的偏移子层对该偏移层的上一层的输出进行空域特征的时序偏移，时空特征提取层n(即残差网络层1的多个时空特征提取层中的最后一个时空特征提取层)[0477]残差网络层1的空域特征补偿层可以将其处理结果输出给下一个残差网络层，该下一个残差网络的偏移子层可以对该空域特征补偿层的输出结果进行至少一个通道下的[0482]图8所示的动态语义确定方法，可以对视频中视频帧的空域特征进行多次时序偏识别层，根据所述多个视频帧中第一视频帧的空域特征，确定所述第一视频帧的静态语在一个例子中，可以将视频帧的空域特征输入到softmax函数中，然后进行计算，得到动态语义且连续的视频帧合成第一时序片段，且确定所述第一动态语义为所述第一时序态视频帧集合合成为一个时序片段，并将该待整合动态视频帧集合中视频帧所具有的动并且时序片段E1和时序片段E2之间间隔的视频帧的个数小于阈值D2，可以将时序片段E2、静态语义且连续的视频帧合成第二时序片段，且确定所述第一静态语义为所述第二时序有同一静态语义且连续的视频帧。举例而言，可以设定静态语义有静态语义C1(例如足态视频帧集合合成为一个时序片段，并将该待整合静态视频帧集合中视频帧所具有的静并且时序片段E3和时序片段E4之间间隔的视频帧的个数小于阈值D4，可以将时序片段E3、[0503]在一个说明性示例中，可以确定P个连续视频帧中视频帧G1的静态语义与其他视中，P个连续视频帧的边缘视频帧可以定义是P个连续视频帧中第1个至第p个视频帧以及[0504]在一个说明性示例中，可以确定Q个连续视频帧中视频帧G2的动态语义与其他视个连续视频帧的边缘视频帧可以定义是Q个连续视频帧中第1个至第q个视频帧以及第Q-q[0505]在一些实施例中，提供了另一种根据多个视频帧中连续视频帧间静态语义(或动义识别模型分析出其包含物体类别B2时，可以为视频帧A1携带物体类别B2对应的类别标时镜头方向是否发生了突然变化(例如抖动)等原因所导致。视频中视频帧标签不光滑对[0511]本实施例提供的多个视频帧中连续视频帧间静态语义(或动态语义)的依赖关对该多个视频帧的静态语义(或动态语义)进行光滑处理的方案，根据标签光滑策略增删(或动态语义)的依赖关系，对该多个视频帧的静态语义(或动态语义)进行光滑处理的方携带的类别标签可以是视频帧或视频语义识别模型对该视频帧进行物体识别后为该视频[0520]标签光滑策略可以理解为一种期望或控制不同视频帧或同一视频帧应携带何种若视频中的视频帧A1包括地铁这一物体类别，视频帧A1的下一个视频帧(即在按照视频的时间序列，位于视频帧A1之后的视频帧)也应当包括地铁这一物体类别。若视频中的视频帧A不包括地铁这一物体类别，视频帧A1的下一个视频帧也应当不包括地铁这一物体类为方便下文描述，可以将一种或多种类别标签在该多个视频帧中相邻视频帧间连续认为物体类别和人这一物体类别具有共存性，它们往往或应该在一个视频帧中同时存在。由C3在该多个视频帧中同一视频帧上共存。类别标签C2所对应的物体类别和类别标签C3所铁这一物体类别和飞机这一物体类别具有不共存性，它们往往不或不应该在同一个视频种物体类别对应的类别标签由视频帧A1携带时，可以期望视频帧A1不携带其他物体类别C5在该多个视频帧中同一视频帧上不共存。类别标签C4所对应的物体类别和类别标签C5暗示视频帧A1的下一个视频帧应该包含地铁闸机这一物体类别。由此，在本申请实施例类别在该多个视频帧中相邻视频帧中前一个视频帧存在，物体类别B2对应的标签类别在帧中前一个视频帧存在，物体类别B2对应的标签类别在相邻视频帧中后一个视频帧存在其暗示视频帧A1的下一个视频帧不应该包含沙漠这一物体类别。由此，在本申请实施例类别在该多个视频帧中相邻视频帧中前一个视频帧存在，物体类别B4对应的标签类别在别在该多个视频帧中相邻视频帧中前一个视频帧存在，物体类别B4对应的标签类别在该人标签在同一视频帧上共存，地铁标签和飞机标签在同一视频帧上不共存。参考前述方别对应的标签光滑策略，对该视频进行标签光视频帧是否携带类别标签C1，以及判断两两相邻视频帧组中的两个视频帧是否同时携带[0537]可以以该多个视频帧中各个两两相邻视频帧组在类别标签C1下的得分加和最大算多个视频帧中各个两两相邻视频帧组在类别标签C1下的得分加和。得分加和也可以称j个视[0542]当标签光滑策略包括类别标签C1在该多个视频帧中相邻视频帧间连续这一子策略时，可以设置公式(1)，来计算多个视频帧中各个两两相邻视频帧组在类别标签C1下的j个视频帧携带类别标签C1；动、视频帧或视频语义识别模型识别错误等导致的视频中某些个视频帧的类别标签不光中的Xij=阵(semi-definitematrix)表示，将对公式(3’)的最大和求解问题转换为半正定优化=1、矩阵Y的主对角线上的元素的值为1，为约束条件，进行半正定优化的问题进行松弛件，进行半正定优化的问题。该问题可以采用内点法(interiorpointmethod)或椭圆法-1。i[0581]上文以标签光滑策略包括类别标签C1在该多个视频帧中以及以标签光滑策略包括类别标签C1在该多个视频帧中相邻视频帧间连续和增删类别标频帧A1同时携带或者不同时携带类别标签C2和类别标签C3时，为视频帧A1赋予较高的得分F。当视频帧A1携带类别标签C2，不携带类别标签C3时，为视频帧A1赋予较低的得分F’[0583]可以以该多个视频帧中各视频帧在类别标签C2和类别标签C3下的得分加和最大化为目标，为多个视频帧中L个视频帧(该L个视频帧原来不携带类别标签C3)添加类别标类别标签C3，使得多个视频帧中各个视频帧在类别标签C2和类别标签C3下的得分加和最[0586]在一个说明性示例中，可以设定Xi*，j表示该多个视频帧中第j个视频j个视频帧携带类别[0588]当标签光滑策略包括类别标签C2和类别标签C3在多个视频帧中同一视频帧上共j个。理结果为标签光滑策略为类别标签C2和类别标签C3在该多个视频帧中同一视频帧上共存来计算多个视频帧中各视频帧在类别标签C对应类别标签C2，i对应类别标签C3，j对应n个视频帧(上述多个视频帧)中得第j个视频[0597]上文以标签光滑策略包括类别标签C2和类别标签C3在多个视频帧中同一视频帧上共存为例，以及以标签光滑策略包括类别标签C2和类别标签C3在多个视频帧中同一视频帧上共存和增删类别标签的视频帧的个数最少化这两种子策略为例，举例介绍了根据[0599]可以以该多个视频帧中各视频帧在类别标签C4和类别标签C5下的得分加和最大化为目标，删除该多个视频帧中P个视频帧(该P个视频帧原本携带类别标签C5)的类别标[0603]在一个说明性示例中，可以设定Xi*，j表示该多个视频帧中第j个视频j个视频帧携带类别[0605]当标签光滑策略包括类别标签C4和类别标签C5在多个视频帧中同一视频帧上不j个。理结果为标签光滑策略为类别标签C4和类别标签C5在该多个视频帧中同一视频帧上不共帧中同一视频帧上不共存，还包括增删类别标签的视频帧的个数最少化。可以设置公式对应类别标签C4，i对应类别标签C5，j对应n个视频帧(上述多个视频帧)中得第j个视频[0614]上文以标签光滑策略包括类别标签C4和类别标签C5在多个视频帧中同一视频帧上不共存为例，以及以标签光滑策略包括类别标签C4和类别标签C5在多个视频帧中同一视频帧上不共存和增删类别标签的视频帧的个数最少化这两种子策略为例，举例介绍了标签光滑处理可以包括：可以判断多个视频帧中两两相邻视频帧组中的前一个视频帧是个视频帧中Q个视频帧(该Q个视频帧原本不携带类别标签C7)添加类别标签C7和/或删除[0617]换言之，可以以该多个视频帧在类别标签C6和类别标签C7下的得分最大化为目[0620]在一个说明性示例中，可以设定Xi*，j表示该多个视频帧中第j个视频理结果为标签光滑策略为类别标签C6在相邻视频帧中前一个视频帧存在，且类别标签C7处理结果，增删多个视频帧中视频帧的类别标签C6或类别标签C7。具体可以参考上文介行标签光滑处理可以包括：可以判断多个视频帧中两两相邻视频帧组中前一个视频帧是[0633]可以以该多个视频帧中各视频帧在类别标签C8和类别标签C9下的得分加和最大化为目标，删除该多个视频帧中V个视频帧(该V个视频帧原本携带类别标签C9)的类别标和类别标签C9下的多个总得分。将该多个总得分中最高总得分对应的被增删了类别标签[0637]在一个说明性示例中，可以设定Xi*，j表示该多个视频帧中第j个视频处理结果为标签光滑策略为别标签C8在相邻视频帧中前一个视频帧存在，类别标签C9在]。地铁类别标签和飞机类别标签由同一个视频帧同时携带。共存节点对应的布尔表达式为据常识或经验，当前个存在的一些物体类别，暗示了下一个应存在或不存在何种物体类频帧在输入时携带的类别标签和在输出时携带的类别标签尽可能一致。一致节点对应的[0661]对于给定的一段视频标签流，可以使用该视频对应的标签光滑策略(也可以称为化算法，能够解决半正定优化问题。具体可以参考现有技术中关于内点法或椭圆法的介i[0684]在一个说明性示例中，当对式(4’)进行计算的空间要求超过计算机的最大限度应的类别标签在相邻两个视频帧中前一个视频帧存在，B6对应的类别标签在该相邻视频帧中后一个视频帧存在(或不存在)，则B3和B6之间权重数值为上述公式(9)中的w5w5示的矩阵分成两个子部分。[0692]如果使用最小割算法分割后得到的两个子部分不平衡(两个子部分所包含的元素单元个数相差较大，例如两个子部分中的一个子部分所包含元素单元的比例大于该两个子部分所包含元素单元总数的60或者，小于该两个子部分所包含元素单元总数的同元素单元融合为一个节点(即将处于同一行的不同元素单元视为一个元素单元)。不同签平衡策略确定。标签流为视频中多个视频帧所携带的类别标签。优化方法可以为内点还未被分割的矩阵)进行分割，分别得到两个新的子部分。若由同一子部分分割得到的两签光滑处理具体参考上文所述，在此不再赘述。采用最小割进行分割和采用Kernighan-[0701]本申请实施例采用布尔逻辑表达了光滑问题的先验知识(连续，共存，一致，推别标签L1和标签类别L2在同一视频帧上不共存，类别标签L1和标签类别L2在同一视频帧上不共存和类别标签L2和标签类别L3在同一视频帧上不共存。即类别标签L1，类别标签此，可以在精彩时序片段层，利用空域特征提取层输出的视频A1的各个视频帧的空域特[0713]可以根据多个视频帧中各个两两相邻视频帧的空域差异信息以及各个视频帧的以将多个视频帧中各个两两相邻视频帧的空域差异信息以及各个视频帧的空域特征输入帧的空域特征以及各两两相邻视频帧间的空域差异信息进行卷积运算，得到一个卷积结以及各两两相邻视频帧间的空域差异信息进行卷积运算，又得到一个卷积结果。依次类[0718]当具有细节动态语义r的两个精彩时序片段相邻(两者之间每一间隔视频帧)，则将该两个精彩时序片段合并成为一个精彩时序片段，且合并后的精彩时序片段具有细节中各个两两相邻视频帧的空域差异信息以及各个视频帧的空域特征，确定出一个或多个可以子联合逻辑判断层对时序片段划分层输出的时序片段和精彩时序片段识别层输出的态语义和细节动态语义具有包含关系，即一种细动态语义可包含于一种动态语义。相应种细节动态语义和动态语义之间的包含关系称之为细节动态语义和动态语义的匹配关序片段的第一个视频帧)和截止帧(该时序片段的最后一个视频帧)在视频中的位置来表示。其中，该时序片段的起始帧和截止帧在视频中的位置可以称为该时序片段的位置信时序片段可以表示为视频中的第10秒至第15秒的视频片段，该时序片段的位置信息可以为视频中的第10秒至第15秒。一个精彩时序片段包含于一个时序片段是指该精彩时序片E6的起始帧和截止帧都位于时序片段E5中。举例而言，时序片段E5为视频A中第5秒至第将时序片段7分为由第一个帧至第K-1个帧组成的时序片段，由第K帧至第L帧组成的时序时序片段具有动态语义具有时序片段7的动态语义，设置由第L+1帧至最后一个帧组成的时序片段具有时序片段7的动态语义，由第K帧至第L帧组成的时序片段仍保持原来的细节义的时序片头时，可以根据该具有细节动态语义的时序片段从该具有动态语义的时序片段中分割出，余下的位于该具有动态语义的时序片段一侧的视频帧重新组成具有动态语[0732]回到图1，在一些实施例中，本申请实施例提供的神经网络还可以包括景别识别以使得确定出的景别更符合用户的主观。示例性的，此处的用户可以是指观看视频的用位置关系一致。可以将视频A经视频分帧处理后得到的视频帧中的N个视频帧作为后续分[0741]在一个说明性示例中，可以使用视觉显著性检测(visualsaliencydetection)层的信息，例如色彩、边缘、形状等预测显著区域。然后，利用语义分割(semantic(graph-basedmanifoldranking，GBMR)算法等。语义分割算法可以为U-Net算法或两个视频帧可以是指将所述N个视频帧按照在视频A中的时序关系进行排序后的序列中的括于视频帧A1和视频帧A2的显著性物体。设定同时包括于视频帧A1和视频帧A2的显著性图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间像素是多个像素。判断物体B1的像素在视频帧A1中的位置与在视频帧B1中的位置是否相中，还可以采用其他方式判断物体B1在不同视频帧中的位置是否相同，在此不再一一列举。并且利用光流算法判断物体是否发生了移动的具体过程具体可以参考现有技术中对可以将视频帧A1的显著性物体中的横向运动物体作为参考物体，参考物体的拍摄深度可和植物，则确定动物为参考物体。若步骤2003a中确定出的横向运动物体包括植物和非生拍摄深度。在一个例子中，图像深度预测算法可以为一致性视频深度估计(consistent的多个选择功能中不同选择功能对应不同的长度；计算设备响应于针对多个选择功能区述N个视频帧按照在视频A中的时序关系进行排序在视频帧中的大小。如上所述，通过语义分割算法可以判断显著区域上的像素所属的物括于视频帧A1和视频帧A2的显著性物体。设定同时包括于视频帧A1和视频帧A2的显著性显著性物体中是否存在包括了由视频帧A1几何中心处的像素参与构成的物体。若存在这果均为是的情况下。可以判断横向运动物体中是否包括了由视频帧A1几何中心处的像素横向运动物体为多个物体时，可以从多个物体中，确定出最接近视频帧A1几何中心的物频帧A1所呈现的场景关联的景别作为视频帧A1的景根据视频帧中景别的连续性，进行滤波。景别的连续性是指P个连续视频帧的景别是一致[0768]在一个例子中，可以确定P个连续视频帧中视频帧A3的景别与其他视频帧的景别不同，且该其他视频帧的景别相同。该其他视频帧是该P个连续视频帧中除视频帧A3之外帧A3的景别修改为该其他视频帧的景别。在一个例子中，视频帧A3不是P个连续视频中的中，具有该景别的视频帧个数最多。若当前视频帧的景别和该出现最频繁的景别不一致，[0775]该方法的主干由自下而上(bottom-up)方案与自上而下(top-down)方案两个分支[0781]通过Bottom-up选定的区域与图像语义理解进行图像中类别标签的逻辑判定，做[0783]接着，针对预先定义的关注场景的优先级对Bottom-up阶段筛选出的人物注意力[0796]综合图20-图22所示的各方法实施例，本申请的一些实施例还提供如图23所示的视频帧中的大小不同于所述第一物体在所述第二视频帧中的大小时，根据所述第一视频中的位置不同于所述第一物体在所述第二视频帧中的位置，且所述第一物体在所述第一视频帧中的大小不同于所述第一物体在所述第二视频帧中的大小时，确定所述多个物体中的第二物体最接近所述第一视频帧的中心区域；根据所述第一视频帧中所述第二物体定所述第一视频帧的景别包括：当所述第一视频帧中所述第一物体的拍摄深度＜第一距第一物体的拍摄深度≥第一距离，且所述第一视频帧中所述第一物体的拍摄深度≤第二输出所述第一时序片段的动态语义和第一位置信息；以及输出所述第二时序片段的静态[0811]在输出层，可以输出具有静态语义的时序片段所具有的还可以输出具有动态语义的时序片段所具有的动态语义以及位置信息，还可以输出具有息以及所属视频的标识信息作为该时序片段的特征信息一并存储，以便用于后续的视频别类别及其时序片段的精确率。对于保留的类别，如果相同类别之间的帧间隔小于[0822]图25示出了本申请实施例提供的一种多层视频语义理解架构。主要分为三个模或大于所述第一时长时，从所述具有动态语义的时序片段中确定用于拼接所述目标拼接个时序片段中具有静态语义的时序片段中确定用于拼接剩余视频片段的时序片段，所述中选择用于拼接目标拼接视频的时序片段。当符合主题的动态语义的时序片段的时长总的时序片段的时长总和大于5分钟时，可以从这些时序片段中随机选择时长总和等于5分球″这一静态语义的时序片段中选择一个时长为2分钟的时序片段或者选择时长加和为2第一时长时，从所述具有细节动态语义的时序片段中确定用于拼接所述目标拼接视频的具有细节动态语义的时序片段全部用于拼接所述目标拼接视频，且从所述具有动态语义的时序片段中确定用于拼接剩余视频片段的时序片段，所述剩余视频片段的时长等于所从具有动态语义的时序片段中选举时序片段继续进序片段的总时长小于所述第一时长时，确定所述具有细节动态语义的时序片段和所述具段中确定用于拼接剩余视频片段的时序片段，所述剩余视频片段的时长等于所述第一时序片段的优先级高于具有动态语义的时序片段的优先级，且具有动态语义的时序片段的[0857]步骤一，手机中的每一个视频根据图2所示的语义识别方法得到不同的标签语义[0859]示例性的，可以默认同一主题下的细节动态语义的优先级高于动态语义的优先细节动态语义的优先级高于动态语义的优先级，动态语义的优先级高于静态语义的优先[0866]一种视频处理方法为，检测视频中连续视频帧中目标区域的重叠度(检测框的交空域特征用于识别该视频帧中的目标区域，识别出的该视频帧的目标区域和其他视频帧[0869]为方便描述，可以将利用卷积神经网络提取的视频帧的或固定的，例如该用户设备可以是具有视频帧处理功能的移动电话、平板个人电脑(tabletpersonalcomputer，TPC)、媒体播放器、智能电视、笔记本电脑(laptopcomputer，LC)、个人数字助理(personaldigitalassistant，PDA)、个人计算机频帧在M个通道下的空域特征，以及提取第二视频中的每个视频帧在所述M个通道下的空[0874]在一些实施例中，第一视频和第二视频可以为一个视频中的两个高光时刻片频的精彩程度，可以将一个视频中的多段高光时刻片段或多个视频中的高光时刻片段在风格迁移层中的不同风格迁移层可以对应多个物体类别中的不同物体类别。在一个例子[0882]风格迁移层可以理解为特征近似层，其可以对同一物体类别下的物体的CNN特征[0883]可以理解，生成式对抗网络具有生成模型和判别模型(discriminativemodel数据)时，生成模型可以使噪声的数据分布接近或逼近生成模型学习到的数据分别，从而中，尽可能提高判断模型区分真实的训练数据和生成模型利用噪声生成的模拟数据的能式对抗网络更详细的解释可以参考现有技术，特别是论文《unsupervisedcross-domainimagegeneration》(YanivTaigman，AdamPolyak＆LiorWolf，UnderreviewasaconferencepaperatICLR20述视频帧包括的物体的物体类别，从所述多个风格迁移层中确定对应于所述视频帧的风格迁移层；使用所述对应于所述视频帧的风格迁移层，对所述视频帧在所述M个通道下的[0888]可以将至少一个二维卷积层输出的该视频帧在M个通道中每个通道下的空域特所述M个通道下的空域特征和第二视频中各个视频帧在所述M个通道下的空域特征，确定所述第一视频中各个视频帧和所述第二视频中各个视频帧之间的两两视[0890]在一些实施例中，步骤3002中的视频帧在M个通道下的空域特征具体可以是指图[0891]在一些实施例中，步骤3002中的视频帧在M个通道下的空域特征具体可以是指图征和视频帧r在该M个通道下的空域特征，计算视频帧1和视频帧r之间的两两视频帧相似[0895]可以根据视频帧1的第i×j个向量和视频帧r的第i×j个向量，计算视频帧1和视[0896]在这些实施例的第一示例中，可以计算视频帧1的第i×j个向量和视频帧r的第i频帧为所述第二视频中的一个视频帧；计算所述第一视频帧的第i×j个向量和所述第二向量中各个向量下的相似度，确定所述第一视频帧和所述第二视频帧的两两视频帧相似个通道中各通道下的空域特征中坐标为(i，j)的元素或者说特征值的平均值称为第一平个向量之间的余弦距离，确定视频帧1和视频帧r在视频帧1和视频帧r在第i×j个向量下。

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN114078223B 视频语义识别方法及设备（华为技术有限公司）

文档简介

温馨提示

最新文档

评论

CN114078223B 视频语义识别方法及设备 （华为技术有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN114078223B 视频语义识别方法及设备（华为技术有限公司）