CN113515668B 视频聚类方法及装置（腾讯科技（深圳）有限公司）

上传人：1*** IP属地：山西上传时间：2026-05-16 格式：DOCX 页数：47 大小：1.57MB 积分：10.8 举报 版权申诉

CN113515668B 视频聚类方法及装置（腾讯科技（深圳）有限公司）_第2页

CN113515668B 视频聚类方法及装置（腾讯科技（深圳）有限公司）_第3页

CN113515668B 视频聚类方法及装置（腾讯科技（深圳）有限公司）_第4页

CN113515668B 视频聚类方法及装置（腾讯科技（深圳）有限公司）_第5页

已阅读5页，还剩42页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

特征提取模型对视频集合中各视频的视频帧序息和样本视频对应的标签信息对原始模型进行少了对样本视频进行标注的工作量而且保证了2通过特征提取模型对所述视频集合中各视频的视频帧序列进行特征多个样本视频中的编号的第一标签，以及用于描述所述样本视频所属聚类类别的第二标根据各视频的视频语义特征向量对所述视频集合中的视频进行聚根据所述样本视频的第一标签和所述样本视频的第一视频语义特征向量对所述第一若所述第一迭代训练中的迭代次数达到第一设定次数，根据所是通过本次训练周期中第一迭代训练完成后的第一分支网络对所述样本视频的视频帧序通过上一训练周期中第二迭代训练结束后的第一分支网络对每一样本视频的视频帧根据各样本视频的第一视频语义特征向量和各样本视频的第一标签计算目标损失函3通过本次训练周期中第一迭代训练结束后的第一分支网络对每一样本视频的视频帧通过所述聚类模块根据各样本视频的第二视频语义特征向量对所述训练样本集中的本视频所属的聚类类别对应的第二编号作为所述样本视频的第根据所述样本视频的第二视频语义特征向量和所述样本视频的第二标签计算所述目6.根据权利要求3-5中任一项所述的方法，其特征在于，所述通过特征提取模型对所述视频集合中各视频的视频帧序列进行对于每一视频，通过所述第一卷积层对所述视频的视频帧序列中每通过所述时序偏移层基于所述视频帧序列中各视频帧的特征图沿时间维度进行时序通过所述第二卷积层分别对所述各视频帧的第二特征图进行二维将所述视频帧序列中各视频帧的第三特征图进行全连接，得到获取所述视频的附加特征向量，所述附加特征向量包括音频语将所述视频的视频语义特征向量与所述视频的附加特征向量进行基于所述视频集合中各视频的特征向量进行视频聚类，将所述视频集述视频集合中的视频进行聚类，将所述视频集合中各视频划分为至少一个聚类类别之后，4获取当前所播放视频的类别信息，所述类别信息用于指示所从未播放视频集合中选取聚类类别为所述目标聚类类别的特征提取模块，用于通过特征提取模型对所述视频集合视频聚类模块，用于根据各视频的视频语义特征向量对所述视频存储器，所述存储器上存储有计算机可读指令，所述计算机计算机设备的处理器从所述计算机可读存储介质读取行所述计算机指令，使得所述计算机设备执行如权利要求1-9中任一项所述的视频聚类方5分类方法中，一般是利用基于深度学习构建的特征提取模型来提取得到视频的特征向量，据样本视频的内容进行视频标注所导致对样本视频进行6一标签，将根据样本视频的特征向量进行聚类所得到的聚类类别作为样本视频的第二标义特征向量才会聚为同一聚类类别，不相似的视频语义特征向量会对应不同的聚类类别，[0016]而且在本申请的方案中，不需要通过人工来根据视频的内容对样本视频进行标[0022]图4是根据一实施例示出的在一个训练周期内对第一分支网络进行训练的流程7本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，[0031]附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对[0034]人工智能(ArtificialIntelligence，AI)是利用数字计算机或者数字计算机控分类方法中，一般是利用基于深度学习构建的特征提取模型来提取得到视频的特征向量，8网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连后服务器105按照本申请的方案对视频集合中的各个视频进行聚类，确定各个视频所属的聚类类别。[0041]在本申请的一些实施例中，服务器105还可以基于视频所所属的聚类类型进行视[0043]图2示出了根据本申请的一个实施例示出的视频聚类方法的流程图，该方法可以[0045]步骤220，通过特征提取模型对所述视频集合中各视频的视频帧序列进行特征提9络可以是通过卷积神经网络构建的。在本申请的一些实施例中，基于三维(three-[0050]在本申请的一些实施例中，第一分支网络还可以是时移(TemporalShiftTSM模块通过沿时间维度的特征图来执行有效的时间建模，它在2D卷积的基础上没有多余[0052]为了保证特征提取模型为视频所输出视频语义特征向量的准确性，在步骤210之[0053]在本申请的实施例中，通过训练样本集中的样本视频对该特征提取模型进行训别。[0058]聚类模块可以按照聚类算法基于样本视频的视频语义特征向量对训练样本集中函数的函数值，进而根据该目标损失函数的损失函数值来反向调整第一分支网络的参数。标损失函数的损失函数值来反向调整第一分支义特征向量可以对该视频的标题文本进行语义特征字符语义特征向量进行融合的一种实施方式可以是将各视频帧的字符语义特征向量进行在每一组样本视频中，随机选取一样本视频的特征向量作为该组样本视频初始的聚类中聚类中心的样本视频的数量不超过第一预设数量(第二预设数量例如0，或者大于0的整一标签，将根据样本视频的特征向量进行聚类所得到的聚类类别作为样本视频的第二标义特征向量才会聚为同一聚类类别，不相似的视频语义特征向量会对应不同的聚类类别，似的视频所输出的视频语义特征向量的距离会越来越远。在对第一分支网络进行训练结[0076]而且在本申请的方案中，不需要通过人工来根据视频的内容对样本视频进行标[0079]步骤410，根据所述样本视频的第一标签和所述样本视频的第一视频语义特征向训练周期中第二迭代训练完成后的第一分支网络对所述样本视频的视频帧序列进行特征本视频的第二标签和所述样本视频的第二视频语义特征向量对所述第一分支网络进行第视频语义特征向量是通过本次训练周期中第一迭代训练完成后的第一分支网络对所述样视频的第二标签和所述样本视频的特征向量对所述第一分支网络新确定样本视频所属的聚类类别。的第一视频语义特征向量是通过上一训练周期中第二迭代训练结束后的第一分支网络对束后的第一分支网络对样本视频的视频帧序列进[0087]步骤411，通过上一训练周期中第二迭代训练结束后的第一分支网络对每一样本[0088]步骤412，根据各样本视频的第一视频语义特征向量和各样本视频的第一标签计i表示第i个样表示参考样本对应的异类样本的特征向量；α1为类间间隔参数；α2为类内间隔参数；考样本的样本视频属于同一聚类类别且与该样本视频距离最近的样本视频作为该样本视[0105]步骤421，通过本次训练周期中第一迭代训练结束后的第一分支网络对每一样本[0106]步骤422，通过所述聚类模块根据各样本视频的第二视频语义特征向量对所述训[0108]步骤423，根据所述样本视频的第二视频语义特征向量和所述样本视频的第二标的第二特征向量和样本视频的第二标签计算目标损失函[0111]同第一迭代训练的过程，目标损失函数是Arcface损失函数或T[0112]通过如上步骤411-424的过程即完成一个训练周期的训练。然后进入下一训练周总数指示了在每一训练周期中对样本视频所进行聚类别总数。增大每一训练周期中的类别总数，即相当于生成更细粒度的监督信号(第二标[0119]步骤520，通过所述时序偏移层基于所述视频帧序列中各视频帧的特征图沿时间[0120]步骤530，通过所述第二卷积层分别对所述各视频帧的第二特征图进行二维卷积中的2D卷积核进行卷积处理得到各视频帧的特征图，然后通过TSM模块在时间维度上对各积层之间设置时序偏移层(图6中未示出)，由该时序偏移层对第一卷积层所输出视频帧序列中各视频帧的第一特征图进行时序偏移操作。现结合图6来对时序偏移操作进行具体说于一视频而言，该视频的视频帧序列中各个视频帧的第一特征图按照时间循序进行拼接，中各视频的图像特征和视频帧序列中各视频帧之间的时序特放视频所属的目标聚类类别。频集合中选取聚类类别为目标聚类类别的目标视频，并向用户终端推送所选取的目标视[0137]视频集合获取模块910，用于获取视频集合，所述视频集合包括多个待处理的视[0138]特征提取模块920，用于通过特征提取模型对所述视频集合中各视频的视频帧序[0139]视频聚类模块930，用于根据各视频的视频语义特征向量对所述视频集合中的视一视频语义特征向量是上一训练周期中第二迭代训练完成后的第一分支网络对所述样本第二标签和所述样本视频的第二视频语义特征向量对所述第一分支网络进行第二迭代训特征向量是通过本次训练周期中第一迭代训练完成后的第一分支网络对所述样本视频的过上一训练周期中第二迭代训练结束后的第一分支网络对每一样本视频的视频帧序列进据各样本视频的第一视频语义特征向量和各样本视频的第一标签计算目标损失函数的第过本次训练周期中第一迭代训练结束后的第一分支网络对每一样本视频的视频帧序列进模块根据各样本视频的第二视频语义特征向量对所述训练样本集中的样本视频进行聚类，述样本视频的第二视频语义特征向量和所述样本视频的第二标签计算所述目标损失函数个聚类类别。[0151]如图10所示，计算机系统1000包括中央处理单元(CentralProcessingUnit，储部分1008加载到随机访问存储器(RandomAccessMemory，RAM)1003中的程序而执行各器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN(LocalArea因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质从其上读出的计算机程序根据需要被安装入存储部分1008。或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，块或者单元的特征和功能可以进一步划分为由多个模块或者途或者适应性

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN113515668B 视频聚类方法及装置（腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

CN113515668B 视频聚类方法及装置 （腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN113515668B 视频聚类方法及装置（腾讯科技（深圳）有限公司）