CN113392689B 视频文字跟踪方法、视频处理方法、装置、设备及介质（腾讯科技（深圳）有限公司）

上传人：1*** IP属地：山西上传时间：2026-05-14 格式：DOCX 页数：47 大小：1.23MB 积分：10.8 举报 版权申诉

CN113392689B 视频文字跟踪方法、视频处理方法、装置、设备及介质（腾讯科技（深圳）有限公司）_第2页

CN113392689B 视频文字跟踪方法、视频处理方法、装置、设备及介质（腾讯科技（深圳）有限公司）_第3页

CN113392689B 视频文字跟踪方法、视频处理方法、装置、设备及介质（腾讯科技（深圳）有限公司）_第4页

CN113392689B 视频文字跟踪方法、视频处理方法、装置、设备及介质（腾讯科技（深圳）有限公司）_第5页

已阅读5页，还剩42页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

在与第一视频帧相邻的视频帧中第一文本框对视频帧中文字的位置确定其相邻的视频帧中同2在所述视频的第二视频帧中与所述第一文本框对应的位置确定所述第一文本框与各个所述第二文本框的第一相似度根据所述第一文本框和所述第三文本框，确定所述视频文从所述视频中获取与所述第一视频帧相邻的第三视频帧，所述将所述第一视频帧与所述第三视频帧相匹配的文本框确定为所述第所述将所述第一视频帧与所述第三视频帧相将所述第一视频帧和所述第三视频帧输入到第二文字跟踪通过所述第一子网络对所述第一视频帧进行检测，得到第六文本框，通过所述第三子网络对所述第三视频帧进行检测，得到第八文本框，确定所述第六文本框和所述第八文本框的第三相似度将所述第一视频帧和所述第三视频帧输入到第一文字跟踪3支网络和第二跟踪分支网络；所述确定所述第四文本框和所述第五文本框的第二相似度，通过所述第一子网络降采样第一倍数，以对所述第一视频帧进行特征提取，通过所述第二子网络降采样第二倍数，以对所述第一视频帧进行特征提取，通过所述第三子网络降采样所述第一倍数，以对所述第三视频帧进行通过所述第四子网络降采样所述第二倍数，以对所述第三视频帧进行根据所述第一权重和所述第二权重，对所述第三相似度和所述第4通过权利要求1-9中任一项所述的视频文字跟踪方法，得到所述视频中多个视频文字粒子生成模块，用于在所述视频的第二视频帧中与所述第一文本框对应第二处理模块，用于根据各个所述粒子的位置，在所述第相似度确定模块，用于确定所述第一文本框与各个所述第一相似度最高的所述第二文本框作为第三文轨迹确定模块，用于根据所述第一文本框和所述第三文本框从所述视频中获取与所述第一视频帧相邻的第三视频帧，所述将所述第一视频帧与所述第三视频帧相匹配的文本框确定为所述第所述将所述第一视频帧与所述第三视频帧相将所述第一视频帧和所述第三视频帧输入到第二文字跟踪通过所述第一子网络对所述第一视频帧进行检测，得到第六文本框，通过所述第三子网络对所述第三视频帧进行检测，得到第八文本框，确定所述第六文本框和所述第八文本框的第三相似度理器可执行的程序在由处理器执行时用于实现如权利要求1-10中任一项所56[0020]相似度确定模块，用于确定所述第一文本框与各个所述第二文本框的第一相似品或计算机程序包括计算机指令，该计算机指令存储在前面所述的计算机可读存储介质行跟踪时，通过当前视频帧中文字的位置确定其相邻的视频帧中相同文字可能出现的位[0033]图3为本申请实施例提供的视频文字跟踪方法中采用的第一文字跟踪网络一种示7[0034]图4为本申请实施例提供的视频文字跟踪方法中采用的第一文字跟踪网络另一种[0035]图5为本申请实施例提供的视频文字跟踪方法中采用的一种第二文字跟踪网络示[0037]图7为本申请实施例提供的视频文字跟踪方法中采用的一种基于Yolo-v3网络的[0038]图8为本申请实施例提供的视频文字跟踪方法中采用的一种基于Yolo-v3网络的[0048]本申请实施例中提供的视频文字跟踪方法，可以用于视8在与该视频帧相邻的视频帧(可以是该视频帧之前的一个视频帧，也可以是该视频帧之后的一个视频帧)中对应的位置，确定与该文本框相似度最高的一个文本框作为相邻的视频框周围的粒子的位置，在与第一视频帧相邻的第二视频帧中确定文本框可能出现的位置，内容进行提取或者审核时，对视频文字的目标跟踪轨迹所涵盖的任意一个视频帧处理即的是该集合体包括但不限于为多媒体平台上所能够播放的内容，MPEG(MovingPicture的影片格式)、WMV(WindowsMediaVideo,Windows媒体视频)格式、3GP(3rdGenerationPartnershipProject，第三代合作伙伴RMVB(RealMediaVariableBitrate，RM可变比特率)格式、FLV(FLASHVIDEO)格式、MP4[0051]图1是本申请实施例提供的视频文字跟踪方法一种可选的应用环境示意图。参照字跟踪系统100可以包括终端110和服务器120，终端110和服务器120的具体个数可以任意如包括但不限于局域网(LocalAreaNetwork，LAN)、城域网(MetropolitanArea9[0053]应当理解的是，图1所示出的只是本申请实施例视频文字跟踪方法一种可选的实施例中，该视频文字跟踪方法可以由终端110在本地独立实现，例如可以通过安装在终端[0057]具体地，本申请实施例中的步骤S201，可以通过步骤S210实现，或者通过步骤可以为上述初始跟踪轨迹中与第一视频帧相都不相同的第三倍数等对第一视频帧进行特征提取，以得到更多不同的文本框检测结果，子网络中第六文本框的置信度)，Cx为第四检测分支网络第1个子网络的文本框b1的置信[0108]可以理解的是，当第三检测分支网络与第四检测分支网络具有两个以上的子网[0119]如图6所示，图6中示出了通过第一视频帧101的第一文本框1011，在第二视频帧103中生成粒子1031的示意图。以第一视频帧101中的第一文本框1011为矩形为例进行说也可以在矩形的中心位置生成粒子1031或者在矩形的其他顶点位置生成粒子1031，相应三文本框的第一相似度为90说明第二视频帧中的第二文本框中存在和第一文本框很相框和第三文本框的第一相似度为30说明第二视频帧中的第二文本框中，即使和第一文其余各帧在确定第一文本框时都可以以前一次识别中的第三文本框作为下一次识别的第[0133]参照图7，图7中示出的是以Yolo-v3网络检测分支网络搭建的文字跟踪网络在处[0134]对于视频帧402的处理过程和视频帧401较为类似，只是通过另一个Yolo-v3网络对其进行检测，该网络记为第二Yolo-v3网络。此处，需要说明的是，也可以采用同一个的是为了实现视频帧401和视频帧402的同步处理，即不需要等待视频帧401处理完毕再对[0135]第一Yolo-v3网络和第二Yolo-v3网络之间可以权重共享，即第一Yolo-v3网络和第二Yolo-v3网络中的网络参数可以设置为相同，以减少网络参数差异对得到的识别结果将8倍降采样时检测生成的目标文本框特征图记为特征图B1，将16倍降采样时检测生成的经网络对文本框的检测结果，得到的相似度X能够减少神经网络单次预测不够准确所造成的预测尺度下，第一Yolo-v3网络的置信度为0.9，在生成特征图A3的预测尺度下，第一Yolo-v3网络的置信度为0.85，由于本申请实施例中的第二Yolo-v3网络和第一Yolo-v3网相似度示意图，具体地，第一跟踪分支网络包括ROIAl果输入到层603，然后将层603的输出结果输入到连接层703，即能够得到上述的特征向量局限于以上形式。图9中示出的是本申请实施例中提供的视频处理方法一个可选的流程示台词对于帮助理解视频内容非常有帮助，将字幕里面每次呈现的一段文本作为一句台词，可以挑选出涵盖每句台词的视频帧作为关键帧集合，方便用于视频内容的审核或者推荐。例中，也可以应用视频文字的目标跟踪轨迹来确定视频文字在各个视频帧中的具体位置，[0151]粒子生成模块920，用于在视频的第二视频帧中与第一文本框对应的位置生成多[0155]可以理解的是，图2所示的视频文字跟踪方法实施例中的内容均适用于本视频文字跟踪装置实施例中，本视频文字跟踪装置实施例所具体实现的功能与图2所示的视频文字跟踪方法实施例相同，并且达到的有益效果与图2所示的视频文字跟踪方法实施例所达2所示的视频文字跟踪方法实施例或者图7的有益效果与如图2所示的视频文字跟踪方法实施例或者图9所示的视频处理方法实施例序，处理器可执行的程序在由处理器执行时用于实现如图2所示的视频文字跟踪方法实施所具体实现的功能与图2所示的视频文字跟踪方法实施例或者图9所示的视频处理方法实计算机程序实施例所具体实现的功能与图2所示的视频文字跟踪方法实施例或者图9所示的视频处理方法实施例相同，并且达到的有益效果与图2所示的视频文字跟踪方法实施例[0165]在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提以及其中被描述为较大操作的一部分的子操作被独质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN113392689B 视频文字跟踪方法、视频处理方法、装置、设备及介质（腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

CN113392689B 视频文字跟踪方法、视频处理方法、装置、设备及介质 （腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN113392689B 视频文字跟踪方法、视频处理方法、装置、设备及介质（腾讯科技（深圳）有限公司）