版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本发明公开了一种视频片段定位方法、装在模型训练时也就无需对样本视频进行精确标2基于目标视频中多个视频帧和目标文本,从所述目标基于所述候选片段中多个视频帧与所述目标文本,从将所述至少一个子片段中与所述目标文本之间匹配度符合目标条件的子片段确定为分别获取所述候选片段中多个视频帧的视频帧特征与所述文从所述多个视频帧中,获取多个目标视频帧,一个目对所述候选片段中多个视频帧的视频帧特征与所述文本特征分别进行映射至向量空基于所述多个中间视频帧特征和所述中间文本特征,确定多基于所述候选片段在所述目标视频中的起始时刻和截基于所述目标视频的多个视频片段中视频帧的视频帧特征,获取多个第一视频特征,分别获取所述多个第一视频特征与所述文本特3分别对所述多个视频片段中视频帧的视频帧特征进行映射获取所述长短时记忆网络生成的多个目标隐层状态候选片段确定模块,用于基于目标视频中多子片段确定模块,用于基于所述候选片段中多个分别获取所述候选片段中多个视频帧的视频帧特征与所述文从所述多个视频帧中,获取多个目标视频帧,一个目对所述候选片段中多个视频帧的视频帧特征与所述文本特征分别进行映射至向量空基于所述多个中间视频帧特征和所述中间文本特征,确定多个处理器加载并执行以实现如权利要求1至权利要求9任一项所述的视频片段定位方法所4[0008]将该至少一个子片段中与该目标文本之间匹配度符合目标条件的子片段确定为5[0018]对于每组连续视频帧,以该每组连续视频帧中的第一个视频[0020]对该候选片段中多个视频帧的视频帧特征与该文本特征分别进行映射至向量空[0025]基于该目标视频的多个视频片段中视频帧的视频帧特征,获取多个第一视频特[0028]在一种可能实现方式中,该多个视频片段中相邻两个视频片段之间具有重叠部识别模型无需对目标视频片段的边界特征进行学习,也就无需对样本视频进行精确标注,6[0047]终端110通过无线网络或有线网络与视频识别平台110相连。终端110可以是智能7[0053]本发明主要是一种基于弱监督学习的通过自然语言在视频中进行片段定位的方[0054]图2是本发明实施例提供的一种视频片段定位方法的流程图,该方法可以应用于卷积神经网络)等。该计算机设备基于视频识别模型获取该目标视频中多个视频片段的第包括至少一个卷积层,该卷积层可以分别与每一个视频帧对应的数字矩阵进行卷积运算,8扫描窗口滑动至特征图的任一区域时,该计算机设备读取该区域中各个特征点对应的数[0061]该计算机设备通过上述初步特征提取过程获取到该目标视频的卷积特征C,可以表示为下述公式(1):获取的各个视频帧的卷积特征映射至向量空间,将第t个视频帧的卷积特征ct分别转换为层状态和后向运算过程中输出的最后一个隐层状态将隐层状态和隐层状态9[0072]该计算机设备获取到该目标视频对应的一组视频帧特征Hv可以表述为下述公式的取值。帧的视频帧特征进行映射,将第t个视频帧的视频帧特征hy转换为特征向量该计算机设备对该视频片段对应的一组特征向量沿时间维度进行最大池化处理,将各个视频片段对应的一组向量转换为特定维度的向量将该特定维度的向量作为该视频片段的第一视频特征。上述对该视频片段对应的一组向量进行最大池化处理的方法,[0088]该计算机设备将该目标文本对应的一组特征向量输入该双向长短时记[0091]该计算机设备基于该双向长短时记忆网络获取文本特征的具体方法与步骤201中运算过程,表示后向运算中获取的隐层状态,表示前一个隐层单元的隐层状态,与该文本特征之间的匹配度符合第一匹配条件的第一视频特征对应的视频片段作为该候实施例中,该计算机设备可以通过门控操作进行关键信息提取,该门控操作可以通过视频特征和该文本特征中的无关信息,将该sigmoid函数的运算结果分别与该多个第一视一视频特征与该文本特征中进行关键信息提取的过程可以表述为下述公式(10)、(11)、(12)和(13):[0102]g,=o(w,(IIfs)+b,)(10)v和gs表示该计算机设备对该视频特征和文本特征进行加权运算后得到的[0109]该计算机设备获取该目标视频中各个视频片段与该目标文本[0110]该计算机设备通过该目标视频中各个视频帧的视频帧特征与文本特征之间的粗[0111]需要说明的是上述步骤201到步骤203是基于目标视频中多个视选片段时起止时刻对该候选片段的边界进行调整,该边界扩展函数可以表述为下述公式(14):刻为",截止时刻为tf。[0119]该计算机设备将该候选片段中多个视频帧的视频帧特征与该文本特征分别进行[0120]在一种可能实现方式中,该计算机设备可以通过一个全连接层将该候选片段中t时刻视频帧的视频帧特征h映射为向量",将该文本特征hs映射为向量该计算机设备频帧特征以及目标文本的中间文本特征该门控操作与步骤203中应用的门控操作同文本特征之间的匹配度进行归一化处理,使各个匹配度对应的数值的取值范围在[0126]205、该计算机设备将该至少一个子片段中与该目标文本之间匹配度符合目标条[0129]该计算机设备可以基于子片段中的每一帧与目标文本之间的匹配关系以及候选述为下述公式(15):[0133]该计算机设备将该各个子片段与该目标文本之间的匹配度按将与该目标文本之间的匹配度数值最大的子[0134]该计算机设备通过该候选片段中各个视频帧的视频帧特征与文本特征之间的精标文本对应的视频片段进行粗略定位,以便从多个视频片段406中获取一个候选片段407,是获取目标视频片段408。本发明实施例中的粗略阶段和精细阶段分别通过一个排序损失识别模型无需对目标视频片段的边界特征进行学习,也就无需对样本视频进行精确标注,涉及的参数进行调整,直至该该视频片段定位结果与正确识别结果的误差小于误差阈值p/c可以表述为下述公式(18):p':-[t",ts"](18)[0155]该计算机设备可以将该边界扩展后的候选片段p/c中各个视频帧与该目标文本之片段和文本信息之间的匹配度m(V,S)远远大于不匹配的视频片段和文本信息之间的匹配不依赖目标视频中和目标文本匹配的视频片段的边界信息,而是将训练过程分为两个阶[0166]目标视频片段确定模块503,用于将该至少一个子片段中与该目标文本之间匹配[0172]对于每组连续视频帧,以该每组连续视频帧中的第一个视频[0174]对该候选片段中多个视频帧的视频帧特征与该文本特征分别进行映射至向量空[0179]基于该目标视频的多个视频片段中视频帧的视频帧特征,获取多个第一视频特[0182]在一种可能实现方式中,该多个视频片段中相邻两个视频片段之间具有重叠部[0189]需要说明的是:上述实施例提供的视频片段定位的装置在进MP4(MovingPictureExpertsGroupAudioLayerIV,动态影像专家压缩标准音频层面[0192]存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器601所执行以实现本发[0194]外围设备接口603可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器摄像头融合实现全景拍摄以及VR(VirtualReality,虚拟现实)拍摄功能或者其它融合拍声波转换为电信号输入至处理器601进行处理,或者输入至射频电路604以实现语音通信。风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路[0199]定位组件608用于定位终端600的当前地理位置,以实现导航或LBS(LocationBasedService,基于位置的服务)。定位组件608可以是基于美国的GPS(Global[0202]加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大[0203]陀螺仪传感器612可以检测终端600的机体方向及转动角度,陀螺仪传感器612可[0205]指纹传感器614用于采集用户的指纹,由处理器601根据指纹传感器614采集到的户与终端600的正面之间的距离逐渐变小时,由处理器601控制显示屏605从亮屏状态切换能不同而产生比较大的差异,可以包括一个或多个处理器(centralprocessingunits,存储介质可以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 量子点显示材料制备技师考试试卷及答案
- 2025年南京市江宁区首批区属国有企业公开招聘人员32人笔试历年参考题库附带答案详解
- 2025年下半年山东高速集团有限公司社会招聘162人笔试历年参考题库附带答案详解
- 2025山东青岛恒丰理财有限责任公司社会招聘13人笔试历年参考题库附带答案详解
- 2025山东枣庄滕州市属国有企业招聘125人(第二批次)笔试历年参考题库附带答案详解
- 2025安徽芜湖弋江区社区工作者及区属国企工作人员招聘30人笔试历年参考题库附带答案详解
- 2025天津金浩物业公司招聘3人笔试历年参考题库附带答案详解
- 2025四川蜀道养护集团有限公司招聘15人笔试历年参考题库附带答案详解
- 2025四川泸州市龙驰控股有限责任公司下属子公司招聘15人笔试历年参考题库附带答案详解
- 2025包头市年第一季度高层次和急需紧缺人才需求576人目录笔试历年参考题库附带答案详解
- GB/T 46692.2-2025工作场所环境用气体探测器第2部分:有毒气体探测器的选型、安装、使用和维护
- 精准护理实践儿童康复护理课件
- TCBDA63-2022建筑装饰室内石材及瓷板干挂技术规程
- 公猪站培训课件
- 2025年特色美食街区开发可行性研究报告
- 7793-2025中小学校教室采光和照明卫生标准
- 自动喷水灭火系统
- 荆门市中石油2025秋招写作申论万能模板直接套用
- 沥青薄层罩面技术
- 2025年2月计算机维修工五级考试题(含答案)
- 2025年甘肃省辅警考试真题及答案
评论
0/150
提交评论