CN113918767B 视频片段定位方法、装置、设备及存储介质（北京三快在线科技有限公司）

上传人：1*** IP属地：山西上传时间：2026-06-30 格式：DOCX 页数：56 大小：1.37MB 积分：9.6 举报 版权申诉

CN113918767B 视频片段定位方法、装置、设备及存储介质（北京三快在线科技有限公司）_第2页

CN113918767B 视频片段定位方法、装置、设备及存储介质（北京三快在线科技有限公司）_第3页

CN113918767B 视频片段定位方法、装置、设备及存储介质（北京三快在线科技有限公司）_第4页

CN113918767B 视频片段定位方法、装置、设备及存储介质（北京三快在线科技有限公司）_第5页

已阅读5页，还剩51页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

本申请公开了一种视频片段定位方法、装模型确定出候选视频中与所述文本匹配的目标识别模型和定位模型学习到了更多的信息，因2定出所述目标视频中与所述文本匹配的目标所述基于所述样本结果、所述预测识别结果和所述预测定位结果，分别38.一种计算机设备，其特征在于，所述计算机设备所述一个或多个处理器加载并执行以实现如权利要求1至权利要求6任一项所述的视频片4所述至少一条程序代码由处理器加载并执行以实现如权利要求1至权利要求6任一项所述5型从筛选出的视频中定位出与该文本匹配的本文本和样本视频，所述预测识别结果通过待训练的识别模型对所述样本数据处理得到，预测层，所述通过所述训练后的识别模型确定出候选视频中与所述文本匹配的目标视频，67本的文本特征和所述样本视频的视频特征，分别对所述识别模型和所述定位模型进行训一个或多个处理器加载并执行以实现如上述任一种可能实现方式的视频片段定位方法所89[0061]终端101上安装由服务器102提供服务的目标应用，终端101能够通过该目标应用该目标应用的后台服务器或者为提供云计算以及云存储[0067]图2是本申请实施例提供的一种视频片段定位方法的流程图。本申请实施例以执[0073]定位模型是用于从视频中定位出与文本匹配的视频片段的模型。本申请实施例[0081]图3是本申请实施例提供的一种视频片段定位方法的流程图。本申请实施例以执[0083]该步骤301中的样本数据与步骤201中的样本数据同理，该步骤301中的样本结果[0086]302、计算机设备通过待训练的识别模型对样本数据进行处理，得到预测识别结过门控层基于上一次输出的特征对该最后一个词向量进行处理，输出样本文本的文本特神经网络等)提取关键帧序列中每个关键帧的第一关键帧特征(静态特征)。将获取的关键i个关键帧的第三关键帧特征。将每个关键帧的第三关键帧特征进行加权平均池化得到样本视频的视频特另外，计算机设备使用卷积核尺寸分别为{1,3,5}的1D卷积神经网络进一步对双向门控层[0104]303、计算机设备通过待训练的定位模型对样本数据进行处理，得到预测定位结别模型获取的多个视频帧特征和文本特征，也可以重新对样本视频和样本文本进行处理，[0111]在一种可能实现方式中，计算机设备通过待训练的定位模型对样本数据进行处定位模型将大于第一阈值的匹配度对应的视频帧确定为与样本文本匹配的视频片段的视[0115]第一损失值为识别模型的损失值，可以通过识别模型确定的预测识别结果得别模型与定位模型一起训练的时候，还可以采用第一损失函数对预测识别结果进行处理，包括正样本文本(一群小狗跟着主人滑下了滑梯)和正样本视频(一群小狗跟着主人滑下滑梯的视频)；第一负样本数据包括正样本文本和负样本视频第二负样本数据包括负样本[0123]305、计算机设备基于样本定位结果和预测定位结果，确定定位模型的第二损失位模型与识别模型一起训练的时候，还可以采用第二损失函数对预测定位结果进行处理，的视频片段的起止时间。在基于样本定位结果和预测定位结果对定位模型进行训练的时[0137]上述步骤307为识别模型和定位模型训练完成之后，使用识别模型和定位模型检频和目标视频中目标视频片段的处理过程与通过待训练的识别模型和定位模型对样本数[0144]图5是本申请实施例提供的一种视频片段定位的方法流程图，本申请实施例以执[0146]502、计算机设备通过待训练的识别模型对样本数据进行处理，得到预测识别结[0147]503、计算机设备通过待训练的定位模型对样本数据进行处理，得到预测定位结[0148]需要说明的是，上述步骤501至步骤503与图3所示的实施例中步骤301至步骤303获取正样本文本的文本特征与正样本数据的对齐特征的相似度1，获取正样本文本的文本特征与第一负样本数据的对齐特征的相似度2；获取正样本视频的视频特征与正样本数据的对齐特征的相似度3；获取正样本视频的视频特征与第二负样本数据的对齐特征的相似-)表示正样本视频和负样本文本的对齐特征。2＝0.3序代码由该一个或多个处理器加载并执行以实现如上述实施例中的ExpertsGroupAudioLayerIII，动态影像专家压缩标准音频层面3)、MP4(Moving理器801可以采用DSP(DigitalSignalProcessing，数字信号处理)、FPGA(Field-处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(CentralProcessing一些实施例中，处理器801可以在集成有GPU(GraphicsProcessingUnit，图像处理器)，[0197]存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器801所执行以[0199]外围设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路[0204]定位组件808用于定位终端800的当前地理位置，以实现导航或LBS(LocationBasedService，基于位置的服务)。定位组件808可以是基于美国的GPS(Global[0207]加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加速度大[0208]陀螺仪传感器812可以检测终端800的机体方向及转动角度，陀螺仪传感器812可[0210]指纹传感器814用于采集用户的指纹，由处理器801根据指纹传感器814采集到的终端800的正面之间的距离逐渐变小时，由处理器801控制显示屏805从亮屏状态切换为息[0218]本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN113918767B 视频片段定位方法、装置、设备及存储介质（北京三快在线科技有限公司）

文档简介

温馨提示

最新文档

评论

CN113918767B 视频片段定位方法、装置、设备及存储介质 （北京三快在线科技有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN113918767B 视频片段定位方法、装置、设备及存储介质（北京三快在线科技有限公司）