【视频插帧算法研究概述5000字】

上传人：E*** IP属地：湖北上传时间：2026-07-05 格式：DOCX 页数：9 大小：1.59MB 积分：13 举报 版权申诉

已阅读5页，还剩4页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

视频插帧算法研究概述在本节的内容里，我们将具体介绍关于视频插帧的定义相关问题和比较普遍的一些处理方法，较为普遍的解决方法主要包括基于运动补偿的视频插帧方法，我们将会展开介绍和讨论其具体步骤，并加以剖析该类型解决方法的局限性。以此为基，我们也将接着阐述有关于基于深度学习的视频插帧方法的相关内容，将前者解决方法和后者方法的双方优劣进行对比分析讨论，便于我们全面、整体、系统的了解视频插帧相关问题方法的目前阶段进展与研究的侧重点和关键点。1.1基于运动补偿的视频插帧视频插帧技术定义为在原有的视频序列中插入一帧或多帧中间帧。早在上世纪90年代，基于运动补偿的视频插帧方法相关技术就开始在处理视频中帧率变换的相关问题时被使用[2,3]。下图2.3所示，我们通常将基于运动补偿的视频插帧技术分为两个部分，运动估计[4]和运动补偿插值[5]。前者运动估计定义为依据对视频序列中相邻两帧之间运动轨迹的预测来获得运动矢量，之后使用预测取得的QUOTEMVMV去得到中间帧的各像素点在原始帧中的相对位置，之后运用插值技术来合成中间帧。将上述操作过程抽象提炼为数学模型，分别设上述前后两帧为QUOTEI0I0和QUOTEI1I1，两帧之间任意时刻QUOTEtt属于QUOTE(0,1)(0,1)的待插帧即是我们的合成目标。QUOTEI0I0中的物体从位置QUOTE(x,y)(x,y)在一个单位时间内运动到QUOTEI1I1的位置QUOTE(x+∆x,y+∆y)(x+∆x,y+∆y)，其中，QUOTE(∆x,∆y)(∆x,∆y)就是该物体在前后两帧之间的QUOTEMVMV。考虑到前后相邻两帧之间的间隔很短，通常假定运动物体进行匀速直线运动，并且假定像素值无明显改变。在此基础上，计算获得该物体在中间帧的位置信息和像素估计值，数学表示为： QUOTEItx+t*∆x,y+t*∆y=1-t*I0上式中，QUOTEI0(x,y)I0(x,y)和QUOTEI1(x+∆x,y+∆y)I1(x+∆x,y+∆y)代表前后两帧中各自的像素参考值，QUOTEtt和QUOTE(1-t)(1-t)代表相邻两帧像素参考值所占的权重，权重的大小取决于中间帧距相邻两帧的时间间隔长短，间隔又反映了其对中间帧的贡献程度，间隔越短，贡献越大，所占权重越大。上述所介绍的基于运动补偿的视频插帧方法依据其中运动矢量的预测算法不同，又可再细分为基于解码运动矢量、块匹配和光流的运动补偿视频插帧方法。这些方法将在下文进行详细的阐述。图2.3基于运动补偿的视频插帧方法Fig.2.3Videoframeinsertionmethodbasedonmotioncompensation（1）基于解码运动矢量的方法在例如H.264编码[6]标准之类的各种普遍视频编码标准中，都包括了帧间预测的内容，可以获得每个子图像块的相关运动矢量信息。所以，基于上述编码模式，我们需要第一步将视频压缩码流解码，进而得到相关运动信息，之后再运用解码获得的运动矢量通过插值取得中间帧。文献[7,8]中提到的是把视频插帧和解码系统两者相结合的方法，使用解码系统得到的运动信息从而进行视频插帧，具体步骤如图2.4所示。基于解码运动矢量的视频插帧方法的优越性体现在其不需要重新去计算帧之间的运动矢量，其做法是直接通过解码系统获得QUOTEMVMV信息，所以很大程度上缩减了运动估计需要的时间，也可以很好地将视频插帧和解码系统相结合，最后再使用一些视频处理技术，来提高该视频的帧率。缺点就是，该方法获得的运动矢量准确程度相对较低，视频插帧的效果在一定程度上无法保证。出现这种情况的原因是因为视频在编码的过程中，运动估计为了实现编码长度的最小化，从而导致得到的运动矢量并不确定能真实体现物体的运动轨迹。所以，如果我们对视频插帧的准确性有相关的要求的话，一般不能选择基于解码运动矢量的视频插帧方法。图2.4基于解码运动矢量的运动补偿插帧示意图Fig.2.4Motioncompensationframeinsertionbasedondecodedmotionvector（2）基于块匹配的方法基于块匹配的运动补偿插针技术方法一般包括以下两个步骤：ME和MCI。并且具备一个基本假设：单位图像块中像素点的QUOTEMVMV相同，而且当物体在前后两帧之间运动时，其亮度值基本保持不变。该方法将块作为单位来估计获得各个图像块的运动矢量，之后再使用估计获得的运动矢量通过补偿插值来和成待插帧。基于块匹配的运动估计通常会依据各种预测估计方法的不同分为三种：单向运动估计[9-11]、双向运动估计[12-16]以及单双向相结合[17-19]的运动估计方法。这三种基于块匹配的运动估计方法在不同的方面各有千秋，但应用到实际的视频序列之中时，受到复杂运动场景、光照因素以及噪声因素等影响，估计获得的运动矢量一般无法确保准确性。所以，在基于块匹配的运动估计结束后，要运用运动矢量后处理等技术来对不够准确的运动矢量进行精确和优化，以满足后续视频插值的效果要求，具体的技术方法包括中值滤波、均值滤波等。在基于块匹配的运动估计获得运动矢量之后，我们需要运用运动补偿插值技术来合成中间帧。此操作对最终合成的中间帧质量有很大影响，所以在基于运动补偿插帧技术里是十分重要的一环。具体依据插值方式的不同，可将其分为单向与双向运动补偿插值两种不同方法。但是，因为不同图像块之间的运动矢量有着不连续的问题，所以使用直接插值方法易引起明显的块效应问题。而为了应对该问题，相关研究人员给出了解决方案：基于重叠块的运动补偿插帧。基于重叠块的算法为了消除上述的块效应问题，对图像块邻域中的多个双向运动矢量做插值。然而如果对于运动矢量的估计不够精确，或是物体运动情况相对复杂，基于重叠块的运动补偿插帧同样会出现图像模糊等现象。上述介绍中，经过对不同运动估计和插值方法的对比讨论，可以了解到视频插帧相关技术存在着很多需要解决的重难点问题，例如运动估计方法的准确性，运动补偿插值技术是否有效的问题以及遮挡区域的相关处理办法等。（3）基于光流的方法关于光流，是指来自于物体和观察者间的相对运动，其概念的首次提出来自于Gibson[20]。光流所针对的是空间内运动物体在成像平面上的瞬时速度，运用相关视频序列中前后帧之间像素点的对应关系通过计算获得的物体运动信息。之后，基于上述基础，Horn和Schunck假定物体表面亮度保持基本不变，并在空间上满足连续性，在此假设基础上提出光流约束方程[21]，并给出了光流的基本计算方法。相关研究者依据不同的光流场稀疏程度的，又提出了稀疏光流、稠密光流等各种预测光流的方案[22,23]。其中，稀疏光流方法只将视频帧中的关键点光流进行计算，常见的应用如目标跟踪等；稠密光流方法不同于稀疏光流，需将全部像素的光流值均进行计算，通常应用于视频插帧。光流方法相对于基于块匹配的运动补偿插帧方法来说，前者可得到各像素点的所有运动信息，所以插值更为精确。但是，因为要获取全部像素的光流值，在面对运动场景复杂、物体运动位移大以及光照突变等问题时很难实现，导致无法确保所得光流信息的准确性。与基于块匹配的运动补偿插帧相同，需要在获得光流信息之后，进行运动补偿插值来合成中间帧。以上介绍了三类基于运动补偿的视频插帧方法，其各自的运动估计方法不尽相同，从而影响到其依据运动矢量后续补偿插值的步骤同样各不相同。总的来说，各类基于运动补偿的视频插帧方法都包括运动估计和运动补偿插值两个过程，且其插帧的步骤均使用了前后帧之间的运动信息。1.2基于深度学习的视频插帧下文中，我们将主要针对基于深度学习的视频插帧技术进行阐述和讨论。在深度学习高速发展的背景之下，计算机视觉、视频图像处理等多个领域都能见到深度学习被广泛应用且取得较好的效果。其不仅在目标检测、视频理解等高纬度问题领域也取得了一定的成功；同时在视频超分辨率、图像修复等低纬度问题方面同样展现出优于传统方案的优越性。基于运动信息的深度学习方法同直接合成法相比，参考了帧间的运动信息，保障了插帧的效果。具体又可依据网络设计方法的不同分为深度光流网络和端到端的视频插帧模型。（1）深度光流网络在传统的光流预测方法上运用神经网络，使用学习的方法获得光流，再通过插值生成中间帧即是深度光流网络，如图2.5所示。和传统方法相比，两者的插值过程一样，但运动估计过程则由深度网络完成。可以得出，光流预测网络的准确性将决定视频插帧的效果。深度学习方法需大量数据信息支撑其训练，而包含光流真实信息的相关训练集却相差甚远。文献[24]中给出了问题的解决办法，即FlowNet，人工合成存在光流真实信息的数据用来进行深度学习方法的训练，有着和传统光流预测方法相近甚至更加优秀的表现。为了进一步提升光流预测的速度和质量，SpyNet[24]、PWC-Net[25]以及FlowNet2[26]等各种模型被相继提出。因为该方法只在光流预测的过程中使用了卷积神经网络，后续操作使用和传统方法同样的插值方法，所以一样可能出现预测不准确或遮挡等情况。同时该学习方法要大量真实光流值标签支持，但人工合成的数据样本不可避免的和真实视频有出入，因此不能确保光流预测和插值过程的准确性。图2.5深度光流网络Fig.2.5DeepOpticalFlowNetwork（2）端到端的视频插帧模型把传统方法中运动估计和运动补偿插值两个过程融入同一网络模型之中即形成了端到端的视频插帧模型，将网络提取的前后两帧间相关运动信息通过空间变换等操作插值获得中间帧[27,28]。端到端的视频插帧模型和深度光流网络相比，优势体现在其运动信息只为网络模型的中间结果，并不用真实信息来参考，利用端到端的学习方法，可修正运动信息的准确性，来确保最终插帧结果的准确性。端到端的视频插帧模型依据其运动信息表示方式的不同又可具体分为如下两种。一种方法的运动信息表示形式为“核”，即针对待插帧的各个像素点，使用深度卷积网络预测获得QUOTEK1K1、QUOTEK2K2两个“核”，再将QUOTEK1K1、QUOTEK2K2同相邻两帧图像块分别作局部卷积，获得该位置的像素估计值，具体如下式： QUOTEIx,y=K1x,y*P上式中，待插帧的某一像素点表示为QUOTEIx,yIx,y，相邻两帧对应图像块分别表示为QUOTEP1x,yP1x,y和QUOTEP2(x,y)P2(x,y)然而该方法也有其局限性，在应对视频中出现大运动位移问题时，QUOTEKK的尺寸要足够大。如文献中给出的例子，应对一帧1080p的视频，运用41*41的核为各个像素点生成大小为41*41的核，要占用26GB左右的内存。文献给出了上述问题的解决方法：使用两个一维卷积核模拟二维卷积核，可将需要的内存大幅度减小，上述41*41的二维核在改用两个一维核后，所需内存降为1.27GB。上述思想源于基于光流的运动补偿插帧的传统方法，将深度网络预测得到的光流信息，运用空间变换网络插值获得待插帧的像素值。将传统光流方法中的两个过程合二为一，形成端到端的视频插帧模型。优点为舍弃了光流真实值的标签，任一视频序列都可成为数据样本，获取训练所需数据的难度大大降低。不仅如此，光流信息只为网络模型的中间结果，可依据插值结果修正信息的准确性，来确保最终插帧结果的准确性，同时模型还可预测获得一个用于解决遮挡问题的“掩膜”。1.3视频插帧方法的质量评价标准上插帧的视觉质量决定了该视频插帧方法的性能，所以评价上插帧的图像质量图像质量即为评价视频插帧方法。主客观两类质量评价方法为图像质量评价的常见方法。主观质量评价方法即人眼观察视频图像，依据主观感受对图像质量进行评价[29]。主观评价方法直接反映主观感受的同时极易因实验环境造成影响，且无法达到评价的实时性要求。客观质量评价方法目标是形成可以自动预测图像和视频质量的评价方法。具体可依据有无利用原始无失真图像相关信息分为无参考、半参考以及全参考三类方法。无参考评价方法不使用参考图像和特征信息，直接计算获得测试图像评价；半参考评价方法分别从参考图像和测试图像中图区部分特征，经过特征信息的对比获得评价；而全参考评价方法通过对比原始无失真图像和测试图像获得测试图像评价。在具体视频插帧过程当中，对高帧率的视频序列进行下采样，获得的低帧率视频为测试序列，由于可以取得真实参考序列，所以使用全参考质量评价方法，具体包含结构相似性、均方误差以及峰值信噪比等方法。后两种方法因计算简单而得到广发使用，其中峰值信噪比在具体计算时没有考虑图像特征，会产生有时不能和人眼感知获得的主观评价相符合的问题。所以为了更好反映图像质量，在此方法基础上提出了结构相似性的量化评价算法。下文我们主要针对峰值信噪比和结构相似性方法进行主要介绍：（1）峰值信噪比（PSNR）峰值信噪比是基于通信理论的图像质量评价方法，其值为最大信号值和噪声强度的比值，数值越大，反映原始图像和测试图像间像素误差越小，质量也就越好，具体公式如下： QUOTEPSNR=10*lg25521W*Hi=1Wj=1上式中，图像的宽和高分别用QUOTEWW和QUOTEHH表示

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【视频插帧算法研究概述5000字】

文档简介

温馨提示

最新文档

评论

【视频插帧算法研究概述5000字】

文档简介

温馨提示

最新文档

评论

相关文档