（信号与信息处理专业论文）多视角视频运动和视差估计与编码的研究.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-09 格式：PDF 页数：60 大小：18.71MB 积分：0 举报 版权申诉

已阅读5页，还剩55页未读，继续免费阅读

（信号与信息处理专业论文）多视角视频运动和视差估计与编码的研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要随着信息技术的飞速发展，人们已不满足于单摄像机拍摄的传统视频，而是需要具有更加灵活性和更好交互性的多视角视频。多视角视频由位于不同视角的多个摄像机同时拍摄得到，播放时这些不同视角拍摄的图像均会被传送到用户终端，用户可以根据喜好选择不同的视角进行观看。由于多视角视频会产生大量数据，而运动估计和视差估计作为提高数据压缩效率的有效方法成为需要解决的关键问题之一。本文针对多视角视频的特点，研究如何利用有效的运动估计算法使其使用于视差估计，并结合运动补偿时域滤波和视差补偿视角滤波等技术对全局视差估计方法进行编码分析。首先，对传统的基于块匹配的运动估计算法和相位相关全局运动估计算法进行分析。针对多视角视频中相机的拍摄位置以及全局视差场的特点，采用改进搜索范围和多参考峰值等方法，通过仿真试验验证改进现有运动和视差估计方法对多视角视频的适用性。其次，基于对传统方法的改进，本文提出了全局透视视差估计方法。文中采用了仿射和透视两种视差模式进行比较。使用相位相关方法代替传统的三步搜索方法用作初始估计，确保梯度下降的收敛性。使用低通外插方法用于边界填充。在全局视差估计的基础上，针对前景物体的运动和视差特点，通过对全局补偿差图的分析，使用局部视差重估计方法以提高视差估计的准确性。通过试验比较和分析了采用仿射和透视两种模式的全局视差估计方法以及传统的相位相关全局方法。然后，在运动补偿时域滤波和视差补偿视角滤波基础上构建了基于小波提升机制的多视角视频编码框架，对本文所提出的全局视差估计方法的编码结果进行了分析和比较。最后，总结了本文的研究工作，并展望了未来的工作方向。关键词：多视角视频，视差，运动估计，视差估计 a b s t r a c t a b s t r a c t w i t ht h ed e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y , t h ep e o p l ea r ed i s s a t i s f i e d a b o u tt h et r a d i t i o n a lv i d e ow h i c hi s c a p t u r e db ys i n g l ec a m e r a ，a n dn e e dt h e m u l t i v i e wv i d e ow i t hb e t t e ra g i l i t ya n dm u t u a l i t y m u l t i - v i e wv i d e oi sr e c o r d e db y s e v e r a lc a m e r a sa td i f f e r e n tv i e w p o i n t ss y n c h r o n o u s l y , a n da l lt h ev i d e o sw h i c h r e c o r d e db yt h e s ec a m e r a sw o u l db es e n tt ot h ed e c o d e r , a n dt h eu s e rc a nc h o o s eo n e o ft l l ev i e w sa st h e yl i k ea tt h ed e c o d e r b e c a u s ei tw i l lp r o d u c eh u g ed a t ai n m u l t i - v i e wv i d e o ，m o t i o ne s t i m a t i o na n dd i s p a r i t ye s t i m a t i o nb e c o m eak e yp r o b l e m a st h e ya r et h ee f f i c i e n tm e t h o d st oi m p r o v e c o m p r e s s i o n i nt h em a s t e rt h e s i s ，w ew i l lr e s e a r c hh o we f f i c i e n tm o t i o ne s t i m a t i o nm e t h o d s c a nb eu s e df o rd i s p a r i t ye s t i m a t i o n c o r r e s p o n d i n gw i t ht h e c h a r a c t e r i s t i co f m u l t i - v i e wv i d e o ，a n da n a l y s i st h eg l o b a ld i s p a r i t ye s t i m a t i o nm e t h o d sw i t hm o t i o n c o m p e n s a t e dt i m ef i l t e r i n ga n dd i s p a r i t yc o m p e n s a t e dv i e wf i l t e r i n g f i r s t l y , w ea n a l y s i sb o t hm o t i o ne s t i m a t i o nb a s e do nb l o c km a t c h i n ga n dp h a s e c o r r e l a t i o ng l o b a lm o t i o ne s t i m a t i o n i m p r o v et h es e a r c hs c o p ea n dc a n d i d a t ep e a k s i 1 1 廿1 et w ot r a d i t i o n a lm e t h o d sf o rc a m e r ap o s i t i o n sa n dg l o b a ld i s p a r i t yf i e l d t h e a n a l y z i n gr e s u l ts h o w st h a tt h ei m p r o v e m e n to fm o t i o na n dd i s p a r i t ye s t i m a t i o n m e t h o d si ss u i t a b l et om u l t i v i e wv i d e o s e c o n d l y , w ep r o p o s eag l o b a lp e r s p e c t i v ed i s p a r i t ye s t i m a t i o nm e t h o db a s e do n t h ei m p r o v e m e n ta b o v e w eu s ea n dc o m p a r eb o t ha f f i n ea n dp e r s p e c t i v ed i s p a r i t y m o d e l si nd i s p a r i t ye s t i m a t i o nm e t h o d s i ni n i t i a le s t i m a t e ，w eu s ep h a s ec o r r e l a t i o n i n s t e a do ft h r e es t e ps e a r c hi no r d e rt oi n s u r et h ea s t r i n g e n c yi ng r a d i e n td e s c e n t w e a l s ou s et h el o w 。p a s se x t r a p o l a t i o nm e t h o du s i n gi nt h ep a d d i n g b a s e do i lt h eg l o b a l d i s p a r i t ye s t i m a t i o n ，w ee n h a n c eal o c a ld i s p a r i t yr e e s t i m a t i o nm e t h o di no r d e rt o i m p r o v et h ev e r a c i t yw h i c hi si m p l e m e n t e db yt h es a dt h r e s h o l dc o m p a r i n gw i t ht h e s a dv a l u eo fe a c hb l o c ki ng l o b a lc o m p e n s a t e dd i f f e r e n t i a li m a g e w ec o m p a r et h e g l o b a ld i s p a r i t ye s t i m a t i o nm e t h o d sw i t hb o t ha f f i n ea n dp e r s p e c t i v em o d e l sw i t h t r a d i t i o n a lp h a s ec o r r e l a t i o ng l o b a ld i s p a r i t ye s t i m a t i o ni ne x p e r i m e n t t h i r d l y , w ep r o p o s e dam u l t i - v i e wc o d i n gs c h e m eb a s e do nw a v e l e tl i f t i n g a b s t r a c t i n c l u d i n gm o t i o nc o m p e n s a t e dt i m ef i l t e r i n ga n dd i s p a r i t yc o m p e n s a t e dv i e wf i l t e r i n g t h ee x p e r i m e n tc o d i n gr e s u l ts h o w st h a tt h eg l o b a lp e r s p e c t i v ed i s p a r i t ye s t i m a t i o ni s m o r ee f f i c i e n tt h a nt h eg l o b a la f f i n ed i s p a r i t ye s t i m a t i o na n dp h a s ec o r r e l a t i o n d i s p a r i t ye s t i m a t i o ni nt h et h e s i s f i n a l l y , w es u m m a r i z e da l lt h er e s e a r c ha n dl o o kf o r w a r dt ot h ew o r ki nf u t u r e k e yw o r d s ：m u l t i - v i e wv i d e o ，d i s p a r i t y , m o t i o ne s t i m a t i o n ，d i s p a r i t ye s t i m a t i o n i i i 学位论文版权使用授权书本人完全了解同济大学关于收集、保存、使用学位论文的规定，同意如下各项内容：按照学校要求提交学位论文的印刷本和电子版本；学校有权保存学位论文的印刷本和电子版，并采用影印、缩印、扫描、数字化或其它手段保存论文；学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务；学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版；在不以赢利为目的的前提下，学校可以适当复制论文的部分或全部内容用于学术活动。学位论文作者签名：山风年弓月i 经指导教师同意，本学位论文属于保密，在年解密后适用本授权书。指导教师签名：学位论文作者签名：年月日年月日同济大学学位论文原创性声明本人郑重声明：所呈交的学位论文，是本人在导师指导下，进行研究工作所取得的成果。除文中已经注明引用的内容外，本学位论文的研究成果不包含任何他人创作的、己公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体，均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。签名：扣乞年日第1 章绪论 1 1 研究背景与选题依据第1 章绪论随着现代通信技术和业务的发展，人们对通信的需求已经由最初的单一语音需求转变为对视频和音频的通信需求，以传送语音、数据、视频为一体的视频通信业务，具有广阔的发展前景【i 】。2 0 世纪9 0 年代以来，制定了一系列音视频编码标准，如h 2 6 3 、h 2 6 4 、m p e g - 4 等。这些标准的应用大大减少了视频数据量，使视频业务得到了飞跃的发展。同时针对人们对视频的不同需求，如多视角视频 ( m u l t i v i e wv i d e o ) 等三维( 3 - d i m e n s i o n ，3 d ) 立体视频技术得到越来越快的发展。多视角视频【2 j 3 删是指可以从多个角度观看的视频。多视角视频由一组平行、会聚相机阵列拍摄得到，不同角度拍摄的视频图像都会被传送到用户终端，用户在观看时可以选择不同的角度观看不同的视频景物图像。多视角视频和一般的二维( 2 - d i m e n s i o n ，2 d ) 平面视频相比，由一个场景的不同视角的2 d 平面视频组成，可以在一个视频流里包括多个视角的码流数据信息，解码出多个视角的视频图像。多视角视频是三维音视频( 3 d i m e n s i o n a la u d i oa n dv i d e o ，3 d a v ) 【5 】【6 j 【7 j 框架下，近年来迅速崛起和快速发展的研究领域。2 0 0 1 年，活动图像专家组( m p e g ) 成立了3 d a v 工作组，其首要任务就是定义3 d 音视频领域的范围和应用场景，并为其中的关键技术制定标准。3 d a v 的研究对多视角视频技术的发展起到了很大的推动作用，而3 d a v 工作组的研究重点也集中在多视角视频编码( m u l t i v i e w v i d e oc o d i n g ，m v c ) 标准上。m v c 技术已被广泛应用到自由视点视频( f w ) 、自由视点电视( f t v ) 、三维电视( 3 d t v ) 、三维视频( 3 d v i d e o ) 等实际应用中去，具有很强的实际应用价值p j 。在m v c 中，多视角视频的数据量随着相机数目的增加而成倍的增加【s j ，要实现海量数据的有效压缩并与用户保持实时的交互操作，必将给多视角视频系统的数据处理、存储和网络传输能力带来巨大的考验。这就要求在保证视频质量的同时，必须提高其压缩和编码效率。改进和提高运动和视差估计与编码的效率成为关键问题之一引。目前被广泛应用的运动估计方法主要针对2 d 视频，而m v c 作为3 d 立体编码标准，现有的运动估计方法不足以达到期望的压缩效率，同时无法适应视差信息量增大、视差控制范围增加以及相机参数变化等因素对视差估计与编码的影响，所以必须改进运动和视差估计算法。第1 章绪论同时，针对3 d 立体视频编码的特点，m v c 在h 2 6 4 a v c 视频编码的特点上采用了诸多新的编码方法，以保证编码的效率和适用性跚9 1 。本课题正是依据m v c 发展的现状，针对其运动和视差估计算法与编码进行研究。 1 2 国内外研究现状 2 0 0 3 年3 月i t u t 的视频编码专家组( v c e g ) 及i s o i e c 的m p e g 组成的联合视频专家组( j v t ) 公布了h 2 6 4 a v c 压缩视频标准的最终草案，此标准被称为i t u - t 的h 2 6 4 协议或i s o i e c 的m p e g - 4 的高级视频编码部分【1 0 】。继m p e g 4 、 h 2 6 4 a v c 的成功工作之后，j v t 起草了包括可伸缩视频编码( s v c ) 、3 d a v 等新的标准部分以及对以前标准的修订和扩展。其中，作为m p e g - 4 的第十部分，正在开发的标准包括m v c 。在m p e g 法国会议上，m v c 已经进入c f p 阶段【l l 】。2 0 0 6 年1 月，m p e g 泰国会议上关于m v c 的讨论提案多达8 项。j v t 预计于2 0 0 8 年初完成m v c 标准的制定，将正式作为h 2 6 4 的一个增强部分得到广泛的应用。目前，多视角视频的研究集中在多视角视频的采集与校准、场景深度及几何信息获取、m v c 、多视角视频通信、新视图渲染以及最终的交互式立体显示等六大关键方向上【5 儿6 1 。其中，m v c 主要围绕如何提高压缩效率以及随机读取能力进行研究，而这些研究又可从两个主要方面来分类，一是预测工具；二是预测结构。预测工具指的是多路码流视角之间的空间预测手段，包括亮度补偿，运动和视差估计( 补偿) ，2 d 直接预测模示，视角插值。其中，运动和视差估计方法是本文重点研究的内容【4 】。现有的运动估计方法【1 2 】主要适用于2 d 空间估计。这些运动估计方法主要分象素递归法和块匹配法两大类。象素递归法精度最高，获得的图像质量好，但计算复杂度高，在实际应用中较少。块匹配法精度虽然低一些，但算法简单、有效，在h 2 6 4 和m p e g 等标准中广泛被采用。 m v c 作为3 d 视频编码标准，运动估计和视差估计是其核心部分，但现有的运动估计方法不足于达到期望的压缩效率。此外，3 d 空间中通常用视差估计描述一个物体的运动，视差估计比运动估计算法更加复杂。所以必须改进运动和视差估计算法以适应m v c 要求。目前在m v c 中，已经提出了许多基于块的运动和视差估计方法 1 3 】。其中，较早提出且较成熟的视差估计算法是固定尺寸的块匹配算法【l4 1 。该算法简单，易实现，但块大小难确定。若采用较小尺寸的块，不能很好利用图像中的视差平 2 第1 章绪论滑区，从而明显增加视差编码开销。若采用较大尺寸的块，当其落在视差突变区时，会产生误匹配。此外，不易产生较平滑、精确的视差场，而平滑、精确的视差场是进行虚拟视角图像合成的关键。在传统的块匹配算法基础上，已提出了一系列改进的视差算法。如基于分级块匹配的视差估值算法【l 5 】【l6 】较好的克服了固定块尺寸匹配的缺陷，它不仅能降低计算负荷，而且能根据图像中的视差信息，自适应地产生可变尺寸块，但没有充分利用视差矢量的特性，缺少有效的视差矢量准确性评价。自适应块匹配算法【1 7 】【1 8 1 建立了匹配窗口中视差分布的数学模型，利用对应块和相邻块的亮度和视差信息对将要进行的视差估计的准确性给予预测，算法中给视差估计的可靠性建立了复杂的数学模型，但不适合在编码系统中使用。混合二步视差估计方法和基于最小冗余预测的快速视差方法【2 0 】应用于多视角视频系统时编码效率无法满足要求。针对多视角视频中摄像机运动才造成了在图像序列中的背景产生全局视差矢量的特点，并考虑到全局运动和视差估计方法的快速性，全局视差估计方法目前被广泛采用。全局运动估计方法可划分为两类：一是直接基于象素的方法；二是先确定象素级或块级的运动矢量，然后利用回归法求取全局运动模型。其中，改进的基于梯度的运动估计方法【2 l 】使全局运动估计计算量减少约2 0 倍。基于背景提取的方法【2 2 】有效的提高了全局运动估计精度和速度。采用l e v e n b e r g - m a r q u a d e t 方法的全局运动估计算法 2 3 1 用残差直方图法去除噪声，算法计算量大，而且计算结果对噪声敏感，很难做到实时。多分辨率仿射模型参数估计的方法【2 4 】提高了计算速度，但算法对噪声敏感，不能保证计算结果的准确性。高效鲁棒快速全局运动估计方法【2 6 】提出了基于梯度下降的估计方法，具有较强的鲁棒性和快速性，但需要提高局部视差估计。总之，运动和视差估计的高效与否关系着整个视频压缩效率，以及最终的视频质量和精度。在有效的改进运动和视差估计方法的同时，如何有效的进行编码也十分重要。实现m v c 既可以基于传统混合编码框架( 如h 2 6 4 ) ，也可基于小波编码以及分布式编码等新一代视频编码工具。目前立体视频压缩编码方法主要分为三大类：一是基于m p e g 2 的编码方法；二是基于区域和物体的编码方法；三是基于小波的编码方法【2 ”。基于m p e g 2 的编码方澍2 8 】是对传统的m p e g 2 视频编码方法的直接扩展，该方法能够使用m p e g 2 时域分级模式完成，但基于块的编码方法限制了它的压缩效率，进行低码率编码时会出现块效应。基于区域和物体的编码方法【2 9 】可 3 第1 章绪论以提供对景物更加自然的描述，但其计算复杂，鲁棒性较差，不能有效的对复杂场景进行编码。基于小波的编码方法1 3 0 l 3 1 】【3 2 】【3 3 1 具有优良的性能，被广泛应用于视频中。本文也是利用小波编码方法。 1 3 论文章节安排。本文针对多视角视频的特点，对现有的传统算法进行分析，提出了改进的运动和视差估计方法并进行编码。论文的结构组织如下：第一章绪论阐述了多视角视频编码技术发展的历程和现状，提出了改进多视角视频中运动和视差估计方法以及提高编码效率的重要性，最后介绍了本文的主要研究工作和结构安排。第二章首先介绍了多视角视频的基本原理和特点以及运动和视差估计的区别，其次分析了运动和视差的特性，最后介绍了小波变换原理。第三章介绍了传统的基于块匹配的运动和视差估计算法和相位相关全局运动和视差方法，通过分析找出了传统算法在多视角视频应用中的不足。针对不足，提出了改进方案并进行分析。第四章提出了一种改进的全局透视视差估计算法，针对多视角视频的特点运用了透视视差模式、相位相关初始变换和低通外插等方法，并使用了局部视差重估计算法，通过仿真试验分析和比较了其性能。第五章提出了多视角视频编码器结构，其中运用了运动补偿时间滤波、视差补偿视角滤波等方法。通过仿真试验，将采用透视和仿射模式的全局视差估计方法与传统的相位相关视差估计方法相比较，分析仿真结果。最后，第六章是对全文的总结和展望。 4 第2 章多视角视频介绍与编码基础第2 章多视角视频介绍与编码基础本文通过分析多视角视频特点，介绍了多视角视频中运动和视差估计与编码的要求。详细阐述了视差等概念，并分析和比较了运动和视差的特点和区别。最后介绍了小波变换原理和提升小波机制。 2 1 多视角视频简介 2 1 1 基本概念多视角视频【2 】【3 】【4 】【5 】是一种新型的具有立体感知和交互操作功能的视频技术，它由一组平行、会聚相机阵列拍摄得到的视频信号组成，能提供拍摄场景不同角度的视频信息。利用其中的一个或多个视角信息可以合成任意视角的信息，达到自由切换任意视点的目的。通过多个视角的视频数据满足用户从多个角度选择和操作视听对象，提供了场景漫游的交互能力。、_ 日n i 1 蕊籀溺嘲 z ：、已d * 2 嘲 i 瞥猷缨警影 i v l u l 石一v i e w i：。s t 哲神碍“叭。、，i d e o z i 一7 一州日儿0 他7 d e c o d e r 争三；懑一圈 m u l t i 一埘e w v i d e o e n c o d e r 阚：鞫蹈黪 j ： f u l 匦1 i e ，v 卜。f t 。一一l i-： ji 嘲日n - 3 d t v 图2 1 多视角视频应用系统如图2 1 所示，是一个多视角视频应用系统【3 1 。在该系统中，由多个视角拍摄的视频流被传送到编码器端，由编码器端一起编码，并输出一道码流经传输通道送往用户终端。当用户需要切换到某视角时，解码端则选择该视角的视频帧解码，从而实现场景角度的切换。第2 章多视角视频介绍与编码基础多视角视频是具有强烈立体感和深度感的立体视频，或者是具备高效交互能力的多视角视频。多视角视频与单目视频相比，增加了景物深度、信息表征，在电视、自动导航、虚拟现实等领域有着广泛的应用前景，目前已被广泛应用于立体视频、高清电视、三维电视、远程医疗等。研究结果表明，m v c 以h 2 6 4 a v c 技术为基础，在保持兼容的基础上，解决各摄像机所得到的图像问的冗余问题，包括各视频间的参考问题，各视频间摄像机参数不一致的差异问题，以及各视频的随机切换问题p j 。 2 1 2 视频特点与编码要求如图2 2 所示为多视角视频图像序列的结构图，沿时间轴方向的每- y 0 图像为台摄像机所摄入的连续视频图像序列，而沿视角方向的每一行图像为处在不同视角位置的摄像机在同一时刻所摄入的图像序列【3 4 1 。 v i e w 田田田田田田 - 田田田图2 2 多视角视频图像序列结构由于视频图像的各象素数据之间存在着极强的相关性，也就是说有大量的冗余信息。其中冗余信息可分为空域冗余信息和时域冗余信息。利用这些相关性，可以用一部分象素数据推导出另一部分象素的数据，数据的象素量就能被极大的压缩，有利于传输和储存【35 1 。视频图像在水平和垂直方向相邻象素之间的变化一般都很小，存在着极强的空问相关性，从而产生了空间冗余，称为帧内相关性或空间相关性。在相邻场或帧的对应像素之间，当前帧往往与前、后两帧具有相同的背景和移动物体，只不过移动物体所在的空间位置略有不同，但大多数像素的亮度和色度信息是基本相同的，称为帧问相关性或时间相关性p 5 1 。多视角视频对同一场景从不同角度摄入，各个视角视频中的场景只是角度不 6 第2 章多视角视频介绍与编码基础同，少部分覆盖区域不同，有的物体仅仅是光线的差异，各个视角间存在着极强的相关性，称为视角相关性。视角相关性是多视角视频序列的重要特性，它与相机阵列形式、相机间距、相机和拍摄对象间距离存在极大的关系，直接反映在同一时刻相邻视点两幅图像的视差上【3 5 】。要想对多视角视频进行高效压缩编码，就是要最大程度的取出多视角视频的帧内相关性、帧间相关性和视角相关性。最初的多视角视频编码是通道独立的编码，没有考虑到视角间的相关性。通过对现有传统单通道视频编码的扩展，在编码时考虑到视角相关性，并同时对多路视频进行编码，效益远远高于各通道独立编码。 2 1 3 运动和视差估计要求运动估计是一种帧间编码的方法，利用帧间时间相关性减少时间冗余。运动补偿以运动估计为基础，用有限的参数来对帧间的运动加以描述。高效率的运动估计和补偿方法可以有效的提高视频压缩效率，保证视频质量和精度，是视频压缩技术的核心【1 2 1 。在多视角视频中，空间景物于同一时刻在两摄相机的成像平面上形成的两个图像称为视差图像对。左右两幅图像坐标间的位移矢量称为视差矢量。在立体图像对中搜索匹配点的过程称为视差估计1 3 6 1 。视差估计是立体视频编码中一项关键的技术，3 d 空间中通常用视差估计描述一个物体的运动。视差估计与运动估计相似，都是为了寻找两幅图像之问的相关性。运动估计是寻找两幅图像之间的时域相关性，而视差估计是寻找立体图像对之间的空域相关性p 6 j 。视差估计与运动估计相比，算法更加复杂，有诸多不同： ( 1 ) 对于多视角视频图像，由于是处于同一平面的多摄像机同时摄入，几乎所有像素的视差均非零，视差估计时需要处理的信息量巨大，如何提高算法的运算速率成为需要解决的一个难题。 ( 2 ) 在以往的运动估计算法中，运动矢量的范围通常受到限制。而在多视角视频中，越靠近摄像机的物体视差矢量越大，处理起来难度越高，如何有效的控制视差范围是视差估计中需要解决的另难题。 ( 3 ) 如果简单的使用运动估计方法对视差进行估计，由于视差场极大，所以必须扩大搜索范围，不可避免的会增加搜索难度，降低估计精度【37 1 。如何有效的利用视差场的规律，减小搜索范围也是一个难题。第2 章多视角视频介绍与编码基础 2 2 运动和视差 2 2 1 视差通常来说j 视差就是从有一定距离的两个点上观察同一个目标所产生的方向差异。在多视角视频中，视差是对视角轴上运动的名称定义。相机1相机2相机3 图2 3 三摄像机摄入物体图 c 3a 3ob 2 a l e l 1一rrrrrr b 3 a 2 c 2b l 图2 4 物体在三台摄像机中的位置图2 3 为三台摄像机摄入物体图，其中a 、b 、c 分别为目标物体上的三点，相机1 、2 、3 分别为同一水平线上平行放置的三台摄像机。如图2 。4 所示，么、 b 、c 三点在相机1 中的位置分别为i 口1 j 、l b l i 、i c l i ，在相机2 中的位置分别为i 口2 i 、 i b 2 l 、l c 2 l ，在相机3 中的位置分别为i 口3 i 、l b 3 i 、i c 3 i ，则4 、b 、c 三点在相机 l 、3 中的视差分别为： d 墨- - l a l l + l a 3 l 雄= l b l l + l b 3 i d 三- - l o l l + i t 3 l a l l - l a 2 f b l l - l b 2 i c l i i c 2 i ii 同理，在相机2 、3 中的视差分别为：呓= a 2 + a 3 醒= l b 2 i + l b 3 l d 丢= 1 c 2 1 + c 3 i ( 2 1 ) ( 2 2 ) ( 2 3 ) 一坦占坦c坦彪：，jl 为别分差视的中 2 机相在第2 章多视角视频介绍与编码基础 2 2 2 运动和视差特性如图2 5 所示，以左右放置在同一水平线上的两部摄相机同步摄取得到的视频为例，分析运动矢量场和视差矢量场的特点。视频r a c e l 一0 、r a c e l 一1 分别为标准多视角视频序列r a c e l 中第一、二台摄像机拍摄的视频。图2 5 ( a ) 、图 2 5 ( b ) 分别为r a c e l 一0 、r a c e l 一1 的第1 0 0 帧。图2 5 ( c ) 、图2 5 ( d ) 分别为 r a c e l 一0 、r a c e l j 的第1 0 1 帧。 ( a ) r a c e l0 第1 0 0 , p 贞( b ) r a c e ll 第1 0 0 , n ( c ) r a c e l0 第1 0 1 帧( d ) r a c e l1 第1 0 1 , 帧图2 5r a c e l o 署 r a c e l 一1 中第1 0 0 币 1 1 0 1 帧图像可以从四幅图像之问的差图来区别运动和视差的不同，图2 6 ( a ) 为 r a c e l0 的第1 0 0 和10 1 帧的差图，图2 6 ( b ) 为r a c e ll 的第1 0 0 和1 0 1 帧的差图。除去前景赛车和亮度变化较大的赛道内侧，整个背景运动变化较小。而图 2 6 ( c ) 为r a c e l0 、r a c e l1 第1 0 0 帧的差图，图2 6 ( d ) 为r a c e l 0 、r a c e l1 第1 0 1 帧的差图，包括前景赛车和赛道内侧在内，整幅差图中的视差变化十分剧烈，这就是由摄像机的位置不同造成的。运动差图中，对于时间相邻两帧图像，仅有少数象素发生了运动，多数象素第2 章多视角视频介绍与编码基础一鬻 r a c e l1 中第1 0 0 帧和1 0 1 帧筹图 ( c ) r a c e l0 和r a c e l1 第1 0 0 帧差图( d ) r a c e l0 和r a c e ll 第l o lj p f f 著图图2 6 运动和视差差图比较的位置并没有变化，对于位置不变的象素来说，其运动不变。视差差图中，时间相同的视差图像对之间，绝大多数的视差均非零。通过以上对运动和视差差图的分析，可以得到关于视差的特性【3 6 】： ( 1 ) 相似性：视差图像对中的一对对应点及其领域有相似的亮度和相近的特征。 ( 2 ) 唯一性：视差图像对中一副图像的一个点仅对应于另一副图像中的一个点。因为物体上的一个点仅投影到每个图像的一个点上，即匹配是一一映射，而非多对一的映射。 ( 3 ) 连续性：由于物体表面一般是光滑的，因而它们的视差一般也是光滑的，在物体边界处的深度间断的地方可能除外。这也是多视角视频视差图像最重要的特性之一。此外，沿物体边界的视差偏差一般也是连续变化的。 ( 4 ) 有序性：即图像象素在两幅图像中的排列次序是相同的，视差也是有序额，除非出现诸如遮挡等特殊情况。 ( 5 ) 形状连续性：图像中沿物体边界的视差偏差也是连续变化的。 1 0 第2 章多视角视频介绍与编码基础 2 3 小波分析 2 3 1 小波变换原理小波变换3 5 】【3 8 1 的基本思想是利用一个由同一个函数伸缩、平移产生一组正交基。设( 工) 为一平方可积函数，即y ( 石) l z ( 尺) ，且满足条件： i ( 工) 出= 0 。 ( 2 4 ) j ；妙( 国) 是少( 石) 的傅立叶变换，则上述条件等效于：解砌锄亿5 ，则y ( x ) 为一个基本小波或小波基函数，式2 5 称为小波函数的可容许性条件。经过伸缩，平移，得到一组函数： y 。，a ( 工) = i i 一；i f ，( x - _ 口c b ) 口，6 r ，n o ( 2 2 称。( x ) 为依赖于参数口、b 的小波函数，简称小波。其中，口为尺度伸缩因子， b 为时( 空) 伸缩位移因子，l 口| - _ 用做能量的归一化。小波变换就是信号在小波基上的分解。函数f ( x ) l z ( r ) 的连续小波变换的定义为： ( 口，6 ) = ，厂( x ) ，。( 工) 出= ( 2 7 ) 在数字信号分析中，需要对小波进行离散化，一种方式是对尺度参数( 口，b ) 进行指数采样，令： a = 口；，b = k a j b 0 ( i ，k z ；a o l ， 0 ) ( 2 8 ) 由式( 2 7 ) 和式( 2 8 ) 可得： l y d 6 ( 缈) = j 口嘲6g ( a c o ) ( 2 9 ) 设y 的中心是( o 翘) ，时频宽度分另j j 是y 及多，则的中心郴，哥) ，时域宽度为虬，一= i 口| 妙，频域宽度为多如= 南多。可知，时域宽度随j 口i 一1 增大而缩小，频域宽度随川。1 增大而增大， l g a 。的中心方向向h 增大的方向移动。小波变换中高频段的时间分辨率高，低频部分频率分辨率高。在图像信息应第2 章多视角视频介绍与编码基础用中，表征图像细节、边缘的高频成分具有分辨率高、能获得精确边缘定位特性。信号的低频部分反映出图像的背景轮廓，信号的空( 时) 域分辨率要求较低，而要求具有较精确的频域分辨率p 5 。 a 、b 是频域和空( 时) 域的局部化参数。对于l a i ， 0 ) 小波被压缩，频率成分主要位于高频区域，频响宽度宽，同时时间位移步进很小，这意味着对信号细节的观察。反之，若i a i 变大，小波膨胀，低频部分占主导，频响宽度窄，时间位移步进大，这表示信号大范围的观裂”j 。小波变换的主要算法则是由法国的科学家s t e p h a n em a l l a t 在1 9 8 8 年提出，叫做m a l l a t 算法。该算法统一了在此之前构造正交小波基的所有方法，被称为第一代小波。s w e l d e n s 等提出了基于提升方案的小波变换，也称为第二代小波变换。小波提升方案可以实现所有的第一代小波变换，复杂度只有原来卷积方法的一半左右，不需要额外的存储空间，而且易于可逆变换，因而成为计算离散小波变换的主流方法。有关小波的提升方案将在2 3 2 节详细阐述。小波分析的主要思想是选择合适的小波基函数y ( x ) ，然后由小波基函数生成小波函数族，再用小波函数族对信号进行分析。常见的小波基有h a a r j 下交小波基、m e y e r 正交小波基、墨西哥草帽小波基等。 2 3 2 提升小波机制提升小波方案通常将小波变换过程分为分解( s p l i t ) 、预测( p r e d i c t ) 署1 更新 ( u p d a t e ) 三个阶段【3 5 】【3 9 】，如图2 7 所示。 i - 一s p i t + e a i c t 一叩a a t e 一图2 7 提升小波机制图分解过程将数据集合s 分解为两个互不相交小的子集是。和是，一般根据数据集合的某种相关性来分解，在视频处理中一般分为奇数帧和偶数帧，即：峥2 溯( _ ( 2 1 0 ) 【是川2 0 d d ( s j ) 第2 章多视角视频介绍与编码基础预测过程中引入一个预测算子p ( z ) ，由于信号存在局部相关性，某一点的信号值可以通过其相邻的信号的值通过适当的预测算子预测出来，预测出来的误差就是高频的信息。预测算子p ( z ) 预测过程的表达式为： d k5 s 2 k + l - - r o u n d p ( s 2 j 1 焉与 q 1 1 ) 其中，r o u n d x 】是对x 四舍五入取整。如果预测合理，那么差值包含的信息比原来所包含的大为减少。经过分解和预测两个过程，可以用较小的数据序列来代替原始数据。对这两个过程进行周期重复，可以得到比原始序列更为紧凑的表示。更新过程引入更新算子u ( z ) ，通过对是。作预测以生成更好的子数据集，并保持s ，的一些特性。更新算子u ( z ) 更新过程的表达式为：吼= 屯+ r o u n d u ( d t ) 】 ( 2 1 2 ) 因此，预测滤波器和更新滤波器分别为： p ( 是。) = 置是。 ( 2 1 3 ) k u ( d k ) = d k + 。 ( 2 1 4 ) k 提升方法步骤可以通过厶的迭代来重复，从而创建多分辨分解的多级变换。其重构过程是分解的逆过程。凡是凡重构数据集合。提升方案将小波滤波器过程分解成简单的基本步骤，且分解的每一步都可逆。小波提升的核心是更新算子和预测算子，通过预测算子可以分离出高频信息，而通过更新算子可以得到正确的低频信息。提升方案可以实现原位计算和整数提升，并且变换的中间结果是交织排列的【3 引。 2 4 本章小结本章首先介绍了多视角视频的基本概念和特点，以及编码和运动及视差估计的要求，其次分析和比较了视差和运动在多视角视频中的特性，最后介绍y 4 , 波变换原理及提升小波机制。通过本章对运动和视差估计以及编码基本的介绍，为后面章节做出了理论铺垫。第3 章运动和视差估计方法分析与改进第3 章运动和视差估计方法分析与改进多视角视频的视差具有唯一性、连续性、有序性等特性，可以通过现有的运动估计算法并结合视差的特性，提出适用于多视角视频特点的视差估计算法。本章首先介绍了传统的基于块匹配和相位相关的运动估计方法，并对运动和视差矢量场与补偿进行了分析，指出了传统方法的不足。最后，对传统方法中的搜索窗口和峰值选择做出改进以适应视差特点，并进行仿真分析。 3 1 现有的运动和视差估计算法 3 1 1 基于块匹配的估计算法传统的块匹配运动估计算法可将活动图像分为若干块或宏块，对当前帧中的每一分块根据一定的匹配准则在参考帧某一给定搜索范围内找出与当前块最相似的块，即匹配块。再由匹配块与当前块的相对位置计算出空间位置的相对偏移量，所得偏移量即为当前块的运动矢量【1 2 】。传统的块匹配视差估计算法与块匹配运动估计算法原理相似，首先将一对视差图像对中的右图像分块，然后对每一块在左图像中用匹配算法做匹配，找出最优的匹配位置，计算对应块之间的位置差异，形成块的视差矢量。块匹配运动和视差估计算法的基本思想都是依据一定的匹配准则，通过在两帧之间的象素域利用搜索程序找到最佳的运动或视差矢量估计【训。以块匹配运动估计方法为例，如图3 1 所示，其中第k 帧( 当前帧) 中m x n 像素块( 中心位置在( j c n ，) ) 的位移就是通过搜索第k l 帧中同样大小的最佳匹配块来确定。搜索范围为( m + 2 m ，+ 2 n ) ，其中m 和刀可根据具体的要求来确定。；g k 1 柏图3 1 块匹配运动估计原理图 1 4 第3 章运动和视差估计方法分析与改进在块匹配方法中，衡量匹配好坏的准则可用绝对误差s a d 表示： mn s a d ( i ，) = i 以( 聊，n ) - a 一。( 聊+ f ，以+ 洲 ( 3 1 ) m = ln = l 式中，五和丘一。分别表示当前帧和参考帧，m xn 为块大小，( f ，) 为位移矢量。匹配准则对运动估计的精度影响不大，s a d 不含乘除法，便于计算，因而使用最为广泛。在块匹配方法中，分别求出当前块和其相邻块间的s a d 值，然后选取s a d 值最小的块的运动矢量作为预测值i 删。基于块匹配的视差估计算法同样采用此匹配原理，所不同的是采用两个视频流中的同一时刻的第k 帧进行视差估计。在块匹配运动和视差估计方法中，划分块的大小对计算量和视差

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（信号与信息处理专业论文）多视角视频运动和视差估计与编码的研究.pdf

文档简介

温馨提示

最新文档

评论

（信号与信息处理专业论文）多视角视频运动和视差估计与编码的研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档