(计算机应用技术专业论文)立体视频整帧丢失差错掩盖技术研究.pdf_第1页
(计算机应用技术专业论文)立体视频整帧丢失差错掩盖技术研究.pdf_第2页
(计算机应用技术专业论文)立体视频整帧丢失差错掩盖技术研究.pdf_第3页
(计算机应用技术专业论文)立体视频整帧丢失差错掩盖技术研究.pdf_第4页
(计算机应用技术专业论文)立体视频整帧丢失差错掩盖技术研究.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(计算机应用技术专业论文)立体视频整帧丢失差错掩盖技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南交通大学硕士研究生学位论文第1 页 摘要 立体视频编码与传输是当前视频信号处理领域一个重要的研究方向。而 目前大多数的有线、无线通信网络均不能提供可靠的服务质量保证,立体视 频流在传输过程中,不可避免地会有误码或丢包现象发生。因此,立体视频 差错掩盖算法也成为当前立体视频技术研究中的一项重要内容。 本文的工作即是以最新的基于h 2 6 4 a v c 扩展的多视点编码标准 j v tm v c 为平台,对立体视频右通道整帧丢失的差错掩盖技术进行了研究。 首先,通过对j v tm v c 测试模型j m v m 中码流结构的分析,在j v t m v c 测试模型j m v m 6 中实现了适用于j v ,rm v c 码流的差错检测方法,为 差错掩盖算法的研究打下基础。 其次,在j m v m 6 上实现了现有的一种基于时域相关性的右通道整帧丢 失差错掩盖算法。通过分析该算法的优缺点,实现了一种改进的基于时域相 关性的差错掩盖方法。实验结果表明,与原算法相比,对于运动较平缓的立 体视频序列,改进算法恢复图像的平均p s n r 提高了0 1 9 - - 一2 9 6 d b 。 最后,结合已有的立体视频编码方案对左右通道视点间的相关性进行分 析,通过改进现有的单视点粗糙颗粒度质量分级( c g s ) 增强层的差错掩盖 算法,提出了种基于视点间相关性的立体视频右通道整帧丢失的差错掩盖 算法:运动跳跃( m o t i o ns k i p ,m s k i p ) 差错掩盖算法。实验结果表明,对 于全局视差较小的立体视频序列,m s k i p 算法与现有的基于时域相关算法相 比,p s n r 提高了0 3 5 3 2 3 d b ;与j m v m 中的t d 算法相比,p s n r 提高 了0 2 4 - - 一6 4 5 d b 。 关键词:立体视频编码;m v c ;整帧丢失;差错掩盖;时域相关性;视点间 相关性 西南交通大学硕士研究生学位论文第1 i 页 a b s t r a c t s t e r e s c o p i cv i d e oc o d i n ga n dt r a n s m i s s i o ni sa ni m p o r t a n ts t u d yi nt h ef i e l d o fv i d e os i g n a lp r o c e s s i n g c u r r e n t l y , t h em o s tw i r e da n dw i r e l e s sn e t w o r k sc a l l t p r o v i d eq o sg u a r a n t e e ,s ot h ee r r o ra n dl o s so fv i d e od a t aa r ei n e v i t a b l ed u r i n g s t e r e s c o p i cv i d e os t r e a mt a n s m i s s i o n s o ,t h es t u d yo fs t e r e s c o p i cv i d e oe r r o r c o n c e a l m e n ta l g o r i t h mh a sb e c o m em o r ei m p o r t a n ti n t h e s t e r e s c o p i cv i d e o p r o c e s s i n g t e c h n i q u e si n v e s t i g a t i o n t h ee r r o rc o n c e a l m e n tt e c h n i q u e sf o re n t i r er i g h tf r a m el o s si ns t e r e s c o p i c v i d e oa x er e s e a r c h e di nt h i sd i s s e r t a t i o n t h er e s e a r c hi sb a s e do nt h en e w e s t m u l t i v i e w v i d e o c o d i n gs t a n d a r d ( j v tm v c ) w h i c hi s a ne x t e n s i o no f h 2 6 4 a v c f i r s t ,a ne r r o rd e t e c t i o nm e a s u r ei si m p l e m e n t e di nt h ej v tm v cr e f e r e n c e s o f t w a r ej m v m 6 b yt h ea n a l y s i so fb i ts t r e a ms t r u c t u r ei nt h ej m v m ,w h i c hl a y s ag o o df o u n d a t i o nf o rt h es t u d yo fe r r o rc o n c e a l m e n ta l g o r i t h m s s e c o n d ,a ne x i s t i n ge r r o rc o n c e a l m e n ta l g o r i t h md e a l i n gw i t ht h el o s so f e n t i r er i g h tf r a m ei si m p l e m e n t e di nj m v m 6 ,t h ee x i s t i n ga l g o r i t h mi sb a s e do n t e m p o r a lr e l a t i v i t y a c c o r d i n gt ot h ea n a l y s i so ft h ee x i s t i n ga l g o r i t h m ,ar e f i n e d e r r o rc o n c e a l m e n ta l g o r i t h mb a s e do nt h et e m p o r a lr e l a t i v i t yi si m p l e m e n t e di n t h i sp a p e r t h ee x p e r i m e n tr e s u l t ss h o wt h a tt h er e f i n e da l g o r i t h mc a na c h i e v e 0 2 2 7 9 d ba v e r a g ep s n rg a i n sf o rr e c o v e r e di m a g e sc o m p a r e dw i t ht h e o r i g i n a la l g o r i t h mf o rt h eg e n t l es t e r e s c o p i cv i d e os e q u e n c e s f i n a l y , t h i sp a p e ra n a l y z e st h er e l a t i v i t yb e t w e e nt h et w ov i e w sa c c o r d i n gt o t h ee x i s t i n gc o d i n gs c h e m eo fs t e r e o s c o p i cv i d e os e q u e n c e ,t h e np r o p o s e sa n e r r o rc o n c e a l m e n ta l g o r i t h mb a s e do nt h ei n t e r - v i e wr e l a t i v i t yf o rt h ee n t i r er i g h t f r a m el o s s :m s k i pw h i c hi sd e r i v e db yi m p r o v i n gt h ee x i s t i n ge r r o rc o n c e a l m e n t a l g o r i t h mf o rc o a r s eg r a n u l a rs n r ( q u a l i t y ) s c a l a b i l i t y ( c g s ) e n h a n c e m e n t l a y e ri nm o n o c u l a rv i d e o s i m u l a t i o nr e s u l t ss h o wt h a t ,f o rt h es t e r e s c o p i cv i d e o s e q u e n c e sw h i c hh a v es m a l lg l o b a ld i s p a r i t y , t h em s k i pa l g o r i t h mc a na c h i e v e 0 3 5 - - 3 2 3 d ba v e r a g ep s n rg a i n sc o m p a r e dw i t ht h ee x i s t i n ga l g o r i t h mb a s e d o nt e m p o r a lr e l a t i v i t ya n d0 2 4 - 6 4 5 d ba v e r a g ep s n r g a i n sc o m p a r e dw i t ht d a l g o r i t h mi nj m v m 西南交通大学硕士研究生学位论文第川页 k e yw o r d s :s t e r e s c o p i cv i d e oc o d i n g ,m v c ,e n t i r ef r a m el o s t ,e r r o rc o n c e a l m e n t , t e m p o r a lr e l a t i v i t y , i n t e r v i e wr e l a t i v i t y 西南交通大学学位论文创新性声明 本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究 工作所得的成果。除文中已经注明引用的内容外,本论文不包含任何其 它个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的 个人和集体,均已在文中作了明确的说明。本人完全意识到本声明的法 律结果由本人承担。 本学位论文的主要创新点如下: 结合已有的立体视频编码方案对左右通道视点问的相关性进行分 析,通过改进现有的单视点粗糙颗粒度质量分级( c g s ) 增强层的差错 掩盖算法,提出了一种基于视点间相关性的立体视频右通道整帧丢失的 差错掩盖算法:运动跳跃( m o t i o ns k i p ,m s k i p ) 差错掩盖算法。 学位论文作者签名:焚l 目苟象 日期:讼严5 月刁日 西南交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学 校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查 阅和借阅。本人授权西南交通大学可以将本论文的全部或部分内容编入有关 数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位 论文。 本学位论文属于 1 保密口,在年解密后适用本授权书; 不保密彤使用本授权书。 ( 请在以上方框内打“v ”) 莘位论文作者签名:蘖阖杯指导老师签名: 日期:啄f7 日期: 0 1 谚f 乙妙 西南交通大学硕士研究生学位论文第1 页 第1 章绪论 1 1 课题研究背景与意义 随着多媒体技术和通信技术的飞速发展,基于传统二维平面视频的视频会 议、可视电话、视频广播、高清数字电视等已经得到了广泛的应用。然而,随 着人们对数字视频的要求日益提高,普通视频图像已无法满足人们的要求。视 频点播时,普通图像无法提供一种“身临其境”的感觉;网上购物时,普通图 像不能提供有立体感的物品描述;网上诊疗时,普通图像也无法提供医生所需 的多视角的、有深度信息的图像数据。所有这些问题的解决都需要一种全新的 场景描述方法来代替传统的二维视频图像。相比之下,增加了景物的深度信息, 增强了视觉的现实感和逼真感的立体视频越来越受到人们的欢迎。另外,立体 视频技术在工业控制、远程教育、远程医疗会诊和手术、数字电视、视频会议 等领域都有广阔的应用前景。因此,立体视频技术已成为视频技术研究中的一 个活跃领域,其研究方向主要包括:立体视频提取技术、立体视频的显示技术 以及立体视频的编码压缩技术等。 立体视频是利用人眼的双目视差原理,双目各自独立接收来自同一场景特 定摄像点的左右图像,形成双目视差,在大脑得到图像的深度信息,使欣赏到 的图像具有深度感和逼真感1 1 j 。和传统的单通道视频相比,立体视频要处理至 少翻一倍的数据量,所以必须采用更高效的数据压缩编码技术,才能对立体视 频数据进行有效的存储和传输。随着立体视频显示技术的日益成熟,立体视频 的编码压缩技术越来越受到人们的关注。目前,h 2 6 4 a v c 2 3 】作为新一代的视 频编码标准,编码效率有了很大的提高,与h 2 6 3 + 或m p e g 4 相比,在保证相 同视频质量的前提下,能节省5 0 左右的码率【4 j 。于是,继h 2 6 4 j 觚,c 制定成 功后,联合视频专家组j v t 继续在其之上开展立体视频及多视点视频【硒j 编码 技术的制定工作,目的是在h 2 6 戳a v c 基础上提供完整的立体视频编码、多视 点视频编码( m v c ) 以及可分级多视点编码( s c a l a b l em v c ) 工具,并准备将 其纳入到h 2 6 4 a v c 标准的扩展中,在2 0 0 6 年4 月公布了第一个测试模型版 本j o i n tm u l t i v i e wv i d e om o d e l ( j m v m ) i 0 1 7 j 。在j m v m 中,每一个视点采用 了分级b 帧的思想,同时为了便于视点间的预测,在视点之间也采用了分级结 构。j m v m 的公布为基于h 2 6 4 的立体视频、多视点视频编码技术的研究提供 西南交通大学硕士研究生学位论文第2 页 了一个良好平台,同时也为可分级多视点编码技术的研究打下了基础。 压缩的视频流由于在源编码器中采用了预测编码和可变长编码( v l c ) , 对传输的错误特别敏感。不可靠的有线无线信道在传输比特流中引入的随机 误码、网络阻塞引起的数据丢失以及多径传播导致的突发误码等,都有可能导 致传输中的视频流产生差错和损失。而传输中压缩视频流,一旦出现了差错, 差错信息将在空间和时间上迅速蔓延和扩散,使视频质量急剧下降。为此,如 何提高压缩视频流的抗误码性能,成为当前一个重要的研究课题。视频差错控 制技术是提高压缩码流的抗误码性能的一种重要手段,该技术包含了视频编解 码系统和传输系统中的一切处理及对付差错的方法和机制。总体来说,为视频 传输而设计差错控制机制可分为以下3 类【8 】:前向技术,指在源编码和信道编 码中引入冗余数据的方法,使比特流对可能的错误具有更强的恢复能力;后处 理技术或掩盖技术,指在解码器中基于差错检测来对差错进行掩盖;交互技术, 通过源端编码器和解码器之间的交互,来使编码器根据解码器检测到的丢失情 况自适应地调整编码策略。 前向技术和交互技术虽然能有效增强压缩码流在差错信道上传输的鲁棒 性,然而并不能完全消除信道差错,在解码器的重建信号中传输错误仍然会导 致令人讨厌的视觉失真,可从暂时的降质到图像或视频信号完全不可用【9 1 。此 时必须通过差错检测确定受损宏块,并进行差错掩盖,以提高重建信号的视觉 质量。差错掩盖( e r r o rc o n c e a l m e n t ) 就是利用视频信号中的冗余信息和人类 视觉的系统特性,寻找一些相关数据替代图像中的出错或丢失的数据,尽量使 这些差错在视觉上不被察觉出来。近些年国内外的大量研究结果表明,针对单 视点视频的差错掩盖技术已趋于成熟。但由于立体视频的特殊性,当这些差错 掩盖算法用于立体视频编解码系统时,仍有许多可以改进的地方。因此,本文 以j v tm v c 的测试平台j m v m 6 1 1 0 j 为平台,对立体视频右通道整帧丢失的差 错掩盖算法进行了研究。 1 2 国内外研究现状 差错掩盖以视频像素和运动场平滑特性为依据,使用空域( s p a t i a l ) 、时域 ( t e m p o r a l ) 和频域( f r e q u e n c y ) 的连续性或平滑性准则,通过像素和运动向量插值 等技术恢复受损图象【1 0 l 。对于基于块的混合编码模式,在一个受损宏块中可能 需要对三种类型信息进行估计:纹理信息,包括原始图像块或预测误差块的像 素或d c t 系数值;运动信息,包括p 模式或b 模式编码的宏块的运动矢量 西南交通大学硕士研究生学位论文第3 页 ( m v ) ;宏块编码模式。常用的差错掩盖算法主要分为以下4 类: ( 1 ) 频域掩盖 频域掩盖是指解码器利用受损宏块和相邻宏块的频域相关性,用相邻宏块 的直流系数d c 和几个最低频的交流系数a c 来估计受损宏块的相应系数,其 余系数则通常置为零。在对频域掩盖方法研究的过程中,w a n gy a o 等最初提 出了最优平滑度恢复原理【1 1 j ,通过最小化块内相邻像素空间和时间偏差,以及 空间和时间相邻块之间的偏差来恢复变换域的d c t 系数,该方法后来又扩展 到了二阶平滑( 1 2 1 。z a l k a c h o u h 等提出了一种基于d c t 变换的内插方法【1 3 】,该 方法对块中的每个丢失像素点用8 个边界像素点来计算。k m e i s i n g e r 等提出一 种基于频域选择外推的掩盖方法【1 4 l ,采用基函数的加权线性组合对受损块周围 正确块进行连续近似,并用外推方法获得受损块的估计值。 由于频域掩盖通常只选择恢复一些低频系数,恢复出来的图像往往会丢失 大量细节信息,导致物体边缘模糊,掩盖效果难以令人满意。因此,在实际应 用中频域掩盖很少被用到。 ( 2 ) 空域掩盖 空域差错掩盖是指根据正确接收到的图像信息及其内在的空间相关性,用 空间相邻的数据来恢复受损区域,主要是通过图像插值的方法来对受损区域进 行恢复的。常用的插值算法包括双线性插值算法( b i l i n e a ri n t e r p o l a t i o n ,b i ) 1 1 5 , 1 6 和基于边缘方向的插值算法( d i r e c t i o n a li n t e r p o l a t i o n ,d i ) 1 7 - 2 0 。b i 掩盖方法 可以较好地对图像中的平滑区域进行恢复,但容易导致图像中物体边缘模糊。 因此,文献【1 7 】- 2 0 1 提出了几种d i 掩盖方法。文献【1 7 】用受损宏块的上相邻行 宏块与下相邻行宏块的边界匹配来决定通过受损宏块的边缘,并将两次边缘方 向插值的平均值作为恢复值。文献 1 8 1 2 0 1 采用边缘检测算子在受损宏块的邻 域内进行边缘检测,沿估计出的边缘方向对丢失像素点进行加权线性插值。d i 掩盖算法虽然能较好地恢复出图像中的边缘信息,但若边缘方向判断不准确, 容易插值出错误边缘。b i 和d i 算法在对图像恢复的过程中,都只是采用固定 的插值模式,而没有充分考虑到图像中不同的纹理信息,为此文献【2 1 】提出了 一种基于边缘检测的空域自适应差错掩盖算法,该算法首先根据丢失宏块周围 的正确宏块的边缘信息,将丢失宏块划分成平滑块和边缘块,对平滑块采用 b i 方法进行恢复,对边缘块则采用d i 方法进行恢复,比单独使用b i 或d i 掩 盖方法,具有更好的差错恢复能力。 由于空域掩盖算法是通过图像的空间相关性来对受损区域进行恢复的,在 西南交通大学硕士研究生学位论文第4 页 受损区域与周围区域处于同一亮度且周围区域的图像信息都能正确接收的情 况下,该掩盖方法都能取得较好的掩盖效果。否则,恢复出来图像质量仍不能 满足人们的要求。 ( 3 ) 时域掩盖 时域掩盖利用视频序列的时域相关性,首先通过相邻宏块或参考帧对应 位置或相邻宏块的运动矢量恢复出受损宏块的运动矢量,然后根据恢复的运 动矢量在参考帧进行运动补偿,以运动补偿所得到的图像作为恢复的图像。 因此,受损宏块的运动矢量能否被准确恢复是时域掩盖算法的关键。 简单的运动矢量( m v ) 恢复方法包括:有取零m v ,前一帧相同位置的 m v 以及受损宏块周围宏块的m v 或它们的中值等。这些方法对于相对静止 或运动平滑的视频效果较好,而对于运动剧烈的视频效果则很差。因此,在 文献 2 2 1 q a 提出了一种边界匹配算法( s i d em a t c h i n g a l g o r i t h m ,s m a ) ,选取使 运动补偿宏块内边界像素与丢失宏块外边界像素的匹配误差最小的运动矢量 恢复出丢失宏块的运动矢量,有效地改善了受损宏块的掩盖效果。文献 【2 3 - 【2 5 】中的边框匹配算法( b o u n d a r ym a t c h i n g a l g o r i t h m ,b m a ) ,则以运动补 偿块与受损宏块外围边界像素的匹配误差为选择候选运动向量的标准,选取 使匹配误差最小的运动矢量作为丢失宏块的运动矢量。b m a 算法有效地克 服了s m a 算法对处在物体边界处或灰度急剧变化的受损宏块掩盖效果不理 想的情况。 对于运动比较平缓的序孙相对空域和频域掩盖,时域掩盖通常会恢复 出更好的效果,因此在实际应用中经常被用到。 ( 4 ) 时空域自适应掩盖一 时空域自适应掩盖主要是根据受损宏块的特征,自适应地选取受损宏块 的掩盖方式,以获得最佳的视频差错掩盖效果。时空域差错掩盖技术的确定, 可以根据受损宏块周围相邻宏块的编码模式来确定1 2 6 1 ;也可以根据受损宏块 的估计运动矢量的特征来选择受损宏块的掩盖方法1 2 7 】。文献 2 8 贝j j 根据受损 宏块的边界匹配误差对受损宏块的掩盖方法进行选择,当受损宏块的运动补 偿块与受损宏块的相邻宏块的边界匹配误差较大时,采用空域掩盖方法对受 损宏块进行恢复。 上述差错掩盖技术主要是针对单视点视频中若干宏块或片出错的情况, 对于整帧丢失的情况,最常用的掩盖方法为:“帧拷贝和“运动拷贝1 2 引。 对于运动较复杂的视频序列,这两种算法都难以取得较好的掩盖效果。文献 西南交通大学硕士研究生学位论文第5 页 【3 0 1 提出一种基于运动矢量外推的整帧丢失差错掩盖算法,首先得到运动外 推宏块与受损8 x 8 块之间的重叠区域,然后选取与受损块重叠区域面积最大 的宏块的运动矢量作为该受损块的运动矢量,有效地改善了丢失帧的掩盖效 果。文献1 3 1 1 1 1 采用双向外推的方式将文献 3 0 l q u 的算法应用到像素级的差错 掩盖上,进一步改善了丢失帧的掩盖质量,但是增加了计算复杂度。 针对单视点可分级视频编码1 3 2 】中增强层整帧丢失的情况,可以选择基本 层对应帧的重建图像及增强层前一帧的重建图像对丢失帧进行掩盖。用基本 层重建图像所恢复的丢失帧,图像内容正确但质量较低;采用运动补偿用增 强层前一帧重建图像所恢复的丢失帧,虽然质量有了较大的提高,但在运动 剧烈的情况下容易出现错误的图像内容。为此,在文献 3 3 1 0 0 通过判断基本 层对应位置宏块的预测方式来选择受损宏块的掩盖方式,提高了丢失帧的掩 盖效果;而在文献 3 4 1 中则通过失真度估计自适应地选择受损宏块的掩盖方 式,进一步提高了丢失帧的掩盖质量。 对于立体视频差错掩盖算法的研究,文献 3 5 1 针对立体视频中左图像的 丢失块,提出了一种投影变换模型的差错掩盖算法,首先通过h a r r i s 角点检 测找到丢失块周围区域的特征点,在其中选出最合适的特征点。然后根据视 点间的几何关系,通过投影变换在右图像中找到合适的相关特征点,并使用 适合的牛顿方法对投影变换系数进行优化,来提高重建丢失块的重建结果。 结果表明,该算法对于深度感知的影响比单视点差错掩盖算法要小很多。文 献【3 6 1 对文献 3 5 1 q u 的算法进行了改进,即在使用牛顿算法对投影变换系数进 行优化之前加入了随机取样( 凡s a c ) ,利用子采样找到最大可能性的近似 最佳方案,以增强变换系数估计的鲁棒性;同时使用块平滑思想来减轻深度 不连续和投影变换系数最优化所产生的立体视觉感知失真,与文献1 3 5 1 q u 的 算法相比该算法在复杂度提高的情况下,p s n r 值只有略微提高。文献1 3 7 ,3 8 】 通过对立体视频右通道图像预测方式及视差矢量的时域相关性的分析,提出 了一种右视点整帧丢失的差错掩盖算法,首先确定受损宏块的预测方式,然 后采用运动补偿或视差补偿的方式对其恢复。文献 3 9 】中根据m a d 准则判断 受损宏块与相邻宏块之间的相关性,继而选择使用上方宏块进行空域掩盖, 或者继续块划分利用视差矢量进行视点间的掩盖。该算法与线性插值及时域 取代差错掩盖算法相比较,p s n r 值有较大提高。文献 4 0 】利用立体视频序 列的时间和空间相关性,将丢失帧图像划分为背景区域和运动区域,分别进 行前帧替代补偿和视差补偿,进行差错掩盖。实验结果表明该算法与传统的 整帧丢失掩盖算法( 前帧替代算法、帧间运动矢量预测算法) ,都有较好的掩 西南交通大学硕士研究生学位论文第6 页 盖效果。文献【4 1 1 提出了联合视差矢量和运动矢量的差错掩盖算法,首先利 用相邻宏块的视差矢量预测出丢失或受损宏块的视差矢量或运动矢量,然后 根据边框匹配准则计算出视差矢量和运动矢量的权重,最后使用联合的视差 运动补偿块进行差错掩盖。实验结果表明,该算法在主观和客观评价上都明 显优于常用的时域差错掩盖算法。 1 3 本文的主要工作及论文的内容安排 本文以j v tm v c 的测试平台j m v m 6 为软件测试平台,在假定立体视频 左通道无差错或已经对左通道采取了差错控制措施之后,对立体视频右通道整 帧丢失的差错掩盖算法进行了探索性研究。首先,通过对j m v m 中的立体视 频码流结构的分析,在j m v m 6 中实现了一种适用于j v tm v c 码流的差错检 测方法,为差错掩盖算法的研究打好基础。然后,在j m v m 6 上实现了现有的 一种基于时域相关性的右通道整帧丢失差错掩盖算法,对其不足之处,进行了 改进。最后,通过改进针对单视点粗糙颗粒度质量可分级( c g s ) 增强层的差 错掩盖算法,提出一种基于视点间相关性的差错掩盖算法,将其实现,并将掩 盖效果和现有算法的掩盖效果进行了比较。 论文的内容安排如下: 第1 章绪论,主要介绍了研究课题的背景和现状,并对本文的主要工 作进行了简单概括。 第2 章详细介绍了立体视频的理论基础,包括立体视频的成像原理、 立体视频编码中的关键技术等,并说明了本文所采用的立体视频编码方案, 本章内容是本论文后面章节的理论基础。 第3 章在测试模型j m v m 6 中加入差错检测环节,为后续差错掩盖算 法的研究提供了测试平台,并对基于时域相关性的差错掩盖算法进行了研 究。主要实现了现有的一种基于时域相关性的整帧丢失差错掩盖算法,分析 了该算法的优缺点,并对其不足之处,进行了改进。 第4 章根据现有立体视频编码方案的特点,对立体视频视点间的相关 性进行了分析,通过改进单视点视频质量增强层差错掩盖算法,提出了一种 基于视点间相关性的立体视频右通道整帧丢失差错掩盖算法,并对该算法进 行了实验和分析。 第5 章全文总结,以及下一步的工作展望。 西南交通大学硕士研究生学位论文第7 页 第2 章立体视频理论基础 立体视频是一种能使人们观看时能获得立体感的视频,一般由两个视频 通道组成。它是根据人眼睛的双目视差原理,在播放时通过显示从略微不同 的角度采集到的同一场景的两个视图,分别对应人的两只眼睛,形成双目视 差,并依靠人的大脑将这些视图融合成一幅有意义的三维图像,从而形成立 体感。 2 1 立体视频成像原理 立体视频成像的方式就是模拟人眼视觉系统,通过两个或两个以上的摄 像机在不同位置对同一场景进行拍摄,这样,各个摄像机所拍摄的图像间存 在视差,通过视差可以恢复景物的深度信息,从而实现了三维的成像。所谓 视差是指自然景物在各摄像机中所成像的位置差异。 立体视频成像和显示系统是模拟人类立体感觉设计的:用两台稍微移动 了位置的摄像机采集三维场景,然后把分离的图像呈现给每只眼睛。最常见 的立体视频采集系统是由左右两个摄像机构成。设c 代表世界坐标系,c ,和 c 分别表示左右摄像机坐标系。令【r 】,和t ,( 以及【r 】r 和t ,) 表示对齐一个 c 。左右摄像机坐标( c ,和c ) 所要求的旋转矩阵和平移向量。则左右摄像 机坐标k 一隅,x ,乙】r 和x = 区,r ,z ,r 与世界坐标x i x , ez f 的关 系为: x j ;【r 】f x + i :;x ,r o l l 【r 】,x + 耳 ( 2 1 ) 矩阵【r 】,和【r 】,是标准正交的,则从公式( 2 - 1 ) 中消去x 得到: 其中, x ,= 【r 】,【r 】,r ( x l 一l ) + r i _ 一【r 】r ,x ,+ 1 _ ( 2 - 2 ) 【r 】,一【r 】,【r 】,r ,r e 一【r 】, r l r 互 ( 2 3 ) 西南交通大学硕士研究生学位论文第8 页 当世界坐标与摄像机坐标一致时,三维点的世界坐标x = i x , y ,z 】r 与图像坐 标x = k ,y 】r 的关系为: 石一f 孝,y - f r 么 仫4 , f 为摄像机的焦距。将( 2 - 4 ) 分别用于曷和x ,得到左右图像坐标 x ,一b ,y l 】r ,x ,= k ,y ,】r : 而一e 鲁,胪e 善 p 畦,胪e 丢 将这种关系代入( 2 2 ) 得到: ( 2 5 ) 料扣阶 仫6 , a ) 平行结构 图2 - 1 立体成像系统结构 b ) 会聚结构 西南交通大学硕士研究生学位论文第9 页 2 1 1 平行摄像机系统 在平行摄像机系统中,两台摄像机的图像平面是平行的,位于同一个平 面,如图2 2 所示。两台摄像机之间的距离称为基线距离,用曰表示,当b 接近人的两只眼睛的距离( 2 5 3 英寸) 时,这种配置近似于人的双目成像 系统。 a ) 三维视图 c t z t z w z r x + 毽1 2 x 一口,: 。7 | xr xi 一一_ 广 。 c , f l : 口 : 图2 2 平行摄像机系统 b ) x z 截面视图 如果把世界坐标的原点设在两台摄像机之间的中点,并假设两台摄像机有相 同的焦距,用,表示,则由图2 - 2 可得到如下关系: x ,一x + 詈,x ,一x b i ,巧一r - y , z t z ,一z ( 2 7 ) 而;f 半一一f 半,y t y ,yf 善 沼28 一, 而2 ,歹一,x ,2 ,孑一, 。 ,。 2 ,i l j ooo 在这种情况下,视差矢量仅有水平分量,其与图像深度的关系为: d ,= = x i - - x r 一虿f ( 2 9 ) 西南交通大学硕士研究生学位论文第1 0 页 由这些图像坐标可以恢复出图像的三维坐标: x 。堕趔,y 一b y ,z 。一f b ( 2 1 0 ) 2 d , 7 d 。7d , 上述关系构成了由视差信息导出深度信息,进而导出三维结构信息的基础。 从公式( 2 9 ) 可以看到三维点伍,y ,z ) 的视差矢量值与x 和】,的坐标 不相关,与z 的值成反比,物体越靠近摄像机,视差矢量的值就越大。另外, 视差矢量值的范围随着基线曰的增大而增加。 在平行摄像机系统中应该满足以下几个约束条件: ( 1 ) 极线约束条件:在立体成像系统中,假定左、右两个摄像机采集到 的图像分别为五和,若空间中的某一点p 在两个图像上的投影点分别为 竹和p ,则局和p ,相互称为对称点。那么,由计算机视觉的理论可以知道, 乃的对称点一定位于上的由p f 与两个摄像机的几何位置决定的某一直线 上,这条直线就称为竹在上的极线。若知道摄像机的投影矩阵,就可以用 求解极线方程的方法来得到这个极线约束条件,它是进行视差估计的重要参 考条件。 ( 2 ) 相似约束条件:空间中的某一点p 在左右两个图像平面上的投影 点及其邻域,有相似的亮度和特征。 ( 3 ) 唯一性约束条件:空间中一点分别投影在两个图像平面,在每一个 平面中只能有唯一的投影点。 ( 4 ) 连续性约束条件:同一物体表面像素点的深度一般很相近,因而除 了物体边缘和遮挡区域,视差向量的变化是连续的、光滑的。所谓遮挡点就 是指由于摄像机几何结构或者物体之间的相互影响使一些空间点在一个图像 平面上有投影点,而在另一个图像平面上并没有投影点的情况。 在理想情况下,立体视觉应当满足以上几个约束条件,它们反映了立体 视觉的基本特征,是进行视差估计和遮挡检测的重要依据。 2 1 2 会聚摄像机系统 在会聚摄像机系统中,两台摄像机的图像平面是互相倾斜的,他们之间 一般有一个小的夹角,这个夹角称为会聚角,如图2 3 所示。在图中,假设 世界坐标原点在左、右坐标之间的中点,而p 是会聚角的一半。 西南交通大学硕士研究生学位论文第”页 x a ) 三维视图b ) x z 截面视图 图2 - 3 会聚摄像机系统 对于这种设置,左、右摄像机坐标与世界坐标的关系为: r f r j c o s 00 s i n 0 010 s i n 00c o s 0 c o s 00 s i n 0 o1 0 s i n 00c o s o ,写一 ,一 c o s 船| 2 0 s i n 凹2 一c o s 8 b 2 o s i ne b 2 将上述关系代入( 2 2 ) 和( 2 5 ) 得到: z ,。fc o s o ( x + b 2 ) - s i n t t z , s i n o ( x + b 2 14 - c o s o z x 。 一, r f c o s o 口( ( x - 一b 2 2 ) 1 + s i n t t z s i nxb 4 - c o s o z y ,4 ,五硒i 万y 丽面弦 y ,一,i 而i 万y 西而 ( 2 1 1 ) ( 2 1 2 ) ( 2 1 3 ) 由这些公式,可以导出水平( 和垂直) 视差与世界坐标( x ,y ,z ) 西南交通大学硕士研究生学位论文第1 2 页 之间的关系。会聚摄像机系统对接近摄像机的物体可得到比平行摄像机系统 更好的深度感觉。然而,当直接将会聚系统采集到的立体对直接投影到屏幕 上观看时,感觉到的深度是失真的。因此,为了显示会聚系统采集到的图像, 需要几何校正,以近似于平行摄像机系统所采集到的图像。 平行摄像机系统是当前立体视频信息采集比较常用的一种配置系统。随 着立体视频显示技术的日益成熟,以及多视点视频技术的需求,会聚摄像机 系统也越来越多地被人们所用到。 2 2 立体视频编码方案简介 立体视频和传统的单通道视频相比,要处理翻番的数据量,为了便于存 储和传输,立体视频数据必须要进行高效的压缩。在立体视频中,图像内的 像素之间,通道内的图像之间以及通道间的视频图像之间都存在着相关性, 存在着信息冗余。高效的立体视频编码不仅要去除图像内像素之间的信息冗 余和通道内的视频图像之间的信息冗余,而且要去除各个通道间的视频图像 之间的信息冗余。图像内像素之间的信息冗余,一般通过帧内预测的方式去 除;通道内图像间的信息冗余,一般通过运动补偿预测( m c p ) 去除;而通 道间图像信息冗余则是通过视差补偿预测( d c p ) 去除的。 运动补偿预测的基本思想是,将当前待编码帧划分为若干个子块,以相 同通道内的重建图像为参考帧,通过运动搜索在参考帧中的一定区域内找到 与当前块最相似的块,即匹配块。当前块与匹配块之间的相对位移即为该当 前块的运动矢量( m v ) ,得到运动矢量的过程则称为运动估计。将m v 和运 动估计得到预测残差发送到解码端,在解码端按m v 指定的位置,从已解码 的参考帧中找到相应的块,和预测残差相加后就到了当前帧中的重建块。该 方法极大地去除了帧间相关性,减少了视频传输中的码流,是单通道视频编 码最常用的一种预测技术i 引。 视差补偿预测( d c p ) 基本思想与运动补偿预测( m c p ) 相似,两者都 是寻找两幅图像之间的相关性。不同之处在于参考帧的选取。m c p 中的参考 帧与当前帧,处于同一通道,但处于不同时域;而d c p 中的参考帧与当前帧, 处于同一时域,却属于不同的通道。d c p 中寻找当前块匹配块的过程,称为 视差估计,而当前块与其匹配块之间的相对位移则称为视差矢量( d v ) 。由 于在运动估计中通常只有部分像素点发生移动,而在视差估计中几乎所有像 素的视差都不为零【4 引,所以视差估计要比运动估计复杂的多1 4 引。视差估计的 西南交通大学硕士研究生学位论文第1 3 页 方法除了块匹配法外,还有像素匹配法和特征值匹配法l 4 4 】。像素匹配法精度 最高,获得的图像质量最好,但计算量很大,计算复杂度高,块匹配法虽然 精度低一些,但算法简单、有效,常被采用1 4 引。特别是常用的单通道视频编 码标准,如m p p g 1 2 ,h 2 6 3 ,h 2 6 4 等标准,都是采用基于块的混合编码方 法,因而,基于这些标准的立体视频编码方案也比较适合采用基于块的视差 估计方法。另外,特征值匹配法是一种比较有效的视差估计方法,但必须以 对象分割为基础,由于目前视频对象的自动分割技术还不成熟,所以特征匹 配也没有得到广泛的应用。 视差补偿预测在立体视频编码技术中占有重要的地位。视差估计的引入, 使得立体视频编码的效率大为提高。目前较为成熟的立体视频编码方案主要 分为三大类:基于块的方法、基于对象的方法【4 6 】和基于网格的方法【4 7 】,而基 于块的立体视频方案是其中最为常用的一种。 基于块的立体视频编码方案,主要是利用了分块编码的思想,其编码过 程如图2 4 所示。在该编码方案中,先对左通道图像进行分块编码,然后对 相应的右图像也进行分块,并在对应的左图像中按照某种匹配准则进行块匹 配,寻找视差矢量。常用的匹配准则有均方误差准则( m s e ) 和绝对差准则 ( m a d ) 。按照分块的大小可以分为:可变块匹配方法和固定块匹配方法。 在固定块匹配方法中右图像所划分的块的大小是不变的,而在可变块匹配方 法中,右图像的分块大小是随着一些因素自适应调整的,编码效果也就更好。 图2 _ 4 基于块的编码方案 早期的基于块的立体视频编码方案对左通道采用单通道视频编码标准进 西南交通大学硕士研究生学位论文第1 4 页 行编码,右通道仅使用运动估计或者仅使用视差估计,这两种方法比较简单, 易于硬件实现,但却没有充分利用立体视频的冗余信息。因此很多学者在此 基础上进行了改进,文献f 4 8 1 提出了一种优化的选择视差估计和运动估计的 方法,它对左通道图像采用m p e g 编码,然后对右通道图像分别进行运动估 计和视差估计,选择两种估计所产生的预测图像和原始图像误差最小的估计 方式作为估计方式。与传统方法相比,该方法降低了图像的冗余信息,提高 了编码效率。文献f 4 9 1 提出了一种联合使用视差估计和运动估计的方法,它 对立体视频的右通道图像分别进行视差估计和运动估计,然后将视差预测图 像和运动预测图像线性组合,得到最终的预测图像。这种方法的思想类似于 单通道视频编码中双向预测的b 帧,综合考虑了两种冗余信息,从而进一步 提高了编码效率。 2 3 本文立体视频编码方案 通过前面对常用立体视频编码方案的分析,结合j m v m 中的立体视频编 码预测结构,本文在编码端采用如图2 5 所示的编码预测结构,对立体视频 进行编码。 s o s l 图2 - 5 本文立体视频编码预测结构 在该预测结构中,立体视频的左视点序列( s 0 ) 采用i p p p p 的预测结构, 其中的p 帧,只进行运动补偿预测,不进行视差补偿预测,编码所得到的码 流可以直接用h 2 6 4 a v c 定义的解码器解码,以实现向下兼容h 2 6 4 a v c 标 准;右视点序列( s 1 ) 采用p p p p p 的预测结构,其中第一个p 帧只进行视差 补偿预测,不进行运动补偿预测,其余p 帧则采用运动补偿预测和视差补偿 预测相结合的预测方式,选择误差最小的预测方式作为最终的预测方式。 西南交通大学硕士研究生学位论文第1 5 页 在j m v m 的编码器中,首先将视差补偿参考图像和运动补偿参考图像统 一放入参考图像列表,然后利用块匹配的方法对当前编码块进行运动视差估 计,搜索当前编码块的最佳匹配块,最后将当前编码块与最佳匹配块的 m v d v 及其预测差信号进行压缩、编码,该方法与h 2 6 4 a v c 标准完全兼 容,其编码过程如图2 6 所示。 2 4 本章小节 图2 - 6 基于h 2 6 4 a v c 的立体视频编码框架 本章首先介绍了立体视频的成像原理,然后详细介绍了基于块的立体视 频编码方案以及该方案中所采用的预测技术:运动补偿预测( m c p ) 和视差 补偿预测( d c p ) 。并在本章的最后说明了本文所采用的立体视频编码方案 及所采用的预测结构。 西南交通大学硕士研究生学位论文第1 6 页 第3 章基于时域相关性的差错掩盖算法研究 3 1j m v m 中差错检测方案研究 在m v c 5 0 l 标准化的过程中,主要工作集中在编码端的预测结构的研究 上,并没有考虑码流

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论