(信息与通信工程专业论文)立体图像压缩编码技术的应用研究.pdf_第1页
(信息与通信工程专业论文)立体图像压缩编码技术的应用研究.pdf_第2页
(信息与通信工程专业论文)立体图像压缩编码技术的应用研究.pdf_第3页
(信息与通信工程专业论文)立体图像压缩编码技术的应用研究.pdf_第4页
(信息与通信工程专业论文)立体图像压缩编码技术的应用研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(信息与通信工程专业论文)立体图像压缩编码技术的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京邮电大学硕士研究生学位论文摘要 摘要 立体图像技术是未来图像技术发展的重要方向之一。它包括静止立体图像技术和立体 视频技术。静止立体图像可用于立体广告、舞台布置等领域,立体视频可用于立体视频会 议、立体电视、远程机器人控制、远程医疗等领域。h 2 6 4 技术作为最新的视频压缩标准, 不仅吸收了以往视频编码算法的优点,还采用了很多先进的思想和方法,大大提高了编码 效率和编码质量。因此,研究基于h 2 6 4 的立体图像压缩具有很大的价值。 本文首先构建了基于h 2 6 4 的静止立体图像压缩编码的模型,其框架主要由图像合并、 改进的h 2 6 4 编码器、图像分解部分组成,在j m 8 6 模型上得到了实现。然后构建了基于 h 2 6 4 的立体视频压缩编码的模型,指出采用联合视差估计和运动估计的方法可以得到最 优的编码效果,在j m v m 2 1 参考模型上得到了实现,仿真结果证明此算法对于不同复杂度 的图像都是有效的。最后对立体视频编码耗时较多的视差估计部分,提出了快速视差估计 算法,并通过改进j m v m 2 1 模型实现了算法,仿真结果证明此算法提高了编码速度,有利 于立体视频编码器的实时应用。 关键词:立体图像,立体视频,h 2 6 4 ,压缩编码,视差估计 南京邮电大学硕士研究生学位论文a b s t r a c t a b s t r a c t s t e r e o s c o p i ci m a g ei sav e r yi m p o r t a n td e v e l o p i n gd i r e c t i o ni ni m a g et e c h n o l o g i e si nf u t u r e i ti n c l u d e sas t i l l s t e r e o s c o p i ci m a g et e c h n o l o g ya n ds t e r e o s c o p i cv i d e ot e c h n o l o g y s t i l l s t e r e o s c o p i ci m a g e sa p p l i c a t i o ni n c l u d e ss t e r e o s c o p i ca d v e r t i s e m e n t ,s t a g el a y o u ta n ds oo n s t e r e o s c o p i cv i d e o sa p p l i c a t i o ni n c l u d e s3 dv i d e oc o n f e r e n c e ,3 d t v , r e m o t er o b o tc o n t r o l , r e m o t em e d i c a ls e r v i c ea n ds oo n h 2 6 4i st h el a t e s tv i d e oc o m p r e s s i o ns t a n d a r d i ta b s o r b st h e a d v a n t a g e so ft h ef o r m e rv i d e oc o d i n ga l g o r i t h m sa n du s e sal o to fa d v a n c e dt h o u g h t sa n d m e t h o d sa n di m p r o v e st h ec o d i n ge f f i c i e n c ya n dq u a l i t y s o ,t h er e s e a r c ha b o u ts t e r e o s c o p i c i m a g eb a s e do nt h eh 2 6 4i si m p o r t a n t f i r s t ,t h em o d e la b o u ts t i l ls t e r e o s c o p i ci m a g eb a s e do nh 2 6 4i se s t a b l i s h e d i ti n c l u d e s i m a g em e r g e r , i m p r o v e dh 2 6 4e n c o d e ra n di m a g ed e c o m p o s i t i o na n di sr e a l i z e db yj m 8 6 s e c o n d ,t h em o d e la b o u ts t e r e o s c o p i cv i d e ob a s e do nh 2 6 4i se s t a b l i s h e d i tp o i n tt h a tt h e u n i t e dm e t h o da b o u tm o t i o ne s t i m a t i o na n dd i s p a r i t ye s t i m a t i o ni so p t i m u ma n dt h em o d e li s r e a l i z e db yj m v m 2 1 t h es i m u l a t i o nr e s u l t sp r o v et h ee f f e c t i v e n e s so ft h em e t h o d f i n a l l y , b y a n a l y z i n gd i s p a r i t ye s t i m a t i o na l g o r i t h m s ,t h i sp a p e rp u t sf o r w a r daf a s tb l o c k - m a t c h i n g d i s p a r i t ye s t i m a t i o na l g o r i t h ma n d i te n h a n c e st h ep r a c t i c a l i t yo ft h es t e r e o s c o p i cv i d e om e t h o d k e yw o r d s :s t e r e o s c o p i ci m a g e ,s t e r e o s c o p i cv i d e o ,h 2 6 4 ,c o m p r e s s i o ne n c o d i n g , d i s p a r i t y e s t i m a t i o n l i 南京邮电大学学位论文原创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得南京邮电大学或其它 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名:筮豇日期:q 仝:丝! ! 竺研究生签名:型坠型日期:q 仝:丝竺 南京邮电大学学位论文使用授权声明 南京邮电大学、中国科学技术信息研究所、国家图书馆有权保留本人所送 交学位论文的复印件和电子文档,可以采用影印、缩印或其它复制手段保存论 文。本文电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。 论文的公布( 包括刊登) 授权南京邮电大学研究生部办理。 研究生签名:张耙 靳繇邀极嗍堕咝 南京邮电大学硕士研究生学位论文第一章绪论 1 1 选题背景 第一章绪论 在过去几十年,图像和视频技术得到了飞速的发展。特别是一些图像、视频编码标准, 如:j p e g ,j p e g 2 0 0 0 ,m p e g 晗1 系列,h 2 6 x 口1 等的制定,使人们享受到了交互的、便捷的视 频服务。随着人们欣赏水平的提高,人们对在多媒体终端上所见的图像和视频最迫切的希 望就是能够如我们感受现实世界一样,有真实感、临场感。这就需要图像和视频能提供立 体三维信息。也就是说,人们的视频娱乐已由一般的t v 发展至h d t v ,现在又正朝三维立 体电视h 1 ( 3 d - t v ) 的方向努力。另外,这种包含立体信息的图像和视频在虚拟现实、计算机 视觉和机器人系统、航空测绘、自动导航、现场的自动监控等领域也有重要意义。 然而,在立体图像的发展中,两个方面的因素制约了它的进一步应用。第一个方面是 立体图像的显示问题。早期的显示技术是需要佩戴特殊的眼镜才能感知立体图像的立体 感。但是,随着技术的进步,利用视差栅栏屏幕和透镜显示的方法已经不需要佩戴眼镜也 可以观看。另外,多视点、全方位的立体图像显示技术正在发展中。另一个方面是立体图 像的传输和存储。尽管目前单幅图像的压缩已发展的比较成熟,但如果仅仅对立体图像应 用j p e g 或m p e g 压缩,很显然压缩的结果是一副静止图像或一路运动图像数据的多倍,通 过迸一步去除各幅立体图像之间的相关冗余,立体图像应该可以达到更高效的压缩,从而 不仅使立体图像的传输和存储更方便,而且可以节约大量资源璐3 。 立体图像目前较多采用是两视图的方案,即分别对人的左、右眼显示具有良好视差组 合的立体图像对,利用双眼视差产生立体感1 。显然,这种增加真实性的明显代价是其数 据量比单通道图像的数据量成倍的增加了。为了能有效地传输和存储立体图像,通常的解 决方法有三种:1 增加信道的带宽;2 以高效的协议提高信道的利用率;3 用高效的压 缩技术减少信源的数据量。因为受限于现有的信道带宽,高效的协议对于传输立体图像所 产生的大量数据,其帮助非常有限。因此,近年来立体图像压缩编码技术得到了广泛重视。 h 2 6 4 口1 ,同时也是m p e g - 4 第十部分,是由i t u - t 视频编码专家组( v c e g ) 和i s o i e c 动态图像专家组( m p e g ) 联合组成的联合视频组( j v t ,j o i n tv i d e ot e a m ) 提出的数字 视频编解码器标准。h 2 6 4 最大的优势是具有很高的数据压缩比率,在同等图像质量的条 件下,h 2 6 4 的压缩比是m p e g 一2 的2 倍以上,是m p e g - 4 的1 5 2 倍,而在技术上,它集中了 以往标准的优点,并吸收了标准制定中积累的经验。这些都为基于h 2 6 4 的立体图像编码 l 南京邮电大学硕士研究生学位论文第一章绪论 提供了良好的平台,也促进着立体图像编码研究的进一步发展。 本文研究了基于h 2 6 4 标准的双视点静止立体图像和立体视频的压缩编码方法,旨在 更有效地去除冗余,实现静止立体图像和立体视频的压缩。 1 2 国内外研究现状 对立体图像编码的研究,国际上开始于2 0 世纪8 0 年代末,当时的方法把立体图像中的 左、右图像当作独立的两幅图像,分别使用经典的平面图像压缩方法来压缩。这种方法比 较简单,但没有利用立体图像对之间固有的联系,得到的压缩率比较小,不能满足实际的 使用。步入9 0 年代,许多学者注意到立体图像序列中的左、右图像之间存在大量的冗余信 息,利用计算机视觉的方法,可以对左、右图像进行视差( d i s p a r i t y ) 估计这种视差矢量 类似于普通视频编码中的运动矢量。总结近几年的成果,可以把目前比较成熟的立体图像 编码方案分为两大类。第一类是基于块的立体图像编码随1 ,第二类是基于对象的立体图像 编码阳1 。其中,德国、美国、法国、日本和韩国等国家对立体图像技术开展的研究工作比 较深入。比如,欧洲几个国家从1 9 9 2 年开始联合开展的d i s t i m a n 们项目,采用m p e g - 2 编码 标准作为基础,现己实现了一个集捕获、显示、压缩和传输为一体的完整的立体视频系统, 并得到了广泛的应用;另外,德国的h h i n 妇研究所致力于研究沉浸式的立体视频会议系统, 该系统能将实际的会议桌和远程与会者的虚拟会议桌无缝的拼接起来,再配备上逼真的立 体视觉呈现,使与会者感觉就像是在面对面的进行交流;再有,韩国的e t r i 研究所对于立 体视频的捕获、压缩和传输等技术的研究也很深入,并成功实现了2 0 0 2 年足球世界杯的立 体视频转播。 国内学术界对于立体图像技术的研究始于2 0 世纪9 0 年代后期,到目前为止,已在立体 图像的编码、压缩等方面取得了一定的研究成果。 目前,国际上对于立体图像编码的标准还没有制定完成,因此,研究基于h 2 6 4 的立 体图像编码具有现实意义。 1 3 本文组织安排 本文研究了基于h 2 6 4 的静止立体图像编码和立体视频编码,以及改进的视差估计算 法。全文共分成六章: 第一章为绪论,阐述了研究立体图像压缩的背景和意义、研究现状和本文的组织安排。 第二章首先说明立体视觉的产生原理以及自身特点,然后研究视差和立体视觉的关 2 堕塞鲤皇奎堂堡主婴壅生兰篁笙壅笙二童堑堡 系,最后简要介绍立体图像的显示。 第三章研究了最新的视频编码标准h 2 6 4 ,构建了基于h 2 6 4 的静止立体图像压缩编 码的模型,其框架主要有图像合并、改进的h 2 6 4 编码器、图像分解部分组成,并且通过 j m 8 6 n 2 3 模型上得到了实现,给出了仿真结果。其结果证明此算法是有效的。 第四章构建了基于h 2 6 4 的立体视频压缩编码的模型,指出采用联合视差估计和运动 估计的方法可以得到最优的编码效果,并且在j m v m 2 1 参考模型上得到了实现,给出了仿 真结果,结果证明此算法对于不同复杂度的图像都是有效的。 第五章对立体视频编码耗时较多的视差估计部分,提出了快速视差估计算法。并通过 改进j m v m 2 1 1 3 模型实现了算法,得出了仿真结果。其结果证明此算法提高了编码速度, 有利于立体视频编码器的实时应用。 第六章为总结与展望,对全文工作进行了总结,并对下一步的研究方向作了论述。 南京邮电大学硕士研究生学位论文第二章立体视觉原理 第二章立体视觉原理 本章首先说明立体视觉是如何产生的以及它的自身特点,然后研究视差和立体视觉的 关系,最后简要介绍立体图像的显示。 2 1 立体视觉的产生 2 1 1 引言 人眼的视网膜是一个二维空间的表面,但在这个二维空间的视网膜上却能够看出一个 三维的立体视觉空间,也就是说,人眼能够在只有高和宽的二维空间视像的基础上看出深 度,正是这种深度才让我们有立体感。这个事实是长期以来深为艺术家、哲学家和心理学 家们关心的问题。立体视觉n 们是视觉的基本机能之一,而这种视觉机能比其它视觉更难于 理解。人在立体视觉中依靠很多客观条件和机体内部的条件来判断物体的空间位置,这些 条件都称为深度线索。有一些单眼和双眼视觉的生理学上的线索以及一些个人的经验等心 理学上的线索都对立体视觉起重要的作用。这些深度线索通过大脑的整合形成了物体的立 体视觉。其具体过程如图2 - 1 所示。 图2 1 立体视觉产生过程 2 1 2 立体视觉的深度线索 应 1 心理学上的线索1 5 1 在空间视觉中刺激物本身的一些物理条件,通过观察者的经验和学习,在一定的条件 下也可以成为知觉深度和距离的线索。 ( 1 ) 大小: 根据视角测量的原理,如果保持视网膜的视像尺寸,则物体的大小和物体距离的比值 堕室坚皇奎兰堡主堑壅竺堂垡丝壅 兰三兰皇竺望堂堕里 不变,这称为欧几里德定律: ( , s=兰t“z-1) s2 一l , d 其中s 是物体的大小,d 是物距,s 是视网膜上的视像大小。据此可知,当物体的实际 大小已知,通过视觉观察就可以推算物距。进一步,当观察两个尺寸相近的物体时,哪一 个在视网膜上产生的视像大,则其距离就显得近些。 ( 2 ) 线性透视: 线性透视指空间物体在一个平面上的几何投影。较近的物体占的视角大,看起来较大; 较远的物体占的视角小,看起来较小。 ( 3 ) 物体的重叠: 物体的相互重叠是判断物体前后关系的重要条件。用它判断物体的前后关系完全取决 于物理的团素。当观察者或被观察物体运动时,重叠部分的改变使我们更容易判断物体的 前后关系。不过依靠重叠判断物体之间的绝对距离是困难的。 ( 4 ) 光亮和阴影的分布: 一般来说,明亮的物体显得近,而灰暗或阴影中的物体显得远。 ( 5 ) 空气透视: 一般我们所见较远物体的轮廓不如较近物体的轮廓清晰,这是由于远处景物因光线被 空气中的微粒( 如尘埃、烟、水气等) 所散射造成的,所以常觉得模糊不清的东西比看得清 楚的东西要远些。 ( 6 ) 结构级差: 当人观察含有某种结构纹理且与视线不垂直的大表面时,随着距离的增加会产生近处 稀疏和远处密集的结构密度级差。这种结构密度级差给出了距离视觉的线索。距离近,物 体的结构容易分辨;距离远,物体的结构不容易分辨。 ( 7 ) 颜色分布: 在人们的经验中,远方的物体一般呈蓝色,近的物体呈黄色或红色,据此人们常认为 黄色或红色的东西较近,而蓝色的东西较远。 ( 8 ) 运动视差: 在周围环境固定而观测者的头或身体运动的时候,由于物体的距离不同导致视角变化 快慢产生差异,较近的物体视角变化大,较远的物体视角变化小,这种视觉变化的差异就 是运动视差。运动视差会引起相对运动的知觉,近的对象被知觉为向相反方向运动,较近 的对象向后移动较快,略远的对象向后移动较慢,而更远的物体与我们的运动方向相同的 南京邮电大学硕士研究生学位论文第二章立体视觉原理 方向移动。因此,整个空间可看作是依一个轴心在转动。在观测者静止而环境运动时,情 形是类似的。事实上运动情况与观测者的注视点有关,实际中感觉到的运动是绕注视点在 转动。我们从行驶中的火车里向外看便是这种体验。 2 生理学上的线索1 6 3 ( 1 ) 眼睛聚焦调节: 在观察物体的时候,眼睛的水晶体有调节变化,以保证视网膜上获得清晰的像。眼睛 的调节活动传递给大脑的信号是估计物体距离的依据之一。在眼睛的调节作用中主要是靠 视网膜上的像的清晰度来知觉距离的,当眼睛注视空间的某一点时,这一点的像清晰地聚 焦在视网膜上,而所有远于这一点的像都是模糊的。清晰像和模糊像是分化距离的线索。 许多实验都证明,眼睛的调节作用只在2 米的距离范围内起作用,对于远距离的物体,调 节的作用便失效了。 ( 2 ) 双眼视轴的辐合: 在看准一个物体的时候,两只眼睛的中央窝对准物体,以保证物体的映像落到视网膜 感受性最高的区域,获得清晰的像。两只眼睛对准物体的时候,视轴必须完成一定的辐合 运动。看近距离的物体,视轴趋于集中;看远距离物体,视轴趋于分散。控制两眼视轴辐 合的眼肌运动提供关于距离的信号,视轴的辐合只在1 0 米的距离范围内起作用,观察太远 的物体,视轴接近于平行,对估计距离就不起作用了。如图2 - 2 所示,假定p 代表物体,l 和r 代表两眼的位置,目间距一般为6 5 r a m 。当我们用双眼观看物体时,两支视轴所组成的 角,叫辐合角,即么咫,辐合角与物体之间的关系为: t a n 垒丝:坐 ( 2 2 ) 一= 一 么一么, 2d 有距离d ( 单位:m m ) 可求出辐合角的大小,反之亦然。然而,把目间距看成圆弧,在 多数情况下也足够精确而且更加简单。于是么朋飧就等于6 5 0 ( d 单位是弧度) 。一弧度约等 于5 7 3 。或2 0 6 2 6 5 。,于是辐合角可用秒表示为: 么p 尺:篁2 0 6 2 6 5 :! ! 兰q z 堕 ( 2 3 ) 6 南京邮电大学硕士研究生学位论文 第二章立体视觉原理 p l6 5 m mr 图2 2 双眼视轴的辐合 ( 3 ) 双眼视差: 双眼观察物体时,物体在两眼视网膜上的像略有差异,这种差异叫做双眼视差,双眼 视差经视觉皮层融合,产生立体视觉。其实,在我们看某物体时,并不是某一种深度线索 单独作用,而是所有的相关的深度线索共同作用的结果。正因为如此,所以立体视觉是一 个复杂的过程。为了了解这一过程,我们忽略了一些次要的,而着重讨论双眼视差这一立 体视觉的最重要的深度线索。 2 1 3 双眼视差和立体视觉关系 双眼视差是知觉立体物体和两个物体前后距离的重要条件,借助双眼视差可以比借助 眼睛调节、视轴辐合等生理条件更精确地知觉相对位置。一般情况下,当人观察一个立体 物体时,由于双眼水平相距6 5 姗,所以是从不同角度来观察的。具体说来,左眼看到物体 的左边多一些,右眼看到物体的右边多一些,这样在两个视网膜上得到两个不同的视像。 换句话说,物体上注视中心的像落在两视网膜的相应点上,而注视中心以外的点则不总能 落在两视网膜的相应部位,因此两眼视像不同,这就是双眼视差n 。 q 图2 - 3 双眼视差 7 南京邮电大学硕士研究生学位论文第二章立体视觉原理 如图2 3 所示,当两眼注视m 点时,设晶状体的中心为和o 。和o :,m 。和m :为两视网膜 的中央凹,我们假定视网膜上有两点p l 和p 2 处于相应位置,即z p l o l m l = z p 2 0 2 m 2 ,则其 对应点p 双眼视差消失。经过简单的几何证明可知,所有的p 点的轨迹是一个通过是通过 o 。、m 和o :的圆。在该圆上的所有点双眼视差为零,这个圆称为全息圆。 显而易见,不在全息圆上的点,如q 点,在两视网膜上的对应位置是不一致的,因此 可感觉得到双眼视差并可以识别其距离上的差别。现在用定量的方式来讨论,设点m 和点 q 到眼睛的距离为d m 和d 口,可令8 = d q - d | 】l f ,一般情况下万 d m ,所以简单的几何证明 可得q 点在视网膜上的像的对应位置的偏差为: 伽锄加- 卯z m z 一 r 2 ,那么将m v l 所指的匹配块作为预测块,最终残差为r 2 。反之,将d v 所指 的块作为预测块,最终残差为r 1 。 6 对色差进行预测,根据亮度预测值,得到色差预测值。 7 将残差与m v o ,m v l ,d v 进行整数变换,量化,c a v l c 编码。 8 判断是否编完整个宏块? 如果编完,转到下一宏块,再转到下一片,直到编完整个图像。 其流程可简化为图4 5 4 3 图像编码类型 图4 - 5 立体视频编码流程图 基于h 2 6 4 的立体视频编码器中图像编码类型共有以下4 种。纠1 : 1 当前图像采用帧内预测编码( i n t r ap r e d i c t ) 进行压缩,不进行运动视差补偿和运动 3 5 南京邮电大学硕士研究生学位论文 第四章基于h 2 6 4 的立体视频压缩编码 视差搜索,为i & i 帧。 2 当前图像采用时间方向的帧间编码( i n t e rp r e d i c t ) ,不进行视差补偿和视差搜索。当 参考帧是当前图像之前一帧或多帧图像,为p i 帧,当参考帧是当前图像之前一帧或多帧 及之后的一帧或多帧图像,为b & i 帧。 3 当前图像采用帧内预测编码( i n t r ap r e d i c t ) 和空间方向的帧间编码( i n t e rp r e d i c t ) 进 行压缩,可以进行视差补偿和视差搜索,但不进行运动补偿和运动搜索,为i & p 帧。 4 当前图像采用时间方向和空间方向的帧间编码( i n t e rp r e d i c t ) ,可进行视差补偿和视 差搜索。当参考帧是当前图像之前帧或多帧图像,为p & p 帧,当参考帧是当前图像之前一 帧或多帧及之后的一帧或多帧图像,为b & p 帧。 4 4 宏块编码类型 编码器首先将一幅完整图像分为多个宏块( m b ) ,然后对这些小块分别进行预测、量化、 编码等处理。这样做的目的是为了加快处理速度,提高编码效率。因此,对图像的压缩实 际上是在宏块级( m b ) 进行的。 1 立体帧内预测编码有4 类 ( 1 ) 以4 x 4 小块( b l o c k ) 为单位的9 种帧内预测模式。 ( 2 ) 以整个宏块( 1 6 x 1 6 ) 为单位的4 种帧内预测模式。 ( 3 ) 空间方向的忽略( s k i p ) ,表示本宏块与空间方向的参考帧相应宏块完全相同,没有附 加信息需要传送,在解码端只需要将空间方向的参考帧解码后的图像中相应宏块拷贝一份 进行图像重建即可。 ( 4 ) 本宏块采用空间方向的帧间预测的方法,而且进行视差搜索的预测块的大小为n x m ,根 据n 和m 的不同,一共有7 种搜索模式,每种模式所要传的视差矢量的个数也由1 个到1 6 个不等。 2 立体帧间预测编码有5 类 ( 1 ) 时间方向的忽略( s k i p ) ,表示本宏块与时间方向的参考帧相应宏块完全相同,没有附 加信息需要传送,在解码端只需要将时间方向的参考帧解码后的图像中相应宏块拷贝一份 进行图像重建即可。 ( 2 ) 本宏块采用时间方向的帧间预测的方法,而且进行运动搜索的预测块的大小为n x m ,根 据n x m 的不同,一共有7 种搜索模式,每种模式所需要传的运动矢量的个数也由1 个到1 6 个不等。 3 6 南京邮电大学硕士研究生学位论文第四苹基于h 2 6 4 的立体视频压缩编码 ( 3 ) 空间方向的忽略( s k i p ) ,表示本宏块与空间方向的参考帧相应宏块完全相同,没有附 加信息需要传送,在解码端只需要将空间方向的参考帧解码后的图像中相应宏块拷贝一份 进行图像重建即可。 ( 4 ) 本宏块采用空间方向的帧间预测的方法,而且进行视差搜索的预测块的大小为n x m ,根 据n 和m 的不同,一共有7 种搜索模式,每种模式所需要传的视差矢量的个数也由1 个到 1 6 个不等。 ( 5 ) 帧内预测方式,当帧内预测比帧间预测的压缩效果好时采用这种预测。 4 5 运动补偿预测( m c p ) 运动补偿预测( m o t i o nc o m p e n s a t i o np r e d i c t i o n ) 是对活动图像进行压缩时所使用的 一种帧间编码技术。所谓活动图像实际上是一个静止图像的序列,当它们以每秒钟不小与 2 4 帧的速度连续显示的时候,由于人眼的视觉暂留效应,看起来就是连续的图像。因此, 在一般情况下,相邻帧间的内容实际相差不大( 除了有场景切换等) ,有很大一部分甚至是 完全一样的,所以相邻帧间有较大的相关性,也就是有很大的冗余,这种相关性称为时域 相关性。运动补偿的目的就是要消除这种时域相关性。 帧间编码可以减小冗余度的原理是因为两帧之间有很大的相似性。如果将前后两帧相 减得到的误差进行编码,那么所需比特就要比帧内编码所需的比特少。因为帧间差集中在 零附近,可以用短的码字传送。运动补偿编码主要包括运动估计和预测误差编码两部分。 运动估计的方法有很多,其中基于块匹配的运动估计,由于相对简单和有效,应用广泛。 其基本思想是将图像序列的每一帧划分成子块,对于当前帧中的每一块到前一帧某一给定 搜索区域内所有候选块位置,找出与当前块相似的块,即匹配块,当前块与其匹配块之间 的相对位移即为该块的运动向量。传输是只需将运动矢量和估计的误差值送到接收端。接 收时根据收到的运动矢量将参考帧作平移,就得到对当前帧的估计,再加上接收到的误差 值,就是当前帧。目前,块匹配运动估计算法中搜索精度最高的是全搜索法船5 1 ( f u l ls e a r c h m e t h o d ,f s ) ,虽然全搜索法能够找到窗口内的最佳匹配且便于硬件的并行实现,但是计算 量非常大,而且使用该法在硬件编码时需要相当大的功耗,不适合实时应用。针对这个问 题,现今已提出了很多快速运动估计算法通过限制搜索点的数目来减少计算量。如:三步法 。婚1 ( t h r e es t e ps e a r c h ,t s s ) 、菱形法n ( d i a m o n ds e a r c h ,d s ) 、u m h e x a g o n s ( u n s y m m e t r i c a l c r o s sm u t i h e x a g o ns e a r c h ) ,非对称十字型多层次六边形格点搜索算法等。 3 7 南京邮电大学硕士研究生学位论文第四章基于h 2 5 4 的立体视频压缩编码 4 6 视差补偿预测( d c p ) 在立体视频图像的编码中,为了达到高效压缩编码的目的,除了要考虑每个通道内前 后帧图像之间的时域相关性和帧内图像的空域相关性外,还必须考虑两通道图像之间的空 域相关性,前者可以利用运动估计和补偿技术进行压缩编码,去除冗余度,后者利用视差 估计与补偿技术。视差估计与补偿是立体视频压缩编码中的一项关键技术,它能够消除左 右两个通道的立体图像对之间的冗余。视差估计和运动估计相似,两者都是寻找两幅图像 之间的相关性,所不同的是,运动估计中两幅图像在时间上是不同步的,是由同一个相机 拍摄得到的;在视差估计中,两幅图像在时间上是同步的,是由两个相机在同一时间不同 视场拍摄得到的。然而,视差估计要比运动估计复杂的多。在运动估计中通常只有部分像 素点发生移动,在视差估计中几乎所有的像素的视差都不为零,除非物体表面离成像平面 很远,视差才可以看作零。 目前的视差估计方法主要有特征值匹配法、块匹配法和像素匹配法。像素匹配法精度 最高,获得的图像质量最好,但计算量很大,计算复杂度高,块匹配法虽然精度低一些, 但算法简单、有效,常被采用。块匹配算法都是假定每一个块内的运动都可以用一个简单 的参数模型特征化,即每个块的视差值假定是相同的。显然,这种假设是不符合现实世界 的,但是,可以把块分割的足够小,或采用可变块尺寸视差模型,增加一定的运算复杂度 来弥补模型的精确度,这样就能更精确的表示现实世界物体。在基于h 2 6 4 的立体视频图 像编码中,视差估计和运动估计通常是采用块匹配的方法。 4 6 1 基于固定尺寸块匹配( f s b m ) 的视差估计和补偿 基于固定块匹配法是常用的视差估计方法口引,其基本原理是:以立体图像对中一副作 为参考图像,另一幅作为目标图像,把目标图像分割成固定尺寸的块,设定一定的搜索步 长,根据一定的匹配误差标准,对目标图像中的每个方块在参考图像中寻找最佳匹配块。 一般误差最小的块被选为匹配块。匹配准则是式3 - 4 中的m s e 准则。在很多编码方案中, 使用块的大小为1 6 x 1 6 ,但块的尺寸可根据图像的性质增加或减少。块匹配误差最小的块 即是匹配块,参考图像中的搜索到的匹配块相对于目标图像中的目标块的偏移就是视差矢 量d v ( d i s p a r i t yv e c t o r ) 。 基于f s b m 编码方法比较有效且实现简单,但此方案存在两个缺点: ( 1 ) 不精确的视差估计: 堕室坚皇奎兰堡主婴窒生兰垡笙茎笙塑兰茎三旦:! 丝塑皇竺望塑昼丝塑塑 ( 2 ) 重建图像中的块效应干扰。 当块尺寸较小时,由于噪声、遮挡纹理丢失、重复性纹理等原因,固定块方法可能导 致匹配不精确,而且处理视差的总开销变大。相反,当块尺寸较大时会增加相应的视差估 计误差,这样就使得编码传送补偿残差图像的码率增大。而且,如果块中包含物体边界, 固定块方法的恢复图像中就会有赝像干扰,如低比特率下的方块效应。这是由于我们假设 块内所有像素的视差位移量相同,而实际上,不同的物体会产生不同的视差。人眼视觉系 统对物体边界是很敏感的,这些块状干扰令人非常不舒服。 一般情况下,采用简单的误差准则的f s b m 不可能得到平滑的视差场,势必使得视差 场的熵较大,不精确的估计会增加视差场的编码比特率。 4 6 2 基于可变块尺寸匹配( v s b m ) 的视差估计和补偿 基于f s b m 预测编码的效率可通过改进的视差估计和补偿方法来提高。对视差场的 比特率可采用对视差场的适当平滑来降低。方块效应可通过邻近视差矢量之间的相关性来 降低。然而,为了保持或提高编码效率,需要在视差场的平滑度和视差补偿差值 d c d ( d i s p a r i t yc o m p e n s a t e dd i f f e r e n c e ) 帧的熵之间做折衷。比如,只要它与邻近块的 视差是相似的且不使预测误差增加太大,应选择视差矢量以降低视差场的熵。 为了降低d c d 帧的熵和方块效应,本文采用基于可变尺寸块匹配( v s b m ) 的视差估计方 法。 v s b m 的基本思想是放宽在固定块尺寸视差匹配中每一个块中的所有点的视差矢量相 等的假定。对d c d 块的熵较大的块,再分成更小的块,分别估计每一个更小的块的视差。 可变尺寸块视差估计实际上使高效的视差估计和补偿的视差场和所得的较低熵的d c d 帧之 间的折衷。通过减少块尺寸来减少估计误差。 v s b m 的主要优点就是在均匀区域采用大块,而在物体边界区域采用小块。h 2 6 4 中采 用可变块尺寸匹配技术,因此得到较好的预测效果。 对视差搜索和残差编码如3 4 3 所述,视差搜索只沿着水平方向。 4 7 实验结果及分析 为了检验算法的有效性,进行了两方面的实验。一是基于h 2 6 4 的三种立体视频编码 方案的预测性能对比实验,得出三种方案的性能。二是验证方案3 中混合预测算法对不同 复杂度图像序列的有效性。 3 9 南京邮电大学硕士研究生学位论文第四牵基于h 2 6 4 的立体视频压缩编码 本文算法的各编码方案是在j m v m 2 1 参考模型的基础上实现。在视差估计上,采用传 统的可变块尺寸匹配技术。j m v m 2 1 是基于c + + 面向对象的思想编写的支持m v c 的开发平 台,其配置是将每通道编码图像组第一帧称作a n c h o r 帧,每个图像组都有一个a n c h o r 帧 其它帧称作n o n a n c h o r 帧,。在编码前要配置双视点模式。其配置方法如下: v i e w o :i v i e w v ie w l :a n c h o rd e p e n d so nv ie w o ,n o n a n c h o ra ls od e p e n d so nv ie w o f i l e :s p s g l o b a l c f g 中的配置为: 右边为参数说明 n u m v i e w s m i n u s o n e1 视点数目减1 ,1 表示共有2 个视点。 v i e k _ i d0 配置视点0 的参考关系 f w d _ n u m a n c h o r r e f s0 前向a n c h o r 参考0 表示无参考 b w d _ n u m a n c h o r r e f s0 后向a n c h o r 参考0 表示无参考 f w d n u m n o n a n c h o r r e f s0 前向非a n c h o r 参考0 表示无参考 b w d _ n u m n o n a n c h o r r e f s0 后向非a n c h o r 参考0 表示无参考 v i e w i d1 配置视点l 的参考关系 f w d n u m a n c h o r r e f s1 前向a n c h o r 参考1 表示有参考 b w d n u m a n c h o r r e f s0 f w d n u m n o n a n c h o r r e f s1 b w d n u m n o n a n c h o r r e f s0 f w d _ a n c h o r r e f s00 前向a n c h o r 参考帧,第一个参数为0 ,第二个0 表示参考视 点0 f w d _ n o n a n c h o r r e f s00 前向非a n c h o r 的参考帧 其他参数设置为采用了编码帧率为3 0 f s ;运动估计水平和垂直搜索范围为 - 1 6 ,1 6 , 为了照顾到水平摄像机的抖动,采取视差估计水平搜索范围为 一3 2 ,3 2 ,垂直搜索范围为 _ 2 ,2 。一个图像组大小为1 2 。q p ( 量化步长) 设为2 8 。 图4 - i 方案1 中,左右通道独立采用i b b p 预测,通道间没有预测;图4 - 2 方案2 中 左通道采用i b b p 编码,右通道采用d c p 编码,没有m c p 预测;图4 3 方案3 中,左通道 的编码,采用i b b p 编码方式,右通道的编码,一个图像组除了第1 帧采用视差估计,其 余帧采用视差估计和运动估计相结合的编码。 南京邮电大学硕士研究生学位论文第四章基于h 2 6 4 的立体视频压缩编码 4 7 1 三种方案的预测性能对比实验 该实验的评价对象是右通道图像的预测误差,评价准则是绝对差( s a e ) ,其计算公式 如下: i f 陟k 卜f 陟k 1 s a e = 型尘生一1 0 0 ( 4 1 ) m n 2 5 5 、。 其中:f 表示当前帧原始值,f 表示预测值;1 1 和l q 分别表示图像的高和宽;y 和x 分别表示各像素点在图像中的纵坐标位置和横坐标位置。 1 实验参数: 过对微软提供的c o l o r 测试序列的左右两个通道的第0 2 4 帧共5 0 帧图像进行实验, 三种方案的预测性能对比实验结果如图4 - 6 所示。 图4 6 三种方案预测误差 2 实验分析 由图4 6 可知,方案3 的s a e 小于方案1 约0 1 0 ,小于方案2 约0 2 3 ,而方案1 的s a e 又比方案2 的小0 1 3 左右, 实验结果表明,三种方案之中,方案3 ( 即m c p 和d c p 相结合的编码方案) 的预测性能 最佳,编码压缩效果最好。 4 l 南京邮电大学硕士研究生学位论文 第四章基于h2 6 4 的立体视频压缩编码 4 7 2 方案3 不同图像对比实验 该实验针对不同序列的实验条件均相同,评价对象是双通道重建后的图像质量和压缩 比,图像质量的评价指标是峰值信噪比的平均值p s n r 。 1 实验参数 我们采用的是微软研究院的c o l o r 立体图像序列( 裁剪为6 4 0 x 4 8 0 ) 和m e r l 的e x i t 和 b a l l r o o m “”立体图像序列。e x i t 序列比较简单,背景为一个人进出:c o l o r 是两个人,稍 微复杂;b a l l r o o m 是一群人舞蹈,背景比较复杂,其格式均为6 4 0 x 4 8 0 。 2 实验结果 图4 - 9b a l l r o o m 解码序列第8 帧图片对 南京邮电大学硕士研究生学位论文 第四章基于h 2 6 4 的立体视频压缩编码 表4 - 1 压缩效果比较 图像序列 e x i tc o l o rb a l l r o o m 通道左右左右左右 c r3 8 74 0 5 2 8 5 3 0 32 5 62 7 4 p s n r3 6 53 6 73 5 23 5 33 3 53 3 6 b l t r a t e ( k b p s ) 图4 - 1 0 三种立体图像序列右通道p s n r 曲线 3 实验分析 由图4 7 ,图4 - 8 ,图4 9 ,本算法对于不同图像复杂度的序列均能得到主观评价良好的 重建图像。 由表4 - 1 可知,在图像质量并没有下降的情况下,本算法中右通道的压缩比要比左通 道略高。这是因为本算法结合了视差补偿和运动补偿,求得最小的误差值,充分去除了立 体视频两通道间的空间冗余度以及各个通道自身的时间冗余度。 由图4 - 1 0 可知,图像复杂度越高,同等实验条件下,图像质量p s n r 和压缩比就会越 小。这是因为,背景越复杂,人物运动越剧烈,图像像素间的相关性就会越小,运动补偿 预测和视差补偿预测需要考虑的因素越多,预测效果就会越差。 4 8 本章小结 本章着重研究了基于h 2 6 4 立体视频编码,通过对三种压缩方案仿真比较,发现联合 运动估计和视差估计的方法最好。这种方法是在h 2 6 4 编码框架上增加了双视点模式和视 差估计,仿真表明,它对不同复杂度的立体图像序列都是有效的。 4 3 南京邮电大学硕士研究生学位论文 第五章一种改进的视差估计快速算法 第五章一种改进的视差估计快速算法 立体视频压缩编码涉及两个通道,其编码复杂度大大增加,如何降低复杂度,是需要 着重考虑的问题。而视差估计是编码中非常耗时的部分,为了提高效率,必须寻找快速搜 索算法。本文在研究了视差估计算法之后,发现了视差估计和运动估计具有相关性,可以 快速进行视差估计,从而提高这个编码器的性能。 5 1 视差矢量的快速匹配算法 5 1 1 理论基础 与运动估计的搜索范围一般都限制在较小的范围内相比,视差估计的搜速范围往往较 大,特别是离相机越近,视差越大。所以视差估计的计算量非常大,必须寻找快速算法。 虽然运动估计比较成熟的快速算法很多,如三步搜索法、四步搜索法、对数搜索法等,但 由于视差估计和运动估计之间的差异,这些快速算法不宜直接应用到视差估计中来。但是 图像像素之间的视差存在一定的分布约束,这些分布约束可以用来实现视差矢量的快速搜 索。 经过研究我们发现视差矢量和运动矢量之间存在相关性h ,可以借助运动矢量来实现 视差估计快速算法。对于相邻两帧的图像,仅有少数的像素发生了运动,多数的像素的位 置并没有变化。对于位置不变的像素来说,视差是不变的。所以在进行视差估计时,能够 用前一帧图像的对应视差矢量作为搜索起始点进行小范围内的搜索,即可快速找到视差矢 量的实际位置。 5 1 2 视差矢量与运动矢量之间的相关性 如图5 1 所示,设t ( t ) ,i ,( 丁) ,厶( 丁+ 1 ) ,i ,( 丁+ 1 ) 分别表示在t 和t + i 时刻的左右两个 通道的图像。图中的方块表示某一1 6 x 1 6 的宏块在四帧图像中的不同位置,分别用 k 。,k 2 也,k 。表示。对于平行相机系统,我们只考虑水平方向的视差,垂直方向的视差可近 似为零,不予考虑。令d ( t ) 和d ( t + 1 ) 分别表示t 和t + l 时刻的水平视差,( _

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论