




已阅读5页,还剩48页未读, 继续免费阅读
(通信与信息系统专业论文)立体图像压缩编码技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
上海大学硕士学位论文 立体图像压缩编码技术的研究 摘要 随着社会经济的发展和生活水平的提高,人们对图像技术能够再现自然和真 实拯劳的要求也越来越高。在许多领域中对于三维立体图像的需求正不断增长。 然而这种增加视觉真实感的代价是图像的数据量比单通道时成倍的增加了。因 此,当筋坦窑笠圈堡过垄囤望莲亘叁堕塑里筮缠丑态这正在盛蕴运塑挞笪班究 垫直。通常,简单的固定尺寸块视差估计算法并不是高效的,而高效的视差估计 算法其运算量往往非常大。为了解决这一矛盾,套寥对于一种改进的重叠块视差 估计算法进行了研究,并通过对算法进行优化而大大地减少了运算量。 本文首先论述了立体视觉产生的理论,揭示了人的深度知觉可以只由双眼 视差单独决定,而无需考虑其它深度线索。本论文的研究正是建立在此基础之上 的。然后,在说明了立体图像编码的基本概念和原理的基础上,对简单固定尺寸 块的视差估计和补偿算法进行了改进,提出了混合残余图像的方法以提高重建图 像的质量,实验的结果令人满意。之后,分析了一种高效的基于重叠块的立体图 像对视差估计和补偿算法。由于该算法的运算量较大,不利于实时处理,本论文 提出了重叠块视差估计的快速算法。计算机的仿真结果表明,改进的重叠块视差 估计和补偿算法明显提高了立体图像编码的性能而本文提出的快速算法在不改 变重建图像质量的前提下,大大减少了视差估计的运算量。 关键字:立体图像对 图像编码 视差估计和补偿 占童查兰堡主堂垒丝奎 皇堡里堡曼笪塑塑垫查塑堡墅 a b s t r a c t w i t ht h ed e v e l o p m e n to fe c o n o m ya n dt h ei m p r o v e m e n to fl i v i n gs t a n d a r d ,t h e r e q u i r e m e n t f o rr e a ls e n s eo f i m a g e b e c o m e sh i g h e ra n dh i g h e r r e c e n t l y ,t h ed e m a n d f o r3 di r n a 西n gh a sb e e ni n c r e a s i n g t h ep r i c ef o rt h i sa d d e dr e a l i s mi st h ed o u b l i n g o fd a t aa si nt h es i n g l e - c h a n n e lc a s e s os t e r e o s c o p i ci m a g ec o d i n gi st h er e s e a r c h f o c u so fi m a g ec o d i n gs c h e m e g e n e r a l l y ,a l le f f i c i e n tc o d i n gm e t h o dr e q u i r e sl a r g e a n dc o m p l e xo p e r a t i o n i no r d e rt os o l v et h ec o n f l i c t ,t h i sp a p e rp r o v i d e sac o d i n g s c h e m ef o rs t e r e oi m a g e t h es c h e m es i m p l i f i e st h eo p e r a t i o no fc o d i n g ,a n da tt h e s a n l et i m ek e e p st h ep e r f o r m a n c eo f c o d i n ga l m o s tl l l l c h a n g e d a tf i r s t ,t h e p r i n c i p l e so fs t e r e o v i s i o ni s p r e s e n t e d ,a n dt h e b a s i ci d e a so f s t e r e o s c o p i ci m a g ec o d i n g i s e x p l a i n e di nd e t a i l t h e n ,t h ea l g o r i t h mo fm i x e d r e s i d u a li m a g ei s p r o p o s e d t o i m p r o v et h ee n c o d i n ge f f i c i e n c y 。r e s u l t so ft h e e x p e r i m e n t ss h o wt h a tt h ea l g o r i t h mh a sg o o dp e r f o r m a n c e so ni m a g er e b u i l d i n g a f t e rad i s p a r i t ye s t i m a t i o na n dc o m p e n s a t i o nb a s e do no v e r l a p p e db l o c kf o rs t e r e o i m a g ep a i ri si n t r o d u c e d ,af a s td i s p a r i t ye s t i m a t i o na l g o r i t h mi sp r o v i d e d c o m p u t e r s i m u l a t i o ni n d i c a t e st h a tt h ep r o v i d e da l g o r i t h ms i g n i f i c a n t l yr e d u c e st h ea m o u n to f o p e r a t i o n 、 哇t l lt h ep e r f o r m a n c eu n c h a n g e d k e y w o r d s :s t e r e o s c o p i ci m a g ep a i r i m a g ec o d i n g d i s p a r i t ye s t i m a t i o na n dc o m p e n s a t i o n u 上海大学硕士学位论文立体图像压缩编码技术的研究 1 1引言 第一章前言 当前,人类正步入信息时代,信息的重要性不言而喻。其中图像信息由于 具有直观性强、内容丰富的特点日益成为人们传输信息的重要媒质。多年的研 究已经使图像视频的有效表示方式取得了重要的进展。而通信技术的发展如此 之快,使得基于j p e g 、m p e g l 2 和h 2 6 x 标准【l 】的实时二维视觉通信已投入 了商业应用。例如,不需要高昂的旅费,便可实现面对面的视频会议。最近提 出的m p e g - 4 和m p e g 一7 标准还能满足交互式多媒体通信的要求。 那么图像技术下一步如何发展呢? 图像技术的发展主要是增加入的视觉感 觉的质量和真实性。例如,单色视频增加了静止图片的真实性,其后加入彩色 信息改善了单色视频的质量限制。近年来,随着屏幕更大更宽,分辨力也更强 的h d t v 的应用,这必将进一步提高视觉的真实感。 然而,当前流行的成像系统在表现自然和真实的场景时还有缺陷,改进视 觉逼真度的一种有前途的方法是加入深度信息。一般来说,在二维图像中是通 过各种三维因素,如:透视,遮挡,阴影,重叠,结构级差等,给我们以深度 感的。但这不足以给出真实的三维。基于最有效的深度线索是双眼视差的事实, 提出了一种对图像视频提供深度信息的有效方法一体视技术【2 j ,它采用多视 图的方法实现立体视觉,目前较多采用是两视图的方案,即分别对人的左、右 眼显示具有良好视差组合的立体图像对,利用双眼视差产生立体感。 显然,这种增加真实性的明显代价是其数据量比单通道图像的数据量成倍 的增加了。为了能有效地传输和存储立体图像,通常的解决方法有三种: i ) 增加信道的带宽: 2 ) 以高效的协议提高信道的利用率; 3 ) 用高效的压缩技术减少信源的数据量。 因为受限于现有的信道带宽,而高效的协议对于传输立体图像所产生的大 量数据,其帮助非常有限。因此,近年来立体图像视频压缩编码技术已得到广 泛重视。 类似于其它的压缩编码方案,对于立体图像视频的压缩可考虑由信源数据 1 上海大学硕士学位论文立体图像压缩编码技术的研究 中的冗余特点来实现。在单幅图像中,利用了图像内的空间冗余度进行压缩编 码,比如现有的j p e g 压缩标准;在视频图像中,利用图像内的空间冗余度和 前后图像间的时间冗余度进行压缩编码,比如现有的m p e g 和h 2 6 x 压缩标准。 而对于立体图像视频,我们还可以利用左、右图像之间的视差冗余度进行压缩, 于是视差估计和补偿技术成为了当前立体图像压缩编码技术研究的热点。虽然 在计算机视觉方面已经发展了许多视差估计技术,其中些也可以应用于立体 图像的编码,但如果直接采用这些技术却会由于各种因素的影响而不一定有效。 例如,因为一个视差矢量对应于摄像机和景物中相应点之间的距离,所以计算 机视觉主要强调的是精确的视差估计以重建3 d 景物的结构。而压缩编码的主 要着眼点是率和失真之间的折衷,立体图像视频编码的目标不是估计真实的视 差,而是为了得到高的压缩比。所以,如果处理( 传输和存储) 视差矢量场的 代价太高,则计算致密的视差矢量场是不值得的。因此,在立体图像视频编码 中广泛采用基于固定尺寸块匹配的方法,虽然真实的视差场明显不是块不变的 1 3 1 。基于固定尺寸块的方法实现比较简单而且在率失真意义上是有效的。因为 它利用的是规则形状的视差场,所以不需要额外的信息指定视差场的结构。 但是,基于固定尺寸块的视差估计也存在几个明显的缺陷,比如:不精确 的视差估计和重建图像中的腰像。一般来说,不精确的视差估计是不可避免的, 它主要来自各种噪声和同一块中的像素的视差矢量相同的假设。所以,普通的 固定尺寸块视差估计算法不能给出平滑的视差场,这会增加视差矢量场的熵, 于是导致了编码视差矢量场比特率的增加。 所以,基于固定尺寸块预测编码的效率可以通过改进视差估计和补偿的算 法来提高。为了改进编码效率已经提出了一些方法,比如:子空间投影法| 4 】、 扩展窗法口1 、平衡滤波法【6 】和基于率失真的方法等。 1 2 研究现状 最早提出立体图对压缩算法的是p e r k i n s ,他的算法利用了立体图对之间 。的相似性。是将立体图对的和与差分别进行编码,然后再传输。但是由于忽略 了立体图对之间存在的视差,该方法得到的图像质量随着视差值的增大而下降。 于是产生了一种改进的方案,将图像对中的一幅图像水平平移到使两图像的互 2 上海大学硕士学位论文立体图像压缩编码技术的研究 相关达到最大值的地方,然后再相减。这种方法基于了场景中的物体有相同的 视差值的假设,但事实并不是这样,其效果也不理想。 l u k a c s 首先提出将视差预测和补偿的方法应用于立体图像编码1 3 。它将立 体图像对中的一幅图像作为参考图像,单独进行编码。另一幅作为预测图像, 由参考图像预测生成。该算法是通过对立体图像对之间视差的估计达到消除视 差冗余的目的。在此基础上,又分为了基于对象和基于方块的方式。 基于对象的立体图像编码方法【7 j 是根据立体图对把图像分割成多个对象,然 后估计每个对象的三维结构、运动参数和视差参数,并对各个参数进行编码。 该技术的优点是图像的主观质量好,且压缩率可以很高,但它同时需要复杂的 分析过程来分割对象并估计每一个对象的运动、视差和结构,硬件实现比较困 难,不便于实时处理。 基于方块的立体图像编码方法是对当前流行的单通道图像编码方法的直接 扩展,它把图像分成大小相等的方块,分别进行编码。该方法主要基于这样一 个假定,即同一方块中的各像素点具有相同的视差,尽管事实可能并不是这样。 于是,在编码时利用左右视图之间的视差相关性,对目标图像的每一块分别进 行预测和补偿。方块基立体编码的优点是原理简单、技术比较成熟、硬件实现 容易,但在低比特率时重建图像的主观质量比较差。图像可能有方块效应。同 时,简单的方块基编码不能估计精确一致的视差场,编码视差补偿差值( d c d ) 帧所需要的比特率较高,使得编码效率降低。 方块基立体图像编码方法,技术比较成熟,算法的运算量大大少于基于对 象的方法,因此应用较广。为了克服方块基编码的缺点,研究者已经提出了很 多改进的方法。例如,对于方块效应可以用后处理和基于块分割的视差估计和 补偿算法9 1 来降低,但是,后处理的方法可能会降低整个图像以及块边界的质 量,基于分割的方法需要额外的比特来描述分割的结构。具有马尔科夫随机场 ( m r f ) 模型的视差估计利用了相邻块的视差信息i ”,可以克服视差场不一致的 问题。子空间投影( s p t ) 技术【4 1 是估计一个平滑的视差场的另一种方法。然而, 这两种方法在降低视差补偿差值帧的能量电平上是有限的。 还有一种有前景的改善立体图像编码效率的方法是重叠块匹配( o b m ) ,该 算法己被视频编码中用于运动补偿技术。w o o n t a c kw o o 和a n t o n i oo r t e g a 首 上海大学硕士学位论文 立体图像压缩编码技术的研究 先把重叠块的方法应用于立体图像编码,提出了一种高效的非迭代重叠块视差 估计和补偿方法【1 0 】。在该方法中,首先用加窗块的匹配方法进行视差估计,没 有考虑相邻块的影响,然后用选择的重叠块视差补偿方法进行视差补偿。但是, 该方案并不总能提供一个最佳的视差场,甚至该视差场本身也不可能是最佳的, 因为视差的估计仅仅依赖预测误差,即均方误差( 潞e ) 或平均绝对误差( 姒e ) 。 于是在此基础上又提出了具有马尔科夫随机场( m r f ) 模型和半像素精度搜索的 改进的加窗块视差估计方法。该方法对于减少方块效应和降低d c d 帧的熵有 定的意义,但是算法的运算量也增加很大。 1 3 研究的主要内容和创新 体视技术分为两大类:双眼体视和自动体视技术【2 】。这两种方法的基本差 别在于记录图像所需的信息的数据量上。双眼体视的信息量是平面图像的两倍, 它对人的左、右眼分别显示具良好视差组合的立体图对,通过大脑的融合产生 立体感。可惜这种广泛采纳的立体系统受到需要立体眼镜的限制。自动体视技 术克服了立体眼镜的限制,对立体技术的广泛应用做出了贡献,不过它所需要 的信息量是惊人的,至少需要四幅同一场景的数据量。目前,在立体电视和虚 拟现实中常用的是双眼体视的方法。 本文主要是基于双眼体视的原理,研究了双通道图像视频的特点,采用方 块基视差估计和补偿技术,对立体图像进行编码。其中,为了减少方块基立体 图像编码的方块效应,采用了重叠块编码中的加窗块算法;为了减少编码比特 率,采用了具有马尔科夫随机场( m r f ) 模型和半像素精度搜索的视差估计和 补偿算法。最后,用m a f l a b 在计算机上对提出的算法进行了仿真,得到了较好 的效果。 本课题的主要创新是: 1 、对简单固定尺寸块立体图像视差估计和补偿方法,提出了混合残余图像 算法。 2 、对立体图像对之间的基于重叠块的视差估计和补偿方法,提出了基于中 途停止技术的视差估计快速算法。 上海大学硕士学位论文立体图像压缩编码技术的研究 1 4 论文的结构 本文首先在第一章前言中简单介绍了立体图像的编码方法及本课题的主要 内容和创新之处。在第二章中,对立体视觉的基本理论进行了叙述。第三章阐 述了立体图像对编码的基本原理和方法,给出了一种简单立体图像编码的方案, 并提出了混合残余图像编码算法对其质量进行改进,给出了实验的结果。在第 四章中,首先从理论上分析了基于马尔科夫随机场( m r f ) 模型和半像素精度搜 索的加窗块视差估计和补偿算法,然后提出了基于中途停止技术的视差估计快 速算法,最后给出了实验分析和实验结果。第五章总结了本论文,并对立体运 动图像视频编码方法的发展进行了展望。 上海大学硕士学位论文 立体图像压缩编码技术的研究 2 1引言 第二章立体视觉原理 人类是通过各种感觉获取外界的信息。而在人的各种感觉中,视觉是获取 信息的最重要的手段。视觉进一步可分为视感觉和视知觉 1 “。感觉是较低层次 的,它主要接收外部刺激,通常是从分子的观点来理解我们对光反应的基本性 质,如亮度、颜色等。知觉则处于较高层次,它要将外部刺激转化为有意义的 内容。一般来说,感觉对外部刺激是基本不加区别地完全接收,而知觉则要确 定外界刺激的哪些部分应组合成所关心的“目标”,所以兼有心理因素。 视觉过程由多个步骤组成,其整体流图如图2 1 所示。视觉过程从光源发 光开始,光的模式通过场景中的物体反射进入作为视觉感受器官的左右眼睛, 并同时作用在视网膜上引起视感觉。视网膜是含有光感受器和神经组织网络的 薄膜,光刺激在视网膜上经神经处理产生的神经冲动沿视神经纤维传出眼睛, 通过视觉通道传到大脑皮层进行处理并最终引起视知觉。 ( 左眼) 图2 1 视觉过程流图 2 2 立体视觉的基本原理 人眼视网膜是一个曲面,但从成像的角度看它相当于2 - - d 空间中的一个 平面。然而,人却能从这样一个只有高和宽的二维空间上形成的视像得到一个 三维视觉空间,即还可以感知深度信息,这就是所谓的空间知觉。 6 上海大学硕士学位论文 立体图像压缩编码技术的研究 研究表明,人在空间视觉中借助了一些称为“深度线索”的外部客观条件 和自身机体内部条件,以帮助判断物体的空间位置,这些条件包括非视觉性深 度线索、单眼深度线索和双眼深度线索。 2 2 1 非视觉性深度线索 非视觉性深度线索有其生理基础,近年来机器人视觉中也有利用其原理 的,常见的类型有: ( 1 ) 眼睛聚焦调节 在观看远近不同的物体时,人的眼睛通过眼肌调节其水晶体以保证在视网 膜上获得清晰的视像。这种调节活动传递给大脑的信号提供了有关物体距离的 信息。 在眼睛的调节作用中,主要是依靠视网膜上的像的清晰度来知觉物体的距 离的。比如,当眼睛注视空间的某一点时,这一点的像清楚的聚焦在视网膜上, 而所有远于该点的像都是模糊的。清晰像和模糊像是分化距离的线索。许多实 验都证明,眼睛的调节作用只在二米的范围内有效,对于远距离的物体,该调 节便失效了。 ( 2 ) 双眼视轴的幅合 p l 6 b 咖 r 图2 2 双眼视轴的幅合 在观看远近不同的物体时,两眼还会自行调节以将各自的中央窝( f o v e a ) , 即视网膜中心对准物体,以保证物体的映像落在视网膜感受性最高的区域。为 上海大学硕士学位论文立体图像压缩编码技术的研究 将两眼对准物体,两眼视轴必须完成一定的幅合运动。看近距离物体,视轴趋 于集中;看远距离物体,视轴趋于分散。控制两眼视轴幅合的眼肌运动也能给 大脑提供关于物体距离的信息。但视轴的幅合只在1 0 米的距离范围内起作用, 观察太远的物体视轴接近于平行,对估计距离就不起作用了。 如图2 2 所示,假定p 点代表物体,l 和r 代表两眼的位蜃,目间距一般 为6 5 m m 。当我们双眼观看物体时,两视轴所组成的角是幅合角,即z l p r 。 幅合角与物体之间的关系为: 伽竿= 警 c z 叫 由距离d ( 单位:m m ) 可求出幅合角的大小,反之亦然。然而,把目间 距看成圆弧,在多数情况下也足够精确而且更加简单。于是z l p r 就等于6 5 d ( d 的单位是弧度) 。一弧度约等于5 7 3 。或2 0 6 ,2 6 5 秒,所以幅合角可用秒 表示为: 以朋= 堕x 206265=134f07225d ( 2 2 ) d 2 2 2 单眼深度线索 在空间视觉中刺激物本身的一些物理条件,通过观察者的经验和学习,在 一定的条件下也可以成为知觉深度和距离的线索,它们称为单眼深度线索。 ( 1 ) 大小: 根据视角测量的原理,如果保持视网膜的视像尺寸,则物体的大小和物体 距离的比值不变,这称为欧几里德定律: j 2 ( 2 3 ) 其中s 是物体的大小,d 是物距,s 是视网膜上的视像大小。据此可知, 当物体的实际大小已知,通过视觉观察就可以推算物距。进一步,当观察两个 尺寸相近的物体时,哪一个在视网膜上产生的视像大,则其距离就显得近些。 ( 2 ) 线性透视: 线性透视指空间物体在一个平面上的几何投影。较近的物体占的视角大, 看起来较大;较远的物体占的视角小,看起来较小。如图2 3 所示,远处物体 的尺寸逐渐缩小,在该情况下,深度的重要暗示就是线性透视。 图2 3 线性透视 ( 3 ) 物体的重叠: 物体的相互重叠是判断物体前后关系的重要条件。用它判断物体的前后关 系完全取决于物理的因素。当观察者或被观察物体运动时,重叠部分的改变使 我们更容易判断物体的前后关系。不过依靠重叠判断物体之间的绝对距离是困 难的。如图2 4 所示,在b 图中的物体重叠产生了立体感。 ( 4 ) 光亮和阴影的分布: 一般来说,明亮的物体显得近,而灰暗或阴影中的物体显得远。图2 5 是 一幅很有趣的图,从另一方面显示了光亮和阴影对人的立体感觉的影响。左图 看起来是凸的,而右图看起来是凹的,如果把图倒过来看会发现左图是凹的, 而右图是凸的。这种现象是生理上的错觉,其根据是生活中的光源一般是从上 往下照射的,所以下面较暗的图形容易看成是凸出来的。 ( 5 ) 空气透视: 一般我们所见较远物体的轮廓不如较近物体的轮廓清晰,这是由于远处景 9 上海大学硕士学位论文 立体图像压缩编码技术的研究 物因光线被空气中的微粒( 如尘埃、烟、水气等) 所散射造成的。所以常觉得 模糊不清的东西比看得清楚的东西要远些。 图2 4 重叠 图2 5 光亮和阴影 ( 6 ) 结构级差: 当人观察含有某种结构纹理且与视线不垂直的大表面时,随着距离的增加 会产生近处稀疏和远处密集的结构密度级差。这种结构密度级差给出了距离视 觉的线索。距离近,物体的结构容易分辨;距离远,物体的结构不容易分辨。 ( 7 ) 颜色分布: 在人们的经验中,远方的物体一般呈蓝色,近的物体呈黄色或红色,据此 人们常认为黄色或红色的东西较近,而蓝色的东西较远。 ( 8 ) 运动视差: 在周围环境固定而观测者的头或身体运动的时候,由于物体的距离不同导 1 0 上海大学硕士学位论文 立体图像压缩编码技术的研究 致视角变化快慢产生差异,较近的物体视角变化大,较远的物体视角变化小, 这种视觉变化的差异就是运动视差。运动视差会引起相对运动的知觉,近的对 象被知觉为向相反方向运动,较近的对象向后移动较快,略远的对象向后移动 较慢,而更远的物体与我们的运动方向相同的方向移动。因此,整个空间可看 作是依一个轴心在转动。 在观测者静止而环境运动时,情形是类似的。事实上运动情况与观测者的 注视点有关,实际中感觉到的运动是绕注视点在转动。我们从行驶中的火车里 向外看便是这种体验。 2 2 3 双眼深度线索 人对空间场景的深度感知主要依靠双眼视觉实现。在双眼视觉中,每只眼 睛的视网膜上各形成了一个独立的视像。它们传到大脑皮层后结合起来,产生 一个单一的具有深度感的视像。人的双眼在看物体时通过幅合而朝向一个共同 的方向,并且得到的映像是单一的,好像是被一只眼睛看到的。如果从主观感 觉的角度来看,两只眼睛可以看作是一个单一的器官,我们可以从理论上假设 在两眼正中有一个单一的眼睛来代表这个器官,称为中央眼。中央眼是我们处 理空间知觉时很有用的一个概念,当我们对物体进行空间定向的时候,把自己 作为视觉空间的中心,把从中央眼的中央凹朝向前方的线段作为视觉正前方来 判断物体的方位。如图2 6 所示: 图2 6 中央眼 l l 上海大学硕士学位论文 立体图像压缩编码技术的研究 如此,主观视觉方向与作用在视网膜上的任何一个相应点处刺激物的实际 位置可能不一致。换句话说,客观视觉空间和主观视觉空间会有差别。这里视 网膜上相应点指的是两个视网膜上具有共同视觉方向的视网膜单元。实际上, 两眼的中央凹就是两眼视网膜上的相应点,中央凹的视觉方向就是主要的视觉 方向,人是通过中央眼的主要视觉方向来确定物体在空间的位置。 2 2 4 双眼视差和立体视觉 双眼视差是知觉立体物体和两个物体前后距离的重要条件,借助双服视差 可以比借助眼睛调节、视轴幅合等生理条件更精确地知觉相对位置。 一般情况下,当人观察一个立体物体时,由于双眼水平相距6 5 m m ,所以 是从不同角度来观察的。具体说来,左眼看到物体的左边多一些,右眼看到物 体的右边多一些,这样在两个视网膜上得到两个不同的视像。换句话说,物体 上注视中心的像落在两视网膜的相应点上,而注视中心以外的点则不总能落在 两视网膜的相应部位,因此两眼视像不同,这就是双眼视差。 可 q 2 图2 7 双眼视差 如图2 7 所示,当两眼注视m 点时,设晶状体的中心为o l 和0 2 ,m l 和m 2 为两视网膜的中央凹,我们假定视网膜上有两点p l 和p 2 处于相应位置,b i jl p l o l m i 2 l p 2 0 2 m 2 ,则其对应点p 双眼视差消失。经过简单的几何证明可知,所 有的p 点的轨迹是一个通过是通过o l 、m 和0 2 的圆。在该圆上的所有点双眼视 上海大学硕士学位论文立体图像压缩编码技术的研究 差为零。这个圆称为全息圆( h o r o p t e r ) 。 显而易见,不在全息圆上的点,如q 点,在两视网膜上的对应位置是不一 致的,因此可感觉得到双眼视差并可以识别其距离上的差别。 现在用定量的方式来讨论,设点m 和点q 到眼睛的距离为d m 和d o ,可 令8 = d q - dm ,一般情况下6 d m ,所以简单的几何证明可得q 点在视网膜上的 像的对应位置的偏差为: 排加 锄m :“m - q = c 等一筹枷s :s s ( 2 4 ) 由上式可知,当o 大时,人眼就能感到两物体间的相对距离大:o 小 时,则两物体相对距离小。当两物体小到一定程度,人眼刚能感觉到两物体有 距离差别时的o 称为深度视锐。通常人眼的深度视锐大约为3 0 ”6 0 ”,经 过训练可达到5 ”l o ”,当深度视锐为1 0 ”时,能感觉到的最小的距离差为: d m = l m 时, 6m i n = 0 7 5 m m d m = l o m 时,8 m i n = 8c m d m = l o o m 时, 6m i n = 8 1 1 3 因此,对于中等视距,双眼视差信息是深度感的最重要线索。 图2 8 随机点立体图对 而根据j u l e s z 关于立体视觉的著名实验【,人的视觉系统可在对图像的内 容一无所知的情况下进行立体视觉处理,获得深度信息。也即是说。在没有其 它深度线索和熟悉的物体形状的情况下,单单依靠双眼视差信息也能获得深度 知觉。其实验用计算机生成两张一模一样的随机点图,在其中一张图中选择一 上海大学硕士学位论文 立体图像压缩编码技术的研究 定区域的随机点并作水平位移,得到随机点立体图对。从单幅图像看,这两幅 图都不过是由一些随机分布的点组成的图案,并无物理含义。但当用体视镜观 察时,左眼观察左图像,右眼观察右图像,双眼融合在一起时就得到了立体信 息。如图2 8 所示的随机点立体图对,可以观察到五星悬浮在背景的上方。 此实验表明,人的深度知觉可以只由双眼视差单独决定,而无需考虑其它 深度线索。本论文的研究正是建立在此基础之上的。 2 3 立体视觉实现方案及立体图像技术的应用 相对于传统平面显示技术而言,立体视觉的实现要利用至少两幅视图来产 生立体效果。若我们能让人的左、右眼分别地观察到具有视差相关性的左右视 图,那么就可以在人脑中恢复出真立体世界。目前流行的立体电视( 3 d t v ) 【n 和虚拟现实技术( v r ) 【1 4 】中的立体显示技术就是基于这一原理。 为了实现立体视觉,通常需要有外部设备的配合,一般常用的有时间并列 制和时分串行制两种方案。头盔显示方案是采用左右两个平面显示器,左右视 图并列地提供给两个显示器,这是当前虚拟现实技术中最普遍采用的手段。时 分串行制方案是把左右视图在单显示器上交替串行显示,并借助液晶开关眼镜, 使左右眼分别观看到对应的左右视图,只要交替和同步速度足够高,其效果和 并列式是完全相似的,这种方案已在立体电视技术中被采纳。 立体图像技术的应用范围是很广泛的。与二维图像不同,立体图像中加入 了深度信息,并带给观测者以更加真实的视觉感受。因此,它已经在工程、建 筑、科学、,教育、军事上得到了许多应用。一些立体图像系统已在三维计算机 图形学、三维视觉、远距离控制交通、远程操作、模拟与训练系统、分子模型、 计算化学和c a d 中得到设计使用。将来,这些系统会用于下一代汽车和飞机的 设计,基因接合,空中交通控制,内窥镜的外科手术,生物组成的显微镜研究, 甚至是在火星上担当寻找道路的任务。 当前人们对在数字娱乐媒体中应用的立体图像技术也给予了极大的关 注。例如:计算机游戏,虚拟现实,数字电视和数字电影。但是,现在广泛采 纳的立体系统需要借助不方便的立体眼镜形成立体视觉,且观察点一般是固定 的。而随着三维图像技术的发展,自动体视技术将最终能够解决立体眼镜和固 上海大学硕士学位论文 立体图像压缩编码技术的研究 定观测点的限制,但是也需要多得多的数据量记录同一场景,这又为图像的存 储和传输带来了不便。为了使三维图像技术取代日前流行的二维图像技术而走 向实用化,消除立体图像数据中的冗余度是必须研究及解决的课题。 上海大学硕士学位论文立体图像压缩编码技术的研究 3 1引言 第三章立体图像编码技术 通常,图像文件包含的数据量是巨大的,但这些图像数据往往高度相关。 静止图像常常含有大量的空间冗余信息,动态图像不但含有大量的空间冗余信 息还含有大量的时间冗余信息。此外,一般的图像数据中还存在其它各种冗余 信息,如:信息熵冗余、结构冗余和知识冗余等。图像压缩编码的目的是消除 各种冗余并在给定的畸变下使用尽量少的比特数表示和重建图像,以便能更好 地存储和传输图像。 对于立体图像压缩编码来说也是一样,无论是基于双眼体视技术还是自动 体视技术,需要的数据量更加巨大,分别是单通道图像的两倍和四倍以上。必 须大大压缩图像数据才能有效地进行存储和传输。同时,伴随立体图像产生的 视差冗余也为进一步压缩图像数据提供了可能。 自从l u k a c s 开创性地将视差预测和补偿的方法应用于立体图像压缩编码, 视差估计技术一直是该领域研究的热点。视差估计类似于视频编码中的运动估 计技术【l ”,它们都是利用两幅或多幅图像之间的相似性来降低编码图像的比特 率。因此,运动估计中的一些算法可以直接应用到视差估计中去。但是如果考 虑到立体摄像系统的几何约束,视差矢量被限制在了水平方向上,而与之相比, 运动矢量可在二维平面中指向任何方向。褪羞去量的这弛粒牲简化工祝差值计 垂圭矍。然而立体图像的另外一些不同于视频图像的特点,比如,由立体摄像系 统造成的噪声、遮挡和梯形失真等,又会明显降低视差估计和补偿的效率。 视差估计是立体图像对压缩编码的关键一步。在预测编码的框架中,立体 图像对的冗余度是根据预测得到的视差矢量和参考图像,通过补偿生成目标图 像来降低的。立体图像对最广泛采用的视差估计和补偿方法是基于固定尺寸块 的预测编码方法。本章先在3 2 节介绍了立体摄像系统的几何分析和视差的特 点,然后在3 3 中阐述了固定尺寸块立体图像压缩编码的基本原理和方法,在 3 4 中提出了一种基于混合残余图像编码的改进方法并给出了实验的结果。 1 6 上海大学硕士学位论文立体图像压缩编码技术的研究 3 2 立体摄像系统的几何分析和视差的特点 如前所述,三维立体视觉的产生来自于各种深度线索,比如:双眼的调节、 视轴的幅合、线性透视、空气透视、结构级差、重叠、阴影等,然而最有效的 深度线索是人的双眼视差。随机点立体图对的实验,更是证明了人的深度知觉 可以只由双眼视差单独决定。人感知三维立体景物的过程如下: 首先,三维真实世界中的景物投射到两只眼睛的视网膜上,形成二维图像, 由于双眼水平相距6 5 r a m 导致这两幅图像略有不同,即它们之间存在视差。之 后图像对通过视觉通道传到大脑皮层,并在大脑皮层中融合,人们通过先验知 识重建三维深度信息以感知立体视觉。 类似的,三维成像系统中人眼的功能可由立体摄像机来取代。 3 2 1 几何分析 三维摄像系统由左、右两个位置略有差别的摄像机构成f l “。如图3 1 所示, 我们将两摄像机的光学中心c t 和c ,的连线作为基线( b a s e l i n e ) ,物体上的 点p 与基线构成的平面称为外偏振面( e p i 0 1 a r p l a n e ) ,则该平面与成像平面的 交线lz 和l r 为外偏振线( e p i p o l a rl i n e ) 。显然,p 点在成像平面上的投影点 在其外偏振线上。 c 图3 1 立体摄像系统 右图像 c r 立体摄像系统主要有两种类型:会聚系统( 光轴相交) 和平行系统( 光轴 平行) 。由于会聚摄像系统可能产生诸如梯形误差的3 d 失真,我们通常采用平 上海大学硕士学位论文立体图像压缩编码技术的研究 行摄像系统。图3 2 是平行立体摄像系统的简化示意图,x 坐标表示水平方向, 且与基线重合,z 轴表示摄像机到物体的距离,y 坐标指向垂直方向,没有画出。 图中两条粗线表示左、右成像平面,0 t 和0 。是左、右成像平面的中心,p - 和p , 是p 点在左、右平面的成像点u 和u 。相对于平面中心的位移。图中p 。是正值, p ,是负值。f 是摄像机的焦距。2 h 是基线g c 。的长度。 l 二 p ( x ,y z ) l :游ki,。 匕9 i 么 c l :。c 、 c , 7 图3 2 平行立体摄像系统 x 不难发现,在平行立体摄像系统中,定义为p 点在左、右平面上成像点位 置差的视差( d ) 被限制在了水平方向,我们再由几何分析可知: d :只一p ,:型 ( 3 一1 ) z 可见,系统中p 点的视差,在摄像机的焦距和基线确定的情况下,只与摄 像机到该点的距离z 有关,且成反比。 3 2 2 立体图对和视差的特点 立体摄像系统拍摄的立体图对有以下特性: ( 1 ) 外偏振限制:左、右图像中的对应点一定位于其外偏振线上,这样 寻找匹配点的工作就从二维平面上的搜索变为一维线段上的搜索,该特性称为 外偏振约束( e p i p o l a rc o n s t r a i n t ) 特性。 ( 2 ) 唯一性:左图像中的一个点仅对应于右图像中的一个点。 ( 3 ) 相似性:左、右图像对中的对应点有类似的亮度。 ( 4 ) 连续性:如果物体的表面是平滑的,则除了物体的边界和遮挡区域 外,绝大部分图像的视差变化是连续的。 上海大学硕士学位论文 立体图像压缩编码技术的研究 由式( 3 一1 ) 可知,在平行摄像系统中,视差与物体到摄像机之间的距离 z 成反比。即离摄像机越远的点视差越小,反之越大。同一物体上的点,由于 与摄像机距离相近,其视差也相近,具有连续性。而且,平行摄像系统的外偏 振线是两条水平的直线,在有外偏振限制情况下,匹配点的搜索区被限制到一 条水平线上。即:视差矢量在垂直方向上为零。这些特性对于立体图像的压缩 编码是有价值的。 3 3 立体图像对压缩编码技术 对于两视图的立体图像编码技术,一种简单的方法是对左、右视图分别单 独地进行编码,其数据量自然是单通道图像的两倍。而为了能有效地存储和传 输,大大压缩其图像数据量是必要的。同时,如图3 3 可以看出,立体图对之 间存在极大的相似性。因此,通常对于立体图像使用视差估计和补偿的方法以 去除两图像问的相关性。从而达到压缩的目的。在该方法中,对立体图对中的 一幅图像进行单独编码,并作为参考图像,用于对另一幅图像的预测。 ( a ) 左图像 图3 3 原始b u s t 立体图像对 ( b ) 右图像 视差估计和补偿技术类似于大家熟知的视频压缩中的运动估计和补偿技 术。在视差补偿中,一幅图像被定义为参考图像,另一幅是由参考图像来对其 进行预测的目标图像。而作为原始图像和预测图像之差的残余图像,也即是视 差! 逢羞焦! 鲤9 i s p a r i t yc o m p e n s a t e dd if f e r e n c e ) 堕,还要进行单独的压 缩编码,以修正预测误差。视差估计过程是确定每个像素的位移矢量。由于对 每个像素单位单独处理将使运算复杂化,所以常用k k 的固定尺寸块来进行处 理。一般来说,用k = 8 或k = 1 6 大小来分块,对估计的准确度和方块的视差矢量 上海大学硕士学位论文立体图像压缩编码技术的研究 场的信息熵之间提供了良好的协调。 把目标图像分成大小相等的固定尺寸块后,需要根据一定的误差匹配准 则,对于每一块,在参考图像中确定的搜索窗内搜索其最佳匹配块。一般匹配 误差最小的一块被选中。两个常用的误差匹配准则是平均绝对误差( m a e ) 和均 方误差( m s e ) 准则f 1 7 】。假设以右图像作为参考图像,左图像为目标图像,且左 图像被分割成m x n 像素的固定尺寸块,则m a e 和m s e 的定义为: 删e 2 面茜蕃蕃i ,( 埘,行) 一一+ “,刀+ v ) i 3 2 ) 舰2 志善善 ) - f 4 m + u , n + v ) 1 2 ( 3 _ 3 ) 上式中u 、v 表示水平和垂直方向的视差。尽管m s e 比g t a e 有更好的性能, 一般选择m a e 而不是m s e 作为匹配准则。因为m a e 在硬件实现时更简单有效。 对匹配块的搜索是在一个受限的搜索窗中执行的。全搜索方法认为,在参 考图像中搜索的最佳匹配块,可以是这幅图像中的任何一个k k 块。这种全面 的搜索增大了计算量。而对于平行摄像系统,可以把搜索只限于水平方向【m 】。 由公式( 1 ) 可知,左图像中各物体相对于右图像的视差是正的,即以右图像为 参考图像时,搜索左图像各块在右图像中的匹配块应该向其右方搜索( 图3 2 中的负方向) ,且一般搜索步长可小于6 4 个像素。这样进一步限制了搜索范围。 对于大多数图像块,这种估计处理的效果很好。然而也有一些块的搜索结 果误差较大,产生了失匹配的情况。失配块的产生有以下三种原因:有限的图 像区、“遮挡”和一些纹理区域的失匹配。有限的图像区发生在左图像的右边缘 和右图像的左边缘。这些部分只出现在其中一幅图像中。“遮挡”是由于物体在 图像中的重叠产生的。如图3 4 所示,由于物体1 的遮挡,阴影所对应的物体 2 的部分只能在个成像面中成像。而对于细节丰富的纹理区,有时也会因匹 配误差较大而导致失匹配的情况。 塑差叁量型5 1 1 1 1 竺! ! ! ! ! ! ! 型场通常用差分脉冲编码调制( d p c m ) 来进行 无损编码,接着进行哈夫曼编码进一步压缩数据量。在给出图像的视差估计 后,残余图像由原图像减去估计值来得到,它主要包含边缘和高频信息。然后对 残余图像和参考图像分别进行编码。 上海大学硕士学位论文 立体图像压缩编码技术的研究 对立体图像的解码是相对简单的。残余图像和参考图像都被重建,再利用 视差估计信息,可以恢复立体图像对中的目标图像。 摄像机1 摄像机2 i。一 可碥 不可见区 r 成像面q 图3 4 遮挡的产生 3 4 混合残余图像法及实验 物体2 立体图像编码的研究热点一直集中在视差估计技术上,较少有人注意对残 余图像编码的研究。由于d c t 变换在图像和视频编码中的广泛应用,一般对残 余图像也直接采用d c t 变换,这是一种简单而效果较好的处理方法。对于失 匹配的块的处理,通常以搜索窗内绝对误差最小的块取代。但我们认为此时即 使最好的匹配很可能也是扭曲的。在该情况下,对给出的块根本不估计将是最 好的策略可设定一个门限以决定每个块的最佳匹配是否足够好,如果不是, 所给的块将不做处理。这个过程将产生一个混合残余图像( m i x e dr e s i d u a l i m a g e ) ,它的一部分是边缘和高频信息,另一部分是原始图像块。由于d c t 变 换是分块处理的,且与混合残余图像的分块相一致,因此用它处理混合残余图 像是合理的。 在实验中,我们使用了a q u a 、b u s t 和r o o m 三幅立体图对来进行仿真。均 以右图像为参考图像,左图像为目标图像。取方块的大小为8 x 8 像素,以平均 绝对误差准则( m a e ) 为匹配准则。考虑到平行摄像系统的外偏振约束特性及几 何特性,搜索匹配块时只进行水平方向的一维搜索,且步长为1 6 像素。 对于残余图像编码及失匹配块的处理,分别采用了前述两种方案。即: 方案一:以搜索窗内绝对误差最小的块取代失匹配块: 方案二:失匹配块不估计而对产生的混合残余图像编码。 上海大学硕士学位论文 立体图像压缩编码技术的研究 并与左右视图分别单独编码时的情况做了比较。图3 5 中只显示了其中的 b u s t 目标图像( 左图像) 的重建图。 ( a ) 方案一( b ) 方案二( c ) 单独编码 图3 5b u s t 左视图的重建图像 实验用重建左图像的质量和压缩比对三者进行了比较,以峰值信噪比 ( p s n r ) 表示图像的客观质量。结果数据列于表3 1 。 表3 1 实验数据比较 p s n r ( d b )压缩比c ,( 左图像) 图像 方案一方案二单独编码方案一方案二单独编码 a q u a 2 2 3 92 4 4 32 7 5 8l o 09 45 0 b u s t2 3 9 42 6 2 03 0 2 69 08 15 6 r o o m2 6 1 92 6 6 33 0 7 92 3 22 2 58 4 从模拟实验结果可以看出,方案一、方案二与单独编码左图像相比,压缩 比均有较大的提高,但是图像质量有一定的下降。方案二作为方案一的改进, 提高了目标图像的峰值信噪比约0 5 2 5 d b 。r o o m 图像对之所以只提高了约 0 5 d b ,是由于其失匹配块较少,因此用方
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024火电电力职业鉴定试题【夺分金卷】附答案详解
- 2024-2025学年度助听器验配师考前冲刺练习试题附答案详解【夺分金卷】
- 2025年北京市疾病预防控制中心面向应届生招聘26人笔试高频难、易错点备考题库及参考答案详解
- 2025自考专业(汉语言文学)考前冲刺练习试题【培优B卷】附答案详解
- 2025年电工考试综合练习附答案详解(研优卷)
- 2025年电商行业供应链协作合同
- 2023年度职称计算机能力检测试卷带答案详解(精练)
- 2025二手火锅店铺转让合同
- 2025年药店相关技能鉴定考前冲刺练习带答案详解(黄金题型)
- 2024-2025学年法律职业资格考试自我提分评估及参考答案详解一套
- 天健xbase现金流量表模板
- 《幼儿园保育教育质量评估指南》知识专题培训
- 艾青诗选向太阳课件
- 电站反恐防暴安全
- 学科带头人管理制度
- 第9课《创新增才干》第1框《创新是引领发展的第一动力》【中职专用】中职思想政治《哲学与人生》(高教版2023基础模块)
- 工业机器人离线编程与应用-认识FANUC工业机器人
- JCT 932-2013 卫生洁具排水配件
- 法院宣传稿范文大全500字
- 3.2.2新能源汽车电机控制器结构及工作原理课件讲解
- JTG-D40-2011公路水泥混凝土路面设计规范
评论
0/150
提交评论