(通信与信息系统专业论文)基于h264的立体序列图像压缩算法研究.pdf_第1页
(通信与信息系统专业论文)基于h264的立体序列图像压缩算法研究.pdf_第2页
(通信与信息系统专业论文)基于h264的立体序列图像压缩算法研究.pdf_第3页
(通信与信息系统专业论文)基于h264的立体序列图像压缩算法研究.pdf_第4页
(通信与信息系统专业论文)基于h264的立体序列图像压缩算法研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(通信与信息系统专业论文)基于h264的立体序列图像压缩算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要随着社会经济的发展和生活水平的提高,人们对图像技术能够再现自然和真实场景的要求也越来越高,立体视频技术已成为视觉领域新的发展方向之一。但较之普通2 d 图像和视频系统,3 d 视频系统需要存储和传输的数据量非常庞大,必须对数据进行压缩。因此,研究高速、高效、高质量的压缩算法是十分必要的。h 2 6 4 视频压缩编码标准是当前国际上最新的图像编码标准,具有比以往标准更出色的性能。它具有很高的编码效率,同时又有良好的网络亲和性,具有广泛的应用前景。因此,基于h 2 6 4 实现立体视频编码,更有可能突破立体视频在存储和传输上的难关。本文在简要介绍立体视觉的原理以及h 2 6 4 视频压缩编码标准关键技术的基础上,提出了基于h 2 6 4 标准的立体序列图像的压缩算法。将左路图像作为参考视频,完全采用h 2 6 4 视频压缩编码标准进行编解码;右路图像以左路图像为参考,采用运动补偿预测和视差补偿预测相结合的方案,充分利用h 2 6 4 的帧内、帧间预测、多参考帧、双向预测等工具,实现了对立体图像高效、高质的压缩。本文还结合j m 工具分别对h 2 6 4 的一些关键技术( 如,多参考帧预测、双向预测、熵编码等) 作了进一步的研究,并结合仿真结果来探讨其对图像压缩所带来的改进。仿真结果表明,所提出的算法可以有效地对立体序列图像进行压缩,能够获得较高压缩比的码流和较高质量的压缩图像,从而验证了算法的可行性和有效性。同时也进一步证明,关键技术的引入,可以显著提高编码效率和图像质量。使用h 2 6 4 的编码工具对立体图像进行编码,具有良好的应用前景。关键词:立体视频,视差,h 2 6 4 视频压缩,视频编码a bs t r a c tw i t ht h ed e v e l o p m e n to fe c o n o m ya n dt h ei m p r o v e m e n to fl i v i n gs t a n d a r d ,t h er e q u i r e m e n tf o rr e a ls e n s eo fi m a g eb e c o m e sh i g h e ra n dh i g h e r s t e r e ov i d e ot e c h n o l o g yh a sb e c o m eo n eo ft h en e wd e v e l o p m e n t si nt h ef i e l do fv i s i o n b u tc o m p a r e dt ot h e2 di m a g e s ,3 dv i d e os y s t e mh a st os t o r ea n dt r a n s m i th u g ea m o u n t so fd a t a s o ,d a t ac o m p r e s s i o ni sn e c e s s a r yi n3 ds y s t e m m e a n w h i l e ,ah i g h s p e e d ,h i g h - - e f f i c i e n c ya n dh i g h - - q u a l i t yc o m p r e s s i o na l g o r i t h mi sv e r yn e c e s s a r y h 2 6 4v i d e oc o d i n gs t a n d a r di st h el a t e s ti n t e r n a t i o n a ls t a n d a r df o ri m a g ec o d i n g i t sp e r f o r m a n c ei sm u c hb e t t e rt h a nt h ep r e v i o u ss t a n d a r d s w i t ht h eh i g hc o d i n ge f f i c i e n c ya n dt h eg o o dn e t w o r kc o m p a t i b i l i t y , i tm u s th a v eaw i d er a n g eo fa p p l i c a t i o n s t h e r e f o r e ,h 2 6 4 一b a s e ds t e r e o s c o p i cp i c t u r e sc o m p r e s s i o ni sf e a s i b l e t h i sp a p e ri n t r o d u c e st h ep r i n c i p l eo fs t e r e o s c o p i cv i s i o na n dt h ek e yt e c h n o l o g i e so fh 2 6 4 a n dw ed e s c r i b ea ni m a g ec o m p r e s s i o na l g o r i t h mb a s e do nt h eh 2 6 4f o rs t e r e ov i d e o f o rs t e r e ov i d e oc o m p r e s s i o n ,t h el e f tv i e wc a nb ec o n s i d e r e da sm a i nv i e w , a n dc a nb ec o m p r e s s e db a s e do nh 2 6 4 t h er i g h tv i e wc a nb ec o m p r e s s e db a s e do nt h el e f tv i e wu s i n gb o t hm o t i o n c o m p e n s a t ep r e d i c t i o na n dd i s p a r i t y c o m p e n s a t ep r e d i c t i o n a n dw i t ht h ei n t e rp r e d i c t i o n ,i n t r ap r e d i c t i o na n do t h e rh 2 6 4t o o l s ,w ec a ng e ta r te f f i c i e n tc o m p r e s s i o n t h i sp a p e ra l s oi n g o d u c e ss o m ek e yt e c h n o l o g i e so fh 2 6 4 ,e g m u l t i p l er e f e r e n c ep i c t u r e sf o rm o t i o nc o m p e n s a t i o n ,e n t r o p yc o d i n ga n ds oo n i tp r o v e st h a tt h e s et e c h n o l o g i e sa r ee f f i c i e n tb ye m u l a t i n g t h es i m u l a t i o nr e s u l t ss h o wt h a tt h ea l g o r i t h mi se f f i c i e n t i tc a na c c e s st oh i g h e rc o m p r e s s i o nr a t i oa n dh i g h e rq u a l i t yo fc o m p r e s s e di m a g e s f u r t h e rm o r e ,i ts h o w sag o o dp r o s p e c to fh 2 6 4a p p l i c a t i o ni nt h i sf i e l d k e yw o r d s :s t e r e ov i d e o ,d i s p a r i t y ,h 2 6 4 ,v i d e oc o m p r e s s i o n ,v i d e oc o d i n g独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特别加以标注和致谓 之处外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得墨鲞苤堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。学位论文作者签名:f 冒慈签字日期:p 卯7 年p 月7 日学位论文版权使用授权书本学位论文作者完全了解叁鲞盘堂有关保留、使用学位论文的规定。特授权墨盗盘鲎可以将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。( 保密的学位论文在解密后适用本授权说明)学位论文作者签名:f 髯麓9签字同期:。润r 7 r 年a 月7 同导师虢彳灰斋茅签字同期:卿年。月1 7 同天津大学硕士学位论文第一章绪论第一章绪论1 1 立体图像压缩的研究背景和意义图像信息由于具有直观性强、内容丰富的特点日益成为人们传输信息的重要媒质。在过去的几十年中,图像和视频通信技术得到了突飞猛进的发展。通信技术发展如此之快,使得基于j p e g 、m p e g l 2 和h 2 6 x 标准的实时二维视觉通信已经投入了商业应用,使人们享受快速的、交互式的、内容更加逼真的视频服务成为了可能。然而,当前流行的成像系统在表现自然和真实的场景方面还存在着一个很大的缺陷,即缺乏真实的立体感。比如在视频点播时,普通图像无法提供一种“身临其境”的感觉;网上购物时,普通图像不能提供有立体感的产品描述;网上诊疗时,普通图像也不能提供医生所需的多视角、有深度信息的图像数据等等【1 1 。所有这些问题都需要一种全新的场景描述方法来替代传统的二维图像。一种提高视觉质量和逼真度的方法是给图像中增加深度信息。一般来说,在二维图像中是通过各种三维因素,如:透视、遮挡、阴影、重叠、结构级差等,给人以深度感的,但这不足以给出真实的三维。另一种有效的提供深度信息的方法是体视技术,它利用了人类的双目视觉原理,同时给两只眼睛提供不同视角的图像,大脑通过观察来自不同角度的图像来感知场景的3 d 信息【2 】。当前,立体图像已经开始广泛的应用于立体电视、远程医疗诊断、航空导航、网上购物等多个领域。显然,在增加图像真实性的同时,其相应的代价也是十分明显的。立体视频系统的数据量比单通道图像系统的数据量成倍乃至多倍的增加,3 d 视频系统需要存储和传输的数据最非常庞大,必须对数据进行压缩,因此需要找到一种高速、高效、高质量的压缩算法。本论文就是从这种需求和背景出发,希望结合最新的视频压缩编码标准h 2 6 4 ,找到一种适合于立体图像的、能够很好的提高编码性能又保持立体图像立体感的预测编码方式。1 2 立体图像编码研究现状综述对立体图像压缩编码的研究,国际上开始于2 0 世纪8 0 年代末,当时的方法是把立体图像中的“左”、“右”图像当作独立的两幅图像,分别使用经典的天津大学硕士学位论文第一章绪论2 d 平面图像压缩方法来压缩。这种方法比较简单,但是没有利用立体图像对之间固有的联系,得到的压缩率比较低,不能满足实际使用的要求。步入9 0 年代以后,立体图像序列中的“左”、“右”图像之间存在的大量冗余信息得到了关注,利用计算机视觉的方法,可以对“左”、“右”图像进行视差估计,这种视差矢量类似于普通视频编码中的运动矢量 1 1 。近年来,随着各种二维图像编码的进步和三维立体成像及显示技术的发展,三维立体图像编码技术也取得了巨大的进步。立体图像压缩编码可分为两种基本的方法:一种是基于对象的方法,一种是基于块的方法。1 2 1 基于对象的立体图像编码( o b j e c t b a s e ds t e r e o s c o p i cc o d i n g )基于对象的视频压缩首先要将图像中的物体或物体的不同部分进行区分。单路视频实现这一目标比较困难,通常利用物体的运动参数、物体间亮度和纹理的差异等,但效果不佳。而立体图像序列除了可利用单路运动图像的分割方法外,还可利用立体图像中的深度信息进行图像的物体分割。对图像进行分割后,较为简单的做法就是将不同物体以不同压缩比进行压缩,如将图像中的人物和背景分别以较低和较高的压缩比来进行压缩。而较为复杂的做法是建立分割后各个物体的三维模型,以一系列参数来描述物体的形状、亮度和运动,来实现不同物体不同的压缩比。基于对象的立体编码技术的主要优点是图像的主观质量好,但是它对对象分割的要求比较高,且硬件实现比较困难,不便于实时处理【3 】。1 2 2 基于块的立体图像编码( b l o c k b a s e ds t e r e o s c o p i cc o d i n g )基于块的立体编码是对各种单序列图像编码方法的直接扩展。在有“左、“右”两序列的立体图像中,编码器首先把左图像分割成大小相等的方块,对左图像用单视图的方法进行编码,对右图像主要采用两种预测编码方法,一是利用左图像进行视差补偿预测( d c p :d i s p a r i t y c o m p e n s a t ep r e d i c t i o n ) ,二是利用右图像的前一帧图像进行运动补偿预测( m c p :m o t i o n c o m p e n s a t ep r e d i c t i o n ) 。在两种预测编码中采用误差较小的进行补偿,然后编码。它首先把右图像分块,也就是认为在方块中各点的视差是一样的,然后对每一块在左图像中用匹配算法作匹配,计算对应块之间的位置差异,形成块的视差矢量。基于块的立体编码的优点是原理简单、技术比较成熟、硬件容易实现,但是在低比特率时重建图像的主观质量比较差,图像有方块效应;同时简单的基于方块的编码不能估计精确一致的视差场。视差补偿值所需比特较多,编码效率比较低。基于方块的立体编码方法技术比较成熟,算法运算量比基于对象的方法相对较少,因此获得了广泛的应用。为了克服基于块的立体图像编码的缺点,研究者天津大学硕士学位论文第一章绪论提出了很多改进方法。方块效应可用后处理和基于块分割的视差估计和补偿方法来降低。然而,后处理方法可能会降低整个图像块以及边界的质量【3 1 。1 3 本论文的主要研究内容3 d 视频系统需要存储和传输的数据量非常庞大,必须对数据进行压缩,因此需要找到一种高速、高效、高质量的压缩算法。本论文就是从这种需求和背景出发,基于最新的视频压缩编码标准h 2 6 4 ,围绕一些关键技术,如:帧内预测、帧间预测、多参考帧预测、b 帧预测等进行理论上的研究和仿真,对各种算法作出一个权衡与比较,力求找到一种适合于立体图像的、能够很好的提高编码性能又保持立体图像立体感的预测编码方式。本文的主要贡献总结如下:1 系统的介绍了立体视觉的基本原理、h 2 6 4 视频压缩编码标准的关键技术等。在此基础上,提出了基于h 。2 6 4 的立体图像压缩算法研究的可行性和良好的应用前景。2 提出了基于h 2 6 4 的立体序列图像的压缩算法,并在h 2 6 4 校验模型j m l 0 2 上最终实现。通过仿真结果,对比采用h 2 6 4 和m p e g 2 不同标准时的数据压缩率和图像质量。3 结合j m 工具对h 2 6 4 的多参考帧预测、b 帧预测、熵编码等关键技术进行了进一步的研究,结合仿真结果探讨了这些关键技术对图像压缩所带来的改进。并通过仿真,对c o n f i g 文件以及p i c t u r ep a r a m e t e rs e t s 成员值、s e q u e n c ep a r a m e t e rs e t s 成员值等作了进一步研究学习,以加深对h 2 6 4 标准本身的理解与认知。1 4 本文的组织安排论文结构如下:第一章绪论。结合立体图像的发展过程,给出本文的研究背景、研究内容以及完成的任务。第二章立体视觉原理的概述。介绍了立体视觉的基本原理,主要从立体图像的获取、压缩和显示三方面对立体视觉技术进行了简要的描述。第三章h 2 6 4 视频压缩编码标准概述。主要介绍了h 2 6 4 的制定背景、结构和关键技术等。天津大学硕士学位论文第一章绪论第四章着重介绍了在立体序列图像压缩方面的研究成果,提出基于h 2 6 4 的立体图像序列的压缩算法,并通过仿真加以验证。第五章对h 2 6 4 的一些关键技术作了进一步的研究,并通过仿真结果证明技术上的优劣。结束语对所做的工作进行了总结,总结了所学到的知识。天津大学硕士学位论文第二章立体视觉原理2 13 d 历史简述第二章立体视觉原理公元前3 0 0 年,e u c l i d 发现当人的眼睛同时观察相似的两幅图像时,会感觉到场景的3 d 深度信息,这种视觉被称为人眼的立体视觉。1 7 世纪3 0 年代早期,w h e a t s t o n e 利用一组手绘的图形完成了对3 d 深度的第一次描述。后来,随着照片的发明出现了立体照片,但当时的立体照片并没有多少应用价值,更多的是其重要的历史意义。1 9 世纪中期,b r e w s t e r 和h o l m e s 利用一些透镜的组合相继发明了w h e a t s t o n e 观察器,普通的人也可以享受到立体照片带给他们的“真实感 ,从而使立体照片更加普及。进入2 0 世纪,这种只能描述单一场景的立体图像对不再能满足人们的要求。1 9 5 1 年,纽约放映了人类历史上第一部立体电影,它揭开了立体视频研究的序幕。但是,当时只是试验性质的放映,投影设备和观看仪器的不完善限制了这种立体电影的发展。在这之后的几十年间,立体图像和立体电影并没有太多的应用。1 9 3 9 年,c h r y s l e rm o t o r s 利用偏振的材料制成了一个屏幕用来投影全彩色的3 d 立体电影,这样人们通过佩戴一种价格便宜的立体眼镜就可以感受这种“身临其境 般的电影。当时,在美国和欧洲的一些发达国家也建造了一些专门观看立体电影的影院。随着1 9 3 9 年电视机的诞生,人们自然而然的开始研究立体电视。但是,受当时半导体技术和显示器材的限制,无论使用何种投影技术和投影屏幕,人们还是必须佩戴特殊的眼镜才能观看立体影像。这种不方便性使得在后来的3 0 4 0 年里立体电影和电视并没有在全球范围内推广。可以说,这一领域的研究在这一阶段又一次陷入了低谷。步入2 0 世纪9 0 年代,立体电视和立体电影重新引起了科研人员的兴趣,它的发展进入了一个新的历史时期。这个时期,半导体元器件和电子显示器材飞速发展,许多实用的立体系统和立体自由显示设备使得人们不需要佩戴特殊的眼镜就可以感知3 d 深度信息。这样,世界各地越来越多的人认识到了3 d 影视广阔的发展前景,许多国家组建了专门的科研梯队来研究和开发立体视频系统【1 】。最新的可编程的多媒体数字处理器,高速的数字网络的引入,日益增长的计算能力都会不断地推动3 d 技术的发展。天津大学硕l 学位论文第= 章立体视觉原理2 2 立体成像的原理人的大脑可以处理左右两眼观察到的外部二三维i i i :界的两幅图像之间的细微差别,这种能力就叫做立体视觉。立体图像对就是在同一场景下左右两只眼睛分别看到的图像。物体在这两图像中的相对位簧差称为视羞( d i s p a r i t y ) 。我们的大脑能测量这种视差经过大脑视神经的融合,从而产生椿度感觉。可以自己做个实验:先闭上左限睁开右限,将任何一件物体放柚干上进行观察然后睁开左眼,闭上右眼,再观察这个物体,会发现这个物体的位置已经后移了段距离并且横向向右移动,这就是3 d 成像的原理。获得立体场景的两个不同视点的投影图像的过程叫做立体成像,它为在3 d场景里捕获相对的深度信息提供了一个简单方使的方法。立体成像模仿了人类的视觉系统,被称作立体图像对的两个投影翻像足通过把3 d 场景成像到两个适当放置的成像传感器来获得的。通过两个相隔定距离的成像镜头的线段称为相机基准线。合适的相机基准线就是人类两眼之间的距离。立体成像卉计算机视觉系统中也是很有用的,可以基于成像几何结构的知识干u 左右视图相应点之间的视差用屯体罔像对计算场景中的潍度信息。但是,这些系统通常使用更宽的相机基准线来增强深度估计的精确度【4 j 。图2 一l 是人限视觉3 d 成像的厚理示意图。2 3 立体图像的获取璺瓣渗5图2 - 1 人眼视觉3 d 成像的原理实际立体图像获取时需要注意以f 几点。首先m 于自然界的环境光为人类提供必要的空问信息,而i i 接受不真实的环境光会导致感受不真实的场景。叫此天津大学硕士学位论文第二章立体视觉原理在利用现有的摄像机模拟人眼接受环境光的过程中,选择的摄像机的失真系数应该尽量小。其次,一般人的两眼视力水平大致相似,包括视锐度、分辨率、对比感受性等参数大致相似,因此用于模拟人的两眼的两台摄像机的各种参数应该尽量接近,另外两台摄像机拍摄时还需像人眼观察外部世界一样保持完全同步。最后,两台摄像机的空间几何关系也应该与人眼的相吻合,比如最重要的几个参数应该是摄像机之间的距离应近似为6 5 c m ,即人的瞳距,两个摄像头平行架设,拍摄方向与摄像机之间的连线垂直。以上定义了按照视觉心理学要求立体图像获取时的一些限制。可以说这样获得的图像对是严格意义上的立体图像。在计算机视觉中,还有另外一种广义上的立体图像:从不同角度对同一场景所拍摄的两幅或多幅图像称为立体图像集。这种广义的定义,对两幅或多幅图像的拍摄间距、摄像机的拍摄方向没有任何限制。这样获得的多幅图像虽然跟人的双眼获取的立体图像不一样,也就是说人观看这样的图像并不一定能产生立体感,但它们在计算机视觉中有其他很多优点。比如非平行摄像头的摄像机获取的两幅图像比一般的平行摄像头摄像机有更多的重合区域,这样就更容易获取感兴趣的物体、恢复距离信息;增大摄像头之间的问距可以获得更精确地深度估计;多摄像头获取多幅图像可以避免两摄像头获取的立体图像处理中存在的问题等等。通常情况下,在图像获取时尽量做到捕获的是严格意思上的立体图像。这对于后期的立体图像对或序列的压缩、在一定范围内立体视觉的恢复都比较简单。但是,在实际的系统中,一般无法获取严格意义上的立体图像对。在实际应用中,摄像头轴心不一定能做到完全平行,这将对后期的处理产生很大的影响;左右两个摄像头的物理特性不一定完全相同,这样经过量化后,左右图亮度的均值和方差就会有较大的差别;而且摄像头架设时,在水平高度上的差别不一定能完全忽略,从而导致在左右图之间人为地引入垂直视差。实际操作中还有其他很多影响因素,无论是由哪种原因引起的,都有很多的方法可以将其重新校正,成为误差允许范围内的标准立体图像。综上所述,捕获的所谓的立体图像可以分为两种,一种是狭义上的立体图像,即它的捕获规则和人眼的类似。另一种是广义上的立体图像,它的捕获与人眼的捕获过程不尽相同。假如要求捕获的是狭义上的立体图像,如果在捕获过程中有偏离则需要利用某种方法进行校正。当然,有时也需要利用广义立体图像的优点进行立体视觉的处理p j 。天津大学硕士学位论文第二章立体视觉原理2 4 立体图像的显示通过上述分析,可以知道:只要人的左、右眼能分别看到有一定视差的图像对,那么通过人的视神经的处理和融合,人们就能得到该图像对的立体视觉效果,当然该图像对之间的视差要符合三维视觉习惯。立体显示可以分为三类:立体眼镜显示、头盔显示和自由立体显示。前两种需要观察着配戴专用的光学仪器,自由立体显示则融合了眼镜定位技术。2 4 1 立体眼镜显示1 颜色复用法( a n a g l y p h )这个方法是观看立体图像最原始的方法之一。采用的技术是左右两眼的图像通过互补色过滤,用两个有色滤色镜观看时可产生三维立体效果。但是,颜色的竞争效应和彩色适应上存在的视觉上短暂的偏移限制了这种方法的使用。2 时间复用显示法( t i m em u l t i p l e x e dd i s p l a y s )这个显示方法利用了人类视觉系统能够融合小于5 0 m s 时间延迟的立体图像对的特点。左右眼的视图快速地交替显示并且用液晶快门同步,这个快门总是轮流地对一只眼睛打开同时对另一只眼睛关闭。只要当这种“交替”频率足够高,人感觉到的效果就和双眼同时看的效果相仿。两个图像都是由同一个显示器以全分辨率产生的,因此克服了几何和颜色上的差别。但是刷新频率要足够的高,否则将产生“闪烁”,令人感到不舒服。3 极化眼镜法( p o l a r i z a t i o ng l a s s e s )使用极化眼镜观看两个显示器上显示的正交极化的图像可以减少在颜色复用法中存在的颜色的竞争效应。但是,在通过滤波器时会有超过6 0 的光损失掉,尽管这样,极化技术仍然在立体视频投影屏幕上得到了广泛的应用。4 时间序列控制极化法是时间和极化复用的结合。思想是改变显示器上的液晶面板的极性来控制左右眼的转换。它有两个特点,液晶面板由多个部分组成,这些部分在屏幕上的活动区域独立工作,因此能够保证每只眼睛只接触指定的图像内容,减少互相干扰。多个显示矩阵可以无需额外的同步电路工作【4 1 。2 4 2 头盔显示头盔显示普遍应用在虚拟现实和三维视觉应用上。头盔的两个镜片其实就是两块显示屏,装有类似传感器之类的装置,它可以3 6 0 度实时跟踪使用者头部的运动自动产生转弯、仰俯等3 d 动作信号。不仅不需要任何适配卡可直接与串口天津大学硕士学位论文第二章立体视觉原理连接,它更可以直接和家用电视机、录像机等一切视频源连接。但是,头盔显示在重量、分辨率、计算复杂度和用户舒适感上面存在一定的欠缺。2 4 3 自由立体显示从光学原理上讲,利用各种光学面,无需眼镜即可观看立体图像,因此被称为自由立体( a u t o s t e r e o s c o p i c ) 显示方式。自由立体显示技术主要分为三类:电子全息显示、基于体积测定的显示和方向复用的显示。1 全息技术它是一种再现物体的空间形象的方法。在底片或版片上记录由分裂的激光束干扰下的图案,然后再用普通光或激光显示出该图案。全息技术的方法具有存储和复制光波的特性,精确性很高,比较适合全视角的3 d 显示。但是,在显示以及记录复制的过程中需要的是相干光,只能用在立体场景是在特殊的条件下得到的情况,这是它的一个主要缺点。2 基于体积的方法,主要分为两类:1 ) 利用自发光体或反光介质长时间地占据某一体积的空间或定期地进行扫描。2 ) 多层面显示:图像中的不同深度的层次按时间的顺序依次显示在c r t上,而观察者则透过一个变焦距的球面镜来观看监视器。由于空间中某一点的光是无法被它前面的点所吸收,所以基于体积的方法显示的物体是透明的。因此,这个方法实际的应用限制在描绘的物体比较易于符号化或用线框模型来表述。3 方向复用系统,主要有以下四种方法:1 ) 基于衍射的方向复用2 ) 基于折射的方向复用3 ) 基于反射的方向复用4 ) 基于遮盖的方向复用2 5 立体图像的压缩通常来讲,图像文件包含的数据量是十分巨大的,但是这些图像数据往往高度相关。静止图像常常含有大量的空间冗余信息,动态图像不但含有大量的空间冗余信息还含有大量的时间冗余信息。此外,一般的图像数据中还存在其他各种冗余信息,如:信息熵冗余、结构冗余和知识冗余等。图像压缩编码的目的是消除各种冗余并在给定的畸变下使用尽量少的比特数表示和重建图像,以便能更好地存储和传输图像。天津大学硕士学位论文第二章立体视觉原理对于立体图像压缩编码来说也是一样,其数据量更加巨大,是单通道图像的两倍乃至更多。必须大大压缩图像数据才能有效地进行存储和传输。同时,伴随立体图像的视差冗余也为进一步压缩图像数据提供了可能。已知图像在像素域存在三种主要图像冗余,包括:编码冗余、像素问冗余和心理视觉冗余。1 编码冗余可以通过重新编码源信息( 如:灰度级像素值) ,以较少的比特表示较常出现的信源值,从而减少描述图像所需的比特数。如包括霍夫曼编码和算术编码的熵编码。2 像素问冗余利用像素间的相关性,去除像素间冗余,包括:帧内冗余( 帧内的相邻像素间) 、帧间冗余( 连续帧间) 和视图问冗余( 左、右视图间) 。3 心理视觉冗余心理视觉冗余是在观看中可以忽略的图像信息。心理视觉研究表明,人眼对各种视觉信息的反应灵敏度是不同的,双目视觉的特性,如双目竞争和视差灵敏度等特性,都可用于判断立体图像对中的心理视觉冗余数据。在此,这里主要讨论三种立体压缩方法:基于视差和深度的编码( d i s p a r i t ya n dd e p t hb a s e dc o d i n g ) 、混合分辨率编码( m i x e dr e s o l u t i o nc o d i n g ) 和多视点编码( m u l t i v i e wc o d i n g ) 。2 5 1 基于视差和深度的立体编码自从l u k a c s 开创性地将视差预测和补偿的方法应用于立体图像压缩编码,视差估计技术一直是该领域研究的热点。视差估计类似于视频编码中的运动估计技术,它们都是利用两幅或多幅图像之问的相似性来降低编码图像的比特率。视差估计是立体图像压缩编码的关键一步。在预测编码的框架中,立体图像对的冗余度是根据预测得到的视差矢量和参考图像,通过补偿生成目标图像来降低的。立体图像对最广泛采用的视差估计和补偿方法是基于固定尺寸块的预测编码方法。基于视差和深度的立体编码技术根据所处理图像或视频源的获取方法不同,分为主动发现和被动发现技术。主动发现技术用于处理由深度摄像机拍摄的素材,利用深度映射图识别r o i( r e g i o n so fi n t e r e s t ) 区域,在重要的区域采用高比特率编码,在次要的区域采用较低的比特率编码,以获得最好的压缩图像质量。被动发现技术用于处理由立体摄像机对拍摄的素材,包括基于亮度的方法和天津大学硕士学位论文第二章立体视觉原理基于特征的方法两种,基于亮度的方法将视图分割成具有固定大小的互不重叠的像素块,在另一幅视图( 参考视图) 中寻找最匹配的块,从而确定相应的水平视差。近期研究1 6 儿7 】表明,也可以使用大小可变的块,使得当匹配误差过大时,减小块的大小,以获得更好的匹配。此方法原理简单,实现方便,但是,这种方法由于建立在视差均匀分布于像素块这一假设的基础上,与实际情况并不完全相符,因此不能反映出真实的视差。基于特征的方法【8 】【9 】为避免上述问题,使用图像特征,如边缘或对象等,将目标图像中的特征与参考图像中的特征进行匹配,以生成视差向量。由于在图像重建中引入的编码误差更少,此方法特别适用于低比特率条件下的压缩,但识别对象需要复杂的分析过程,因此,压缩率的提高是以运算复杂度的增加为代价的。j i a n g 和e d i r i s i n g h e 提出了一种混合方法【l 们,在基于对象级别估计视差,而在基于块级别进行编码。基于视差和深度的立体编码技术非常易于和m p e g - 2 标准结合,通常有两种方法:一是按照m p e g 2 标准对每个视图分别进行编码,二是结合视差估计进行基于m p e g 2 的编码。在后一种方法中,左视图按照传统的方法进行i ( i n t r ap i c t u r e s ) 、p ( p r e d i c t i v ep i c t u r e s ) 和b ( b i d i r e c t i o n a lp i c t u r e s ) 帧编码;右视图仅包括具有视差补偿或者具有视差和前向运动补偿的帧,由左视图中的i 帧和p 帧预测得到。2 5 2 混合分辨率编码p e r k i n s 1 1 】所提出的混合分辨率编码的原理是:立体图像的最终效果由立体图像对中高分辨率的一幅决定。因此,如果立体图像对中的一个视图具有很高的图像质量,另一个视图的分辨率可以有所降低,以获得压缩。例如,若使用下采样率来处理低分辨率视图,则仅需要比高分辨率视图多6 的带宽,就可以传输立体图像对。不过,由于降低了其中一幅视图的分辨率,此方法仅适用于对立体精度要求不高的应用,如娱乐等;而不适用于对深度精度要求很高的应用,如医学测量、远程控制等。2 5 3 多视点编码多视点视频原指由位置不同的多个摄像机在相同时刻对相同场景进行拍摄时所产生的多个视图的序列,一个视图对应一个视点。多视点系统固有的庞大数据量可以利用视点间的冗余来减小。通过有效的视差信息,来压缩原始多个视点为少数关键视点。接收端根据少数关键视点和视差信息,可以重建中间视点。三维立体视频是多视点视频的一个具体应用。对于三维立体视频图像来说,采用多视点编码方法,是压缩数据的一个可行的方法。天津大学硕士学位论文第二章立体视觉原理1 9 9 6 年,多视点框架( m u l t i v i e wp r o f i l e - m v p ) 作为一个修订部分被写入m p e g 一2 标准中。其主要原理是利用时域可伸缩( t e m p o r a ls c a l a b i l i t y t s ) 模式来针对多摄像机序列进行压缩,遵循m p e g 2 语法【1 2 1 。其以较低的帧率来编码一个基本层码流,并且定义一个增强层,以用来插入附加帧来对满足两个码流的帧率。编码增强层的有效方法,是在增强层帧中,根据每个宏块的最佳运动补偿预测来进行判断,这个预测或来自基本层帧,或来自最近重构的增强层帧。对于这样一个信号,实现立体和多视点信道编码可以直接用时域可伸缩语法。为此,一个摄像机视点的帧( 通常为一个左视点) ,被定义为基本层,而其它的帧则被看做增强层。由基本层到增强层的预测变成了视差补偿预测( d i s p a r i t y - c o m p e n s a t e dp r e d i c t i o n ) ,而不是运动补偿预测。基本层表示一个单视点序列。对于增强层来说,虽然视差补偿预测在被遮挡区域会失败,但仍可通过相同信道里的运动补偿预测来保持重构图像质量。由于m p e g 2m v p 主要为立体序列所设置,它并不支持自身差别很大的序列。另外也还有一些其他编码立体序列的方法,有的方法将立体序列合成为一个单序列,其在每帧图像的水平方向上减少分辨率,然后将多个视点的帧合成一帧进行编码l l 引。另一种相似的方法是降低垂直分辨率,然后合成一帧【1 4 】。这两种方法都会带来分辨率下降的严重问题。随着视频编码标准的发展,基于新的视频编码标准的多视点编码算法仍然在相应产生。2 6 本章小结本章主要介绍了立体视觉的发展历史、基本原理以及立体图像的获取、显示和压缩等方面的技术。其中,着重介绍了立体图像的压缩部分,这部分内容也是在本论文要着重探讨的部分。本文将在后续章节中详细介绍基于h 2 6 4 视频压缩编码标准的静止立体图像对和立体图像序列压缩编码的研究情况。天津大学硕士学位论文第三章h 2 6 4 视频压缩编码标准第三章h 2 6 4 视频压缩编码标准h 2 6 4 a v c 标准是当前国际上最新的图像编码标准。被i t u t 命名为h 2 6 4 ,i s o i e c 则把此标准叫做国际标准1 4 4 9 6 1 0 ( m p e g - 4 的第1 0 部分) 高级图像编码( a v c ) 。制定此标准的主要目的就在于增强图像的压缩效率和改善图像数据在网络中的传输。h 2 6 4 标准在当前图像标准中压缩效率是最高的,它比h 2 6 3标准提高将近一倍。本章首先介绍该标准的制定背景,然后着重介绍该标准的结构和关键技术,这样可以对h 2 6 4 有一个更好的认识、理解过程。3 1h 2 6 4 的制定背景随着社会的不断发展,视听领域发生了一系列巨大的变化,数字电视、会议电视、高清晰度电视( h d t v ) 等新技术和新系统正迅速走进我们的生活。与传统的模拟电视相比,这些新系统的突出特点是采用了全数字的图像声音处理技术。随着这些数字电视系统的日益成熟和不断发展,针对不同的应用领域,一系列相应的数字视频音频编码标准也迅速地被制定并不断得到完善。这些标准都有一个共同的不断追求的目标,即在尽可能低的码率( 或存储容量) 下获得尽可能好的图像质量。而且,随着市场对图像传输需求的增加,如何适应不同信道传输特性的问题也日益显现出来。这就是i s o 和i t u t 两个国际标准组织联手制定的视频新标准h 2 6 4 所要解决的问题。该标准自1 9 9 8 年1 月开始草案征集:1 9 9 9 年9 月,完成第一个草案;2 0 0 1年5 月制定了其测试模式t m l 8 ;2 0 0 2 年6 月的t 第五次会议通过了h 2 6 4的f c d 板;2 0 0 3 年3 月正式公布l 】引。h 2 6 4 和以前的标准一样,也是d p c m 加变换编码的混合编码模式。但它采用“回归基本”的简洁设计,不用众多的选项,获得比h 2 6 3 抖好得多的压缩性能:加强了对各种信道的适应能力,采用“网络友好”的结构和语法,有利于对误码和丢包的处理;应用目标范围较宽,以满足不同速率、不同解析度以及不同传输( 存储) 场合的需求;它的基本系统是开放的,使用无需版权。在技术上,h 2 6 4 标准中有多个闪光之处,如统一的v l c 符号编码,高精度、多模式的位移估计,基于4 4 块的整数变换、分层的编码语法等。这些措施使得h 2 6 4 算法具有很高的编码效率,在相同的重建图像质量下,能够比h 2 6 3 节约5 0 左天津大学硕士学位论文第三章h 2 6 4 视频压缩编码标准右的码率。h 2 6 4 的码流结构网络适应性强,增加了差错恢复能力,能够很好地适应i p 和无线网络的应用。3 2h 2 6 4 的结构3 2 1 名词解释为了了解h 2 6 4 编解码器的细节,必须对以下名词的定义有清楚的理解【1 6 】:1 场和帧视频的一场或一帧可用来产生一个编码图像。通常,视频帧可分为两种类型:连续或隔行视频。在电视中,为减少大面积闪烁现象,把一帧分为两个隔行的场。显然,这是场内邻行之间的时间相关性较强,而帧内邻近行空间相关性较强,因此活动量较小或静止的图像宜采用帧编码方式,对活动量较大的运动图像则宜采用场编码方式。2 宏块、片一个编码图像通常划分成若干个宏块,一个宏块由一个1 6 1 6 亮度像素和附加的一个8 8 c b 和一个8 8 c r 色度像素块组成。每个图像中,若干宏块被排列成片的形式。一个视频图像可编码成一个或更多个片,每片包含整数个宏块( m b ) ,即每片至少一个m b ,最多时每片包含整个图像的宏块,一幅图像中每片的宏块数不一定固定。设片的目的是为了限制误码的扩散和传输,应使编码片相互间保持独立。某片的预测不得以其他片中的宏块为参考图像,这样某一片中的预测误差才不会传播到其他片中去。编码片共有五种不同的类型,包括i 片、p 片、b 片、s p 片和s i 片。其中,l 片只包括i 宏块;p 片可包含p 和i 宏块;b 片可包含b 和i 宏块;s p 、s i 片用于不同编码流之问的切换,包含p 和或i 宏块。l 宏块利用从当前片中已解码的像素作为参考进行帧内预测( 不能取其他片中的已解码像素作为参考进行帧内预测) 。p 宏块利用前面已编码的图像作为参考图像进行帧内预测,一个帧内编码的宏块可进一步作宏块的分割:即分成1 6 1 6 、1 6 8 、8 宰1 6 或8 * 8 亮度像素块( 以及附带的色度像素) ;如果选用了8 * 8 的字宏块,则可再分割成各种子宏块,其尺寸为8 宰8 、8 * 4 、4 * 8 或4 * 4 亮度像素块( 以及附带的色度像素) 。b 宏块则利用双向的参考图像( 当前和未来的已编码图像帧) 进行帧内预测。天津大学硕士学位论文第三章n 2 6 4 视频压缩编码标准3 2 2h 2 6 4 的档次和级h 2 6 4 规定了三种档次,每个档次支持一组特定的编码功能,并支持一类特定的应用。1 基本档次:利用i 片和p 片支持帧内和帧间编码,支持利用基于上下文的自适应的变长编码进行的熵编码( c a v l c ) 。主要可用于可视电话、会议电视、无线通信等实时视频通信。2 主要档次:支持隔行视频,采用b 片的帧间编码和采用加权预测的帧内编码;支持利用基于上下文的自适应的算术编码( c a b a c ) 。主要用于数字广播电视和数字视频存储。3 扩展档次:支持码流之间的有效切换( s p 和s i 片) 、改进误码性能( 数据分割) 。但不支持隔行视频和c a b a c ,主要用于流媒体中。如图3 1 所示为h 2 6 4 的档次。其中,各个档次具有不同的功能。可见扩展档次包括了基本档次的所有功能,而不能包括主要档次的全部功能。每一档次设置不同的参数( 如取样速率、图像尺寸、编码比特率等) ,得到对应的编解码器性能的不同级。扩展档次主要档次,一。1 - 4 、;? 。7 ,_ p 4 - 、一、b 片。,、3 2 3h 2 6 4 的分层设计基本档次图3 1h 2 6 4 档次h 2 6 4 的算法在概念上可以分为两层:视频编码层( v c l :v i d e oc o d i n gl a y e r ) 负责高效的视频内容表示,网络提取层( n a l :n e t w o r ka b s t r a c t i o nl a y e r )天津大学硕士学位论文第三章h 2 6 4 视频压缩编码标准负责以网络所要求的恰当的方式对数据进行打包和传送。h 2 6 4 编码器分层结构如图3 2 所示。在v c l 和n a l 之间定义了一个基于分组方式的接口,打包和相应的信令属于n a l 的一部分。这样,高编码效率和网络友好性的任务分别由v c l和n a l 来完成。图3 - 2h 2 6 4 编码器分层结构v c l 层包括基于块的运动补偿混合编码的一些新特性。与前面的视频编码标准一样,h 2 6 4 没有把前处理和后处理等功能包括在草案中,这样可以增加标准的灵活性。n a l 层负责使用下层网络的分段格式来封装数据,包括组帧、逻辑信道的信令、定时信息的利用或序列结束信号等。例如,n a l 支持视频在电路交换信道上的传输格式,支持视频在i n t e m e t 上利用r t p u d p i p 传输的格式。n a l 包括自己的头部信息、段结构信息和实际载荷信息,即上层的v c l 数据。( 如果采用数据分割技术,数据可能由几个部分组成) 。3 3h 2 6 4 的关键技术3 3 1 帧内预测视频序列中除了存在已被充分利用的时域和频域冗余外,通常还存在着大量的空域冗余,特别是在变化平缓的背景区域,由于变化很小,存在很强的空间相关性。在h 2 6 4 以前的视频编码标准中( h 2 6 3 系列中,帧内预测只是可选的编码工具之一) ,对这一类存在强空间相关性的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论