(电路与系统专业论文)时分互补立体编码研究.pdf_第1页
(电路与系统专业论文)时分互补立体编码研究.pdf_第2页
(电路与系统专业论文)时分互补立体编码研究.pdf_第3页
(电路与系统专业论文)时分互补立体编码研究.pdf_第4页
(电路与系统专业论文)时分互补立体编码研究.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

(电路与系统专业论文)时分互补立体编码研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要多媒体技术发展日新月异,立体视频多媒体技术是其中的热点。立体视频根据观察视点的多少可以分为双目立体视频和多视点立体视频。其中双目立体视频又分为平行式和汇聚式摄像系统。本文中讨论的立体视频系统属于双目平行摄像系统。首先介绍了人眼视觉系统,分析了人眼视觉特性以及入眼视差原理,这是实现压缩和立体拍摄的理论原理。其次阐述了m p e g 2 视频编码标准,包括系统结构,编码方式,以及“型”和“级”的概念。利用m p e g 2 的时间可分级结合运动补偿预测和视差补偿预测实现立体编码方案,并提出了增强层中使用双向预测的帧结构编码方式。视差估计算法是进行立体匹配为的关键步骤,常用的立体的匹配算法可以分为全局匹配算法和区域匹配算法。区域匹配算法较为简单,应用较多,其中块内各像素点误差绝对和( s a d ) 算法在确定了匹配模板之后匹配速度快,但容易出现误配现象。对比s a d 算法,块内各像素点差分误差的绝对和( s s a d ) 算法在一定程度上改进了匹配精度,取得了较精确的视差图。在立体显示方面,常见的方式有光分法、时分法、色分法。光分法有高成本,视点固定的缺点,时分法存在“闪烁”问题,色分法有固有的“串色干扰”问题。将时分法和色分法相结合,按场频时分互补方案和按行频时分互补方案进行软件实现,并提出了新的倍频场图像的时分互补方案且加以实现。关键词:m e p g 2 视差估计时分互补倍频场图像a b s t r a c tw i t ht h er a p i dd e v e l o p m e n to fm u l t i m e d i at e c h n o l o g y ,3 dv i d e om u l t i m e d i at e c h n o l o g yh a sb e e ng r a b b e dt h ea t t e n t i o no ft h ew o r l d ,b a s e do nt h eo b s e r v e dn u m b e ro fp o i n to fv i e w ,w h i c hc a nb ed i v i d e di n t ob i n o c u l a r3 d v i d e oa n dm u l t i -v i e w p o i n t3 dv i d e o b i n o c u l a rs t e r e ov i d e oi n c l u d e sp a r a l l e la n dc l u s t e r - t y p ec a m e r as y s t e m 3 dv i d e o b a s e do nb i n o c u l a rp a r a l l e lc a m e r as y s t e mi sd i s c u s s e d f i r s t l y ,h u m a nv i s u a ls y s t e m ( h v s ) i si n t r o d u c e di nt h i sa r t i c l e ,w h i c hi st h ep r i n c i p l eo fv i d e oc o m p r e s s i o na n ds t e r e oc a m e r as h o o t i n g ,a n dt h e n ,h u m a nv i s u a lc h a r a c t e r i s t i c sa n dp r i n c i p l eo ft h ed i s p a r i t ya r ea n a l y z e d s e c o n d l y ,m p e g - 2v i d e oc o d i n gs t a n d a r di n c l u d i n gs y s t e ma r c h i t e c t u r e ,c o d i n g ,a sw e l la st h ec o n c e p to f”p r o f i l e ”a n d ”l e v e l ”a r ei n t r o d u c e da m p l y i na d d i t i o n s c a t a b i l i t yi ss u p p o r t e db ym p e g - 2 ,t i m es c a l a b i l i t yc a nb er e a l i z e ds t e r e oc o d i n gw i t hm o t i o nc o m p e n s a t i o np r e d i c t i o na n dd i s p a r i t yc o m p e n s a t i o np r e d i c t i o na n dae n c o d i n gm o d eo ff r a m es t r u c t i o nu s i n gb i d i r e c t i o n a lp r e d i c t i o ni ne n h a n c e m e n tl a y e ri sp r o p o s e d d i s p a r i t ye s t i m a t i o na l g o r i t h mf o rs t e r e om a t c h i n gi sac r u c i a ls t e p ,w h i c hc a r lb ed i v i d e di n t og l o b a la n dr e g i o n a lm a t c h i n ga l g o r i t h m r e g i o n a lm a t c h i n ga l g o r i t h mi ss i m p l e ra n da p p l i e du s u a l l y s a da l g o r i t h mc a na c h i e v ef a s tm a t c h i n gw i t ht h em a t c h i n gt e m p l a t ed e t e r m i n e d ,b u tt h em i s m a t c h i n gi su s u a l l yo c c u r r e d s s a da l g o r i t h mw h i c hi si m p r o v e db a s e do ns a da l g o r i t h mi n c r e a s e sm a t c h i n gp r e c i s i o ni ns o m ed e g r e ea n da c c u r a t ed i s p a r i t yp i c t u r ei so b t a i n e d i nt h es t e r e od i s p l a ya s p e c t , t h e r ea r es e v e r a lc o m m o nm e t h o d s ,s u c ha so p t i c a ld i v i s i o nt i m e d i v i s i o na n da n a g l y p h t h es h o r t c o m i n go fo p t i c a ld i v i s i o ni si t sh i g h c o s ta n df i x e dp o i n to fv i e ww h e no b s e r v i n g t h e r ea r e ”f l i c k e r ”p r o b l e ma n d”c r o s sc o l o ri n t e r f e r e n c e ”p r o b l e mi nt i m e - d i v i s i o na n da n a g l y p hr e s p e c t i v e l y t h ef i e l df r e q u e n c yt i m ed i v i s i o na n a g l y p ha n dt h el i n ef r e q u e n c yt i m ed i v i s i o na n a g l y p ha r ea c h i e v e di ns o f t w a r ep r o g r a m sb yc o m b i n i n gt i m e - d i v i s i o na n dc o l o r - d i v i s i o n ,a n dan e wt i m e d i v i s i o na n da n a g l y p hm e t h o dr e d u p l i c a t i n gt h ev e r t i c a lf r e q u e n c yo ft h ef i e l dp i c u t u r ei sp r o p o s e da n da c h i e v e d k e yw o r d s :m e p g - 2 ,d i s p a r i t ye s t i m a t i o n ,t i m e d i v i s i o na n da n a g l y p h ,o c t a v ef i e l di m a g e独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得墨壅盘堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文作者签名:季礁签字日期:口哕年多月日学位论文版权使用授权书本学位论文作者完全了解苤壅盘堂有关保留、使用学位论文的规定。特授权苤鲞盘堂可以将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。( 保密的学位论文在解密后适用本授权说明)学位论文作者签名:签字日期:o 的年,导师签名:碚鲻签字日期:力哆年月厂日准日、巷月莎第一章绪论1 1 立体视频的研究背景1 1 1 多媒体概念第一章绪论弟一早辐记2 0 世纪8 0 年代中后期开始,多媒体技术成为了人们关注的热点,诸如文字、图形、图像、动画、声音和视频等各种媒体被融合到一起展现在观众面前。多媒体技术作为一种迅速发展的综合性电子信息技术,它给传统的计算机系统、音频和视频设备带来了方向性的变革,也将对大众传媒产生深远的影响。无论今后多媒体技术如何发展,多媒体系统都不能改变它传送声音和图像信息的功能,但多媒体本身是个抽象的概念,一般可以依据事实来定义多媒体【l 】,其示意图如图卜l 所示。图1 1 多媒体的定义以上这些条件之间相互关联,但也存在不满足其中几个条件或不完全满足某一部分条件的情况出现。第一章绪论1 1 2 多媒体特征概述交互性,可以理解为观众与多媒体播放器之间的人机对话形式的操作,这要求多媒体播放器和用户界面通过按部就班地询问和执行用户的命令,即能够反馈用户信息。双向性,这个概念和交互性是相关联的,因为双向性体现的就是媒体播放器和用户之间相互传递和获取信息的过程。目前的有线电视、广播以及传真由于只是单方向的通信,因此不具备双向性,而可视电话、电视会议就具备上述特性。实时性,同样与多媒体通信的交互性相关联。这种实时性的概念很难界定,从用户角度来看,主观上察觉不到有明显的延迟感即可,根据不同的媒体应用场合,客观的评价标准是不同的。随需应型2 1 ,含义为在需要时可以直接使用,一旦满足随需应变和实时性就可以实现无需等待的即时型反馈,极大的方便了用户。但需要注意的是,随需应变一般需要使用专用通道,成本将大幅度的提高,而利用统计特性实现的共享通道又很难满足这一要求。定制化,是一种满足用户应用需求的个性化解决方案。多媒体设备拥有很多功能,但用户希望可以根据个人喜好形成符合自身习惯的操作方法。一般来说,在p c 机上可以实现定制化,例如,恰当使用u n i x 中的s h e l l ,用户就可以定义适合自己的操作方法。1 1 3 立体视频多媒体技术目前主流的多媒体技术是基于单通道的视频,观众无法获得像人眼直接观测的视觉效果,即不能通过单通道视频获得观测物体的深度信息。在进入2 0 世纪末期,立体视频技术成为多媒体技术研究的新热点,并逐渐成为未来多媒体技术的发展方向,它是一种能够提供立体感的新型视频技术。与单通道视频相比,立体视频一般有两个视频通道,数据量要远远大于单通道视频,所以对立体视频的高效压缩尤为重要,立体视频编码可以采用传统的块基编码方法和基于对象的编码方法p j 。块基编码的优点是算法简单、稳健性高,易于硬件实现,但会出现块效应,在低比特率下重建图像的主观视觉效果很差。基于对象的编码方法近年来引起了广泛关注,并被看好作为块基编码的替代编码方法。基于对象的编码方法能减少编码错误,有较好的视觉效果,能对场景进行结构性描述,能适应新的应用领域。立体视频的研究方向一般包括视差估计、信息隐藏和错误隐藏等方面。视差估计第一章绪论是去除立体视频数据空间冗余的有效方法,能够有效地对立体视频数据进行编码压缩,是立体视频处理中的关键技术之一。1 2 立体电视现状和发展趋势立体电视是利用人眼的立体视觉特性来产生和显示立体图像的。正常的双眼视觉都可以提供高度的立体感。外界目标在视网膜上的成像是二维的,而且同一物体在左右眼的视网膜上的成像有着微小的差异,实际上,这种差异为立体视觉提供了最基本的信息视差,从而获得深度感觉。立体电视将会带给观众一个全新的体验,即图像性质根本的改变。1 2 1 立体电视的发展现状关于立体电视技术的研究已有几十年的历史。2 0 世纪5 0 年代,色分法技术开始应用于立体电视。这种立体电视成像技术兼容性好,在立体电视技术领域曾经风靡一时。但存在的问题也十分明显:由于通过滤光镜去观察电视图像,彩色信息损失极大;另一个问题是彩色电视机本身的“串色”现象引起干扰【4 】;同时由于左右眼的入射光谱不一致,易引起视觉疲劳。7 0 年代末由于陶瓷光开关新材料的出现,人们可以制成光开关眼镜,此时就出现了时分式的立体电视技术。时分式的立体电视技术采用彩色电视信号的顶场和底场进行立体电视信号的编码。一般不能简单地用一个频道传送一套立体电视节目。8 0 年代初,东芝公司研制出时分式立体电视投影机,戴偏光镜观看。1 9 8 5 年,松下公司首推时分式液晶眼镜立体电视样机获得成功。时分式的立体电视技术相对成熟,具有明显的优点:能提供逼真的彩色立体图像;当电视场频较高时,图像稳定无闪烁;同目前的彩色电视系统、计算机显示器相兼容。在2 0 世纪9 0 年代以前开发的一些3 d 系统,曾成功应用于3 d 电视和宽屏幕电影等领域,但需佩戴特制眼镜观看,限制了其推广应用。9 0 年代以来,摒弃了特制眼镜的自动立体显示技术取得了突破性的进展。时至今日,国外已研制出多种自动立体显示系统,一些公司还有小批量的产品。进入本世纪以来,立体电视的发展更加迅速。德国的h e i n r i c h h e r t z i n s t i t u t e( 删i ) 【5 】发展了一种沉浸式的立体电视系统,使用了头盔式显示,可以使观看者获得高品质的环视效果;另外,他们也开发了一种佩戴眼镜观看的立体电视。欧洲a t t e s t 项引6 j 致力于一种全新的3 dt v ( t h r e ed i m e n s i o n a lt v ) 概念,包括了整个广播链条:3 d 内容制作、3 d 数据压缩以及3 d 显示。在节目制作中采用的是一种3 dz c a m 摄像机,它记录一个传统的r 、g 、b 视频和一个附随的深度图,第一章绪论其中深度图包含每个图像点的深度,对于这种r 、g 、b 和深度信息的视频,一个主要的问题是如何恢复适合左右眼睛观看的左视和右视。三菱公司电子实验室也研究出一种3 dt v 的系统,它使用了阵列摄像机、与网络连接的多个p c 以及多投影3 d 显示。欧洲v i t a 项目发展了基于计算机视觉的立体电视新技术,使得观看者可以享受大范围的现场感觉,如足球比赛和歌剧表演,在任意视角获得接近传统视频质量的视觉效果和深度信息的视频。另外,m p e g 工作组3 d a v ( t h r e ed i m e n s i o n a la u d i ov i s u a lc o d i n g ) 也在3 d音视频应用要求方面做了许多标准化的工作。在2 0 0 3 年3 月,为了提高包括3 dt v 在内的3 d 产品和应用的潜在市场,夏普、索尼等公司成立了一个3 d 联盟,该联盟将设立制定图像规格、提供内容制作指南及开发制作工具等部门,同时开展了有关立体显示的启蒙活动。这些努力都为3 d t v 技术的发展奠定良好的基础,也充分显示了它良好的科研价值和广阔的市场前景。我国对立体视频技术的研究已有2 0 年历史,但仅停留在佩戴眼镜观看的立体电视研究上。1 9 9 9 年在深圳高新技术交易会上,国内有4 家单位进行视频立体显示技术的展示:天津三维技术公司、天津长城电视机厂、中国科技开发院威海分院和深圳万历投资公司。其产品的主要技术原理是把用两架摄像机在不同视角拍摄的图像,存成上下两幅显示,再佩戴左右切换的液晶眼镜观看立体效果。国内曾有十几家地方电视台播出过这种立体电视节目,还有不少地方将这种技术用于影视厅。对于自动立体显示技术,我国目前还处在引进学习和初步研究阶段,天津三维显示技术有限公司和合肥工业大学在这方面做了一些工作,但并没有用于立体电视节目的播出试验。1 2 2 立体电视的发展趋势立体电视正朝着实用化、优质化的方向发展,国内外始终把立体电视的实用化作为一个重点研究的领域【7 】f 引。一份韩国调研预测,未来7 年立体显示器将占整个显示器市场的一成。国外的研究热点在于自由立体电视的研发。近期有报道称日本东京大学和日立三维电视技术领域已经取得了突破性的进展,开发出了全新的三维立体电视“t r a n s c a i p ”。电视观众不仅可以获得与直播现场几乎完全一样的逼真视觉感受,还能对电视节目进行直接的互动控制,这种交互性的本质上是根据原场景的内容、观众的选择以及显示规格等条件再造动态三维情景,图1 。2 就是t r a n s c a i p立体电视系统的画面。t r a n s c a i p 系统利用一个由6 4 个摄像机所组成的阵列来捕捉实况画面。所有摄像机都通过以太网网线连接到一台计算机上,计算机将摄像机所捕获的镜头第一章绪论转换成可显示的图像。每台摄像机都包含一个嵌入式h t t p 服务器该服务器负责将j p e g 图片序列传送到计算机中,计算机然后将6 4 路独立输入的图像转换成一幅幅完整的集成摄影图片。利用基于图像的翻译技术,计算机可吼实时对图片进行转换并重组像素完成光场转换过程。目前日本的科学家还在研究与三维电视相配套的“虚拟现实”电视机。图1 2t 啪s c a i p 立体电视系统的蜮面在国内,时分式立体电视和色分式立体电视是主流模式,但必须不断完善,分别解决亮度、“闪烁”问题和“串色干扰”问题及一系列软硬件问题,以获得优质的立体图像,尽翠进入实际应用阶段。1 3 本文的章节安排本论文对视频编码标准的语法复杂度、是否易于实现等几方面进行考虑,选择m p e g 2 编码标准利用其时间可分级特性构建立体编码方案,基于我国目前电视技术发展现状和电视制式等方面条件的现状采用时分互补立体电视的解决方案。接场传送的时分互补色视频信号、隔行时分传送的互补色视频信号的编码方法,以及提出井实现新的时分互补方案是本论文的重点和难点。第一章绪论本文的章节安排如下:第二章中详细介绍人眼立体视觉特性,以及立体图像的产生方法,重点是利用双目视差特性获得立体图像的方法。第三章分析m p e g 2 视频编解码相关技术,包括系统结构、编码方式、型与级等概念。第四章利用m p e g 2 中时间可分级特性构建立体编码方案,提出新的帧结构编码方式,并研究了基于区域的视差估计的几种算法。第五章里分析了互补色方案的“串色干扰”问题,实现了两种时分互补编码方案,并提出了新的利用软件倍频场图像的时分互补方案,并加以实现。第二章立体视觉第二章立1 址4 视觉弟一早业恍苑在日益发展的视频技术当中,立体视频技术越来越受到人们的关注。就目前来讲,获得立体视频的方法主要有两种。一种是基于人眼视觉系统h v s ( h u m a nv i e ws y s t e m ) 的双目立体视频技术,另一种是多视点视频方式【9 】【l o 】。两种方式的区别在于,双目立体视频技术主要依靠模拟人眼系统,只有一个视点;多视点系统则提供两个以上的视点,观察者可以在不同的位置上进行观看。下面将主要介绍双目立体视频的相关知识。2 1 人眼视觉系统人眼的视觉形成主要依靠左:右眼之间的神经调节以及左、右眼之间存在的视差来获得具有物体深度信息的图像。2 1 1 人眼视觉系统组成眼位于眼眶内,主要包括眼球和眼的附属器两部分,重点介绍眼球【1 1 】。眼球由眼球壁和眼内容物组成,其具体结构十分复杂,如图2 1 所示。下面只介绍涉及重要的人眼视觉感知方面的相关结构。1 、眼球壁( 1 ) 外层:纤维膜由坚硬致密的纤维组织构成,它有保护眼球形状和内部组织的作用。与空气接触的前1 6 为角膜,透明向前突出;后5 6 为巩膜,是乳白色不透明的厚膜。具体包括:角膜:透明,含水量和屈光率恒定,知觉特别敏感。巩膜:质地坚韧,呈乳白色不透明的厚膜,内含色素,呈棕色。( 2 ) 中层:葡萄膜自前向后分为包括:虹膜:位于中层的最前面,是一圆球状的薄膜,瞳孔在其中央。瞳孔的大小随光线的强弱而变化。睫状体:睫状体至晶状体赤道部有纤维状的晶体悬韧带与晶状体相连。脉络膜:营养视网膜,并有遮光作用,保证进入眼内光线清晰成像。第= 章立体视觉( 3 1 内层:视网膜1 2 1 1 3 】是一层透明的薄膜,由色素上皮层和视网膜感觉层组成,其厚度约0f o5 r a m 。中心凹位于黄斑下例外径约l5 r a m ( 视角5 0 ) ,视觉最为敏锐。2 、眼内容通常与角膜一起统称为限的屈光间质。特点是透明、无血管、具有一定的屈光指数,保证光线通过。具体包括:( ”房水:房水由睫状突产生,先进入后房,经瞳孔进入前房再经前房角汇入巩膜静脉窦,通过传出小管进入睫状静脉i ”l 而流出眼球。因此房水处于动态状况。( 2 ) 晶状体:晶状体透明而富有弹性,可咀改变曲率。在看不同距离的物体时。可以通过晶状体的调节作用而在视网膜上得到清晰的像。( 3 1 玻璃体:为无色透明胶状体,位于晶状体后面充满于晶状体与视网膜之间,充满晶状体后面的空腔里具有屈光、固定视网膜的作用。图2 - l 眼结构不意图第二章立体视觉2 1 2 双眼立体视觉产生原理双眼的立体视觉产生依赖于生理因素和客观因素。就生理因素来讲主要包括以下几个方面:1 、双眼视差一般来说人的双眼之间的基线距离大概为6 5 r a m ,人眼产生立体视觉正是由于基线距离的存在而产生了双眼视差。2 、眼的调节:这是指以人眼视距的变化为条件,通过睫状肌的收缩与舒张,晶状体发生凸度和曲率的改变,使视网膜上的像变得清晰,这是保证横向视差【b 】存在的基本条件。假如视网膜上的像是模糊的,这种视差就会小很多,有时甚至会消失,因而形成立体感能力就差得多,因此可以说眼的调节是立体视觉产生的重要条件。3 、眼的辐合:这是指人眼以视距变化为条件,通过眼外肌的协调作用,使眼球发生内旋程度的改变,双眼视野在注视远点到近点的距离时始终保持重叠,以致双眼视差始终存在。眼的辐合【1 6 】可以保证当人眼由远及近的观察景物的时候能够始终获得立体感。当然,人眼的立体视觉仍需依赖一些客观因素1 7 】【1 8 】【1 9 】,列举如下:l 、空气:由于存在空气的透视作用,当空气密度很小的时候,随距离增大远处景物的对比度相对近处景物变低,从而产生深度感觉。2 、颜色:不同的颜色会给人以不同距离的感觉。在亮度相同的情况下,波长较长的光线给人近的感觉,波长较短的光线则相反,其顺序为:红 橙 黄 绿= 紫= 灰 蓝,从图2 2 中可以很直观的看出来。3 、线性透视:当有规律的物体排列在一起的时候,会有“近大远小”的透视感。这是因为视线方向上平行线上对应两点随着视距的增大,在视网膜上所成像点的距离线性减小,观察梯田、街道等景物的时候就会有这样的感觉。4 、背景密度:当在视平面上,密度渐变,也可引起深度觉。密度大的方向,显得远;密度小的方向,显得近。这是由密度效应产生的深度觉。5 、景物分布:图形构成越缺少规律和均衡,立体效果越强,这是构图的不均衡效应造成的。6 、光影分布:物体在自然光的照射下,在受光面和背光面之间存在明显的亮度过渡区,这种光的分布使物体产生立体状态,凡是具有这种光分布特点的景物,都可以引起观察者的立体感觉,这是素描中的常用技法。第二章立体视觉相1 0对视敏0 8度0 60 40 2,)f。|l。1 ?,5 0 06 0 07 0 0 波长( r i m )图2 - 2 波长和响度视敏度关系图7 、视场:大视场更有利于提高立体感和现场感。相比看电视,看电影更能获得真实的立体感觉。2 2 人眼视觉特征分析人眼类似于一个光学系矧2 0 】,但它并非普通意义上的光学系统,还受到神经系统的调节。人眼观察图像时具有下面几个方面的反应和特性,而视频编码技术也正是根据人眼视觉系统的这些特性以达到压缩图像数据且不丧失主观观察品质的目的。1 、从空间频率域来看,由于瞳孔有一定的几何尺寸( 直径约为2 5 m m - 4 m m )和一定的光学像差,视觉细胞有一定的大小,所以人眼的分辨率不可能是无穷的,人眼视觉系统对太高的频率不敏感。根据以上特性就可将人眼看成是一个低通的线性系统【2 1 1 ,这就是进行d c t ( d i s c r e t ec o s i n et r a n s f o r m ) 后可以通过量化去除图像高频成分的理论依据。2 、人眼对亮度的响应具有对数非线性性质【2 2 2 3 2 4 】,以达到其亮度的动态范围。由于人眼对亮度响应的这种非线性,在平均亮度大的区域,人眼对灰度误差不敏感,在图2 3 中可以看到人眼视力随着亮度的变化曲线。第二章立体视觉人2 5眼视力2 01 51 oo 5oi。,l,亮度0 0 0 0 10 o l11 0 01 0 0 0 01 0 0 0 0 0图2 3 人眼视力与亮度关系图( n i t )3 、人眼对亮度信号的空间分辨率大于对色度信号的空间分辨率,也就是说人眼相对亮度信息而言对色度信息并不敏感。这就是信号采样时可以选用4 :2 :2和4 :2 :0 t 2 5 】达到减少传输数据目的的原因。4 、由于人眼受神经系统的调节,从空间频率的角度来说,人眼又具有带通性线性系统的特性。由信号分析的理论可知,人眼视觉系统对信号进行加权求和运算,相当于使信号通过一个带通滤波器,结果会使人眼产生一种边缘增强感觉侧抑制效应,它使得被更亮的区域包围的区域显得暗些,而被较暗区域包围的区域显得亮些。5 、图像的边缘信息对视觉很重要,特别是边缘【2 6 】【2 7 】的位置信息。人眼容易感觉到边缘的位置变化,这就是为什么在使用d c t 之后人眼对块状失真敏感的原因,然而对于边缘的灰度误差,人眼并不敏感。6 、人眼的视觉掩盖效应是一种局部效应,受背景照度、纹理复杂性和信号频率的影响。具有不同局部特性的区域,在保证不被人眼察觉的前提下,允许改变的信号强度不同。人眼的视觉特性是一个多信道( m u l t i c h a n n e l ) 模型。或者说,它具有多频信道分解特性( m u l t i f r e q u e n c yc h a n n e ld e c o m p o s i t i o no 例如,对人眼给定一个较长时间的光刺激后,其刺激灵敏度对同样的刺激就降低,但对其它不同频率段的刺激灵敏度却不受影响( 此实验可以让人眼去观察不同空间频率的正弦光栅来证第二章立体视觉实) 。视觉模型有多种,例如神经元模型,黑白模型以及彩色视觉模型等等,分别反映了人眼视觉的不同特性。视觉生理学的进一步研究还发现,这些滤波器的频带宽度是倍频递增的,换句话说,视网膜中的图像分解成某些频率段,它们在对数尺度上是等宽度的。视觉生理学的这些特征,也被人眼对事物的观察所证实。不同分辨率能够刻画出图像细节的不同结构。例如一幅分辨率低的风景照,人眼只能分辨出它的大体轮廓;提高分辨率的结果,还可以分辨出它所包含的建筑物、植物、人等内容;进一步提高分辨率,就能分辨出入脸的细节信息。2 3 双目立体视频素材的获取目前双目立体视频素材的获取主要是依靠两台摄像机模拟人眼的立体感觉进行设计。在拍摄过程中采用两台相同的摄像机,且要求参数配置也相同,两台摄像机相隔一定距离来拍摄景物。根据光轴之间的关系可以分为平行摄像机系统和汇聚摄像机系统。平行摄像机系统的两个相机的光轴是平行的,汇聚摄像机系统中两个相机的光轴之间存在一个微小的角度。汇聚摄像机系统参数定标相对复杂,这里只介绍平行摄像机系统。2 3 1 平行双摄像机系统平行摄像机系统采用具有平行成像平面的两台配置相同的摄像机【2 8 】【2 9 】,如图2 - 4 所示,c w 代表世界坐标系,坐标为x = ( x ,y ,z ) ,c l 和c ,分别代表左右摄像机的坐标系,坐标分别为x i = ( x i ,y 1 ,z 1 ) 和x r = ( x i ,y l ,z 1 ) :f i l 和r 分别代表左右摄像机的成像平面,x 为摄像机平面外一点;x l 和x r 分别代表x 在左右成像平面上的像点;b 代表左右摄像机光心之间的基线距离,为模拟人眼系统,b 的长度取人眼之间距离,6 2 m m 7 6 m m ;f 代表两台摄像机的焦距;设世界坐标系远点位于两台摄像机的中心。根据三角平面知识可得:x ,:x + 皇2,x r = x 一( 2 - 1 )五= ,竽,x r = f 丁x - b 2( 2 - 2 )第二章立体视觉这里需要说明的是,由于采用平行摄像机系统,不存在垂直方向上的位差矢量,只存在水平方向上的位差矢量d x ( x ,y ,z ) ,由公式( 2 一1 ) 和公式( 2 2 ) 可得:d a x 朋= 卜i = 譬( 2 3 )由公式( 2 3 ) 可以看出在摄像机焦距f 和两台摄像机基线距离b 一定的条件下,水平方向视差和x 的深度z 成反比。c 1x lc 霄繇c fi卜一b 叫2 3 2 双目摄像机的标定图2 4 平行摄像机配置示意图对双目摄像机系统而言,标定是实现立体视觉基本而又关键的一步。通常先采用单摄像机的标定方法,分别得到两个摄像机的内、外参数;再通过同一世界坐标中的一组定标点来建立两个摄像机之间的位置关系。目前常用的单摄像机标定方法f 3 0 】【3 l 】【3 2 】主要有:1 、摄影测量学的传统设备标定法:利用至少1 7 个参数描述摄像机与三维物体空间的结束关系,计算量非常大。第二章立体视觉2 、直接线性变换性:涉及的参数少、便于计算。3 、透视变换短阵法:从透视变换的角度来建立摄像机的成像模型,无需初始值,可进行实时计算。4 、相机标定的两步法:首先采用透视短阵变换的方法求解线性系统的摄像机参数,再以求得的参数为初始值,考虑畸变因素,利用最优化方法求得非线性解,标定精度较高。5 、双平面标定法:在双摄像机标定中,需要精确的外部参数。由于结构配置很难准确,两个摄像机的距离和视角受到限制,一般都需要至少6 个以上( 建议取1 0 个以上) 已知世界坐标点,才能得到比较满意的参数矩阵。此外双摄像机标定还需考虑镜头的非线性校正、测量范围和精度的问题,目前户外的应用还有少。6 、基于神经网络的双目立体视觉摄像机标定方法:首先对摄像机进行线性标定,然后通过网络训练建立起三维空间点位置补偿的多层前馈神经网络模型。此方法对双目立体视觉摄像机的标定具有较好的通用性,但是精确测量控制点的世界坐标和图像坐标是一项严格的工作。因此神经网络中训练样本集的获得非常困难。由此可见,摄像机的标定对立体视频的获取起到了至关重要的作用,它直接影响到水平视差的准确度。2 3 3 平行摄像机系统的缺点使用平行摄像机系统可以模拟人眼功能,获得立体视觉,但其深度信息的提取不如汇聚式摄像机系统,除此之外还存在以下问题:1 、人眼具有快速的视线聚合距离调整功能,这是依靠人眼肌肉调节的结果,具有实时性。摄像机虽然可以附加自动控制来模拟人眼肌肉的细微动作,以实现其调节功能,但是成本较高,且存在调节延时。2 、两台平行的摄像机的曝光、镜头缩放、聚焦控制等也需要模拟人眼视觉系统工作,但是存在着s t o n e k e y 、c r o s s t a l k 等扭曲效应【3 3 1 ( i m a g ed i s t o r t i o n ) ,并不能完全模拟人眼工作。通过分析可以知道,平行双摄像机系统是对人眼视觉系统的一个近似模拟,无论在功能上还是在精度上都不能达到人眼视觉系统的程度,但是可以在一定误差允许范围之内获取和产生立体视觉,达到与人眼视觉感知近似的效果。第三章m p e g 2 标准介绍第三章m p e g 2 标准介绍m p e g 是运动图像专家组( m o v i n gp i c t u r ee x p e r t sg r o u p ) 的简称,其实质上的名称为国际标准化组织i s o ( i n t e m a t i o n a ls t a n d a r d i z a t i o no r g a n i z a t i o n ) 和国际电工委员会i e c ( i n t e r n a t i o n a le l e c t r o t e c h n i c a lc o m m i s s i o n ) 联合技术委员会j t c ( j o i n tt e c h n i c a lc o m m i t t e e ) l 的第2 9 分委员会的第1 l 工作组i 3 4 ,即i s o i e cj t c l s c 2 9 w g l l ,成立于1 9 8 8 年。其任务是制定世界通用的视音频编码标准。m p e g 2 是一组用于视音频压缩编码及其数据流格式的国际标准。它定义了编解码技术及数据流的传输协议,制定了m p e g 2 解码器之间的共同标准。本章将介绍m p e g 2 标准以及相关的压缩编码技术。3 1m p e g 2 系统结构m p e g 2 系统是由音视频编码器、编码缓存器、系统编码器及复用器、信道网络编解码器及存储环境编解码器、系统解码器及解复用器、解码缓存器和音视频解码器构成。3 1 1m p e g 2 系统定义和任务m p e g 2 系统是将视频、音频及其它数据基本流组合成一个或多个适宜于存储或传输的数据流的规范,如图3 1 所示。从图中可见,符合i t u r 6 0 1 标准的、一系列帧图像的数字视频数据和符合a e s e b u 标准的数字音频数据分别通过图像编码和声音编码之后,生成符合显示顺序的视频基本流和音频基本流。通过m p e g 2 系统定义可以知道其任务主要包括:l 、规定以包方式传输数据的协议。2 、为收发两端数据流同步创造条件。3 、确定将多个数据流合并和分离( 即复用和解复用) 的原则。4 、提供一种进行加密数据传输的可能性。第三章m p e g 2 标准介绍,卜一:m p e g 2 系统规范l ,j 、,w u j图3 im p e g 2 系统框图3 1 2m p e g 2 的数据包和数据流m p e g 2 标准中规定使用数据包进行传输数据,其优点是:网络中信息可使用不同的通道进行传输;容易实现数据包交织,可将若干个数据流复用为一个数据流;便于解码器按照相应顺序对数据包进行整理和重排序。m p e g 2 系统定义了节目流、传输流和打包基本流三种数据包,以及节目流和传输流两种可以互相转换的数据流【3 引。m p e g 2 正是基于节目流和传输流进行数据传送,下面进行详细介绍。基本流e s ( e l e m e n t a r ys t r e a m ) ,只包含一个信源的编码器的数据流,可以是视频e s 、音频e s 或者其它编码数据流,每个e s 由若干个存取单元a u ( a c c e s su n i t ) 组成。每个a u 均由头部和编码数据两部分组成。打包基本流p e s ( p a c k e t i z e de l e m e n t a r ys t r e a m ) ,通过打包将同种性质的e s复合成一个p e s 包,最大包长度为6 5 5 3 5 字节,或含有视频e s ,或含有音频e s ,或只含有其它e s 。p e s 包的结构不再详细赘述。节目流p s ( p r o g r a ms t r e a m ) ,由具有共同时间基准的一个或者多个p e s 复合而成的单一数据流。p s 的形成分两步完成:l 、将视频e s 、音频e s 、其他e s 分别打包成视频p e s 包、音频p e s 包或其它p e s 包。每个p e s 包的第一个a u 的包头可包含显示时间标志位p t s ( p r e s e n t a t i o nt i m es t a m p ) 和解码时间标志位d t s ( d e c o d et i m es t a m p ) ,每个p e s 包的包第三章m p e g 2 标准介绍头都有用于区别不同性质e s 的数据流识别码。这一切,使得解复用和不同e s之间同步重放成为可能。2 、通过p s 复用器将p e s 包复用成p s 包,即将每个p e s 包再细分为更小的p s 包。传输流t s ( t r a n s p o r ts t r e a m ) ,由具有共同时间基准或独立时间基准的一个或多个p e s 组合而成的单一的数据流。t s 实际是面向数字化分配媒介( 有线、卫星、地面网) 的传输层接口。对具有共同时间基准的两个以上的p e s 先进行节目复用,然后再对相互可有独立时间基准的各个p e s 进行传输复用,即将每个p e s 再细分为更小的t s 包。值得注意的是,p s 只能由一套节目的e s 组成,t s 一般由多套节目的e s组成。p s 包长度较长,且可变,一般用于无误码环境,如演播室和存储媒,而t s 用于误码较大的传输和媒体存储。3 1 3m p e g 2 系统编解码流程i 、m e p g 2 编码部分:图3 2 为m p e g 2 标准编码及复用器框图,从图中可以看出m p e g 2 的编码部分1 3 6 j 可以分为以下三个部分完成:( 1 ) 视频编码和音频编码部分:m p e g 一2 规定的语法和语义说明这里不再详述。其输出结果为视频e s 或者是音频e s 。( 2 ) e s 打包:将视频e s 或者音频e s 进行打包,输出打包基本流p e s 了7 1 。p e s包的长度可变,最大为2 怕1 字节,但对于视频p e s 一般一个a u ( 通常存储一帧数据) 一个包,音频p e s 的长度不超过6 4 k b 。( 3 ) 打包和复用:p e s 可以经过两种不同的打包和复用形成p s 或者t s 。其中复合成t s 时候可以使用来自不同节目的p e s 。当多个节目的p e s 结合成t s 的时候需要依靠t s 包头中的包识别p i d ( p a c k e ti d e n t i f i c a t i o n ) 以及额外传送的节目特定信息p s i ( p r o g r a ms p e c i f i ci n f o r m a t i o n ) 来说明t s 中的p e s 及e s 来自那些节目。经过系统编码器加入p t s 及d t s ,并分别打包成视频p e s 、音频p e s ,数据本身提供的就是p e s 。p s i 插入数据流,并将传输复用器从系统时钟s t c( s y s t e mt i m ec l o c k ) 导出的节目时钟基准p c r ( p r o g r a mc l o c kr e f e r e n c e ) 插入相应区段。这些视频p e s 、音频p e s 、数据p e s 及p s i ,经过加入p 1 d 及p c r 的传输复用器后,将输入基本流e s 分割成传输包片段,并为每个片段配备1 个数据头( h e a d e r ) ,就形成了一系列的t s 包。第三章m p e g 2 标准介绍视频e s +ii系统编码器及多路复用器:i转换数孚时间成串视频视频p , e spri,1r,音行数叫熟ll lp s 复用器视字视7 i 打包器lr及多路调频频ii制解调器信a e s 效子目删。号_ e b u习荔l it s 复用器数字。ih b l音频7 lj j 巴丽l及多路调叫il,制解调器其它数据及控制信号音频矗st s视频音频编码:打包!打包和复用; 卜- _ 一;图3 2m p e g 2 标准编码及复用器系统结构2 、m e p g 2 解码部分m f e g 2 的解码部分与编码部分相反,依次经过解复用、拆包、音视频解码,功能上相反,图3 3 为m p e g 2 标准解码及解复用器系统框图。这里需要讨论的是如何保证输入视音频编码器的数字图像和音频取样,经过固定的、不能变的点到点延迟后,能精确地同时出现在视、音频解码器1 3 8 】的输出端以及如何使编码及解码缓存器的可变延迟的范围受到严格限制,使解码缓存器无上、下溢【3 9 】。其它节目源的e sp e s嚣p e s 既墨若干打l 一拆旬器包l l 1视频数字es藐磊1 甄广_ 音频音频e s音频解码器其他数据及控制信号图3 3m p e g 2 标准解码及解复用器系统结构转换成需格式视音频信号第三章m p e g 2 标准介绍为了解决复用、同步、无溢出问题,需要定义一个系统目标解码器s t d ( s y s t e mt a r g e td e c o d e 0 模型用于解释传输流t s 解码并恢复基本流e s 时的过程和复用器数据包交织时确定某些时间的边界条件。因此,每个相应的t s 必须借助于专门的解码器模型来解码。s t d 与实际解码器的主要差别是:s t d 对数据流的操作是瞬时完成的,无须时间延迟,而实际解码器是有延迟的。于是,可以利

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论