(计算机应用技术专业论文)立体视频编码中的相关技术研究.pdf_第1页
(计算机应用技术专业论文)立体视频编码中的相关技术研究.pdf_第2页
(计算机应用技术专业论文)立体视频编码中的相关技术研究.pdf_第3页
(计算机应用技术专业论文)立体视频编码中的相关技术研究.pdf_第4页
(计算机应用技术专业论文)立体视频编码中的相关技术研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机应用技术专业论文)立体视频编码中的相关技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 立体视频技术是末来多媒体技术的发展方向,它是一种能够提供立体感的新型视频 技术。 且是立体视频的数据量巨大,限制了其实际应用,因而立体视频处理技术现已经 成为一个研究热点。本论文在立体视频的视差估计、信息隐藏和错误隐藏三方面做了研 究。 视差估计是去除立体视频数掘空日j 冗余的有效方法,能够有效地对立体视频数据进 行编码压缩,是立体视频处理中的关键技术之一。本文首先针对平行相机系统,分析了 视差估计的约束条件,然后从降低计算复杂度的角度出发,提出了新的快速视差估计算 法。实验结果表明与全搜索方法相比,本文方法在保证编码图象质量下降很小的情况下, 搜索点数大大减少。 对于视频水印的研究远没有象静态图象水印那样成熟,而对立体视频水印的研究则 更少。本文在立体视频编码应用中,充分考虑了h 2 6 4 编码标准中运动估计的特点,将 修改半象素运动估计得到的运动矢量、视差矢量信息和修改1 4 象素运动估计搜索范围 相结合,提高了水印信息的嵌入比例,可进一步拓展应用于通过水印检测信道传输错误 的方案中。实验结果说明本文方法简单有效。 错误隐藏是针对视频应用的特点,利用视频信号在空间域和时间域存在的相关性, 以及人为添加的冗余信息,饮复出人眼可以接受的视频图象。本文在分析了已有的单通 道视频的错误隐藏方法的基础上,提出一种基于多种宏块模式立体视频错误隐藏方法。 该方法充分利用了宏块问的运动特征和纹理结构的相关性以及左右视点日j 很强的视差相 关性。实验结果表明该方法可以较好地隐藏信道传输失真导致的图象错误。 关键词:视差估计、水印、错误隐藏、立体视频 r e s e a r c ho nr e l a t e dt e c h n i q u eo f v i d e oc o d i n gf o rs t e r e o s c o p i ci m a g e s x u b i n ( c o m p u t e ra p p l i c a t i o n ) d i r e c t e db yj i a n gg a n g y i s t e r e o s c o p i cv i d e ot e c h n i q u ew h i c hc a np r o d u c et h r e e - d i m e n s i o n a le f f e c ti sb e c o m i n gt h e f o c u so fs t u d yo ft h ef u t u r em u l t i m e d i at e c h n i q u e t h ea p p l i c a t i o no fs t e r e o s c o p i cv i d e o t e c h n i q u e ,h o w e v e li sl i m i t e db e c a u s eo ft h ee n o r m o u sd a t a t h i sp a p e ri si nr e f e r e n c et o d i s p a r i t ye s t i m a t i o n , i n f o r m a t i o nc o n c e a l m e n ta n de r r o rc o n c e a l m e n t f o rs t e r e o s c o p i ci m a g e s d i s p a r i t ye s t i m a t i o nw h i c hi sa ne f f e c t i v em e t h o do fg e t t i n gr i do fs p a c er e d u n d a n c ec a n c o m p r e s ss t e r e o s c o p i cv i d e od a t ae f f i c i e n t l y i th a sb e e ns t u d i e dal o ta th o m ea n da b r o a d i n t m sp a p e rt h ec o n s t r a i n tc o n d i t i o n so fd i s p a r i t ye s t i m a t i o na r ef i r s ta n a l y z e di nt e r m so ft h e p a r a l l e lc a m e r as y s t e m ,a n dt h e na n e ws c h e m eo f d i s p a r i t ye s t i m a t i o ni sp r o p o s e di nt e r m so f r e d u c i n gc o m p u t i n gl o a d e x p e r i m e n t a l r e s u l t ss h o wt h a tt h es c h e m ei se f f e c t i v ei n a c c e l e r a t i n gc o m p u t i n gs p e e di nc o m p a r i s o nw i t ht h ef u l ls e a r c hm e t h o d c u r r e n t l y t h ew a t e r m a r ks c h e m e so fv i d e oa r ef a ri m m a t u r ec o m p a r i n gt ot h o s eo fs t i l l i m a g e s t h ec h a r a c t e r i s t i c so fm o t i o ne s t i m a t i o ni nh 2 6 4a r ef i r s ts t u d i e da n dt h e nan e w w a t e r m a r ks c h e m ef o rs t e r e o s c o p i cv i d e oi sp r o p o s e db yc h a n g i n gt h em o t i o nv e c t o r sg o tb y t h eh a l fp i x e lm o t i o ne s t i m a t i o na n ds e a r c hr a n g eo ft h eq u a r t e rp i x e lm o t i o nv e c t o r s t h e s c h e m ec a nb ee x p a n d e dt od e t e c tt h et r a n s m i s s i o ne r r o li th a sb e e np r o v e de f f e c t i v eb ym a n y e x p e r i m e n t s e r r o rc o n c e a l m e n ti su s e dt or e c o v e rt h ev i d e oi m a g e sd a m a g e db ye r r o n e o u sc h a n n e l s t h et e c h n i q u ea c h i e v e st h i su s i n gt h ec o r r e s p o n d e n c eo fs p a c ea n dt i m ea n da d d i n ga d d i t i o n a l i n f o r m a t i o nt ot h ev i d e o a f t e ra n a l y z i n gt h es c h e m e so fs i n g l ev i e wv i d e o ,t h i sp a p e rp u t s f o r t han e we r r o rc o n c e a l m e n ts c h e m eb a s e do nm u l t i p l eb l o c kp a t t e r n s t h es c h e m em a k e s f u l lu s eo ft h em o t i o nc h a r a c t e r i s t i c sa m o n gd i f f e r e n tb l o c k sa n dd i s p a r i t yc o r r e s p o n d e n c eo f t h et w ov i e w s e x p e r i m e n t a lr e s u l t ss h o wt h a tt h es c h e m ei sv e r ye f f e c t i v e k e y w o r d s :d i s p a r i t ye s t i m a t i o n ,w a t e r m a r k , e r r o r c o n c e a l m e n t i i i 图目录 图1 1j p e g 2 0 0 0 的基本结构框图 图1 2 混和编码系统( a ) 编码器( b ) 解码器 图1 3 基于块的立体视频图象编码方案框图 图1 4 基于对象的立体视频图象编码方案框图 :! 3 7 图2 1 会聚相机系统1 2 图2 2 平行相机系统 图2 3 视差档板立体显示原理图 图2 4 尾正交凸透镜立体显示 图2 5 尾正交凸透镜的观察领域 图2 6 m c p 和d c p 联合预测 1 4 。1 5 1 5 图3 1 立体图象对间的对应关系17 图3 2 由有限视野和深度间断引起的遮挡问题1 8 图3 3 平行相机系统的偏振特性 图3 4 利用时间相关性预测视差矢量 图3 5 相邻块关系 图3 7 视差估计的全搜索 图3 8 搜索树t 图3 9 启发式快速搜索算法框图 图3 1 0h 2 6 4 中的7 种宏块模式2 5 图3 1 l 本文方法的搜索模式2 6 图3 1 2 不同搜索点数的编码性能比较 图3 1 3 对不同立体视频序列编码得到的率失真曲线2 9 图3 1 4 ( a ) 全搜索编解码重建图象p s n r = 3 6 5 7 d t 3 2 9 i x 矗体桃缅缟码中的拥天技木研究:幽目录 ( b ) 本文方法编解码重建图象p s n r = 3 6 51 d b , 图3 1 5 ( a ) 全搜索编解码重建图象p s n r = 3 6 1 l d b 3 0 ( b ) 本文方法编解码重建图象p s n r = 3 6 0 4 d b 。 图3 1 6 ( a ) 全搜索编解码重建图象p s n r = 3 4 9 2 d b 3 0 ( b ) 本文方法编解码重建图象p s n r = 3 4 8 3 d b 3 0 图4 1 视频水印按外观和应用分类 图4 2 视频水印按变换域分类3 7 图4 3 视频水印按嵌入对象分类3 8 图4 4 立体视频水印的嵌入与提取原理框图3 9 图4 5 不同立体序列的编码率失真曲线 图4 6 不同立体序列的水印图象主观质量比较4 2 图5 1 自适应p o c s 迭代恢复处理示意图4 7 图5 2 本文算法框图4 8 图5 3 运动场与视差场的相关性4 8 图5 4 丢失宏块x 与周围宏块, 4 9 图5 5 分割宏块x 得n d , 块的空间位置4 9 图5 6 小块周围最相邻象素 图5 7 本文方法图象主观质量对比结果一 图5 8 不同错误隐藏方法p s n r 的比较5 2 x 表目录 表3 1 不同搜索范围的搜索点数下降倍数卢2 8 x i 声明 我声明本论文是我本人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,本论文中不包含 其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做 的任何贡献均已在论文中作了明确的说明并表示了谢意。 作者签名: 日期:汐口牛、诈 论文版权使用授权书 本人授权中国科学院计算技术研究所可以保留并向国家有关部门或机 构送交本论文的复印件和电子文档,允许本论文被查阅和借阅,可以将本 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编本论文。 ( 保密论文在解密后适用本授权书。) 作者签名: 聊签名蒂壤吼m 口 啦 第一章绪论 随着多媒体技术和互联网技术的大力发展,视频技术正向着立体化,数字化、网络 化、高清晰度方向发展【1 埘。市场对立体视频系统丌发与应用的需求也越来越迫切,其在 立体视频会议系统、网络立体视频娱乐产品、远程教学与监控等方面的应用前景看好。 1 1 数宇视频编码压缩技术 传统的压缩编码是建立在香农( s h a n n o n ) 信息论基础上的,它以经典的集合论为基 础,用统计概率模型宋描述信源,但它未考虑信息接受者的主观特性及事件本身的具体 含义,重要程度和引起的后果。因此,压缩编码的发展历程实际上是以香农信息论为出 发点,一个不断完善的过程。 在各种各样的视频应用中,传输的视频数据量之大,单纯用扩大存储器容量、增加 通信干线的传输速率的办法是不现实的,数据压缩技术是个行之有效的解决办法,通过 数据压缩,可以把信息数据量压下来,以压缩形式存储、传输,既节约了存储空间,又 提高了通信干线的传输效率,同时也可使计算机实时处理音频、视频信息,以保证播放 出高质量的视频、音频节目。可见,多媒体数据压缩是非常必要的。由于多媒体声音、 数据,视象等信源数据有极强的相关性,也就是说有大量的冗余信息。数据压缩可以将 庞大数据中的冗余信息去掉( 去除数据之间的相关性) ,保留相互独立的信息分量,因此, 多媒体数掘压缩是完全可以实现的。 数据压缩的发展过程体现了人类对信息本质的认识过程。当今的多媒体数据压缩建 立在对以下三个方面的认识上:信息源的统计冗余大量存在,信道传输速率的限制,人 的感觉器官的敏感程度。数据压缩技术针对不同原始数据的特点有不同的编码方法: 预测编码:根据离散信号之间存在一定关联性的特点,利用前面一个或多个信 号对下一个信号进行预测。只需对实际值和预测值的差进行编码和传输。 变换编码:先对信号进行某种函数变换,从一种信号空问变换到另一种信号空 间,对变换后的信号进行编码,通常存在反变换,以恢复原束的数据。 统计编码:是根据消息出现概率的分角特性而进行的压缩编码。其宗旨在于: 在消息和编码之间找到明确的一一对应关系,以便在恢复时能准确无误地再现 出来,使平均码长或码率降低到最低限度。 行程编码:计算信源符号出现的行程长度,然后将行程长度转换成代码出现的 数掘压缩。 混合编码:对信源数掘同时使用两种或两种以上的编码方法,大大提高数掘压 缩的效率。 中国 i 学皖颂 学位论立寺体视频编衅中的相关技术研究 1 。1 1 静止图象压缩编码及其标准 图象作为信息含量最丰富的载体是构造信息环境必不可少的要素。它在现代通信技 术中所承担的作用己远远超过其它娱体,但图象的数掘量非常大,为了有效地传输和存 储图象,必须对图象数据进行有效压缩。自从8 0 年代中期,国际电工协会( i e c ) 和国际 标准化组织( i s o ) 成立了联合图象专家组,制定了黑白和彩色图象压缩的国际标准j p e g , 这个联合图象专家组就是j p e g 组织。j p e g 标准相当于i s o i e c 国际标准1 0 9 2 8 一l ,在 比较了一系列压缩算法后,j p e g 成员在1 9 8 8 年选择了以离散余弦变换d c t 为核心的编 码方法。从1 9 8 8 年到1 9 9 0 年,j p e g 成员继续对算法进行仿真、测试和证明。j p e g 在 1 9 9 1 年成为国际标准草案,1 9 9 2 年成为国际标准。 j p e g 是j o i n tp h o t o g r a p h i ce x p e r t sg r o u p 的缩写,主要用于计算机静止图象的 压缩,在用于活动图象时,其算法仅限于帧内,便于编辑。j p e g 标准所根掘的算法是基 于d c t ( 离散余弦变换) 和可变长编码。j p e g 的关键技术有变换编码、量化、差分编码、 运动补偿、霍夫曼编码和游程编码等。基于d c r 的图象编码器在中等比特率时表现良好, 在高一些的压缩率时,图象质量下降。另一方面,基于小波的编码有效改进了在低比特 率时的画面质量,这是因为其交叠的基函数和小波编码更好的能量紧致性。j p e g 最大压 缩比可达1 0 0 :1 t 3 1 。当然,按这样的比例压缩过的图象质量差,压缩比落在8 :1 到7 5 : 1 之间的图象质量较好。为了满足各种需要,它制定了4 种工作模式:无失真压缩,基 于d 凹的顺序工作方式,累迸工作方式和分层工作方式。j e p g 的最大优点就是用户可以 选择压缩比。并且可以用软件实现压缩算法。 图i ij p e g 2 0 0 0 的基本结构框图 随着多媒体和网络技术的发展和应用,j p e g 己不能满足当前市场和实际应用的要 求。于是从1 9 9 7 年5 月开始,国际上为制定一种静止图象压缩的新标准- - j p e g 2 0 0 0 提 出各种建议。j t c ( 联合技术委员会) 希望这个新的图象压缩系统能够适用于不同类型的静 止图象( 如狄度图象、彩色图象、多分量图象) 以及具有不同特征的静止图象( 如自然图象、 合成图象、医学图象、遥感图象等) ,并且在不同应用场合( 如客户用服务器模式、实时 传输、数字图象检索等) 获得比j p e g 更好的压缩性能,这种编码系统能在甚低比特率压 缩时提供良好的车失真特性和主观视觉质量,以及其它很多优点和上力能1 4 j 。 j p e g 2 0 0 0 主要目标是: 第一章绪论 支持各种类型图象压缩,包括二值图象、多分量图象、遥感图象、医学图象。 甚低比特率性能:在低于o 2 5 b p p 时恢复图象要有更好的细节质量。 同一码流能同时提供有损或无损压缩,合成图象等。 随着象素点精度和空目j 分辨率的提高实现渐进传输。 允许用户自定义感兴趣区并对感兴趣区的图象提供更好的编码质量。 对码流能随机访问和处理。 在通过无线信道传输时,码流具有良好的抗误码性能。 采用数字水印技术提高图象安全保护性能。 j p e g 2 0 0 0 改变了传统j p e g 标准以d c t 变换为核心的变换方法,采用了具有能量特 性更为集中的小波变换方法。其基本结构如图1 1 所示,首先对原始图象数据进行离散 小波变换,然后在形成输出码流( 比特流) 之前,对变换系数进行量化和熵编码。压缩图 象数掘( 即码流) 通过存储或传输后,进行解码、反量化和逆小波变换,从而恢复图象数 掘。 1 1 2 运动图象编码压缩及其标准 ( a ) ( b ) 图1 2 混和编码系统( a ) 编码器( b ) 解码器 与静止图象相比,视频图象不仅在图片内部的象素问存在空域相关性,而且在相邻 中田车筑坝fq - 位论文体眦颢缟屿中的相天址木 孵咒 图片日j 还存在时域相关性,所以视频图象的编码压缩不仅要去除帧内部象素问的空域信 息冗余,而且要去除帧间象素间的时域冗余。一般说来,在帧内以及帧与帧之间,众多 的视频序列均包含很大的统计冗余度和主观冗余度。视频编码的最终目标是:通过挖掘 统计冗余度和主观冗余度,柬降低存储和传送视频信息所需的比特率:并采用熵编码技 术,以便编制出最小信息组。一个实用的编码方案,足在编码特性与实施复杂性之间的 一种折衷。j t c l 是目前国际上制定视频编码标准的正式组织,i t u j 的标准称之为建议, 并命名为h 2 6 x 系列,比如h 2 6 1 、h 2 6 3 t 5 6 7 1 等。i s o i e c 的标准称为m p e g x ,比如 m p e g 。l 、m p e g 2 、m p e g - 4 等。h 2 6 x 系列标准主要用于实时视频通信,比如视频会 议和可视电话等;m p e g 系列标准主要用于视频数掘的存储,广播电视和视频流的网络 传输( 如基于i n t e m e t 、d s l 的视频,无线视频等等) 。除了联合丌发 l 2 6 2 m p e g 2 标 准外,大多数情况下,这两个组织独立制定相关标准。自1 9 9 7 年,i t u t v c e g 与i s o i e c m p e g 再次合作,成立了j o i n tv i d e ot e a m ( j v d ,致力于开发新一代的视频编码标准 h 2 6 4 。1 9 9 8 年1 月,开始草案征集:1 9 9 9 年9 月,完成了第一个草案;2 0 0 1 年5 月, 制定了其测试模式t m l 8 :2 0 0 2 年6 月,t 第5 次会议通过了h _ 2 6 4 的f c d 版本; 2 0 0 2 年1 2 月,1 1 u t 在日本的会议上正式通过了h 2 6 4 标准,并于2 0 0 3 年5 月正式公 布了该标准。国际电信联盟将该系统命名为h 2 6 4 a v c ,国际标准化组织和国际电工委 员会将其称为1 4 4 9 6 1 0 v l p e g - 4a v e 。上述现有标准中,视频编码的核心为混合编码方 案,如图1 2 所示,即运动估计辟 偿+ d c t ( 或小波) 变换+ 量化+ 熵编码,但在许多细节上 又有所不n t 8 9 ”1 。 h 2 6 4 1 a v c 的设计方案包含两个层次,视频编码层( v c l ,v i d e oc o d i n gl a y e r ) 和网 络抽象层( n a l ,n e t w o r ka b s t r a c t i o nl a y e r ) 。视频编码层主要致力于有效地表示视频内 容,网络抽象层格式化v c l 视频表示,提供头部信息,适合多种传输和存储媒体。 h 2 6 4 a v c i “”】的主要特性有: l 、h 2 6 4 a v c 相对以前的编码方法,以m p e g 一2 为例,在图象内容预测方面提高编 码效率,改善图象质量的主要特点如下: 可变块大小运动补偿:选择运动补偿大小和形状比以前的标准更灵活,最小的 亮度运动补偿块可以4 , n4 x 4 。 1 4 采样精度运动补偿:以前的标准最多i 2 精度运动补偿,首次1 4 采样精 度运动补偿出现在m p e g 一4 第二部分高级类部分,但h 2 6 4 a v c 大大减少了内插 处理的复杂度。 运动矢量可跨越图象边界:在以前的标准中,运动矢量限制在己编码参考图象 的内部。图象边界外推法作为可选技术首次出现在h 2 6 3 中。 多参考图象运动补偿:在m p e g - 2 及以前的标准中,p 帧只使用一帧,b 帧只使 用两帧图象进行预测。h 2 6 4 a v c 使用高级图象选择技术,可以用以前已编码 过且保留在缓冲区的大量的图象进行预测,大大提高了编码效率。 4 第一辛绪论 消除参考图象顺序和显示图象顺序的相关性:在以前的标准中,参考图象顺序 依赖显示图象顺序,h 2 6 4 a v c 消除了该限制,可以任意选择。 消除参考图象与图象表示方法的限制:在以前的标准中,b 帧图象不能作为预 测图象,h 2 6 4 a v c 在很多情况可以利用b 帧图象作为参考。 加权预测:h 2 6 4 a v c 采用新技术,允许加权运动补偿预测和偏移一定量。在 淡入淡出场景中该技术极大提高编码效率,该技术还可用于其他多种用途。 改善“跳过”和“直接”运动推测:在以前的标准中,预测编码图象的“跳过” 区不能有运动。当编码有全局运动的图象时,该限制非常有害。h 2 6 4 a v c 对 “跳过”区的运动采用推测方法。对双预测的b 帧图象,采用高级运动预测方 法,称为“直接”运动补偿,迸一步改善编码效率。 帧内编码直接空间预测:将编码图象边沿进行外推应用到当前帧内编码图象的 预测。 循环去块效应滤波器:基于块的视频编码在图象中存在块效应,主要来源于预 测和残余编码。自适应去块效应滤波技术是非常著名的技术,能有效消除块效 应,改善视频的主观和客观质量。 2 、除改善预测方法外,其他改善编码效率的特性如下: 小块变换:以前的标准变换的块都是8 x 8 ,h 2 6 4 a v c 主要使用4 x 4 块变换, 使编码器表示信号局部适应性更好,更适合预测编码。另外图象边界需要小块 变换。 分级块变换:h 2 6 4 a v c 通常使用小块变换,但有些信号包含足够的相关性, 要求以大块表示,h 2 6 4 a v c 有两种方式实现。低频色度信号可用8x8 ,;对帧 内编码,可使用特别的编码类型,低频亮度信号可用1 6 1 6 块。 短字长变换:所有以自口标准使用的变换要求3 2 位运算,h 2 6 4 a v c 只使用1 6 位运算。 完全匹配反变换:所有以前标准反变换和变换之间存在一定容限的误差,因此, 每个解码器输出视频信号都不相同,产生小的漂移,最终影响图象的质量, h 2 6 4 a v c 实现了完全匹配。 基于上下文的熵编码:h 2 6 4 a v c 使用两种熵编码方法,c a 、,l c ( 上下文自适应 的可变长编码) 和c a b a c ( 上下文自适应二进制算术编码) ,两种都是基于上下文 的熵编码技术。 3 、h 2 6 4 a v c 具有强大的纠错功能和各种网络环境操作灵活性,主要特性如下: 参数集结构:h 2 6 4 a v c 参数集结构设计了强大、有效的传输头部信息。在以 前的标准中,如果少数几位关键信息丢失,可能解码器产生严重解码错误。 h 2 6 4 a v c 采用很灵活,特殊的方式,分歼处理关键信息,能在各种环境下可 靠传送。 5 中田学院坝 学位论土0 体视频编码中的相关技术研究 n a l 单元语法结构:h 2 6 4 a v c 中的每一个语法结构放置在称为n a l 的单元中, 以前的标准采用强制性特定的位流接口。n a l 单元语法结构允许很自由的客户 化,几乎适合所有的网络接口。 灵活的象条大小:在m p e g 一2 中,规定了严格的象条结构,头部数掘量大,降低 预测效率,编码效率低。在i - t 2 6 4 a v c 可采用非常灵活的象条大小。 灵活宏块排序( f m 0 ) :h 2 6 4 a v c 可以将图象划分为象条组,又称为图象区,每 个象条可以独立解码。f m 0 通过管理图象区之间的关系。具有很强的抗数掘丢 失能力。 任意象条排序:因为每个象条几乎可以独立解码,所以象条可以按任意顺序发 送和接收,在实时应用中,可以改善端到端的延时特性,特别适合于接收顺序 和发送顺序不能对应的网络中,如使用i n t e r n e t 网络协议的应用。 冗余图象:为提高抗数据丢失的能力,h 2 6 4 a v c 设计中包含一种新的能力, 允许编码器发送图象区的冗余表示,当图象区的主表示丢失时仍可以正确解码。 数据划分:视频流中的编码信息的重要性不同,有些信息( 如运动矢量、预测信息等) 比其他信息更为重要。h 2 6 4 a v c 可以根据每个象条语法元素的范畴,将象条语法划分 为3 部分,分开传送。 1 2 立体视频编码的发展历史及研究现状 对立体图象编码的研究,国际上开始于2 0 世纪8 0 年代末,当时的方法把立体图象 中的左、右图象当作独立的两幅图象,分别使用经典的2 d 平面图象压缩方法来压缩。 这种方法比较简单,但没有利用立体图象对之间固有的联系,得到的压缩率比较小,不 能满足实际的使用。步入9 0 年代,许多学者注意到立体图象序列中的左、右图象之间存 在大量的冗余信息,利用计算机视觉的方法,可以对左、右图象进行视差( d i s p a r i t y ) 估计。 这种视差矢量类似于普通视频编码中的运动矢量。总结近几年的成果,可以把目前比较 成熟的立体图象视频编码方案分为两大类。 1 2 1 基于块的立体图象,视频编码方法 首先,它把左图象当作参考图象,利用标准对它进行单独编码。然后对右图象进行 分块,块的尺寸可以固定也可以变化。右图象中的每个块以某种匹配准则在左图象的重 构图象中找到其最佳的对应块,两者之问的位置差异就是视差矢量。最后采用某种方法 编码视差矢量和立体残差图象。经常使用的匹配准则有:均方误差准则( m s e ) 和绝对差 准n o v i a e ) 。图1 3 给出了这种编码方案的结构框图。 围绕这一方案,许多学者进行了有意义地改进。综合分析这种编码方案后不难发现, 它的优点在于方案成熟、易于硬件实现。其缺点足,没有充分利用立体图象的内在特点, 解码重建图象存在明显的块效应,并在低比特率时主观质量明显下降。 第一辛绪论 幽i 3 基】块的立体视频图象编码方案框图 1 2 2 基于对象( o b j e c t ) 的立体图象,视频编码方法 近年来,m gs n i n t z i s 教授和他的研究小组提出了一种适合低比特率的基于对象的 立体视频图象编码方法。它首先利用成熟的视差估计算法得到视差场,然后根据图象特 征和视差场把场景中的前景运动目标分割出来,对其中的运动目标进行处理,提取出它 的边界、纹理、运动等参数。编码器对这些参数进行编码从而达到编码整幅图象的目的。 图1 4 是这种编码方案的原理框图。从图中可以看出,这种方法利用了立体图象对中隐 含的3 d 深度( d 印m ) 信息,通过建立和编码物体的三维模型有效的提高了编码效率,减 轻了方块效应的影响,提供了一种更自然的场景表述。但是,这种方法需要复杂的图象 分析过程,其中诸多环节,如:物体分割、物体建模等还不成熟,目前只能适用于一些 运动简单、背景单一的图象,它的广泛应用还有待于更好地解决其中的一些关键技术。 视茅翼卜1 物竺量数 廷功1 占计l _ - i 纲h p = 鹏z l l i 合成广一叫象编码r l 运动物体i 分割卜 本文的结构 图 基了对象的立体视频图象编码方案框图 立体图象,视频编码技术远未达到成熟的地步,诸多环节和关键算法都存在着不同程 度的问题。本论文在研究己有算法的基础上,围绕着一些关键技术,包括视差估计、立 体视频水印、立体视频编码错误隐藏等,进行了探索性的研究。在此基础上,给出作者 对这一领域未来发展方向的预测。 中田科学皖坝1 学位论史矿体视频编蚪中的相关扯术研究 本论文共分为六章。 第一章为绪论,介绍了立体视频编码的发展历史及相关的背景知识,并阐述了本文 所做的工作。 第二章主要介绍了立体视频技术的相关知识以及立体视频编码的结构。 第三章研究了视差估计技术,视差估计与补偿技术足立体视频编码中的一种经典的 编码技术,能有效的去除视频通道间的信息冗余,它和运动估计与补偿技术相类似。所 不同的是,运动估计和补偿技术主要用于去除视频序列前后帧画面问的相关性,而视差 估计主要足为了去除相邻通道间的视频面面问的空域相关性。视差估计与补偿技术的核 心内容足视差估计由于左右图象间的视差矢量有可能很大,视差估计的搜索范围很大, 因而计算量也就很大。本文首先针对平行相机系统,分析了视差估计的约束条件,然后 从降低计算复杂度的角度出发,提出了新的快速视差估计算法,并给出了实验结果。 第四章主要研究数字水印和信息安全技术,数字水印技术是近年束新出现的种用 于版权保护和认证的新型技术。但现今提出的许多水印算法都是针对静止图象和声音信 号的,针对视频的水印算法还较少,本文研究的是立体视频水印,提出了视立体频水印新 算法。在视频中嵌入水印比在静止图象中嵌入水印难度更大,要求更高,本文提出的水 印算法将水印直接嵌入到压缩后的视频码流中,水印的嵌入和提取算法都非常简单。 第五章主要研究立体视频的错误隐藏技术。本文在分析了已有的单通道视频的错误 隐藏方法的基础上,提出一种基于多种宏块模式立体视频错误隐藏方法。该方法充分利 用了宏块间的运动特征和纹理结构的相关性以及左右视点间很强的视差相关性。实验结 果表明该方法可以较好地隐藏信道传输失真导致的图象错误。 第六章是对本文的总结,同时给出了进一步的研究方向。 第二章立体视频编码技术 立体视频技术是未来视频技术的一个重要发展方向。虽然现在许多应用中二维彩色 活动图象已经具有很好的视觉效果,但随着生活水平的提高,人们的要求也越来越高, 己经不满足于二维的平面视觉效果,而具有立体感的图象和视频由于具有强烈的真实感 正受到人们的欢迎 ”】。立体视频的研究范围包括多个研究方向,如立体视频的获取技术、 立体视频的显示技术以及立体视频的编码压缩技术等。本章首先介绍了立体视频相关的 知识,包括立体感与立体视频的基本概念以及立体视频的获取技术、显示技术,然后介 绍了立体视频编码的编码结构。 2 1 立体视频简介 立体视频是利用人眼睛的双目视差原理,双目各自独立地接收来自同一场景的特定 摄象点的左右图象,左眼看偏左的图象,右眼看偏右的图象,形成双目视差,大脑能得 到图象的深度信息,使欣赏到的图象有强烈深度感、逼真感【l ”,观众能欣赏到超强的立 体视觉效果。在实际许多应用中有时也需要增加更多的真实性,例如,如果用户能够在 虚拟的三维空间漫游,那么虚拟访问、危险环境的遥控作业和远程医疗将更加真实有效。 同时,人们也已不满足于被动的观看和欣赏电视等视频节目,而是需要具有更加灵活性 和更好交互性的视觉媒体。 2 1 1 立体感和立体视频 公元前3 0 0 年,e u c l i d 发现当人的双眼同时观察相似的两幅图象时,会感觉到场景 的3 d 深度信息,这种视觉被称为人眼的立体视觉。1 7 世纪3 0 年代早期,w h e a t s t o n e , 利用一组手绘的图形完成了对3 d 深度的第一次描述。后来,随着照片的发明出现了立 体照片,但当时的立体照片并没有多少应用价值,更多的是其重要的历史意义。在1 9 世纪中期,b r e w s t e r 和h o l m e s 利用些透镜的组合相继发明了w h e a t s t o n e 观察器,普 通的人也可以享受到立体照片带给他们的“真实感”,从而使立体照片更加普及。进入 2 0 世纪,这种只能描述单一场景的立体图象对不再能够满足人们的要求。1 9 1 5 年,纽约 放映了人类历史上第一部立体电影,它揭开了立体视频研究的序幕。但是,当时只是试 验性质的放映,投影设备和观看仪器的不完善限制了这种立体电影的发展。在这之后的 十几年h j ,立体图象和立体电影并没有太多的应用。在2 0 世纪的3 0 4 0 年代,立体图象 再一次复苏。1 9 3 9 年,c h r y s l e r m o t o r s 利用偏振的材料制成了个屏幕用来投影全彩色 的3 d 立体电影,这样人们通过佩戴一种价格便宜的立体眼镜就可以感受这种“身临其 境”般的电影。当时,在美国和欧洲的一些发达国家也建造了一些专门观看立体电影的 影院。随着1 9 3 9 年电视机的诞生,人们自然而然的开始研究立体电视。但是,受当时半 9 中幽f ;铳蚴f 毕缸硷丘体础翱编码中拥关技术f f j f 亢 导体技术和显示器材的限制,无论使用何种投影技术和投影屏幕,人们还是必须佩戴特 殊的眼镜彳能观看立体影象。这种不方便性使得在后束的3 0 4 0 年里立体电影和电视并 没有在全球范围内推广。可以说,这一领域的研究在这一阶段又一次陷入了低谷。 步入2 0 世纪9 0 年代,立体电视和立体电影重新引起了科研人员的兴趣,它的发展 进入了一个新的历史时期,这个时期,# 导体元器件和电子显示器材飞速发展,许多实 用的立体系统和立体自动显示设备使得人们不需要佩戴特殊的眼镜就可以感知3 d 深度 信息。这样,世界各地包括一些不发达国家都建造了专用的立体影院,一些发达国家更 是定时播放立体电视。由于认识到3 d 影视广阔的发展前景,许多国家组建了专门的科 研梯队来研究和开发立体电视系统,如:欧洲率先资助了两个项目( c o s t 2 3 0 计划和 d i s t l m a z 计划) ,它们的目 ,下就是建立一个集采集编码传输显示为一体的实时立体电视 系统。后来,为了进一步增强立体电视给人们提供的视觉质量,他们又资助了 p a n o r a m a 计划。另外,r 本的n h k 机构也在3 d 高清晰度电视( h d t v ) 的研究方面 起到了积极的推动作用。 人双眼的平均瞳距约为6 5 r a m ,基本保待平行。当两眼从稍有不同的两个角度去观 察客观三维世界的景物时,由于几何光学的投影,离观察者不同距离的象点在左右两眼 视网膜上就不在相同的位置上。这种两眼视网膜上位置的差就称之为双眼视差,它反映 了客观景物的深度。人眼的深度感即立体感就是因为有了这个视差,再经大脑加工而形 成的。 现实的自然世界是三维立体的,人眼具有立体感就是人眼能分辨出物体的空间位 置,如远近、前后、高低等【l ”。人有两只眼睛,因此人们可以通过单个眼睛或两只眼睛 来感知周围的三维世界。在只有单眼观看的情况下,与立体感最重要的活动机制主要有 二个:调节和单眼运动视差【1 6 1 。调节是为了使看到的物体在视网膜上成象,因此它与该 物体离眼睛的绝对距离有关,它对于立体感的形成过程是不可缺少的。单眼运动视差主 要是由观察者移动身体以使空j 日j 物体的相对位置变化,从而判断物体间的前后位置。 仅由单眼信息而获得的立体感中有很强的心理学因素,双眼视觉才是完成三维空间 辨认,产生立体感的主体。在正常情况下,人是通过两只眼睛来观看物体的,但在日常 生活中却意识不到是在用两只眼睛看东西,看见的东西好象是被一只单一的眼睛看到的。 从主观感觉的角度来看,两只眼睛可以看作是一个单一的器官。人们用一只理论上假想 的眼睛来代表这个器官,这个假想的单一的眼睛队做中央眼0 7 1 。但实际上,物体在两个 视网膜上单独成象,这两个物象是同时产生的。只是大脑皮层能将这两个物象融合成一 个物象,形成一种“单一”的图象。将双跟视觉象融台为一个视觉象的机能称为融合机 能一融象。融合机能是产生双眼单视的重要条件,也是产生立体视觉并完成颜色合成的 重要条件 1 8 1 。当人观看物体上的一点时,由该点发出的光线就聚焦于双眼的视网膜的中 心( 中心凹) 。因此,我们可以说一双眼睛内的两个中心凹在视网膜上给出了。对应位置”, 从而根掘它来确定会聚。来自注视点以外各点的光线并不总能聚焦在两个视网膜上的对 应位置,这种效应称为双跟差异或双跟视差。双跟的立体感觉主要来源于两个因素:双 1 0 第一帚体视频编码技术 眼辐辏和双眼视差,但是双跟视差是人产尘立体感的最藿要因素。 立体视频是一种能使人们观看时能获得立体感的视频,一股由两个视频通道组成。 它足根据人跟睛的双目视差原理,在播放时通过显示从略微不同的角度采集到的同一场 景的两个视图,分别对应人的两只眼睛,形成双目视差,并依靠人的大脑将这些视图融 合成一幅有意义的三维图象,从而形成立体感。有立体感的视频可以分为立体视频和多 视点视频。这两种视频都能提供立体感。区别在于立体视频的视点是固定的,对于每一 个场景只有一个固定的观看视点,每个祝点有两个视频通道。而多视域视频的视点是变 化的,它可以提供多个不同位置的观看视点,每个视点也有两个视频通道。本文主要讨 论的是立体视频。 2 1 2 立体相机系统的几何原理和立体视频的获取 立体成象方式包括双目成象方式和多目成象方式两种。双目成象是通过两部相隔一 定距离的摄象机来实现对3 d 场景取象。而多目成象【8 】则是通过多个摄象机在不同的位置 对同一个场景取象。本文主要讨论的是双目成象方式。它是最简单的模拟人双眼感知3 d 景物的成象方式。与人眼观看3 d 景物时相同,当用双目立体摄象机记录3 d 景物时,先 要把两步摄象机的光轴汇聚于感兴趣的物体上,这时称两部摄象机光轴的交点为汇聚点, 汇聚点到两部摄象机透镜中心连线中心的距离为汇聚距离。在数学上汇聚距离可以是有 限值,也可以足无限值,当汇聚距离非常远时,两部摄象机的光轴近乎平行,可认为汇 聚点在无穷远处,汇聚距离为无穷大。为便于数学分析,称汇聚距离为无限远时的双目 立体摄象系统为平行立体摄象系统,汇聚距离为有限值的双耳立体摄象系统为汇聚立体 摄象系统1 1 9 i 。 立体感视频一般是由两个或两个以上的相机拍摄得到。最常见的立体视频是由左右 两个相机构成。设c ,代表世界坐标系,c ,和c ,是左右相机的坐标系,设忸l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论