(通信与信息系统专业论文)多视点视频编码中运动与视差估计的研究.pdf_第1页
(通信与信息系统专业论文)多视点视频编码中运动与视差估计的研究.pdf_第2页
(通信与信息系统专业论文)多视点视频编码中运动与视差估计的研究.pdf_第3页
(通信与信息系统专业论文)多视点视频编码中运动与视差估计的研究.pdf_第4页
(通信与信息系统专业论文)多视点视频编码中运动与视差估计的研究.pdf_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 人们从自然界获得的信息有7 0 来自视觉,作为人眼功能的延伸,摄像机拍摄 的视频与图像的传输便具有了非常重要的意义。视频图像存在着复杂的物体运动 以及多种色彩变化,尤其是多视点视频,随着相机数量的增多,信息量成倍增长。 视频编码8 0 的工作量都用来进行运动估计和视差估计,并且由于h 2 6 4 a v c 具有 很高的压缩效率,因此本文基于h 2 6 4 a v c 从运动与视差估计方向对多视点视频编 码进行了深入的研究。 本文的主要工作包括对联合多视点视频编码模型j m v c ( j o i n tm u l t i v i e wv i d e o c o d i n gm o d e l ) 进行结构和流程分析;完成了一种新型的多视点视频编码中视差估 计搜索算法,使编码时间降低到原来的4 0 5 0 ;在此基础上,基于运动与视差 矢量之间固有的几何关系对平行相机配置的多视点视频序列进行进一步提高运动 预测效率的研究。 关键词:h 2 6 4 a v c 多视点视频运动与视差估计 a b s t r a c t3 a b s t r a c t a b o u t7 0p e r c e n to ft h ei n f o r m a t i o nw h i c hp e o p l eg e t 丘o mt h en a t u r a li sc a p t u r e d b ye y e s s ot h et r a n s p o r t a t i o no f v i d e o sa n di m a g e si sm u c hm o r ei m p o r t a n tt h a nb e f o r e v i d e o sa r eo f t e nc a p t u r e db yc a t n e r a $ t h a t 弱a l le x t e n s i o no fp e o p l e se y e s t h e r ea l e c o m p l i c a t e do b j e c tm o t i o na n d s e v e r a lc o l o rc h a n g ei nv i d e oi m a g e s s ow h e nt r a n s p o r t t h e m t o om u c hd a t as h o u l db et r a n s p o r t ,w h i c hn e e d sl o r so fb a n d w i d t h t h a tm a k e st h e e f f i c i e n c yo ft r a n s p o r t a t i o nw o r s e e s p e c i a l l yi nm u l t i v i e wv i d e o ,w i t hi n c r e a s i n go f t h e c a m e r an u m b e r , t h ei n f o r m a t i o ni n c r e a s e st i m e l y i nf a c t , a l m o s t8 0p e r c e n to ft i m e w a s t e di nv i d e oc o d i i 唱i su s e di nm o t i o na n dd i s p a r i t ye s t i m a t i o n i no t h e rs i d e ,嬲t h e m o s tp o p u l a ra n de f f i c i e n tc o d i n gm e t h o d ,h 2 6 4 a v ci su s e di nt h i sp a p e r , b a s e do n w h i c hw ed i dd e e p l yr e s e a r c hi nm o t i o na n dd i s p a r i t ye s t i m a t i o ni nm u l t i v i e wv i d e o c o d i n g t h i sp a p e rp a i dm a i na t t e n t i o ni na n a l y z i n gj m v c ( j o i n tm u l t i v i e wv i d e oc o d i n g m o d e l ) w h i c hi st h es t a n d a r dc o d i n gm o d e ld e s i g n e df o rm u l t i v i e wv i d e o ,a n dt h e n p r o p o s i n gan e w s e a r c hm e t h o di nt h ep r o c e s so fd i s p a r i t ye s t i m a t i o nw h i c hm a k e st h e c o d i n gt i m ed e c r e a s e db y4 0p e r c e n t t o5 0p e r c e n tc o m p a r e dw i t ht h eo r i g i n a ls e a r c h m e t h o di nj m v c a sa na d d i t i o nt ot h ef o r w a r dw o r k ,t h er e l a t i o n s h i pb e t w e e nm o t i o n a n dd i s p a r i t ye s t i m a t i o nv e c t o ri se x p l o i t e db a s e do nt h es e t u p so fc a m e r a si sp a r a l l e lt o m a k et h em o t i o ne s t i m a t i o nm u c hm o r ee f f i c i e n t l y k e y w o r d :h 2 6 4 1 a v c m u l t i v i e wv i d e om o t i o na n dd i s p a r i t ye s t i m a t i o n 创新性声明 秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在 导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标 注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成 果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说 明并表示了谢意。 申请学位论文与资料若有不实之处, 本人签名:盗纽 本人承担一切的法律责任。 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保 留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内 容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后 结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。 ( 保密的论文在解密后遵守此规定) 本人签名: 导师签名:日期j 趁09 二lo 驴 第一章绪论 1 1 1 视频编码技术原理 第一章绪论 1 1 视频编码技术背景 随着通信技术的发展与人们对实时交流需要的提高,逐渐出现了各种方式的多 媒体信息的传输与服务。其中,视频图像的传输使人们能够通过电子设备在异地 看到对方,并可进行音频通话。视频信号的应用与发展不仅使电视,电影,视频 会议系统,摄像头监控等技术在现实生活中大大便利了人们的日常生活,而且多 视点视频信息处理技术使得立体电视( 3 d t v ) ,自由视( f r e e v i e w p o i n t ) 以及文物的 重建逐步成为了现实,对进一步提高人们的精神生活水平和进行科学研究都有极 其重要的意义。 视频压缩技术是视频图像在计算机和网络中传输与处理的前提。由于视频信 号数字化后数据带宽很高,通常在2 0 m b 秒以上,因此计算机很难对之进行保存 和处理,而通过采用压缩技术可以数据带宽降到1 1 0 m b 秒,这们就可以将视频信 号保存在计算机中并作相应的处理。视频图像数据有极强的相关性,也就是说有 大量的冗余信息,这是视频压缩技术可行的必要条件。压缩技术就是将数据中的 冗余信息去掉( 去除数据之间的相关性) ,根据其中冗余信息可分为空域冗余信 息和时域冗余信息,压缩技术与之对应,包含帧内图像数据压缩技术、帧间图像 数据压缩技术和熵编码压缩技术。 帧间编码技术用来去除时域冗余信息,它包括以下运动补偿,运动表示,运 动估计三个概念。同一序列图像之间或同一时刻不同视点之间的图像具有时间相 关性,因此对应图像对之间存在相应的时域冗余。运动补偿是指通过先前的局部 图像来预测、补偿当前的局部图像,它是减少时间冗余信息的有效方法。运动表 示是指不同区域的图像需要使用不同的运动矢量来描述运动信息。运动矢量通过 熵编码进行压缩。运动估计是指从视频序列中抽取运动信息的一整套技术。通用 的压缩标准都使用基于块的运动估计和运动补偿。 帧内图像和预测差分信号都有很高的空域冗余信息,因此去空域冗余信息主要 使用帧内编码技术和熵编码技术。在同一帧图像中,可能会有多个像素具有近似 的像素信息,如亮度,色度等,因此具备了帧内压缩的可能性。熵编码是无损编 码。它对变换、量化后得到的系数和运动信息,进行进一步的压缩。变换编码将 空域信号变换到另一正交矢量空间,使其相关性下降,数据冗余度减小。经过变 换编码后,产生一批变换系数,对这些系数进行量化,使编码器的输出达到一定 的位率。这一过程导致精度的降低。 2多视点视频编码中运动与视差估计的研究 视频编码通过特定的压缩技术,将某个视频格式的文件转换成另一种视频格式 文件。h 2 6 4 是一种效率和性能均非常优秀的视频编码技术标准。本文将在后续的 章节深入的讲解h 2 6 4 在视频编码尤其是多视点视频编码技术中的应用。 1 1 2 视频编码标准发展过程【1 】 目前比较常用的视频编码标准有h 2 6 1 ,h 2 6 3 以及m p e g 系列,随着人们对 音视频信息要求的提高而逐步建立,从而反映了视频编码标准的发展历程。下文 将对这几种视频编码标准进行简单介绍。 h 2 6 1 是最早出现的视频编码标准,由i t u - t 的前身c c i t t 针对可视电话、 视频电视和窄带i s d n 等要求提出的一个编码标准。其全称为“p x 6 4 k b i t s ”视听 业务的视频编解码器,根据p 取值不同获得不同清晰度的图像。h 2 6 1 采用一种公 共中间格式( c i f ,c o m m o ni n t e r m e d i a t ef o r m a t ) ,不论何种彩色格式,发送方先把自 己国家的彩电制式转换成c i f 格式,经h 2 6 1 编码后再由c i f 格式转换到接收方 彩电制式。采用的算法主要由运动估计辟 、偿、d c t 变换和h u f f m a n 编码等部分组 成。由于它主要针对实时业务,因而希望编码器的延时尽可能小,所以只利用前 一帧做参考帧进行前向预测,且编解码器的复杂度基本对称。这个视频编码方案 对以后各种视频编码标准产生了深远影响,直至今天。 h 2 6 3 是为低码率视频压缩提供的新标准,主要支持小于6 4 k b i t s 的窄带信号 信道视频编码。在技术上,它采用了半像素精度的运动估计、无限制的运动矢量模式、 高级预测模式、p b 帧等,性能要优于h 2 6 1 。h 2 6 3 + 、h 2 6 3 + + 扩充了h 2 6 3 的 编码可选项和其它的一些附加特性,适应于低码率传输要求,并进一步提高了图 像质量,且增强了抗误码的差错隐藏性能,将信道传输性能问题在信源编码中加 以综合考虑。 m p e g 1 是针对数据传输率在1 5 m b i t s 以下的数字存储介质图像及其伴音编 码而制定的国际标准,主要用于家用v c d 的视频压缩;m p e g 2 包括系统、视频、 音频及符合性( 检验和测试视音频及系统码流) 4 个文件,它的全称为“运动图像 及其伴音的编码 ,其中h 2 6 2 就是它的视频编码部分,目前在d v d 存储和数字 电视广播方面得到了广泛应用。与m p e g - 1 和m p e g 2 两个标准相比,m p e g 一4 更加注重多媒体系统的交互性和灵活性,主要应用于可视电话、视频会议等。随 着人么对视频信息的需求发生了变化,m p e g - 4 制定了新目标,即为支持多媒体应 用( 侧重于对多媒体信息内容的访问) ,可根据应用要求配置解码器。然而由于 基于内容的编码较难实现,且涉及专利的收费问题,m p e g 4 尚未得到广泛应用。 作为m p e g - 4 的第1 0 部分,h 2 6 4 由m p e g ( m o v i n gp i c t u r ee x p e r t sg r o u p ) 和 v c e g ( v i d e oc o d i n ge x p e r t sg r o u p ) 联合开发,并正式作为国际上的一个独立标准。 第一章绪论 3 h 2 6 4 a v c 优异的视频压缩性能将为视频实时通信,数字电视广播,网络视频流 媒体的传递以及彩信( 多媒体短信) 的推广应用等各个方面发挥重要作用。h 2 6 4 不仅具有优异的压缩性能,而且具有良好的网络亲和性,进一步说明了在视频通 信中h 2 6 4 的重要应用价值。h 2 6 4 还有一个重要应用,即网络的流媒体。多媒体 短信息也是h 2 6 4 的重要应用之一,我国的短信市场正方兴未艾,相信多媒体短 信也将有巨大发展。 h 2 6 4 a v c 采用了简洁的设计思路,不再采用众多的可选项,而是将整个编 码器融合在一个框架内,在解码器端采用了复杂度可分级设计,在图像质量和解 码处理速度之间进行折中,以适应多种复杂应用,增强的网络适应能力。它采用 了面向网络传输的结构和语法,通过引入面向i f ( i n t e r a c tp r o t o c 0 1 ) 包交换的编码机 制,实现视频数据在网络中的分组传输,对于不同的内容采用分割( d a t ap a r t i t i o n ) 编码传输,并且提供了较强的抗误码特性,适用于丢包率高、干扰严重的无线信 道视频传输。h 2 6 4 公开版权时,充分吸取了m p e g - 4 标准在版权和专利问题上的 经验教训,提出对基本档次( b a s e l i n ep r o f i l e ) 的使用无需版权,从而使整个 h 2 6 4 a v c 视频压缩标准具有开放的特点。 1 2 本文工作与论文结构 本章为绪论部分,主要介绍了视频编码技术的背景,并对已有视频编码技术进 行了简单介绍和比较。 接下来本文工作及结构安排如下:第二章主要介绍了h 2 6 4 a v c 视频编码技 术原理,编解码器结构以及关键技术,在此基础上研究了基于h 2 6 4 的多视点视 频编码,并在第三章详细地介绍了多视点视频编码的原理以及运动与视差估计的 预测结构和现有方案。关于本文的实验平台j m v c 也在第三章从功能和结构角度 进行了简单介绍。本文主要是对平台中运动估计部分进行了研究和改进,之后通 过研究与比较国内外先进的多视点视频编码算法,综合分析了各算法的难度和优 劣,以及可改进的方向,实现了以下两个算法。第一种算法是第四章的工作,即 与项目组同学合作完成的基于校正对极线的视差快速搜索算法。第二种算法在第 五章实现,即是在视差快速搜索算法实现的基础上,利用已知视差与运动矢量之 间的几何关系,并对平行配置的视频测试序列进行实验,试图得到较好的运动矢 量估计效果。第六章对全文进行了总结,指出了本文中算法的不足之处,并提出 了可改进的研究方向,以期未来的科研工作中实现多视点视频编码算法的进一步 优化,从而最大限度的提高编码效率。最后为致谢部分。 第二章h 2 6 4 a v c 视频编码技术 第二章h 2 6 4 a v c 视频编码技术 2 1h 2 6 4 设计目标 h 2 6 4 和基于以前的标准( 如h 2 6 1 、h 2 6 3 、m p e g 1 、m p e g 4 ) 中的编解 码器功能块的组成并没有什么区别,主要的不同在于各功能块的细节。由于视频 内容时刻在变化,有时空间细节很多,有时大面积的平坦。这种内容的多变性就 必须采用相应的自适应的技术措施;由于信道在环境恶劣下也是多变的,例如互 联网,有时畅通,有时不畅,有时阻塞,又如无线网络,有时发生严重衰落,有 时衰耗很小,这就要求采取相应的自适应方法来对抗这种信道畸变带来的不良影 响。这两方面的多变带来了自适应压缩技术的复杂性。h 2 6 4 就是利用实现的复杂 性获得压缩性能的明显改善。由于大规模集成电路技术和工艺的迅猛进步,今天 已完全具备了实现的可能性。 制定h 2 6 4 标准的主要目标是:与其它现有的视频编码标准相比,在相同的 带宽下提供更加优秀的图象质量,如与h 2 6 3 和m p e g - 4 相比,压缩比达到原来 的2 倍,且具有良好的网络亲和性。目前这些目标已经基本实现。 h 2 6 4 最大的优势体现在以下四个方面: ( 1 ) 将每个视频帧分离成由像素组成的块,因此视频帧的编码处理的过程可以 达到块的级别。 ( 2 ) 采用空间冗余的方法,对视频帧的一些原始块进行空间预测、转换、优化 和熵编码( 可变长编码) 。 ( 3 ) 对连续帧的不同块采用临时存放的方法,这样,只需对连续帧中有改变的 部分进行编码。该算法采用运动预测和运动补偿来完成。对某些特定的块,在一 个或多个已经进行了编码的帧执行搜索来决定块的运动向量,并由此在后面的编 码和解码中预测主块。 ( 4 ) 采用剩余空间冗余技术,对视频帧里的残留块进行编码。例如:对于源块 和相应预测块的差值,再次采用转换、优化和熵编码。 2 2 1h 2 6 4 编解码器特点 2 2h 2 6 4 编解码器结构 h 2 6 4 并不明确地规定个编解码器如何实现,而是规定了一个编了码的视频 比特流的句法,和该比特流的解码方法,各个厂商的编码器和解码器在此框架下 应能够互通,在实现上具有较大灵活性,而且有利于相互竞争。h 2 6 4 编解码器的 6 多视点视频编码中运动与视差估计的研究 结构与h 2 6 1 ,h 2 6 3 基本是类似的,真正的优势体现在实现的细节,比如添加了 多参考帧管理、七种预测模式、1 4 像素运动估计以及去块效应滤波器,s p s i 帧 的技术的应用。 在描述多功能块的细节前,我们还是对h 2 6 4 编码器、解码器的主要功能描 述如下,以便对编码器有一个总的了解。 2 2 2h 2 6 4 编码器【2 】 编码器采用的仍是变换和预测的混合编码法。 图2 1 解码器结构 由图2 1 ,输入的帧或场f n 以宏块为单位被编码器处理。首先,按帧内或帧间 预测编码的方法进行处理。如果采用帧内预测编码,其预测值p r e d ( 图中用p 表示) 是由当前片中前面已编码的参考图像经运动补偿( m c ) 后得出,其中参考图 像用f n 1 表示。为了提高预测精度,从而提高压缩比,实际的参考图像可在过去 或未来( 指显示次序上) 已编码解码重建和滤波的帧中进行选择。 预测值p 和当前块相减后,产生一个残差块d n ,经块变换、量化后产生一组 量化后的变换系数x ,再经熵编码,与解码所需的一些边信息( 如预测模式量化 参数、运动矢量等) 一起组成一个压缩后的码流,经n a l ( 网络自适应层) 供传 输和存储用。 正如上述,为了提供进一步预测用的参考图像,编码器必须有重建图像的功 能。因此必须使残差图像经反量化、反变换后得到的d n 与预测值p 相加,得到 u f n ( 未经滤波的帧) 。为了去除编码解码环路中产生的噪声,为了提高参考帧的 图像质量,从而提高压缩图像性能,设置了一个环路滤波器,滤波后的输出f n 即 重建图像可用作参考图像。 第二章h 2 6 4 a v c 视频编码技术 2 2 3h 2 6 4 解码器 图2 2 解码器结构 由图2 1 可知,由编码器的n a l 输出一个压缩后的h 2 6 4 压缩比特流,之后 如图2 2 所示,经熵解码得到量化后的一组变换系数x ,再经反量化、反变换,得 到残差d n 。利用从该比特流中解码出的头信息,解码器就产生一个预测块p ,它 和编码器中的原始p 是相同的。当该解码器产生的p 与残差d t 。相加后,就产生 u f n ,再经滤波后,最后就得到滤波后的f t n ,这个f t n 就是最后的解码输出图像。 2 3 1 帧内预测 2 3 关键技术研究 在以往的视频压缩标准中,空间域主要采用帧间预测的方法,虽然h 2 6 3 + 、 m p e g - - 4 也采用了帧内编码技术,但是是将其引入变换域实现的。h 2 6 4 是首先实 现帧内预测引入空间域的视频编码标准,当编码i n l r a 图像时可用帧内预测,通过 参考预测块左方或上方已编码块的临近像素点,进行加权预测。例如,对每个4 x 4 块( 若是边缘块仍特殊处理) ,每个像素都可用1 7 个最接近已编码像素的加权和 ( 每个像素权重不同,有的权值可以为o ) 来进行预测。因而,帧内预测是在空间 上进行的预测编码算法,可以有效的通过取出邻块间的空间冗余进行压缩。 下面将根据不同的块模式来介绍帧内预测算法。在帧内预测模式中,预测块p 是基于已编码重建块和当前块形成的。由于图像的像素值包含亮度成分和色度成 分,而人眼对于色度的敏感程度又远远低于对亮度的敏感程度,因此在预测过程 中,对亮度的预测提出了更高的要求。帧内预测因此将分为4 x 4 和1 6 x 1 6 的亮度 预测模式和8 x 8 的色度预测模式等不同情况。 1 4 4 的亮度预测模式f 2 】 8多视点视频编码中运动与视差估计的研究 ab cde fg h划彦j 砀r f 丑lf b l 图2 3 ( a ) 利用像素a - q 对方块中a - p 像素进行帧内4 x 4 预测 ( b ) 帧内4 x 4 预测的8 个预测方向 如图2 3 所示,4 x 4 亮度块编解码过程中的预测参考像素为其上方和左方像素 a q 等已编码和重构像素。a - p 为待预测像素,利用a - q 值和表2 1 中所列9 种预 测模式实现。图2 4 中箭头表明了每种模式预测方向。其中模式2 ( d c 预测) 根 据a q 中已编码像素预测,而其余模式只有在所需预测像素全部提供才能使用。 对模式3 8 ,预测像素由a q 加权平均而得。 1 撇o r 日_ o2 ( d c 3 f d 叼。耐d o 料嘲4 汹叼o n d d o 岍l i 0 哪 酽酽黟酽l u l a i b i c l l 3 1 e l f i g i h i 酽黔酽穿 图2 44 x 4 亮度块预测模式 表2 1 预测模式描述 模式描述 模式0 ( 垂直)由a 、b 、c 、d 垂直推出相应像素值 模式1 ( 水平)由i 、j 、k 、l 水平推出相应像素值 模式2 ( d c )由a d 及i l 平均值推出所有像素值 模式3 ( 下左对角线)由4 5 0 方向像素内插得出相应像素值 模式4 ( 下右对角线)由4 5 0 方向像素内插得出相应像素值 模式5 ( 右垂直)由2 6 6 0 方向像素值内插得出相应像素值 模式6 ( 下水平) 由2 6 6 0 方向像素值内插得出相应像素值 模式7 ( 寿垂盲) 由2 6 6 0 方向像素值内插得出相应像素值 模式8 ( 上水平) 由2 6 。6 0 方向像素值内插得出相应像素值 2 1 6 x 1 6 的亮度预测模式2 】 宏块的1 6 x 1 6 亮度成分可以整体预测,有4 种预测模式,如图2 5 和表2 2 所 不。 第二章h 2 6 4 a v c 视频编码技术 9 图2 51 6 x 1 6 预测模式 表2 21 6 1 6 预测模式描述 模式描述 模式0 ( 垂直) 由上边像素推出相应像素值 模式1 ( 水平)由左边像素推出相应像素值 模式2 ( d c ) 由上边和左边像素平均值推出相应像素值 模式3 ( 平面)利用线形平面函数及左、上像素推出相应像素值,适用于亮度变化平缓区域 3 8 x 8 的色度预测模式 每个帧内编码宏块的8 x 8 色度成分由已编码左上方色度像素预测而得,两种 色度成分常用同一种预测模式。色度块4 种预测模式类似于亮度块帧内1 6 x 1 6 预 测的4 种预测模式,只是编号不同。其中模式0 ( d c ) 、模式1 ( 水平) 、模式2 ( 垂直) 、模式3 ( 平面) 。 2 3 2 帧间预测 帧内预测是在编码当前块时用已编码的重建块为参考进行预测,而帧间预测 则是在编码当前帧时,用已编码的重建帧作为参考帧并结合基于块的运动估计和 运动补偿来进行的预测。 1 树状结构运动补偿1 2 h 2 6 4 的帧间预测与以往相比块尺寸精细到4 x 4 ,范围更广( 从1 6 x 1 6 到4 x 4 ) , 运动估计过程中使用了亚像素运动矢量( 1 2 像素,1 4 像素) ,且通过运动多参考 帧使得图像的预测效果更加准确。 根据图像的层次划分,可有帧或场、片组、片、宏块、块等概念。每个宏块 为1 6 x 1 6 像素大小,有四种分割为块的方式,如图所示,宏块可分为一个1 6 x 1 6 块,或两个1 6 x 8 块,或两个8 x 1 6 块,或四个8 x 8 块。根据不同的块模式,相应 的有四种运动补偿算法。其中,8 8 模式的子宏块也可以继续分割为四种块模式, 即一个8 8 子块,或两个4 8 子块,或两个8 x 4 子块,或4 个4 x 4 子块。大的分 割尺寸适合平坦区域,小的分割尺寸适合多细节区域。 色度块分割模式与亮度块相同,只是尺寸在水平方向和垂直方向都减半,因 而其运动矢量也是对应亮度运动矢量的水平和垂直分量减半。尺寸的分割体现了 l o多视点视频编码中运动与视差估计的研究 h 2 6 4 树状运动补偿的层次结构。1 6 x 1 6 宏块及8 x 8 子宏块的分割分别如图2 6 , 图2 7 所示: o1 o 1 图2 61 6 x 1 6 宏块分割 o1 图2 78 8 子宏块分割 0| 23 o1 23 2 运动矢量预测 运动矢量( m v 9m o t i o nv e c t o r ) 是指采用帧间预测进行编码的宏块分割或其子宏 块与参考图像中某一相同尺寸区域的差异,对亮度成分采用1 4 像素精度,色度成 分采用l 8 像素精度。如果m v 的垂直和水平分量为整数,则参考块的相应像素实 际存在;若其中一个或两个为分数,则预测像素称为亚像素,并不存在于参考图 像中,需利用临近已编码点进行内插得到。 由于m v 的编码需要相当的比特,特别是小尺寸分割,因而为进行压缩,可 利用临近m v 的相关性进行m v 预测。预测矢量m v p 基于已计算m v 和m v d ( 预 测与当前的差异) 并被编码和传送。m v p 则取决于运动补偿尺寸和邻近m v 的有 无。典型预测模式为:以当前宏块左、上、右上三个方向的对应临近块为参考来 进行预测。当其左边不止一个分割时,取其中最上面的一个;上方不止一个分割 时,取最左边的;具体如图2 8 、2 9 所示: 8c e 图2 8 当前和邻近分割( 相同尺寸) 第二章h 2 6 4 a v c 视频编码技术 bc 4 x 8 伯鹈 i a i 8 ) 0 1 e 1 自c 8 图2 9 当前和邻近分割( 不同尺寸) 其中: ( 1 ) 传输分割不包括1 6 8 和8 x 1 6 时,m v p 为a 、b 、c 分割m v 的中值; ( 2 ) 1 6 x 8 分割,上面部分m v p 由b 预测,下面部分m v p 由a 预测; ( 3 ) 8 x 1 6 分割,左面部分m v p 由a 预测,右面部分m v p 由c 预测; ( 4 ) 跳跃宏块( s k i p p e dm b ) ,同( 1 ) 。 2 3 3 其他关键技术简介 1 整数变换和量化 h 2 6 4 对图像或预测残差采用了4 x 4 整数离散余弦变换技术。首先对1 6 个系 数做整数d c t 变换,然后把直流系数单独提取出来做一次哈达马变换。 y = a x a r ;x = a 7 瑚式( 2 1 ) 瓷是图像块x 中第i 行第j 列图像或残差值,y 血是变换结果矩阵y 相应频率 点上的d c t 系数。其中n x n 变换矩阵a 中的系数: 鸣= q c 。s 百( 2 j + 1 ) i t r 式( 2 2 ) h 2 6 4 采用标量量化技术,它将每个图像样点编码映射成较小的数值。一般标 量量化器的原理为: 固= r o u n d ( l 妒yj 式( 2 - 3 ) 在h 2 6 4 中,量化步长q s t e p 共有5 2 个值。当q p 取最小值0 时代表最精细 的量化,当q p 取最大值5 1 时代表最粗糙的量化。q p 每增加6 ,q s t e p 增加一倍。 h 2 6 4 草案规定,亮度q p 的最大值是5 1 ,而色度q p 的最大值是3 9 。h 2 6 4 量化 过程还要同时完成d c t 变换中“圆e f 乘法运算,它可以表述为: 乙一拧d 嚣 艄, 1 2多视点视频编码中运动与视差估计的研究 2 熵编码 信源的熵与其可能达到的最大值之间的差值反映了该信源所含有的冗余度。 熵编码是建立在随机过程的统计特性基础上的一种无损压缩编码方法,作为数据 压缩的一个基本途径,用于去除信源符号之问的相关性。它生成的码流可以经解 码无失真的恢复出原数据。h2 6 4 标准中主要采用c a v l c ( 基于上下文自适应的 可变长编码) 和c a b a c ( 基于上下文的f l 适应- - 进制算术熵编码) 两种方法。 3 去方块滤波 由于h2 6 4 视频编码标准的变换量化过程是基于块的帧内帧间预测残差的 d c t 变换,而量化过程相对粗糙,同时又因为运动补偿预测过程的匹配块并不是 绝对准确的,而是满足一定的判定准则即可,因此当进行反变换量化后会造成方 块效应叩圈像块边界上不连续。而且,参考帧中的边界不连续也被复制到需要 补偿的图像块中。虽然h 2 6 4 采用了4 x 4 的较小块,但仍需要去方块滤波过程来 提高图像质量。在视频编解码器中加入去方块滤波器的方法有两种:后置滤波器 和环路滤波器。另外,由于图像本身存在一些固有的边界,如家具的边界等,因 此滤除方块效应时应加入判断是否是真实的边界还是方块效应。自适应去方块滤 波器就可以实现区分真实的和人为的图像边界并有效滤除后者。去方块滤波的效 果对比如图2 1 0 ,图2 1 1 所示: 盟 图2 1 1 采用去方块滤波器的h 2 6 4 编解码器的效果 第二章h 2 6 4 a v c 视频编码技术 2 4 本章小结 本章主要介绍了h 2 6 4 标准的制定目标,编解码原理及其关键技术。标准制 定时的两个目标,如压缩比达到与h 2 6 3 、m p e g 4 相比的2 倍,以及良好的网络 适应性已经基本实现,能够满足多种媒体通信要求。在实际应用中,h 2 6 4 编码工 具仍然具有一定的限制,其能否被广泛应用取决于编解码器的设计及参数的选择。 h 2 6 4 关键技术中都还有优化的空间,国内外也出现了很多的在不同角度对标准优 化的方法。随着多视点视频编码领域研究的热潮,基于h 2 6 4 的m v c 视频编码方 案越来越多,必将引领h 2 6 4 与多视点视频编码技术的共同进步。 第三章多视点视频编码技术 1 5 第三章多视点视频编码技术 3 1 多视点视频编码原理 3 t 1 多视点视频的应用需求 随着计算机网络技术的发展,基于各种国际编码标准( m p e g x 、h 2 6 x 系列) 的视频产品己经走进人们的学习、生活和工作等各个方面。然而,随着人们对于 数字视频要求的日益提高,人们希望看到表征自然景物的数字视频更加清晰、更 加真实在视频技术领域,主要的发展趋势是追求对自然景物更加真实、清晰的表 征。模拟电视经过数十年的发展和应用,如今将被数字电视取代,高清晰数字电 视m d t v ) 通过增加图像显示的分辨率,进一步提高了视觉的真实性。目前的二维 平面视频在表征自然场景深度信息方面的局限性已使其不能满足人们对场景真实 和自然再现的需求。例如,立体电视和立体电影表征出来的3 d 显示效果;在进行 可视电话或者远程可视会议时,用户的临场感;远程诊疗时,医生需要病人全方 位的视频信息;网上购物,人们也希望能够看到物品在多个视角的描述。这些都 是传统二维图像视频无法提供的视觉效果。为满足人们的这种需求,能够提供3 d 视觉的多视点视频技术越来越受到学术界和工业界的重视,并且成为当前视频研 究领域的热点之一。 3 1 2 多视点视频信号采集【3 】 众所周知,视频图像在显示时,根据观看者所处位置不同相应的图像也不尽 相同。例如,当观看者的头部移动时,看到的内容也会出现相应的变化,从而得 到了“运动视差 和“环视”的效果。由此为启发,为了获得同一场景各个角度 的视频,我们使用相对固定的多个摄像机对同一场景在同一时刻从不同角度拍摄, 所得的一系列视频信号就叫做多视点视频。 人眼生理视觉研究表明,人眼对场景画面变化的辨别能力非常强,为得到自 然平滑的运动视差效果,双眼距离内需要提供超过1 0 幅的画面内容,因此,需要 使用非常稠密的摄像机来获得多视点视频序列。然而这样系统太复杂,实际很难 实现。在实际的应用中,使用稍微稀疏的摄像机阵列拍摄该视点的视频图像,然 后利用视差信息和两个相邻摄像机上的视频合成中间视点的图像。多视点视频的 摄像机主要分为平行配置和汇集配置,另外还有摄像机位于场景任意相对位置的 配置。为同时获得水平和垂直方向的运动视差效果,多视点视频需要二维摄像机 阵列来采集,考虑到复杂度,目前的测试序列大都只提供水平方向的运动视差效 1 6多视点视频编码中运动与视差估计的研究 果,使用水平一维摄像机阵列获得。图3 1 给出平行和汇聚配置的一维摄像机阵列。 i i i i 百 ( a ) 平行配置( b ) 汇聚配置 图3 1 多视点视频摄像机的配置 采集的多视点视频信号之间因为相机位置的不同而存在差异,但视频内容有 着一定的相关性,因此各视点间存在着冗余,其冗余度的大小与相机陈列的形式、 相机与拍摄对象的距离以及相机间距有着很大的关联。多视点视频信号由于既存 在着同一路视频的各帧之间的时间相关性,还有各个视点间的空间相关性,因而 编码过程不仅需要传统视频编码标准中的运动估计来消除时间冗余,还要进行不 同视点间的空间预测来减少空间冗余,实现视频的进一步的压缩。一般采用视差 估计的方法来消除空间冗余,用视差估计的方法可以降低各个视点间的冗余,达 到更好的编码压缩目的。 多视点视频与单视点视频相比,数据量随相机数目成倍增长,在传输应用或 本地快速解码时,用户并不需要所有的数据信息,即对数据之间的依赖性要求较 低,但这恰好与压缩成矛盾。因而当前多视点视频压缩在应用上的主要问题在于 数据压缩效率与随机读取能力的矛盾。多视点视频本身是相关性很强的多个信源, 其压缩编码技术的研究对于视频数据的压缩,视点的合成以及3 d 真实感数字视频 的广泛推广有着重要的意义。本文接下来将在编码预测方案上对其进行深入分析, 并在下一章提出且实现了本文的核心算法。 3 2 多视点视频编码预测方案 在多视点视频编码过程中,运动估计以及视差估计( 视点间的运动估计) 的 过程需要分为同一视点内的估计和视点之间的估计两个方面来进行研究。由前面 一节可知,当对主视点进行编解码时,只有视内预测的过程,即由常规视频编码 的帧内预测和帧间预测过程来完成运动估计和运动补偿,从而实现主视频序列的 压缩编码。编码完主视点之后,对后续视点,则采用视内预测和视点间预测相结 第三章多视点视频编码技术 合的预测过程,根据与主视点相对位置的不同,每个视点的每一帧都有确定的编 码预测方法。由于本文中的实验只涉及到主视点v l e w o 和后续视点v i e w l ,故v l e w l 的视点问预测编码只需前向参考v i e w o ,并结合v i e w ! 的视内预测编码来实现整个 预测过程。下面对视内预测和视点间预潮的原理进行简单的介绍。 3 2 1 视内预测 多视点视频编码的视内预测指在一路视频内的时域预测。通过常规的运动估 计算法和帧内预测来完成。由第二章的内容可知,图像的运动效果是由在一定时 间间隔下连续拍照捕获的图像在一个矩形窗口内回放产生的。物体的运动即物体 在前后帧之间的变化,也就是相对位移。此位移可能来自被拍摄物体本身的运动, 也可能来自摄像机的移动对某一编码块而言,这个相对位移就是运动矢量。得 到运动矢量的过程就称为运动估计。块或宏块的运动估计就是在参考帧中通过一 定的判定准则获取与当前块最佳匹配的像素区域。通过两块相减得到残差块,然 后将运动矢量,残差发送到解码端,根据运动矢量在参考帧中找到相应的宏块, 并与预测我差相加得到宏块在当前帧中的位置。由于运动估计通过利用图像的时 域相关性可太幅去除帧闻冗余,降低了视频传输的数据量,因而可以非常有效的 进行视频数据的压缩。 一组多视点视频包含m 个单路视频,每一路视频是相机在一个视点处对同一 场景的采集,在每一路视频中都包含视内预测的编码过程,因而对运动估计和帧 内预测的研究具有重要的意义。如图3 2 所示为一组恐龙的多视点图像。 322 视问预测 图3 2 一组多视点图像 视问预测,即空间预测,体现了多路视频之间的参考瑟测关系。视差估计过 程就是在立体图像对中求解对应性问题获取视差矢量的过程,即对于一个图像 中的一点,获得其在另一图像中对应点( 匹配点) 的过程。视差估计的本质与帧 间预钡i 相似,在程序中仅体现为参考帧属于当前视点还是参考视点。本文视差预 测仅发生在1 视点的编码过程。其中,当参考帧为主视点图像时,为视差预测, 参考帧为1 视点图像时为常规的帧间预测。同时,由于视差的概念与相机的相对 位置等因素有关,因而,往往从相机几何和视觉几何等角度进行研究与改进。 1 8 多视点视频编码中运动与视差估计的研究 1 视差矢量 所谓视差是指同一个点在两视点的对应图像中投影点之间的位置偏差,包括 各摄像机的相对运动及场景中对象的运动所产生的差异。视差矢量的定义如下图 所示。设在左图像中的一点m l ( x 1 ,y o ,其在右图像中的对应匹配点为m f ( x r ,y o 则 连接从m l 到i i l r 的矢量称为视差矢量( d x ,d y ) ,其水平分量d x - - x l - x r ,其垂直分量 d v = ) r i y r ,视差矢量描述在左右图像中对应匹配点的相对位移。 左图像右图像 + 一孑 i 一 一 以 肌, 图3 3 平行摄像机系统的视差矢量图 图3 4 汇聚摄像机系统的视差矢量 2 视差估计 对视差估计算法的要求随着不同的需求而异。计算机视觉中场景的三维重建 要求视差估计有足够高的精度,从而才可获得精确密集的视差场,而视频编码目 标是寻求编码效率和图像质量的折衷,在图像质量可以接受的前提下获得更高的 压缩比,因而对视差估计的要求较低。因而在多视点视频编码中视差估计常常与 运动估计的实现类似,也是基于块的搜索匹配过程,在程序中仅体现为参考帧属 于当前视点还是参考视点。例如,本文视差预测仅发生在1 视点的编码过程,其 中,当参考帧为主视点图像时,为视差预测,参考帧为1 视点图像时为常规的帧 间预测。由于进行视间预测时,视差估计占有相当的比重,因而,随着视点数目 的增加,对视差估计的研究显得越来越重要。根据实际需要,在图像基本不降质 的前提下,研究主要立足于如何提高编码的效率。 3 视差对应中的各种约束条件【1 4 l 视差匹配是立体视觉分析中最重要的,但也是最困难的。都要依靠自然的约 束条件,才能获得较准确的解答。以下几种约束条件是针对立体视差对应而提出 的,遵循这些约束进行视差匹配,可以减少搜索的范围和确定正确的对应。 ( 1 ) 对极线约束 第三章多视点视频编码技术 1 9 对于任一点,其对应点均可在它的对应对极线上找到。这就是对极线的约束。 它大大地限制了搜索对应点的范围,是立体视觉中最基本的约束。特别,当左右 摄像机的光轴平行,x 轴一致时,左图像上任一点的( x i ,y 1 ) 的对极线就是y r = y l 。 ( 2 ) 相容性约束 对应的特征应有相同的属性。这一约束的具体含义随所选用的特征及其属性 不同而有所不同。此处不做详解。 ( 3 ) 唯一性约束 除了非常个别的情况下,一幅图像( 左或右) 上的每个特征只能与另一幅图 像上的唯一一个特征对应。 ( 4 ) 连续性约束 由于物体表面一般是光滑的,因而他们的偏差一般也是平滑的,除了在物体 边界处的深度不连续的地方可能除外。 ( 5 ) 偏差梯度约束 对大多数自然场景,包括很复杂的,两对对应点的偏差梯度总是小于l 的: 而对于不正确的匹配,则很少满足上述限制。 ( 6 ) 形状连续性约束 它要求沿物体边界的偏差也是连续变化的。 3 2 3 多视点时空联合预测方案【4 】 多视点视频由于是对同一场景同一时间从不同角度进行拍摄,因而相邻视点 问的视频内容存在相似性,这也意味着视频数据的冗余。作为用于消除视点间冗 余的视差估计,其与运动估计类似,通过寻找各图像之间的相关性来进行压缩。 不同的是,运动估计是利用同一视点两图像时域相关性,而视差估计是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论