(通信与信息系统专业论文)基于视觉几何的双目视频压缩编码.pdf_第1页
(通信与信息系统专业论文)基于视觉几何的双目视频压缩编码.pdf_第2页
(通信与信息系统专业论文)基于视觉几何的双目视频压缩编码.pdf_第3页
(通信与信息系统专业论文)基于视觉几何的双目视频压缩编码.pdf_第4页
(通信与信息系统专业论文)基于视觉几何的双目视频压缩编码.pdf_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 作为新一代的视频编码标准,h 2 6 4 a v c 吸收了视频图像压缩领域最新的研 究成果和算法,能够显著提高视频压缩效率,但由于其计算比较复杂,因此需要 较长的编码时间。 多视点视频作为一种交互式多媒体应用,体现了下一代多媒体应用网络化、 交互性和真实感的发展方向。由于多视点视频数据量大,而h 2 6 4 a v c 具有很 高的压缩效率,因此本文选用h 2 6 4 a v c 进行多视点视频编码的研究。 本文的主要工作包括对现有的单视点编码j m 平台进行结构和流程分析;研 究利用h 2 6 4 a v c 进行多视点视频编码的方法;在j m 平台下完成双目视频编码 算法和调试工作。在调试成功的基础上,本文完成了对多视点视频,特别是双目 视频进行压缩编码的三种算法。第一种算法仅将双目视频每帧交替存储并顺序编 码;第二种算法根据双目视频的特点,考虑编码帧与参考帧之间的时间相关性, 在编码第一路视频时,参考帧只选其同一视点已编码的帧,与第一种算法相比, 在对第一路视频进行编码时,运动估计时间比原算法减少5 0 以上;第三种算法 利用两视点间存在的基础矩阵约束关系,在对第二路视频进行编码时,当参考帧 为第一路视频中已编码的帧时,即视点问的运动估计时,对预测的运动矢量m v p 进行修正,使第二路视频的运动估计总时间相对第二种算法减少约1 5 。 关键词:h 2 6 4 1 a v c 双目视频基础矩阵 a b s t r a c t a b s t r a c t a san e wg e n e r a t i o no fv i d e oc o d i n gs t a n d a r d ,h 2 6 4 a v ca b s o r b st h el a t e s t r e s e a r c hr e s u l t sa n da l g o r i t h m si nv i d e oc o d i n gd o m a i n ,w h i c hc a ns i g n i f i c a n t l y i m p r o v et h ev i d e oc o d i n ge f f i c i e n c y h 。2 6 4 a v ce n c o d e ri sv e r yc o m p l e x b e c a u s eo f t h em a n ya d v a n c e db u tc o m p u t a t i o n a l l yc o m p l i c a t e ds c h e m e si te m p l o y si na c h i e v i n g ah i g h c o d i n gp e r f o r m a n c e ,s oi tn e e dal o n gt i m et oe n c o d eaf r a m e m u l t i v i e wv i d e oi sa ni n t e r a c t i v em u l t i m e d i aa p p l i c a t i o n i ts h o w st h ed i r e c t i o n s o ft h en e x tg e n e r a t i o na p p l i c a t i o n si nm u l t i m e d i a , s u c ha sn e t w o r k i n g ,i n t e r a c t i v ea n d r e a l i s t i c s i n c et h eh 2 6 4 a v cc a np r o v i d eh i g h e rc o m p r e s s i o ne f f i c i e n c yi nd e a lw i t h t h el a r g ea m o u n to fd a t a , w es e l e c tt h eh 2 6 4 a v cf r a m e w o r k t os t u d yt h em u l t i v i e w v i d e oc o d i n gm e t h o d s t h em a i nw o r ko ft h i sp a p e ri n c l u d e st h r e em a i np a r t s f i r s t l y , w ea n a l y z et h e s t r u c t u r ea n dp r o c e s so ft h em o n o c u l a rv i d e oe n c o d i n gf r a m e w o r kb a s e do nj mp l a t f o r m s e c o n d l y ,w es t u d ym u l t i v i e wv i d e oc o d i n gm e t h o d su s i n g t h eh 2 6 4 a v cf r a m e w o r k t h i r d l y , w ea c c o m p l i s ht h ec o d i n ga l g o r i t h mo fb i n o c u l a rv i d e oo nj mp l a t f o r m w e c o m p l e t et h r e ea l g o r i t h m so fe n c o d i n gm u l t i - v i e wv i d e oe s p e c i a l l yb i n o c u l a r v i d e oo n t h eb a s i so ft h ea n a l y z e ds t r u c t u r e t h ef i r s ta l g o r i t h mi so n l yt os t o r ee a c hf r a m eo f b i n o c u l a rv i d e oa l t e r n a t e l ya n dt oe n c o d es e q u e n t i a l l y t h es e c o n da l g o r i t h mi sb a s e d o nt h ec h a r a c t e r i s t i c so fb i n o c u l a rv i d e o 、访mc o n s i d e r i n gt h et i m e r e l e v a n c e b e t w e e nt h ec o d i n gf r a m ea n dt h er e f e r e n c ef l a m e w h e nw ee n c o d et h ef i r s tv i d e o ,n l e r e f e r e n c ef r a m ei si u s ts e l e c t e di n s i d e t h et i m eo fm o t i o ne s t i m a t i o ni sr e d u c e db y m o r et h a n5 0 c o m p a r e dw i t ht h ef i r s ta l g o r i t h m t h et h i r da l g o r i t h mu s e st h e f u n d a m e n t a lm a t r i xc o n s t r a i n tb e t w e e nt w ov i e w s ,w h e nw ee n c o d et h es e c o i l dv i d e o , i ft h ec o r r e s p o n d i n gf r a m ei se n c o d e di nt h ef i r s tv i d e o ,w es e l e c tt h ec o r r e s p o n d i n g f r a m ea st h er e f e r e n c ef r a m ea n da d j u s tt h ep r e d i c t e dm o t i o nv e c t o rm v p t h et i m eo f m o t i o ne s t i m a t i o nf o rt h es e c o n dv i d e oi sr e d u c e db y15 c o m p a r e dw i t ht h es e c o n d a l g o r i t h m k e y w o r d s :h 2 6 4 a v c b i n o c u l a rv i d e of u n d a m e n t a lm a t r i x 西安电子科技大学 学位论文独创性( 或创新性) 声明 秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在 导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标 注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成 果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说 明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切的法律责任。 本人签名:。叁致日期地2 。至12 西安电子科技大学 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保 留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内 容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后 结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。 ( 保密的论文在解密后遵守此规定) 本人签名: 导师签名:j l 日期鲨、圣:2 日期幽:三:夕 第一章绪论 第一章绪论弟一早三百t 匕 1 1 引言 2 1 世纪的社会是信息化社会,数字化的信息,涉及到人们生活的各个方面, 深刻改变着人类的生活方式。人们使用声音、图形和图像作为新的信息载体,随 着计算机技术的不断发展,产生了多媒体技术。 多媒体技术是指计算机综合处理多种媒体信息,包括文本、图形、图像和声 音以及影视动画等,并且在各种媒体间按照某种方式建立逻辑连接,集成为具有 交互能力的系统的一种技术l l j 。 在日常生活中,约8 0 的人类感知信息是从视觉中获得的,视频具有直观、 形象、准确、高效和应用广泛等特点,因此,在多媒体技术中,图形图像信息有 着其他信息无法替代的作用。但未经压缩的数字视频的数据量是非常巨大的,这 对通信系统中有限的带宽和存储空间是一种的挑战,例如一幅数字电视图像的每 帧数据量为2 5 3 k b ,每秒的数据量( 3 0 帧秒) 2 5 3 3 0 = 7 6 m b ,那么一片 c d r o m ( 6 5 0 m b ) 仅能存储长度为6 5 0 7 6 6 0 = 1 4 2 分钟的视频。可见,未压缩的 视频很难应用于实际。 视频压缩技术已成为多媒体视频技术研究的一个重要方向,引起了人们的广 泛关注。 l 。2 视频编码的发展历史 图像编码是从2 0 世纪4 0 年代末开始进行系统研究的,至今已有5 0 多年的历 史了。 1 9 4 8 年,o l i v e r 提出了电视信号的线性p c m 编码理论 2 1 。在5 0 年代发表的 电视编码的早期工作中,已提出了线性预测理论,测量了亮度信号和差值信号的 概率分布。同年,香农( c e s h a n n o n ) 在其经典论文通信的数学原理中指出, 任何信息都存在冗余,冗余的大小和信息中的每个符号的出现概率或者说不确定 性有关【3 】。1 9 5 9 年,香农进一步确立了率失真理论,奠定了信源编码的理论基础。 1 9 5 8 年,g r a h a m 首次采用了计算机模拟试验的方法,研究静止图像的前值 预测d p c m 编码法,获得3 4 比特像素时图像质量的优良结果。 1 9 6 6 年,o n e a l 继续图像编码的计算机试验,用最小均方差准则对三种典型 静止图像做系统研究,为d p c m 预测编码法做了初步的理论工作。 2 基丁视觉几何的叔目视频压缩编码 1 9 6 9 年,m i l l i a r d 等首次研制可视电话( 带宽约为1 m h z ) 的d p c m 编译码 器,并进行了几百公里的传输实验( 6 31 2 m b s ) 。与此同时,p r a r 等提出了 w a l s h h a d a m a r d 变换编码法,促使变换编码理论在几年内迅速形成。同年,m o u n t s 进行了可视电话( 带宽1 m h z ) 帧间编码的计算机模拟研究。 2 0 世纪8 0 年代,图像编码研究与开发有了突出进展。二值制图像传真机( 三 类传真机) 已成为办公室的重要通信设备;地球资源卫星所获得的遥感图像,已 经大量地应用到国民经济的各个方面;图像编码与数字通信技术相结合,使空间 飞行器在1 9 8 0 年和1 9 8 1 年从土星发回大批土星及其光环、卫星的图像:而在彩 色广播电视、会议电视和电视电话编码等方面,已经研究了几十种帧内编码和帧 间编码的硬件试验系统,进行了一批卫星中继和光纤中继的传输试验。 实用化方面的研究集中在国际标准化组织i s o 和国际电信联盟i t u 联合制定 的几个标准,如1 9 9 0 年的静态图像压缩编码标准j p e g ,c c i t t 的p x 6 4 k b s 视 频编码建议h 2 6 1 ,1 9 9 3 年的i s o i e c 的视音频编码m p e g 1 和1 9 9 4 年m p e g 一2 标准,而1 9 9 6 年的i t u 的低码率视频编码建议h 2 6 3 可以说是前一时期静态图 像和视频图像编码理论研究的总结。 1 3 视频压缩的信息论基础 视频序列中存在着多种冗余【4 1 ,这是视频序列能够压缩的原因。去除这些冗 余数据,就实现了视频序列的压缩编码。视频序列中,主要有如下几种冗余: 空间冗余 空间冗余是指在同一帧画面中,相邻像素问存在的相关性,特别是当这些相 邻像素位于同一个视频对象中时,相关性更强。 时间冗余 对于一个视频序列,除非场景切换,否则相邻帧在时间上都是连续的。在相 邻帧中往往包含与当前帧相同的背景和对象。只是由于镜头的转动和对象的移动 使得空间位置发生变化,因此,视频序列在时间上存在相关性。 信息熵冗余 根据信息熵理论,要表示图像数据的一个像素点,只要按其信息熵的大小分 配相应比特数即可。但实际应用中,很难得到每个像素的信息熵,一般是对每个 像素采用相同的比特数来表示,这样就必然存在冗余,这种冗余就称为信息熵冗 余。 知识冗余 有些图像的理解和某些先验知识有相当大的关联性,例如:人脸的图像有固 定的结构,五官间的相互位置信息就是一些常识,这种冗余称为知识冗余。 第一章绪论 心理感觉冗余 人类的视觉系统对图像场的敏感性是非均匀和非线性的,而在记录原始的图 像数据时,通常假定视觉系统是线性的和均匀的,对视觉敏感和不敏感的部分同 等对待,这样就产生了比理想编码更多的数据,这就是心理感觉冗余。 从信息论观点来看,图像作为一个信源,描述信源的数据是信息量( 信源熵) 和信息冗余之和。数据压缩的实质是减少冗余。冗余减少可以减少数据量而不减 少信息量。如果在不妨碍图像实际应用的基础上,允许图像有一定的失真,那么 数据量压缩的可能性就更大。 1 4 重要的视频编码标准简介 从上个世纪8 0 年代开始,标准化组织推出了系列针对不同应用领域的数字 视频编码标准,这其中包括i t u - t 的h 2 6 x 系列和i s o i e c 的m p e g 系列。i t u t 的标准主要有h 2 6 1 、h 2 6 3 、h 2 6 3 + 、h 2 6 3 + + 以及h 2 6 4 的前身h 2 6 l 等等, 主要应用于实时视频通信领域,如会议电视,可视电话等;i s o i e c 的标准主要 包括m p e g 1 、m p e g 2 、m p e g 4 、m p e g 7 、m p e g - 2 1 等,主要应用于视频存 储、广播电视、因特网等。而最新的h 2 6 4 标准则被纳入m p e g - 4 的第1 0 部分, 故又称为h 2 6 4 a v c ( m p e g - 4p a r t1 0 ) 。 1 m p e g 系列标准 ( 1 ) m p e g 一1 t 5 】 m p e g - 1 分为图像编码、声音编码和系统( 同步和复用) 3 个部分,主要用 于在各种数字存储介质上存储同步和彩色运动视频信号。m p e g 1 标准采用了运 动估计= 运动补偿、变换编码等技术,并规定了编码位流的表示语法和具体解码方 法。m p e g 1 标准是v c d 工业标准的核心,作为m p e g 制定的第一个标准,其 在多媒体存储领域获得了巨大成功,极大的推动了以v c d 为代表的多媒体业务 的发展。 ( 2 ) m p e g 2 1 6 j m p e g 2 制定于1 9 9 4 年,设计目标是高级工业标准的图象质量以及更高的 传输率。其所能提供的传输率在3 1 0 m b p s 之间。m p e g 2 在设计时的巧妙处理, 使得大多数m p e g 2 解码器也可播放m p e g 1 格式的数据,如v c d 等。由于 m p e g - 2 的出色性能表现,已能适用于h d t v ,使得原打算为h d t v 设计的 m p e g 一3 ,还没出世就被抛弃了。 ( 3 ) m p e g - 4 t t l m p e g 4 与m p e g 1 和m p e g 2 有很大的不同。m p e g 4 不只是具体压缩算 法,它是针对数字电视、交互式绘图应用( 影音合成内容) 、交互式多媒体等整合 4 基r 视觉几何的舣目视频压缩编码 压缩技术的需求而制定的国际标准。m p e g 4 标准将众多的多媒体应用集成于一 个完整的框架内,旨在为多媒体通信及应用环境提供标准的算法及工具,从而建 立起一种能被多媒体传输、存储、检索等应用领域普遍采用的统一数据格式。 ( 4 ) m p e g 7 和m p e g 2 1 m p e g 7 标准1 8 l 称为“多媒体内容描述接口 ( m u l t i m e d i ac o n t e n td e s c r i p t i o n i n t e r f a c e ) ,目的是制定一套描述符标准,用来描述各种类型的多媒体信息及它们 之间的关系,以便更快更有效的检索信息。 m p e g 2 1 是一个支持通过异构网络和设备,使用户透明而广泛地使用多媒体 资源的标准,其目标是建立一个交互的多媒体框架,该框架能够使遍布全球的各 种网络和设备上的数字资源被透明和广泛的使用。 2 h 2 6 x 系列标准 ( 1 ) h 2 6 1 1 9 1 h 2 6 1 建议是最早出现的视频编码国际标准,该建议于1 9 9 0 年通过,其全称 为“p x6 4 k b i t s 视听业务的视频编解码器”,其中p = l - 3 0 ,用以根据传输线路的 带宽调整图像质量。h 2 6 1 定义了一个完整的视频编码算法,只对c i f 和q c i f 两 种图像格式进行处理,采用的算法是结合了可减少时间冗余的帧间预测和可减少 空间冗余的d c t 变换的混合编码方法。 ( 2 ) h 2 6 3 1 0 】 h 2 6 3 建议是i t u t 提出的关于码率低于6 4 k b p s 的窄带电信信道视频编码的 标准,于1 9 9 6 年正式通过。它以h 2 6 1 为基础,同时吸收了m p e g 等其他一些 国际标准中有效合理的部分并做出改进,如半像素精度的运动估计、不受限运动 矢量、高级预测模式等,使其性能优于h 2 6 1 。 在h 2 6 3 之后,u t 又相继于1 9 9 8 年和2 0 0 0 年制定了h 2 6 3 + 和h 2 6 3 抖, h 2 6 3 + 和h 2 6 3 + + 是h 2 6 3 标准的扩充并与之兼容。 ( 3 ) h 2 6 4 a v c t l l 】 h 2 6 4 a v c 作为面向电视电话、电视会议的新一代编码方式,最初是由i t u - t 组织的视频编码专家组v c e g 于1 9 9 8 年提出的,目标是在同等图像质量条件下, 压缩效率比任何现有的视频编码标准要提高1 倍以上。2 0 0 1 年底,m p e g 组织也 加入了i t u t 的v c e g 组织,组成了联合视频专家组( j o i n tv i d e ot e a m ,j v t ) 共 同完成制定工作。h 2 6 4 a v c 标准草案于2 0 0 3 年3 月正式获得通过。h 2 6 4 仍是 基于经典混合编码算法的基本结构,在变换编码、嫡编码和运动估计等方面采用 了一系列先进技术、新研究成果,其性能超越了以往所有的视频编码标准,具有 光明的应用前景。 3 a v s ( a u d i ov i d e oc o d i n gs t a n d a r d ) 2 0 0 3 年1 1 月底,中国国家信息产业部数字音视频编解码标准组正式发布a v s 第一章绪论 标准草案。a v s 视频编码标准主要是为了适应数字电视广播、数字存储媒体、因 特网流媒体、多媒体通信等应用中,大尺寸、高质量的运动图像压缩的需要而制 定的。a v s 采用与h 2 6 4 类似的技术框架,核心技术包括8 x 8 整数变换、量化、 帧内预测、1 4 精度像素插值、特殊的帧问预测、二维熵编码、去块效应环内滤 波等。 1 5 本文的主要研究内容和成果 h 2 6 4 优异的压缩性能和良好的网络亲和性,使它在数字电视广播、实时视 频通信、网络视频流媒体以及多媒体短信等各个方面发挥着重要作用。 多视点视频作为一种交互式多媒体应用,体现了下一代多媒体应用网络化、 交互性和真实感的发展方向。主要应用于虚拟视频会议、自由视点电视、立体电 视等领域。由于多视点视频数据量大,而h 2 6 4 具有很高的压缩效率,因此,利 用h 2 6 4 进行多视点视频编码有着广阔的应用前景。 本文共分五章,各章主要内容安排如下: 第一章:绪论 首先介绍视频压缩编码的发展历史及其信息论基础,接着介绍了主要的视频 编码标准,最后介绍了本文的主要内容和研究成果。 第二章:h 2 6 4 视频编码标准 本章首先介绍h 2 6 4 视频编码标准的发展,接着分析了其编解码器的框架, 最后详细分析了h 2 6 4 编码标准的主要算法。 第三章:双目视频压缩编码 本章首先论述了多视点视频编码的发展及其特点,接着分析了几种双目视频 编码方案,接着完成了两种基于h 2 6 4 的双目视频压缩编码算法,第一种算法利 用现有的h 2 6 4 单视频编码平台,实现双目视频编码,经实验分析,该方法可以 很好的完成双目视频的压缩编码;第二种算法,利用双目视频视点间的时间相关 性特点,对第一种算法进行了改进,在编码第一路视频时,参考帧只选其同一视 点已编码的帧,经实验分析,在编码第一路视频时,改进算法的运动估计时间比第 一种算法减少5 0 以上,实验平台为j m l 0 1 。 第四章:一种利用视觉几何约束条件的双目视频编码方法 本章首先介绍了视觉几何的基础知识,接着分析了两视点间基础矩阵及其求 法,并利用基础矩阵,求出图像上的点所对应的对极线,最后,提出了一种利用 视点间的基础矩阵,对视点间运动估计进行改进的算法,经实验分析,该算法比 第二种算法估计时间减少约为1 5 ,实验平台为j m l 0 1 。 第五章:总结与展望 6 基丁视觉儿何的双目视频压缩编码 本章为全文的总结,并指出了以后的研究方向。 本文的主要研究成果: 本文对现有的单视点编码j m 平台完成了结构和流程分析:研究了基于 h 2 6 4 a v c 的多视点视频编码算法;并在j m 平台下完成双目视频编码算法和调 试工作。在调试成功的基础上,本文完成了对多视点视频,特别是双目视频进行 压缩编码的三种算法。第一种算法仅将双目视频每帧交替存储并顺序编码;第二 种算法根据双目视频的特点,考虑编码帧与参考帧之间的时间相关性,在编码第 一路视频时,参考帧只选其同一视点的己编码帧,第二种算法与第一种算法相比, 在对第一路视频进行编码时,运动估计时间比原算法减少5 0 以上;第三种算法 利用两视点间存在的基础矩阵约束关系,在对第二路视频进行编码时,当参考帧 为第一路视频中已编码的帧时,对预测的运动矢量m v 。进行修正,使第二路视频 的运动估计总时间相对第二种算法减少约1 5 。 第二章h 2 6 4 视频编码标准 第二章h 2 6 4 视频编码标准 2 1h 2 6 4 视频标准概述 二十世纪九十年代以来,i t u t 和i s o i e c 制定了一系列视频压缩编码的标 准和建议,这些标准和建议的制定极大地推动了视频通信技术的实用化和产业化。 2 0 0 1 年开始组建了联合视频工作组( j v t ,j o i n tv i d e ot e a m , i s o i e cm p e g 和 i t u tv c e g 联合视频工作组) ,制定了一套新的视频编码标准h 2 6 4 a v c 。 测试表明,相对于m p e g - 4 、h 2 6 3 和m p e g 2 ,在获得相同视频质量的前提 下,h 2 6 4 的平均编码比特比m p e g 一4 a s p 要少4 1 ,比h 2 6 3h l p 要少5 2 , 比m p e g - 2 要少6 7 。由于无线带宽资源和传输能力是有限的,因此,提高压缩 编码效率成为无线视频和多媒体应用的主要研究目标,h 2 6 4 在此性能十分优越, 使其具有广阂的应用前景。h 。2 6 4 应用于视频通信领域,如实时视频会议系统、 h d t v 、网络广播、视频流媒体服务、移动多媒体及远程视频监控等等,其编码 技术先进实用,网络适应性强,使其必将成为最具影响的视频编码标准之一。 数字电视的优越性已是公认的,但它的广泛应用还有赖于高效的压缩技术。 例如利用m p e g - 2 压缩的一路高清晰度电视( 玎) t v ) ,约需2 0 m b s 的带宽,有 人作过初步试验,如利用h 2 6 4 进行一路h d t v 的压缩,大概只需5 m b s 的带宽。 众所周知,美国已公布在2 0 1 0 年( 我国约在2 0 1 5 年) 停止模拟电视广播,全部 采用数字电视广播,如果那时h d t v 要获得迅猛发展,必须要降低成本。以传输 费用而言,采用h 2 6 4 ,可使传输费用降为约原来的1 4 ,这是一个十分诱人的前 景。 2 2 1h 。2 6 4 编码器 2 2h 2 6 4 编码器和解码器 h 2 6 4 没有明确地规定一个编解码器i i2 j 如何实现,只是规定了个编了码的 视频比特流的句法和该比特流的解码方法。 h ,2 6 4 编码器功能组成如图2 1 所示,输入的帧或场f n 以宏块为单位被编码 器处理。如果采用帧间预测编码,其预测值p 是根据前面已编码的参考图像经运 动补偿( m c ) 后得出,其中参考图像用f n 1 表示。 预测值p 和当前块相减后,产生一个残差块d n ,经变换、量化后产生一组 量化后的变换系数x ,再经熵编码,与解码所需的一些附加信息( 如预测模式、 基丁视觉儿何的双目视频乐缩编码 量化参数、运动矢量等) 一起组成一个压缩后的码流,经n a l ,供传输和存储用。 为了提供进一步预测用的参考图像,编码器必须有重建图像的功能。因此必 须使残差图像经反量化、反变换后得到的d n 与预测值p 相加,得到u f n ( 未经 滤波的帧) 。 为了去除解码环路中产生的噪声,提高参考帧的图像质量,设置了一个环路 滤波器,滤波后的输出f n ,即为重建图像,可用作后面编码时的参考图像。 2 2 2h 2 6 4 解码器 图2 ih 2 6 4 编码器 l 编码器的n a l 输出一个压缩后的h 2 6 4 压缩比特流,经熵解码得到量化后 的一组变换系数x ,再经反量化、反变换,得到残差d n ,利用从该比特流中解 码出的头信息,解码器就产生一个预测块p ,它和编码器中的原始p 是相同的。 当该解码器产生的p 与残差d n 相加后,就产生u f n ,再经滤波后,最后就得到 滤波后的f n ,这个f n 就是最后的解码输出图像,如图2 2 所示。 图2 21 4 2 6 4 解码器 2 3h 2 6 4 的主要算法 2 3 1 帧内预测 在帧内预测模式中,预测块p 是基于己编码重建块和当前块形成的。对亮度 第二章h 2 6 4 视频编码标准 9 像素而言,对4 x 4 子块或者1 6 x 1 6 宏块进行帧内预测。4 x 4 亮度子块有9 种可选 的帧内预测模式,对每一个4 x 4 亮度子块进行独立预测,适用于带有大量细节的 图像压缩编码;1 6 1 6 亮度块有4 种预测模式,对整个1 6 x 1 6 宏块进行亮度预测, 适用于平坦区域图像的压缩编码;色度块也有4 种帧内预测模式,类似于1 6 x 1 6 亮度块预测模式。 1 4 x 4 亮度预测模式【1 3 】 并不是所有块都在同一片( s l i c e ) p q ,为了保持同一片内解码的独立性,只有在 同一个片内的像素才可用来预测,对于每个4 x 4 块( 除了边缘块特别处理以外) , 每个像素都可用1 7 个先前已编码的像素的不同加权和( 有的权值可能为) 进行预 测,预测使用的像素为4 4 编码块左侧和上面的像素,如图2 3 ( a ) 所示。4 x 4 亮度块的上方和左方像素a q 为已编码和重构像素,用作编解码器中的预测参考 像素,a 呻为待预测像素。图2 3 ( b ) 箭头表明了每种模式预测方向,其中模式2 为d c 预测,其所有待预测像素为a d 及i l 的平均值。 图2 4 为4 x 4 亮度块的9 种帧内预测模式。图2 5 为图2 4 所示的相应预测 块( s a e 定义了每种预测的预测误差) 。该例中,与当前块的最匹配的模型为模 式7 ,因为该模式s a e 最小。 心彦 刁7 p 8 l 6 图2 3 ( a ) 利用像素a q 对方块中绅像素进行帧内4 x 4 预测 ( b ) 帧内4 x 4 预测的8 个预测方向 基t 视觉几何的烈日祝顺压缩编 f 驴黔 心 图2 4 4 x 4 亮度块预测模式 图2 5 预测块( 亮度4 x 4 ) 21 6 x 1 6 亮度帧内预测模式 宏块的1 6 1 6 亮度帧内预测,有4 种预测模式,如图2 6 所示。 一母 第一章h2 6 4 视频编码标准 例2 61 6 x 1 6 亮度预测模式 0 ( v e r t i c a l ) s a e = 8 9 9 0 1 ( h a l z o i d is a e = 1 0 8 0 8 卜i 誊曩 2c d c ) 8 a e = 1 1 2 1 03 ( 幽n e 】s a e = 6 2 6 4 图27 预测块( 亮度1 6 x 1 6 ) 图27 为图2 6 所示的相应模式的预测块。该例中,与当前块虽匹配的模式为 模式3 ,因为该模式下的s a e 最小。 3 8 8 色度块预测模式 每个帧内编码宏块的8 8 色度成分由该色度块左侧和上力的已编码的色度像 素预测而得,两种色度成分常用同一种预测模式。4 种帧内的色度预测模式类似 于帧内1 6 叫6 亮度预测的4 种模式,只是模式编号不同。 基丁视觉几何的叔目视频压缩编码 2 3 2 帧间预测 帧问预测1 1 4 j 是从已编码的前几帧得出一个预测模型,这个模型是由参考帧的 像素位移得到的( 运动补偿预测) 。h 2 6 4 帧间预测是基于块的运动补偿的预测模 式。与以往标准的帧间预测的区别在于块尺寸范围更广( 从1 6 x 1 6 到4 x 4 ) 、亚像 素运动矢量的使用( 亮度采用1 4 像素精度的m v ) 及多参考帧的运用等等。 每个宏块( 1 6 1 6 像素) 有4 种分割方式,如图2 8 所示。图中宏块可被分 为一个1 6 x 1 6 块,或两个1 6 x 8 块,或两个8 1 6 块,或四个8 x 8 块。其运动补偿 也相应有四种。而8 x 8 模式的每个子宏块还可以继续分割成一个8 8 子块,或两 个4 x 8 子块,或两个8 x 4 子块,或4 个4 x 4 子块。 每个分割子宏块或子块都有一个独立的运动补偿,其对应的运动矢量m v 必 须被编码、传输,同样,分割的选择也需编码到压缩比特流中。对大的分割尺寸 而言,m v 选择和分割类型只需少量的比特,但运动补偿残差在多细节区域能量 将非常高。小尺寸分割运动补偿残差能量低,但需要较多的比特表征m v 和分割 选择。因此,大的分割尺寸适合平坦区域,小的分割尺寸适合多细节区域。 宏块的色度成分( c r 和c b ) 则为相应亮度的一半( 水平和垂直各一半) 。色 度块采用和亮度块同样的分割模式,只是尺寸减半( 水平和垂直方向都减半) 。色 度块的m v 也是通过相应亮度m v 水平和垂直分量减半而得。 0 1 1 6 x 1 6 宏块分割 o 1 图2 88 8 子宏块分割 1 运动矢量m v 帧间编码宏块的每个分割或者子块都是从参考图像某一相同尺寸区域预测而 得。亮度成分的预测为l 4 像素精度,色度成分的预测为1 8 像素精度。亚像素 位置的亮度和色度像素并不存在于参考图像中,需利用邻近的像素点进行内插而 第_ 二章h 2 6 4 视频编码标准 得。图2 9 中,当前帧的4 x 4 亮度块通过参考帧中邻近块相应区域预测。如果m v 的垂直和水平分量为整数,参考块相应像素实际存在。如果其中一个或两个为分 数,预测像素( 灰色点) 通过参考帧中相应像素( 白色点) 内插获得。 oooooooooooooooooo 0ooo o ooooo o ooooooo oooo o ooooooooooooo oooo o ooop 囝囝0o0o0 o o “dqqq o ooao o o 0o ooo o oooo oooooo o 0o0oo o o 当前帧4 x 4 块 参考帧m v ( 1 ,1 )参考帧m v ( o 7 5 ,o 5 ) 图2 9 运动矢量m v 2 亚像素运动补偿 如图2 1 0 所示,首先在参考帧中找到与待预测块最匹配的整数像素位置,接 着再以该位置为中心,寻找最佳的1 2 像素位置,再以找到的最佳的1 # 2 像素位 置为中心,进行u 4 像素位置的预测,找到与待编码块最匹配的块,此时的m v 为该块的运动矢量。 最佳l 2 像素位置 最佳整数像素位置 图 团。 因 整数像素位置 团1 2 像素位置 0o 1 4 像素位置 o ooo 图2 1 0 运动估计搜索过程 3 。内插像素生成: 首先生成参考图像亮度成分半像素,如图2 1 1 所示。半像素点( 如b ,h ,m ) 通过对相应整像素点进行6 抽头滤波得出,权重为( 1 3 2 ,5 3 2 ,5 8 ,5 8 ,5 3 2 , 1 3 2 ) 。b 计算如下: b - - - r o u n d ( ( e 一5 f + 2 0 g + 2 0 h 一5 i + j ) 3 2 ) 式( 2 1 ) 和b 类似,h 可由a 、c 、g 、m 、r 、t 滤波得出。一旦邻近( 垂直或水平 1 4 基丁- 视觉几何的舣目视频压缩编码 方向) 整像素点的所有像素都计算出,剩余的半像素点便可以通过对6 个垂直或 水平方向的半像素点滤波而得。例如,j 由c c ,d d ,h ,m ,e e ,f f 滤波得出。 口口圆口口 口口圆口口 圉目圜圉国 口口圊口口 口口圆口口 图2 11 亮度半像素位置内插 半像素点计算出来以后,1 4 像素点就可通过线性内插得出,如图2 1 2 所示。 1 4 像素点( 如a ,c ,i ,k ,d ,f ,1 1 ,q ) 由邻近像素内插而得,如 a - - - r o u n d ( ( g + b ) 2 ) 式( 2 - 2 ) 剩余l 4 像素点( p ,r ) 由一对对角半像素点线性内插得出。如e 由b 和h 获得。 g 三- t :i = - h c- e g kz 鞭缀脯 p r k 刀 m = s - -n 图2 1 2 亮度1 4 像素内插 色度像素需要1 8 精度地运动矢量m v ,也同样通过整像素地线性内插得出, 如图2 1 3 所示。其中, a - - r o u n d ( i ( 8 一d x ) ( 8 一d y ) a + d x ( 8 一d y ) b + ( 8 一d x ) d y c + d x d y di 6 4 ) 式( 2 3 ) 团圆田目田圈曰图幽 第二章h 2 6 4 视频编码标准 图2 1 3 色度1 8 像素内插 4 m v 预测 每个子宏块m v 的编码需要相当数目的比特,特别是使用小分割尺寸时,则 编码m v 所需的比特更多。为减少传输比特数,可利用邻近分割m v 之间较强的 相关性,用邻近已编码分割的m v 来预测待编码块的m v 。设待编码块m v 的预 测值为m v p ,则只编码传送计算出的最佳m v 和m v p 之间的差值m v d 。m v p 取决于运动补偿尺寸和邻近的有无。 如图2 1 4 所示,e 为当前宏块或宏块分割子宏块。a 、b 、c 分别为e 的左、 上、右上方的三个相对应块。如果e 的左边不止一个分割,取其中最上的一个为 a ;上方不止一个分割时,取最左边一个为b 。 同 “r - + :,“,铝 4 x 8 | c “ l o 1 6 x 8 5 ; p 鑫 +“ e 1 6 x 1 6 图2 1 4 当前和邻近分割 m v 的预测准则为: ( 1 ) 1 6 x 8 分割,上面部分m v p 由b 预测,下面部分m v p 由a 预测; ( 2 ) 8 x 1 6 分割,左面部分m v p 由a 预测,右面部分m v p 由c 预测; ( 3 ) 其他,m v p 为a 、b 、c 分割m v 的中值。 2 3 3 其他算法 1 整数变换 1 6 基丁视觉几何的双目视频乐缩编码 h 2 6 4 对帧内或帧问预测的残差( r e s i d u a l ) 进行d c t 变换。为了克服由于舍入 误差造成的编码器和解码器之间不匹配( m i s m a t c h ) 的问题,新标准对d c t 的定 义做了修改,使得变换仅用整数加减法和移位操作即可实现,这样在不考虑量化 影响的情况下,解码端的输出可以准确地恢复编码端的输入。 为了进一步利用图像的空间相关性,在对色度预测残差和1 6 x 1 6 帧内预测的 预测残差进行上述整数d c t 变换之后,标准还将每个4 x 4 变换系数块中的d c 系 数组成2 x 2 或4 x 4 大小的块,进一步进行h a d a m a r d 变换。 h 2 6 4 对4 x 4 的图像块( 亮度块或c r 、c b 色度块) 进行操作,相应的4 x 4 d c t 变换为: y = ( c ,x c f r ) 0 er 11 2l 11 l一2 11 一l一2 一ll 21 211 l一12 一l一12 2 1 1 a 2 a b 2 口2 a b 2 a b 2 b 2 4 a b 2 b 2 4 口2 a b 2 口2 a b 2 a b 2 b 2 4 a b 2 b 2 4 式( 2 - 4 ) 其中a - 。5 ,6 = ;,符号“。”表示( c ,x c ,t ) 结果中的每个元素乘以矩阵 e f 中对应位置上的系数值的运算。 h 2 6 4 将d c t 中“p e ,运算的乘法融合到后面的量化过程中,实际的d c t 输出为: w _ c ,x c ,t 式( 2 - 5 ) 2 量化 h 2 6 4 量化过程要同时完成d c t 变换中“0 e ,”乘法运算,它可以表述为: z f = d p f 万 式协6 , 其中,w i j 是矩阵w 中的转换系数,p f 是矩阵e ,中的元素,根据样本点在 图像块中的位置( i ,j ) 取值: f 口2 p f : 6 2 4 i 口6 2 l ( o ,0 ) ,( 2 ,0 ) ,( 0 ,2 ) 或( 2 , 2 ) ( 1 ,1 ) ,( 1 ,3 ) ,( 3 ,1 ) 或( 3 ,3 ) 式( 2 7 ) 其它情况 第二章h 2 6 4 视频编码标准 1 7 在h 2 6 4 中,量化步长q s t e p 共有5 2 个值,如表2 1 所示。其中q p 是量化 参数,是量化步长的序号。当q p 取最小值0 时,代表最精细的量化,当q p 取 最大值5 1 时,代表最粗糙的量化。对于色度编码,一般使用与亮度编码同样的量 化步长。 表2 1h 2 6 4 中编解码器的量化步长 q pq s t e p q p q s t e p q p q s t e p q p q s t e p q pq s t e p o0 6 2 51 22 52 41 03 64 04 81 6 0 lo 6 8 7 51 32 7 52 5 l l 3 74 44 9 1 7 6 2o 8 1 2 51 4

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论