(通信与信息系统专业论文)h264熵编码与环路滤波算法的优化与实现.pdf_第1页
(通信与信息系统专业论文)h264熵编码与环路滤波算法的优化与实现.pdf_第2页
(通信与信息系统专业论文)h264熵编码与环路滤波算法的优化与实现.pdf_第3页
(通信与信息系统专业论文)h264熵编码与环路滤波算法的优化与实现.pdf_第4页
(通信与信息系统专业论文)h264熵编码与环路滤波算法的优化与实现.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

(通信与信息系统专业论文)h264熵编码与环路滤波算法的优化与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

h 2 6 4 熵编码与环路滤波算法的优化与实现 摘要 随着信息技术的迅猛发展,网络应用日益普及,多媒体系统也得 到了广泛的应用。数字视频的编解码是多媒体系统的核心技术,是多 媒体系统实际应用时的核心模块。视频编码器的实现目前主要有三种 方法:一是软件实现,基于通用的p c 机。但通用p c 并非专为视频处 理而产生,实现的效率不高;二是使用专用的视频压缩a s i c 芯片;三 是采用数字信号处理器( d s p ) 。数字信号处理器是一种专用的数据 处理器,为了用于实现视音频等多媒体数据处理,其处理器结构经过 了特别优化设计,且提供了丰富的多媒体处理指令集。基于d s p 的视 频编码器的灵活性l l a s i c 编码器要高,易于升级更新换代,开发周 期短。d m 6 4 2 是,i i 公司新一代高性能数字媒体处理器,它是专用于视 频系统应用的高性能d s p ,具有4 8 0 0m i p s 的运算性能和丰富的外围 接口( 多通道视频口、以太网口等) 。所以,d m 6 4 2 是目前实现视频应 用系统的理想平台之一。 本文在介绍h 2 6 4 视频编码标准中所采用的关键技术的基础上, 着重对h 2 6 4 中的熵编码( c a v l c 和c a b a c ) 算法与环路滤波算法进行了详 细的研究和分析。在此基础上,针对h 2 6 4 中的熵编码算法与环路滤 波算法的特点,结合d m 6 4 2 硬件平台的特性,从调整编码器软件框架 流程、优化使用存储器系统、程序代码级优化、提高指令的并行性以 及使用线性汇编等几方面进行着手,使优化后的编码算法效率有了较 大幅度的提高,并且在t id m 6 4 2 硬件平台上实现了d 1 尺寸的h 2 6 4 编 码算法。在这个过程中,还总结了基于d m 6 4 2 的视频压缩编码软件开 发的一些方法和技巧,可为今后基于t id m 6 4 2 平台的软件开发提供 借鉴。 全文第一章引出了本文的工作;第二章简要介绍了h 2 6 4 视频编 码压缩标准中所使用的关键技术;第三、四、五章是本文的主要内容, 第三章介绍了熵编码的理论基础,对h 2 6 4 中所用到的熵编码算法进 行了详细的分析和研究;第四章介绍了h 2 6 4 中所用到的环路滤波算 法,并对算法进行了分析和研究;第五章结合d m 6 4 2 开发平台软硬件 特点,对h 2 6 4 的中的熵编码和环路滤波算法进行了优化,并对算法 优化前后的效率进行了仿真对比,仿真表明优化后的算法在执行效率 上较之未优化的算法有了大幅度的提高。最后在d m 6 4 2 硬件平台上移 植实现了优化后的熵编码与环路滤波算法。 关键词:h 2 6 4c a v l cc a b a c 环路滤波d m 6 4 2 o p l r i m l 2 a n o na n di m p l e m e l 盯o no f e n t r o p yc o d i n ga n dl o o p f i i 珊a l g o r 删m i n h 2 6 4 a st h e r e p e a td e v e l o p m e n to f t h ei n f c i r m a t i o n t e c h n o l o g y , m u l t i m e d i as y s t e mh a su s ew i d e l y v i d e oc o m p r e s s i o ni sk e yt e c h n o l o g y o fm u l t i m e d i ad a t ap r o c e s s i n g a n dv i d e oc o d e ci so n eo ft h em o s t i m p o r t a n tc o r em o d u l e sf o ram u l t i m e d i aa p p l i c a t i o ns y s t e m s c u r r e n t l y , t h ei m p l e m e n t a t i o no fv i d e oe n c o d e ri sa sf o l l o w s :i 1v i d e oe n c o d e r s o f t w a r eo np c h o w e v e r , i ti sn o td e d i c a t e di nv i d e od a t ap r o c e s s i n gf o r p c sc p us ot h a tt h ee n c o d e rs o f t w a r eb a s e do np ci sn o te f e c t i v e : i i ) u s i n gd e d i c a t e da s i cc h i pf o rv i d e oc o d i n g ;i i i ) v i d e oe n c o d e r b a s e do n p r o g r a m m a b l ed i g i t a lm e d i ap r o c e s s o r ,s u c h a sd s e ,1 1 l eh a r d w a r e s t r u c t u r eo fd s pp r o c e s s o ri se s p e c i a l l yd e s i g n e df o rm u l t i m e d i ad a t a p r o c e s s i n g n o t o n l yp l e n t i f u lm u l t i m e d i ad a t ap r o c e s s i n gi n s t r u c t i o n sa r e a v a i l a b l e ,b u ta l s oi ti sm o r ef l e x i b l ef o ri m p l e m e n t a t i o no fv i d e 0e n c o d e r t h a na s i cc h i d t h ei m p l e m e n t a t i o nu s i n gd s pc a ns h o r t e nt h et i m et o m a r k e ta n do f f e rc o n v e n i e n c ef o ru p g r a d i n ga n dr e p r o g r a m m i n g a t 6 0 0 m h za n d4 8 0 0 m i p s t h en e wg e n e r a t i o nd s pd m 6 4 2d i g i t a lm e d i a p r o c e s s o ro f f e ri n d u s t r y l e a d i n gp e r f o r m a n c e n en e t w o r kp e r i p h e r a l i n t e r f a c er e d u c e ss y s t e mc o s tf o rm u l t i m e d i aa p p l i c a t i o n s ,s u c ha sv i d e o p h o n et e r m i n a lo v e ri pn es y s t e mc a nb ei m p l e m e n t e dt h r o u g ho n c h i p i n t e g r a t i o no fk e ya u d i o v i d e oa n dc o n n e c t i v i t yp e r i p h e r a l s s o d m 6 4 2 i sa ni d e a lp l a t f o r mf o rm u l t i m e d i aa p p l i c a t i o n s b a s e do nt h ei n t r o d u c t i o no ft h ek c vt e c h n o l o g yu s e db yh 2 6 4 v i d e oc o d i n gs t a n d a r d ,t h ep a p e rw i l le m p h a s i so nr e s e a r c ho fe n t r o p y c o d i n g ( c a v l c & c a b a c ) a n dl o o pf i l t e ri nh 2 6 4 t h e n ,w ec o m b i n et h e c h a r a c t e r i s t i co fe n t r o p yc o d i n ga l g o r i t h ma n dl o o pf i l t e ra l g o r i t h mi n h 2 6 4w i t hd m 6 4 2h a r d w a r ep l a t f o r m t h ea p p l i c a t i o no p t i m i z a t i o ni n d m 6 4 2h a r d w a r ep l a t f o r mw a sm a i n l yb a s e do nt h e f o l l o w i n gs i d e s : a p p l i c a t i o na r c h i t e c t u r e ,f u n c t i o na s s e m b l yc o d e s ,m e m o r ys y s t e me t c a f t e rt h e o p t i m i z a t i o n t h ea p p l i c a t i o n n o t o n l y m e e t sw i t ht h e r e q u i r e m e n t s ,b u ta l s om a k e sag o o dp r e p a r a t i o nf o rt h es y s t e mu p d a t ei n t h ef u t u r e ,a n dm a n ys k i l l so fs o f t w a r ed e v e l o p m e n tb a s e do nd m 6 4 2a r e s u m m a r i z e d i nt h ef i r s t c h a p t e r , i n t r o d u c et h ew o r kp r e s e n t e d i nt h i s p a p e r s e c o n d ,w ew i l li n t r o d u c et h ek e yt e c h n o l o g yu s ei nh 2 6 4v i d e oc o d i n g s t a n d a r d 1 1 l en e x tt h r e ec h a p t e r sa r em a j o rc o n t e n t so ft h i sp a p e r , e n t r o p y c o d i n ga n dl o o pf i l t e ra l g o r i t h m sa r eo p t i m i z a t i o na n di m p l e m e n t a t i o n b a s e do nd m 6 4 2h a r d w a r ep l a t f o r m k e yw o r d s :h 2 6 4c a v l cc a b a c l o o p f i l t e r d m 6 4 2 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽 我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经 发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 塑盘弛日期:2 1 z :兰:兰垒 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生 在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有 关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学 位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论 文。( 保密的学位论文在解密后遵守此规定) 注释:本学位论文不属于保密范围,适用本授权书。 本人签名; 导师签名: 日期:銎翌玉兰:羔 日期:j 丝孕尘l 北京邮电大学工学硕士论文 第一章引言 随着数字技术的迅猛发展,人类社会已经步入了数字时代,各种技术层出不穷, 极大地改变了人类的生活。数字视频技术就是其中一项重要技术,它在视频监控、可 视电话、视频会议到视频传播、数字电视广播等各个领域得到广泛应用。科学实验表 明,人类从外界获取的知识之中有8 0 都是通过视觉感知获取的。然而,数字视频中 包含的数据量十分庞大,例如中分辨率( 6 4 0 x 4 8 0 ) 下,全屏幕显示( f u l ls c r e e n ) ,真彩 色( t r u ec o l o r2 4 位) ,全动作( f u l l m o t i o n ,2 5 3 0 帧秒) 的图像序列,播放1 秒钟的视频 画面数据量为6 4 0 x 4 8 0 x 9 0 = 2 7 ,6 4 8 ,0 0 0 字节,相当于存贮一千多万个汉字所占用的空 间。如此庞大的数据量,给图像的传输、存贮以及读取造成了难以克服的困难。因此, 如何有效地对图像进行压缩一直是研究的重点和热点,图像压缩编码同益成为一个越 来越活跃的研究领域。图像编码技术的发展和广泛应用也促进了许多有关国际标准的 制定。 在现有的视频压缩标准中,最新制定的h 2 6 4 能取得最高的编码效率,但也带来 了极大的运算复杂度。为了进行实时的运用,就必须对现有的h 2 6 4 编码器进行优化。 各种编码算法优化能在基本保持图像质量的基础上,显著地降低运算复杂度,而d s p 以其处理能力强,软件编程简便而成为h 2 6 4 编码器硬件平台的首选。 本章首先概述了视频压缩编码的技术和标准演进,然后介绍了编码技术的实现, 最后提出了本文的主要工作。 1 1 视频压缩编码技术简介 多媒体视频信号可以压缩的主要根据为:一、视频信号上存在大量的冗余度并且 这种冗余度在编解码后可以无失真地恢复;二、可以利用人的视觉特性,在图像变化 不被觉察的条件下减少量化信号的灰度级,以一定的客观失真换取数据压缩l l j 。从信 息论观点来看,视频作为一个信源,描述信源的数据是信息量佑源熵) 和信息冗余量 之和。数据压缩实质上是减少冗余量,冗余量的减少是减少数据量而不是减少信源的 信息量。多媒体视频信号的冗余度存在于结构和统计两方面。统计冗余就是在视频信 号中,各符号出现概率不等造成的冗余。结构上的冗余度表现为很强的空间( 帧内) 、 和时间( 帧问) 相关性。一般情况下画面的大部分区域信号变化缓慢,尤其是背景部分 几乎不变。因此,视频信号在相邻像素间、相邻行间、相邻帧间存在强相关性,这种 相关性就表现为空间冗余和时间冗余。 人眼对图像的细节分辨率、运动分辨率和对比度分辨率的感觉都有一定的界限, 北京邮电大学工学硕士论文 致使对图像处理时引入的失真不易察觉,仍会认为图像是完好的或足够好的。因此可 以在满足对图像质量一定的要求的前提下,减少表示信号的精度,实现数据压缩。 一个视频编码器,有三个主要的功能模块组成,时间模块、空间模块,熵编码器, 如图1 - 1 所示。无压缩的视频作为编码器输入,时间模块利用相邻帧的相似性来去除 时间冗余,通常采用运动补偿压缩,时间模块的输出是残差( 当前图像值与预测值之 差) 及一系列参数,典型的如运动矢量等。空间模块利用相邻象素之间的相关性去除 了空间冗余,通常采用变换、量化方法将输入的残差转换成一系列量化系数。时间模 块输出的一系列参数和空间模块的系数将被熵编码器去除统计冗余,压缩成一个比特 流,以便传输或者存储睇j 。 由此可见,视频编码的基本技术是:预测、变换以及熵编码,见图1 - 1 。 v i d e o 啪 e n c o d e d o u t p 懂 图1 - i 编码器框图 除了上述三种技术外,5 l $ 现了基于模型的编码技术【3 j 【4 】,基于对象( o b j e c tb a s e d ) 的编码技术【5 i ,可分级的编码技术【6 1 等一系列技术。模型编码的关键是对特定的图像 建立模型,并根据这个模型确定图像中景物的特征参数,如运动参数、形状参数等。 基于模型的编码方法,适合于特定视频内容的编码,如视频压缩标准m p e g 4 中引入 的人脸编码部分,它对运动的人脸编码效果很好。基于对象( o b j e c tb a s e d ) 的编码技术 是m p e g - - 4 的最大特色,它把对象作为视频压缩的基本单位,可以提供给用户更多的 交互性功能,就使用的编码技术而言,主要是任意形状的图像块的压缩,比如利用空 间分辨率较好的小波变换进行基于对象的视频压缩【”,或者使用形状自适应的d c t 变换等等【8 】【9 】。 我们知道,视频的编解码需要一定的资源的支持,比如计算资源、带宽资源、采 集回放资源等,当用户拥有的资源达不到完全实现编码或解码的时候,可分级技术可 以使用户同样实现编码或解码的目的,只是服务的质量差一些【l o l 。按照可分级的资源 的不同,可以分为:采样率可分级、复杂度可分级、带宽可分级等等。以上三种方法 中,模型编码由于不可能为自然界中所有物体建模,所以并不适用于通用的视频压缩。 后两种技术都属于功能性的技术,与原有的编码技术相结合,可以用来提供给用户更 多的功能。 北京邮电大学工学硕士论文 1 2 视频压缩编码标准简介 目前世界上最广泛使用的数字视频编码标准主要源自两大标准体系,其一是 r r u - t ,该组织制定的视频编码标准为h 2 6 x 系列( h 2 6 1 、h 2 6 2 、h 2 6 3 和h 2 6 4 ) 主要用于实时视频通信,如可视电话、视频会议。另一个主要的视频编码标准组织为 i s o m c ,其标准主要是m p e g 系列( m p e g 1 、m _ p e g 2 、m p e g - 4 、m p e g 7 和 m p e g 2 1 ) 侧重于视频存储( v c d 、d v d ) 、视频广播( 电视广播) 以及视频流的应用。 而在网络的视频流传输中,则活跃着r e a lv i d e o ,w m v , q u i c k t i m e 等,此外还有o n 2 的v p 5 v p 6 以及我国自主研制的a v s 等。总的来说,m p e g 系列标准从针对存储媒 体的应用发展到适应传输媒体的应用,其视频编码的基本框架是和h 2 6 x 一致的,只 不过h 2 6 x 致力于高效率的视频编码技术,而m p e g 更侧重系统和框架。具体来说, 从h 2 6 1 到h 2 6 2 3 ,m p e g 1 2 4 等都有一个共同的不断追求的目标,即在尽可能低 的码率f 或存储容量) 下获得尽可能好的图像质量。h 2 6 x 与m p e g x 视频编码标准演 迸如图1 2 所示: 1 9 9 0 年r r u t 公布的h 2 6 1 ,是最早出现的视频编码标准,用于规范i s d n 网上 的会议电视和可视电话应用中的视频编码技术。它采用混合编码方法,帧间预测采用 1 6 x 1 6 的宏块和整数像素的运动搜索,用来消除图象序列的时间冗余;帧内编码采用 8 x 8 的d c t 变换,用以消除空间冗余。 l i t u t i $ 1 a n a a r d s 凡符1h 拍3h 。2 8 3 +卜l 2 的+ + i i e 。 隧i 溪蠡_ 。鼍刚。b i s t a r v d a r d $ 1 1 9 8 41 9 8 61 9 8 81 9 9 01 9 9 21 9 9 4 1 9 q 6 1 9 9 82 0 0 02 0 0 22 0 0 4 图1 - 2r r u - t 建议及m p e g 标准的开发过程【1 1 】 h 2 6 3 标准1 9 9 6 年3 月公布,是低码率图像压缩标准,在技术上是h 2 6 1 的改 进和扩充,支持码率小于6 4 k b i t s 的应用。 在图象格式上,除了h 2 6 1 定义的c i f 和o c f 外,还支持s u b q c 球,4 c i f 和1 6 c : h 2 6 3 采用半像素精度进行运动估计,取值范围为( 1 6 0 ,+ 1 5 5 ) ,运动矢 量是以差分预测的方式进行编码传输的,h 2 6 3 采用双线性内插获得预测值, 北京邮电大学工学硕士论文 不具备环路滤波功能; 运动矢量采用二维预测与v c l 相结合的方式对预测值残差进行编码传输; d c r 系数采用三维编码表示( i a s t ,r u n ,l e v e l ) 4 个可选模式:非限制运动矢量模式、高级预测模式、p b 帧模式、和基于语 法的算术编码模式。 在此基础上,1 9 9 8 年1 t u - t 推出h 2 6 3 + ,即h 2 6 3 版本二,它提供了1 2 个新 的可选模式和其它特征,进一步提高了压缩编码性能。h 2 6 3 + 允许更多的源格式、图 象形状和时钟频率,拓宽了应用范围;它允许多显示率、多速率及多分辨率,增强了 视频信息在易误码、易丢包的异构网络环境下的传输;1 2 个可选模式不仅提高了编 码性能,而且增加了应用的灵活性。2 0 0 0 年u - t 又推出了h 2 6 3 + + ,增加了一些 新的特征从而适应于各种网络环境,并增强差错恢复能力。 m p e g - 1 标准视频编码部分的基本算法与h 2 6 1 , i 2 6 3 相似,也采用运动补偿的 帧问预测、二维d c t 、v l c 游程编码等措施。此外还引入了帧内帧( i ) 、预测帧( p ) 、 双向预测帧( b ) 和直流帧( d ) 等概念,进一步提高了编码效率。 在m p e g 1 的基础上,m p e g 2 标准在提高图像分辨率、兼容数字电视等方面做 了一些改进,例如它的运动矢量的精度为半像素;在编码运算中( 如运动估计和d c t ) 区分“帧”和“场”;引入了编码的可分级性技术,如空间可分级性、时间可分级性和信 噪比可分级性等。 m p e g - 4 标准引入了基于视听对象( a v o :a u d i o - v i s u a lo b j e c t ) 的编码,大大 提高了视频通信的交互能力和编码效率。m p e g 4 中还采用了一些新的技术,如形状 编码、自适应d c t 、任意形状视频对象编码等。 从压缩编码的发展史可见,h 2 6 1 标准是视频编码的经典之作,h 2 6 3 是其发展, 并将逐步在实际上取而代之,主要应用于通信方面,但h 2 6 3 众多的选项往往令使用 者无所适从。m p e g 系列标准从针对存储媒体的应用发展到适应传输媒体的应用,其 核心视频编码的基本框架是和h 2 6 1 一致的,其中引人注目的m p e g - 4 的“基于对象 的编码”部分由于尚有技术障碍,目前还难以普遍应用。而在此基础上发展起来的新 的视频编码标准h 2 6 4 克服了两者的弱点,在混合编码的框架下引入了新的编码方 式,提高了编码效率,大大加强了“网络友好性”。同时,它是两大国际标准化组织共 同制定的,应用前景十分看好。h 2 6 4 标准的这些优点使得它在视频监控、视频通 信等领域将有着广泛的应用。 1 3 视频压缩编码技术的实现 视频压缩技术存在的一个共同特点就是计算量很大。这对于视频压缩的实时实现 是一个挑战。因此,视频压缩的实时实现方案是一个研究的热点。一般可有两种方法 北京邮电大学工学硕士论文 来实现,一是专用a s i c 芯片硬件实现,二是软件编程实现。软件实现可基于p c 也 可基于d s p 。基于专用的a s i c 芯片实现既可以作为专用的编解码器,又可以作为其 中的核心模块。这种方法十分有效,因为芯片设计可以针对专门的算法进行高度优化。 和微处理器相比,专用视频解码器芯片不需要取指、译码等过程,还可以将控制器所 需要的硬件开销减到最小,因此它可以获得更高的处理速度,并占用更少的硬件电路。 其缺点在于其中有大量的专用模块,当算法需要修改时,便无法适应新的算法,只能 重新设计。 更加灵活的方案是利用可编程多媒体d s p 处理器。在d s p 平台上进行视频产品 开发有以下几方面的优势: 第一,用户开发自由度更大,支持多种个性化开发,可以满足市场不断提出的新 的要求,在第一时i 日j 提升产品性能,增强产品的竞争能力。 第二,d s p 处理能力强,可以在一个d s p 上同时实现多路音视频信号的压缩处 理,还可提供很多视频专用功能,比如视频滤波、高分辨显示输出、o s d 功能等; 第三,外围接口丰富,开发周期短,可实现快速技术更新和产品换代: 第四,芯片功耗低,为提高产品的稳定性提供可靠保障。 多媒体d s p 处理器有p h i l i p s 公司的t r i m e d i a1 3 0 0 1 1 2 l 和1 5 0 0 ,及e q u a t o r 公司的 b s p 1 5 等。全球最大的d s p 制造商德州仪器f r o 推出了一款高性能多媒体处理器 1 m s 3 2 0 d m 6 4 2 ,它基于c 6 4 xd s p 内核,采用二级缓存,并提供了丰富的外围接口, 如3 个多通道视频口、以太网接口等,且功耗比t r i m e d i a 和e q u a t o r 等处理器要低。 d m 6 4 2 可用于多媒体应用开发,如可视电话终端、网络摄像机等,系统实现方便, 主要芯片只需采用一片d m 6 4 2 即可,外加存储芯片s d r a m 、视频d e c o d e r , e n c o d e r 和以太网p h y 等外围芯片。d m 6 4 2 可实现多路视频采集和输出。所以,d m 6 4 2 是 目前实现视频应用系统的理想平台。 1 4 本文的工作 本文首先介绍了h 2 6 4 编码标准中所使用的关键技术,着重研究和分析了熵编码 和环路滤波的算法,并在t i 公司的新型数字媒体处理器d m 6 4 2 的硬件平台上,实现 和优化h 2 6 4c a v l c 和环路滤波模块,使编解码器能获得较好图像质量和编码性 能。下面简单介绍本文的主要工作: 第二章中首先简单介绍了h 2 6 4 编码框架,分析了h 2 6 4 采用的新技术对编码 性能的影响,以及应用前景。 第三章主要介绍了熵编码的理论基础,接着分别详细介绍了h 2 6 4 中三种熵编码 算法:e x p g o l o m b 码、基于上下文的变长编码c a v l l 2 和基于上下文的算术编码 c a b a c 。 北京邮电大学工学硕士论文 第四章介绍了环路滤波的重要意义和滤波算法。滤波后,p s n r 值得到了提高, 同时主观质量能有很大的改善。 最后第五章结合d m 6 4 2 嵌入式系统的软硬件特性,从代码移植、代码优化和内 存调度策略等几个方面进行讨论。在这个过程中,总结了基于d m 6 4 2 的视频压缩编 码器软件开发的一些方法和技巧,也针对c a v l c 和环路滤波提出了自己的一些优化 算法。 下面,将分章节详细介绍这些具体的工作情况。 北京邮电大学工学硕士论文 第二章h 2 6 4 视频压缩编码标准的关键技术 2 1h 2 6 4 的目标 h 2 6 4 标准是由l s o ,i e c 与r r u - t 组成的联合视频组( j v t ) 制定的新一代的视 频压缩编码标准。h 2 6 4 标准是由h 2 6 l 发展而来的,在i s 0 i e c 中该标准命名为 a v c ( a d v a n c e dv i d e oc o d i n g ) ,作为m p e g 4 标准的第1 0 部分。h 2 6 4 标准可分为3 级:基本级、主级和扩展级。基本级基本包括了h 2 6 4 的技术特征,但没有b 帧、 算术编码、帧场切换的编码以及增强帧编码等;主级则包括了上面所说的这些内容, 可用于s d t v 、h d t v 等;而扩展级可用于各种网络的视频流传输。 h 2 6 4 主要的编码新技术包括:4 x 4 整数变换、空域内的帧内预测、1 4 像素精度 的运动估计、多参考帧与多种大小块的帧问预测技术、统一的熵编码码表、基于内容 的自适应变长编码与基于内容的自适应算术编码、环路滤波器等等。 h 2 6 4 的主要功能目标如下: 相同的重建图像质量下,h 2 6 4 比h 2 6 3 + 和m p e g 4 ( s p ) 节约5 0 码率。 采用简洁的设计方式,简单的语法描述,避免过多的选项和配置,尽量利用现 有的编码模块;对信道时延的适应性较好,既可工作于低时延模式以满足实 时业务,如会议电视等,又可工作于无时延限制的宽松场合,如视频存储等。 加强对误码和丢包的处理,增强解码器的差错恢复能力。 在编解码器中采用复杂度可分级设计,在图像质量和编码处理之间可分级, 以适应高复杂性和低复杂性的应用。 提高网络适应性,采用“网络友好”的结构和语法,以适应m 网络、移动网络 的应用。 2 2h 2 6 4 的关键技术 与早期的视频编码标准( h 2 6 1 、m p e g 1 、m p e g 2 、h 2 6 3 、m p e g 4 ) 类似, h 2 6 4 标准也是基于块的混合编码。基本算法是通过帧间预测和运动补偿消除时域冗 余,经过变换编码消除频域冗余。 北京邮电大学工学硕士论文 图2 - 1h 2 6 4 视频编码系统 h 2 6 4 视频编码系统如图2 1 所示。基本的功能模块包括:预测、变换、量化、熵 编码,但在每一个功能模块的细节上都有重要的改变。h 2 6 4 采用了基于4 x 4 块整数变 换、可变大小的增强运动补偿、帧内预测、分离块滤波和增强的熵编码技术,在差错 处理中,采用多帧预测、s p s i 帧、条块结构编码、数据分割、以及帧内宏块刷新技 术。这些变化,也就是h 2 6 4 的关键技术,同时h 2 6 4 还将网络友好性纳入了考虑的范 围。 2 2 1 帧内预测 在h 2 6 4 中,当编码i n t r a 图像时可用帧内预测。对于每个4 x 4 块( 除了边缘块 特别处置以外) ,每个像素都可用1 7 个最接近的先前已编码的像素的不同加权和( 有 的权值可为0 ) 来预测,即此像素所在块的左上角的1 7 个像素。显然,这种帧内预 测不是在时间上,而是在空间域上进行的预测编码算法,可以除去相邻块之间的空间 冗余度,取得更为有效的压缩。 图2 2 所示4 x 4 方块的中a 呻为待预测的像素点,而a 廿是己编码的像素。像 素a 呻由j 坩预测产生,亮度预测有9 种不同的模式,色度预测模式有1 种。 北京邮电大学工学硕士论文 至圈 j l 纛l 覃瓤i i i i ,li b i 赞商。参i 2 2 2 高精度、多模式运动估计 、逡侈: 兹p 。 图2 - 2帧内预测 h 2 6 4 在运动估计中,支持1 4 像素精度的运动矢量。在1 4 像素精度时,可使 用6 抽头滤波器来减少高频噪声。在运动估计时,编码器还可选择“增强”内插滤波器 来提高预测的效果。 在h 2 6 4 的运动预测中,一个宏块( m b ) 可以被分为不同的子块,形成7 种不 同模式的块尺寸。这种多模式的灵活和细致的划分,更切合图像中实际运动物体的形 状,大大提高了运动估计的精确程度。 2 2 34 x 4 块的整数变换 h 2 6 4 与先前的标准相似,对残差采用基于块的变换编码,但变换是整数操作而 不是实数运算,其过程和d c t 基本相似。这种方法的优点在于:在编码器中和解码 器中执行精度相同的变换和反变换,便于使用简单的定点运算方式。也就是说,这里 没有反变换误差。变换的单位是4 x 4 块,而不是以往常用的8 x 8 块。由于用于变换 块的尺寸缩小,运动物体的划分更精确,这样,不但变换计算量比较小,而且在运动 物体边缘处的衔接误差也大为减小。为了使小尺寸块的变换方式对图像中较大面积的 平滑区域不产生块之间的灰度差异,可对帧内宏块亮度数据的1 6 个4 x 4 块的d c 系 数( 每个小块一个,共1 6 个) 进行第二次4 x 4 块的变换,对色度数据的4 个4 x 4 块 的d c 系数( 每个小块一个,共4 个) 进行2 x 2 块的变换。 h 2 6 4 为了提高码率控制的能力,量化步长的变化的幅度控制在1 2 5 左右,而 不是以不变的增幅变化。变换系数幅度的归一化被放在反量化过程中处理以减少计算 的复杂性。为了强调彩色的逼真性,对色度系数采用了较小量化步长。 北京邮电大学工学硕士论文 2 2 4 熵编码 h 2 6 4 中熵编码有两种方法,一种是可变长编码v l c ,另一种是采用内容自适应 的二进制算术编码( c a b a c :c o n t e x t - a d a p t i v eb i n a r y a r i t h m e t i cc o d i n g ) 。 h 2 6 4 中的语法使用e x p - g o l o m b 编码1 1 3 】,它是一种固定语法的变长编码。它把 所有的语法映射到统一的可扩展的码字表,而不是为每种语法设计不同的码字表。每 条语法都可以表示成【m z e r o s 1 i n f o 】,码字的长度为( m + 1 ) 比特。对于c o d en u m , m = l 0 9 2 cd en u m + l ,1 n f o = c o d en u m + 1 2 m ,照此对于码字编码得到c o d en t l m 并查 表可以到相应码字的二进制编码。 这种编码方式使用一个长度无限的码字集,设计结构非常有规则,用相同的码表 可以对不同的对象进行编码。这种方法很容易产生一个码字,而解码器也很容易地识 别码字的前缀,在发生比特错误时能快速获得重同步。 对于量化后的差值变换系数则使用内容自适应变长编码c a v l c 。它根据已传输 的语法元素的出现概率在现有变长编码表中切换选择编码扫描方式,充分挖掘了数据 的统计特性,提高了压缩比。 c a b a c 是可选项,其编码性能比c a v l c 稍好,但计算复杂度也高。在后续的 第三章将对h 2 6 4 中的熵编码算法进行详细的介绍。 2 2 5 环路滤波器 环路滤波器是基于内容的高质量自适应滤波器,在边缘处,滤波器的强度取决于 编码模式,运动矢量和残差值;在采样点上,量化器参数门限可以关闭任意单个采样 点的滤波器。其主要目的是消除图像的块效应,提高图像的主观视觉质量: l m t 纛璇 f 下 图2 - 3 环路滤波器框图 北京邮电大学工学硕士论文 2 2 6 多帧参考 h 2 6 4 的多帧参考模式,采用多帧图像作为当前块的运动预测参考,其原理如图 2 4 所示,提高了运动补偿的性能,解决了背景覆盖问题,但是同时也增加了编解码 复杂度,增加了参考帧缓存的容量。 2 2 7 分层设计 图2 - 4多帧参考的概念模型 h 2 6 4 的算法在概念上可以分为两层:视频编码层( v c l :v i d e oc o d i n gl a y e r ) 负责高效的视频内容表示,网络提取层( n a l :n e t w o r k a b s t r a c t i o nl a y e r ) 负责以网 络所要求的恰当的方式对数据进行打包和传送。在v c l 和n a l 之间定义了一个基于 分组方式的接口,打包和相应的信令属于n a l 的一部分。这样,高编码效率和网络 友好性的任务分别由v c l 和n a l 来完成。 v c l 层包括基于块的运动补偿混合编码和一些新特性。与前面的视频编码标准一 样,h 2 6 4 没有把前处理和后处理等功能包括在草案中,这样可以增加标准的灵活性。 n a l 负责使用下层网络的分段格式来封装数据,包括组帧、逻辑信道的信令、定 时信息的利用或序列结束信号等。例如,n a l 支持视频在电路交换信道上的传输格 式,支持视频在i n t e m e t 上利用r t p u d p 口传输的格式。n a l 包括自己的头部信息、 段结构信息和实际载荷信息,即上层的v c l 数据。( 如果采用数据分割技术,数据可 能由几个部分组成) 。 2 3h 2 6 4 的应用前景 h 2 6 4 标准的技术特点可以归纳为三个方面。 ( 1 ) 注重实用,采用成熟的技术,追求更高的编码效率,简洁的表现形式; 北京邮电大学工学硕士论文 ( 2 ) 注重对移动和口网络的适应,采用分层技术,从形式上将编码和信道隔离 开来,实质上是在源编码器算法中更多地考虑到信道的特点; ( 3 ) 在混合编码器的基本框架下,对其主要关键部件都做了重大改进,如多模 式运动估计、帧内预测、多帧预测、统一v l c 、4 x 4 二维整数变换等。 h 2 6 4 a v c 使运动图像压缩技术向前迈进了一大步。它具有优于h 2 6 3 和m p e g - 4 的压缩性能,采用一系列最新的压缩技术,提高了压缩率,可应用于因特网、数字摄 像、数字视频录像、d v d 及电视广播等领域的图像压缩。目前,许多大公司都已经 开始把h 2 6 4 a v c 压缩技术应用到各个领域中。然而,在算法的复杂度上,h 2 6 4 a v c 执行的时间和所需存储量较大,在利用d s p 实现h 2 6 4 的编解码时,对算法的优化 和完善起着关键性的作用,这也是进一步研究的方向。 北京邮电大学工学硕士论文 3 1 引言 第三章熵编码的基本原理及算法 现代的视频熵编码技术建立在香农信息论的基础上1 1 4 1 。信息论是- - f 应用概率 论、随机过程、数理统计的方法来研究通信系统中信息传输、提取和处理各个环节规 律的学科,其主要目的是提高信息系统的可靠性、有效性和保密性,以便使得系统达 到最优化。 信息传输系统可描述为图3 - 1 所示的信息传输系统模型,其中信源编码要解决有 效性问题。通过对信源输出的信息进行变化和处理力求用最少的数码传递最大的信息 量信道编码要解决可靠性问题即信源发出的消息经信道传输后要尽可能准确的再现 在接收端加密编码解决保密性问题保护通信系统中传输的消息使非授权者不能获取 香农信息论的压缩理论传输理论和保密理论分别对这三个问题进行了研究其中压缩 理论的编码技术是基于信源发出信号的统计特性的编码技术是通过对信源的研究缉 拿里信源的统计模型找到信源的信息测度从而提出压缩编码的方法去除信号间的信 息冗余本章将讨论不同信源的统计特性和数学模型以及不同信源的信息测度通过对 信源的认识理解编码器的工作原理掌握压缩编码的基本途径。 3 2 熵的基本概念 图3 - 1 信息传输系统模型 信源的类型是多种多样的。凡是能产生消息的都成为信源。信源分为离散信源和 连续信源两大类。在数字传输系统中图像视频信号是经过采样量化后的空间平面上的 北京邮电大学工学硕士论文 离散的灰度值集合。灰度值的取值是有限可数的,所以图像视频信息属于离散信源。 因此我们主要讨论离散信源。 各种离散信源输出中最基本的一种是单符号的消息。单符号离散信源是具有一定 概率分布的离散符号的集合。基于对信源的这种认识我们可以用一个离散随机变量的 可能取值表示信源可能发出的不同符号,用离散随机变量的概率分布表示信源发出不 同符号可能性的大小。 一- 若某信源发出的一组单符号消息毛,屯,吒,它们两两互不相容,其数学模型就 是离散概率空间: 阡 p 蠢羔0 瓴, , 其中p x i1 1 ,2 ,。以) 应满足: j善盹) - 1 1 0 s p ( ) s 1 ( i 1 1 ,2 j 1 ) 其中p x i 1 1 ,2 ,棚) 是信源输出符号的先验概率。 在收信者没有收到下一个符号之前,收信者是不知道信源发出的下一个符号是什 么的,即存在着不确定性。只有在收信者收到信源发出的符号后,才能消除这种不确 定性,即获得了信息。如果知道信源输出符号毛,则信源输出符号毛这一事件所含的 信息量称为自信息量,定义为: ,“) 1 - l o g ( x i ) ( f - 1 , 2 , 鼻)( 3 3 ) 通常取2 为底,这时候得到的信息量单位为“比特”。, ) 所代表的含义是,当 信源发出符号薯前,表示事件鼍发生的不确定性,或者说当信源发出的符号而后,事 件葺所含有或所提供的信息量。这一定义是和实际相一致的。p ) 值越大,表示事 件薯发生的概率越大,则收信者猜测事件毛的不确定性就越小;p “) 值越小,表示 事件为发生的概率越小,则收信者猜测事件而的不确定性就越大,丽事件而一旦发生, 所能提供收信者的信息就越多。 自信息量,“) 是信源发出某一消息所含有的信息量,信源发出的消息不同,所含 有的信息量也不同,所以,“) 是一个随机变量,不能作为整个信源的信息测度。信 息论中将自信息量的概率平均值,即随机变量,伉) 的数学期望值定义为信源的信息 熵,即 日暖) - e i l o g 志l 一砉p ) 1 0 9 p “) ( 3 4 ) 北京邮电大学工学硕士论文 信源x 的信息熵日伍)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论