(通信与信息系统专业论文)视频编码去块效应及dsp中驱动程序的研究.pdf_第1页
(通信与信息系统专业论文)视频编码去块效应及dsp中驱动程序的研究.pdf_第2页
(通信与信息系统专业论文)视频编码去块效应及dsp中驱动程序的研究.pdf_第3页
(通信与信息系统专业论文)视频编码去块效应及dsp中驱动程序的研究.pdf_第4页
(通信与信息系统专业论文)视频编码去块效应及dsp中驱动程序的研究.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(通信与信息系统专业论文)视频编码去块效应及dsp中驱动程序的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华中科技大学硕士学位论文 摘要 块效应是视频编码中影响编码质量的一个重要问题,特别在低码率情况下其表 现尤为明显,本文在国家8 6 3 资助项目“数字视音频编码、传输、测试与应用示范 系统”( n o 2 0 0 2 a a l l 9 0 1 的资助下,参与了国家音视频标准化工作组的工作,对基 于最新视频编码标准的去块效应算法进行了研究。同时在国家教育部重点科学技术 项目m o 2 0 0 0 1 7 5 ) “现代远程教育关键技术:交互式实时教学工具软件”的资助下, 对d s p 视频监控系统中的驱动技术进行了研究。 视频编码现在处于更新换代的又一个关键时刻,国际标准h 2 6 4 以其各方面较 优的质量在很大程度上超越了原有的m f e g 4 ,成为下一阶段视频编码的首选国际 标准。与此同时,中国正努力推出自己的视频编码标准a v s ( a u d i o v i d e oc o d i n g s t a n d a r d ) 。 本文首先对视频编码的基本技术进行了分类介绍,对相关国际标准进行了简要 介绍,然后从运动估计补偿、量化和变换以及熵编码等关键技术对h 2 6 4 和a v s 标准 进行了详细的剖析。接着对视频编码中块效应的产生原因、检测机制与消除算法作 了详细的分析,最后总结得到基于块边界像素的滤波方法是去块效应的首选方法。 在详细分析了h 2 6 4 环路滤波等现有各种算法之后,本文设计并改进了一种基于内 容的去方块滤波算法,由于其采用了不同粒度的滤波方案,它能有效去除块效应, 而又能保护图像真实边缘。基于高清测试序列的测试表明,该算法主客观效果明显。 本文还介绍了视频编解码在d s p 监控系统中的应用。介绍了d s p 的一般开发 流程和t r i m e d i ap n x l 3 0 0 芯片的结构特点,接着详细介绍了t r i m e d i a 芯片的引导 程序设计方法。然后本文介绍了p s o s 实时操作系统及其多任务管理机制,由此提 出了一种多任务调度算法,实现了调度d s p 系统各个软件模块的功能。 最后对全文进行了总结,对需要研究的问题提出了初步设想。 关键字:视频编码,h 2 6 4 ,a v s ,块效应,滤波,p n x l 3 0 0 ,引导,p s o s 华中科技大学硕士学位论文 a b s t r a c t b l o c ka r t i f a c ti sam a j o rc a u s a t i o no fr e d u c i n gt h eq u a l i t yo fp i c t u r ei nv i d e o c o d i n g ,e s p e c i a l l yw h e n t h eb i tr a t ei sl o w s u p p o r t e db yt h en a t i o n a lh i g ht e c h n o l o g y r e s e a r c ha n dd e v e l o p m e n tp r o g r a mo fc h i n a ( 8 6 3p r o g r a m ) “j o i n ts o u r c e - c h a n n e l c o d i n g ( n o 2 0 0 2 a a l l 9 0 1 0 ) ,t h ew o r ki n t r o d u c e di nt h i sd i s s e r t a t i o nh a sr e s e a r c h e d t h ea l g o r i t h mo fr e d u c i n gt h eb l o c ka r t i f a c ti nv i d e oc o d i n g a n du n d e rt h es u p p o r t f r o mk e ys c i e n c ea n dt e c h n o l o g yi t e mf o u n d a t i o no fc h i n an a t i o n a le d u c a t i o n m i n i s t r yf o rt h ep r o j e c t “k e yt e c h n o l o g i e si nm o d e m d i s t a n c el e a r n i n g :i n t e r a c t i v e r e a l t i m ee d u c a t i o ns o f t w a r et o o l s ”( n o 2 0 0 0 1 7 5 ) ,t h i sd i s s e r t a t i o na l s or e s e a r c h e d t h eb o o ta n dc o n t r o la l g o r i t h mo ft h ev i d e oc o d e ru s e di nd s p s y s t e m v i d e oc o d i n gi sn o w c h a n g i n gi t si n t e r n a t i o n a ls t a n d a r da ti t sz e r oh o u r it h e n e w e m e r g i n g h 2 6 4e x c e e d so r i g i n a lm p e g - 4i ng r e a tp a r tb e c a u s eo fi t sb e t t e rq u a l i t yi n m a n ya s p e c t s ,a n db e c o m et h e f i r s tc h o i c eo ft h ev i d e oc o d i n gs t a n d a r di nf u t u r e g e n e r a t i o n a tt h es a m et i m e ,c h i n a i sa p p l y i n gh e r s e l fo f e s t a b l i s h i n g t h ef i r s tn a t i o n a l a u d i oa n dv i d e o c o d i n gs t a n d a r d ( a v s f o r s h o r t ) a no v e r v i e wo ft h er e l a t i v ei n t e r n a t i o n a ls t a n d a r d si so v e ni nt h i sd i s s e r t a t i o n f i r s t l y t h e na n a l y s e st h em a i nt e c h n o l o g i e si nh 2 6 4a n da v s ,i n c l u d i n gq u a n t i z a t i o n a n dt r a n s f o r mc o d i n g ,m o t i o ne s t i m a t i o na n d c o m p e n s a t i o n ,a n de n t r o p yc o d i n g t h e n a n a l y s e st h ec a u s a t i o no ft h eb l o c ka r t i f a c t s ,w h i c hr e d u c et h ev i s u a lq u a l i t yo fv i d e o c o d i n g ,a n dg i v e sas u m m a r yo f t h er e s e a r c hi nd e t e c t i n ga n d r e d u c i n gb l o c ka r t i f a c t s a f t e rc o m p a r i n gt h e s ea l g o r i t h m s ,d e s i g n sa n di m p r o v e saf i l t e ra l g o r i t h mt or e d u c e b l o c ka r t i f a c t sb a s e do nt h ec o n t e n ti na v s ,w h i c hu s e ss m o o t hf i l t e ro fd i f f e r e n t g r a n u l a r i t i e sd e p e n d i n go nd i f f e r e n t b l o c ka r t i f a c t s t r e n 磬h s i t r e d u c e st h eb l o c k a r t i f a c t s e f f e c t i v e l ya n dp r o t e c t s t h et r u ed e t a i l si nt h ep i c t u r e ,w h i c hi m p r o v et h e v i s u a lq u a l i t yo fd e c o d e d p i c t u r e s t h ev i d e oc o d i n g t e s tb a s e do ns t a n d a r d i z e dh d t v h 华中科技大学硕士学位论文 s e q u e n c e ss h o w st h eb i g g i s he n h a n c e m e n ti no b j e c t i v ea n ds u b j e c t i v eq u a l i t yo fo u r a l g o r i t h m + a f t e rt h a ta na p p r o a c hf o rt h ev i d e oc o d e cu s e di nt h et e l e m o n i t o ri sg i v e n t h e p r i n c i p l eo fd e v e l o p m e n to fd s ps y s t e mb a s e do nt h ed s pc h i pt r i m e d i ap n x l 3 0 0 i s d i s c u s s e d t h e nd i s c u s s e st h ek e yt e c h n o l o g yt od e s i g nab o o tp r o g r a mb a s e do nt h e p n x l 3 0 0 s h o w st h ep s o s o p e r a t i n gs y s t e m ,f l sw e l la st h em u l t i t a s km a n a g e m e n t m e t h o do ft h em u l t i m e d i ap r o c e s ss y s t e mb a s e do nt h ep s o so p e r a t i n gs y s t e m a n d t h e nd e s i g n sac o n t r o lp r o g r a mo fm u l t i m e d i a s y s t e mu s i n g t h em u l t i t a s km a n a g e m e n t m e t h o d l a s t l yt h et h e s i sd r a w s ac o n c l u s i o na n d p o i n t s o u tf u t u r er e s e a r c hd i r e c t i o n s k e y w o r d :v i d e oc o d i n g ,h 2 6 4 ,a v s ,b l o c ka r t i f a c t ,f i i t e r ,p n x l 3 0 0 ,b o o t ,p s o s 1 1 1 独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:毒= 独 日期:如d 坤年r 月i 0e t 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。 本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密口,在 本论文属于 不保密日。 ( 请在以上方框内打“”) 学位论文作者签名:曩、碾 年解密后适用本授权书。 脚并乞羔 n f j 期:妒b l f 年e 月i 。日日期:硼铲年厂月护日 华中科技大学硕士学位论文 1 1 视频编码基本技术 1 绪论 随着通信网络、多媒体技术的飞速发展,多媒体通信已经成为下一代网络和3 g 网络中的焦点,而视频数据的巨大数据量成为其存储和传输的瓶颈。因此视频数据 的压缩成为解决多媒体通信问题的关键。 香农信息论【1 和脉冲编码调制理论【2 】奠定了图像压缩的理论基础。根据香农信 息论的观点,数据的信息由其信息熵来表征,而其余信息均为冗余。视频数据中同 样存在多种冗余,这包括时域冗余、空域冗余、统计冗余、结构冗余、知识冗余和 视觉冗余等。视频编码技术正是将这些冗余去除以达到压缩数据量的目的。根据冗 余的不同,人们提出了多种视频编码方法。其中经典的有三大类:预测编码、变换 编码和统计编码。 ( 1 ) 预测编码 预测编码是根据图像在时域中存在的相关性来消除时域冗余的编码方法,它对 原始图像数据进行估计之后得到原始数据的预测值,然后将原始数据与其预测值作 差得到残差,通过仅对残差的编码来达到减小数据量的效果。预测编码有线性预测 和非线性预测两种方法。其中自适应d p c m t 3 】编码是一种比较实用的编码方法。 由帧间图像预测编码原理发展出来的运动估计补偿技术应用在当前几乎所有 视频编码国际标准中。运动估计补偿是将图像的一个子块当作某一相邻时刻图像的 某一子块经位移的得到的值,这样仅需要传送预测后得到的残差和运动矢量,而不 是整块的像素。 ( 2 ) 变换编码 变换编码是利用数学变换来消除图像的空间冗余。它将图像的时域信号通过一 个正交变换映射到变换域。正交变换是影响编码效率的关键。 当前常见的正交变换有:k l 变换、离散余弦变换( d c t ) 、小波变换、哈尔 变换、整数变换。其中k l 变换是均方差意义下的最佳正交变换 4 】o 但由于d c t 华中科技大学硕士学位论文 变换存在快速算法,易于硬件实现【5 叫,因此d c t 变换成为当前视频编码国际标准 之中的首选正交交换。而整数变换是d c t 变换的- - 7 :整数实现,它一定程度上牺 牲了d c t 变换的精度,但减少了运算量。 ( 3 ) 统计编码 统计编码是根据信息码字出现概率的特征进行压缩编码。根据信息论的原理, 数据压缩的极限是信息熵。在保证码字的信息熵的基础上尽可能压缩码字的长度就 是统计编码,统计编码是一种无失真编码。 当前统计编码的方法有:游程编码、可变长编码和算术编码。可变长编码( v l c ) 将出现频率高的编码值分配短码字,频率低的则分配长码字。哈夫曼编码是理论上 的最佳可变长编码方法,但是由于事先无法知道信源的概率分布,它无法达到最佳 性能。算术编码【7 】是将任一数据序列都表示成o 到l 之间的一个间隔,该间隔的位 置与输入数据的概率分布有关。它可以根据未知概率分布的数据自适应的编码。行 程编码利用游程来表示连零,降低了为表示零码所用的数据量。它主要用于量化后 大量零系数的情况,常与哈夫曼编码或者算术编码组合在一起使用。当前视频编码 标准之中游程编码和算术编码作为熵编码的主要方法应用较多。 上述三种编码的组合构成了当前绝大多数视频编码标准的基础。无论是m p e g 还是h 2 6 x 系列编码标准都采用了预测估计、d c t 变换和熵编码于一体的混和编 码方法。上述三种编码技术在t o r t e s 和k u n t 8 j 等人的著作中,被称为第一代编码技 术。第一代编码技术还包括:脉冲编码调$ ) j t 9 1 、矢量量化【9 _ 1 2 1 以及子带和小波编码 9 4 1 , 1 3 1 。而第二代编码方法进一步考虑了视频数据中的知识、视觉和结构冗余,通 过减少这些冗余提高更高的压缩比。它建立在图像分析和合成、计算机图形学、计 算机视觉以及人工智能的基础上。包括了基于分割的编码方法,基于模型的编码方 法和分形编码等。由于不在本文范围内,这里不再赘述。 1 2 视频编码标准介绍 当前视频编码标准主要包括两个系列,如图1 1 所示,一个是m p e g 系列,一 华中科技大学硕士学位论文 个是h 2 6 x 系列。其中m p e g 系列标准由i s o i e c 组织制定,h 2 6 x 系列标准由 i t u 厂r 组织制定。a v s 是中国正在自主研究的视频编码标准,a v s 第一期主要面向 于高清电视应用,它已经于2 0 0 4 年1 月上报国家审批。 9 8 8 1 9 9 0 t 9 9 2 t 9 9 4 1 9 9 6 1 9 9 8 2 0 0 0 2 0 0 2 2 0 0 4 - 黼;摊鬻; h 2 6 7 v 1 l h 2 6 1v 2 l h 鹋 l h 2 站t 1 h 2 昭+ + l 嘲熊一。 l m p e b 2 j h h2 6 4 m p e g , - 4 a v c 睡田簿册积聪糕 黢濯鏊雾;霪 m p e g - 1 1 m p e g - 4 l 簿i l a v s l m 。; 图1 - 1 视频编码标准的发展历程 ( 1 ) i s o i e cm p e g 系列国际标准 m p e g 1 【1 4 1 是第一个m p e g 标准。它把运动图像和伴音以1 5 m b i t s 的比特率压 缩在c d 上,其图像质量与盒式v h s 相当,在v c d 获得广泛的应用。其采用的编 码技术包括d c t 编码、帧间预测、运动补偿和哈夫曼熵编码等基本技术。 m p e g 一2 【1 5 1 是m p e g 的第二个多媒体标准,m p e g 2 采用了工具集( t o o l k i t ) 以满足不同应用要求,其应用领域更广。m p e g 2 主要用于数字电视、d v d 和h d t v 上。m p e g 一2 采用的技术基本与m p e g 一1 相同。 m p e g - 4 1 6 2 1 1 是于1 9 9 9 年出台的新的多媒体标准。其一主要特点是提供了基于 内容的编码概念。它要求将各种多媒体技术共同应用于编码中,包括图像分析和合 成计算机视觉、计算机图形学、虚拟现实和语音合成等。但m p e g 4 更多的是定义 了一种格式和框架而不是具体的算法。正因为此m p e g 一4 在应用中逐步退化成为 m p e g 2 。 m p e g 7 是m p e g l 9 9 6 年开始制订的一个新标准,其目的是为了高效的描述和 搜索多媒体内容,准确的说并不是定义了多媒体数据压缩方法。 m p e g 2 1 是1 9 9 9 年底开始的一个有关多媒体框架的标准活动。它将是一个与 多媒体内容传送有关的标准。 ( 2 ) i t u th 2 6 x 系列国际标准 h 2 6 1 2 2 】用于p 6 4 k b p s ( p = 1 2 3 0 ) 速率下的视频编解码,它采用的技术有 华中科技大学硕士学位论文 d c t 编码、帧间预测、运动补偿等基本技术。支持c i f 和q c i f 。 | l 2 6 3 2 3 瞌f 向低比特率通信,相对于h 2 6 1 它增加了无限制运动矢量、基于语 法的算术编码、先进预测、p b 帧四种可选模式,支持的图像格式也有所增加。在 小于6 4 k b i t s 的低比特率下相对h 2 6 1 编码效果较优。 h 2 6 3 + 2 4 】是h 2 6 3 的第二版。与h 2 6 3 相比,它增加了1 2 个可选的编码模式: 帧内编码、滤波后处理、片结构、附加增强信息、改进的p b 帧、参考图像选择时 空及s n r 可伸缩、参考图像重抽样、减小分辨率刷新、独立分段解码、可替换的 帧内v l c 和修改的量化模式。 h 2 6 3 + + 1 2 5 2 6 1 是h 2 6 3 的第三版,它在h 2 6 3 + 的基础上又增加了3 个可选的编 码模式:增强参考帧选择模式、数据划分模式和额外增强信息模式。此外,它还考 虑采纳仿射运动补偿、选择系数扫描、误码控制编码及头信息重复等方法。 h 2 6 4 2 7 1 是最新的视频编码标准。h 2 6 4 相对于以前的视频编码标准其编码效率 取得相当了相当大的提升( 详见后文) 。h 2 6 4 采用的新技术包括r d 优化、4 x 4 整数变换、帧内预测、快速运动估计、s p s i 切换帧。 1 3 视频编码的最新进展 移动通信是当前发展最快、前景最好的通信产业,而3 g 移动通信f 目络的关键 特征是提供视频业务。传输视频到移动终端不仅是3 g 网络成功推广应用的关键, 而且还直接关系到其能否实现预期收入。 具体说来,移动多媒体业务对于视频编码的需求包含以下几个方面: ( 1 ) 非常高的压缩比 ( 2 ) 低功耗、低存储空间、低运算量的解码 ( 3 ) 对丢包具有较强的鲁棒性 ( 4 ) 支持信道的短时码率波动和长时的码率切换 ( 5 ) 支持不同重要程度的数据类型的不同优先级传输 ( 6 ) 适当并有效的使用与网络有关的方法 4 华中科技大学硕士学位论文 原有的视频编码标准均不能很好满足实际应用的要求,这样就迫切需要合适的 视频编码技术。j 2 6 l 视频编码标准正是在这种需求中诞生的,1 9 9 7 年i t u t 的视频编码专家组开始了h 2 6 l 冽算法的研究工作。到2 0 0 1 年底,h 2 6 l 的压缩质 量和效率超过了当时广泛使用的h 2 6 3 以及m p e g 一4 标准,从而引起了各方面的注 意,是年i s o i e c 的m p e g 小组开始加入r r u - t 的v c e g 小组,他们组成了一个 联合视频小组j v t ,最终于2 0 0 3 年5 月发布了命名为h 2 6 4 的最终标准 h 2 6 4 m p e g - 4 ( e a r t1 0 ) 。 由于采用了r d 优化机制和许多新的算法,使得与现有h 2 6 3 和m p e g 一4 算法 相比,h 2 6 4 的性能有很大的提高,主要表现在以下几个方面: ( 1 ) 最多5 0 的码率节省在相同的失真度情况下,h 2 6 4 比h 2 6 3 + 或m p e g 4 最多可以节省5 0 的比特率。 ( 2 ) 更高的图像质量h 2 6 4 在各种码率下都可以提供满意的图像质量。 ( 3 ) 更强的容错能力h 2 6 4 提供了差错掩盖机制来处理包交换网络中的丢包和 无线信道中的容易发生的误码问题。 ( 4 ) 更完备的网络接入特性h 2 6 4 的一个特性是它将视频编码层( v i d e oc o d i n g l a y er v c l ) 和网络适配层( n e t w o r ka d a p t a t i o nl a y e g n a l ) 分离开来。视频 编码层专门负责压缩编码,而网络适配层则可以根据不同的网络类型而将编 码内容打包。这种分层处理使得对于图像内容的打包和优先级控制等处理过 程变得更加容易。 ( 5 ) 更好的网络时延适应能力h 2 6 4 可以在低延时模式下工作以适应实时通信 应用( 例如会议电视等) ;在无延时要求的应用中( 如视频存储、流媒体应 用等) 和高延时模式下h 2 6 4 可以取得最佳的压缩效果。 由于h 2 6 4 的优越性能,它必然作为今后视频编码的首选标准而逐步取代h 2 6 3 和原有的m p e g 4 ,而成为以后3 g 传输视频和网络视频的主要编码方式。h 2 6 4 成为一个通用的国际标准只是时间问题。 标准化是相关产业成熟并获得市场成功的前提。一个标准中往往包含丰富的科 技成果,涉及到重大的经济利益。同时,标准也是国家主权在经济以及科技领域的 华中科技大学硕士学位论文 重要表现,是国家推动本国科技经济发展的重要手段,因此世界上各个国际组织、 国家、企业以及研究机构都非常重视。自2 0 0 2 年以来,中国开始制定自己的视频 编码标准,国家信息产业部科学技术司于2 0 0 2 年6 月批准成立数字音视频编解码 技术标准工作组,简称a v s 工作组。工作组联合了众多大学、科研单位和公司参与 了编码方案的制订,通过七次会议,工作组完成了a v s 标准的第一部分( 系统) 和 第二部分( 视频) 的草案最终稿( f c d ) 1 2 9 】,配套的验证软件也已完成。 1 4 论文选题和主要工作 本人作为国家8 6 3 资助项目数字视音频编码、传输、测试与应用示范系统 ( n o 2 0 0 2 h a l l 9 0 1 0 ) 和国家教育部重点科学技术项目( n o 2 0 0 0 1 7 5 h 现代远程 教育关键技术:交互式实时教学工具软件”等项目组的主要人员,参与了国家视音 频编码标准工作组( a v s ) 的工作,对基于最新视频编码标准的各种算法进行了研 究,着重研究了去块效应滤波算法,同时也研究和实现了d s p 视频监控系统中的引 导驱动技术。本文的内容基本如下: 第一章对视频编码的关键技术和当前的视频编码标准做了介绍。 第二章对最新的视频编码标准h 2 6 4 和a v s 中的关键技术做了详细分析,包括 变换量化、运动估计补偿以及熵编码等核心技术,追踪了算法的来源,分析了算法的 性能。 第三章详细介绍了视频编码中的去方块效应算法。先论述了视频编码中产生方 块效应的原因,以及方块效应的表现,介绍了当前用于去除方块效应的检测和消除 算法,然后介绍了h 2 6 4 中使用的去块效应滤波算法,在这些研究的基础上,本文 改进了一种基于内容的去方块效应环路滤波算法,对于预设的闽值进行了大量的调 整和试验,使得其取值更精确。该算法更加适合于当前正在制定的a v s 视频编码器 中。最后的实验结果证明该算法具有良好的去除方块效应的性能。去除块效应滤波 算法是本文的主要工作之一。 第四章介绍了基于d s p 的视频终端设备的引导以及调度程序设计的原理和方 华中科技大学硕士学位论文 法。介绍了t r i m e d i ap n x l 3 0 0 芯片的系统结构特点和d s p 系统开发设计的过程。 论述了基于t r i m e d i ap n x l 3 0 0 芯片的驱动程序设计方法,之后介绍了p s o s 实时操 作系统,基于p s o s 操作系统,提出了一种基于多任务的调度算法。试验表明,本 文实现了p n x l 3 0 0d s p 系统的底层驱动和调度算法,为上层应用业务提供了程序 接口,这也是本文的主要工作之一。 最后对全文进行总结,对有待继续研究的工作提出了设想。 7 华中科技大学硕士学位论文 2h 2 6 4 及a v s 标淮技术研究 2 1h 2 6 4 关键技术 2 1 1h 2 6 4 的整体特点 h 。2 6 4 采用了与现有编码器相似的结构,。但是在编码算法上采用了一系列新的 技术以提高编码性能,这些算法主要有: ( 1 ) 帧内预测 ( 2 ) 多种块尺寸,更高精度,多参考帧的帧间预测 ( 3 ) 整数变换 ( 4 ) 基于内容的自适应二进制算术编码 h 2 6 4 相对于现存视频编码的最突出差别是采用了r d 率失真优化机制,该机 制将各种运动预测方法在各种分块类型下的编码模式全部计算一遍,根据其r d 表 现找到其中最佳的一种预测和分块模式,这样处理使得编码器能够尽可能地获得最 高的编码效率,虽然它的代价是时间和空间上都更大的复杂度,需要更多的编码时 间和运算速度更快的计算机硬件来支持。但其性能是相当优越的。在解码器端则只 需要按照编码信息进行指定模式的解码,从而解码器的复杂度并不增加。h 2 6 4 的 编码器结构如下: 囤 帅馘 瘩q 蔷丑吓蔫剐 图2 - 1j v t 编码器的结构框图 华中科技大学硕士学位论文 以下分小节分析h 2 6 4 中的关键技术。 2 1 2h 2 6 4 的变换量化技术 相对于以前的视频编码标准,h 2 6 4 采用了更小的4 x 4 方块【3 0 1 。变换技术是4 x 4 整数变换【3 1 1 ,当前视频编码标准都采用8 x 8 方块浮点离散余弦变换( d c t ) 。整 数变换与d c t 变换类似,其核心矩阵算法是余弦变换的整数实现。其实在d c t 算 法提出之后,就出现了性能与d c t 接近而实现复杂度优于d c t 的整数变换。但由 于d c r 性能优良,使得所有的视频编码标准都采用了浮点d c t ,整数变换仅局限 于实验室内使用。而由于h 2 6 4 的各种编码模式的选择使得编码质量提升很大,使 得选择整数变换成为可能。 用整数矩阵来实现d c t 变换最简单方法是对浮点矩阵作倍数取整,如以下公 式: t ( m ,1 ) = r o u n d ( k + h ( m ,n ) ) ( 2 - 1 ) 其中,嘶坞彬是mx n 维d c t 变换矩阵,r o u n d 是四舍五入取整运算,k 为倍数。 对于4 x 4 的块,其浮点d c t 变换矩阵是: 1 2 11 一sc 一11 cs 上式中c ;压c o s 玎8 ,s ;压s i n 石8 。 在公式中取k = 2 ,就得到h a d a m a r d 变换矩阵 111 111 111 111 在对1 6 x1 6 的块中1 6 个4 x 4 小块的d c 系数作去相关性处理的时候用到了 h a d a m a r d 变换。由经验得到一个结论就是,将图像分成8 8 的分块最适合于利用 。o 吖 1 c 1 5 华中科技大学硕士学位论文 图像之间的相关性进行正交变换。如果图像分块大于8 8 ,块间相关性降低。而如 果采用4 x 4 小块,则大面积图像块间的高相关性利用不够。所以h 2 6 4 增加了专 门处理图像大面积平坦区域的1 6 1 6 帧内编码模式,把每个宏块的1 6 个4 4 亮 度分量方块的d c 系数抽出来,组成一个4 x 4 的矩阵,进行的第二次正交变换,即 最简单的h a d a m a r d 变换。而对于色度直流系数,也采用2 2 的h a d a m a r d 变换。 注意这里的变换结果是d c t 变换的整数倍,需要对变换后的结果作尺度变换 之后才能得到d c t 的结果,这个尺度变换结合量化过程执行,即将量化表中的量 化参数用一模值作乘得到需要的量化参数。在这里原有行向量和列向量的模都取相 同的值k 。 如果行向量和列向量的模取不同的值,可以将变换矩阵进一步简化,取k = 2 5 就得到了h 2 6 4j f c d 变换矩阵: 111 1 1 2 1 11 221 在j f c d 变换矩阵中,行向量和列向量的模有3 个取值:2 ,7 ,1 0 。这样就 需要进一步修改量化表。 相对于8 8 浮点d c t ,h 2 6 4 的4 4 整数变换具有以下优点: 由于分块较小,使得对一个块的变换处理占用的内存更小,并使得方块效应减 少、同时采用更小的块的一个间接收益是它容许4 x 4 小块以上的帧间预测。 由于采用整数变换,整数变换可以用结合移位和加法的1 6 位运算位长的快速 运算代替,避免了乘法,使得运算速度加快。同时避免了浮点运算中的反d c t 的 失谐问题,单纯从数值计算上看,它的精度更高。 h 。2 6 4 采用分级量化器,因为要避免浮点和除法运算,以及融合尺度因子矩阵, 其定义稍有点复杂。基本的前向量化器如下: 豢鬻壤黼蕊篓戮麟 ( z - 2 ) 这里的是待量化的系数,q s t e p 是量化步长。z :f 是量化后的系数。 1 0 华中科技大学硕士学位论文 量化步长q s t e p 一共有5 2 个值,其索引是量化参数q p 。q p 每增加6 的时候。 q p s t e g 增加一倍,而q p 每增加1 的时候,q p s t e p 增加1 2 5 。这样q p s t e p 的变化 范围很大,使得编码器可以精确灵活地在比特率和图像质量之间取得折中。 结合变换模块的尺度变化以及整数算术运算的移位实现,最终的量化公式如 下: i z 口i = ( i i 脚+ ,) q b i t s ( 2 3 ) m f = p f 2 q b i 8 q s t e p ( 2 - 4 ) 其中p f 为变换矩阵的尺度因子,其取值根据变换矩阵的3 个模值决定。符号 “ 表示二进制中移位的运算,帧内编码时,f = 2 q 6 如3 ,帧间编码时,_ 秒洳6 。 2 1 3h 2 6 4 的预测技术 h 2 6 4 的预测技术是其编码方法中最复杂,是它相对于以前的视频编码标准改 动最大的一个部分,也是h 2 6 4 优良编码性能的主要来源之一。h 2 6 4 的预测技术 包含了帧间预测1 3 2 1 和帧内预测【3 3 】两个方面。下表概括了h 2 6 4 的三类帧采用的所有 预测模式: i 帧:m o d e 亿刚4 x 4 ,i n t r a l 6 x 1 6 , 。 一f 删刀m 4 x 4 i n t r a l 6 x 1 6 ,觚 1 p 帧:m o d e 。7 l , l1 6 x 1 6 ,1 6 x 8 ,8 x 1 6 ,8 x 8 ,8 x 4 ,4 x 8 , 4 x 4l 删了:f m4 x 4 , 上 r 豫,哇1 缸1 6 ,引姗c r ,上腮e c r , 凡 d 1 缸1 6 ,f 彻) 1 缸8 ,研协缸1 6 ,肼d a x 8 , f 肋船4 , f w d 4 x 8 ,f 肋4 x 4 ,b a k l 6 x 1 6 ,删c 1 缸8 ,且4 聒1 6 , b a k 8 x 8 ,删( 缸4 ,且4 k 氟8 ,b a k 4 x 4 ( 1 ) 多种帧间预测类型: h 2 6 1 、m p e g 1 、m p e g 2 只有一种1 6 x 1 6 帧间预测方块。h 2 6 3 和m p e g 4 v e r s i o n1 增加一种方块8 8 。m p e g - 4v e r s i o n2 有4 种方块:1 6 x 1 6 、1 6 8 、8 1 6 、8 x 8 。h 2 6 4 有7 种方块:1 6 x 1 6 、1 6 x 8 、8 1 6 、8 8 、8 4 、4 x 8 、4 华中科技大学硕士学位论文 x 4 。 在另外的两种预测模式中,p 帧采用的s k i p 模式表示当前编码的块不需要传送 任何运动矢量和残差,而在解码的时候只需要拷贝前面一个帧中已经解码的块的运 动矢量。b 帧采用的直接预测模式( d i r e c tp r e d i c t i o n ) 对一部分块沿用前面块已经 得到的运动矢量,而仅需传送残差,这样既能减小运动搜索所花的编码时间和效率, 又能节省比特率。该机制假设了图像序列中的物体是以恒定速率移动的。这样对于 b 帧我们也可以不传输任何运动矢量就能找到它的参考样本。 在作一个宏块内部的预测编码时,需要对宏块进行分块。h 2 6 4 采用了一种树 状结构的分块方式,把宏块分成4 个8 x 8 分区。分块方式是同宏块同方块。即同 分区的方块形状相同,而同宏块内不同分区的方块形状可以不同。分区的方块类型 和宏块的方块类型独立。 ( 2 ) 高达1 8 的分数像素精度的帧间预测 视频编码标准的运动矢量精度不断提高:h 2 6 1 为整像素,m p e g 1 、m p e g 2 、 h 2 6 3 、m p e g 一4v e r s i o n1 为1 2 像素,m p e g 一4v e r s i o n2 为1 4 像素,h 2 6 4 提高 到1 8 像素。 在作分数像素精度运动估计补偿时,预测样本的获取采用了内插滤波器的方 法,他们对原始参考帧的像素作线性插值得到分数精度位置处的像素值,以作为分 数精度像素的预测样本,样本从低精度到高精度依次获取,即首先获取1 2 分数精 度预测样本,然后得到1 4 分数精度预测样本,最后得到1 8 分数像素精度预测样本。 下图表示了1 4 分数精度的插值过程: aa1bb cdefg 2h3i4 j k1i nn co5 pd 图2 21 4 像素插值过程 其中大写字母代表整象素的原始图像预测样本位置,而数字代表半象素的预测 1 2 华中科技大学硕士学位论文 样本位置,小写字母代表1 4 象素的预测样本位置。在获取1 2 位置的预测样本时, 用到了6 抽头滤波器( 1 ,一5 ,2 0 ,2 0 ,5 ,1 ) 。而在进一步得到1 4 位置的像素的时候,用了 平均值滤波器。 采用1 8 分数精度的帧间预测可以使求得的运动矢量更精确,因为图像信号的 低频成份有利于预测,而高频成份则不利于预测,高频还是图像噪声出现概率最大 的地方。试验结果表明,对于h 2 6 l t m l - 6 ,采用1 8 像素精度运动矢量比采用1 4 像素精度运动矢量提高质量1 0 d b 。 考虑到计算的复杂度,在h 2 6 4 的最终文档中,1 4 像素精度运动矢量作为通 常情况的运用,而1 ,8 像素精度运动矢量仅作为高码率和高质量的运用。 ( 3 ) 多参考帧 运动估计中与当前帧具有最强时间相关性的过去帧,通常是在时间域上最邻近 的前一帧,但是对于发生复杂的剧烈的运动的视频序列,时域上更靠前的过去帧可 能是最佳帧间预测参考帧。h 2 6 4 和h 2 6 3 一样使用多个过去帧作为参考帧。这样 既可以避免传输差错在时间上传递,增强差错适应力,尤其提高丢包时的鲁棒性, 又增加了搜索到比前一帧最佳预测图像块更优的图像块的机会,提高了对于复杂图 像内容的适应力。 为了提高解码器怎存储区的使用效率,节省解码器的内存空间,h 2 6 4 引入了 h 2 6 3a l l l l e xu 的参考帧选择层语法,通过帧头或s l i c e 头传送帧存贮区管理方法。 帧存贮区管理方法包括通常的滑窗方法和自适应控制方法。在选用滑窗方法时,在 解码器的帧存贮区必须存放完整的多个参考帧图像数据;在选用自适应控制方法 时,则只需要在码流中传送控制信息。 ( 4 ) 多帧外插预测 多帧外插预测是对经过运动补偿的多个参考帧图像数据,执行加权平均的线性 外插,生成预测图像数据,这个过程与m p e g 1 中用于b 帧编码的双向运动补偿帧 问预测过程相似。在运算量上两者相同,所不同的是,b 帧是双向内插,而h 2 6 4 是外插。因为外插较内插更难以确定,所以外插预测的效果没有内插预测效果好。 但对于褪色过渡的视频序列,外插预测显示了良好的性能。 华中科技大学硕士学位论文 ( 5 ) 帧内块间预测 帧内块间预测可以用于去除图像空间冗余,在h 2 6 3 以后的标准中就有在变换 域加入直流以及低频信号成份的帧内预测,即用相邻方块的直流系数和位于8 8 变换矩阵0 行和0 列的低频系数去预测当前方块的相应变换系数,而进一步去除图 像空间冗余。 h 2 6 4 中也采用了帧内预测的方法。不同的是,h 2 6 4 直接在图像域进行低频 成份的块间预测,且有多种预测模式,对于4 4 方块有9 种预测模式,对于1 6 1 6 帧内编码模式有4 种。下面图2 - 3 中左图表明了4 4 小块的预测样本值的获得, 其中大写字母表示来自临近块并已经解码重构的像素( 当这些像素不可得时用默认 值代替) ,小写字母表示将要被预测的像素。右图表明了4 4 小块的不同的预测模 式,根据预测方向的不同,一共有9 种预测方式,其中d c 模式为预测( 不包括在 方向预测图中) ,另外8 种预测样本的得到分别是以不同方向对小块作一系列的平 行斜线,利用小块上图所示的大写字母像素以线性插值方法( 包括内插和外插) 沿 斜线求出该方块各个像素的预测像素值。斜线的倾角即预测方向共有8 个。 oabcdefgh 网 i 竺! ! i 侈 翻心 7 、 5 图2 - 3h 2 6 4 帧内预测预测样本以及预测模式 h 2 6 4 的帧内预测算法,可以获得高于h 2 6 3 a n n e x i 帧内预测算法的编码效率, 尤其对于p 帧和b 帧中出现几率不大的帧内编码宏块。这是因为h 2 6 3 的方法需要 相邻方块也采用帧内编码模式,才能执行块间预测,而h 2 6 4 的图像域块间预测算 法没有这个限制。也就是因为帧内预测在图像时域进行,所以当它获得一定的编码 效率时,正交变换就可以简化。 1 4 华中科技大学硕士学位论文 2 1 4h 2 6 4 的熵编码技术 h 2 6 4 采用了两种熵编码算法【3 4 】,一种是c a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论