（模式识别与智能系统专业论文）h264视频快速编码及优化技术研究.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：61 大小：1.85MB 积分：0 举报 版权申诉

（模式识别与智能系统专业论文）h264视频快速编码及优化技术研究.pdf_第2页

（模式识别与智能系统专业论文）h264视频快速编码及优化技术研究.pdf_第3页

（模式识别与智能系统专业论文）h264视频快速编码及优化技术研究.pdf_第4页

（模式识别与智能系统专业论文）h264视频快速编码及优化技术研究.pdf_第5页

已阅读5页，还剩56页未读，继续免费阅读

（模式识别与智能系统专业论文）h264视频快速编码及优化技术研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要基于h 2 6 4 的视频编码技术适用于各种不同层次的需要，具有广阔的应用前景。然而h 2 6 4 视频编码复杂度大、实现技术难度高，使得其应用受到很大的限制。文中介绍了h 2 6 4 编码标准及其发展现状，分析了编码原理，对编码中的若干关键闯题进行了探讨，并研究了在d s p 硬件平台上编码器的实现优化技术。本文的主要工作和创新点有以下几个方面： 1 分析了h 2 6 4 的框架及其研究现状，并详细描述了其编码原理： 2 根据图象的运动特性，对不同类型的宏块选取不同的模式选择方法；根据序列的时空相关性，合理地选择快速估计算法和中止判别准则，提出了基于运动信息的模式选择和运动估计的快速算法。 3 根据图象的运动信息把宏块分为前景和背景部分，对前景区域的编码复杂度进行了分析，将帧级控制和宏块级控制相结合，提出了基于运动的码率分配和控制策略，对不同区域分配了不同的比特，同时保持了缓冲区的稳定。 4 针对t i h $ 3 2 0 c 6 4 1 6d s p 的特点，结合d a m 6 4 1 6 p 图象处理平台，对h ，2 6 4 编码器进行了指令级优化。关键词：视频编码模式选择运动估计码率控制代码优化 a b s t r a c t h 2 6 4 一b a s e dv i d e oc o d i n gc a nb ew i d e l ya p p l i e dt om a n yf i e l d s 1 1 1 ev i d e oc o d i n g a l g o r i t h mo fh 2 6 4 ，h o w e v e r ，i sv e r yc o m p l i c a t e da n dt o od i f f i c u l tt oi m p l e m e n t ，s ot h e a p p l i c a t i o no fh 2 6 4h a sb e e nl i m i t e dt oag r e a te x t e n t i nt h i sp a p e r , w ef i r s td i s c u s st h e h 2 6 4s t a n d a r da n di t s d e v e l o p m e n t ，a sw e l la st h ec o d i n gp r i n c i p l ei nt h ev i d e o a p p l i c a t i o n s t h e n ，w ef u r t h e rs t u d ys e v e r a lk e yi s s u e so fv i d e oc o d i n g a f t e rt h a t ，t h e d s po p t i m i z a t i o na n di m p l e m e n t a t i o no fv i d e oc o d i n ga l g o r i t h ma r er e s e a r c h e di nm o r e d e t a i l s 1 1 1 em a i nw o r ka n dc o n t r i b u t i o n so ft h ep a p e ra r es u m m a r i y e da sf o l l o w s ： 1 t h ef r a m e w o r ko fh 2 6 4i sa n a l y z e d a n dt h ec o d i n gp r i n c i p l ei sa l s os t u d i e di n d e t a i l s 2 a c c o r d i n gt ot h em o t i o nc h a r a c t e r i s t i co fv i d e o ，d i f f e r e n tm o d e s e l e c t i o n m e t h o d sc a nb es e l e c t e di nc o d i n gd i f f e r e n tm i c r o b l o c k a c c o r d i n gt ot i m e s p a c e c o r r e l a t i o no fv i d e os e q u e n c e ，a n ds e l e c t i n gf a s tm o t i o ne s t i m a t i o na l g o r i t h ma n d e n d i n gr u l e ，am o t i o n i n f o r m a t i o n - b a s e dm o d e s e l e c t i o na n dm o t i o ne s t i m a t i o n a l g o r i t h mi sp r o p o s e d 3 b a s e do nt h em o t i o ni n f o r m a t i o n ，t h ev i d e of l a m ec a nb es e p a r a t e di n t o f o r e g r o u n da n db a c k g r o u n d a f t e ra n a l y z i n gc o d i n gc o m p l e x i t yo ff o r e g r o u n da r e a , c o m b i n i n gf r a m e c o n t r o la n dm i c r o b l o c k c o n t r o l ，am o t i o n b a s e dr a t ec o n t r o lm e t h o di s p r e s e n t e d t h i sm e t h o dc a na l l o c a t el i m i t e db i t st od i f f e r e n ta r e aa n dk e e pt h eb u f f e r s t a b l e 4 a i m i n ga tt h ep r o c e s s i n gp l a t f o r mo fd a m 6 4 1 6 po fw i n t e c hc o m p a n y , t h e o p t i m i z a t i o no fi n s t r u c t i o n sf o rh 2 6 4v i d o ec o d i n gi sp r o p o s e d k e yw o r d s ：v i d e oc o d i n g ，m o d es e l e c t i o n ，m o t i o ne s t i m a t i o n ，r a t ec o n t r o l ， c o d eo p t i m i z i n 西：l h - r 业大学硕士学位论文第一章绪论 1 1 引言第一章绪论科学技术的进步，特别是信息领域曰新月异的发展，正深刻地改变着人类的生活和工作方式。信息化的一个主要特征就是多媒体技术的广泛应用，在过去十年左右的时间里，人们在多媒体表示和通信领域取得了惊人的进展。数字多媒体的压缩和通信算法取得了显著进步，使得诸如视频会议、巨量多媒体数据存储、数字电视广播、基于网络的流媒体的传输和播放等视频多媒体应用不断普及与发展。反过来，这些多媒体应用的普及与发展也对数字多媒体的压缩和通信算法提出了许多新的更高的要求。目前，图象和视频的编码传输已成为商业、军事和学术界的一个研究热点l 2 1 1 3 1 1 4 】【5 1 1 6 1 。目前，以i m t - 2 0 0 0 标准为核心的第三代( 3 g ) 移动通信系统，正在逐步改善通信网的通信质量和通信带宽，它以及第四代和后四代移动通信追求的主要i i 标之一也是实现多媒体业务p 】【s l 。而就视频编码技术而言，作i 为多媒体通信中最重要的环节之一，在近二十年中得到了广泛深入的研究( 9 1 。国际标准化组织( i s o ) 和国际电信联盟( i t u ) 分别制订了一系列视频编码的标准，这些编码标准在视频节目存储、数字电视、可视电话、视频会议和视频监控等业务中已经得到了广泛的应用。由于无线视频通信本身属于数字通信，具有压缩比高、易于远距离传输和存储，而且没有积累失真，可以被高品质的还原等优点在军事领域也获得了广泛的应用，如图象的制导、侦察、识别和跟踪等。 1 2 多媒体数据压缩技术图象压缩编码方法可分为三大类：第一类基于图象信源的统计特性：第二类基于人眼视觉特征，采用图象轮廓一纹理的编码方法：第三类基于图象的景物特征，采用模型的编码方法。目前图象压缩编码系统主要是针对信源中的统计冗余( 空间冗余和时问冗余) 进行压缩，其中较为重要的编码方式有h u f f m a n 编码、游程编码、子带编码、小波编码等，基于上述编码技术形成了很多的编码算法，其中一些算法已通过了国际组织的审核成为业界标准。对于视频图象标准制定的先后顺序如下图所示：西北工业大学硕士学位论文第一章绪论 i t u th 2 6 lh 2 6 3h 2 6 3 +h 2 6 3 + + h ，r x 粟硎 1 t u t t t 2 6 2 e g - 2 h 2 6 4 m p e g 一4 ( p a r t1 0 ) l t s n t f r l i s o i e ci m p e g 一1 m p e g 一4j lm p e c , 莉r l_llll i i_ii_li 1 9 8 41 9 8 81 9 9 01 9 9 41 9 9 82 0 0 0 1 2 1h 2 6 1 ( i t u ) h 2 6 t “”是最早的视频压缩编码标准是i t u t 的前身c c i t t 针对可视电话、会议电视和窄带i s d n 等要求实时编解码和低延迟应用提出的一个编码标准，它的输出码率是p 6 4 k b i t s ，其中p 为0 到3 1 的整数，当p 小于6 时只能传输清晰度不太高的图象，可应用于电视电话，当p 大于6 时，可以传输清晰度比较好的图象，适用于电视会议等，h 2 6 1 采用的算法主要是帧间预测和二维d c t 变换的混合编码方法，该标准同时支持帧间编码和帧内编码，当帧间预测效率较低的时候，则直接采用d c t 变换。它还包括固定速率的信道相适配的速率控制等部分。h 2 6 1 只对c i f 和q c i f 两种图象格式进行处理，每帧图象分成图象层、宏块组( g o b ) 层、宏块( m b ) 层、块( b l o c k ) 层来处理。 1 2 2 m p e g - i ( i s o i e c1 1 1 7 2 ) “运动图像专家组”于1 9 9 1 年为电视图像数字存储而制定了m p e g 一1 ( i s o 1 1 1 7 2 ) 1 1 1 标准。m p e g 一1 标准是v c d 工业标准的核心，现在已经走向千家万，“。 m p e g 一1 采用了一系列技术以获得高压缩比：( 1 ) 对色度信号进行亚采样，减少数据量，( 2 ) 采用运动补偿技术减少帧间冗余度，( 3 ) 作二维d c t 变换，去除空问相关性，( 4 ) 对o c t 分量进行量化，舍去不重要的信息，将量化后的d c t 分量按照频率重新排序，( 5 ) 将d c t 分量进行变字长编码，( 6 ) 对每个数据块的商流分量d c 进行预测差分编码。西北工业大学硕士学位论文第一章绪论 m p e g l 中的图象类型共分四种，如表1 1 。表i 1m p e g l 中i 、p 、b 帧的数据字节和压缩比，帧类型不同帧数据的字节数压缩比 i1 8 k b7 ：l p6 k b2 0 ：1 b2 5 k b5 0 ：l d4 8 k b2 7 ：l m p e g - 1 的编码速率最高可达4 - 5 m b p s 。但随着速率的提高，其解码后的图象质量有所降低。由于使用的方法比较通用，因此能得到广泛的应用。但可以看出，它所适用的视频信号的分辨率只有c c i r 提出的数字电视演播室建议的格式( 7 2 0 5 7 6 ) 的1 4 大小，很难满足人们日益增长的需求，虽然可以经过一些后处理的方法来提高它的分辨率( 例如内插的方法) ，但效果仍是差强人意的。 1 2 3 m p e g - 2 h 2 6 2 ( i s o i e c i t u1 3 8 1 8 ) 1 9 9 3 年为高质量活动图象及其伴音压缩而制定了m p e g 一2 【l2 1 标准，其视频部分，即h 2 6 2 在1 9 9 4 年正式通过。m p e g 一2 标准是m p e g 开发的第二个多媒体数据压缩标准，是运动图象及其伴音的通用编码标准。m p e g 一2 的设计目标是高级工业标准的图象质量以及更高的传输率，侧重于数字电视的应用。 m p e g 一2 标准的压缩编码系统是将视频和音频编码算法结合起来而开发的。系统编码可有两种方法，其编码输出包括程序流和传送流两种定义流。程序流和 m p e g - 1 定义的流相似，而传送流是一种用来传送和保存程序的编码数据或其数据的数据流。 m p e g - 2 对视频比特流的语义规则也作了具体规定，制定了更高层语法结的语法规范。其高层比特流组织中，不带扩展功能的数据流与m p e g 一1 规范一致。由于m p e g 一2 的出色性能表现，已能适用于h d t v ，使得原打算为h d t v 设计的 m p e g 一3 ( m p e g 一3 要求传输速率在2 0 m b p s 一4 0 m b p s 问) ，还没出世就被抛弃了。除了作为d v d 的指定标准外，m p e g - 2 还可用于为广播，有线电视网，电缆网络以及卫星直播提供广播级的数字视频。西北工业大学硕士学位论文第一章绪论 1 2 4h 2 6 3 ( i t u ) h ，2 6 3 f 1 3 1 是国际电联i t u - t 的一个标准草案，是为低码流视频编码而设计的。随后出现的第二版( h 2 6 3 + ) 及h 2 6 3 + + 增加了许多选项，使其具有更广泛的适用性。h 2 6 3 的编码算法与h 2 6 1 相比做了一些改善和改变，以提高性能和纠错能力。1 9 9 8 年i u t t 推出的h 2 6 3 + 是h 2 6 3 建议的第2 版，它提供了1 2 个新的可协商模式和其他特征，进一步提高了压缩编码性能。另外，h 2 6 3 + 对h 2 6 3 中的不受限运动矢量模式进行了改进，加上1 2 个新增的可选模式，不仅提高了编码性能，而且增强了应用的灵活性。h 2 6 3 已经基本上取代了h 2 6 1 。h 2 6 3 + + 在h 2 6 3 + 基础上增加了3 个选项，这3 个选项为：选项u 、选项v 和选项w ，主要是为了增强码流存恶劣信道上的抗误码性能，同时为了提高增强编码效率。 1 2 5 m p e g 一4 ( i s o i e c1 4 4 9 6 ) m p e g 一4 标准是m p e g 关于运动图象的第三个标准，从1 9 9 3 年7 月m p e g 就致力于此标准的开发。m p e g 分别于1 9 9 8 年1 0 月、1 9 9 9 年1 2 月公布了版本1 0 和版本2 0 ，是关于a v 对象编码( c o d i n go fa u d i o - v i s u a lo b j e c t s ) 的标准。基于内容的功能是m p e g 一4 标准的核心，将基于内容的检索与编码结合起来考虑，压缩数据含有描述视频内容的信息使对于多媒体信息内容的访问可以直接针对压缩数据进行。 m p e g 一4 也分为系统、视频、音频等部分，其前面六部分与m p e g 一2 相对应，第六部分名称改为传输多媒体集成框架d m i f ，在内容上有很多重要差别。m p e g 一4 允许对单个对象编码，视频信息不必象m p e g - 1 、m p e g 一2 视频一样具有规则形状，对音频信息也同样适用，m p e g 一4 提供各种工具对不同比特率、不同功能的语音和音频进行编码，包括a a c 扩展。因此，系统部分除了传统的m p e g - 1 和m p e g 一2 系统部分的功能之外，还包括合成功能。目前m p e g 一4 视频已为各种工业所接受，并被选择为下一代移动通信建立标准和用以研究v o d 及其相关应用的方案。另外，m p e g 一2 将一个重要的扩展，就是要在传输流中支持m p e g 一4 对象，势必使得数字电视领域里的多媒体应用越来越丰富。 1 3 h 2 6 4 标准框架及研究现状 h ，2 6 4 a v c l l 4 1 是小t ( 崮际电信联盟i | 、u t 的视频编码专家组v c e g 和国际丰，j 、西北工业大学硕士学位论文第一章绪论、皇宣i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i 宣i i i i i i 苗i i i 准化组织i s o i e c 的活动图象专家组m p e g ) 制定的视频编码新标准，其目的是为了提高压缩性能并且能在传输带宽较窄、存储能力较小的条件下传输和存储视频数据。 1 3 ih 2 6 4 标准框架 h 2 6 4 的编解码框架与以前提出的标准，如h 2 6 1 、h 2 6 3 及m p e g 一1 2 4 并无显著变化，也是基于混合编码的方案：使用运动估计和运动补偿技术去除时间冗余，使用帧内预测技术去除空间冗余，所得的图象残差值要经过变换、量化、熵编码等部分的处理。所以，新标准的性能提升在于各个部分的技术方案的改进及新算法的应用。比如支持多帧参考、多模式预测、4 x 4 整数变换、i 4 象素匹配精度等，具体内容将在第二章介绍。 h 2 6 4 力h 强了对各种信道的适应能力，采用“网络友好”的结构和语法，有利于对误码和丢包的处理；h 2 6 4 应用目标范围较宽，可以满足不同速率、不同解析度以及不同传输( 存储) 场合的需求。 h 2 6 4 标准有着前所未有的高压缩效率，在相同的图象质量下，h 2 6 4 所需码率约为m p e g 2 的3 6 、h 2 6 3 的5 l 、m p e g 4 的6 1 ，h 2 6 4 帧内编码技术的效率i ：e j p e g 2 0 0 0 还要优异，这应该归因于精心设计的1 6 x 1 6 和4 4 帧内预测。随着 h 2 6 4 在实现中的不断优化，其压缩性能方面的优势将更为突出。这种高压缩效率可以给视频实时通信、数字广播电视、视频存储等应用带来很多好处，提高人们的视频欣赏质量。 1 3 2h 2 6 4 研究现状目前，国内外对h 2 6 4 视频编码标准都有一定的研究。在算法上，主要是针对h 2 6 4 编码器的帧间预测的运动估计、运动补偿和模式选择部分的研究，出现了一大批有效的运动估计快速算法和快速模式选择算法，针对不同的应用领域选择台适的算法。对于变换量化、熵编码和滤波等部分算法基本固定，主要是寻求有效的编程实现方法，在p c 机上的热点是利用删x 指令和s s e 以及s s e 2 技术进行编程优化。软件方面主要有：j m h 2 6 4 的官方测试源码，由德国h h i 研究所负责开发。它实现了h 2 6 4 的所有特性，由于是官方的测试源码，所以学术研究的算法都是在i m 荩础上实现并和州进行比较。但其程序结构冗长，只考虑引入各种新特性以提高编码性能忽视了编码复杂度，其编码复杂度极高，不宜实川。 x 2 6 4 一州j ：f j 巾组织联合开发的兼容h 2 6 4 标准码流的编码器，创始人是一个法 5 西北工业大学硕士学位论文第一章绪论国人，x 2 6 4 在网上的口碑极佳，和j m 相比，在不明显降低编码性能的前提下，努力降低编码的计算复杂度，故x 2 6 4 摈弃了2 6 4 中一些对编码性能贡献微小但计算复杂度极高的新特性，如多参考帧、帧间预测丰不必要的块模式、c a b a c 等。 t 2 6 4 一中国视频编码自由组织联合开发的2 6 4 编解码器，编码器编码输出标准的 2 6 4 码流，解码器只能解t 2 6 4 编码器生成的码流。硬件实现方面目前国外已经有公司研制出来h 2 6 4 的编解码器，国内还在研发之中。实现方案也基本上都是采用d s p 和f p g a 相结合的策略。本文将对h 2 6 4 视频编码中两个关键技术的算法级优化和编码器实现中的指令级优化技术展开讨论。 1 4 论文主要工作与内容安排本文从h 2 6 4 编码标准入手，分析了编码原理，对编码中的若干关键问题进行了探讨，并研究了在d s p 硬件平台上编码器的实现优化技术。本文的主要工作和创新点有以下几个方面： 1 详细介绍和分析了h 2 6 4 编码原理； 2 根据图象的运动特性，对不同类型的宏块选择不同的模式选择方法；根据序列的时空相关性，合理的选择快速估计算法和中止判别准则，提出了基于运动信息的模式选择和运动估计快速算法。 3 根据图象的运动信息把宏块分为前景和背景部分，对前景区域的编码复杂度进行分析，将帧级控制和宏块级控制结合起来，提出了基于运动的码率分配和控制策略，对不同区域分配了不同的比特，同时保持了缓冲区的稳定。 4 针对t m s 3 2 0 c 6 4 1 6d s p 的特点结合d a m 6 4 1 6 p 图象处理平台，对h 2 6 4 编码器进行指令级优化。全文共分六章：第一章是全文的绪论部分，介绍了数字视频压缩的背景和多媒体数据压缩标准的发展，对h 2 6 4 视频压缩标准的基本框架作了总体概述，并对其研究现状作了说明，最后对本文的主要工作和内容安排作了介绍。第二章主要对h 2 6 4 视频编码的原理进行了介绍和分析。第三章研究了基于h 2 6 4 的模式选择和运动估计快速算法，对所提算法进行了仿真实验，并给出了实验结果。第四章对码率控制技术进行了研究，分析了h 2 6 4 的码率控制原理，探讨了基于运动的码率控制方法，并给出了仿真实验结果。第五掌探讨了h 2 6c t 编码器在d s i ，实现中的指令优化技术，主要从c 程j 和资源优化方面进行，研究和实验，并给f r 初步实验结果。西北工业大学硕士学位论文第+ 章绪论第六章是全文的结论部分，归纳出本文的主要工作和研究成果，对研究中遇到的若干问题进行了反思，并对未来的研究工作给予了展望。西北工业大学硕士学位论文第二章h 2 6 4 视频编码原理第二章h 2 6 4 视频编码原理 h 2 6 4 作为新一代的视频编解码标准，在追求更高的编码效率和简洁的表达形式同时，也提供了非常好的视频质量，是当前最高效的视频压缩方法之一。本章分别从框架等级、分层结构、关键压缩算法和抗误码等方面对h 2 6 4 标准做详尽介绍。 2 1h 2 6 4 的框架和等级 a v c h 2 6 4 规定了多种不同的框架( p r o f i l e ) 。在草案中只定义了三种，分别是基本框架、主框架和扩展框架。基本框架主要用于视频会议、可视电话等实时通讯服务；主框架适合用于视频存储和电视广播；扩展框架主要面向网络的多媒体服务。2 0 0 4 年t 又增加了第四种框架：高端框架【1 5 j ，该框架支持高精度拓展( f i d e l i t yr a n g ee x t e n s i o n s ，f r e x t ) ，该拓展支持更高的象素精度和更高的色度精度。四种框架的主要特征如图2 1 所示。基本框架( b a s e l i n ep r o f i l e ) 支持i 、p 帧，只支持无交错( p r o g r e s s i v e ) 和 c a v l c ，支持f m o ( f l e x i b l em a c r o b l o c ko r d e r ) 和冗余片( r e d u n d a n ts l i c e ) 技术。扩展框架( e x t e n d e dp r o f i l e ) 包含基本框架的所有特征，另外还支持b 、s p 、 s i 帧，支持加权预测和数据划分技术。主框架( m a i np r o f i l e ) 支持i 、p 、b 帧，支持加权预测，支持无交错 ( p r o g r e s s i v e ) 和交错( i n t e r l a c e d ) ，同样提供对于c a v l c 和c a b a c 的支持。高端框架( h i 曲p r o f i l e ，也叫f r e x t ) 包括主框架的所有特征，另外增加了自适应的4 x 4 和8 x 8 的整数变换，用户自定义量化加权矩阵，高效的帧间无失真编码和更多的y u v 格式( 如4 ：2 ：2 和4 ：4 ：4 ) 。每个框架本身还可划分数个等级( l e v e l ) 。等级一般对应于编码器的处理能力和内存要求。不同的等级可能支持不同的图象格式q c i f 、c 1 f 、i t u r6 0 1 ( s d t v ) 、h d t v 、等。等级还对码流、帧大小、图象缓存等作出相应的规定。西北工业大学硕士学位论文第二章h 2 6 4 视频编码原理一! 高端框架；，。自适应变换块尺寸i s p 切片、数据分割图2 1h 2 6 4 各框架的主要特点 2 2h 2 6 4 的分层结构 h 2 6 4 编码算法包含两层：网络提取层( n a l ，n e t w o r ka b s t r a c tl a y e r ) 视频编码层( v c l ，v i d e oc o d i n gl a y e r ) 【。6 l 。n a l 对编码后的视频数据进行封装，用户可以选择封装成包或流以适应传送信道。v c l 实现高效的视频压缩。在n a l 和v c l 之间定义了基于分组方式的接口，打包和相应的指令属于n a l 的一部分。这样，高编码效率和网络友好性的任务分别由v c l 和n a l 来完成。 n a l 把数据封装成为若干网络抽象单元这些网络抽象单元可以在现有的大部分网络中以包的形式传送。在解码端，可以认为这些网络抽象单元或者正确无误，或者在网络中丢失，或者存在位错误。一般地，网络抽象单元中头信息会设有相应标志位来表示是否发生位错误，解码器就能够识别发生位错误的网络抽象单元并决定是对其进行解码还是丢弃之。封装于网络抽象单元中的数据称为原始字节序列载荷( r a wb y t es e q u e n c e p a y l o a d s ，r b s p ) 。h 2 6 4 中的r b s p 主要分为两种，一种为视频编码数据，一种为控制数据。视频编码数据可以以切片( s l i c e ) 为单位进行组织，也可以对切片进行数据分割，即将每个片中编码后的数据按类型分为三种。同类型的数据组织到一起，形成三个数据划分，视频编码数据以数据划分为单位进行组织。控制数 9 西北工业大学硕士学位论文第二章h 2 6 4 视频编码原理图2 2h 2 6 4 编码器分层结构分据是指视频序列参数、图象参数、定时信息及附加的增强型信息。 h 2 6 4 中的v c l 层主要致力于获得高的压缩效率。与h 2 6 3 或m p e g - 4 相比， h 2 6 4 在使用与上述编码方法类似的最佳编码器时，在大多数情况下可节省5 0 的码率，这与其在v c l 层采用的优秀编码技术密切相关。同时，该层中的很多句法结构为包传输网络中处理包丢失和在易出错的无线网络中处理比特误码提供了极大的便利。 h 2 6 4 编码器分层结构如图2 2 所示。 2 3 视频编码算法与先前的其他编码标准( 如h 2 6 3 。m p e g _ 4 ) 一样，h 2 6 4 标准并没有明确的定义一个编码解码器。更确切的说，标准定义了经过编码的视频位流的句法以及解码位流的句法。实际应用中，符合语法的编码器和解码器需要包括一些必须的模块。除此以外，标准对具体编解码器的实现留有很大的余地。 h 2 6 4 的视频编码也采用与m p e g - 4 和h 2 6 3 类似的基于块的混和编码方法。通过复杂的帧间预测来减少运动图象时域上的相关信息通过对预测残差进行变换来减少运动图象空问上的相关信息。另外，还使用多种优于以往压缩算法的方法来提高整体的压缩性能。h 2 6 4 编码器框图如图2 3 所示。 h 2 6 4 编码的一般流程：当前输入帧为f n ，帧以宏块为单元进行处理( 对应于原图象1 6 1 6 象素) 。每一宏块按帧内或帧问模式进行编码。在帧内模式中，p o 匿北工业大学硕士学位论文第二章h 2 6 4 视频编码原理圈2 3h 2 6 4 编码器结构流程用当前帧中己编码并被重建的部分采样值来预测。在帧问模式中，p 从一个或多个参考帧的运动补偿预测中获得。在图中，参考帧表示为已经编码的帧e _ 1 预测值被从当前宏块中减去，形成残值和差值宏块d 。这个宏块经变换和量化过程后得到x ，经量化的传输系数集合。这些系数被重新排序然后进行熵编码。熵编码后的系数和一些在解码宏块的时候需要的信息( 如宏块的预测模式、量化步长、描述宏块如何进行运动补偿的运动矢量信息等) 一起形成了压缩好的码流。这个码流被送到n a l 进行传输或存储。编码器中还存在一条重建路径。宏块的系数x 经过反量化和反变换，得到了个差分宏块d ：，这与原来的差分宏块d 。并不完全相同，因为量化和反量化的过程产生了信息的损耗。将预测宏块p 和d ：相加，得到重建的宏块u 瓦，对u f 。帧进行块间滤波，得到当前重构帧e 。u e 值可用于帧内预测，e 可用于后续帧的帧间预测。 h 2 6 4 协议的解码器基本模块，如预测、变换、量化及熵编码都与之前的协议( m p e g 1 、m p e g 一2 、m p e g 一4 、h 2 6 1 、h ，2 6 3 ) 类似，本质上的差别在于每个模块的细节。如在运动补偿中，采用的是1 4 象素和多尺寸的运动补偿( 1 6 x 1 6 、 1 6 x 8 、8 x 1 6 、8 x 8 、8 x 4 、4 x 8 和4 4 ) ；预测模式的判断更加复杂；用整型变换代替常用的d c t 变换，加快了处理速度，同时相应的量化模块也有所改变：编解码中都采用基于4 x 4 块的去块效应滤波器来平滑块与块的边缘，提高图象视觉质量等等。f 面就这些模块做主要介绍。西北工业大学硕士学位论文第二章h 2 6 4 视频编码原理 2 3 1 帧内编码帧内编码是传统混合编码框架的重要组成部分。如果对一帧图象进行编码时没有利用其他任何帧图象的信息，对该图象的编码就称为帧内编码。一般情况下，视频序列的初始帧都采用帧内编码形式，同时，采用帧内编码模式时，对某些宏块也可采用帧内编码的形式。帧内编码主要是通过消除图象的空间冗余信息来实现对图象的压缩。传统的帧内编码消除冗余信息的手段是对原始数据进行d c t 变换、然后对变换后的系数进行变长编码( v l c ) 和熵编码。在h 2 6 4 中，帧内编码利用当前帧中重建( 没有进行滤波) 的邻块象素值依据一定的模式计算得到预测块p 。在编码之前，当前块减去预测块p 的值。对亮度采样来说，p 可能是4 x 4 或8 x 8 的子块，也可能是1 6 x 1 6 的宏块。对4 x 4 和8 8 的亮度块来说有9 种可选择的预测模式对1 6 x 1 6 的亮度块来说有4 种可选模式：对8 x 8 的色度块只使用一种预测模式。气b c de lf | gi h 、气- 。、、 v 模式1 j k g心、 ki 、 lj弋 i模式6 ln 9 0 、模式一l mab c d朝fgh iab yz ， j j 尹喱 j 一rt 。l 7 k，i ， j l 罗 n 哮。 p 图2 4i n t r a 4 x 4 各预测模式的预测方向图2 4 显示了4 x 4 亮度块的帧内预测形式。图中a d 代表待预测的4 x 4 块的象素值，a q 代表在空间上与当前块相邻的块的重建值的象素值。箭头表示各预测模式的方向。模式0 ( 垂直) 由上方的采样值a ，b ，c ，d 垂直外推。模式l ( 水甲) 由左方采样值，j ，k ，l 水平外推。模式2 ( d c ) 中p 中所有的采样值都用a d 和i l 的均值预测。对于模式3 ( 左下对角) 、模式4 ( 右下对角) 、模式5 ( 垂直左下角) 、模式6 ( 水平斜下角) 、模式7 ( 垂直右下角) 、模式8 ( 水平斜上角) ，预测块值由预测象素a p 加权平均得到。例如，象素a 和d 的由模式4 得到预测值分别为( i ，4 + m 2 + a 4 ) 和( b 4 + c 2 + d 4 ) ，而由模式8 得到的预测值分别为( 1 2 + j 2 ) 和j 4 + k 2 十l t 4 。编码器将对每个块选择预测值和原始数据之问残差最小的一种预测模式。西北工业大学硕士学位论文第二章h 2 6 4 视频编码原理 8 x 8 亮度预测只用于高端框架中，预测模式与4 x 4 预测相似，也有9 种模式。这里不再赘述。 0 ( 垂直图2 5i n t r a l 6 x 1 6 预测模式 i n t r a1 6 x 1 6 帧内预测模式根据与当前宏块邻近的3 3 个象素生成预测数据。一共有4 种模式，如图2 5 所示。模式0 ( 垂直) 、模式l ( 水平) 、模式2 ( d c ) 的预测方法都与4 x 4 情形类似，模式4 ( 平面) 的预测由3 3 个预测象素按照一个精心设计的线性平面函数计算出来。一个宏块的色度分量从其左面和上面已经编码和重建的宏块色度采样值预测而来。宏块的色度分量有三个可能的块尺寸，对于4 ：2 ：0 格式色度块为8 x 8 ， 4 ：2 ：2 格式色度块为8 x 1 6 ，4 ：4 ：4 格式色度块为1 6 x 1 6 。与亮度1 6 x 1 6 类似，它们的预测模式也有4 种，只是模式排列的顺序略有变动：模式0 ( d c ) 、模式l ( 水平) 、模式2 ( 垂直) 、模式4 ( 平面) 。两个色度分量采用相同的预测模式。 2 3 2 运动估计运动估计的基本思想是将图象序列的每一帧分成许多互不重叠的宏块，并认为宏块内所有象素的位移量都相同，然后对于当前帧中的每一块到参考帧某一给定搜索范围内根据一定的匹配准则找出与当前块最相似的块，即匹配块，由匹配块与当前块的相对位置计算出运动位移，所得运动位移即为当前块的运动矢量。然后利用搜索到的运动矢量在参考帧上进行运动补偿，得到补偿残差 ( d i f f e r e n c e ) 。这样，编码过程中只需考虑对残差和运动矢量编码，从而极大地减少了序列的时间冗余。运动估计的示意图如图2 6 所示。西北工业大学硕士学位论文第二章h 2 6 4 视频编码原理图2 6 运动估计示意图 h 2 6 4 标准中运动估计技术主要有两个新亮点：多帧参考预测、1 4 象素精度【1 7 1 。下面分别做详细介绍。 1 多帧参考预测在h 2 6 4 中，允许编码器使用多于一帧的先前帧用于运动估计，并可以用在双向预测中。这在很多自然场景全部变换或镜头在两个场景中交替变换等情况下尤为有效。用于多帧参考时，编码器和解码器中参考帧的增减和排列要保持一致，不同的宏块分割可以使用不同的参考帧。编码器的帧缓存中保留多个编码好的参考帧 ( 最多3 2 帧) ，从中选择对每个目标宏块能给出更好效果的帧用于预侧，并保存每个宏块分割的参考帧标号。这样比只用一个p 帧或i 帧作为预测帧会获得更高的预测精度。在电影中，多帧参考的优势十分明显。电影中为了制造视觉效果，经常出现镜头在几个场景之间来回切换，这样的视频用单帧参考压缩的效果很差。因为前后两幅图象场景不同相差太大而很难预测，很多块甚至无法进行帧问预测，不得小采用帧内预测。如果采用多参考帧，编码器可能从另外几幅图象中找出相同场景并用于参考，从而得到较好的效果。 21 1 4 象紊精度的运动估计帧问编码宏块的每一个分块都是由参考帧中相同大小的区域预测得到。这两 1 4 西北工业大学硕士学位论文第二章h 2 6 4 视频编码原理个区域之间的偏移量即运动矢量。由于图象的运动不可能总是整象素的，因此引入了亚象素运动矢量。对亮度分量，运动矢量的分辨率为1 4 象素。由于参考帧中本口口目口口口口匦口口罔国口口匝口口口口圃口口图2 7 亮度分量亚象素插值示意图身不可能存在亚象素采样点，因此需要利用其临近象素内插产生亚象素采样点。图2 7 解释了亚象素采样点的内插产生过程，其中大写字母表示整象素采样点，小写字母表示亚象素内插点。半象素内插值分别由运用于水平和垂直方向的一维6 阶滤波器产生。1 4 象素值由整数象素和半象素点求均值取得。例如： b = r o u n d ( ( e 一5 f + 2 0 g + 2 0 h 一5 i + j ) 3 2 ) a = r o u n d ( ( g + b ) 2 ) e = r o u n d ( ( b + h ) 2 ) 西北工业大学硕士学位论文第二章h 2 6 4 视频编码原理。i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i 图2 8 色度分量亚象素插值示意图由于亮度分量中的l 4 象素精度运动矢量将在色度分量中产生1 ，8 象素精度。因此，色度分量采用线性内插法产生1 8 象素采样点。其示意图如图2 8 。 a = r o u n d ( i ( 8 一d x ) ( 8 一d y ) a + d x ( 8 - d y ) b + ( 8 一d x ) d y c + d x - d y d 6 4 ) ( 2 1 ) 2 3 3 帧问模式选择 a v c 支持从1 6 x 1 6 到4 x 4 大小的多种亮度采样点块大小的运动补偿。每个 1 6 x 1 6 的宏块能被划分成如图2 9 所示的四种形式。当划分方式为8 8 时，又可以进一步划分成如图2 1 0 所示的4 种方式。这使得一个宏块能够为运动补偿提供多种划分方式，称为树状结构运动补偿。 h 2 6 4 运动补偿算法中，每个子块都对应一个运动向量m v ，这个运动向量被编码并传输。同时，分块方式也被压缩到码流中。当选用较大块时，用于表示运动向量和分块方式的数据量减少，但运动补偿后预测值与原始值的残筹会增大，需要的b i t 数会增多，斟此多用于图象均匀分布的区域：当选用较小块时r 6 西北工业大学硕士学位论文第二章h 2 6 4 视频编码原理残差减 88 o1 2 3 4 帧间模式选择 o 1 o1 23 8 x 1 61 6 x 8 8 x 8 图2 , 9 宏块的四种划分方式 a v c 支持从1 6 x 1 6 到4 x 4 大小的多种亮度采样点块大小的运动补偿。每个 1 6 x 1 6 的宏块能被划分成如图2 9 所示的四种形式。当划分方式为8 x 8 时，又可以进一步划分成如图2 1 0 所示的4 种方式。这使得一个宏块能够为运动补偿提供多种划分方式，称为树状结构运动补偿。 h 2 6 4 运动补偿算法中，每个子块都对应一个运动向量m v ，这个运动向量被编码并传输。同时，分块方式也被压缩到码流中。当选用较大块时，用于表示运动向量和分块方式的数据量减少，但运动补偿后预测值与原始值的残差会增大，需要的b i t 数会增多，因此多用于图象均匀分布的区域；当选用较小块时，残差减 88 01 0 1 8 x 1 61 6 x 8 图2 9 宏块的四种划分方式 o1 2 3 西北工业大学硕士学位论文第二章h 2 6 4 视频编码原理 o1 4 x 8 图2 1 0 亚宏块的四种划分方式少，预测更精确，但用于表示运动向量和分块方式的数据量增大，适合表现图象细节丰富的区域。对于色度块的划分方法和亮度块完全一致，只是分割尺寸减小为亮度块的一半。 2 3 5 整型变换和量化经过帧内预测或帧间预测的宏块残差需要进行变换和量化。由于d c t 是最接近k l 变换的准最优正交变换，因此成为大多数图象编码标准的首选变换算法。传统标准中的d c t 变化总是基于8 8 块的二维浮点运算的通常被分解为两个一维8 点的d c t 变换。浮点运算环节不仅影响了运算速度，而且浮点运算的舍入问题造成了误差从而导致正变换和反变换的“失配”问题。 h 2 6 4 标准采用4 4 或8 x 8 ( 只适用于h i g hp r o f i l e s ) 整数变换。变换块尺寸的减少可

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（模式识别与智能系统专业论文）h264视频快速编码及优化技术研究.pdf

文档简介

温馨提示

最新文档

评论

（模式识别与智能系统专业论文）h264视频快速编码及优化技术研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档