（电路与系统专业论文）在嵌入式系统上对h264视频编码标准的实现与优化.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-16 格式：PDF 页数：55 大小：1.37MB 积分：0 举报 版权申诉

（电路与系统专业论文）在嵌入式系统上对h264视频编码标准的实现与优化.pdf_第2页

（电路与系统专业论文）在嵌入式系统上对h264视频编码标准的实现与优化.pdf_第3页

（电路与系统专业论文）在嵌入式系统上对h264视频编码标准的实现与优化.pdf_第4页

（电路与系统专业论文）在嵌入式系统上对h264视频编码标准的实现与优化.pdf_第5页

已阅读5页，还剩50页未读，继续免费阅读

（电路与系统专业论文）在嵌入式系统上对h264视频编码标准的实现与优化.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要随着市场需求的增长，在尽可能低的存储情况下，获得好的图像质量和低带宽图像快速传输，已成为视频压缩的两大难题。为此i e o i e c 和i t u t 两大国际标准化组织联手制定了新一代视频压缩标准h 2 6 4 。h 2 6 4 不仅比h 2 6 3 和 m p e g 一4 节约了5 0 的码率，而且对网络传输具有更好的支持功能，更适合窄带传输，比如视频会议系统等。但是基于p c 方式的h 2 6 4 视频会议系统必须要有计算机支持，而且在使用时要占据c p u 的绝大部分处理时间，在很多应用场合不适合采用这种方式。目前市场上有多种用于多媒体信息处理的d s p 芯片，如美国e s s 公司的l v p 系列、t i 公司的t m s 3 2 0 c 6 0 0 0 系列等。使用通用d s p 作为主处理器而构成的独立系统，具有可扩展性与兼容性、易于与其他产品集成、价格相对较低等优点。 t r i m e d i a1 3 0 0 ( 以下简称t m l 3 0 0 ) 是p h i l i p s 公司推出的多媒体处理芯片系列产品中的一种。本文在t m l 3 0 0 数字信号处理器的可视电话平台上实时实现了i t u th 2 6 4 视频编码标准。对移植后的h 2 6 4 编码进行了大量优化，包括算法上的改进，综合运用t r i m e d i a 提供的特殊多媒体操作指令对关键代码改写，尽量减少程序跳转，控制c a c h es t a l l 使数据合理流动等多种优化手段。最后取得了较好的效果并且使其运算速度大幅度提高，基本上实现了实时视频通信，通过了i t u t 提供的编码测试序列。关键词：视频压缩h 2 6 4t m l 3 0 0 优化 a b s t r a c t a st h ed e m a n do fm a r k e ti n c r e a s e s ，h o wt og e tb e t t e rq u a n t i t yo fp i c t u r ea n d f a s t e rt r a n s f e rs p e e db yl a a l t o wb a n d w i d t hu n d e rt h el o ws t o r a g ec o n d i t i o na r e b e c o m i n gt w od i f f i c u l tp r o b l e m so fv i d e oc o m p r e s s i o n s ot h e 1 e o l e ca n d i t u - | r ，t w oi n t e r n a t i o n a lc r g a n i z a t i o nf o rs t a n d a r d i z a t i o ne s t a b l i s ht h eh 2 6 4v i d e o c o m p r e s s i o ns t a n d a r d h 2 6 4n o to n l ys a v e5 0 b i tr a t et h a nh 2 6 3a n dm p e g 4 ， a l s oo t t e l 。b e t t e rs u s t a i n e df u n c t i o nf o rn e tt r a n s f e r i ti sb e s tf o r t h ev i d e o m e e t i n gs y s t e m b u tt h eh 2 6 4c o d e cb a s e do np cn e e d st ou s et h ep ct or u n ：i nm a l a yc a s e s ，i t c a nn o tw o r k n o wi nt h em a r k e t ，t h e r ea r em a n yd s pc h i p sf o rm u l t i m e d i ap r o c e s s ， s t l c ha st h el v ps e r i e so f e s sc r o p o f u s a t h et m s 3 2 0 c 6 0 0 0s e r i e so f t ic r o p t h ea d v a n t a g e so fu s i n gt h e s ed s pa r e e x p a n s i b l e ，c o m p a t i b l e a n dc h e a p e r t r i m e d i a l3 0 0 ( t m i3 0 0 ) i so n ep r o d u c to ft h e s ew h i c ha l ep r o d u c e db yp h i l i p s c r o p i nt h i s p a p e r , w eu s et h er e a lt i m et m l 3 0 0t or e a l i z et h ev i d e oc o d e ch 2 6 4 k e yw o r d s ：v i d e oc o d e c h 2 6 4t m i3 0 0 o p t i m i z e 第一章绪论 l ，1 在硬件玉1 2 台上研究视频图像压缩的意义随着计算机和通信技术的发展人们对于各种视频和多媒体信息技术的需求量不断增长一些新型的宽；特服务，例如：可视图文、可视电话、电视会议和视频点播等相继出现。它们在满足人们需要的同时，也对视频编码技术提出了根高的要求。同时由于现代信息社会对通信业务要求的不断增长，图像通信与通信网容量的矛盾日益突出，特别是具有庞大数据量的数字图像通信，更是难以传输与存储。这样就对我们获取和利用图像信息造成了很大的困难，例如，一幅6 4 0 * 4 8 0 中分辨率的彩色图像( 2 4 b i t 像素) ，其数据量约为o 9 2 m b ，如果以每秒3 0 帧的速度播放，则视频信号的数码率高达2 7 6 m b p s ( 每秒b y t e ) 。如果存放在6 5 0 m 的光盘中，在不考虑音频信号的情况下，每张光盘也只能播放2 4 秒钟，显然压缩成为了图像通信发展中的“瓶颈”问题。因此图像压缩问题成为了越来越多的科研工作者的研究热点。由于越来越多的应用要求是在特定的嵌入式系统上的，所以仅仅对p c 上的算法研究不能满足强大的产业需求，必须将剥算法的研究和硬件平台相结合，使其实现应用创造的目的。 1 2 本文研究内容国际电信联盟i t u t 针对p s t n 和无线网应用环境推出了具有较高编码效率的低比特率视频编码系列标准h 2 6 1 、h 2 6 3 、i t 2 6 4 等，其中h ，2 6 4 标准具有编码效率高、解码恢复图像质量好和强健的抗误码性等优点，目前已经广泛地应用在视频通信的各个领域。但是，为了达到较高的性能，i - 1 2 6 4 算法复杂、运算量大，基于p c 方式的编解码器必须要有计算机支持，代价昂贵，而且在使用时要占据 c p u 的绝大部分的处理时问，难以满足实时应用的要求。随着数字信号处理器 ( d s p ) 运算速度的日益提高，众多公司推出了多媒体处理专用j i ! ! ：片。其中， p h i l i p s 公司的t r i m e d i a ( 以下简称t m ) 系列芯片可在单个芯片上处理音频、视频、图形和通信数据流等，特别适合多媒体通信产品的开发。而普通的c 代码雕, c o d e c 虽然在p c 机上可以运行，但是由于嵌入式系统的资源有限，例如可用内存只有3 2 m 所以小能在嵌入式系统l 区接运行，而且要用于可视电话产品，则一定要达到实时编解码的要求，所以要根据特定的嵌入式系统的特性，重新设计编写c o d e c 并进行系列的优化。本文在t m l 3 0 0 的丌发平台上，实现了h2 6 4 视频编码器，并对算法进行大量优化，实现视频编码器的实吲处理。另外，陔算法也适用于t m 系列的其他j 出片，且与h2 6 4 标准兼容。 1 3 本文内容安排第章绪论，第二章简单介绍视频图像压缩编码方法和技术，第三章介绍视频图像压缩的国际标准，重点介绍了我所研究的h 2 6 4 标准和技术要点，第四章介绍了t m l 3 0 0 芯片的功能特点，第五章是详纠描述了如伺在t m l 3 0 0 上对h 2 6 4 算法进行优化工作，第六章是实验结果，第七章是总结。第二章视频图像压缩编码技术概述 2 1 图像压缩的理论基础冗余和不相关性并不是生活的本质，它们是两种基本的现象，正是它们使得在源编码中减少数据成为可能。例如，一些源可能以每秒钟很多位的速度来发i ：i ：i 一些信号，而实际上严格来说并不需要这么多位。在信息理论中，这称为冗余。源编码可以减少这种冗余，并用每秒钟更少的位数来产生信息的新表现形式。因为仅仅去除了冗余信息，并没有丢失任何“真实”的信息。表示图像需要大量数据，但图像数据之问是高度相关的。一幅图像内部以及视频序列中相邻的图像之间有大量的冗余信息，一般来说，这些冗余信息可以表现为以下几种形式：夺空间冗余有些图像的某些区域是均匀着色的或是高度相关的。夺时间冗余在视频序列中，在场景变化不大的情况下，一般相邻帧之间差别极小，即视频序列中的图像是高度相关的。夺信息熵冗余也称编码冗余，由信息论的相关原理可知，为表示数据图像的一个像素点只需按其信息熵的大小分配相应的比特数即可。然而对于实际图像数据的每个像素很难得到他的信息熵。因此在数字化一幅图像时，对每个像素是用相同的比特数来表示，这样必然存在冗余。信息熵冗余、时间冗余和空间冗余统称为统计冗余。因为他们都决定于图像数据的统计特性。夺结构冗余在有些图像的部分区域内存在非常强的纹理结构，或是图像的各个部分之间存在有某种关系，这些都是结构冗余。夺知识冗余在有些图像中包含的信息与某些先验的基础知识有关，例如在一般的人脸图像中头、眼、鼻、嘴的相互位置等信息就是一些常识。夺视觉冗余在多数情况下重建的图像的最终接收者是人的眼睛，为了达到高的j 1 j 缩比，刈以利用人的视觉系统的特点，人类的视觉系统对图像的注意是：怍均匀和非线性的，对人眼视觉的生理研究一直是计算机视觉和图像处理的一个重要思想源泉。上述各种形式的冗余是压缩编码图像数据的出发点。图像编码方法就是要尽可能的消除这些冗余信息，以降低表示图像所需的数据。 2 2 基本图像压缩编码方法 2 + 2 1 空间和时间子抽样编码在电视电话等某些廊用中，全分辨率不是必需的。这时可以使用空i h j i 时间子抽样来降低数据速率。在编码器中从每几个像素中选择一个像素，或者从每几帧中选择一帧，然后加以传输。在解码器中可以根据接l 忮的像素或帧内插丢失的像素或帧，再生出分辨率较低的原始视频序列。如果像素是由色度和亮度分量表示的，则可以以较高的比率对色度分量进行子抽样、量化。空问和时间子抽样编码技术非常简单，但十分有效，例如，如果对每三个像素抽取一个，每三帧抽取一帧就可以达到9 ：1 的压缩率。 2 2 2 脉冲编码调制p c m 脉冲编码调锖l j ( p u l s ec o d em o d u l a t i o n ，p c m ) 是概念卜最简单、理论上最完善的编码系统，是最早研制成功、使用最为广泛的编码系统，但也是数据量最大的编码系统。p c m 的编码原理比较直观和简单，它的原理框图如图2 1 所示。岛咿武一咿咄图2 - 1 在这个编码框图中，它的输入是模拟声音信号，它的输出是p c m 样本。图中的“防失真滤波器”是一个低通滤波器，用来滤除声音频带以外的信号；“波形编码器”可暂时理解为“采样器”，“量化器”可理解为“量化步长( s t e p s i z e ) ，生成器或者称为“量化间隔”生成器。量化有好几种方法，但可归纳成两类：一类称为均匀量化，另类称为非均匀量化。采用的量化方法不同，量化后的数据量也就不同。由于忽略了像素之间的空间和时间相关性，没有利用人眼的特性， p c m 的编码效率并不高。 2 2 3 预测编码预测编码是。种较为实用且被广泛采用的一种压缩编码方法。其原理是从相邻的像素间有强的相关性特点考虑的，l p , 女i i 当前像素的灰度或颜色信号数值上总是与其相邻的像素比较接近，除非处于边界状态。因此，当前像素的灰度或颜色信号的数值可以用前面已经出现过的像素的值进行预测，得到一个预测值将其与实际值求差，对这个差值信号进行编码、传送。这种编码方法称为预测编码方法。预测编码方法分为线性预测和非线性预测方法，其中，线性编码方法也称为差值脉冲编码调制法，简称d p c m ( d i f f e r e n t i o np u l s ec o d em o d u l a t i o n ) 。帧内预测编码一般采用像素预测形式的d p c m ，其优点是算法简单，易于硬件实现，缺点是对信道噪声和误码很敏感，会产生误码扩散，使图像质量大大下降。同时，帧内d p c m 编码压缩比很低，因此现在较少单独使用，一般要和其他方法结合使用。 2 2 4 变换编码与预测编码技术相比，消除图像数据空间相关性的一种更有效的方法是进行信号变换，使图像数据在变换域上能有更大限度的不相关。尽管图像变换本身并不带来数据压缩，但l i l - j 于变换系数之后的相关性明显降低，图像的大部分能量只能集中到少量变换系数上，采用适当的量化和熵编码司以有效地压缩图像的数据量，而且图像经过变换后系数的空间分布和频率特性可能与人眼的视觉特性匹配，因此可以利f = | j 人类视觉神经系统的生理和心理特点来得到较好的编码系统。变换编码通常是将空间域相关的点像素通过正交变换映射到另一个频域上，使变换后的系数之间相关性降低，在变换后的频域上应满足：1 ) 所有的系数互相独立；2 ) 能量集中于少数系数上；3 ) 这些系数集中于一个很小的区域范围内，依靠保留少数重要的系数就能很好的恢复出原图像，人眼几乎察觉不出那些系数损失。就数据压缩而言，所选择的变换方法最好能与图像信号的特征匹配，此外，还应从失真要求实现的复杂度，以及编码比特率等多方面来综合考虑。其中 k a r h u n e n l o e v e 变换( k _ l 变换) 是一利，最佳变换，其变换后的系数是互不相关的。但就变换的成本和实时性来说，kl 变换通常被认为是最困难的种变换。而d c t 变换则被认为是性能最接近kl 变换的准最佳变换，经常采用的变换方法是立三余弦变换d c t 。 2 3 压缩质量的评价 2 3 1 评估方法当前对图像质量的评估方法主要分成两类：主观评价和客观测量。主观评价的方法是将待评价的图像序列播放给评论者观看，并记录他们的打分，然后对所有评论者的打分进行统计，得出平均分作为评价结果。很显然，主观评价有几个显著的不足之处：( 1 ) 观察者一般需要是一个群体，并且经过培训以准确判定主观评测分，人力和物力投入大，为时较长；( 2 ) l l 像内容与情节千变万化，观察者个体筹异大，容易发生主观上的偏差：( 3 ) 主观评价无法进行实时盟测； ( 4 ) 仅仅只有平均分，如果评测分数低，无法确切定位问题出在哪里。客观测量基于仿人限视觉模型的原理对图像质量进行客观评估，并给出客观评价分。近l 年，随着人们对人眼视觉系统研究的深入，客观测量f l , j j 5 法利工具不断被，下发出来，其测量结果也与主观评价较吻合。国际上也成立了i t u r 视频质量专家组 ( i r u - r v q e g ：v i d e o q u a l i t y e x p e r t sg r o u p ) ：车门研究和规范图像质量客观测量的方法和标准。v q e g 规定了两个简单的技术参数：峰值信嗓k g ( p s n r ) 和均方差 ( m s e ) 。此外，还有许多图像质量模型，这些模型在测量图像质量时都基于人眼视觉特性。 2 3 2 影响图像质量的原因 2 1 3 2 1 信源端影响图像质量的原因信源端引起图像质量劣化的原因主要是编码器。当前主流的h 2 6 3 和m p e o 2 视频压缩编码算法都是基于离散余弦变换 ( d c t ) 的。由于d c t 变换是以8 x 8 宏块为基本单元进行( 改进的算法可以4 x 4 或更小的宏块为单元) ，每个宏块单独编码，变换后又对d c t 系数按照高、低频系数进行非线性量化。量化结果按四舍五入的原则进行取舍，因此量化后接近零的高频系数都定为零，只剩下少数的非零低频系数。由于在图像中，低频系数表示了图像的轮廓，高频系数代表图像细节，因此从d c 、的原理可以得知，许多细节在d c t 变换后从宏块中消失，而且这种图像质量的劣化是单向不可逆的。同时由于直流和低频流系数越过相邻量化级的判决门限，使相邻块的平均亮度差别加大，在块边界造成亮度突变，使重构图像上出现明显的块结构。在块边界出现的信号跳变，破坏了图像边缘的连续性，这些跳变产生有规律的几何排列，使重构图像边缘呈锯齿状。块结构和锯齿状都是重构图像的噪声。编码引起图像变化的另一原因是时间预测，是在p 帧和b 帧编码引入的。用于预测的图像内容来自经编码又解码的i 帧或p 帧( 参考帧) ；其图像变化又在预测图像中重复。参考帧中的块边界信号跳变又在预测图像的块上出现，使p 帧和b 帧的块效应更加严重。 2 _ 3 2 2 用户接收端影响图像质量的原冈互联网视讯应用中，用户收看到的图像是经过网络传输和解码后的重构图像。由于互联网是基于“尽力而为”的服务模型，因此无法保证端到端的传送质量。影响用户接收图像质量的因素主要有：( 1 ) 可用带宽：主要衡量用户从网络取得互联网视讯应用数据的能力，当可用带宽低于所点片源的编码迷率时，图像质量无法保证；( 2 ) 延时：互联网视讯应用是实时性业务，尽管播放器都有一定的缓存能力( 典型的为5 s ) ，但当延迟超出缓存能力时，迟到的包将被播放器丢弃，从而影响图像质量；f 3 ) 丢包：丢包是导致图像质量劣化的最本质原因，由于媒体数据是前后关联的，并且不同的数据包对于重构图像的重要性不同，因此即删少量的丢包( 如i 帧数据的丢包) 也可能引起解码器主动丢弃其他相关的数据包，引起质量下降；( 4 ) 抖动：一般媒体播放器是针对稳定的码流，当抖动过大时会导致解码器主动丢包引起图像质量下降。第三章视频压缩编码的国际标准近年来，一系列国际视频压缩编码标准的制定，极大地促进了视频压缩编码技术和多媒体通信技术的发展。视频压缩编码标准的制定：l 作主要是由国际标准化组织( i s o ) 和国际电信联盟( i t u ) 完成的。到目前为止，山上述两个国际组织制定的有关视频编码的国际标准有h 2 6 1 1 ，m p e g 2 1 1 2 ，3 ，m p e g 2 2 1 4 ，5 ，h 2 6 3 6 ，m p e g 2 4 1 7 r - 9 ，m p e 0 2 7 1 0 ，1 1 ，h 2 6 l 1 2 ，13 】等。其中，h 2 6 1 ，m p e g 2 1 和m p e g 2 2 采用了第一代压缩编码方法，如预测编码、变换编码、熵编码以及运动补偿。从m p e g 2 4 标准以后，采用的是第二代视频编码方法，如分段编码、根据模型的编码和基于对象的编码等。另外，随着网络信息的不断增长，人们获得感兴趣的信息的难度越来越大，于是实现基于内容检索，并支持电子内容传输和电子贸易的新型多媒体压缩编码标准的制定，也成为m p e g 组织新的研究方向。图3 1 显示了视频编码标准的发展过程。厂i 厂i i i - l 磊：1 i i 。；：? ：。 m r z c z ，u z s 。1 h 2 6 4 三互丁臣三叵一 1 9 8 4 1 9 8 81 9 9 29 9 82 0 0 0 2 0 0 4 3 1m p e g 标准简介 3 1 1 e g l 图3 1 m p e g 1 标准是“用于数字存储媒体高达约1 5 m b i t s 的活动图像和f 半随音频的编码”，1 9 9 2 年11 月形成国际标准。m p e g 1 主要是针剥存储媒体的视频编码标准，在顾及图像质量和压缩比的情况下，还要考虑对图像序列进行随机访问和编辑的方便。为此每秒至少要传送两个可独立编解码的l 帧，以利于进行 m p e g 比特流的编辑与随机访问。所规定的输入图像标准是s i f ：3 6 0 2 8 8 ( p a l ) ，3 6 0 2 4 0 ( n t s c ) 。专家组规定了一个面向帧的句法( 即逐行扫描) ，而不是面向场的句法。解码后的s i f 分辨率图像扩展到全屏幕，得到的图像质量和v h s 相当。立体声的编码达到c d 质量。m p e g 1 标准是世界上箢一个集成视、音频编码标准。m p e g 1 的视频部分采用基于块的混合编码，利用了图像的空间和时问冗余特点进行数据压缩。列活动图像序列采用时问预测，通过运动补偿从过去的帧精确地算出预测帧，求出当前的编码帧和预测帧的差值，再对差值进行离散余弦( d c t ) 变换，减少了时问兀余。 3 1 _ 2m p e g 2 m p e g 一2 标准是“活动图像及其伴音的通用编码”，该标准于1 9 9 4 年1 1 月公布，所规定的图像格式符合c c i r 6 0 1 建议：7 0 4 5 7 6 ( p a l ) 和7 0 4 4 8 0 ( n t s c ) ，规定的码率为3 1 0 m b p s 。m p e g 一2 不仅有逐行扫描( 面向帧) ，也有隔行扫描( 面向场) 的规定，面向d v b 、d v d 和h d t v ，还包括1 6 ：9 宽高比的图像格式。m p e g 一2 标准充分地考虑了对m p e g 1 的兼容和对图像质量以及传输速率的多层次要求，具有可分级性、灵活性和广泛的适应性。在6 m b p s 时具有模拟复合电视的质量；在9 m b p s 时具有模拟分量电视的质量，支持多卢道的音频编码。m p e g 一2 标准已经很完善，并得到了广泛应用，如d t v 、d v b 和 h d t v 。 3 1 3m p e g 4 该标准于1 9 9 9 年5 月形成国际标准，是一种基于对象的视、音频编码标准。 m p e g 4 的本意是制定甚低比特率的视音频压缩编码标准，如在电话线f ：传输视频和音频数据。但为了满足现在越来越多的视听材料要以数字形式进行相互交换而产生的各种需求，它所包含的内容和将要起的作用已经远远超出j 7 最初的设计思想。m p e g 4 不再是一个单纯的视音频编解码标准，它更多定义的是一种格式、一种框架，而不是具体算法，为多媒体数据压缩提供了一个更为广阔的平台，允许在系统l 。p 加入新的算法，为用计算机软件编解码提供了更大的方便。 m p e g 4 标准的视频码率覆盖范围为5 k b i t p s 至5 m b i t p s ；音频码率覆盖范围为2 k b i t p s 至- 6 4 k b i t p s 。 m p e g 一4 标准还在不断地扩展，现在已由六个部分增加到1 0 部分。系统部分：规定数据流( s t r e a m i n g ) 格式和文件格式，定义了基本流复用和同步、随机存取、时间标志、对象内容( o b j e c t c o n t e n t ) 的识别，规定了二进制场景描述格式，知识产权的管理与保护等；视频部分：规定自然的和合成的视频划象的编码表示；音频部分：i s o i e c l 4 4 9 6 3 ：规定自然的和合成的音频对象的编码表示；一致，i ! i - n 试部分：定义了比特流和设备的一致性条件，用来测试m p e g 一4 的实现；软件框架：包括与m p e g 4 的主要部分相对应的软件；d m i f ：多媒体传输集成框架，这是m p e g 4 应用层与传输网络的接口，定义了通信协议变换，使 m p e g 。4 系统的数据流能进入各种传输网络，还包含一个文件存储格式m p 4 ，用于存储编码的场景数据；优化的编码工具；m p e g 一40 1 1i p ；参考软件；先进视频编码( a v c ) 。 m p e g 一4 标准的主要特征：( 1 ) 基于对象的编码：m p e g 一4 标准是基于对象的编码和基于模型的编码，在音频和可视景物中，可分出若干个“对象”，“自然的”对象及合成的对象，如图形、动画等。对象即是场景中的一个个物体或人。m p e g 一4 支持对场景中的各个物理对象单独进行编码和解码，并支持矩形及任意形状对象的编解码。m p e o 一4 的视频对象编码技术包括了m p e o 一1 与 m p e g 2 ，但是多了形状编码，要将形状信息传送给解码器。( 2 ) 自然与合成音视频数据的混合编码：m p e g 4 编码既支持自然音视频，也支持合成音视频。二维网格对象采用2 d 动态网格模型来描述。用3 d 线框模型来描述人脸的形状、表情和口形变化等各种面部特征来描述3 d 人脸对象。在合成声音编码中， m p e g 4 引入了文本语音转换( t e x t t os p e e c h t t s ) 和乐谱驱动合成编码技术。基于对象的编码功能可在解码端合成若二t 不同来源的自然视频对象与合成对象。 ( 3 ) 提供基于对苏的交互功能：m p e g 4 标准采用列象的概念，不同的数据源可视为不同的对象。场景中的对象可以在解码端合成，数据的接收者不再是被动的，可以对不同的对象进行操作：删除、添加、移动、改变尺寸等。( 4 ) 分级功能：为了适应互联网和无线网等窄带视频通信、多质量视频服务和多媒体检索等服务，提供了基于对象的分级功能，其中包括空问分级、时域分级和混合分级。 ( 5 ) 场景描述：m p e g 4 的场景描述可描述场景的结构和视音频对象的位置变化、尺寸、彩色、声音响度等属性。场景描述的核心是对多媒体剥蒙的安排布置，用户通过场景描述可以操作对象的显示状态，实现交互操作。描述语言采用b i f s ( b i n a r yf o r m a tf o rs c e n e s ) 。场景描述用单独的数掘流传输，它有独立的编解码器，因而也可在压缩的数据流域实现对象控制。图5 示出一个场景描述结构例，场景。i 。的别致包括：自然音视频剥象音视频显示( 图像序列、声音、音乐、语言) ，投影屏幕，背景墙，一个动画合成的女解说员，讲着由解说词产 _ - k i j d 语言，还有合成的绘图单元桌子和地球仪。通过场景描述把这些对象合成一个场景，并可以控制每一个对象的位置和属性。 3 2h 2 6 标准介绍 3 2 1h 2 6 1 1 9 9 0 年，国际电报电话咨询委员会c c i t t 所属的视频编码专家组的h 2 6 1 建议被通过，成为可视电话和电话会议的国际标准。它可以根据传输的带宽来调整图像质量，以达至i nj j 好吻合的程度。h 2 6 1 又称p 6 4 ，传输码率为p 6 4 k p s ，其中p = 1 3 0 可变。h2 6 1 采用的是运动补偿与分块d c t 相结合的混合编码。 3 2 2h 2 6 3 由于h 2 6 1 标准的码率较高，为了能在普通公用电话网或移动电话网一l 传输视频信息i t u t $ g 1 5 于1 9 9 6 年3 月正式发布了h 2 6 3 建议。h 2 6 3 是对 h 2 6 1 的扩充，它以混合编码为核心，原始数据和码流组织也类似，但支持更多的原始图像分辨率并吸收了m p e g 等标准中有效、合理的内容，因而性能明显优于 h 2 6 1 。 3 3 3h 2 6 4 ( 即m p e g 4 第1 0 部分) 2 0 0 3 年、i t u t 视频编码专家组( v c e g , r 1 1 u t v i d e oc o d i n ge x p e r t s g r o u p ) 和i s o i e c 运动图像专家组( m p e g , i s o l e em o v i n gp i c t u r ee x p e r ts g r o u p ) 共同正式推出i 2 6 4 a v c 视频编7 冯标准。该标准的目标是设计并丌发出一套简单易懂的视频压缩方案，在提高压缩效率的同时，提供“网络友好”fn e t w o r k f r i e n d l y ) 的视频表达方式，以满足“会话式”( 如可视电话) 以及“非会话式” ( 如存储，广播或流媒体服务) 等视频应用的需要。在h 2 6 4 的关键技术中，使用7 种不同的尺寸和形状的帧间预测可以节省 l s f | 勺码率；使用亚像素空间精度比使用整数像素空问精度可以节省2 0 的码率；使用5 个参考帧进行预测比只使用一个参考帧可以节省5 1 0 的码率；使用基于内容的二进制自适应算术编码可以节省1 0 的码率。下面阐述并分析其相关的技术问题。 3 3 3 1 编码流程框图 h 2 6 4 图像压缩系统的编解码过程如图3 2 。第一幅原始图像数据经分块后使用帧内预测方式进行变换量化，此后的预测方法采用帧间预测方式，将先前经运动补偿和运动估计编码的帧进行解码而得到的重构帧作为参考帧。两种预测方式下都是将原始信息与参考信息的差值变换量化后进行传输。结果经逆量化、逆变换后通过滤波器得到输出视频信息。 f 参考帧l户、冈。f r 7 【= 糟ra 耀山模式一=挑a 一厂叫f 重建帧l _ j滤波器l f n 、f i l t e r 图3 2 n a l 3 3 _ 3 2 宏块划分为亮度分量提供1 6 1 6 、1 6 8 、8 1 6 、8 8 和四利r 宏块划分方式，还能将8 8 宏块进一步划分成8 4 、4 8 平u4 4 三利吁宏块。每个分块都有各自的运动向量，基于上述划分的运动补偿被称作树状结构运动补偿。见图3 - - 3 。 0 o o l o f 。 23 0 23 图3 3 显然，选择较大的宏块划分样式，会产生相对较少的运动向量编码比特数，但是会有较高的冗余度；选择较小的宏块划分样式，会产生较多的运动向最编码比特数，但是冗余度较低。因此要选用合适的算法在二者之问取得平衡。一般来说，对于图像较平缓的区域选择较大的宏块划分样式，而列_ - j 二细节较多的区域则采用较小的宏块划分方法。例如见图3 4 。图3 4 3 3 3 3f f 贞内预测帧内预测以s a e ( 绝对误差利) 为标准选取最佳预测模式，使预测帧更加接近原始帧，减少相互问的差异，去除时间上的数据冗余，提高了编码的压缩率。 nn s a e = 巴( 女) = j ，。( f ，) 一露( f ，刮 i = l = l 其中，厂。( i ，) 是( i j ) 位置像素值，( f ，) 是预测位置的像素值。在- l 贞内预测中，块或宏块利用之前已编码并重建的块作为参考进行预测。对于亮度块，帧内预测分为帧内4 x 4 和帧内1 6 x1 6 两种模式。前者有9 种预测方法，后者有4 种预测方法。4 x 4 子块的预测如图3 5 所示，a p 这1 6 个子块组成了预测块，左边和上边的采样点作为预测的参考予块。衡量预测方式好坏的标准是绝划误差和s a e ，s a e 最小的预测就是效果最好的预测。1 6 1 6 宏块的预测方式有类似四种，见图3 6 。色度块的预测方式同亮度块预测方式非常相似，也是利用上方和左边已经重建的色度块采样值从4 种方法中选一种进行预测。 mabcdefg珏 iabcd j ef g 1 1 ki j kl li i i no p 0c p 骶a ；h o 女z o n 斛j 21 0 a 引d 粥。吲洲始4 划：l o 蚓o o w n 一嘲酽酽驴酽殿酽萨图3 5 图3 6 3 3 3 4 像素精度的提高为了得到更接近于原始图像的重构图像，h 2 6 4 将运动向量的精度提高到1 4 像素。见图3 7 。第一幅图的黑点表示当前块，第二幅图的灰点显示与当前块匹配的块真好处于整像素点的位置，第三幅图灰点显示与当前块匹配的块处于非整像素点的位置。 ooooooo。o。o o o 。o 。o 。o 。o ooo o 。oo。ooo 占。o 。oo o oo ooooooooooooo e qe o ? , o o o ooe 鑫 0o oo ( 歹oo o oo oo o o oooooo ooooooooo0oo 图3 7 在h 2 6 4 中亮度块采用了6 阶f i r 滤波器的内插获得1 2 像素位置的值。再用这些l 2 像素值进行双向线性插值得到1 4 像素值。需要指出的是，半像素和 1 4 像素不是物理意义上的像素概念，在光栅上并不存在这些像素。如图3 8 所示，g 、h 、m 、n 代表整像素点，b 、h 、s 、m 、j 代表半像索点，其余为l 4 像素点。四口口口四四团口囝囤口囤田口囵回口圆图3 8 计算公式如下： b l2 ( e 一5 + f + 2 0 。g + 2 0 + h 一5 + i + j ) h l 。( a 一5 4 c + 2 0 + g + 2 0 + m 一5 + r + t ) b = c l i p l ( ( b 1 + 1 6 ) 5 ) h2 c l i p l ( ( h l + 1 6 ) 5 ) 其中：删加蠊剐x 1f 兰( b 吁+ 1 ) 1 c = ( h + b + 1 ) li = ( h 十j + 1 ) 1 d = ( g + h + 1 ) lk = ( j + m + 1 ) 1 n = ( m + h + 1 ) ，1q = ( j + s + 1 ) 1 1 4 像素精度对于1 2 像素精度条件下的编码效率的提高还是很明显的。但 1 8 像素精度相对于1 4 像素精度的编码效率除了在高码率的情况下并没有明显的提高，而且l 8 像素的内插公式要更为复杂，实际应用性不强。因此，在h2 6 4 的实际应用中一般只采纳1 4 像素精度。 3 3 3 5 运动向量预测运动向量预测是基于被预测块的上、芷和右上方的参考块进行的。见图3 9 所示。 b 4 $ 8( 1 f i * 8 a 8 赳 e 1 f i * 1 6 图3 9 e 为当前预测块，a 为邻近e 的左边最上面的块，b 为邻近e 的上面最左边的块。当e 的邻近块与它采用不同的分块模式时，块e 的m v p 预测方式如下： ( 1 ) 对于1 6 。8 和8 16 以外的分块方式，m v p 是a ，b ，c 运动向量的中问值。 ( 2 ) 对于1 6 。8 的分块方式，上面1 6 e 8 部分的m v p 用b 块预测，下面的用a 预测。 ( 3 ) 对于8 1 6 的分块方式，左面1 6 8 部分的m v p 用a 块预测，南硼的用c 预测。 3 3 3 6 变换量化 h 2 6 4 根据宏块编码的特性采用亮度块直流变换、色度块直流变换与普通差值变换相结合的方式代替了以往普遍采用的离散余弦变换。这种变换具有4 x 4 d c t 变换的所有特性，同时还有以下特性：1 ) 使用整数算术运算，由于它使用的是以整数为基础的空间变换，因此其反变换不存在取舍误差的问题，同时能够解决编码器和使用反变换的解码器之问的误匹配问题此外，采用小的形状块有助于降低块效应和明显的人工处理痕迹；2 ) 变换的核心操作没有乘法运算，只有加法和移位；3 ) 变换的比例系数可以整合到量化器中，从而减少乘法运算的次数。 h 2 6 4 协议中的变换方式主要有3 种：4 x 4 残留变换，4 4 亮度直流系数变换( 1 6 1 6 0 2 内模式下) ，2 2 色度直流系数变换。在一个宏块中数据传输顺序如图3 1 0 所示，如果一个宏块采用1 6 x1 6 0 * ：内模式，则先提取他的1 6 个4 4 块的直流系数，标记为一1 ，首先传输然后将传输标记为0 1 5 的块( 将d c 系数设为0 ) 。对于c b 和c r 块，可以类似处理，提出2 2 的直流系数，按照标识的数字顺序传送。 4 4 d c t 变换为 j ，= a x a 。 _ c a - b 口一c 一“ b l u m a a - b “ - - c 图3 一1 0 口bnc 矗cnd nc一盘o n bnc 了，亿庐店c 。s c ；c = 店c 。s c 争可以由下式代替： f l l11 】，：f r ) 。e ：fj 1 j 一。、7 1 一l 1 1 l l d 一1 1 一d 阿 a = 1 2 ；庐、詈；d 爿陀可以迸步写成： c bc r 1lld ld一1一i 1一d一1l 1 1 1一d 曲矿曲矿矿曲矿曲曲矿曲矿矿曲矿曲 j，l 0 y = ( c j x c 1 0 e 肖】在上式c x c 。是核心变换；e 是系数因子矩阵；运算符号表示( c x c t ) 矩阵中的每个元素和e 中的同一位置的元素相乘( 和矩阵的乘法0 i 同) 。这就是h2 6 4 的4 4 残留变换的公式。 h 2 6 4 的4 x4 亮度直流系数变换：当宏块的编码在1 6 x1 6 帧内模式下，如前而所介绍的提出1 6 x1 6 块的亮度直流分量组成4 4 的直流系数矩阵x d ，这个矩阵的变换采用的是离散哈达码变换 ( d i s c r e t eh a d a m a r dt r a n s f o r m d h t ) 。 h 2 6 4 n j 2 x 2 色度直流系数变换一个宏块中，每利咆度分量都有4 个4 4 的块。每个4 4 块在残留变换后所有直流系数组成一个2 2 块w d ，在量化前作一次离散哈达码变换。 = 州基本量化过程可以表示为： z i j2r o u n d ( y i j q s t e p ) y u 是上述变换后的系数，q s t e p ；是量化步长，由q p 决定，z d 是量化后的系数。 q p 每增加6 ，q s t e p 增加1 倍。q p 乖l q t e p 关系如下变换的一部分将集成到量化过程中，首先输x x 变换为：w = c x c 7 ，接下来每一个系数w i 在同一步中完成尺度变换和量化： 2 2，旷“矿“ ，l 7 一 z 矿圳矿吖一h 2 0 0 0 ，2 ，一之0 ，，0 o 2 ，0 2 q p o14 1 01 11 2 q s t e p 0 6 2 50 6 8 7 5122 2 52 5 e p 1 82 43 03 64 24 8 5 1 q s t e p 5 1 0 2 0 4 08 01 6 02 2 4 z i j21 o u n d ( w i j8 p f q s t e p l 坐标位指5p f ( o ，0 ) ，( 2 ，o ) ，( 0 , 2 ) o r ( 2 , 2 ) 口2 ( 1 ，1 ) ，( 1 ，3 ) ，( 3 ，1 ) o r ( 3 ，3 ) o t h e 1 嘭 y , j 了a g o , 运算，将除法转变成右移操作，可以推出公式如下毛= ，d “h d ( i m 丽f ) 其中：等= 蠢瓣1 5 十如( o e ，6 ) 根据上面的公式可以推导出m f 的值如下表( 列出部分) q p 位置( 0 ，0 ) ，( 0 ，2 ) ，( 2 ，0 ) ，( 2 ，2 )位置( o ，o ) ，( 0 ，2 ) ，( 2 ，o ) ，( 2 ，2 ) 位置o t h e r s 01 3 1 0 75 2 4 38 0 6 6 11 1 9 1 64 6 6 07 4 9 0 2 1 0 0 8 24 1 9 46 5 5 4 39 3 6 23 6 4 75 8 2 5 48 1 9 23 3 5 55 2 4 3 57 2 8 22 8 9 34 5 5 9 在整数运算时，上式可以这样实现：蚓= ( i i 埘+ 厂) q b i t s s i g n ( 乙) = s i g n ( ) f 是修正的取整因子，x , 寸- - j 二i n t r a i 块，f = 2 0 h 么3 3 ，x , 1 - y - i n t e r * 3 ，f = 2 q b 。与传统的d c t 变换相比，h 2 6 4 采用4 x 4 点整数变换为视频编码带来了以下优点：有助于减少块斑和环形斑，提高了图像质量。由于对变换系数进行了量化，造成了高频系数丢失，所以恢复的图像中会有块班和环形班。在h 2 6 4 中，采用了更小的4 x 4 点变换，可以有效抑制块斑和环形斑。整数变换减小了积累误差。传统的积累误差来自两个方面：正变换和反变换不匹配造成的误差与量化造成的误差。为了达到压缩的目的，第二种误差不可避免。但是，由于h 2 6 4 采用了精确的整数变换，所以币变换和反变换不会产a i l 巧差，这样有效地减少

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（电路与系统专业论文）在嵌入式系统上对h264视频编码标准的实现与优化.pdf

文档简介

温馨提示

最新文档

评论

相关文档