（模式识别与智能系统专业论文）h264avc编码模式决策技术研究.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-12 格式：PDF 页数：66 大小：3.81MB 积分：0 举报 版权申诉

（模式识别与智能系统专业论文）h264avc编码模式决策技术研究.pdf_第2页

（模式识别与智能系统专业论文）h264avc编码模式决策技术研究.pdf_第3页

（模式识别与智能系统专业论文）h264avc编码模式决策技术研究.pdf_第4页

（模式识别与智能系统专业论文）h264avc编码模式决策技术研究.pdf_第5页

已阅读5页，还剩61页未读，继续免费阅读

（模式识别与智能系统专业论文）h264avc编码模式决策技术研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要本文从介绍视频编码技术和国际标准的发展开始，对最新的国际视频编码标准h 2 6 4 a v c 进行详细研究，对其应用前景和编码原理做出总结，并详细阐述其与以往编码标准不同的新的关键技术。接着，对其中的两项关键技术帧间编码和帧内编码分别进行具体介绍，并研究了在h 2 6 4 a v c 编码器上通过率失真优化 ( r d o ) 策略实现模式决策的过程，分析这种策略的优缺点，并针对其编码算法复杂度高，编码时间长的缺点加以改进，提出了编码模式的树状分类判决方案 ( t d s ) 。首先，在帧内模式下，针对1 6 x 1 6 宏块在纹理特征丰富的区域细分为4 x 4 像素块并有9 种预测选项进行编码预测，并占用很大的编码时间的问题，提出了先根据量化系数q p 和图像纹理特征初步确定采用1 6 x 1 6 块或是4 x 4 块，然后对4 x 4 块内部的9 种预测选项进行较为简单的s a t d 运算进行粗选，确定三个可能性最大的待选模式集，最后通过r d o 策略进行判定的方案。实验结果证明此算法提高约7 0 的编码速度，并只增加了很少的比特率。接着，在帧间模式下，针对s k i p 模式的独立性和占用视频流较多的情况，提出了先进行s k i p 模式的判决方案，根据s k i p 模式的特点提出4 点判决准则，较快的确定了s k i p 模式的编码预测。接着结合存在帧内模式编码的情况，根据平均比特率a r 和平均边界误差a b e 的关系，快速确定是否采用帧内编码模式。然后，在剩余的模式选项中通过对图像纹理特征的分析，提出通过图像直方图的二阶距进行阈值判决的测量方案，用来对运动补偿的宏块模式f m1 6 x 1 6 ， m，和子宏块模式，进行划分，_16x8m 8 x 1 6 u8 x 8m8 x 4m4 x 8m 4 x 4 最后对已确定的模式集通过r d o 策略计算最优模式。实验结果证明，此算法提高了约5 0 的编码时间，比特率却只有很少增加。整个树状预测模式分类决策算法减少了超过一半的编码时间，极大的满足了系统实时性的要求。关键词：i e i 2 6 4 a v c率失真优化模式决策量化系数纹理特征 a b s t r a c t t h i sp a p e rs t a l 如w i t ht h ei n t r o d u c t i o no fv i d e oe n c o d i n gt e c h n o l o g ya n d i n t e r n a t i o n a ls t a n d a r d s ，a n dt h en e w e s th 2 6 4 a v cs t a n d a r dw h i c hi sc a r e f u l l ys t u d i e d i si n c l u d e df o ri t s a p p l i c a t i o n ，e n c o d i n gp r i n c i p l ea n dk e yt e c h n o l o g i e sw h a ta r e d i f f e r e n tf r o mf o r m e rs t a n d a r d s t h e n ，w ed i s c u s st w ok e yt e c h n o l o g i e sw h i c ha r e i n t r a - m o d ee n c o d i n ga n di n t e r - m o d ee n c o d i n gb y 也e i rr d om o d ed e c i s i o nt a c t i c s a n da n a l y s e st h ea d v a n t a g ea n dd i s a d v a n t a g eo ft h et a c t i c s ，t h e nf i n do u tan e wm o d e d e c i s i o nm e t h o df o rt h eh i 曲o p e r a t i o na n dl o n ge n c o d i n gt i m ew h i c hi sc a l l e dt r e e d e c i s i o ns c h e m e ( t d s ) f i r s to fa l l ，f o rt h ei n t r ap r e d i c t i o nm o d e , t h eh 2 6 4 a v ch a s16 x16m a c r ob l o c k o f4m o d ep a t t e r n sa n d4 x 4b l o c ko f9m o d ep a t t e r n sw i 也r d ot a c t i c sw i t hh i g h c o m p l i c a t i o n t h i sp a p e rp r e s e n t sa n e wm e t h o db yu s i n gq u a n t i z a t i o np a r a m e t e r ( q p ) a n dt e x t m ef e a t u r eo fam a c r ob l o c k t h en e wa l g o r i t h mc h o o s e sb l o c ks i z eb yu s i n g q pf i r s t t h e nw ec h o o s eb l o c ks i z eb yt e x t u r ef e a t u r eo fm a c r ob l o c kw h i l eq pc a n n o tu s i n g t h e ni tp r e d i c t st h eo p t i m u mm o d ei n4 x 4b l o c k b yt w os t e p sw h i c hc a l l e d t w ol e v e ls c h e m e ( t l s ) ，a n du s e ss a t di n s t e a do fr d ot oc h o o s et h r e en e a r e s t m o d e sc a n d i d a t e sf o rt h ef i r s ts t e po fc o a i s es e l e c t c o m p a r e dw i t ht h es i m p l es e a r c h ， t h i sa l g o r i t h md e c r e a s e sa b o u t7 0 o fe n c o d i n gt i m ew i ml i t t l ei n c r e a s eo fb i t - r a t e t h e n ，f o rt h ei n t e rp r e d i c t i o nm o d e ，w ef i r s ts e l e c ts k i pm o d eb y4d e c i s i o n n o r m sf o ri t si n d e p e n d e n c ei na l li n t e rm o d e sa n dm u c ho c c u p a t i o ni nv i d e of r a m e si n a d v a n c e t h e nc o m b i n e d 耐t hi n t r ap r e d i c t i o ni ni n t e rm o d e ，w ep r i o rd e t e r m i n ei n t r a m o d eb yc o m p a r i n gt w op a r a m e t e rw h i c ha r ea v e r a g er a t e ( a r ) a n da v e r a g eb o u n d e r r o r ( a b e ) f o ro t h e rm o d e s ，w ec l a s s i f yt h e mt ot w om o d e s e t s w h i c ha r e m a c r o b l o c ka n ds u b - m a c r o b l o c kb yt h es e c o n dm o m e n to ft h eh i s t o g r a mw h i c hi s a n a l y z e df r o mt e x t u r ef e a t u r e c o m p a r e dw i t l lf u l ls e a r c hm o t i o ne s t i m a t i o ni ns i m p l e r d o t a c t i c s ，t h i sm e t h o dd e c r e a s e sa b o u t5 0 e n c o d i n gt i m ew i ml i t t l ei n c r e a s eo f b i t - r a t e t h et d sm e t h o dd e c e a s e sa b o u t5 0 e n c o d i n gt i m e ，s ot h i sa l g o r i t h ms a t i s f i e s t h er e a lt i m es y s t e mi nag r e a td e g r e e k e y w o r d ：h 2 6 4 1 a v cr d om o d ed e c i s i o nq u a n t i z a t i o np a r a m e t e r t e x t u r ef e a t u r e 西安电子科技大学学位论文独创性( 或创新性) 声明秉承学校严谨的学风和优良的科学道德，本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢中所罗列的内容以外，论文中不包含其他人已经发表或撰写过的研究成果；也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处，本人承担一切的法律责任。本人签名：妞西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定，即：研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保留送交论文的复印件，允许查阅和借阅论文；学校可以公布论文的全部或部分内容，可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证，毕业后结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。 ( 保密的论文在解密后遵守此规定) 本学位论文属于保密，在一年解密后适用本授权书。本人签名：嗽钆导师签名：日期塑望：厶妥日期堡五：星第一章绪论第一章绪论 1 1 引言最近几十年以来，通信技术的发展日新月异，无线通信技术的发展，宽带无线通信，高速通信网，新一代信息网技术，光通信技术和智能信息处理技术等已经进入了一个新的高速发展时期。传统的一维音频信号已经不能满足人们日益增长的物质文化需要，人们越来越希望通过网络获得连续的二维信号和视频信号。特别是最近十年，第三代移动通信技术正在蓬勃发展，它是将无线通信与国际互联网等多媒体通信结合的新一代移动通信系统。它能够处理图像、音乐、视频流等多种媒体形式，提供包括网页浏览、电话会议、电子商务等多种信息服务。因此，对各种信号的处理技术有了更高的要求。为了适应各种现代通信信息传输网络的技术要求，除了继续采用传统的熟悉信号处理技术外，在此基础上还应该提出新的信号处理技术，算法和模型，以满足应用的需要。作为信号处理技术发展的产物，图像和视频处理技术已经越来越引起国际社会的关注。标准化是产业化活动的前提，近些年一系列国际图像和视频压缩编码标准的制定，使得编码技术和产业日趋成熟，极大的促进了图像视频信号处理技术在日常生活中的应用。这些新的压缩编码标准包括国际电信联盟i t u 制定的 h 2 6 x 系列标准m 】以及国际标准化组织i s o 制定的m p e g x 系列标准【l 。3 1 。这些视频编码标准都是根据人们在不同领域中对数字音频、视频数据的要求制定的。最新的视频压缩编码标准，h 2 6 4 a v c 标准【5 】是由i t u 和i s o 联合制定的。 h 2 6 4 a v c 是在总结和吸收以前视频编码标准中一些已经证明行之有效的算法的基础上，结合视频编码和图像处理领域最新研究成果提出的，在提高编码效率和增强网络适应性方面有了质的飞跃，它的目标是满足人们对网络视频多媒体信号所提出的各种要求。但是，由于h 2 6 4 a v c 标准引进了很多新的关键技术和复杂算法，这些技术主要是为了提高编码的压缩程度，以尽量少的字节表达尽量多的信息，以编码算法的复杂来换取编码比特率的下降睁1 3 】。因此，可想而知，编码时间必然会大大提高，据估计，h 2 6 4 编码时间约为h 2 6 3 标准的1 4 倍【l ，从而限制了h 2 6 4 标准在实时编码传输系统中的应用。所以，研究快速便捷的改进算法对提高 h 2 6 4 a v c 的实时编码有着重大意义。 h 2 6 4 a v c 编码模式决策技术研究 1 2 数字视频编码技术介绍 1 2 1 视频编码原理及技术介绍图像( i m a g e ) 1 6 】是自然景物中物体反射的可见光的强度，也可以是其它的各类电磁波反射后的强度反映( 如x 光图像、红外图像、紫外图像和微波遥感成像等) 。视频( v i d e o ) 【l7 】实质上是在时间轴上一组图像序列的组合，也常被称为视频图像、视频序列等。视频中的每幅图像被称为一帧( f l a m e ) 。由于人眼的视觉暂留特性，当以超过每秒2 5 帧速度连续播放静止图像时，在人脑中就形成了连续运动的视频效果。从外界所获取的自然视频场景属于模拟视频信号，通常可以表示为时间与空间上的连续函数。由于所有信息在计算机内部都是使用数字形式描述的，因而为便于对采集得到的视频使用计算机进行处理、存储和传输，就必须将所获取的模拟信号在时间和空间域中转换为数字量，即视频的数字化，其结果便是数字视频 ( d i g i t a lv i d e o ) 1 8 】。模拟视频的x ，y 坐标及幅度值都是连续的，为把它转换成数字形式，需要在坐标和幅度上分别进行采样操作。数字化坐标值称为采样，包括空间采样和时间采样；而数字化幅度值则称为量化过程。对得到的数字视频信号，为了使其能在实时通信网络系统中得以应用，必须对海量的数据信息进行一定的压缩编码，从而满足网络带宽的要求进行实时传输。虽然表示图像和视频信息需要占用海量的数据，但是数据并不完全等价于信息。数据是信息的载体，同样的信息可以由不同长度的数据进行描述。数字视频具有自身的独特特点，即视频数据具有多种相关性。如果能够去除由相关性所造成的各种冗余，便能够实现对原始视频信号的有效压缩。一般而言，数字视频信号中的冗余可以归为如下几类【l7 】： a ：空间冗余。作为视频基本元素的数字图像是对模拟视频信号空间采样得到，因而构成图像的相邻像素之间具有较强的相关性，即这些相邻像素之间的像素值通常相差不会太大。各像素的数值可以由其邻近像素的数值预测出来，每个独立的像素所携带的信息相对较少，这种像素间的冗余就称为空间冗余或几何冗余。 b ：时间冗余。由于视频信号本质上是一系列连续的图像，为了达到连续的视觉效果，视频帧与帧之间的采样间隔很小，对于2 5 f f s 的视频信号，其间隔时间仅为0 0 4 s 。因此相邻两幅图像之间也存在着很强的相关性。对于静止不动的场景，当前帧和前一帧的图像内容是完全相同的；对于场景中的运动目标，如果知道其运动规律，也可以很容易地从前一帧图像推算出它在当前帧中的大致位置；这就第一章绪论是视频序列中的时间冗余。在编码过程中可以充分利用这种相关性，采用相应的编码策略。 c ：心理视觉冗余。在大多数情况下，视频编码系统的最终接收者是人类视觉系统。而人类视觉系统具有非均匀和非线性的特点，所感知的图像亮度不仅仅与该点的反射光强有关，同时也会受到相邻区域光强的影响。在某些情况下，即便是在灰度值为常数的区域也能感觉到灰度值的变化( 如马赫带效应) 。此外人类视觉系统并不是对所有视觉信息都具有相同的敏感度。视频中的部分信息在通常的感知过程中与另外一些信息相比来说不那么重要，如图像信息在一定幅度内的微小变化是不能被人眼所感知的。上述这些特性都可认为是心理视觉冗余的，去除这些信息并不会明显地降低所感受到的图像的质量。 d ：编码冗余。如果对图像的所有信息都使用相同长度的符号进行表示，将使用较多的比特才能够完全表示图像中的灰度和颜色信息。例如，对于2 n 个灰度级使用自然码进行编码，平均码字长度为n 。为有效表示图像信息中的像素点，理想情况是按照像素信息熵的大小为其分配相应的比特数。而在实际情况中，很难计算得知像素的具体信息熵。在进行图像的采样和量化时一般的方法是对所有的像素都分配相同的比特数，此时编码所用的码本不能使平均比特数达到或接近熵值。在这些情况下必然存在熵编码冗余。在随机过程的统计特性基础上，研究者们提出了一系列熵编码算法，并在实际中得到了广泛应用。一个典型的视频编码系统由如下各部分组成：视频编码器，视频解码器，信道编码器，信道解码器。图1 1 【1 7 】给出了视频编解码系统的原理框图，当输入视频信号送入编码器后，编码器根据当前帧和相邻帧进行编码产生1 组码字，这组码字再进一步被信道编码器编码后进入通信信道。通过通信信道传输后被依次送入解码器中的信道解码器和信号解码器，重建原始视频图像。此时所获得的视频图像可以是与原始输入视频完全一致的( 无损编码) ，也可以是原始输入视频的近似图像( 有损编码) 。编码器解码器嗣眶亘垂唾垂画畸图1 1视频编码系统模型编码器由信源编码器和信道编码器两部分构成。信源编码器的作用是在保证传输视频质量的前提下尽可能减少输入视频信号的各类冗余。输入数据首先经过图像变换以减少像素间冗余。量化过程根据所设定的保真度追则去除数据的高频信息，用以降低心理视觉冗余，可以用标量量化器或矢量量化器实现。标量量化 h 2 6 4 a v c 编码模式决策技术研究对数据逐个进行量化，而矢量量化则对一系列数据同时量化。符号编码器对量化器输出的每个符号定义相应的码字，生成二进制码流。再使用定长编码或者可变长编码变长编码等方法完成最终的编码任务。信道编码器则采用纠错编码的方法增强信源编码器输出抗误码能力。解码器则由对应的信道解码器和信源解码器级联而成，它们以与编码器中相反的排列次序分别进行符号编码、量化和变换的逆操作。对于无损编码的应用，由于编码器端没有量化过程，因此信源解码器也无需对量化进行逆操作。图1 2 给出了信源编码器和解码器的原理框图。信源编码器信源解码器图1 2信源编码器和解码器的原理框图数据压缩编码技术自s h a n n o n 于1 9 4 8 年创立的信息论开始已有6 0 年历史，其关键技术经过不断发展大致有以下几种： a ：熵编码。s h a n n o n 第一定律( 率失真定律) 【l5 】确定了在编码过程中不损失任何信息，即在无损编码条件下数据压缩的理论极限是信息的熵，并指出了如何建立最优数据压缩编码方法。这类保存信息熵的编码方法通称为熵编码 ( e n t r o p yc o d i n g ) ，熵编码结果经解码后可无失真地恢复出原始信息。编码的基本思想就是用较少的比特数表示出现概率较大的灰度级，而用较多的比特数表示出现概率小的灰度级，就能达到数据压缩的效果。常用的熵编码算法主要包括哈夫曼编码( h u f f - m a nc o d i n g ) ，算术编码( a r i t h m e t i cc o d i n g ) 和游程编码( r u n l e n g t h c o d i n g ) 3 类。由于熵编码算法本身不会造成信息的损失，因此仍然属于无损编码的范畴。 b ：变换编码。图像变换是视频编码系统的核心组成部分，基于变换的编码方法也是目前图像编码和视频编码方法的主流，如视频编码标准m p e g x 和 h 2 6 x ，静止图像压缩标准j p e g 、j p e g 2 0 0 0 都采用的是基于变换的编码框架。变换将在空间域内以像素灰度值形式表示的图像信息变换到频域中，以变换系数的形式加以表示。变换能够有效减少图像空域中像素之间的相关性，从而有效地消除图像的空间冗余；另一方面变换后图像信号的能量主要集中在低频部分，能量密度随频率的升高而迅速下降，考虑到人类视觉系统对于高频信号不敏感的特性，变换后利于针对不同频率的信号进行量化、游程编码和熵编码，从而达到数据压缩的目的。此外变换后的系数还具有较强的抗干扰能力。对高质量的视频图第一章绪论像，预测编码一般要求信道误码率 1 0 6 ，而变换编码仅要求信道误码率 1 0 - 4 即可。视频信号处理中常用的变换算法有w h t ( 沃尔什哈达马变换) ，d f t ( 离散傅立叶变换) ，d c t ( 离散余弦变换) 和d w t ( 离散小波变换) 等。在最新的国际视频编码标准h 2 6 4 a v c 中使用了新型整数变换取代了d c t 变换，使得整个整数变换和量化过程可以通过1 6 位的算术运算完成，且不使用乘法运算。整数变换算法能够在不影响编码性能的前提下，有效降低计算复杂度，提高编码效率。 c ：量化。量化的目的就是将在较大值域x 的信号变换、减小至较小的值域 y 中。与原来x 值域中的信号相比，要保证在值域y 中使用更少的比特数来表示信号，从而起到减少数据量的目的。量化可以分为标量量化( s c a l a rq u a n t i z a t i o n , s q ) 和矢量量化( v e c t o rq u a n t i z a t i o n , v q ) 两类。标量量化是最基本的量化方法，它将信源信号中的每个数值量化为预先设计码表中的重建值之一。从数学意义上分析，标量量化过程可以看作将一个幅度值的连续无限数集合映射成一个离散幅度值的有限数集合。矢量量化是上世纪7 0 年代后期发展起来的一种量化方法，其思想是将若干个标量数据组构成一个矢量，然后在矢量空间给以整体量化，从而以损失较少信息的代价获得数据量的有效压缩。在解码端，每个矢量被反映射为原始输入标量数据的近似。这组矢量同时保存在编码端和解码端，作为一个码表。矢量量化不仅仅可以作为量化器，也是一种有效的压缩编码方法。在矢量量化编码中将输入数据组看成一个k 维的矢量，率失真理论证明：即使对于无记忆信源，化。然后以矢量为单位逐个矢量进行量化。矢量量化编码的效率也总是优于标量量 d ：运动补偿。运动补偿是当前视频图像压缩技术中使用最普遍的方法之一。包括： a ) 运动补偿预测视频的相邻帧间的运动部分具有连续性，即当前画面上的图像可以看成是前画某时刻画面上图像的位移，位移的幅度值和方向在画面各处可以不同。利用运动位移信息与前面某时刻的图像对当前画面图像进行预测的方法，称为前向预测。反之，根据某时刻的图与位移信息预测该时刻之前的图像，称为后向预测。 b ) 运动补偿插值以插补方法补偿运动信息是提高视频压缩比的最有效措旋之一。在时域中插补运动补偿是一种多分辨率压缩技术。例如1 1 5 秒或1 1 0 秒时间隔选取参考子图，对时域较低分辨率子图进行编码，通过低分辨子图反映运动趋势的附加校正信息( 运动矢量) 进行插值，可得到满分辨率( 帧率1 3 0 秒) 的视频信号。插值运动补偿也称为双向预测，因为它既利用了前面帧的信息又利用了后面帧的信息。 h 2 6 4 a v c 编码模式决策技术研究 1 2 2 视频编码国际标准的发展视频压缩编码标准主要包括由国际电信联盟( i n t e r n a t i o n a lt e l e c o m m u n i c a t i o n u n i o n ，i t u ) 所制定的h 2 6 x 系列标准，以及由国际标准化组织( i n t e r n a t i o n a l s t a n d a r d i z a t i o no r g a n i z a t i o n i s o ) 和i e c ( i n t e r n a t i o n a le l e c t r ot e c h n i c a lc o m m i s s i o n , 国际电工委员会) 的共同委员会中的m p e g 组织( m o v i n g p i c t u r ee x p e r t g r o u p ) 所制定的m p e g x 系列标准。这些视频编码标准都是根据在人们不同领域中对数字音视频数据的要求所制定的，图1 3 按照制定时间顺序大致描述了现有国际视频编码标准的发展历程。 l l 舭6 - ii h 2 6 3 h 2 6 3 + 耻斛i i 1 1 1 j t i 卜gi 眦6 2 ，m 脚一2 i h 2 6 4 i 1m ，。1 m p e 叫 i l m p e gm p e g 7 l 1ii 1 9 8 4 1 9 8 61 9 8 81 9 9 01 9 9 21 9 9 41 9 9 61 9 9 82 0 0 02 0 0 22 0 0 4 图1 3视频编码国际标准的发展为更加清晰的描述出各种编码标准在不同领域所起的作用，对其功能和应用领域归总如表1 1 所示。表1 1 视频编码国际标准的功能与应用编码标准全称传输码率主要应用领域 h 2 6 1 p x 6 4 k b p s 的音视频服务的编 p x 6 4 k b p s i s d n 视频会议解码 ( p = l 3 0 ) m p e g 1 面向数字存储的运动图像及其 1 5 m b p s 数字激光视盘v c d ，c d 伴音的编码 r o m m p e g 2 运动图像及其伴音信息的通用 4 10 0 m b p s d v d ，卫星广播业务( b s s ) ，编码高清晰度电视( h d ) ，视频点播系统( v o d ) ，数字声音广播 ( d a b ) 。 h 2 6 3 低比特率通信的视频编码低于6 4 k b p s 远程视频监控，可视电话，电视会议 m p e g 4 音视频对象的通用编码小于6 4 k b p s i n t e r n e t 通讯，无线通讯，2 d 3 d 6 4 - 3 8 4 k b p s 计算机图像交互式视频 3 8 4 k - 4 m b p s m p e g 7 多媒体内容描述接口任意多媒体检索 h 2 6 4 a v c 高级视频编码算法任意未来的视频编码工业标准下面分别对各个阶段出现的图像和视频编码技术作简要介绍：第一章绪论 1 m p e g 1 标准及m p e g 2 标准 m p e g 1 标准【i 】于1 9 9 2 年出版，目标是“当数据率为1 5 m b p s 时，用于数字存储媒体的动态图象及其伴音的编码”。在m p e g 1 中，首次提出了“流” ( s e q u e n c e ) 的数据结构，使视频数据的描述更加完善。为了解决随机访问和高效压缩的要求冲突，在m p e g 1 中定义了四种主要的图像类型：i 帧，p 帧，b - 帧和d 图像。i 帧只使用帧内编码，必须传递，而p 帧和b 帧分别用于前向预测和双向预测，d 图像用于甚低频率的浏览。m p e g 1 的视频压缩中主要用到两项基本技术：一是基于1 6 x 1 6 块运动补偿，适用于预测编码和插补编码，用于减少帧序列的时间冗余度；另一种是基于变换域( d c t ) 的压缩技术，用于减少空间冗余度。在m p e g 1 中，d c t 不仅使用于帧内压缩，而且对帧间预测误差再作 d c t 变换，以达到进一步压缩的目的。 m p e g 2 e 2 】的正式名称为“i s o i e c1 3 8 1 8 ：运动图像和相关声音信息的一般编码方法”，其第一版草案制定于1 9 9 2 年，1 9 9 4 正式颁布成为国际标准。m p e g 一2 是针对标准数字电视和高清晰度电视在各种应用下的压缩方案和系统层的详细规定，也是国际主流的s d t v 和h d t v 的编码标准。 2 m p e g 4 及m p e g 7 标准 m p e g - 4 3 】标准于19 9 8 年1 2 月正式公布。主要用于6 4 k b p s 以下的低速率音视编码，以使用于窄带多媒体通信等领域。在m p e g - 4 中，将压缩编码的重点集中到了基于内容的压缩方法上，以满足将视频信息的应用由播放型转向基于内容的访问和操作型的要求。为了支持对动态视频的访问，m p e g 4 中引入了对象( o b j e c t ) 的概念，实际上就是用物体基方法得到的分层区域。因此，物体基方法是基于内容压缩编码方法中的一类主要算法。 m p e g 4 是一个开放型的标准，对具体的算法不作规定，可以认为是一个工具箱，可以不断加入符合描述规则的新的好的算法。目前提出的以及正在研究的算法有： a ) 对现有相对比较成熟的“简单帧间预测运动补偿”算法进行改进，使成为基于对象的编码算法。 b ) 基于模型的分析合成算法。 c ) 基于小波变换的编码。 d ) 基于分型的编码算法。 m p e g 7 ( 多媒体内容描述接口) 对m p e g 4 进步完善，使标准更加适合 h 2 6 4 a v c 编码模式决策技术研究新一代的网络发展，为各种媒体信息规定一种标准化的描述，这样，这种描述与媒体内容有着更紧密的联系，支持用户更方便有效地检索和利用信息。 3 h 2 6 3 标准 i t u t 于1 9 9 6 年3 月正式通过h 2 6 3 4 】国际标准，其正式名称为“低比特率通信的视频编码”，主要用于电视会议、可视电话等视频通信业务，它的出现使得在码率低于6 4 k b p s 的公用电话交换网( p s t n ) 和无线网络上传送质量较好的音频信息成为可能。 h 2 6 3 支持5 种图像格式：s u bq c i f ( 1 2 8 x 9 6 ) 、q c i f ( 1 7 6 x 1 4 4 ) 、c i f ( 3 5 2 x 2 8 8 ) 、4 c ( 7 4 0 x 5 7 6 ) 、1 6 c i f ( 1 4 0 8 x 1 1 5 2 ) ，采样格式为4 ：2 ：0 。 h 2 6 3 编码系统包括视频编码系统和视频解码器，编码器部分主要包括变换、量化、运动估计与补偿和熵编码等几个功能模块。解码部分可以看作是编码器的逆过程，但并非完全对称。在解码器端无需进行运动估计，所以解码器的运算量远远小于编码器的运算量。h 2 6 3 标准的关键技术包括运动估计、变换与量化、可变长熵编码( v l c ) 编码。 4 h 2 6 4 a v c 标准在制定h 2 6 3 标准后，2 0 0 3 年3 月，由i t u t 的v c e g 和i s o 的m p e g 成立的联合视频专家组( j v t ) 共同提出一项视频编码新标准，r r u t 将该标准命名为 “h 2 6 4 建议”，i s o 将其作为m p e g 4 的第十部分，称之为“i s o i e c1 4 4 9 6p a r t l 0 高级视频编码算法”( i s o i e c1 4 4 9 610a v c ) 。图1 4 直观的表达了h 2 6 4 a v c e 5 】的发展历程。图1 4h 2 6 4 a v c 发展历程 h 2 6 4 主要支持4 ：2 ：0 格式的连续或隔行视频的编码与解码，其它格式如4 ：2 ：2 和4 ：4 ：4 可以作为额外的参考信息参数。编码图像类型除了i 帧、p 帧和b 帧之外，第一章绪论还新定义了s p 帧和s i 帧，用以实现不同传输速率、不同图像质量码流间快速切换以及信息丢失的快速恢复等功能。 h 2 6 4 标准从概念上将编码结构分为两层：上层为视频编码层( v c l ) ，底层为网络抽象层( n a l ) 。v c l 负责完成高效率的视频压缩任务，而n a l 将v c l 从具体的传输层中抽象出来，负责解决网络的适配问题，即根据使用环境对不同网络采用最为合适的方式对数据进行打包和传送，以使得码流适应各类信道。 n a l 以n a l u 为单元，支持编码数据在大多数基于包交换技术网络中进行传输。 h 2 6 4 的双层系统结构使得每一层更侧重于自身功能的实现，从而优化了整个编码系统。 h 2 6 4 编码器仍以经典的运动补偿混合编码算法为核心，具备良好的兼容性和可移植性。其关键技术包括：整数变换算法、可变块运动估计与补偿算法、多参考帧的帧间预测算法、空域帧内预测算法、去块滤波器、通用可变长编码 ( u v l c ) 编码算法和基于上下文的自适应可变长编码( c a b a c ) 编码算法等l l 引。下一章将对h 2 6 4 标准及其关键技术做出更加具体的介绍。 1 3 i 研究工作概述 1 3 研究工作概述及章节安排通过对视频编码技术和国际编码标准的介绍，可以看出h 2 6 4 a v c 是最新的视频编码国际标准，随着h 2 6 4 标准的出现，目前很多学者都在研究其关键新技术和改进方法。h 2 6 4 标准在编码效率上比以往标准要提高l 倍以上，在相同图像质量的情况下，它比h 2 6 3 编码至少减少5 0 以上的码率f l 卜1 3 】。但是，通过这些关键技术实现的编码效率的提高在很大程度上是依靠复杂的算法和细化的分块实现的，这就注定了h 2 6 4 会比以往任何编码标准有更长的编码时间。h 2 6 4 编码时间约为h 2 6 3 的1 4 倍，如此长的编码时间使得在系统计算资源有限的情况下很难实现，从而限制了h 2 6 4 在实时系统中的应用。所以，对h 2 6 4 关键技术的研究和改进，主要方面应该是在不影响编码效率的前提下减少其编码时间。本文通过研究h 2 6 4 a v c 标准的关键技术开始，研究了帧内预测模式选择方法和帧间预测模式选择方法，并提出了具体改进算法，具体工作如下： ( 1 ) 学习h 2 6 4 a v c 视频编码标准，研究了视频编码中用到的基本概念和技术，分析了编码器和解码器的原理和实施方案，并着重对i - i 2 6 4 最新关键技术做了学习和研究。 ( 2 ) 学习和研究了h 2 6 4 编码模式，对帧内编码模式选择和帧间编码模式选 h 2 6 4 a v c 编码模式决策技术研究择方法【1 4 】做了细致的总结和分析，得出其编码效率的提高来源于编码算法的复杂度提高这一结论。 ( 3 ) 提出基于h 2 6 4 的模式决策改进算法，提出树状帧间模式预测方案，将帧间模式预测视为主体算法，包含帧内模式预测，并提出了专门针对帧内模式预测的算法。 ( 4 ) 在h 2 6 4 仿真平台j m l 0 2 上面，对上述的改进算法进行仿真，得出仿真结果并加以分析。 1 3 2 章节内容安排本文从视频编码技术和标准开始，主要研究了最新的国际视频编解码标准 h 2 6 4 a v c ，并在其关键技术中选取两个关键技术：帧内预测和帧间预测进行研究，对帧内预测和帧间预测时的模式选择方法提出改进算法并仿真实现。具体章节安排如下：第二章介绍了最新的视频编解码标准h 2 6 4 a v c ，包括其先进性的介绍，以及档次等级和层次结构，编码器原理以及解码器原理的介绍，关键技术介绍等内容。第三章介绍了h 2 6 4 a v c 标准中的关键技术模式决策方案，其中包括 h 2 6 4 a v c 标准对模式决策所采取的基本算法，模式决策分类，帧间模式决策和帧内模式决策，以及本文对模式决策所采取的整体决策方案。第四章介绍了帧内模式决策改进算法，包括帧内模式决策改进算法所用到的理论和准则，帧内模式决策算法的流程，对算法的仿真结果和对实验结果的分析结论。第五章介绍了帧间模式决策改进算法，包括帧间模式在编码器中的主导作用介绍，帧间模式决策用到的关键算法介绍，以及对帧间模式决策算法的仿真结果和对实验结果的讨论等。第六章对全文算法进行了总结，并提出了需要进一步完善的地方。第二章h 2 6 4 a v c 视频编码技术第二章h 2 6 4 a v c 视频编码技术 2 1 概述 h 2 6 4 a v c 是视频编码国际标准发展至今产生的最为先进的视频编解码标准，在吸取了以往编码标准中先进和实用的技术的基础上，提出了满足更多需求的新的关键技术，使得它在编码效率和压缩比率上远远超过了以往任何一种编码标准，此外，它在网络自适应性和传输可靠性上也有很大的提升。在编码方式上，h 2 6 4 标准吸取了以往编码标准的优势，在进行运动估计后进行量化、变换以及熵编码等操作，过程简单实用，具备良好的兼容性和可移植性，但是在这些大的算法框架下提出很多新的关键技术，对视频编码流的时间和空间冗余进行更加细化的去除，这些关键技术包括帧内预测技术，可变块运动估计技术，多参考帧的帧间预测技术，高精度运动估计技术，新的熵编码技术，去块滤波技术以及在扩展档内应用到的s i s p 帧技术，这些新的关键技术使得视频的编码效率以及传输过程中抗误码性能得到了很大提高。在网络应用方面，h 2 6 4 标准从概念上将网络层单独划分出来，形成了网络抽象层( n a l ) 这个概念，使得在编码视频流和实际网络之间可以通过一个具体的接口进行转换和传输，对其它传输协议如h 3 2 0 、m p e g - 4 、h 3 2 3 口、m p e g 2 等等【l5 】可以正确的映射编码数据信息，具备了良好的网络适应性能。 h 2 6 4 标准通过其优异的压缩性能和网络传输性能，使其在视频压缩领域以及视频监控、网络视频直播、视频会议、视频会议电话、无线移动视频通讯、高清晰度数字电视等方面发挥着重要作用【l s 】。首先，h 2 6 4 的高压缩性能有利于在数字电视和高清数字电视上的应用，h d t v 的出现使得数字电视的压缩成本和传输成为关键，而h 2 6 4 通过比以往任何标准都高效的压缩技术使其成为现实。其次，视频通信是h 2 6 4 标准的另一个重要应用领域，其中包括可视电话，电视会议，远程教学，远程医疗等等，其优点在于不受低带宽的限制和桌面环境的限制，易于普及和实现。h 2 6 4 还有一个重要的应用领域，即网络流媒体，如网络电视 ( i p t v ) 和视频点播( v o d ) ，由于其在网络适应性、差错控制和码率恢复方面等关键技术，使得网络流媒体的快速发展值得期待。 h 2 6 4 a v c 编码模式决策技术研究 2 2 编解码原理 h 2 6 4 a v c 编码标准的核心就是其编码器和解码器，采用的仍然是经典的运动补偿混合编码算法，包括了残差块计算，变换，量化和熵编码等几个过程，编码图像仍被分为为3 种类型( i 帧，p 帧和b 帧) 。但是，与以往标准不同的是，在编码的每个环节，h 2 6 4 都有新的技术和算法来实现或者补充以往算法的不足，甚至在视频编码的概念上，还提出了新的分层概念，将编码和码流传输视为两个过程进行处理，而在帧类型上，又添加了新的s p s i 帧。下面先介绍一些常用的基本概念。 2 2 1 基本概念 1 宏块、片及帧宏块指在基于像块的视频编码机制中，每个视频帧被分成许多1 6 x 1 6 的矩阵或者象素块，称为宏块( m b ) 。采样后的视频图像( 包括帧和场图像) 都被分成 1 6 x 1 6 的宏块，一个宏块由一个1 6 x 1 6 亮度像素和附加的一个8 x 8c b 和一个8 x 8 c r 彩色像素块组成。一帧c i f ( 3 5 2 x 2 8 8 ) 格式的图像分为1 8 x 2 2 = 3 9 6 个宏块，一帧q c i f ( 1 7 6 x 1 4 4 ) 格式的图像被分为9 x 1 1 = 9 9 个宏块。若干个宏块又组成了宏块组，称为片( s l i c e ) 。每个图像由若干片组成，在视频流中称为一帧( f r a m e ) 。 h 2 6 4 a v c 中常用的帧为i 帧，p 帧以及b 帧。采用帧内编码模式的视频帧就叫做i 帧。p 帧是从先前重构的i 帧或者p 帧经过预测得到的视频帧。b 帧是从先前重构帧( i 或p 帧) 和正在编码的p 帧进行双向预测得到的视频帧。 i 片只包含i 宏块，p 片可包含p 和i 宏块，而b 片可包含b 和i 宏块。 i 宏块利用从当前片中已解码的像素作为参考进行帧内预测( 不能取其它片中的已解码像素作为参考进行帧内预测) 。p 宏块利用前面已编码图象作为参考图像进行帧内预测，一个帧内编码的宏块可迸一步作宏块的分割：即1 6 x 1 6 、1 6 x 8 、8 x 1 6 或8 x 8 亮度像素块( 以及附带的彩色像素) ；如果选了8 x 8 的子宏块，则可再分成各种子

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（模式识别与智能系统专业论文）h264avc编码模式决策技术研究.pdf

文档简介

温馨提示

最新文档

评论

（模式识别与智能系统专业论文）h264avc编码模式决策技术研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档