




已阅读5页,还剩61页未读, 继续免费阅读
(模式识别与智能系统专业论文)h264avc编码模式决策技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 本文从介绍视频编码技术和国际标准的发展开始,对最新的国际视频编码标 准h 2 6 4 a v c 进行详细研究,对其应用前景和编码原理做出总结,并详细阐述其 与以往编码标准不同的新的关键技术。接着,对其中的两项关键技术帧间编码和 帧内编码分别进行具体介绍,并研究了在h 2 6 4 a v c 编码器上通过率失真优化 ( r d o ) 策略实现模式决策的过程,分析这种策略的优缺点,并针对其编码算法 复杂度高,编码时间长的缺点加以改进,提出了编码模式的树状分类判决方案 ( t d s ) 。 首先,在帧内模式下,针对1 6 x 1 6 宏块在纹理特征丰富的区域细分为4 x 4 像 素块并有9 种预测选项进行编码预测,并占用很大的编码时间的问题,提出了先 根据量化系数q p 和图像纹理特征初步确定采用1 6 x 1 6 块或是4 x 4 块,然后对4 x 4 块内部的9 种预测选项进行较为简单的s a t d 运算进行粗选,确定三个可能性最 大的待选模式集,最后通过r d o 策略进行判定的方案。实验结果证明此算法提 高约7 0 的编码速度,并只增加了很少的比特率。 接着,在帧间模式下,针对s k i p 模式的独立性和占用视频流较多的情况, 提出了先进行s k i p 模式的判决方案,根据s k i p 模式的特点提出4 点判决准则, 较快的确定了s k i p 模式的编码预测。接着结合存在帧内模式编码的情况,根据 平均比特率a r 和平均边界误差a b e 的关系,快速确定是否采用帧内编码模式。 然后,在剩余的模式选项中通过对图像纹理特征的分析,提出通过图像直方图的 二阶距进行阈值判决的测量方案,用来对运动补偿的宏块模式f m1 6 x 1 6 , m, 和子宏块模式 ,进行划分,_16x8m 8 x 1 6 u8 x 8m8 x 4m4 x 8m 4 x 4 最后对已确定的模式集通过r d o 策略计算最优模式。实验结果证明,此算法提 高了约5 0 的编码时间,比特率却只有很少增加。 整个树状预测模式分类决策算法减少了超过一半的编码时间,极大的满足了 系统实时性的要求。 关键词:i e i 2 6 4 a v c率失真优化模式决策量化系数 纹理特征 a b s t r a c t t h i sp a p e rs t a l 如w i t ht h ei n t r o d u c t i o no fv i d e oe n c o d i n gt e c h n o l o g ya n d i n t e r n a t i o n a ls t a n d a r d s ,a n dt h en e w e s th 2 6 4 a v cs t a n d a r dw h i c hi sc a r e f u l l ys t u d i e d i si n c l u d e df o ri t s a p p l i c a t i o n ,e n c o d i n gp r i n c i p l ea n dk e yt e c h n o l o g i e sw h a ta r e d i f f e r e n tf r o mf o r m e rs t a n d a r d s t h e n ,w ed i s c u s st w ok e yt e c h n o l o g i e sw h i c ha r e i n t r a - m o d ee n c o d i n ga n di n t e r - m o d ee n c o d i n gb y 也e i rr d om o d ed e c i s i o nt a c t i c s a n da n a l y s e st h ea d v a n t a g ea n dd i s a d v a n t a g eo ft h et a c t i c s ,t h e nf i n do u tan e wm o d e d e c i s i o nm e t h o df o rt h eh i 曲o p e r a t i o na n dl o n ge n c o d i n gt i m ew h i c hi sc a l l e dt r e e d e c i s i o ns c h e m e ( t d s ) f i r s to fa l l ,f o rt h ei n t r ap r e d i c t i o nm o d e , t h eh 2 6 4 a v ch a s16 x16m a c r ob l o c k o f4m o d ep a t t e r n sa n d4 x 4b l o c ko f9m o d ep a t t e r n sw i 也r d ot a c t i c sw i t hh i g h c o m p l i c a t i o n t h i sp a p e rp r e s e n t sa n e wm e t h o db yu s i n gq u a n t i z a t i o np a r a m e t e r ( q p ) a n dt e x t m ef e a t u r eo fam a c r ob l o c k t h en e wa l g o r i t h mc h o o s e sb l o c ks i z eb yu s i n g q pf i r s t t h e nw ec h o o s eb l o c ks i z eb yt e x t u r ef e a t u r eo fm a c r ob l o c kw h i l eq pc a n n o tu s i n g t h e ni tp r e d i c t st h eo p t i m u mm o d ei n4 x 4b l o c k b yt w os t e p sw h i c hc a l l e d t w ol e v e ls c h e m e ( t l s ) ,a n du s e ss a t di n s t e a do fr d ot oc h o o s et h r e en e a r e s t m o d e sc a n d i d a t e sf o rt h ef i r s ts t e po fc o a i s es e l e c t c o m p a r e dw i t ht h es i m p l es e a r c h , t h i sa l g o r i t h md e c r e a s e sa b o u t7 0 o fe n c o d i n gt i m ew i ml i t t l ei n c r e a s eo fb i t - r a t e t h e n ,f o rt h ei n t e rp r e d i c t i o nm o d e ,w ef i r s ts e l e c ts k i pm o d eb y4d e c i s i o n n o r m sf o ri t si n d e p e n d e n c ei na l li n t e rm o d e sa n dm u c ho c c u p a t i o ni nv i d e of r a m e si n a d v a n c e t h e nc o m b i n e d 耐t hi n t r ap r e d i c t i o ni ni n t e rm o d e ,w ep r i o rd e t e r m i n ei n t r a m o d eb yc o m p a r i n gt w op a r a m e t e rw h i c ha r ea v e r a g er a t e ( a r ) a n da v e r a g eb o u n d e r r o r ( a b e ) f o ro t h e rm o d e s ,w ec l a s s i f yt h e mt ot w om o d e s e t s w h i c ha r e m a c r o b l o c ka n ds u b - m a c r o b l o c kb yt h es e c o n dm o m e n to ft h eh i s t o g r a mw h i c hi s a n a l y z e df r o mt e x t u r ef e a t u r e c o m p a r e dw i t l lf u l ls e a r c hm o t i o ne s t i m a t i o ni ns i m p l e r d o t a c t i c s ,t h i sm e t h o dd e c r e a s e sa b o u t5 0 e n c o d i n gt i m ew i ml i t t l ei n c r e a s eo f b i t - r a t e t h et d sm e t h o dd e c e a s e sa b o u t5 0 e n c o d i n gt i m e ,s ot h i sa l g o r i t h ms a t i s f i e s t h er e a lt i m es y s t e mi nag r e a td e g r e e k e y w o r d :h 2 6 4 1 a v cr d om o d ed e c i s i o nq u a n t i z a t i o np a r a m e t e r t e x t u r ef e a t u r e 西安电子科技大学 学位论文独创性( 或创新性) 声明 秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在 导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标 注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成 果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说 明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切的法律责任。 本人签名:妞 西安电子科技大学 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保 留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内 容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后 结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。 ( 保密的论文在解密后遵守此规定) 本学位论文属于保密,在一年解密后适用本授权书。 本人签名:嗽钆 导师签名: 日期塑望:厶妥 日期 堡五:星 第一章绪论 第一章绪论 1 1 引言 最近几十年以来,通信技术的发展日新月异,无线通信技术的发展,宽带无 线通信,高速通信网,新一代信息网技术,光通信技术和智能信息处理技术等已 经进入了一个新的高速发展时期。传统的一维音频信号已经不能满足人们日益增 长的物质文化需要,人们越来越希望通过网络获得连续的二维信号和视频信号。 特别是最近十年,第三代移动通信技术正在蓬勃发展,它是将无线通信与国际互 联网等多媒体通信结合的新一代移动通信系统。它能够处理图像、音乐、视频流 等多种媒体形式,提供包括网页浏览、电话会议、电子商务等多种信息服务。因 此,对各种信号的处理技术有了更高的要求。为了适应各种现代通信信息传输网 络的技术要求,除了继续采用传统的熟悉信号处理技术外,在此基础上还应该提 出新的信号处理技术,算法和模型,以满足应用的需要。 作为信号处理技术发展的产物,图像和视频处理技术已经越来越引起国际社 会的关注。标准化是产业化活动的前提,近些年一系列国际图像和视频压缩编码 标准的制定,使得编码技术和产业日趋成熟,极大的促进了图像视频信号处理技 术在日常生活中的应用。这些新的压缩编码标准包括国际电信联盟i t u 制定的 h 2 6 x 系列标准m 】以及国际标准化组织i s o 制定的m p e g x 系列标准【l 。3 1 。这些 视频编码标准都是根据人们在不同领域中对数字音频、视频数据的要求制定的。 最新的视频压缩编码标准,h 2 6 4 a v c 标准【5 】是由i t u 和i s o 联合制定的。 h 2 6 4 a v c 是在总结和吸收以前视频编码标准中一些已经证明行之有效的算法的 基础上,结合视频编码和图像处理领域最新研究成果提出的,在提高编码效率和 增强网络适应性方面有了质的飞跃,它的目标是满足人们对网络视频多媒体信号 所提出的各种要求。 但是,由于h 2 6 4 a v c 标准引进了很多新的关键技术和复杂算法,这些技术 主要是为了提高编码的压缩程度,以尽量少的字节表达尽量多的信息,以编码算 法的复杂来换取编码比特率的下降睁1 3 】。因此,可想而知,编码时间必然会大大 提高,据估计,h 2 6 4 编码时间约为h 2 6 3 标准的1 4 倍【l ,从而限制了h 2 6 4 标 准在实时编码传输系统中的应用。所以,研究快速便捷的改进算法对提高 h 2 6 4 a v c 的实时编码有着重大意义。 h 2 6 4 a v c 编码模式决策技术研究 1 2 数字视频编码技术介绍 1 2 1 视频编码原理及技术介绍 图像( i m a g e ) 1 6 】是自然景物中物体反射的可见光的强度,也可以是其它的 各类电磁波反射后的强度反映( 如x 光图像、红外图像、紫外图像和微波遥感成 像等) 。视频( v i d e o ) 【l7 】实质上是在时间轴上一组图像序列的组合,也常被称为 视频图像、视频序列等。视频中的每幅图像被称为一帧( f l a m e ) 。由于人眼的视 觉暂留特性,当以超过每秒2 5 帧速度连续播放静止图像时,在人脑中就形成了连 续运动的视频效果。 从外界所获取的自然视频场景属于模拟视频信号,通常可以表示为时间与空 间上的连续函数。由于所有信息在计算机内部都是使用数字形式描述的,因而为 便于对采集得到的视频使用计算机进行处理、存储和传输,就必须将所获取的模 拟信号在时间和空间域中转换为数字量,即视频的数字化,其结果便是数字视频 ( d i g i t a lv i d e o ) 1 8 】。模拟视频的x ,y 坐标及幅度值都是连续的,为把它转换成数 字形式,需要在坐标和幅度上分别进行采样操作。数字化坐标值称为采样,包括 空间采样和时间采样;而数字化幅度值则称为量化过程。 对得到的数字视频信号,为了使其能在实时通信网络系统中得以应用,必须 对海量的数据信息进行一定的压缩编码,从而满足网络带宽的要求进行实时传输。 虽然表示图像和视频信息需要占用海量的数据,但是数据并不完全等价于信息。 数据是信息的载体,同样的信息可以由不同长度的数据进行描述。数字视频具有 自身的独特特点,即视频数据具有多种相关性。如果能够去除由相关性所造成的 各种冗余,便能够实现对原始视频信号的有效压缩。一般而言,数字视频信号中 的冗余可以归为如下几类【l7 】: a :空间冗余。作为视频基本元素的数字图像是对模拟视频信号空间采样得 到,因而构成图像的相邻像素之间具有较强的相关性,即这些相邻像素之间的像 素值通常相差不会太大。各像素的数值可以由其邻近像素的数值预测出来,每个 独立的像素所携带的信息相对较少,这种像素间的冗余就称为空间冗余或几何冗 余。 b :时间冗余。由于视频信号本质上是一系列连续的图像,为了达到连续的 视觉效果,视频帧与帧之间的采样间隔很小,对于2 5 f f s 的视频信号,其间隔时间 仅为0 0 4 s 。因此相邻两幅图像之间也存在着很强的相关性。对于静止不动的场景, 当前帧和前一帧的图像内容是完全相同的;对于场景中的运动目标,如果知道其 运动规律,也可以很容易地从前一帧图像推算出它在当前帧中的大致位置;这就 第一章绪论 是视频序列中的时间冗余。在编码过程中可以充分利用这种相关性,采用相应的 编码策略。 c :心理视觉冗余。在大多数情况下,视频编码系统的最终接收者是人类视 觉系统。而人类视觉系统具有非均匀和非线性的特点,所感知的图像亮度不仅仅 与该点的反射光强有关,同时也会受到相邻区域光强的影响。在某些情况下,即 便是在灰度值为常数的区域也能感觉到灰度值的变化( 如马赫带效应) 。此外人 类视觉系统并不是对所有视觉信息都具有相同的敏感度。视频中的部分信息在通 常的感知过程中与另外一些信息相比来说不那么重要,如图像信息在一定幅度内 的微小变化是不能被人眼所感知的。上述这些特性都可认为是心理视觉冗余的, 去除这些信息并不会明显地降低所感受到的图像的质量。 d :编码冗余。如果对图像的所有信息都使用相同长度的符号进行表示,将 使用较多的比特才能够完全表示图像中的灰度和颜色信息。例如,对于2 n 个灰度 级使用自然码进行编码,平均码字长度为n 。为有效表示图像信息中的像素点, 理想情况是按照像素信息熵的大小为其分配相应的比特数。而在实际情况中,很 难计算得知像素的具体信息熵。在进行图像的采样和量化时一般的方法是对所有 的像素都分配相同的比特数,此时编码所用的码本不能使平均比特数达到或接近 熵值。在这些情况下必然存在熵编码冗余。在随机过程的统计特性基础上,研究 者们提出了一系列熵编码算法,并在实际中得到了广泛应用。 一个典型的视频编码系统由如下各部分组成:视频编码器,视频解码器,信 道编码器,信道解码器。图1 1 【1 7 】给出了视频编解码系统的原理框图,当输入视 频信号送入编码器后,编码器根据当前帧和相邻帧进行编码产生1 组码字,这组 码字再进一步被信道编码器编码后进入通信信道。通过通信信道传输后被依次送 入解码器中的信道解码器和信号解码器,重建原始视频图像。此时所获得的视频 图像可以是与原始输入视频完全一致的( 无损编码) ,也可以是原始输入视频的 近似图像( 有损编码) 。 编码器 解码器 嗣眶亘垂 唾垂画畸 图1 1视频编码系统模型 编码器由信源编码器和信道编码器两部分构成。信源编码器的作用是在保证 传输视频质量的前提下尽可能减少输入视频信号的各类冗余。输入数据首先经过 图像变换以减少像素间冗余。量化过程根据所设定的保真度追则去除数据的高频 信息,用以降低心理视觉冗余,可以用标量量化器或矢量量化器实现。标量量化 h 2 6 4 a v c 编码模式决策技术研究 对数据逐个进行量化,而矢量量化则对一系列数据同时量化。符号编码器对量化 器输出的每个符号定义相应的码字,生成二进制码流。再使用定长编码或者可变 长编码变长编码等方法完成最终的编码任务。信道编码器则采用纠错编码的方法 增强信源编码器输出抗误码能力。解码器则由对应的信道解码器和信源解码器级 联而成,它们以与编码器中相反的排列次序分别进行符号编码、量化和变换的逆 操作。对于无损编码的应用,由于编码器端没有量化过程,因此信源解码器也无 需对量化进行逆操作。图1 2 给出了信源编码器和解码器的原理框图。 信源编码器 信源解码器 图1 2信源编码器和解码器的原理框图 数据压缩编码技术自s h a n n o n 于1 9 4 8 年创立的信息论开始已有6 0 年历史, 其关键技术经过不断发展大致有以下几种: a :熵编码。s h a n n o n 第一定律( 率失真定律) 【l5 】确定了在编码过程中不损 失任何信息,即在无损编码条件下数据压缩的理论极限是信息的熵,并指出了如 何建立最优数据压缩编码方法。这类保存信息熵的编码方法通称为熵编码 ( e n t r o p yc o d i n g ) ,熵编码结果经解码后可无失真地恢复出原始信息。编码的基 本思想就是用较少的比特数表示出现概率较大的灰度级,而用较多的比特数表示 出现概率小的灰度级,就能达到数据压缩的效果。常用的熵编码算法主要包括哈 夫曼编码( h u f f - m a nc o d i n g ) ,算术编码( a r i t h m e t i cc o d i n g ) 和游程编码( r u n l e n g t h c o d i n g ) 3 类。由于熵编码算法本身不会造成信息的损失,因此仍然属于无损编 码的范畴。 b :变换编码。图像变换是视频编码系统的核心组成部分,基于变换的编码 方法也是目前图像编码和视频编码方法的主流,如视频编码标准m p e g x 和 h 2 6 x ,静止图像压缩标准j p e g 、j p e g 2 0 0 0 都采用的是基于变换的编码框架。 变换将在空间域内以像素灰度值形式表示的图像信息变换到频域中,以变换系数 的形式加以表示。变换能够有效减少图像空域中像素之间的相关性,从而有效地 消除图像的空间冗余;另一方面变换后图像信号的能量主要集中在低频部分,能 量密度随频率的升高而迅速下降,考虑到人类视觉系统对于高频信号不敏感的特 性,变换后利于针对不同频率的信号进行量化、游程编码和熵编码,从而达到数 据压缩的目的。此外变换后的系数还具有较强的抗干扰能力。对高质量的视频图 第一章绪论 像,预测编码一般要求信道误码率 1 0 6 ,而变换编码仅要求信道误码率 1 0 - 4 即 可。视频信号处理中常用的变换算法有w h t ( 沃尔什哈达马变换) ,d f t ( 离 散傅立叶变换) ,d c t ( 离散余弦变换) 和d w t ( 离散小波变换) 等。在最新 的国际视频编码标准h 2 6 4 a v c 中使用了新型整数变换取代了d c t 变换,使得 整个整数变换和量化过程可以通过1 6 位的算术运算完成,且不使用乘法运算。整 数变换算法能够在不影响编码性能的前提下,有效降低计算复杂度,提高编码效 率。 c :量化。量化的目的就是将在较大值域x 的信号变换、减小至较小的值域 y 中。与原来x 值域中的信号相比,要保证在值域y 中使用更少的比特数来表示 信号,从而起到减少数据量的目的。量化可以分为标量量化( s c a l a rq u a n t i z a t i o n , s q ) 和矢量量化( v e c t o rq u a n t i z a t i o n , v q ) 两类。标量量化是最基本的量化方法, 它将信源信号中的每个数值量化为预先设计码表中的重建值之一。从数学意义上 分析,标量量化过程可以看作将一个幅度值的连续无限数集合映射成一个离散幅 度值的有限数集合。矢量量化是上世纪7 0 年代后期发展起来的一种量化方法,其 思想是将若干个标量数据组构成一个矢量,然后在矢量空间给以整体量化,从而 以损失较少信息的代价获得数据量的有效压缩。在解码端,每个矢量被反映射为 原始输入标量数据的近似。这组矢量同时保存在编码端和解码端,作为一个码表。 矢量量化不仅仅可以作为量化器,也是一种有效的压缩编码方法。在矢量量化编 码中将输入数据组看成一个k 维的矢量, 率失真理论证明:即使对于无记忆信源, 化。 然后以矢量为单位逐个矢量进行量化。 矢量量化编码的效率也总是优于标量量 d :运动补偿。运动补偿是当前视频图像压缩技术中使用最普遍的方法之一。 包括: a ) 运动补偿预测 视频的相邻帧间的运动部分具有连续性,即当前画面上的图像可以看成是前 画某时刻画面上图像的位移,位移的幅度值和方向在画面各处可以不同。利用运 动位移信息与前面某时刻的图像对当前画面图像进行预测的方法,称为前向预测。 反之,根据某时刻的图与位移信息预测该时刻之前的图像,称为后向预测。 b ) 运动补偿插值 以插补方法补偿运动信息是提高视频压缩比的最有效措旋之一。在时域中插 补运动补偿是一种多分辨率压缩技术。例如1 1 5 秒或1 1 0 秒时间隔选取参考子 图,对时域较低分辨率子图进行编码,通过低分辨子图反映运动趋势的附加校正 信息( 运动矢量) 进行插值,可得到满分辨率( 帧率1 3 0 秒) 的视频信号。插值 运动补偿也称为双向预测,因为它既利用了前面帧的信息又利用了后面帧的信息。 h 2 6 4 a v c 编码模式决策技术研究 1 2 2 视频编码国际标准的发展 视频压缩编码标准主要包括由国际电信联盟( i n t e r n a t i o n a lt e l e c o m m u n i c a t i o n u n i o n ,i t u ) 所制定的h 2 6 x 系列标准,以及由国际标准化组织( i n t e r n a t i o n a l s t a n d a r d i z a t i o no r g a n i z a t i o n i s o ) 和i e c ( i n t e r n a t i o n a le l e c t r ot e c h n i c a lc o m m i s s i o n , 国际电工委员会) 的共同委员会中的m p e g 组织( m o v i n g p i c t u r ee x p e r t g r o u p ) 所制定的m p e g x 系列标准。这些视频编码标准都是根据在人们不同领域中对数 字音视频数据的要求所制定的,图1 3 按照制定时间顺序大致描述了现有国际视 频编码标准的发展历程。 l l 舭6 - ii h 2 6 3 h 2 6 3 + 耻斛i i 1 1 1 j t i 卜gi 眦6 2 ,m 脚一2 i h 2 6 4 i 1m ,。1 m p e 叫 i l m p e gm p e g 7 l 1ii 1 9 8 4 1 9 8 61 9 8 81 9 9 01 9 9 21 9 9 41 9 9 61 9 9 82 0 0 02 0 0 22 0 0 4 图1 3视频编码国际标准的发展 为更加清晰的描述出各种编码标准在不同领域所起的作用,对其功能和应用 领域归总如表1 1 所示。 表1 1 视频编码国际标准的功能与应用 编码标准 全称传输码率主要应用领域 h 2 6 1 p x 6 4 k b p s 的音视频服务的编 p x 6 4 k b p s i s d n 视频会议 解码 ( p = l 3 0 ) m p e g 1 面向数字存储的运动图像及其 1 5 m b p s 数字激光视盘v c d ,c d 伴音的编码 r o m m p e g 2 运动图像及其伴音信息的通用 4 10 0 m b p s d v d ,卫星广播业务( b s s ) , 编码高清晰度电视( h d ) ,视频点 播系统( v o d ) ,数字声音广播 ( d a b ) 。 h 2 6 3 低比特率通信的视频编码 低于6 4 k b p s 远程视频监控,可视电话,电 视会议 m p e g 4 音视频对象的通用编码 小于6 4 k b p s i n t e r n e t 通讯,无线通讯,2 d 3 d 6 4 - 3 8 4 k b p s 计算机图像交互式视频 3 8 4 k - 4 m b p s m p e g 7 多媒体内容描述接口任意多媒体检索 h 2 6 4 a v c 高级视频编码算法任意未来的视频编码工业标准 下面分别对各个阶段出现的图像和视频编码技术作简要介绍: 第一章绪论 1 m p e g 1 标准及m p e g 2 标准 m p e g 1 标准【i 】于1 9 9 2 年出版,目标是“当数据率为1 5 m b p s 时,用于数字 存储媒体的动态图象及其伴音的编码”。在m p e g 1 中,首次提出了“流” ( s e q u e n c e ) 的数据结构,使视频数据的描述更加完善。为了解决随机访问和高 效压缩的要求冲突,在m p e g 1 中定义了四种主要的图像类型:i 帧,p 帧,b - 帧和d 图像。i 帧只使用帧内编码,必须传递,而p 帧和b 帧分别用于前向预 测和双向预测,d 图像用于甚低频率的浏览。m p e g 1 的视频压缩中主要用到两 项基本技术:一是基于1 6 x 1 6 块运动补偿,适用于预测编码和插补编码,用于减 少帧序列的时间冗余度;另一种是基于变换域( d c t ) 的压缩技术,用于减少空 间冗余度。在m p e g 1 中,d c t 不仅使用于帧内压缩,而且对帧间预测误差再作 d c t 变换,以达到进一步压缩的目的。 m p e g 2 e 2 】的正式名称为“i s o i e c1 3 8 1 8 :运动图像和相关声音信息的一般编 码方法”,其第一版草案制定于1 9 9 2 年,1 9 9 4 正式颁布成为国际标准。m p e g 一2 是针对标准数字电视和高清晰度电视在各种应用下的压缩方案和系统层的详细规 定,也是国际主流的s d t v 和h d t v 的编码标准。 2 m p e g 4 及m p e g 7 标准 m p e g - 4 3 】标准于19 9 8 年1 2 月正式公布。主要用于6 4 k b p s 以下的低速率音 视编码,以使用于窄带多媒体通信等领域。在m p e g - 4 中,将压缩编码的重点集 中到了基于内容的压缩方法上,以满足将视频信息的应用由播放型转向基于内容 的访问和操作型的要求。 为了支持对动态视频的访问,m p e g 4 中引入了对象( o b j e c t ) 的概念,实 际上就是用物体基方法得到的分层区域。因此,物体基方法是基于内容压缩编码 方法中的一类主要算法。 m p e g 4 是一个开放型的标准,对具体的算法不作规定,可以认为是一个工 具箱,可以不断加入符合描述规则的新的好的算法。目前提出的以及正在研究的 算法有: a ) 对现有相对比较成熟的“简单帧间预测运动补偿”算法进行改进,使成为 基于对象的编码算法。 b ) 基于模型的分析合成算法。 c ) 基于小波变换的编码。 d ) 基于分型的编码算法。 m p e g 7 ( 多媒体内容描述接口) 对m p e g 4 进步完善,使标准更加适合 h 2 6 4 a v c 编码模式决策技术研究 新一代的网络发展,为各种媒体信息规定一种标准化的描述,这样,这种描述与 媒体内容有着更紧密的联系,支持用户更方便有效地检索和利用信息。 3 h 2 6 3 标准 i t u t 于1 9 9 6 年3 月正式通过h 2 6 3 4 】国际标准,其正式名称为“低比特率通 信的视频编码”,主要用于电视会议、可视电话等视频通信业务,它的出现使得在 码率低于6 4 k b p s 的公用电话交换网( p s t n ) 和无线网络上传送质量较好的音频 信息成为可能。 h 2 6 3 支持5 种图像格式:s u bq c i f ( 1 2 8 x 9 6 ) 、q c i f ( 1 7 6 x 1 4 4 ) 、c i f ( 3 5 2 x 2 8 8 ) 、4 c ( 7 4 0 x 5 7 6 ) 、1 6 c i f ( 1 4 0 8 x 1 1 5 2 ) ,采样格式为4 :2 :0 。 h 2 6 3 编码系统包括视频编码系统和视频解码器,编码器部分主要包括变换、 量化、运动估计与补偿和熵编码等几个功能模块。解码部分可以看作是编码器的 逆过程,但并非完全对称。在解码器端无需进行运动估计,所以解码器的运算量 远远小于编码器的运算量。h 2 6 3 标准的关键技术包括运动估计、变换与量化、 可变长熵编码( v l c ) 编码。 4 h 2 6 4 a v c 标准 在制定h 2 6 3 标准后,2 0 0 3 年3 月,由i t u t 的v c e g 和i s o 的m p e g 成 立的联合视频专家组( j v t ) 共同提出一项视频编码新标准,r r u t 将该标准命名为 “h 2 6 4 建议”,i s o 将其作为m p e g 4 的第十部分,称之为“i s o i e c1 4 4 9 6p a r t l 0 高级视频编码算法”( i s o i e c1 4 4 9 610a v c ) 。图1 4 直观的表达了h 2 6 4 a v c e 5 】 的发展历程。 图1 4h 2 6 4 a v c 发展历程 h 2 6 4 主要支持4 :2 :0 格式的连续或隔行视频的编码与解码,其它格式如4 :2 :2 和4 :4 :4 可以作为额外的参考信息参数。编码图像类型除了i 帧、p 帧和b 帧之外, 第一章绪论 还新定义了s p 帧和s i 帧,用以实现不同传输速率、不同图像质量码流间快速切 换以及信息丢失的快速恢复等功能。 h 2 6 4 标准从概念上将编码结构分为两层:上层为视频编码层( v c l ) ,底层 为网络抽象层( n a l ) 。v c l 负责完成高效率的视频压缩任务,而n a l 将v c l 从具体的传输层中抽象出来,负责解决网络的适配问题,即根据使用环境对不同 网络采用最为合适的方式对数据进行打包和传送,以使得码流适应各类信道。 n a l 以n a l u 为单元,支持编码数据在大多数基于包交换技术网络中进行传输。 h 2 6 4 的双层系统结构使得每一层更侧重于自身功能的实现,从而优化了整个编 码系统。 h 2 6 4 编码器仍以经典的运动补偿混合编码算法为核心,具备良好的兼容性 和可移植性。其关键技术包括:整数变换算法、可变块运动估计与补偿算法、多 参考帧的帧间预测算法、空域帧内预测算法、去块滤波器、通用可变长编码 ( u v l c ) 编码算法和基于上下文的自适应可变长编码( c a b a c ) 编码算法等l l 引。 下一章将对h 2 6 4 标准及其关键技术做出更加具体的介绍。 1 3 i 研究工作概述 1 3 研究工作概述及章节安排 通过对视频编码技术和国际编码标准的介绍,可以看出h 2 6 4 a v c 是最新的 视频编码国际标准,随着h 2 6 4 标准的出现,目前很多学者都在研究其关键新技 术和改进方法。h 2 6 4 标准在编码效率上比以往标准要提高l 倍以上,在相同图 像质量的情况下,它比h 2 6 3 编码至少减少5 0 以上的码率f l 卜1 3 】。 但是,通过这些关键技术实现的编码效率的提高在很大程度上是依靠复杂的 算法和细化的分块实现的,这就注定了h 2 6 4 会比以往任何编码标准有更长的编 码时间。h 2 6 4 编码时间约为h 2 6 3 的1 4 倍,如此长的编码时间使得在系统计算 资源有限的情况下很难实现,从而限制了h 2 6 4 在实时系统中的应用。 所以,对h 2 6 4 关键技术的研究和改进,主要方面应该是在不影响编码效率 的前提下减少其编码时间。 本文通过研究h 2 6 4 a v c 标准的关键技术开始,研究了帧内预测模式选择方 法和帧间预测模式选择方法,并提出了具体改进算法,具体工作如下: ( 1 ) 学习h 2 6 4 a v c 视频编码标准,研究了视频编码中用到的基本概念和 技术,分析了编码器和解码器的原理和实施方案,并着重对i - i 2 6 4 最新关键技术 做了学习和研究。 ( 2 ) 学习和研究了h 2 6 4 编码模式,对帧内编码模式选择和帧间编码模式选 h 2 6 4 a v c 编码模式决策技术研究 择方法【1 4 】做了细致的总结和分析,得出其编码效率的提高来源于编码算法的复杂 度提高这一结论。 ( 3 ) 提出基于h 2 6 4 的模式决策改进算法,提出树状帧间模式预测方案,将 帧间模式预测视为主体算法,包含帧内模式预测,并提出了专门针对帧内模式预 测的算法。 ( 4 ) 在h 2 6 4 仿真平台j m l 0 2 上面,对上述的改进算法进行仿真,得出仿 真结果并加以分析。 1 3 2 章节内容安排 本文从视频编码技术和标准开始,主要研究了最新的国际视频编解码标准 h 2 6 4 a v c ,并在其关键技术中选取两个关键技术:帧内预测和帧间预测进行研 究,对帧内预测和帧间预测时的模式选择方法提出改进算法并仿真实现。具体章 节安排如下: 第二章介绍了最新的视频编解码标准h 2 6 4 a v c ,包括其先进性的介绍,以 及档次等级和层次结构,编码器原理以及解码器原理的介绍,关键技术介绍等内 容。 第三章介绍了h 2 6 4 a v c 标准中的关键技术模式决策方案,其中包括 h 2 6 4 a v c 标准对模式决策所采取的基本算法,模式决策分类,帧间模式决策和 帧内模式决策,以及本文对模式决策所采取的整体决策方案。 第四章介绍了帧内模式决策改进算法,包括帧内模式决策改进算法所用到的 理论和准则,帧内模式决策算法的流程,对算法的仿真结果和对实验结果的分析 结论。 第五章介绍了帧间模式决策改进算法,包括帧间模式在编码器中的主导作用 介绍,帧间模式决策用到的关键算法介绍,以及对帧间模式决策算法的仿真结果 和对实验结果的讨论等。 第六章对全文算法进行了总结,并提出了需要进一步完善的地方。 第二章h 2 6 4 a v c 视频编码技术 第二章h 2 6 4 a v c 视频编码技术 2 1 概述 h 2 6 4 a v c 是视频编码国际标准发展至今产生的最为先进的视频编解码标 准,在吸取了以往编码标准中先进和实用的技术的基础上,提出了满足更多需求 的新的关键技术,使得它在编码效率和压缩比率上远远超过了以往任何一种编码 标准,此外,它在网络自适应性和传输可靠性上也有很大的提升。 在编码方式上,h 2 6 4 标准吸取了以往编码标准的优势,在进行运动估计后 进行量化、变换以及熵编码等操作,过程简单实用,具备良好的兼容性和可移植 性,但是在这些大的算法框架下提出很多新的关键技术,对视频编码流的时间和 空间冗余进行更加细化的去除,这些关键技术包括帧内预测技术,可变块运动估 计技术,多参考帧的帧间预测技术,高精度运动估计技术,新的熵编码技术,去 块滤波技术以及在扩展档内应用到的s i s p 帧技术,这些新的关键技术使得视频 的编码效率以及传输过程中抗误码性能得到了很大提高。 在网络应用方面,h 2 6 4 标准从概念上将网络层单独划分出来,形成了网络 抽象层( n a l ) 这个概念,使得在编码视频流和实际网络之间可以通过一个具体 的接口进行转换和传输,对其它传输协议如h 3 2 0 、m p e g - 4 、h 3 2 3 口、m p e g 2 等等【l5 】可以正确的映射编码数据信息,具备了良好的网络适应性能。 h 2 6 4 标准通过其优异的压缩性能和网络传输性能,使其在视频压缩领域以 及视频监控、网络视频直播、视频会议、视频会议电话、无线移动视频通讯、高 清晰度数字电视等方面发挥着重要作用【l s 】。首先,h 2 6 4 的高压缩性能有利于在 数字电视和高清数字电视上的应用,h d t v 的出现使得数字电视的压缩成本和传 输成为关键,而h 2 6 4 通过比以往任何标准都高效的压缩技术使其成为现实。其 次,视频通信是h 2 6 4 标准的另一个重要应用领域,其中包括可视电话,电视会 议,远程教学,远程医疗等等,其优点在于不受低带宽的限制和桌面环境的限制, 易于普及和实现。h 2 6 4 还有一个重要的应用领域,即网络流媒体,如网络电视 ( i p t v ) 和视频点播( v o d ) ,由于其在网络适应性、差错控制和码率恢复方面 等关键技术,使得网络流媒体的快速发展值得期待。 h 2 6 4 a v c 编码模式决策技术研究 2 2 编解码原理 h 2 6 4 a v c 编码标准的核心就是其编码器和解码器,采用的仍然是经典的运 动补偿混合编码算法,包括了残差块计算,变换,量化和熵编码等几个过程,编 码图像仍被分为为3 种类型( i 帧,p 帧和b 帧) 。但是,与以往标准不同的是, 在编码的每个环节,h 2 6 4 都有新的技术和算法来实现或者补充以往算法的不足, 甚至在视频编码的概念上,还提出了新的分层概念,将编码和码流传输视为两个 过程进行处理,而在帧类型上,又添加了新的s p s i 帧。下面先介绍一些常用的 基本概念。 2 2 1 基本概念 1 宏块、片及帧 宏块指在基于像块的视频编码机制中,每个视频帧被分成许多1 6 x 1 6 的矩阵 或者象素块,称为宏块( m b ) 。采样后的视频图像( 包括帧和场图像) 都被分成 1 6 x 1 6 的宏块,一个宏块由一个1 6 x 1 6 亮度像素和附加的一个8 x 8c b 和一个8 x 8 c r 彩色像素块组成。一帧c i f ( 3 5 2 x 2 8 8 ) 格式的图像分为1 8 x 2 2 = 3 9 6 个宏块, 一帧q c i f ( 1 7 6 x 1 4 4 ) 格式的图像被分为9 x 1 1 = 9 9 个宏块。若干个宏块又组成了 宏块组,称为片( s l i c e ) 。每个图像由若干片组成,在视频流中称为一帧( f r a m e ) 。 h 2 6 4 a v c 中常用的帧为i 帧,p 帧以及b 帧。采用帧内编码模式的视频帧 就叫做i 帧。p 帧是从先前重构的i 帧或者p 帧经过预测得到的视频帧。b 帧是从 先前重构帧( i 或p 帧) 和正在编码的p 帧进行双向预测得到的视频帧。 i 片只包含i 宏块,p 片可包含p 和i 宏块,而b 片可包含b 和i 宏块。 i 宏块利用从当前片中已解码的像素作为参考进行帧内预测( 不能取其它片中的 已解码像素作为参考进行帧内预测) 。p 宏块利用前面已编码图象作为参考图像 进行帧内预测,一个帧内编码的宏块可迸一步作宏块的分割:即1 6 x 1 6 、1 6 x 8 、8 x 1 6 或8 x 8 亮度像素块( 以及附带的彩色像素) ;如果选了8 x 8 的子宏块,则可再分 成各种子
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 文化创意产业园区建设项目申请报告:2025年运营模式探讨
- 2025年初级会计职称初级会计实务历年模拟真题(附答案)
- 2024年南昌临空经济区城市建设投资开发集团有限公司招聘真题
- 2025年甘肃省定西市警(协警)招聘考试题库及答案
- 2025年辅警职业心理测试题及答案
- 教师招聘之《小学教师招聘》考前冲刺模拟题库提供答案解析附答案详解【综合题】
- 2025年教师招聘之《小学教师招聘》通关练习试题附参考答案详解【突破训练】
- 2025年1月1+X母婴(中级)模拟练习题(含答案)
- 2025内蒙古维拉斯托矿业有限公司招聘6人笔试备考及参考答案详解一套
- 2025年教师招聘之《小学教师招聘》题库检测试卷附参考答案详解【考试直接用】
- 大脑动脉狭窄脑梗死的护理查房
- T-GDPIA 21-2020 高转速高转矩同向双螺杆挤出机
- 创伤性窒息护理课件
- 人口老龄化对寿险产品需求结构的影响
- 最常用2000个英语单词-电子表格版
- 老年人常见疾病预防知识讲座
- 《解决方案营销》节选版
- 流感传染的预防与护理知识培训课件
- 秋季慢性病知识讲座
- 2024年全国高考体育单招考试语文试卷试题(含答案详解)
- 《西方经济学》(下册)课程教案
评论
0/150
提交评论