




已阅读5页,还剩70页未读, 继续免费阅读
(通信与信息系统专业论文)avs标准的帧内预测技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 在过去l o 年左右的时间里,多媒体技术得到了长足的发展。今天,视频处 理已经处于多媒体的核心地位。但由于数字视频巨大的数据量,使其成为制约视 频处理的瓶颈。正因如此,使得视频编码及标准化成为视频处理发展的关键问题。 我国于2 0 0 2 年6 月成立了“数字音视频编解码技术标准工作组”,联合国内 从事数字音视频解码技术研发的科研机构和企业,制定具有我国自主知识产权的 数字音视频编解码标准一一a v s 标准。2 0 0 3 年底完成的a v s l 0 标准具有性能高、 复杂度低等优点,具有广阔的发展前景。论文针对a v s 视频标准关键技术之一 的帧内预测技术进行了深入的研究。论文的主要工作和成果包括: ( 1 ) 由于帧内预测可以充分利用相邻像素块的空间相关性,降低冗余度,使得 引入了帧内预测技术的h 2 6 4 和a v s 标准的i 图像编码性能比直接使用 d c t 变换性能提高了1 0 1 5 。论文对这两个标准的帧内预测方法进行了 深入的研究,并比较了两者的性能。 ( 2 ) 由于a v s 帧内预测存在预测模式较少、相关性不足的问题,对编码性能 带来了一定的影响。论文针对这个问题,提出了一种改进的帧内预测方法, 利用邻近点作为参考点来递推预测值。 ( 3 ) 在a v s 的参考编码器r m 5 0 的基础上实现了支持论文提出的帧内预测算 法的a v s 编码器,通过实验使用a v s 参考视频序列进行了性能测试,并 与r m 5 0 参考编码器性能进行了比较。实验结果表明,该算法提高了a v s 帧内预测的性能。 关键词:视频压缩编码、a v s 、h 2 6 4 、帧内预测 a b s t r a c t i nt h ep a s t1 0 y e a r s ,m u l t i m e d i at e c h n o l o g yg o tt h er a p i dd e v e l o p m e n t v i d e o p r o c e s s i n gh a sb e e np l a c e di nt h ec o r ep o s i t i o no fm u l t i m e d i a b e c a u s eo ft h el a r g e a m o u n to ft h ed a t ai nav i d e o s e q u e n c e ,i t r e s t r i c t st h e d e v e l o p m e n to fv i d e o p r o c e s s i n g d i g i t a lv i d e oc o d i n ga n di t s s t a n d a r d i z a t i o na r et h ek e yt e c h n o l o g i e so f v i d e o p r o c e s s i n g a v sv i d e os t a n d a r di sd e v e l o p e db yt h ea u d i ov i d e oc o d i n gs t a n d a r dw o r k i n g g r o u po fc h i n a ,w h i c hw a sa p p r o v e d i nj u n e2 0 0 3 a v s w o r k i n gg r o u ph a sf i n i s h e d t h ef i r s tv e r s i o no fa v sv i d e os t a n d a r di n2 0 0 3 a v sv i d e os t a n d a r dp r o v i d e sa g o o d t r a d e o f fs o l u t i o nb e t w e e n c o m p l e x i t ya n dc o d i n ge f f i c i e n c y t h i sd i s s e r t a t i o nf o c u s e s o nt h es t u d yo fi st h ek e yt e c h n o l o g yo fa v sv i d e os t a n d a r d i n t r ap r e d i c t i o n t h e m a i na c h i e v e m e n t so ft h i sd i s s e r t a t i o ni n c l u d e : 1 i n t r ap r e d i c t i o nc a nr e d u c et h es p e c i a l r e d u n d a n c yo ft h ev i d e os e q u e n c e t h e c o d i n ge f f i c i e n c y o fif r a m ei nh 2 6 4a n da v s ,w h i c hu s ei n t r a p r e d i c t i o n t e c h n o l o g y , i sh i 曲e r1 0p e r c e n tt o1 5p e r c e n tt h a nt h ee f f i c i e n c yi nt h es t a n d a r d w h i c hu s e st h ed i r e c td c tt r a n s f o r m a t i o n i nt h i sd i s s e r t a t i o n ,w ed e e p l ys t u d y t h em e t h o do fi n t r ap r e d i c t i o ni nh 2 6 4a n da v s w ea l s oc o m p a r et h ec o d i n g e f f i c i e n c yb e t w e e n t h e s es t a n d a r d 2 b e c a u s et h em o d eo fi n t r a p r e d i c t i o ni na v s i sf e wa n di tc a n t f u l l yu s et h e r e l a t i v i t y i n i m a g e ,t h ep r e d i c t e dv a l u e sa r en o te x a c t i nt h i sd i s s e r t a t i o n ,w e i n t r o d u c ean e wm e t h o do fi n t r a p r e d i c t i o n i t u s e st h e n e i g h b o r i n gp i x e l s t o r e c u r s i v e l yp r e d i c tt h ec u r r e n tp i x e l s 3 w e i m p l e m e n t aa v se n c o d e rw h i c hf u l f i l st h e p r e v i o u sm e t h o do fi n t r a p r e d i c t i o n i ti sb a s e do nr m 5 0 i no r d e rt op r o v et h ee f f i c i e n c yo ft h i se n c o d e r , w eu s ei tt oc o d et h er e f e r e n c e dv i d e os e q u e n c e t h ee x p e r i m e n t a lr e s u l t ss h o w t h a tt h ee f f i c i e n c yo ft h i se n c o d e ri sh i 曲e rt h a nt h e e f f i c i e n c yo f r m 5 0 k e y w o r d :v i d e oc o d i n g ;a v s ;h 2 6 4 ;i n t r ap r e d i c t i o n 第1 章绪论 1 1选题的意义及当前的研究现状 在过去1 0 年左右的时间里,在多媒体表示和通信领域取得了惊人的进展, 显而易见,媒体的所有方向正在“进入数字化”:从表示到传输,从处理到检索, 从演播室到家庭。而且,超大规模集成电路技术的发展也使复杂的多媒体处理算 法可以经济有效地用硬件实现。同时,无线和网络技术的爆炸性发展深刻地改变 全球通信的基础结构。无线、多媒体和网络的融合将彻底改变人们进行商务活动 和彼此间通信的方式。随着多媒体的逐步渗透,视频、图形、计算机视觉、多媒 体数据库和计算机网络之间的界限开始变得模糊了,使得视频处理成为一个多学 科的激动人心的领域。今天,视频处理已经处于多媒体的核心地位。 目前,数字视频应用的主要瓶颈是其庞大的数据量,比如c d 音质的数字 音频,采样频率4 4 1 k h z ,每个采用点的值用1 6 b i t 来表示,其码率大约为 7 0 0 k b i t s 。而符合6 0 1 标准的演播室质量的数字电视信号,p :a l 制,7 0 4 5 7 6 , 每秒5 0 场,每个像素1 6 b i t ,码率高达1 6 0 m b i t s 1 13 1 。数字高清晰度电视信号的 数据量就更庞大了。这给数字视频的存储、传输和处理带来极大困难。因此,数 字视频压缩编码技术是数字视频的核心技术。 在视频处理众多技术中,视频编码及其标准化在这些发展中无疑起着关键 性的作用。可靠传输、高质量视频、带宽节省、带宽有效利用( 均匀复用、信源 信道联合编码) 、操作交互、内容交互、特技功能等都要靠视频编码技术才能实 现。经过数十年的研究,人们制定了多个数字图像视频编码标准,其中以1 1 r u t 制定的h 2 6 x 系列和i s o 制定的m p e g 系列视频编码标准使用最为广泛。两个 组织制定的标准如图1 1 所示【5 1 。 1 9 8 41 9 8 61 9 8 81 9 9 01 9 9 2 1 9 9 41 9 9 61 9 9 82 0 0 02 0 0 2 2 0 0 4 图1 1 视频编码标准发展过程 中山人学碗士论文 我国于2 0 0 2 年6 月成立了“数字音视频编解码技术标准工作组”( 简称a v s 工作组) ,联合国内从事数字音视频解码技术研发的科研机构和企业,制定具有 自主知识产权的数字音视频编解码技术标准( 称为a v s 标准) 。2 0 0 3 年底完成 的a v s l 0 视频标准具有以下4 个特点1 5 j : ( 1 ) 性能高。在h d t v 视频编码性能上与最新的国际标准h 2 6 4 相当,比 m p e g 2 高两倍以上; ( 2 ) 复杂度低。算法的复杂度比h 2 6 4 低: ( 3 ) 实现成本低,软件和硬件实现成本都比h 2 6 4 低: ( 4 ) 专利授权模式简单,费用明显低于同类标准。 在当今的国际视频编码标准技术中,其核心基本上都是基于块的时间预测 和变换编码。在这种编码器中,每个视频帧被分成固定大小的块,且对每个块联 合应用运动补偿时间预测和变换编码进行编码的。一个帧能够以帧内模式整个地 进行编码,这样的帧称为i 帧,对i 帧编码的方法称为帧内编码。使用过去的帧 作为参考帧进行编码的帧称为p 帧,使用过去的帧与未来的帧进行双向预测编码 的帧称为b 帧,对p 帧和b 帧编码的方法统称为帧间编码。帧间编码主要采用 运动估值和运动补偿技术来消除视频的时间冗余,而帧内编码主要采用帧内预测 和变换编码技术来消除帧图像的空间冗余。 在帧内编码中,帧内预测技术利用同一图像内的空间相关性,对降低帧图 像的码率,从而提高视频压缩性能起着极其重要的作用。以最新的视频编码标准 h 2 6 4 为例,帧内预测技术使得全帧内编码的视频质量甚至超过了j p e g 和 j p e g 2 0 0 0 标准n 在a v s 标准中,同样也应用了类似于h 2 6 4 标准的帧内预测 方法。采用8 8 块作为预测单元,使用5 种帧内预测模式进行亮度块的帧内预测, 使用4 种模式进行色度块的帧内预测。但a v s 的帧内预测方法存在以下问题: ( 1 ) 相关性不够。由于a v s 采用了8 x 8 的亮度块进行帧内预测,对比于h 2 6 4 采用的4 x 4 的块,对距离参考点较远的点的预测质量将大大下降,直接影 响到帧内编码的码率。 ( 2 )没有考虑参考点与样本点之间的距离差异。a v s 的帧内预测中有部分模 式需要上面和左面的参考点进行平均来得出预测值,但由于样本点与上 面、左面参考点的距离不同,简单的平均必然影响到预测的精度。 ( 3 ) 帧内预测模式过少。a v s 采用5 种帧内预测模式,对比h 2 6 4 的9 种帧 内预测模式,缺少对部分方向的支持,降低了预测的性能。 综上所述,a v s 视频标准作为我国具有自主知识产权的视频编码标准,其 发展对于我国的数字视频业务具有极其重要的意义,而在a v s 标准中采用的帧 内预测技术对标准的性能和效果具有相当的影响。因此,论文的研究有着重要的 现实意义。 2 第一章绪论 1 2论文的主要工作和成果 论文针对a v s 帧内预测存在的问题,着重考虑帧内图像相邻点的相关性, 研究新的帧内预测算法。主要的工作和成果包括: ( 1 )以往的图像视频标准中,通常采用直接对图像以块为单位进行直接d c t 变换,而在h 2 6 4 和a v s 中,引入了帧内预测技术,使得i 图像的编码 性能提高了1 0 1 5 。论文对这两个标准的帧内预测方法进行了深入研究, 并对两者的性能进行了比较。 ( 2 )由于a v s 帧内预测方法存在的预测模式较少、相关性不足的问题,影响 了编码性能。论文针对上述问题,提出了一种利用邻近点作为参考点的帧 内预测算法,能有效地提高a v s 帧内编码性能。 ( 3 ) 在a v s 的参考编码器r m 5 0 的基础上实现了支持论文提出的帧内预测算 法的a v s 编码器,通过实验使用参考视频序列进行了性能测试,并与 r m 5 0 参考编码器性能进行了比较。实验结果表明,该算法提高了a v s 帧内预测的性能。 1 3论文的内容安排 论文的内容安排如下: 第1 章绪论。论述了选题与研究的意义,相关研究的发展现状及存在的问 题;并列明了论文的研究成果和内容安排。 第2 章视频压缩编码技术。首先对视频压缩编码原理进行了简单的叙述; 然后以h 2 6 4 标准为例介绍了最新视频压缩编码的结构与技术。 第3 章a v s 标准介绍。对a v s 标准的结构和技术进行了较全面的介绍。 第4 章帧内预测技术研究。对h 2 6 4 和a v s 标准的帧内压缩技术作了深入 的研究,并详细描述了论文提出的改进帧内预测算法。 第5 章帧内预测实验与结果。论文在a v s 的参考编码器r m 5 0 的基础上实 现了支持新的帧内预测算法的a v s 编码器,并使用参考序列与r m 5 0 作了比较。 本章给出了实验参数和实验结果,并对结果进行了分析讨论。 第6 章总结。总结了论文的工作,提出了不足之处和今后研究的方向。 最后是参考文献、致谢与声明。 第2 章视频压缩编码技术 2 1 视频压缩编码基本结构 视频编码算法的组成在很大程度上是由视频序列建模所采用的信源模型确 定的。视频编码器寻求用它的信源模型描述视频序列的内容。信源模型可做出图 像序列的像素之间在时间和空间上的相关性假设,它也可考虑物体形状和运动或 照度的影响。在图2 1 中,我们给出一个视频编码系统的基本组成。在编码器中, 首先用信源模型的参数描述数字化的视频序列。如果我们使用像素统计独立的信 源模型,那么这种信源模型的参数就是每个像素的亮度和色度的幅度。另一方面, 如果我们使用把一个场景描述成几个物体的模型,那么参数就是各个物体的形 状、纹理和运动。下一步,信源模型参数被量化成有限的符号集。量化参数取决 于比特率与失真间所期望的折中。最后,用无损编码技术把量化参数映射成二进 制码字;这种技术进一步利用量化参数的统计特性。产生的比特流在通信信道上 传输。解码器反向进行编码器的二进制编码和量化过程,重新得到信源模型的量 化参数。然后,解码器的图像合成算法用信源模型的量化参数计算解码视频帧“。 输入 输出 图2 1 视频编码的基本组成 4 第二章视频压缩编码技术 2 2h 2 6 4 标准哺1 2 2 1概述 r r u - t r e c o m m e n d a t i o nh 2 6 4 ( 即i s o i e c1 4 4 9 6 1 0 ) 是r r u - t 和 s o i e c 联合成立的“联合视频组”( j v t :j o i n tv i d e ot e a m ) 制定的新一代视频编码国 际标准。h 2 6 4 的主要功能目标如下i l 0 j : ( 1 ) 高压缩比,在所有的速率下,比t - l 2 6 3 节省5 0 的比特率; ( 2 ) 采用简洁的设计方式,简单的语法描述,避免过多的选项和配置,尽量利 用现有的编码模块; ( 3 ) 低时延,对不同的业务灵活地采用相应的时延限制; ( 4 ) 加强对误码和丢包的处理,增强解码器的差错恢复能力: ( 5 ) 在编解码器中采用复杂度可分级设计,在图像质量和编码处理之间可分 级,以适应高和低复杂性的应用: ( 6 ) 提高网络适应性,采用“网络友好( n e 聃o r kf r i e n d l i n e s s ) ”的结构和语 法,以适应口网络、移动网络的应用: 2 2 2h 2 6 4 的n a l 和v c l h 2 6 4 算法在概念上可分两层:视频编码层( v c l :v i d e oc o d i n gl a y e r ) 负责高 效的视频内容表示;网络提取层f n a l :n e m o r k a b s t r a c t i o nl a y e r ) 负责以网络所要 求的恰当方式对数据进行打包和传送,h 2 6 4 编码器分层结构如图2 2 所示1 1 0 1 。 控 + 一视频编码层( v c l ) 制 上宏块 数 据 - l 数据分区 丁j r 网络提取层( n a l ) | h 3 2 0 | h 3 2 4l h 3 2 3 i p i h 3 2 4 m l 图2 2h 2 6 4 的分层处理 v c l 层包括基于块的运动补偿混合编码和一些新特性,这些特性在之后将 有具体描述。n al 负责针对下层网络特性,对数据进行封装,包括:成帧、发 5 中山大学硕卜论文 信号给逻辑信道、利用同步信息等。n a l 从v c l 获得数据,包括头信息、段结 构信息和实际负荷信息( 如果采用数据分割技术,净荷数据可能由几部分组成) 。 n a l 的任务就是要正确地将它们映射到传输协议上。n a l 下面是各种具体协议, 如:h 3 2 , 4 、h 3 2 3 等。n a l 层的引入大大提高了h 2 6 4 适应复杂信道的能力。 2 2 3h 2 6 4 的结构 h 2 6 4 标准的编码器结构如图2 3 所示。 图2 3 l 2 6 4 编码器结构 传 输 每帧数据划分为1 6 1 6 的宏块后使用帧内预测或帧间预测方式处理后,对 预测残差进行变换量化,使用熵编码方法编码后向外传输。,并将图像在量化后 经过反量化、反变换后存放在帧缓存中。当需要使用帧内预测方法时,将当前图 像已解码的块预测当前块的参考块,计算预测残差。当需要使用帧间预测方法时, 利用先前图像经去块效应滤波器滤波后进行运动补偿和运动估值处理,得出参考 图像,计算预测残差。 2 2 4 h 2 6 4 的主要技术特点 2 。2 4 1帧间预测 1 - t 。2 6 4 采用树状结构的帧闯运动补偿和1 4 或1 8 像素运动矢量估计,通过 第二章视频压缩编码技术 先前已经编码的帧来建立预测模型i “。h 2 6 4 仍然使用基于块的运动补偿技术, 但它更为精细,使用的运动补偿块尺寸范围有1 6 1 6 、1 6 8 、8 1 6 、8 x 8 、8 x 4 、 4 x 8 、4 x 4 共七种块模式,支持1 4 和1 8 像素精度的运动矢量。 ( 1 ) 宏块分解方式 h 2 6 4 的宏块分解有多种不同模式,如图2 4 所示。在这种方式下,在每个 宏块中可以分解为1 个1 6 x 1 6 块、2 个8 x 1 6 块、2 个1 6 x 8 块、4 个8 8 块,并 拥有与块数相对应的运动矢量。如果宏块被分解为4 个8 8 块,每个8 x 8 块还 可以再分解多个小块,这时宏块拥有和小块数量相对应的运动矢量,如图2 5 所 示。这种多模式的灵活和细致的划分,更切合图像中实际运动物体的形状,大大 提高了运动估计的精确程度。 模式1 2 个1 6 x 1 6 1 个运动矢量 o 1 模式2 2 个1 6 x 8 1 个运动矢量 0l 模式3 2 个8 x 1 6 2 个运动矢量 图2 4 宏块分解模式 o 1 ol ol 23 模式4 4 个8 x 8 4 个运动矢量 o1 23 8 x 88 x 44 x 8 4 x 4 图2 58 8 块分解模式 ( 2 ) 运动矢量精度 h 2 6 4 亮度的运动矢量精度是1 4 像素,而色度的运动矢量精度是1 8 像素。 h 2 6 4 允许非限制的运动矢量,运动矢量可以指向图像以外,这对描述图像的边 界非常有利。而运动矢量的预测不能跨越条带边界。 ( 3 ) 多参考帧预测 在h 2 6 4 中,支持多于一帧的先前帧用于运动估计。在这种模式下,对宏块 进行运动估计时,可在已解码的多幅图像中选择一帧作为参考帧。多参考帧的使 7 中山大学硕j :论文 用提高了编码压缩的性能,显著增强了图像传输的容错性,避免了误差的扩散。 ( 4 ) 运动矢量预测 h 2 6 4 的运动矢量预测是基于被预测块的上、左和右上方的参数块进行的。 对于方形分块,它的运动矢量是其左边、上方和右上方的运动矢量的均值;对于 上下两个1 6 x 8 分块,上方块的运动矢量是其上方的运动矢量,下方块的运动矢 量是其左边的运动矢量;对于左右两个8 1 6 分块,左边块的运动矢量是其左边 的运动矢量,右边块的运动矢量是其右方的运动矢量。 2 2 4 2帧内预测 h 2 6 4 的帧内预测,对于亮度预测可分为两种类型:i n t r a l 6 1 6 和i n t r a 4 x 4 。 对于图像比较平坦部分,使用i n t r a l 6 x 1 6 ,对于需要细化部分,使用i n t r a 4 4 。 i n t r a 4 x 4 类型有9 种预测模式,i n t r a l 6 x 1 6 有4 种预测模式。对于亮度预测有4 种预测模式。以后章节将有关于帧内预测的详细说明。 2 2 4 3去块效应滤波器 编码视频重建以后出现的方块效应会影响人的视觉感受。h 2 6 4 通过在块间 使用滤波器来平滑块间的亮度落差,使重建后的图像更加贴近原始图像。h 2 6 4 的滤波器同时又是选择性的,对于原本就存在较大变化的边缘不采用滤波器,从 而保证了原始信息不受破坏。 ( 1 )边界强度判断 h 2 6 4 引入边界强度b 。( b o u n d a r ys t r e n g t h ) 来判断边界落差是否是原始信 息。b 。同时作为是否采用滤波器的衡量标准之一。边界强度越高越要采用滤波器。 h 2 6 4 会根据边界强度大小和量化参数来“开关”块间滤波器。量化参数越大越 容易造成块间失真,b 。越大块间落差为失真的可能性越大,就越应该使用块间滤 波器。反之就要“关掉”滤波器,保持原始信息特征。 ( 2 )阀值策略 h 。2 6 4 还用闽值策略对边界强度进行辅助。在量化过程中对采样点进行阙值 计算,低于闽值则重新选取采样点,阈值判泱结果和边界强度相结合来决定是否 使用滤波器。 2 2 4 4变换和量化 h 2 6 4 的d c t 变换是基于传统d c t 的,但是它与传统d c t 之间有着许多 本质的差别【1 1 1 : ( 1 ) i - t 2 6 4 中的d c t 变换是一个整数变换,其所有的操作都是基于整数操作 第二章视频压缩编码技术 的,避免了浮点操作带来的四舍五入误差。 ( 2 ) 变换的核心算法没有乘法,只进行加法和移位操作,可以提高运算速度。 ( 3 ) 变换过程中乘法操作集成在了量化过程中,这样减少了整体的乘法操作。 下面以4 4 残差信号的变换和量化为例说明变换过程。 变换公式为y = h x h t ,其中x 为要变换的4 x 4 像素块,而 h = 11 21 11 1 - 2 11 1 2 11 21 h 2 6 4 对变换系数采用等比例量化,其基本公式为z = r o u n d ( y o ) ,其中z 为 量化值,y 为输入系数值,q 为量化步长。量化步长共有5 2 种,每个宏块的量 化步长由量化参数q p 决定。q p 每增加1 ,量化步长就增加1 2 5 。h ,2 6 4 还提 供了自适应块变换( a b t ) ,它能够根据分块的尺寸调整变换和量化参数。 2 2 4 5熵编码 h 2 6 4 使用两种熵编码:变长编码( v l c ) 和内容自适应= 进制算术编码 ( c a b a c ) 。 ( 1 ) 变长编码 h 2 6 4 对于语法使用指数哥伦布编码,它是一种固定语法的变长编码。它把 所有的语法映射到统一的可扩展的码字表,而不是为每种语法设计不同的码字 表。一个k 阶指数哥伦布码可表示为:【m 个o 】【1 】【盯o 】,i n f o 的长度为( m + k ) 比特,c o d e r l u r f l = 2m + 。一2 k + i n f o 。h 2 6 4 根据c o d _ n u m 查表可以得到相应码 字的值。 对于量化后的差值变换系数则使用内容自适应变长编码( c a v l c ) 来编码。 它根据己传输的语法元素的出现概率在现在变长编码中切换选择编码参数。这种 利用相邻块间非零系数的个数相关和零系数集中在高频段等特性,采用从高频开 始的逆向扫描方式,充分挖掘了数据的统计特性,提高了压缩比【8 j 。 ( 2 )内容自适应二进制算术编码c a b a c 为了达到更好的压缩编码效果,根据元素内容选择语法元素的概率模型; 根据统计结果进行自适应概率估计;采用算术编码。这就是内容自适应二进制算 术编码。编码的步骤为:首先进行二值化,然后选择内容模型,再通过算术编码 器进行算术编码,最后更新概率。 h 2 6 4 定义了编号为o 到2 6 6 共2 6 7 中不同的内容模型,有些模型会根据视 频帧的类型不同而采用不同的用法、内容模型会在视频帧的开始阶段根据量化参 数初始化。 9 中山人学硕士论文 1 5 2 6 4 的算术编码器在从6 4 种不同的概率状态之一转化到最不可能符号 ( l e a s tp r o b a b l es y m b 0 1 ) 的阶段完成概率估计。 2 2 4 6切换帧 为了使视频信息能够更好地适应不同的传输环境,h 2 6 4 通过使用切换帧实 现不同传输速率、图像质量间的切换,从而最大限度地利用现有资源而不出现因 缺少参考帧引起的解码错误。 要达到切换的目的就必须实现视频流的过渡,原有技术是引入互帧,但这 样的开销太大。切换帧s p 的思想是在两股视频流的基础上再进入一股视频流, 这股视频流中的帧能够从源视频流的帧预测得到,同时能够预测目标视频流中的 帧。这种机制被证明比引人互帧效率更高1 8 j 。 如图2 6 所示,帧a b 2 就是从视频流a 转到视频流b 的切换帧。a b 2 由 a 1 预测得到,然后a b 2 作为参考帧预测b 2 。进行如上操作就实现了不同的两 个视频流间的切换。 图2 6 视频流间的切换过程 视频流b 切换帧的获得过程如图2 7 所示:先对切换目标b 2 进行变换和量化,然后 对经过运动补偿的被切换帧a 17 进行变换和量化。在变换域中形成参考值与真 实值的差,对其进行变长编码得到切换帧s p a b 2 。 切换目标帧b 2 + 被切换帧a 1 7 广 叫墨垫! ! 堡r - + 图2 7 切换帧的产生过程 l o 第二章视频压缩编码技术 在预测视频流b 的帧b 2 的过程中只需将切换帧进行变长解码后得到的差 值加到视频流a 的帧a 1 的变换量化结果上再经过逆量化逆变换就得到了切换 目标帧的预测b 2 。 2 2 5小结 h 2 6 4 是两大国际组织r r u 和i s o i e c 联合制定的面向更广泛应用的新一 代视频编码标准,其在视频压缩性能方面比目前大多数视频压缩标准都要高,而 且算法结构上的分层可以使它能适应不同的传输环境,提高传输效率。h 2 6 4 的 这些优点使得它具有广阔的应用前景,发展潜力巨大。 但在了解h 2 6 4 优点的同时也需要清醒认识,h 2 6 4 性能的提高是以增加复 杂性为代价而获得的,特别是h 2 6 4 中运动估值部分。据文献研究0 3 ,h 2 6 4 编 码器复杂度相当于k l p e g 一2 的5 倍,解码器也有3 倍。在今后,如何降低h 2 6 4 的复杂度将成为一个研究热点。 3 1 引言 第3 章a v s 标准介绍 “数字音视频编解码技术标准工作组” ( 简称a v s 工作组) 于2 0 0 2 年6 月成立,负责数字音视频编解技术标准的制定工作。工作组联合国内从事数字音 视频编解码技术研发的科研机构和企业,于2 0 0 3 年底完成了我国自主制定的具 有自主知识产权的数字音视频编解码技术标准a v s ( a u d i ov i d e oc o d i n 2 s t a n d a r d ) 的1 0 版本。 a v s 标准包括系统、视频、音频3 个主要部分和一致性等支撑部分组成。 a v s 视频标准采用与h 2 6 4 标准类似的技术框架,在性能上与h 2 6 4 持平,在 技术更简洁。a v s 系统标准采用了扩展m p e g 2s y s t e m 的方案,有利于兼容已 有的m p e g 2 传输系统l 扪。 在本章中,主要介绍a v s 的第二部分即视频编码部分。a v s 视频编码标准 主要是为了适应数字电视广播、数字存储媒体、因特网流媒体、多媒体通信等应 用中大尺寸、高质量的运动图像压缩的需要而制定的。 3 2 a v s 视频编码结构 a v s 视频编码的结构如图3 1 【2 】所示。在编码结构上,a v s 与h 2 6 4 比较相 似,但在各模块的具体处理方法上,它与h 2 6 4 有相当的不同。考虑到m p e g 在数字视频产业的广泛应用,a v s 的语法结构与m p e g 2 的语法结构类似。 图3 1 a v s 编码器结构 1 2 第三章a v $ 标准介绍 在a v s 编解码过程中,基本处理单元是宏块。一个宏块包含一个1 6 x 1 6 的 亮度样值块和对应的色度样值块,当前a v s 支持4 :2 :2 和4 :2 :0 两种图像格式。 在各种处理之前,a v s 采用光栅扫描的方法将图像扫描为一个宏块序列。 每个宏块都需要通过预测,系统只对图像样值与预测值之间的残差进行变 换编码。a v s 采用帧内预测与帧间预测两种预测方法。帧内预测使用空间预测 模式来消除图像内的冗余。帧内预测以当前帧中当前宏块左方和上方宏块的像素 来预测当前宏块的像素值,a v s 帧内预测单元采用与整数变换同样大小的8 x 8 块。 帧问预测使用基于块的运动矢量来消除图像间的冗余,帧间预测以已解码的帧或 场来预测当前帧的像素值,帧间预测支持1 6 x 1 6 、1 6 8 、8 x 1 6 、8 x 8 四种大小的 块作为预测单元。运动向量的精度达到1 4 像素。 图像经预测后,由图像样值与预测值相减得到预测残差。系统对残差采用 8 x 8 的整数变换,并进行量化,量化后使用“之”字形( z i g z a g ) 扫描方法对量 化系数进行扫描。 a v s 使用一种自适应的变长编码技术对扫描后的系数进行熵编码。系统在 对各种语法元素编码时从4 种指数哥伦布码码表中选择一种。 在进行帧间预测的过程中,系统需要对用于参考的重建图像进行去块效应 滤波。滤波器对重建图像的块边界进行平滑,降低图像的块效应,而对图像边界 不进行滤波。考虑到不同图像区域和不同的码率,a v s 的去块效应滤波器是自 适应的。 a v s 的时间信息是放在i 帧的头信息中,因此,可以将i 帧作为编码后视频 序列的随机访问点。 3 3a v s 的关键技术 3 3 1 熵编码 如上所述,a v s 使用k 阶指数哥伦布编码解析。为了能够适应不同类型的数 据情况和提高编码性能,a v s 定义了1 9 个变长编码表。在a v s 中,根据各种语 法元素种类的不同,系统从0 阶、1 阶、2 阶、3 阶共四种指数哥伦布码中选择 一种进行编码解析。其中如c b p 、宏块编码模式、运动矢量等使用o 阶哥伦布码。 而量化系数则采用四种哥伦布码中的一种进行编码解析,其阶数的确定规则为: 首先,对第一个非零量化系数采用初始规定的阶数进行解析:然后,根据已解析 的量化系数的绝对值从1 9 个变长编码表中选择1 个码表来解析下一个量化系数, 从而也决定了下一个量化系数的阶数。 中山人学硕一“论文 3 3 2变换与量化 与h 2 6 4 和m p e g 2 所采用的4 x 4 变换不同,a v s 采用8 x 8 的整数变换, 系统反变换与反量化的过程在下面说明,整个处理过程中各个变量都控制在 一2 “,2 ”一1 之内。 3 3 2 1反量化 反量化的过程实际上是根据量化参数q p 将= 维量化系数矩阵 q u a n t c o e f f m a t r i x 转换为二维变换系数矩阵c o e f f m a t r i x 的过程。其中,量化 系数的取值范围是 一2 “,2 ”一1 。 二维变换系数矩阵c o e f f m a t r i x 的元素w 。,由下式得到; w j ,= ( q u a n t c o e f f m a t r i x i ,j x d e q u a n t t a b l e ( q p ) + 2 “”“”1 ) s h i f t t a b l e ( q p ) ( i 3 = o 7 ) 系统定义了一张量化参数q p 与反量化表函数d e q u a n t t a b l e ( q p ) 以及移位表 函数s h i f t t a b l e ( q p ) 之间对应关系的对应表,可通过查表的方式得到对应的值。 变换系数w 。的取值范围是 一2 ”2 ”一1 。 3 3 2 2反变换 反变换过程是将8 x 8 变换系数矩阵c o e f f m a t r i x 转换为8 x 8 残差样值矩阵 r e s i d u e m a t r i x 的过程,步骤如下: 首先,对变换系数矩阵进行如下水平反变换: h = c o e f f m m r i x t 8 1 其中,t 。是8 x 8 反变换矩阵,t 。1 是t 。的转置矩阵,h 表示水平反变换后的中间 结果。 瓦; 第二步, 第三步, f 81 01 0986 42 1 89428 1 0 一1 06 1 8 6- 4 - t 0 - 821 0 9 1 821 0 一6894 1 0 1 821 0689 41 0 1 8641 0821 09 1 8 94281 0一1 06 1 8 1 01 0一98642 l 对矩阵h 7 中的每个系数加4 再右移3 位, 对矩阵h 进行如下垂直反变换: 1 4 得到矩阵h 。 第三章a v s 标准介绍 h = t 8 h 其中,h 表示反变换后的8 x 8 矩阵。h 矩阵元素h ,。取值范围为 一2 “,2 ”一1 。 第四步,残差样值矩阵r e s i d u e m a t r i x 的元素r 。计算如下: r ,= ( h 。,+ 2 6 ) 7i ,j = 0 7 3 3 3 帧内预测 a v s 视频标准采用了帧内预测方法来提高帧内编码的编码性能。a v s 对亮 度块与色度块均采用8 x 8 的块作为预测单位,a v s 对亮度块预测定义了5 种预 测模式,对色度块定义了4 种预测模式。 3 。3 4 参考图像 在以往的视频编码标准如m p e g 一2 中,对于b 帧的预测,通常需要使用一 幅过去的图像和一幅将来的图像作为参考图像来进行帧间预测,而对于p 帧而 言,尽管它只使用一幅过去的图像作为参考图像,但在缓存中仍然需要两幅图像 的空间,这就造成了缓存空间的浪费。在a y s 中,对于p 帧而言,可以使用过去 的两幅图像作为参考图像,这就在不增加缓存的情况下提高了p 帧的编码性能。 3 3 5 b 帧的对称( s y m m e t r i c a l ) 模式 在以往的视频编码标准中,b 帧的一个宏快可以在4 种模式( 直接( d i r e c t ) 、 前向( f o r w a r d ) 、后向( b a c k w a r d ) 、交织( i n t e r p o l a t i o n ) ) 中选择一种进行编码。 在交织模式中,前向运动矢量与后向运动矢量都需要编码。在a v s 中,提供了一 种对称( s y m m e t r i c a l ) 模式去取代它。在对称模式中,只有前向运动矢量需要编 码,而后向运动矢量则通过其与前向运动矢量的相关性得出。因此,a v s 的b 帧 的编码中,只需要对一个运动矢量进行编码。 3 3 6 加权预测 a v s 采用的加权预测可以有效地提高编码性能,尤其是对场景变化和光线变 化的视频效果更为明显。a v s 加权预测仅针对于帧间预测,过程如下: 亮度样本加权预测如下: p r e d m a t r i x x ,y = ( p r e d m a t r i x x ,y l u m a _ s c a l e + 1 6 ) 5 + l u m a _ s h i f t 色度样本加权预测如下: 中山火学硕:i ? 论文 p r e d m a t r i x x ,y = ( p r e d m a t r i x x ,y c h r o m a s c a l e + 1 6 ) 5 + c h r o m a _ s h i f t p r e d m a t r i x x ,y 是帧间预测后得出的预测样本矩阵。l u m a s c a l e 、l u m a s h i f t 、 c h r o m a s c a l e 、c h r o m a _ s h i f t 在图像头中定义,但每个宏块可以自行决定是否 使用加权预测。 3 3 7 去块效应滤波器 对于块编码视频编码器而言,在低比特率情况下通常都会出现块效应。a v s 定义了一种白适应的去块效应滤波器。滤波器对重建图像的块边界进行平滑,降 低图像的块效应,提高图像的视觉质量,而对图像边界不进行滤波。宏块的编码 类型、量化参数、运动矢量以及各个块之间的差别都会影响到去块效应滤波器的 效果。 3 3 8 隔行编码 a v s 支持两种序列:逐行序列和隔行序列。 帧由三个样本矩阵构成,包括一个亮度样本矩阵( y ) 和两个色度样本矩阵 ( c b 和c r ) 。样本矩阵元素的值为整数。场由构成帧的三个样本矩阵中相间的行 构成,即帧样本矩阵的第一行、第三行、第五行,依次类推,构成一个场,称为 顶场:第二行、第四行、第六行,依次类推,构成另一个场,称为底场。 解码器的输出是一系列帧,两帧之间存在着一个帧时间间隔。对隔行序列 而言,每帧图像的两场之间存在着一个场时间间隔。对逐行序列而言,每帧图像 的两场之间时间间隔为0 。 3 3 9 伪起始码 由于a v s 的熵编码不能防止编码中出现伪起始码,为了防止出现伪起始码, a v s 建议编码时应按照以下方法处理: 写入一位时,如果该位是一个字节的第二最低有效位,检查该位之前写入 的2 2 位,如果这2 2 位都是一0 ,在该位之前插入1 0 ,该位成为下一个字节的最 高有效位。 解码时应按以下方法处理:每读入个字节时,检查前面读入的两个字节 和当前字节,如果这三个字节构成位串0 0 0 00 0 0 0 0 0 0 0 0 0 0 00 0 0 00 0 1 0 ,丢弃当 前字节的最低两个有效位。在编码和解码时对于序列头、序列显示扩展、版权扩 展、用户数据、摄像机参数扩展中的数掘不应采用上述方法。 1 6 第三章a v $ 标准介绍 3 4a v s 的应用前景 a v s 标准1 o 版本己于2 0 0 3 年底完成。从2 0 0 4 年开始,a v s 工作组一方 面将a v s 标准进行逐步完善和升级,另一方面将努力推广和应用a v s ,并争取 尽快在有线电视、卫星电视、远程教育、激光视盘、视频监控、视频会议、网络 流媒体等领域展开应用。 1 7 第4 章帧内预测技术研究 4
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025海南三亚中心医院(海南省第三人民医院)校园招聘38人考前自测高频考点模拟试题及答案详解(名校卷)
- 2025年吉安市庐陵产业运营服务有限公司公开招聘物业经理考前自测高频考点模拟试题及答案详解(典优)
- 2025海南保亭农水投资有限公司第二次招聘7人(代农水投公司发布)模拟试卷及完整答案详解一套
- 2025湖北茅箭区公益性岗位招聘1人模拟试卷及答案详解(典优)
- 国机精工2025校园招聘正式启动笔试历年参考题库附带答案详解
- 2025首创证券有限责任公司招聘4人笔试历年参考题库附带答案详解
- 2025陕西汉中佛坪攀德熊猫文化传媒有限公司招聘6人笔试历年参考题库附带答案详解
- 2025重庆燃气集团外包岗位招聘3人笔试历年参考题库附带答案详解
- 2025辽水集团所属子公司拟聘人员笔试历年参考题库附带答案详解
- 2025贵州黔东南三穗县扶贫开发投资有限责任公司招聘3人笔试历年参考题库附带答案详解
- 2025年军事理论知识竞赛题库及答案
- 《生成式人工智能基础与应用》高职AIGC应用基础课程全套教学课件
- 环评管理培训
- 儿童编发课件图片
- 报废汽车回收公司车间管理制度
- 2025合肥市辅警考试试卷真题
- 淘宝客服合同协议书模板
- 骨水泥测试试题及答案
- 职业人群心理健康促进指南 2025
- 无人机教育培训创业计划书
- 咸阳社区面试题及答案
评论
0/150
提交评论