已阅读5页,还剩56页未读, 继续免费阅读
(信号与信息处理专业论文)h264中预测和内插的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南京邮电学院硕士研究生学位论文摘要 摘要 为了能够适应不同的网络环境以及提供更高的压缩性能,i t u t 和i s o i e c 推出新一 代数字视频压缩编码标准h 2 6 4 。h 2 6 4 仍然采用经典的基于块的混合编码方式。主要是 采用运动补偿的帧间预测、d c t 和变长编码。 本文介绍了h 2 6 4 建议的主要内容,在对编码器进行性能分析的基础上重点讨论了 h 2 6 4 编码器的实时实现技术,主要有:将全零预测技术应用到s k i p 模式快速判决和整 数变换中;对编码模式的选择进行优化;对图像内插技术进行优化:对运算密集的内插和 变换模块进行s i m d 指令优化。 实验表明,本文的优化算法可以明显降低h 2 6 4 编码器的运算复杂度,结合快速搜索 算法,c i f 格式的视频序列在p e n t i u m42 4 g 的p c 上编码速度可达1 8 帧左右,基本可 以满足实时编码的要求。 此外,文中还对在c t 3 4 0 0d s p 平台上实现h 2 6 4 帧内编码进行了初步探讨,分析h 2 6 4 帧内编码并行性,编写基于p c 平台的h 2 6 4 帧内编码仿真程序,最后将该程序移植到 c t 3 4 0 0 平台,完成基于该d s p 平台的编码器框架。为以后进一步研究打下基础。 关键词h 2 6 4p cs k i p 模式模式选择内插s i m d 技术c t 3 4 0 0 南京邮电学院硕士研究生学位论文 摘要 a b s t r a c t h 2 6 4 a v ci st h en e w e s tv i d e oc o d i n gs t a n d a r do ft h ei t u - ta n dt h ei s o i e c t h em a i n g o a l s0fth eh 2 6 4 a v cst a n d a r d i z a t i o nef f o r tha v ebe t aen h a n c e dco m p r e s s i o npe r f o r m a n c e a n dp r o v i s i o no f “n e t w o r k - f r i e n d l y ”v i d e or e p r e s e n t a t i o na p p l i c a t i o n s i i lh 2 6 4c o d i n g ,t h et r a d i t i o n a lh y b r i dv i d e o c o d i n ga l g o r i t h mb a s e do nb l o c ki su s e d i n c l u d i n gi n t e r - p i c t u r ep r e d i c t i o nw i t hm o t i o nc o m p e n s m i o n ,d c ta n dv a r i a b l el e n g t hc o d i n g i nt h i sp a p e r , t h em a i nc o n t e n to f h 2 6 4i si n t r o d u c e d b a s e do nt h ep e r f o r m a n c ea n a l y s i so f h 2 6 4e n e o d e r ,i t sr e a l t i m ei m p l e m e n t a t i o ni sm a i n l yp r e s e n t e d ,i n c l u d i n ga p p l y i n ga l l - z e r o p r e d i c t i o ni ns k i pm o d es e l e c t i o na n dd c t ,o p t i m i z a t i o no fm o d es e l e c t i o na n di n t e r p o l a t i o n , t h ec o d eo p t i m i z a t i o no f ca n ds i m df o rc o m p u t a t i o n a lc o m p l e xm o d u l e , e x p e r i m e n t ss h o wt h ec o m p u t a t i o n a lc o m p l e x i t yo fh 2 6 4c a nb eg r e a t l yr e d u c e d a d d i n g w i t hf a s ts e a r c ha l g o r i t h m ,t h ep a p e ra c h i e v e san e a rr e a l t i m eh 2 6 4e n c o d e r ,t h ee n c o d e rc a n e n c o d em o r et h a n18f p si nc i fr e s o l u t i o no nap e n t i u m42 4 gp c i na d d i t i o n ,t h i sp a p e ra l s od i s c u s e st h ei m p l e m e n t a t i o no f h 2 6 4i n t r a - e n c o d i n go nc t 3 4 0 0 d s pp l a t f o r m ,a n a l y s e st h e p a r a l l e la l g o r i t h m i nh 2 6 4 i n t r a - e n c o d i n g t h i sp a p e ra l s o i m p l e m e n t sae n c o d e ro np cp l a t f o r ma n dp o r t si tt oc t 3 4 0 0 ,g i v eae n c o d e rf r a m e w o r ko nt h i s d s p i ti su s e f u lf o rt h ef u t u r ew o r k k e yw o r d :h 2 6 4 p cs k i pm o d em o d es e l e c t i o ni n t e r p o l a t i o ns i m d c t 3 4 0 0 i l 南京邮电学院学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得南京邮电学院或其它教育机构的学位或证书而使用过的材 料。与我同工作的同志对本研究所做的任何贡献均己在论文中作了 明确的说明并表示了谢意。 研究生签名: 盔塑! 日期:丝堡 南京邮电学院学位论文使用授权声明 南京邮电学院、中国科学技术信息研究所、国家图书馆有权保留 本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其 他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一 致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布 ( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权 南京邮电学院研究生部办理。 研究生签名:弋盖盘遂 导师签名: 日期:型! : 南京邮电学院颅i : f 究生学位论文 丹u 舌 随着通信技术的迅猛发展,多媒体通信已提到议事日程上来,多媒体通信中巨大的数 据量是其所面临的一个主要问题,因而视频压缩技术是多媒体通信研究的重要课题。为此, i t u 和i s o 先后制定了h 2 6 1 、h 2 6 3 、j p e g 、m p e g l 、m p e g 一2 、m p e g 一4 等一系列压缩编 码标准,基本上解决了中高码率信道上图像存储和传输的要求。最近这两个标准制定组织 成立了联合视频组( j v t ) ,共同制定了最新的国际视频压缩标准h 2 6 4 ,同时也是 m p e g 一4v is u a lp a r t1 0 ,该标准有效的提高了视频压缩效率。 如何有效地实现h 2 6 4 等图像压缩标准是多媒体通信中面临的主要难题之一,常用实 现平台有p c 通用处理器、d s p 处理器、嵌入式处理器、a s i c 专用集成电路等。实际使用 中可根据性能、功耗、可扩展性等特点来选择合适的平台。 i n t e l 和a m d 等p c 处理器生产商,为了提高p c 机的多媒体功能,适应多媒体技术特 点,推出了一系列的s i m d ( 单指令多数据) 指令,用一条指令可以处理多个数据,大大 提高了软件运行速度,在p c 上利用软件来实现实时图像处理已变为可能,s i m d 技术在视 频压缩编码中得到了广泛得应用。i n t e l 推出的n e t b u r s t 构架的p e n t i u m4c p u 具有较 高主频,集成了m m x 、s s e 、s s e 2 技术,具有强大的处理能力,而且软件开发环境比较成 熟,本文选择p 4 平台为h 2 6 4 编码器开发平台之一。 另一方面,利用专门的硬件则有可能达到更好的性能和效果。t i 公司的c 6 4 系列、a d i 公司b f 5 6 1 、e q u a t o r 公司的b s p 一1 5 、c r a d l e 公司的c t 3 4 0 0 都是专门面向图像及多媒体 处理的d s p 。 c r a d l e 技术公司是倡导对媒体融合应用采用大规模多处理( m u l t i p r o c e s s i n g ) 的公司 之一,针对通信和娱乐领域对多媒体应用的要求,推出其首款芯片产品c t 3 4 0 0 。该芯片 包含8 个d s p 内核、4 个专有的通用r i s c 内核以及一簇i o 处理资源。它们共享不是太 大但较快的片上存储器:6 4 k b 的数据存储器和3 2 k b 的指令存储器。数据存储器可以部分 配置成高速缓存或本地暂存器,并可由一个基于r i s c 的存储器传送引擎( m t e ) 进行管理, m t e 是一个被加速的d m a 控制器。每个d s p 都具有自己的小型本地r a m 以及地址生成功能。 除计算簇以外,该芯片还包括了一个i o 处理簇,它有2 个通用r i s c 内核、2 个m t e 以 及自己的程序块和数据存储器。 一片c t 3 4 0 0 芯片即可完成视频、音频、图形和通信等功能,且处理能力强大,因而 查皇堂皇堂堕堕主堕塑生兰竺笙奎 萱重 它在m p e g 一1 2 、a c 一3 音频、h 3 2 x 等音视频领域都能得到广泛应用,本文选择c t 3 4 0 0 为 l2 6 4 编码器开发平台之一。 本文结构安排如下:第一章介绍了视频压缩技术的理论背景和发展历程,同时介绍了 h 2 6 4 采用的新技术;第二章对p c 和c t 3 4 0 0 的系统特点以及开发环境做了简要概述;第 三章介绍了基于p c 平台的h 2 6 4 编码程序研究和优化;第四章介绍基于c t 3 4 0 0 平台的 h 2 6 4 帧内编码程序研究:第五章对实验结果进行分析。文章最后对整个研究工作进行了 总结。 南京邮电学院硕士研究生学位论文第一章绪论 第一章绪论 长期以来,人们所熟悉的通信方式是语音通信,随着通信技术的发展,消费者愈来愈 迫切地需要多媒体通信服务。由于受传输信道带宽和存储容量的限制,多媒体技术的各项 应用都离不开高效的视频压缩算法,器件技术的进步为实现这些高效的算法提供了可能。 为了使视频压缩标准规范化。i t u 和i s o 两大组织从8 0 年代末开始了图像压缩的标准化 工作,先后制定了h 2 6 x 和m p e g x 标准。而本文所研究的h 2 6 4 标准,则是这两者最近 合作推出的最新视频编码标准。 1 1 视频压缩技术和标准 由于视频信息具有直观等众多的优点,视频通信发展非常迅速,但是,视频的巨大数 据量对现有的任何通信系统都是一个严峻的挑战。对于d 1 格式的d v d 视频,如帧频为 3 0 f p s ,采用y u v 4 2 2 格式,则视频数据的码率为7 2 0 x 4 8 0 x 8 x2 x 3 0 ;1 6 5 9 m b p s ,具有 4 7 g 容量的d v d 也仅仅能够存储4 7 8 1 6 5 9 = 2 2 6 4 秒长度的视频节目。如何压缩视频 数据量成为视频通信发展的关键技术,它可以有效的降低传输和存储成本。 从信息论观点来看,通过减少冗余而进行数据压缩处理称为信源编码,而视频数据作 为一个信源,描述信源的数据中存在大量的数据冗余,只要有效的降低这些冗余,就可以 有效的降低数据量,达到压缩数据的目的。视频数据中主要有空间冗余、时间冗余、结构 冗余、知识冗余和视觉冗余等,数据压缩实质上是减少这些冗余量。 视频编码个主要目的就是在保证一定重构质量的情况下,以尽量少的比特数来表征 视频信息。现有的视频编码标准,基本采用基于块的混合编码方式。其基本算法是通过帧 间预测和运动补偿消除时域冗余,经过变换编码消除频域冗余。它是以香农信息论为出发 点,用统计概率模型来描述信源。这种编码技术在以往的视频编码标准中获得了巨大的成 功。j p e g 、m p e g l 、m e p g - 2 、h 2 6 1 、h 2 6 3 以及本文将要讨论的h 2 6 4 都采用了该种视 频编码技术。它主要包括预测编码、变换编码、熵编码以及运动补偿等关键技术。 ( 1 ) 预测编码,又称d p c m ( d i f f e r e n t i a lp u l s ec o d em o d u l a t i o n ) 一般是用一 组赋以不同加权系数( 或称预测系数) 的历史值的线性组合来对当前值进行预测,只传输 预测值和当前值之间的误差信号。而自适应d p c m 则针对图像的不同特性采用不同的预测 1 南京邮i u 学院坝o :i o f w 生学位论文 第一章绪论 系数,使误差更小。 ( 2 ) 变换编码,它是一种用于静止画面编码和视频编码的非常流行的压缩方法。变 换编码的目的在于去掉帧内或帧间差值图像内容的相关性,对变换系数进行编码,而不是 对画面的原始像素进行编码。为此,输入画面被分成像素的画面块( 即n x n 像素) 。以一 个线性、可分离的和单元前向变换为基础本变换可表示为一个矩阵操作,采用一个n n 变换矩阵a ,来获取n n 变换系数c 。c = a b a t 这里a t 表示变换矩阵a 的一种移项式, 而且这种变换是可逆的。由于基于d c t 的变换具有较高的抗相关性能,并存在得快速d c t 算法,已在大多数图像和视频编码标准中加以使用。变换编码的主要目的是使尽量多的变 换系数足够的小,那些最高有效位d c t 系数集中在左上角( d c t 低频系数) ,随着距离的增 加,系数的有效性就逐步下降。这意味着:与较低位的系数相比,较高位的d c t 系数在 像素块重建时的重要性就差一些。这一特性在视频编码方案中被加以应用,以去除数据中 所包含的主观冗余度,这一切是以人类视觉系统标准为基础的。 ( 3 ) 熵编码,常用的熵编码有游程编码、哈夫曼编码和算术编码三类。当数据拥有 相同的字节序列时,可以采用更加紧密的序列来代替这些相同字节的序列,从而实现压缩, 这就是游程编码。最长见的一种情形是当采样量化后出现大量0 系数的情况,利用游程编 码来表示连续的0 ,从而降低表示0 所需要的数据量。 哈夫曼编码是对已知数据给出最佳编码,即根据已知概率决定最小的位数。因而,编 码字符的长度是变化的。最短的编码赋予那些最频繁出现的字符,而出现概率较小的字符 分配较长的码字,从而提高编码效率。但是哈夫曼编码必须知道信源的概率分布,这一般 是无法实现的,通常是采用对大量数据进行统计后得到的近似分布来代替。在实际使用中, 无法达到最佳性能,但该方法运算简单,而且易于硬件实现,因而在视频编码标准中得到 广泛的应用。 算术编码的基本原理是任何一个数据序列可以表示成0 到l 之间的一个间隔,该间隔 的位置和输入数据的概率分布有关。 在视频编码标准中,一般是以游程编码加哈夫曼编码或游程编码加算术编码的形式对 变换和量化后的图像系数实施进一步压缩。实际实验表明,算术编码的性能优于哈夫曼编 码,但是哈夫曼编码更容易实现,因而哈夫曼编码广泛用于视频编码标准,这也表明,视 频编码是一个性能和实现的平衡。 ( 4 ) 运动估计在视频编码技术中是一项关键的技术。基于运动补偿的帧间预测编码 具有更高的压缩效率,它主要利用了视频序列相邻帧间的相关性,即图像数据的时间冗余 来达到压缩的目的,可以获得比帧内预测编码高得多的压缩比。其基本概念就是在前帧或 4 鬯生! ! ! ! ! ! ! 兰堕竺! :! ! ! ! ! 兰兰些堡兰 笙二萱堕望 者后帧( 重建帧) 中找出一个区域,该区域和当前帧同样大小的区域非常相配,然后计算 出当前帧和参考帧中该区域的差分值,同时还可以计算出相应的x 方向和y 方向的平移, 也就是运动矢量,差分信号和运动矢量联合起来,可以表示参考区域和所预测区域之间的 偏差。事实上它已经是几个国际视频编码标准的关键部分。常用的运动估计方法有块匹配 法、像素递归法、相位相关法等。块匹配是最常用的运动估值算法,它假设块内各像素只 作相等的平移运动,它算法简单、易于硬件实现。但是运动估计算法对不同的图像序列预 测性能不同,特别是发生剧烈运动或者场景发生变化时预测效果较差,而且基于块的运动 估计算法会造成块边缘的不连续。 实际的视频编码系统是以上几种算法的组合,这种混合编码方案是现有视频编码国际 标准的基础,包括以下步骤: 帧间预测和运动补偿消除时域冗余。 变换编码消除频域冗余。 熵编码消除统计冗余。 8 0 年代以来,图像编码技术得n - y 迅速发展,产生了数个视频压缩编码标准,这些标 准融合了各种图像编码方法,代表图像编码发展的水平,下面是对相关标准的简单介绍。 ( 1 ) h 2 6 1 标准1 】 h 2 6 1 是国际电联i t u t 在1 9 9 0 年推出的针对可视电话、会议电视和窄带i s d n 等实 时编解码和低时延应用提出的一种编码标准,适用于p x 6 4 k b p s 的视听业务,其中p 是一 个取值范围为卜3 0 的整数。它是第一个国际视频编码标准,它所确立的基于块的混合编 码方案是其后推出的一系列视频编码标准的基础。 h 2 6 1 要求输入图像格式为c i f 格式或者q c i f 格式,将数据划分为四个层次:图像层、 块组层、宏块层和块层。它分为两种编码模式:帧内模式和帧问模式,h 2 6 1 没有规定宏 块编码模式判决标准。若采用帧内编码,则对宏块进行d c t 变换和量化,若采用帧间编 码,先进行运动估计,然后对估计残差进行d c t 变换和量化,对于量化以后的系数,进行 游程编码,最后进行熵编码。 ( 2 ) h 2 6 3 标准2 】 h 2 6 3 是国际电联i t u t 在1 9 9 5 年推出的一个标准草案,是为低码率通信而设计的。 但实际上这个标准可用在很宽的码流范围,而非只用于低码率应用,它在许多应用中可以 认为被用于取代h 2 6 1 。h 2 6 3 的混合编码框架结构与h 2 6 1 基本一样,但做了一些改善 和改变,以提高性能和纠错能力。h 2 6 3 标准在低码率下能够提供比h 2 6 1 更好的图像效 果,两者的区别有:( 1 ) h 2 6 3 的运动补偿使用半像素精度,而h 2 6 1 则用整像素精度; 5 堕塞! ! ! ! ! 生兰堕竺:! = 型塑圭兰竺堡塞塑= 垩丝堡 ( 2 ) 数据流层次结构的某些部分在h 2 6 3 中是可选的,使得编解码可以配置成更低的数据 率或更好的纠错能力:( 3 ) h 2 6 3 包含四个选项以改善性能。h 2 6 3 支持5 种分辨率即除 了支持h 2 6 1 中所支持的q c i f 和c i f 外,还支持s q c i f 、4 c i f 和1 6 c i f , 此后,为了进一步提高编码效率,增强编码性能,1 9 9 8 年i u t t 推出h 2 6 3 + ,2 0 0 0 年推出h 2 6 3 + + 。h 2 6 3 现已被几种可视电话采用为网络终端,如h 3 2 4 、h 3 2 0 和h 3 1 0 等,与h 2 6 1 相比,h 2 6 3 的压缩效率提高了约5 0 ,能提供更好的图像质量、更低的码 率,h 2 6 3 已经基本上取代了h 2 6 1 。 ( 3 ) m p e g 一1 标准【3 】 m p e g 一1 是国际标准化组织i s o i e c 的运动图像专家组于1 9 9 3 年推出的视频编码标准, 主要是为数字存储媒介中音频和视频信息压缩而提出的,应用于c d r o m 、数字录音带、 计算机硬盘和可擦写光盘等,比特率不超过1 5 m b i t s ,其中1 _ 1 m b p s 用于视频,1 2 8 k b s 用于音频,其余部分带宽用于m p e g 系统。 为了提高压缩效率,去除图像序列的时间冗余,同时满足多媒体应用中随机存取的要 求,m p e g 一1 视频把图像编码分成i 、p 、b 和d 共4 种帧类型。其中i 和p 帧和h 2 6 1 类 似。b 帧使用双向预测编码,对每个1 6 x1 6 的块结构,均作前向运动矢量和后向运动矢 量的预测,由此得到的一个前向预测块和一个后向的预测块,通过对这两个块的信号取平 均而得到第三个“预测块”,然后选择三个预测块中最佳者为最终的预测块,所以b 帧压 缩效率最高。d 帧为直流编码帧,只包含每个块的直流分量。 ( 4 ) m p e g 2 标准【4 l m p e g 组织于1 9 9 5 年推出m p e g 一2 压缩标准,以实现视音频服务与应用互操作的可能 性。它是在m p e g l 标准的基础上的进一步扩展和改进,m p e g - 2 标准是主要针对标准数字 电视和高清晰度电视在各种应用下的压缩方案和系统层的详细规定,编码码率从每秒3 兆比特1 0 0 兆比特。m p e g 一2 在系统和传送方面作了更加详细的规定和进一步的完善,适 用于广播级的数字电视的编码和传送,被认定为s d t v 和h d t v 的编码标准。m p e g 一2 视频 信号压缩编码完全引用了m p e g - 1 基于d c t 的、有运动补偿的帧间双向预测的基本结构, 只是对其做了部分扩展。 m p e g 一2 的编码码流分为六个层次。为更好地表示编码数据,m p e g 一2 用句法规定了一 个层次性结构。它分为六层,自上到下分别是:图像序列层、图像组( c o p ) 、图像、宏块 条、宏块、块。 ( 5 ) m p e g 一4 标准【5 1 运动图像专家组m p e g 于1 9 9 9 年2 月正式公布了m p e g 一4 标准第一版本。同年年底 6 堕塞! ! ! ! ! ! 坠兰堕堡! :堕壅圭兰竺丝苎 笙二兰堕兰 m p e g 一4 第二版亦告底定,且于2 0 0 0 年年初正式成为国际标准。 m p e g 一4 与m p e g 一1 和m p e g 一2 有很大的不同。m p e g 一4 不只是具体压缩算法,它是针对 数字电视、交互式绘图应用( 影音合成内容) 、交互式多媒体等整合及压缩技术的需求而 制定的国际标准。m p e g 一4 标准将众多的多媒体应用集成于一个完整的框架内,旨在为多 媒体通信及应用环境提供标准的算法及工具,从而建立起一种能被多媒体传输、存储、检 索等应用领域普遍采用的统一数据格式。 m p e g 一4 标准同以前标准的最显著的差别在于它是采用基于对象的编码方式,即在编码 时将一幅景物分成若干在时间和空间上相互联系的视频音频对象,分别编码后,再经过复 用传输到接收端,然后再对不同的对象分别解码,从而组合成所需要的视频和音频。这样 既方便我们对不同的对象采用不同的编码和表示方法,又有利于不同数据类型间的融合, 并且这样也可以方便的实现对于各种对象的操作及编辑。 m p e g 一4 系统的一般框架是:对自然或合成的视听内容的表示:对视听内容数据流的管 理,如多点、同步、缓冲管理等;对灵活性的支持和对系统不同部分的配置。 ( 6 ) h 2 6 4 标准6 1 h 2 6 4 是i t u t 的视频编码专家组( v c e g ) 和i s o i e c 的活动图像专家组( m p e g ) 联合 制定的视频编码新标准,也是本文研究的重点,将在后面的章节中有详细的介绍。 1 2 h 2 6 4 视频编码标准及其特点 随着视频业务的不断发展,承载视频业务的网络环境也越来越复杂,为了能够适应不 同的网络环境以及提供更高的压缩性能,i t u t 和i s o i e c 推出新一代数字视频压缩编码 标准,它既是i t u t 的h 2 6 4 ,又是i s o i e c 的m p e g 一4 的第1 0 部分。 h 2 6 4 仍然采用基于块的混合编码方式。基本算法是通过帧间预测和运动补偿消除时 域冗余,经过变换编码消除频域冗余。因此其视频编码工具:预测、变换、量化、熵编码 并没有根本的变化,但在每一个编码工具的细节上都有重要的改变,采用了一些新的算法, 这样使得其性能得到大幅度的提高,优于原有的视频编码标准,在相同质量的情况下, h 2 6 4 产生的码流文件大小只有原有标准的一半左右。 1 2 1 h 2 6 4 视频编码框图 与以前的视频编码标准不同,h 2 6 4 不仅含有一个规定视频编码算法的视频编码层 ( v c l ) ,还包括一个规定网络传输规范的网络提取层( n a l ) ,如图l _ l 所示。 7 南京邮l u 学院颁i :研究生学位论文第一章绪论 n e t w o r ka b s t r a c t i o nl a y e r 图1 1h 2 6 4 分层编码结构图 在v c l 和n a l 之间定义了一个基于分组方式的接口,打包和相应的信令属于n a l 的一部分。 这样提高编码效率和网络传输性能的任务分别由v c l 和n a l 来完成。h 2 6 4 编码效率的提 高不是其中某一种新的编码技术所产生的决定性的结果,而是多种新技术所产生的细微的 效果积累而致。这些新技术包括:多种新的帧内预测方法、可变尺寸块的运动补偿技术、 多参考帧的运动补偿技术、4 4 整数变换技术、新的环路滤波技术等。与先前的标准相 比较,h 2 6 4 的应用前景更为广泛。例如它允许在因特网中以1 m b i t s 的速率传送电视 质量的视频信号,它可以使8 m h z 的模拟带宽中容纳两倍于m p e g - 2 编码的数字电视频道, 它使无线视频通信成为可能,它对传统的数字媒体存储技术也将产生巨大的影响。 h 2 6 4 的视频编码层采取的编码框架仍然是传统的混合编码框架,比较h 2 6 4 标准的 框架图2 2 和h 2 6 1 视频编码标准的框架图2 3 会发现,二者非常相似,其组成部分( 预 测、变换、量化和熵编码) 基本相同,但是每个模块的内部都有重大的改进。由图2 2 可以看出,h 2 6 4 的编码器包括两个方向的数据流,一个是前向分支,一个是后向重建分 支。在前向分支中,将输入图像帧分割成宏块,每个宏块可以使用帧内编码或者帧间编码。 帧内编码时,使用当前帧已编码的重建像素进行帧内预测。帧问编码时,使用参考帧的重 建像素进行帧间预测。当前帧的像素值减去预测值可得预测残差块,对该块进行变换编码 和量化,量化后的系数进行重新排列,最后进行熵编码,生成h 2 6 4 压缩码流,最后将码 流传入n a l 用于存储或传输。在后向重建分支中,按照一定的顺序对量化后的系数进行解 码,得到后续宏块进行编码时需要的重建帧。宏块系数经过反量化和反变换后的差分宏块 和原来的差分宏块并不完全相同,因为在量化和反量化的过程中丢失了部分信息。 h 2 6 4 性能的提高,是以增加复杂度为代价获得的,虽然根据摩尔定律,硬件的性能 有了巨大的飞跃,但是仍然不能承受如此高的复杂度,因而必须要对编解码器进行优化。 1 2 2 h 2 6 4 中关键模块介绍 与原有标准比较,h 2 6 4 在技术方面的改进主要在模块的细节,下面就介绍这些带来 性能提高的细节,也就是h 2 6 4 的技术特点。 ( 1 ) 帧内预测技术7 1 8 南京邮i u 学院硕二f :研究生学位论文第一章绪论 在原有的视频压缩编码标准中,对于帧内编码,一般是直接对图像的原始数据进行 l 7 二 竺厂 竺厂_ 卜蓍 帧 厂 1 ,r 、广 广 图1 2h 2 6 4 标准框图 图1 3h 2 6 1 标准框图 d c t 变换,因为没有考虑相邻块之间的相关性,所以帧内编码以后的数据量较大,不适合 在码率较低的信道上传输。在t t 2 6 4 中引入了帧内预测编码的概念,也就是用相邻的已经 编码的像素点来预测当前编码像素点值,然后对预测残差进行变换处理。这样可以减少帧 内编码的空间冗余度,从而降低数据量。 在h 2 6 4 中宏块的分区是根据图像的特点进行的,在平坦、变化不大的区域,用1 6 x1 6 像素大小的块进行处理,在变化较大的区域,用4 x4 像素大小块进行处理,所以h 2 6 4 9 塑室! ! ! ! ! 生堂堕竺圭翌壅圭兰些堡壅 兰二里堑堡 中有两类帧内预测模式,分别为i n t r a 一1 6 1 6 和i n t r a 一4 4 。当使用i n t r a 一4 4 模式 时,也就是把宏块分为1 6 个4 4 的块,每个块用其相邻的块的像素值来预测,每个像素 都可用1 3 个最接近的( 除了边缘块特别处置以外) 先前己编码的像素的不同加权和( 有 的权值可为0 ) 来预测。 按照所选取的预测参考的点不同,亮度 n t r a 一4 4 共有9 类不同的模式,当使用 i n t r a 一1 6 1 6 模式时,也就是把宏块作为一个整体来预测,用和其相邻的宏块的像素值 来预测宏块的值,共有4 种不同的模式。 ( 2 ) 搜索块大小可变的运动估计技术7 】 在帧间预测编码时,每个亮度宏块可划分成形状不等的区域,作为运动描述区域。其 划分方法有:1 6 1 6 ,1 6 8 ,8 x1 6 ,8 8 等4 种。当选用8 8 模式时,可以进一步划 分成8 8 ,8 4 ,4 8 和4 4 共4 个子模式。在选择较大的块的时候,用于传送运动矢 量的比特数少,但是运动估计后的残差能量可能较大,需要较多的比特数;而选用较小的 块,用于传送运动矢量的比特数较多,运动估计后残差的能量可能较小,需要的比特数较 少。因而,选用合适的运动搜索块将对编码器的性能产生较大的影响。通常隋况下,对于 平坦区域,选用较大的搜索块比较合适,而对于细节丰富的区域,选用较小的搜索块比较 适合。 ( 3 ) 1 4 像素精度的运动估计技术【7 运动估计是利用视频图像的时域相关性,产生相应的运动矢量。尽可能准确的描述对 象( 块或宏块) 的时域运动。因此运动矢量的精度越高,运动估计的残差越小,这样在降低 编码码率的同时可以提高重建视频质量。从h 2 6 1 到m p e g 一4 ,运动矢量的精度也从整像素 提高到1 4 像素。h 2 6 4 a v c 支持亮度分量的1 4 像素和色度分量的1 8 像素的运动估计, 并详细的定义了相应分数像素的插值实现算法,利用6 抽头滤波器产生1 2 分数像素、线 性插值产生1 4 分数像素、4 抽头滤波器产生最高1 8 分数像素。这是通过利用整像素点 的亮度值进行内插得到的。由于4 :2 :0 采样的关系,色度的运动精度就达到八分之一像素, 这也是通过线性滤波器插值得到的。 ( 4 ) 多参考帧预测7 1 与原有标准中的单参考帧不同,h 2 6 4 a v c 支持多参考帧编码。即通过在多个参考帧 中进行运动搜索,寻找出当前编码块或宏块的最佳匹配。在一些特定的情况下,主要是快 速的周期运动、快速的场景相互切换、物体存在遮蔽现象等,多参考帧的使用会有非常好 的效果,使用了多参考图像,h 2 6 4 不仅能够提高编码效率,同时也能实现更好的码流误 码恢复,但需要增加额外的时延和存储容量。 1 0 南京邮 也学院硕士研究生学位论文第一章绪论 图1 4h 2 6 4 多参考帧预测示意图 从图中可以明显的发现,如果按上方的单参考帧进行预测,由于连续之间鸟的运动状 态相差太远,预测效果不佳。如果可以采用多参考帧,由于间隔帧之间的相关性较强,因 此预测的效果将大大超过单参考帧。 ( 5 ) 整数变换和量化7 】 h 2 6 4 在采用的最小搜索块为4 x 4 ,故h 2 6 4 的变换块大小最大为4 x 4 。和8 8 大 小的变换块相比,4 x 4 变换的效果略差,但是它有效降低了变换运算的复杂度,而且可 以通过对直流分量进一步进行变,以换达到增加压缩效率的目的。h 2 6 4 变换采用了1 6 位的整数算法,在没有精确度损失问题的隋况下,可以避免反变换的失配问题。在量化过 程中还可以有机结合变换中的系数矩阵,使得变换过程中不再出现小数乘法问题,并且在 量化过程中使用移位运算即可完成。 在h 2 6 4 a v c 的量化部分,没有采用以往标准中的固定量化步距的策略,而是采用了 可变的量化步距。量化参数q p 增加l ,量化步距增加1 2 ,这样量化参数q p 增加6 ,量 化步距加倍,量化参数q p 共有5 2 个可选值。显然,在量化操作上,h 2 6 4 a v c 在高量化 和低量化上进行了扩展,允许更广泛的量化水平,使得精确的量化成为可能,提高了码率 控制能力。 ( 6 ) 熵编码【” 熵编码是视频编码器中的一个重要模块。它使得平均码长尽可能的短,达到无损压缩 的目的。h 2 6 4 协议中在编码模块定义了两种熵编码方式。一种是基于内容的算术编码 ( c a b a c ,c o n t e x t b a s e da d a p t i v eb i n a r ya r i t h m e t i cc o d i n g ) ,另一种是基于内容的变 长编码( c a v l c ,c o n t e x t b a s e da d a p t i v ev a r i a b l el e n g t hc o d i n g ) 。基于内容自适应 是指充分利用不同视频流的统计特性和符号间的相关性,自适应的调整不同符号出现的统 计概率。算术编码是近十多年来发展起来的一种无失真信源编码,它与最佳的哈夫曼编码 堕皇l 堕! 兰堕堡土塑壅皇兰垡丝兰兰= 童堕堡 相比,理论性能稍加逊色,而实际压缩率和编码效率却往往还优于哈夫曼编码,故很受工 程上的重视。算术编码与哈夫曼编码相比,其压缩比要高5 到1 0 ,但是算术编码算法的 复杂性超过哈夫曼编码甚多。 ( 7 ) 环路去块效应滤波器【7 】 基于块的视频编码系统在低码率下会出现块效应。块效应降低了编码视频重建后的主 观视觉质量,在h 2 6 1 中第一次出现了去块效应滤波器,有效的降低了重建图像中的块效 应。改善了主观视觉质量。在后续的h 2 6 3 的选项中也增加了该种滤波器。 h 2 6 4 在编码环路中引入去方块滤波器,使得h 2 6 4 在压缩比远高于h 2 6 3 的情况下, 仍然能够保持较好的主观视觉质量。去方块滤波器的使用,一方面可以平滑虚假的边界, 提高主观质量:另一方面,平滑后的参考帧用于运动估计时可以获得更好的效果。由于 h 2 6 4 中最小的运动搜索块大小为4 4 大小块,因而滤波系统也应该是4 x 4 大小块。去 块效应滤波器应用在反变换后,图像重构前。它根据宏块中每一个块的位置和量化参数不 同,对每一条块边界设置不同的滤波强度,自适应的调整滤波效果。 1 3 h 2 6 4 的预测和内插 在视频编码中,预测技术是一项核心技术,h 2 6 4 在原有帧间预测技术的基础上引入 了帧内预测技术,有效的降低了帧内编码的空间相关性,其帧间预测也引入许多新的特点。 但本文所研究的预测技术,是一种广义预测技术,是指对编码器某种尚未发生的状态进行 估计。 h 2 6 4 中多模式运动搜索带来的巨大运算量,图1 5 是基于p e n t i u m42 4 gc p u 测 试的j m 6 1 e 编码器各模块消耗处理器运算资源,测试数据表明,多模式运动搜索占处理器 运算资源达到7 4 ,而其它传统耗时模块如d c t 、i d c t 模块等消耗的资源非常少。这一 方面是因为每种模式的运动搜索使用的是全搜索算法,本身耗时较多,而更重要的是 h 2 6 4 引入多种运动搜索模式,每增加一种搜索模式,运动搜索时间就增加大约一倍。本 文所讨论的预测技术,主要就是通过预测当前宏块所使用的搜索模式,消除不必要的运动 搜索运算,以提高编码器效率。 在基于块的混合编码器中,对参考帧的插值是运算复杂度较高的模块,而且该模块对 内存带宽要求很高,测试数据也表明,h 2 6 4 中图像内插模块消耗的处理器资源达到1 2 。 南京邮电学院硕士研究生学位论文 第一章绪论 图1 5j m 6 1 e 编码器模块运算量分布图 h 2 6 4 中为了提高预测精度,进一步减少编码输出码率,采用1 4 像素精度的运动估 计,这需要对参考帧进行1 4 像素插值,一幅c i f 格式的图像,经插值后会产生一幅1 6 c i f 格式大小的图像。因为不存在理想低通滤波器,所以插值过程中就不可避免的会产生混叠, 这会严重影响运动估计的精度和编码效率,增大输出码率f ”,通常会采用低通滤波器来减 少混叠产生的影响,最简单也是最常用的插值方式为线性内插,如m p e g 一2 、h ,2 6 3 中就采 用这种插值方式。 h 2 6 4 中为了进一步减少混叠对运动估计精度的影响,在亮度分量半像素点位置插值 时采用了更接近理想低通的6 抽头的维纳滤波器,在1 4 像素点位置插值时采用线性内插。 考虑到插值过程的运算复杂度和编码实现复杂度,在h 2 6 4 中采用定系数的维纳滤波器, 其维纳滤波器系数为( 1 ,一5 ,2 0 ,2 0 ,一5 ,1 ) 3 2 ,线性内插系数为( 1 ,1 ) 2 。和只使用线 性内插相比,采用该内插方案在同等码率的情况下可以提高p s n rl d b t 8 1 以上。6 抽头滤波 器的使用,增加了参考帧插值运算的复杂度,p e n t i u m42 4 g 的p c 对一帧c i f 格式图像 插值时间约为0 1 l s ,这大大影响了视频编码器的效率,本文从算法和代码两个层次对图 像内插模块进行优化。 1 4 论文主要工作 由于h 2 6 4 编码器的运算复杂度很高,故需要对h 2 6 4 编码器进行优化,尽可能降低 其复杂度,提高编码速度。本文主要结合p c 平台和c t 3 4 0 0 研究h 2 6 4 视频编码程序的优 化,主要工作如下: 较深入的研究h 2 6 4 标准及其采用的新技术。 对h 2 6 4 的参考模型j m 6 1 e 预测、变换和插值算法进行优化。 1 1 南京邮电学院烦 :研究生学位论文 第一章绪论 使用s i m d 指令对h 2 6 4 的参考模型j m 6 1 e 进行代码优化。 结合c t 3 4 0 0 体系结构研究h 2 6 4 帧内编码的并行技术。 重新编写帧内编码部分程序,对关键模块,使用c l a s m 汇编语言进行优化。 4 南京邮屯学院硕 :i i j l 究生学位论文 第二章p c 和c t 3 4 0 0 平台指令系统和开发环境 第二章p c 和c t 3 4 0 0 平台指令系统和开发环境 随着通用处理器和视频信号处理算法的成熟,基于软件的实时视频编解码系统的实 现成为一种可能。与基于硬件的系统相比,开发基于软件的实时视频编解码系统不仅成本 低,更重要的是软件的升级容易,灵活性强。另一方面,利用专门的硬件则有可能达到更 好的性能和效果。 软件的系统性能对于很多应用程序来说是至关重要的,因此必须对软件进行优化。软 件优化在视频信息处理领域主要有两个方面:一是处理速度的优化。二是编解码性能的优 化。两者关系是相互制约的。提高编解码速度,尤其是通过可以获得最大效益的算法优化 提高编码速度往往不可避免的引起视频图像质量下降。在处理器资源有限的情况下,寻求 计算复杂度与编解码性能的最佳折中是优化视频信息处理软件最重要的问题。 软件优化的一个重要方面也要满足特定平台处理能力的要求。同样功能的软件,在不 同开发平台下,不仅需要考虑处理器数据类型、存储设备访问带宽等外在的硬件资源,还 应考虑操作系统环境,以及编译器等对软件的影响,本章主要分析p c 平台和c t 3 4 0 0d s p 平台的特点及其开发环境。 2 1 p c 平台的特点和开发系统 p c 平台作为使用最为广泛的处理器平台,它有较为出色的处理数据性能,其特点如下: ( 1 ) 主频很高;( 2 ) 支持3 2 b i t 以上的定点数和浮点数计算:( 3 ) 功率较大:( 4 ) 支持s i m d 结构等。伴随着p c 的普及、计算能力的不断增强和网络带宽的迅速增加,基于i p 网络和 p c 的软件视频会议系统将是视频会议的一大发展趋势。而且随着应用桌面化,商业环 境的全球化趋势,远距离、低成本的即时沟通的需求越来越迫切,桌面视频会议系统正好 迎合了这种需求。由于使用的简便性和低成本的特点,基于软件的桌面视频会议系统将是 发展趋势。 2 1 1 p c 体系结构和指令系统 自i n t e l3 8 6 后,i n t e l 开始采用i a - 3 2 的处理器结构,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 客户接待引导服务标准操作流程
- 环保安全隐患排查整改规范
- 拔罐排毒疗法禁忌症管理手册
- 辣椒育苗移栽田间管理规程
- 蔬菜产品农残快速检测方案
- 脉诊检查评估操作流程
- 牦牛夏季放牧补饲技术指引
- 风电场绝缘测试方案
- 排污单位环境风险管理指南
- 失智老人日常看护作业指引手册
- 骨盆骨折专科学习课件
- 检验科专业知识培训
- 2025年北京市建华实验亦庄学校公开招聘聘任制教师(第三批)笔试历年典型考题(历年真题考点)解题思路附带答案详解
- GB/T 18280.2-2025医疗产品灭菌辐射第2部分:建立灭菌剂量
- 代打战神协议书
- 2025广东佛山顺德农商银行秋季招聘参考试题附答案解析
- 智慧口腔医疗:AI精准诊疗方案
- 沈阳地铁培训笔试题目及答案
- 《药学基础化学实验(第2版)》物理化学课件 7次甲基蓝在活性炭上的吸附比表面积测定
- 2025年广东公务员考试申论试题(县级及以上)及答案
- 工地春节前安全教育培训
评论
0/150
提交评论